Universit´e de Strasbourg S´egolen Geffray M1 - Math´ematiques fondamentales geffray@math.unistra.fr
Statistique Ann´ee 2020/2021
TP1: illustration des propri´et´es d’un intervalle de confiance
Le but de ce TP est de proposer une illustration par simulations les propri´et´es fr´equentistes d’un intervalle de confiance pour un param`etre r´eel not´e θ lorsque cet intervalle est d´etermin´e
`
a partir d’un ´echantillon i.i.d. not´e (X1, ..., Xn).
Donnons-nous un niveau de confiance not´e (1−α)choisi dans ]0; 1[ id´ealement le plus proche possible de 1. Le choix classique est (1−α) = 0.95. Un intervalle de confiance pourθau niveau de confiance (1 −α) consiste en la donn´ee de deux statistiques (= fonctions mesurables de l’´echantillon) ne d´ependant pas deθ, ni d’aucun param`etre inconnu, not´eesθbn,inf =ϕ1(X1, ..., Xn) et θbn,sup =ϕ2(X1, ..., Xn), telles que pour tout θ∈Θ, on a:
Pθ[bθn,inf ≤θ ≤bθn,sup] = 1−α. (1) Lorsque l’´egalit´e (1) est vraie pour toutn, on dit qu’il s’agit d’unIC `a distance finie. Lorsque l’´egalit´e (1) est vraie asymptotiquement, on dit qu’il s’agit d’un IC asymptotique.
NB: L’intervalle [ϕ1(x1, ..., xn), ϕ2(x1, ..., xn)] est d´eterministe, il n’a donc pas une probabilit´e de (1−α) de contenirθ. Seul l’intervalle al´eatoire [ϕ1(X1, ..., Xn), ϕ2(X1, ..., Xn)] poss`ede cette propri´et´e fr´equentiste.
Notons
Xn= 1 n
n
X
i=1
Xi et Sn02 = 1 n−1
n
X
i=1
Xi−Xn
2
.
• Intervalle de confiance bilat´eral sym´etrique pour θ =E[X] pour un grand ´echan- tillon i.i.d. de loi admettant un moment d’ordre 2:
• L’intervalle de confianceasymptotique bilat´eral pourθ au niveau de confiance (1−α) est issu de l’encadrement en probabilit´e suivant
P
"
Xn−FN−1(1−α/2) pSn02
√n ≤θ≤Xn+FN−1(1−α/2) pSn02
√n
#
≈1−α ,
l’approximation ´etant d’autant meilleure quen est grand.
La notationFN−1(1−α/2) d´esigne le quantile d’ordre (1−α/2) de la loi gaussienne standard not´eeN(0,1).
• Il y a une probabilit´e ´egale environ `a (1−α) pour que l’intervalle de confiance al´eatoire contienne la moyenne de la population, l’approximation ´etant d’autant meilleure que n est grand.. De mani`ere `a peu pr`es ´equivalente, sur 100 r´ealisations de l’intervalle de confiance, le param`etre inconnu sera effectivement dans la fourchette propos´ee dans environ (1−α)100% des cas, l’approximation ´etant d’autant meilleure que n est grand.
1
• Intervalle de confiance bilat´eral sym´etrique pour θ = E[X] pour un ´echantillon i.i.d. gaussien de taille quelconque:
• L’intervalle de confiance bilat´eral pour θ au niveau de confiance (1−α) est issu de l’encadrement en probabilit´e suivant
P
"
Xn−FT−1(n−1)(1−α/2) pSn02
√n ≤θ ≤Xn+FT−1(n−1)(1−α/2) pSn02
√n
#
= 1−α ,
o`u FT−1(n−1)(1−α/2) d´esigne le quantile d’ordre (1−α/2) de la loi de Student `a (n−1) degr´es de libert´e not´eeT(n−1).
• Il y a une probabilit´e d’exactement (1−α) pour que l’intervalle de confiance al´eatoire contienne la moyenne de la population. De mani`ere `a peu pr`es ´equivalente, sur 100 r´ealisations de l’intervalle de confiance, le param`etre inconnu sera effectivement dans la fourchette propos´ee dans (1−α)100% des cas.
• Intervalle de confiance bilat´eral sym´etrique pour θ =E[X] pour un grand ´echan- tillon i.i.d. de loi de Poisson:
• L’intervalle de confianceasymptotique bilat´eral pourθ au niveau de confiance (1−α) est issu de l’encadrement en probabilit´e suivant
P
"
Xn−FN−1(1−α/2) pXn
√n ≤θ≤Xn+FN−1(1−α/2) pXn
√n
#
≈1−α , l’approximation ´etant d’autant meilleure quen est grand.
La notationFN−1(1−α/2) d´esigne le quantile d’ordre (1−α/2) de la loi gaussienne standard not´eeN(0,1).
• Il y a une probabilit´e ´egale environ `a (1−α) pour que l’intervalle de confiance al´eatoire contienne la moyenne de la population. De mani`ere `a peu pr`es ´equivalente, sur 100 r´ealisations de l’intervalle de confiance, le param`etre inconnu sera effectivement dans la fourchette propos´ee dans (1−α)100% des cas.
• Intervalle de confiance bilat´eral sym´etrique pour θ = E[X] pour un ´echantillon i.i.d. de loi de Poisson de taille quelconque:
• L’intervalle de confiance bilat´eral pour θ au niveau de confiance (1−α) est issu de l’encadrement en probabilit´e suivant
P
− 1
√4nα + r 1
4nα+Xn
!2
≤θ≤ 1
√4nα+ r 1
4nα+Xn
!2
≥1−α .
• Il y a une probabilit´e d’au moins (1 −α) pour que l’intervalle de confiance al´eatoire contienne la moyenne de la population, l’approximation ´etant d’autant meilleure quenest grand. De mani`ere `a peu pr`es ´equivalente, sur 100 r´ealisations de l’intervalle de confiance, le param`etre inconnu sera effectivement dans la fourchette propos´ee dans (1−α)100%
des cas, l’approximation ´etant d’autant meilleure que n est grand.
2
• Illustration num´erique:
Elaborer un plan de simulations explicitant le nombre d’´echantillons g´en´er´es not´e M, la taille requise pour l’´echantillon que l’on a not´e n et les diff´erentes lois utilis´ees pour simuler les
´
echantillons. Vous ´etudierez la probabilit´e de couverture (d´efinie comme ´etant la proportion de fois o`u le param`etre inconnu `a estimer appartient effectivement `a l’intervalle de confiance propos´e) et la largeur de l’intervalle propos´e de fa¸con `a illustrer les ´el´ements pr´esent´es ci-dessus.
On utilisera les valeurs M = 1000 et n = 20,50,100,200,500.
Le travail `a effectuer peut se mettre sous la forme de l’algorithme suivant:
•choisir une loi de probabilit´e param´etr´ee parθ (et ´eventuellement d’autres param`etres), not´ee Pθ, pour une valeur fix´ee de θ parmi l’ensemble des valeurs admissibles,
• pour n= 20,50,100,200,500,
• pour m= 1, ..., M,
– simuler un ´echantillon i.i.d.
X1{m}, ..., Xn{m}
selon Pθ,
– calculer les bornes inf´erieure θbn,inf{m} et sup´erieure bθ{m}n,sup de l’intervalle de confiance consid´er´e,
• d´eterminer
– la largeur moyenne empirique de l’intervalle de confiance consid´er´e,
– la probabilit´e de couverture (d´efinie comme ´etant la proportion de fois o`u le param`etre inconnu `a estimer appartient effectivement `a l’intervalle de confiance propos´e).
• recommencer en simulant les donn´ees selon une autre loi.
3