ÉCS2
La construction d’intervalles de confiance
1 Intervalles de confiance.
1.1 Un exemple classique : le sondage
1.1.1 Insuffisance de l’estimation ponctuelle
Avant une élection opposant deux candidatsAetB, on effectue un sondage en interro- geant unn-échantillon d’électeurs sur leur intention de vote, pour estimer la proportionp dans toute la population des électeurs prêts à voterA. On exclut les votesblancsounuls.
On fait les hypothèses suivantes :
¬ chaque sondé répondAouB(on exclut la catégorie« ne se prononce pas ») ;
la taille du corps électoral complet (disons au moins quelques millions d’électeurs) autorise à admettre que les réponses données par les sondées sont indépendantes les unes des autres.
On note Xi la variable indicatrice de l’événement « le ième sondé est favorable à A », de sorte que :
(Xi)est unn-échantillon d’une variableX de loiB(p).
La loi faible des grands nombres assure déjà que Xn
déf.= 1 n
n
X
i=1
Xi est un estimateur convergent dep.
En notant xn la proportion des sondés favorables à A constatée à l’issue du sondage (xn est une estimation obtenue à partir de l’estimateur Xn), plus n est grand, plus la probabilité quexn s’éloigne depest proche de0.
Ceci dit, nous n’avons aucun renseignement sur la vitesse de la convergence. Par exemple, on peut penser que le sondage sera d’autant plus précis que le nombre de sondés est grand : une estimationx10 000 '52% permettrait a priori de mieux cernerpqu’une estimationx100'52%, puisque le premier échantillon est100fois plus grand que le second.
1.1.2 Construction d’intervalles de confiance à l’aide de l’inégalité de Bienaymé-Tchebychev
PuisqueE(Xn) =petV(Xn) =p(1−p)
n , l’inégalité de Bienaymé-Tchebychev appliquée àXn donne, pour ε >0,
P( Xn−p
< ε)>1−p(1−p) ε2n , que l’on peut encore écrire
P(Xn−ε < p <Xn+ε)>1−p(1−p) ε2n ,
Ainsi, l’intervalle
Xn−ε; Xn+ε
contient p avec une probabilitéau moins égale à 1−p(1−p)
ε2n . En l’état, la minoration de cette probabilité est inexploitable, puisqu’elle dépend dep, que nous cherchons à estimer !
Cependant, en remarquant que p(1−p) =−p2+p=−
p−1
2 2
+1
4 doncp(1−p)6 1 4, on obtient la minoration suivante, indépendante dep,
P(Xn−ε < p <Xn+ε)>1− 1 4ε2n,
Si l’on veut pouvoir affirmer queP(Xn−ε < p <Xn+ε)>1−α, il suffit de choisirε tel queα= 1
4ε2n, c’est-à direε= 1 2√
αn. Alors P
Xn− 1 2√
αn< p <Xn+ 1 2√
αn
>1−α.
En reprenant le sondage envisagé précédemment, avecα= 5%, on arrive auxestimations par intervalles suivantes :
• x100= 0,52donneP(29,6%< p <74,4%)>95%, ce qui n’est guère décisif.
• x10 000= 0,52donneP(49,8%< p <54,2%)>95%, ce qui devient décisif, puisque la victoire deAest équivalente àp >50%... au prix d’un échantillon important de10 000 sondés.
Les paragraphes suivants nous montrerons que l’on peut largement affiner ces résultats, et que de si gros échantillons ne sont pas nécessaires.
1.2 Définition et interprétation
1.2.1 Définition
Soit α ∈ ] 0 ; 1 [. Soit (Un)n>1 et (Vn)n>1 deux suites d’estimateurs d’un paramètre θ∈Θ. On dit que[Un,Vn]est un intervalle de confiance deθau niveau de confiance1−α (ou au risqueα) si, pour toutθ deΘ,
Pθ([Un6θ6Vn])>1−α.
La réalisation sur un échantillon fournit une estimation de cet intervalle de confiance.
1.2.2 Interprétation
Insistons d’abord sur le fait que l’intervalle de confiance [Un,Vn] est une grandeur aléatoire puisque ses bornes sont des variables aléatoires. Par contre, le paramètreθ n’a rien d’aléatoire : il est inconnu et on cherche à l’estimer. Aussi est-il préférable de dire que
« l’intervalle a une probabilité 1−αde contenir le paramètreθ»plutôt que« le paramètre θ a une probabilité 1−αd’appartenir à l’intervalle ».
Lycée HenriPoincaré 1/4 lo
ÉCS2
La construction d’intervalles de confiance
De la même façon, on évitera les expressions abusives lors de la réalisation d’intervalles de confiance.
Dans l’exemple précédent, je n’aurais pas dû écrire : P(29,6%< p < 74,4%)>95%, car :
• le paramètre à estimer pest certes inconnu mais n’a rien d’aléatoire :pest la pro- portion d’électeurs favorables àAdans la population ;
• l’intervalle[29,6%; 74,4%]n’a rien d’aléatoire.
Dans ces conditions, écrireP(29,6%< p <74,4%)>95%n’a aucun sens(1).
Une expression correcte est, par exemple, « [29,6% ;74,4%] est une réalisation d’un intervalle de confiance au niveau 95% pourp».
Enfin,1−αdésigne leniveau de confiance de l’intervalle, tandis queαest lerisqueque l’intervalle ne contienne pas la vraie valeur deθ.
1.3 Autre exemple fréquent : intervalle pour l’espérance d’une loi normale d’écart-type connu
Soit µ ∈ R et σ ∈ ] 0 ; +∞[. Partant d’un n-échantillon (Xi) d’une variable de loi N µ;σ2
dont on connaît l’écart-typeσ, on souhaite estimer l’espéranceµ.
Toujours en notant Xn la nème moyenne empirique de l’échantillon, la loi faible des grands nombres assure
Xn−→P µ.
De plus, par stabilité par addition de variables indépendantes et par stabilité affine,X∗n suit la loi normale centrée réduiteN(0; 1).
Or X∗ndéf.= Xn−µ σ/√
n permet de maîtriser l’écart
Xn−µ .
Soitα∈] 0 ; 1 [. Il existe un unique réeltα dans] 0 ; +∞[tel que P
X∗n−µ
6tα
= 1−α.
En effet : P
X∗n
6tα
= 1−α⇔2Φ(tα)−1 = 1−α⇔Φ(tα) = 1−α 2.
Or Φest une bijection de] 0 ; +∞[sur] 1/2 ; +∞[(continue strictement croissante) et 1−α
2 ∈] 1/2 ; +∞[.
On a alors :
P
Xn−µ
6tασ/√ n
= 1−α.
D’où l’intervalle de confiance au niveau 1−αpourµ: P
µ∈
Xn−tασ
√n; Xn+tασ
√n
= 1−α.
(1). Et je n’y ai eu recours que pour une première compréhension du propos, à affiner ...
2 Intervalles de confiance asymptotiques
2.1 Retour à l’exemple du sondage
Reprenons le sondage initial. En s’inspirant du point précédent, puisque d’après le théo- rème limite central,
X∗n−→L N(0; 1), on peut affirmer, par le même cheminement,
n→+∞lim P p∈
"
Xn−tα
pp(1−p)
√n ; Xn+tα
pp(1−p)
√n
#!
= 1−α.
Il se pose à nouveau le problème d’estimer p à l’aide p
p(1−p), mais là encore, la majorationp
p(1−p)6 1
2 permet d’écrire :
n→+∞lim P
p∈
Xn− tα
2√
n; Xn+ tα
2√ n
>1−α.
Nous avons construit unintervalle de confiance asymptotique pourp.
Regardons les réalisations de ces intervalles obtenues avec une fréquence observée sur l’échantillon de52%.
Pour un risque α = 5%, tα ' 1,96 convient car, par lecture de la table de Φ, on a Φ(tα)'97,5% = 1−α
2.
• x100= 0,52donne pour réalisation[ 42,2% ; 61,8% ].
• x10 000= 0,52donne pour réalisation[ 51% ; 53% ], ce qui devient très décisif...
2.2 Définition
Soitα ∈[ 0 ; 1 ]. Soit (Un)n>1 et (Vn)n>1 deux suites d’estimateurs deθ. On dit que [Un,Vn]est un intervalle de confiance asymptotique deθau niveau de confiance1−α(ou au risqueα) si, pour toutθ deΘ, il existe une suite (αn)n>1de réels de[ 0 ; 1 ], de limite α, telle que :
∀n>1,P([Un6θ6Vn])>1−αn. De façon allégée, on souhaite essentiellement : lim
n→+∞P([Un6θ6Vn])>1−α.
La réalisation sur un échantillon fournit une estimation de cet intervalle de confiance asymptotique.
2.3 Intervalles de confiance asymptotiques pour l’espérance, à écart-type connu
Si une suite de variables (Xi)i>1, d’espérance µ à estimer et d’écart-type σ connu, satisfait les hypothèses du théorème limite central, alors les calculs précédents montrent
Lycée HenriPoincaré 2/4 lo
ÉCS2
La construction d’intervalles de confiance
que :
n→+∞lim P
µ∈
Xn−tασ
√n; Xn+tασ
√n
= 1−α.
Autrement dit,
Xn−tασ
√n; Xn+tασ
√n
est un intervalle de confiance asymptotique pour l’espéranceµ.
2.4 Intervalles de confiance asymptotiques pour l’espérance, à écart-type inconnu
Si une suite de variables (Xi)i>1, d’espérance µ à estimer et d’écart-type σ inconnu, satisfait les hypothèses du théorème limite central et si on sait estimer l’écart-type par un estimateur convergent, on va pouvoir construire des intervalles de confiance par la même méthode que les précédents.
2.4.1 Un estimateur convergent de l’écart-type
Si on ne dispose pas d’un estimateur convergent de l’écart-type, on peut s’appuyer sur l’écart-type empirique, à condition que lesXi possèdent un moment d’ordre4(2) :
Vndéf.= 1 n
n
X
i=1
Xi−Xn2
lanème variance empirique et Sndéf.= √
Vn lenème écart-type empirique.
Alors
Sn est un estimateur convergent deσ.
En effet, Vn= 1
n
n
X
i=1
X2i − 2 nXn
n
X
i=1
X2i + Xn= 1 n
n
X
i=1
X2i −X2n
Or :E(X2i) =V(Xi) +E(Xi)2=σ2+µ2et E(X2n) =V(Xn) +E(Xn)2=σ2 n +µ2. Par linéarité :E(Vn) = n−1
n σ2−−−−−→
n→+∞ σ2, ce qui fait deVn un estimateur asympto- tiquement(3) sans biais deσ2.
On peut aussi montrer que :
V(Vn) =(n−1)2
n3 µ4−(n−1)(n−3) n3 σ4,
(2). Ce qui est le cas de toutes nos variables usuelles de référence.
(3). Et on peut noter que la variance empiriquecorrigée 1 n−1
n
X
i=1
Xi−Xn
2
est un estimateur sans biais deσ2.
où µ4
déf.= E((Xi−µ)4) désigne le moment centré d’ordre 4 des variables Xi, et par conséquentV(Vn)−−−−−→
n→+∞ 0.
Ainsi le risque quadratique deVntend vers0etVnest un estimateur convergent deσ2. En composant par la fonction√
.continue sur] 0 ; +∞[,Snest un estimateur convergent deσ.
2.4.2 Construction d’intervalles (doublement) asymptotiques Nous avons alors
• √
nXn−µ σ
−→L N(0; 1)par le théorème limite central,
• Sn P
−→σ (Sn estimateur convergent de σ), donc σ Sn
−→P 1 par composition par la fonctionx7→ σ
x continue sur] 0 ; +∞[.
Par le théorème deSlutsky,
√nXn−µ Sn
−→L N(0; 1).
Comme dans les constructions précédentes, on peut alors écrire : P
√nXn−µ Sn
6tα
−−−−−→
n→+∞ 1−α P
Xn−µ
6 tαSn
√n
−−−−−→
n→+∞ 1−α Et finalement,
P
µ∈
Xn−tαSn
√n ; Xn+tαSn
√n
−−−−−→
n→+∞ 1−α,
ce qui donne un intervalle de confiance asymptotique de niveau1−αpourµ.
Remarquons que nous avons effectué un double passage à la limite :
• par le théorème limite central ;
• par l’estimation deσà l’aide deSn.
Ceci justifie l’adverbedoublement du titre de ce paragraphe. En général, on parle d’in- tervalle de confiance asymptotique sans mentionner ce double passage à la limite.
2.4.3 Retour au sondage, fin ! En estimant l’écart-type p
p(1−p) par l’estimateur convergent(4) q
Xn(1−Xn), on obtient finalement l’intervalle de confiance asymptotique pour la proportionp:
(4). En effet,Xn−→P petx7→p
x(1−)est continue sur[ 0 ; 1 ]. Cet estimateur est l’écart-type empirique présenté en 2.4.2., puisqu’iciVn= Xn−X2n= Xn(1−Xn), carX2i = Xi...
Lycée HenriPoincaré 3/4 lo
ÉCS2
La construction d’intervalles de confiance
P
p∈
Xn−tα q
Xn(1−Xn)
√n ; Xn+ tα
q
Xn(1−Xn)
√n
−−−−−→
n→+∞ 1−α.
3 Bilan : construction d’intervalles de confiance (asymptotiques) pour estimer une espérance
Soit (Xi)unn-échantillon d’une variable aléatoireX possédant une espéranceµ et un écart-typeσ. On souhaite construire des intervalles de confiance éventuellement asympto- tiques pourµ, au niveau de confiance1−αavecα∈] 0 ; 1 [.
¶ On privilégie toujours l’utilisation de la loi normale, donc du théorème limite central, à l’utilisation de l’inégalité de Bienaymé-Tchebychev, car les intervalles obtenus sont toujours beaucoup plus précis.
· On utiliseXn,nème moyenne empirique desXi, comme estimateur deµ. La loi faible des grands nombres assure que c’est un estimateur sans biais et convergent deµ.
¸ On applique le théorème limite central :
X∗ndéf.= √
nXn−µ σ
−→L X,→N(0; 1),
qui fournit :
n→+∞lim P
Xn−µ 6 tασ
√n
= 1−α
oùtαest l’unique réel tel queP(|X|6tα) = 1−α, soit 2Φ(tα)−1 = 1−α
ou encoreΦ(tα) = 1−α 2
¹ Au passage, une petite table numérique :
α 10% 5% 1%
1−α 90% 95% 99%
tα 1,645 1,960 2,576
º On obtient alors l’intervalle de confiance asymptotique
P
µ∈
Xn−tασ
√n; Xn−tασ
√n
−−−−−→
n→+∞ 1−α
» Si σ n’est pas connu, on peut l’estimer à l’aide d’un estimateur convergent Sn. En particulier, on peut prendre :
• pour des lois de Bernoulli, Sn= q
Xn(1−Xn)−→P p
p(1−p);
• pour des lois de Poisson,Sn =p Xn P
−→√ λ;
• pour des lois exponentielles,Sn = Xn−→P 1 λ;
• pour des lois normales,Sn= v u u t 1 n
n
X
i=1
Xi−Xn
2 P
−→σ(c.f§ 2.4.1).
Par le théorème deSlutsky (cf.§ 2.4.2),
√nXn−µ Sn
−→L N(0; 1).
Et finalement, P
µ∈
Xn−tαSn
√n ; Xn+tαSn
√n
−−−−−→
n→+∞ 1−α,
ce qui donne un intervalle de confiance asymptotique de niveau1−αpourµ.
On évitera d’apprendre ce résultat par cœur et on saura l’établir.
4 Application à d’autres lois
4.1 Lois de Poisson
Si(Xi)est unn-échantillon deP(λ), montrer que P λ∈
"
Xn−tαp Xn
√n ; Xn+tαp Xn
√n
#!
−−−−−→
n→+∞ 1−α,
4.2 Lois exponentielles
Si(Xi)est unn-échantillon deE(λ), montrer que P
1 λ ∈
Xn−tαXn
√n ; Xn+tαXn
√n
−−−−−→
n→+∞ 1−α,
Lycée HenriPoincaré 4/4 lo