• Aucun résultat trouvé

1 Intervalles de confiance.

N/A
N/A
Protected

Academic year: 2022

Partager "1 Intervalles de confiance."

Copied!
4
0
0

Texte intégral

(1)

ÉCS2

La construction d’intervalles de confiance

1 Intervalles de confiance.

1.1 Un exemple classique : le sondage

1.1.1 Insuffisance de l’estimation ponctuelle

Avant une élection opposant deux candidatsAetB, on effectue un sondage en interro- geant unn-échantillon d’électeurs sur leur intention de vote, pour estimer la proportionp dans toute la population des électeurs prêts à voterA. On exclut les votesblancsounuls.

On fait les hypothèses suivantes :

¬ chaque sondé répondAouB(on exclut la catégorie« ne se prononce pas ») ;

­ la taille du corps électoral complet (disons au moins quelques millions d’électeurs) autorise à admettre que les réponses données par les sondées sont indépendantes les unes des autres.

On note Xi la variable indicatrice de l’événement « le ième sondé est favorable à A », de sorte que :

(Xi)est unn-échantillon d’une variableX de loiB(p).

La loi faible des grands nombres assure déjà que Xn

déf.= 1 n

n

X

i=1

Xi est un estimateur convergent dep.

En notant xn la proportion des sondés favorables à A constatée à l’issue du sondage (xn est une estimation obtenue à partir de l’estimateur Xn), plus n est grand, plus la probabilité quexn s’éloigne depest proche de0.

Ceci dit, nous n’avons aucun renseignement sur la vitesse de la convergence. Par exemple, on peut penser que le sondage sera d’autant plus précis que le nombre de sondés est grand : une estimationx10 000 '52% permettrait a priori de mieux cernerpqu’une estimationx100'52%, puisque le premier échantillon est100fois plus grand que le second.

1.1.2 Construction d’intervalles de confiance à l’aide de l’inégalité de Bienaymé-Tchebychev

PuisqueE(Xn) =petV(Xn) =p(1−p)

n , l’inégalité de Bienaymé-Tchebychev appliquée àXn donne, pour ε >0,

P( Xn−p

< ε)>1−p(1−p) ε2n , que l’on peut encore écrire

P(Xn−ε < p <Xn+ε)>1−p(1−p) ε2n ,

Ainsi, l’intervalle

Xn−ε; Xn

contient p avec une probabilitéau moins égale à 1−p(1−p)

ε2n . En l’état, la minoration de cette probabilité est inexploitable, puisqu’elle dépend dep, que nous cherchons à estimer !

Cependant, en remarquant que p(1−p) =−p2+p=−

p−1

2 2

+1

4 doncp(1−p)6 1 4, on obtient la minoration suivante, indépendante dep,

P(Xn−ε < p <Xn+ε)>1− 1 4ε2n,

Si l’on veut pouvoir affirmer queP(Xn−ε < p <Xn+ε)>1−α, il suffit de choisirε tel queα= 1

2n, c’est-à direε= 1 2√

αn. Alors P

Xn− 1 2√

αn< p <Xn+ 1 2√

αn

>1−α.

En reprenant le sondage envisagé précédemment, avecα= 5%, on arrive auxestimations par intervalles suivantes :

• x100= 0,52donneP(29,6%< p <74,4%)>95%, ce qui n’est guère décisif.

• x10 000= 0,52donneP(49,8%< p <54,2%)>95%, ce qui devient décisif, puisque la victoire deAest équivalente àp >50%... au prix d’un échantillon important de10 000 sondés.

Les paragraphes suivants nous montrerons que l’on peut largement affiner ces résultats, et que de si gros échantillons ne sont pas nécessaires.

1.2 Définition et interprétation

1.2.1 Définition

Soit α ∈ ] 0 ; 1 [. Soit (Un)n>1 et (Vn)n>1 deux suites d’estimateurs d’un paramètre θ∈Θ. On dit que[Un,Vn]est un intervalle de confiance deθau niveau de confiance1−α (ou au risqueα) si, pour toutθ deΘ,

Pθ([Un6θ6Vn])>1−α.

La réalisation sur un échantillon fournit une estimation de cet intervalle de confiance.

1.2.2 Interprétation

Insistons d’abord sur le fait que l’intervalle de confiance [Un,Vn] est une grandeur aléatoire puisque ses bornes sont des variables aléatoires. Par contre, le paramètreθ n’a rien d’aléatoire : il est inconnu et on cherche à l’estimer. Aussi est-il préférable de dire que

« l’intervalle a une probabilité 1−αde contenir le paramètreθ»plutôt que« le paramètre θ a une probabilité 1−αd’appartenir à l’intervalle ».

Lycée HenriPoincaré 1/4 lo

(2)

ÉCS2

La construction d’intervalles de confiance

De la même façon, on évitera les expressions abusives lors de la réalisation d’intervalles de confiance.

Dans l’exemple précédent, je n’aurais pas dû écrire : P(29,6%< p < 74,4%)>95%, car :

• le paramètre à estimer pest certes inconnu mais n’a rien d’aléatoire :pest la pro- portion d’électeurs favorables àAdans la population ;

• l’intervalle[29,6%; 74,4%]n’a rien d’aléatoire.

Dans ces conditions, écrireP(29,6%< p <74,4%)>95%n’a aucun sens(1).

Une expression correcte est, par exemple, « [29,6% ;74,4%] est une réalisation d’un intervalle de confiance au niveau 95% pourp».

Enfin,1−αdésigne leniveau de confiance de l’intervalle, tandis queαest lerisqueque l’intervalle ne contienne pas la vraie valeur deθ.

1.3 Autre exemple fréquent : intervalle pour l’espérance d’une loi normale d’écart-type connu

Soit µ ∈ R et σ ∈ ] 0 ; +∞[. Partant d’un n-échantillon (Xi) d’une variable de loi N µ;σ2

dont on connaît l’écart-typeσ, on souhaite estimer l’espéranceµ.

Toujours en notant Xn la nème moyenne empirique de l’échantillon, la loi faible des grands nombres assure

Xn−→P µ.

De plus, par stabilité par addition de variables indépendantes et par stabilité affine,Xn suit la loi normale centrée réduiteN(0; 1).

Or Xndéf.= Xn−µ σ/√

n permet de maîtriser l’écart

Xn−µ .

Soitα∈] 0 ; 1 [. Il existe un unique réeltα dans] 0 ; +∞[tel que P

Xn−µ

6tα

= 1−α.

En effet : P

Xn

6tα

= 1−α⇔2Φ(tα)−1 = 1−α⇔Φ(tα) = 1−α 2.

Or Φest une bijection de] 0 ; +∞[sur] 1/2 ; +∞[(continue strictement croissante) et 1−α

2 ∈] 1/2 ; +∞[.

On a alors :

P

Xn−µ

6tασ/√ n

= 1−α.

D’où l’intervalle de confiance au niveau 1−αpourµ: P

µ∈

Xn−tασ

√n; Xn+tασ

√n

= 1−α.

(1). Et je n’y ai eu recours que pour une première compréhension du propos, à affiner ...

2 Intervalles de confiance asymptotiques

2.1 Retour à l’exemple du sondage

Reprenons le sondage initial. En s’inspirant du point précédent, puisque d’après le théo- rème limite central,

Xn−→L N(0; 1), on peut affirmer, par le même cheminement,

n→+∞lim P p∈

"

Xn−tα

pp(1−p)

√n ; Xn+tα

pp(1−p)

√n

#!

= 1−α.

Il se pose à nouveau le problème d’estimer p à l’aide p

p(1−p), mais là encore, la majorationp

p(1−p)6 1

2 permet d’écrire :

n→+∞lim P

p∈

Xn− tα

2√

n; Xn+ tα

2√ n

>1−α.

Nous avons construit unintervalle de confiance asymptotique pourp.

Regardons les réalisations de ces intervalles obtenues avec une fréquence observée sur l’échantillon de52%.

Pour un risque α = 5%, tα ' 1,96 convient car, par lecture de la table de Φ, on a Φ(tα)'97,5% = 1−α

2.

• x100= 0,52donne pour réalisation[ 42,2% ; 61,8% ].

• x10 000= 0,52donne pour réalisation[ 51% ; 53% ], ce qui devient très décisif...

2.2 Définition

Soitα ∈[ 0 ; 1 ]. Soit (Un)n>1 et (Vn)n>1 deux suites d’estimateurs deθ. On dit que [Un,Vn]est un intervalle de confiance asymptotique deθau niveau de confiance1−α(ou au risqueα) si, pour toutθ deΘ, il existe une suite (αn)n>1de réels de[ 0 ; 1 ], de limite α, telle que :

∀n>1,P([Un6θ6Vn])>1−αn. De façon allégée, on souhaite essentiellement : lim

n→+∞P([Un6θ6Vn])>1−α.

La réalisation sur un échantillon fournit une estimation de cet intervalle de confiance asymptotique.

2.3 Intervalles de confiance asymptotiques pour l’espérance, à écart-type connu

Si une suite de variables (Xi)i>1, d’espérance µ à estimer et d’écart-type σ connu, satisfait les hypothèses du théorème limite central, alors les calculs précédents montrent

Lycée HenriPoincaré 2/4 lo

(3)

ÉCS2

La construction d’intervalles de confiance

que :

n→+∞lim P

µ∈

Xn−tασ

√n; Xn+tασ

√n

= 1−α.

Autrement dit,

Xn−tασ

√n; Xn+tασ

√n

est un intervalle de confiance asymptotique pour l’espéranceµ.

2.4 Intervalles de confiance asymptotiques pour l’espérance, à écart-type inconnu

Si une suite de variables (Xi)i>1, d’espérance µ à estimer et d’écart-type σ inconnu, satisfait les hypothèses du théorème limite central et si on sait estimer l’écart-type par un estimateur convergent, on va pouvoir construire des intervalles de confiance par la même méthode que les précédents.

2.4.1 Un estimateur convergent de l’écart-type

Si on ne dispose pas d’un estimateur convergent de l’écart-type, on peut s’appuyer sur l’écart-type empirique, à condition que lesXi possèdent un moment d’ordre4(2) :

Vndéf.= 1 n

n

X

i=1

Xi−Xn2

lanème variance empirique et Sndéf.= √

Vn lenème écart-type empirique.

Alors

Sn est un estimateur convergent deσ.

En effet, Vn= 1

n

n

X

i=1

X2i − 2 nXn

n

X

i=1

X2i + Xn= 1 n

n

X

i=1

X2i −X2n

Or :E(X2i) =V(Xi) +E(Xi)222et E(X2n) =V(Xn) +E(Xn)22 n +µ2. Par linéarité :E(Vn) = n−1

n σ2−−−−−→

n→+∞ σ2, ce qui fait deVn un estimateur asympto- tiquement(3) sans biais deσ2.

On peut aussi montrer que :

V(Vn) =(n−1)2

n3 µ4−(n−1)(n−3) n3 σ4,

(2). Ce qui est le cas de toutes nos variables usuelles de référence.

(3). Et on peut noter que la variance empiriquecorrigée 1 n1

n

X

i=1

XiXn

2

est un estimateur sans biais deσ2.

où µ4

déf.= E((Xi−µ)4) désigne le moment centré d’ordre 4 des variables Xi, et par conséquentV(Vn)−−−−−→

n→+∞ 0.

Ainsi le risque quadratique deVntend vers0etVnest un estimateur convergent deσ2. En composant par la fonction√

.continue sur] 0 ; +∞[,Snest un estimateur convergent deσ.

2.4.2 Construction d’intervalles (doublement) asymptotiques Nous avons alors

• √

nXn−µ σ

−→L N(0; 1)par le théorème limite central,

• Sn P

−→σ (Sn estimateur convergent de σ), donc σ Sn

−→P 1 par composition par la fonctionx7→ σ

x continue sur] 0 ; +∞[.

Par le théorème deSlutsky,

√nXn−µ Sn

−→L N(0; 1).

Comme dans les constructions précédentes, on peut alors écrire : P

√nXn−µ Sn

6tα

−−−−−→

n→+∞ 1−α P

Xn−µ

6 tαSn

√n

−−−−−→

n→+∞ 1−α Et finalement,

P

µ∈

Xn−tαSn

√n ; Xn+tαSn

√n

−−−−−→

n→+∞ 1−α,

ce qui donne un intervalle de confiance asymptotique de niveau1−αpourµ.

Remarquons que nous avons effectué un double passage à la limite :

• par le théorème limite central ;

• par l’estimation deσà l’aide deSn.

Ceci justifie l’adverbedoublement du titre de ce paragraphe. En général, on parle d’in- tervalle de confiance asymptotique sans mentionner ce double passage à la limite.

2.4.3 Retour au sondage, fin ! En estimant l’écart-type p

p(1−p) par l’estimateur convergent(4) q

Xn(1−Xn), on obtient finalement l’intervalle de confiance asymptotique pour la proportionp:

(4). En effet,Xn−→P petx7→p

x(1−)est continue sur[ 0 ; 1 ]. Cet estimateur est l’écart-type empirique présenté en 2.4.2., puisqu’iciVn= XnX2n= Xn(1Xn), carX2i = Xi...

Lycée HenriPoincaré 3/4 lo

(4)

ÉCS2

La construction d’intervalles de confiance

P

p∈

Xn−tα q

Xn(1−Xn)

√n ; Xn+ tα

q

Xn(1−Xn)

√n

−−−−−→

n→+∞ 1−α.

3 Bilan : construction d’intervalles de confiance (asymptotiques) pour estimer une espérance

Soit (Xi)unn-échantillon d’une variable aléatoireX possédant une espéranceµ et un écart-typeσ. On souhaite construire des intervalles de confiance éventuellement asympto- tiques pourµ, au niveau de confiance1−αavecα∈] 0 ; 1 [.

¶ On privilégie toujours l’utilisation de la loi normale, donc du théorème limite central, à l’utilisation de l’inégalité de Bienaymé-Tchebychev, car les intervalles obtenus sont toujours beaucoup plus précis.

· On utiliseXn,nème moyenne empirique desXi, comme estimateur deµ. La loi faible des grands nombres assure que c’est un estimateur sans biais et convergent deµ.

¸ On applique le théorème limite central :

Xndéf.= √

nXn−µ σ

−→L X,→N(0; 1),

qui fournit :

n→+∞lim P

Xn−µ 6 tασ

√n

= 1−α

oùtαest l’unique réel tel queP(|X|6tα) = 1−α, soit 2Φ(tα)−1 = 1−α

ou encoreΦ(tα) = 1−α 2

¹ Au passage, une petite table numérique :

α 10% 5% 1%

1−α 90% 95% 99%

tα 1,645 1,960 2,576

º On obtient alors l’intervalle de confiance asymptotique

P

µ∈

Xn−tασ

√n; Xn−tασ

√n

−−−−−→

n→+∞ 1−α

» Si σ n’est pas connu, on peut l’estimer à l’aide d’un estimateur convergent Sn. En particulier, on peut prendre :

• pour des lois de Bernoulli, Sn= q

Xn(1−Xn)−→P p

p(1−p);

• pour des lois de Poisson,Sn =p Xn P

−→√ λ;

• pour des lois exponentielles,Sn = Xn−→P 1 λ;

• pour des lois normales,Sn= v u u t 1 n

n

X

i=1

Xi−Xn

2 P

−→σ(c.f§ 2.4.1).

Par le théorème deSlutsky (cf.§ 2.4.2),

√nXn−µ Sn

−→L N(0; 1).

Et finalement, P

µ∈

Xn−tαSn

√n ; Xn+tαSn

√n

−−−−−→

n→+∞ 1−α,

ce qui donne un intervalle de confiance asymptotique de niveau1−αpourµ.

On évitera d’apprendre ce résultat par cœur et on saura l’établir.

4 Application à d’autres lois

4.1 Lois de Poisson

Si(Xi)est unn-échantillon deP(λ), montrer que P λ∈

"

Xn−tαp Xn

√n ; Xn+tαp Xn

√n

#!

−−−−−→

n→+∞ 1−α,

4.2 Lois exponentielles

Si(Xi)est unn-échantillon deE(λ), montrer que P

1 λ ∈

Xn−tαXn

√n ; Xn+tαXn

√n

−−−−−→

n→+∞ 1−α,

Lycée HenriPoincaré 4/4 lo

Références

Documents relatifs

Donner un intervalle de fluctuation au seuil de 95% de la fr´ equence de personnes satisfaits de la qualit´ e des produits commercialis´ es par son entreprise2. Parmi les

Combien de copies doit-il corriger s’il veut situer la moyenne générale de ses étudiants dans un intervalle de confiance d’amplitude 2, avec un risque de 5%.. En trouvant une

Les billes m´ etalliques1. La moyenne

S’il existe des critères pour juger des qualités d’un estimateur ponctuel T n de g (θ ) (biais, risque, convergence), aucune certitude ne peut jamais être apportée quant au fait

Elle réalise un sondage : les personnes interrogées sont choisies au hasard parmi la clientèle (suffisamment importante pour que ce choix soit assimilé à un tirage avec

(Enquˆete) On effeue une enquˆete, durant une ´epid´emie de grippe, dans le but de connaˆıtre la proportion p de personnes pr´esentant ensuite des complications graves.. On observe

Sa diffusion, duplication, mise à disposition du public (sous quelque forme ou support que ce soit), mise en réseau, partielles ou totales, sont strictement réservées à

Le problème de l’estimation consiste alors à estimer la vraie valeur du paramètre θ ou de g(θ) (fonction à valeurs réelles du paramètre θ ), à partir d’un échantillon de