L’´et´e 2010 Cours 12 — le 22 juin
12.1. Un rappel bref. L’intervalle de pari encadre la moyenne d’´echantillon : µ− aσ
√n ≤X¯ ≤µ+ aσ
√n.
Ici µ= E(X1)est la moyenne de la population,σ est l’´ecart-type de la population, eta est une valeur extrˆeme, ou bien le quantile sup´erieure corr´espondant `a α/2 de la loi normale N(0,1). La probabilit´e queX¯ appartienne `a l’intervalle de pari est ´egale1−α:
P
µ− aσ
√n ≤X¯ ≤µ+ aσ
√n
= 1−α.
(La condition :n ≥30.)
On appelleαle risque, et1−αle niveau de confiance. La valeur
√aσ n est dite l’incertitude (absolue), ou bien la pr´ecision.
L’intervalle de confiance encadre µplutˆot que X, et de plus la valeur g´en´eralement in-¯ connu deσest remplac´ee par la valeursde l’´ecart-type d’´echantillon :
(12.1) X¯ − as
√n ≤µ≤X¯ + as
√n.
Sin ≥30est suffisamment grande, on d´eduit la mˆeme conclusion : au niveau de confiance 1−α, la double in´egalit´e (12.1) a lieu :
P
X¯ − aσ
√n ≤µ≤X¯+ aσ
√n
= 1−α.
On note
sM = s
√n l’´ecart-type de la moyenne d’´echantillon.
1
12.2. L’invervalle de confiance pour une proportion. SoitX une variable al´eatoire, pas forc´ement num´erique. SoitAune classe quelconque des valeurs deX. Nous voulons estimer la probabilit´e
π =P[X ∈A],
`a partir d’un ´echantillon des valeurs deX, tir´ees au hasard : {x1, x2, . . . , xn}.
NotonsnAle nombre des indicesi= 1,2, . . . , ntels quexi ∈A. On note par p= nA
n
la fr´equence relative de A, ou bien la proportion observ´ee de l’´ev`enement X ∈ A. Quelle est la relation entrepetπ? Peut-on utiliserpcomme un estimateur statistique deπ? Si oui, quel est l’intervalle de confiance pourπau niveau de confiance donn´e ?
On r´eduit le probl`eme facilement au probl`eme de l’intervalle de confiance pour la moyenne.
D´efinissons une variable al´eatoireY =IY (le fonction indicatrice deA) comme suit : Y =
(1, siX ∈A, 0, siX /∈A.
Il est claire que
Y¯ = nA
n =p.
Pour l’´echantillon corr´espondant y1, y2, . . . , yn des valeurs binaires de Y, o`u yi = 1si et seulement sixi ∈A, on obtient, en utilisant le fait que12 = 1et02 = 0:
s2(y) = Pn
i=1(yi−y)¯ 2 n−1
= Pn
i=1yi2−2¯yPn
i=1yi+ny¯2 n−1
= Pn
i=1yi2−n¯y2 n−1
= Pn
i=1yi−ny¯2 n−1
= nA−nn2A
n−1
= nA(n−nA) n(n−1) .
D’ici, on d´eduit pour l’´ecart-type de la proportion d’´echantillon x1, x2, . . . , xn (= l’´ecart- type de la moyenne d’´echantillony1, . . . , yn) :
sM = s
√n =
snA(n−nA) n2(n−1) =
pp(1−p)
√n−1 .
Le r´esultat (12.1) s’applique et nous donne l’intervalle de confriance pour la moyenne deY, c.`a.d. pour la proportion deX:
¯
y−asM ≤E(Y)≤y¯+asM, ou, en d’autres mots,
(12.2) p−a
pp(1−p)
√n−1 ≤π ≤p+a
pp(1−p)
√n−1 . On en conclut : la probabilit´e de l’´ev`enement
"
|p−π| ≤a
pp(1−p)
√n−1
#
et ´egale `a1−α.
La condition sur n est l´eg`erement diff´erente que dans le cas g´en´erale d’une moyenne d’´echantillon : on utilise la loi normale si
n≥max 5
p, 5 1−p
.
Sinon, la loi de Studenttn−1avecn−1degr´es de libert´e doit ˆetre utilis´ee afin de d´eterminer le quantilea.
Exercice 12.1. Dans l’´etude de survie sur n = 100malades dont20sont d´eced´es, quel est l’intervalle de confiance pour l’estimation de la survie au95%?
Ici on a p = 80/100 = 0.8 (car il s’agit de la survie, pas du d´ec`es), α = 5% = 0.05 (puisque le niveau de confiance 1−α = 0.95), d’o`u on d´eduit a ≈ 1.96(le quantile de la loi normale qui correspond `a α/2 = 0.025, carn = 100 > 5/0.2 = 25), et l’intervalle de confiance est donn´e par la formule (12.2) :
0.2±1.96·
r0.2·0.8
99 ≈[0.72,0.88].
Au niveau de confiance95%, la probabilit´e de survie se trouve entre72%et88%.
Exercice 12.2. De mˆeme, pourn= 20malades dont4sont d´eced´es.
La proportion observ´ee p = 16/20 = 0.8est la mˆeme que dans le probl`eme pr´ecedant.
Pourtant, maintenant on a
n= 20 < 5
1−p = 5
0.2 = 25,
donc le quantileadoit ˆetre recherch´e avec l’aide de la loi de Studenttn−1 avecn−1 = 19 degr´es de libert´e, plutˆot que la loi normaleN(0,1). On utilise R commander pour retrouver a = 2.093..., et l’intervalle de confiance devient
0.8±2.093·
r0.2·0.8
19 ≈[0.61,0.992].
L’intervalle de confiance pour la survie est ´egal `a[61%,100%]. Tout ce qu’on peut dire avec le risque de se troumper au5%, c’est que le pourcentage de la survie est plus grand ou ´egal
`a61%.
La taille d’´echantillon est trop petite pour faire des conclusions plus pr´ecises.
12.3. Comment d´eterminer l’effectif d’´echantillon. Car X¯ est un estimateur non biais´e de la moyenneµ(en d’autres mots,X¯ converge en probabilit´e versµ), on connait que, sin est suffisamment grand, on peut atteindre une pr´ecision donn´ee d’avance.
Quel exactement est l’effectif d’´echantillonnn´ecessaire pour connaˆıtre une moyenne avec une pr´ecision et au niveau de confiance donn´es ?
Soient α > 0 et i > 0 fix´es d’avance. On veut que l’incertitude absolue, c.`a.d., l’´ecart entre la moyenne de la population et la moyenne observ´ee, ne d´epasse pas i, au niveau de confiance1−α. On obtient la double l’in´egalit´e
|X¯ −µ| ≤ aσ
√n ≤i,
d’o`u
(12.3) n ≥ a2σ2
i2 .
L’application pratique suppose qu’on connaisseσ2 =var(X1), la variance th´eorique de la distribution, ou bien au moins une limite sup´erieure pourσ2. Il y a trois possibilit´es.
(1) Si la variable X prends ces valeurs dans un intervalle connu [c, d], alors on peut en conclure que σ2 prends ces valeurs dans l’intervalle (d−c)2. On obtient donc l’estimationn≥a2(d−c)2/i2.
(2) Parfois on d´eduit une estimation deσ2 de l’hypoth`ese.
(3) Finalement, on peut remplacerσ2 avec la variance d’´echantillon,s2, trouv´ee pour un petit ´echantillon pendant une ´etude pr´eliminaire (´etude pivote).
L’approche derni`ere nous am`ene `a l’estimation
(12.4) n≥ a2s2
i2 .
Pourtant, s2 n’est qu’une estimation approximative de σ2, l’´echantillon de l’´etude pivote
´etant petit, donc c’est une bonne id´ee, de chercher l’intervalle de confiance pourσ2.
12.4. L’intervalle de confiance pour la variance. La variance th´eorique de la distribu- tion (de la population), σ2, est une constante. Par contre, la variance d’´echatillon s2 est une variable al´eatoire, car sa valeur d´epend de l’exp´erience al´eatoire telle que le choix d’´echantillon. Elle fluctue autour deσ2.
Comme d’habitude, on mod´elise un ´echantillonx1, x2, . . . , xnavec une suiteX1, X2, . . . , Xn
des variables al´eatoires ind´ependants qui sont distribu´ees selon la mˆeme loi. L’´echantillon x1, x2, . . . , xnest une estimation ponctuelle de la familleX1, X2, . . . , Xn: pour un ´ev`enement
´el´ementaires∈Sdans l’ensemble fondamental, on a
x1 =X1(s), x2 =X2(s), . . . , xn =Xn(s).
En bref, un ´ev`enement ´el´ementaire s’est produit, et on obtient un ´echantillonx1, x2, . . . , xn...
Th´eor`eme 12.3. Supposons queX1(doncX2, X3, . . . , Xn) suivent la loi normale, etn ≥30.
Notonsσ =σ(X1). Alors la variable al´eatoires2, la variance d’´echantillonX1, X2, . . . , Xn
est distribu´ee selon la loi normale N
σ2,2σ4 n
.
On en d´eduit :
|σ2−s2| ≤a r2σ4
n =aσ2
√2
√n, d’o`u
s2−aσ2
√2
√n ≤σ2 ≤s2+aσ2
√2
√n. L’in´egalit´e `a la gauche nous donne :
s2−aσ2
√2
√n ≤σ2, d’o`u
s2 ≤aσ2
√2
√n +σ2,
s2 ≤σ2 1 +a
√2
√n
! , et enfin
s2
1 +a√√n2 ≤σ2.
De fac¸on semblable, `a partir de l’in´egalit´e `a droite, on obtient σ2 ≤ s2
1−a√√n2.
Voici l’intervalle de confiance pour la variance th´eoriqueσ2 :
(12.5) s2
1 +a√√n2 ≤σ2 ≤ s2 1−a√√n2.
Soulignons que cette intervalle est seulement valable si X1 suit la loi normale et la taille d’´echantillonn≥30.
Donc, en estimant la taille d’´echantillon n´ecessaire pour obtenir la pr´ecision donn´ee iau niveau de confiance1−α, il est plus prudent de remplacerσ2avec la borne sup´erieure s2
a√√2
n−1, de moins si nous avons la raison `a croire queX1 suit la loi normale :
(12.6) n≥ a2s2
i2
1−a√√n2 .
Exercice 12.4. On veut estimer la valeur moyenneµdu taux s´erique d’une certaine substance chez les patients atteints d’une maladieM. Une enquˆete pivote sur un petit ´echantillon de30 patients a estim´ex¯= 21.7ets2 = 4.1. Quelle doit ˆetre la taillend’´echantillon `a constituer pour connaˆıtre la valeur moyenne `a0.1pr`es, au niveau de confiance95%?
Le contenu des substances chimiques dans le sang suit approximativement un loi normale, et de plusn= 30est suffisamment grand, donc on peut utiliser (12.6), pour en d´eduire :
n≥ 1.962·4.1 0.12
1−1.96√√302 ≈3189.