Chapitre 10: Tests et intervalles de confiance pour proportions
1. Test statistique pour une proportion
2. Intervalle de confiance pour une proportion
3. Test statistique pour deux proportions
1. Test statistique pour une proportion
Ex: Taux d’individus ayant une caract´eristique A dans une population.
Soit p = P ( A ) ce taux.
De fa¸con g´en´erale dans ce chapitre, on utilisera la notation q = 1 − p
(de mˆeme, q ˆ = 1 − p, etc.) ˆ
– Hypoth`eses
H
0: p = p
0H
1: p 6 = p
0– Echantillon
Tirage al´eatoire de n individus
– Statistique de test (“distance” entre H
0et les observations)
K = Nombre d’individus avec A dans l’´echantillon
Sous H0, on peut calculer la distribution de K.
Ex: H0: p = 0.4; n = 120 Distribution: K ∼ B(120,0.4)
0 20 40 60 80 100 120
0.000.020.040.06
k
P(K=k)
On peut par exemple adopter la r`egle de d´ecision suivante:
R`egle de d´ecision: rejeter H si k ≤ 37 ou si k ≥ 60
Sous H0, on peut calculer la distribution de K.
Ex: H0: p = 0.4; n = 120 Distribution: K ∼ B(120,0.4)
0 20 40 60 80 100 120
0.000.020.040.06
k
P(K=k)
p1 = 0.024 p2 = 0.017
On peut par exemple adopter la r`egle de d´ecision suivante:
R`egle de d´ecision: rejeter H0 si k ≤ 37 ou si k ≥ 60 Niveau: p1 + p2 = 0.041
Avantage de cette approche: le niveau est connu exactement, pas d’approximation.
D´esavantage: Il faut trouver les bornes“manuellement”pour chaque valeur
de n et de p
0.
Sous certaines conditions (grˆ ace au th´eor`eme centrale limite), la distribution de K est bien approxim´ee par la distribution normale:
0 20 40 60 80 100 120
0.000.020.040.06
k
P(K=k)
Sous certaines conditions (grˆ ace au th´eor`eme centrale limite), la distribution de K est bien approxim´ee par la distribution normale:
0 20 40 60 80 100 120
0.000.020.040.06
k
P(K=k)
Densité de X ~ N(np0, np0(1−p0))
A la place de K, on prend comme statistique de test:
Z = K/n − p0
q
p0(1 − p0)/n .
Sous H0, et sous les conditions d’application (v. p. suivante), Z a approximativement une distribution N(0,1).
→ R`egle de d´ecision:
Rejeter H0 si |z| > z1−α/2
o`u z est la valeur observ´ee de Z et z1−α/2 est le quantile 1 − α/2 de la distribution N(0,1).
Remarque: pour faire le test unilat´eral de H0: p = p0 contre H1: p > p0, on utilisera la r`egle de d´ecision
Rejeter H0 si z > z1−α .
Conditions d’application: il faut que n soit suffisamment grand pour que l’approximation normale soit bonne. Or, plus p est extrˆeme (proche de 0 ou de 1), plus n doit ˆetre grand. Concr`etement, si n et p sont tels que
np > 5 et n (1 − p ) > 5 , alors
K/n − p
q
p (1 − p ) /n
a approximativement une distribution N (0 , 1) .
Nous avons d´ej` a rencontr´e ces conditions dans le chapitre 8.
2. Intervalle de confiance pour une proportion
Rappel: un intervalle de confiance contient toutes les valeurs du param`etre d’int´erˆet qui ne seraient pas rejet´ees par un test.
Ici, ce sont les valeurs de p telles que
|z| = |k/n − p|
q
p (1 − p ) /n ≤ z
1−α/2, (1)
o` u k est la valeur observ´ee de K dans l’´echantillon.
La relation (1) est satisfaite pour des valeurs de p situ´ees entre p
i= 1
1 + c p ˆ + c/ 2 −
r
c
2/ 4 + c p ˆ (1 − p ˆ )
!
et
p
s= 1
1 + c p ˆ + c/ 2 +
r
c
2/ 4 + c p ˆ (1 − p ˆ )
!
, o` u
c = z
12−α/2/n et p ˆ = k/n.
Cet intervalle s’appelle l’intervalle de Wilson, que l’on notera IC
W I. On a donc
IC
W I= [ p
i, p
s] .
Au chapitre pr´ec´edent, nous avons vu une m´ethode g´en´erale pour construire des intervalles de confiance pour un param`etre θ, appel´ee la m´ethode de Wald. Elle se base sur la valeur observ´ee θˆ de l’estimateur du param`etre et d´efinit l’intervalle avec niveau de couverture 1 − α comme
[ˆθ − z1−α
2
sd(ˆˆ θ) , θˆ+ z1−α
2
sd(ˆˆ θ)], o`u sd(ˆˆ θ) est une estimation de l’´ecart-type de θ.ˆ
Dans le cas o`u le param`etre est une proportion p, on a:
• Estimateur de p: pˆ= K
n , la proportion observ´ee dans l’´echantillon.
Que vaut sd(ˆˆ p)? → On sait que K, le nombre de personnes avec la caract´eristique d’int´erˆet (“succ`es”) dans l’´echantillon, suit une distribution binomiale B(n, p). Son ´ecart type est donc sd(K) = √
npq. On en d´eduit (propri´et´e de l’´ecart-type) que sd(ˆp) =
q
pq/n, que l’on estime par
sd(ˆˆ p) =
q
pˆˆq/n.
On obtient donc que l’intervale de confiance de Wald pour une proportion, not´e ICW A est donn´e par
ICW A =
pˆ− z1−α
2
q
pˆˆq/n , pˆ+ z1−α
2
q
pˆˆq/n
.
L’intervalle de Wald plus simple mais moins pr´ecis que l’intervalle de Wilson, qui fait moins d’approximations. Concr`etemement, on ne l’utilisera que lorsque
• 0 . 3 ≤ p ˆ ≤ 0 . 7 et
• n ≥ 50 .
Pour l’intervalle de Wald, il peut arriver que la formule de la page
pr´ec´edente donne une valeur inf´erieure ` a 0 pour la borne inf´erieure ou
une valeur sup´erieure ` a 1 pour la borne sup´erieure. Il faut alors corriger
l’intervalle en mettant respectivement 0 ou 1 ` a la place de la borne qui
sort de l’intervalle [0,1]. L’intervalle de Wilson n’a pas ce probl`eme, ses
bornes ´etant automatiquement comprises entre 0 et 1.
3. Test statistique pour deux proportions
Ex: Taux p
1et p
2d’individus ayant une caract´eristique A dans deux populations diff´erentes.
On se demande si les proportions d’individus ayant la caract´eristique
d’int´erˆet sont les mˆemes dans les deux populations ou si elles sont
diff´erentes.
– Hypoth`eses
H
0: p
1= p
2H
1: p
16 = p
2– Echantillon
Tirage al´eatoire de n
1individus dans la premi`ere population et n
2dans la deuxi`eme
– Statistique de test (“distance” entre H
0et les observations) Sous H
0et si n
1et n
2sont suffisamment grands, la variable
Z = K
1/n
1− K
2/n
2q
pq/n
1+ pq/n
2a approximativement une distribution N (0 , 1) .
Ici K
1est le nb d’individus avec A dans le premier ´echantillon et
Pour effectuer le test, on calcule la valeur observ´ee de Z sur nos ´echantillons:
z = pˆ1 − pˆ2
q
pˆˆq(1/n1 + 1/n2) o`u
pˆ1 = k1/n1, pˆ2 = k2/n2 et
pˆ= (k1 + k2)/(n1 + n2)
R`egle de d´ecision:
Rejeter H0 si |z| > z1−α/2 .
Remarque: pour faire le test unilat´eral de H0: p1 = p2 contre H1: p1 > p2, on utilisera la r`egle de d´ecision
Rejeter H0 si z > z1−α .
Les donn´ees peuvent ˆetre pr´esent´ees de la fa¸con suivante:
Caract`ere A
Echantillon Pr´esent Absent Total
1 n11 n12 n1.
2 n21 n22 n2.
Total n.1 n.2 n
On peut d´emontrer que
z2 = n(n11n22 − n12n21)2 n1.n2.n.1n.2
R`egle de d´ecision ´equivalente (pour un test bilat´eral):
Rejeter H0 si z2 > χ21,1−α, o`u χ21,1−α est le quantile 1 − α de la distribution χ2 `a un degr´e de libert´e, not´ee χ21.
(En effet, on rappelle que, par d´efinition de la distribution χ2, si Z ∼ N(0,1), alors Z2 ∼ χ21.)
Remarque:
2 2
Au niveau des statistiques de test, on a la situation suivante:
Densit´e de Z sous H0:
0
ϕ
−z1−α
2 z1−α
2
P0(|Z|>z1−α
2) = α
Densit´e de Z2 sous H0:
(z α)2 = χ2
P0(Z2>χ1,12 −α) = α densité χ12
Exemple: On veut tester si la proportion de nouveaux n´es dont le poids ` a la naissance est inf´erieur ` a 2500g est diff´erente dans les deux populations suivantes:
– Age de la m`ere ≤ 20 ans – Age de la m`ere > 20 ans
On pr´el`eve deux ´echantillons de taille 100 et on obtient la situation suivante:
Poids ` a la naissance
Age Proportion de faibles
maternel ≤ 2500 g > 2500 g Total poids ` a la naissance
≤ 20 20 80 100 0.20 (= ˆ p
1)
> 20 10 90 100 0.10 (= ˆ p
2)
Total 30 170 200 0.15 (= ˆ p )
Calculs:
z = p ˆ
1− p ˆ
2q
p ˆ q ˆ (1 /n
1+ 1 /n
2)
= 0 . 2 − 0 . 1
q
0 . 15 × 0 . 85 × (1 / 100 + 1 / 100)
= 1 . 98
z
2= n ( n
11n
22− n
12n
21)
2n
1.n
2.n
.1n
.2= 200 × (20 × 90 − 10 × 80)
2(100 × 100 × 30 × 170)
= 3 . 92
On a bien 1 . 98
2= 3 . 92 .
D´ecision:
z > 1 . 96 = z
0.975et donc on rejette H
0. De fa¸con ´equivalente:
z
2> 3 . 84 = χ
21,0.95et donc on rejette H
0.
On vient de tester l’hypoth`ese d’ind´ependance entre les variables “poids ` a
la naissance inf´erieur ` a 2500g” et “ˆ age de la m`ere inf´erieur ` a 20 ans”. En
effet, demander si la proprotion de b´eb´es dont le poids ` a la naissance est
inf´erieur ` a 2500g diff`ere entre les populations des m`eres de moins et de
plus de 20 ans revient ` a demander s’il y a une d´ependance entre ces deux
variables. Si les proportions diff`erent cela implique que le fait de connaˆıtre
l’ˆ age de la m`ere donne une information sur le poids du b´eb´e, ce qui est le
De fa¸con g´en´erale, on pourra donc tester l’ind´ependance entre deux variables dichotomiques (i.e. qui n’ont que deux modalit´es) de la fa¸con ci-dessus. Souvent, ces variables indiquent la pr´esence ou l’absence d’un caract`ere (ex.: ˆage ≤ 20 ans), et on parle alors de test sur l’ind´ependance de deux caract`eres. Donc, pour tester l’ind´ependance entre deux caract`eres A et B, on pose
H0 : A et B ind´ependants H1 : A et B pas ind´ependants et on construit le tableau suivant:
B pr´esent B absent Total
A pr´esent n11 n12 n1.
A absent n21 n22 n2.
Total n.1 n.2 n
On calcule ensuite la valeur observ´ee de la statistique de test Z2: z2 = n(n11n22 − n12n21)2
n1.n2.n.1n.2 .
On rejette alors H0 si z2 > χ21,1−α, o`u χ21,1−α est le quantile 1−α de la distribution
2
Pour information:
Souvent, lorsqu’on s’int´eresse `a la d´ependance entre deux caract`eres, il y a un caract`ere, appel´e facteur ant´ed´edant ou facteur de risque qui cause potentiellement l’autre (par exemple une maladie). Par exemple, le facteur ant´ec´edent fumer cause potentiellement le caract`ere cancer du poumon. Il y a alors trois types d’´etudes qui se distinguent par leur mode d’´echantillonnage:
• Etude prospective: On pr´el`eve des ´echantillons de tailles fix´ees dans les populations avec et sans le facteur de risque, et on observe ensuite quels individus d´eveloppent la maladie.
• Etude r´etrospective: On pr´el`eve des ´echantillons de tailles fix´ees dans les populations avec et sans la maladie et on regarde quels individus ont le facteur de risque.
• Etude transversale: On pr´el`eve un seul ´echantillon dans la population globale et on d´etermine quels individus ont (ou d´eveloppent) la maladie et quels individus ont le facteur de risque.
Suivant la situation, on choisira le type d’´etude le plus appropri´e (ou le plus r´ealisable).
Par exemple, dans le cas d’une maladie rare, une ´etude r´etrospective est g´en´eralement plus puissante, car avec les deux autres types on obtiendrait tr`es peu d’individus avec la