L’´et´e 2010
Cours 13 — le jeudi 24 juin
13.1. Effectif n´ecessaire pour estimer une proportionπ avec une pr´ecision donn´ee. La terminologie et la notation suivent 12.2. En particulier,
π=P[X∈A]
et la probabilit´e (la proportion dans la population) `a estimer, et p= nA
n
et la proportion observ´ee de l’´ev`enement. Comme on a montr´e dans le cours 12 (page 3 des notes de cours), on a
|p−π| ≤a
pp(1−p)
√n−1 au niveau de confiance1−α.
Soiti >0donn´e d’avance. On veut que
|p−π| ≤a
pp(1−p)
√n−1 ≤i.
L’in´egalit´e `a droite se r´esoudre ais´ement comme suit :
(13.1) n≥ a2p(1−p)
i2
Mˆeme si p est assez mal connu, l’approximation p(1−p) ∼ π(1−π) (utilis´ee de fac¸on implicite pour d´eduire notre formule) est raisonnable.
Exercice 13.1. On suppose que la pr´evalence d’une maladie est comprise entre 10 et 20 pour cent. On veut conduire une ´etude pour estimer cette proportion `a±2pour cent pr`es au niveau de confiance usuelle de95%. Quelle taille d’´echantillon faut-il ?
Ici0.1≤p≤0.2, donc on approximeppar0.15. De plus, la pr´ecision exig´ee esti= 0.02.
En utilisant (13.1), on trouve :
> n<- 1.96ˆ2*0.15*(1-0.15)/0.02ˆ2
> n
[1] 1224.51
1
n ≥ a2p(1−p)
i2 = 1.962·0.15(1−0.15)
0.022 = 1225.
N
13.2. Tests d’hypoth`ese. L’exemple suivant provient de Biostatistique sous la direction de Beuscart, page 146.
En 1997, selon une ´etude rigoreuse et repr´esentative, le tour de taille moyenne de la popu- lation franc¸aise s’´el`evait `a84.6cm. L’an est 2006, et les chercheurs dans l’institut de sondage ont des raisons `a croire que la taille moyenne des franc¸ais s’est augment´ee depuis le dernier sondage. Ils tirent au hasard30personnes de la population g´en´erale. La moyenne de tour de taille observ´ee d’´echantillon est de88.26cm.
Qu’est-ce qu’on peut en d´eduire ? Est-ce que l’augmentation de la moyenne est due `a une fluctuation al´eatoire d’´echantillonage, car l’´echantillon est, en v´erit´e, tout petit ? Ou bien peut-on conclure que la population franc¸aise contemporaine ait un tour de taille moyen plus grande que jadis ?
La r´eponse est loin d’ˆetre ´evidente. Pour r´epondre `a cette question, on se sert de la t´echnique statistique qui s’appelle les tests d’hypoth`ese (hypothesis testing). Voici la d´emarche qu’il faut suivre rigoreusement.
(1) Mˆeme avant d’entreprendre l’´etude sur30personnes, il faut formuler l’hypoth`ese nulle, qui est une hypoth`ese dont on souhaite qu’elle soit fausse apr`es le test. L’hypoth`ese nulle est d’habitude not´eeH0, et elle est le plus souvent d´efinie par l’´egalit´e d’un param`etre statistique, θ, `a une valeur particuli`ere,θ0. Dans notre cas, il s’agit de la moyenne du tour de taille, qu’on noteµ, et le choix le plus naturel pour l’hypoth`ese nulle sera le suivant :
H0 = [µ= 84.6].
On note la moyenne84.6parµH0. Donc, l’hypoth`ese nulle pour les moyennes est de la forme [µ=µH0].
(2) Au mˆeme moment, il faut formuler l’hypoth`ese alternative qui sera accept´ee si l’hy- poth`ese nulle sera rejet´ee. L’hypoth`ese alternative, not´ee H1, est donn´ee par une in´egalit´e : soit [θ < θ0](dans lequel cas il s’agit d’un test unilateral `a gauche), soit [θ > θ0](un test unilateral `a droite), soit[θ 6=θ0](un test bilateral). Dans notre petit exemple, les chercheurs choisissent l’hypoth`ese alternative suivante :
H1 = [µ >84.6].
En d’autres mots, l’hypoth`ese alternative nous dit, tout simplement, que la moyenne du tour de taille de la population s’est augment´ee entre1997et2006. Lorsque cette hypoth`ese a ´et´e choisie, notre test devient unilateral `a droite. Plus g´en´eralement, notre hypoth`ese s’´ecrit
[µ > µH0].
Soulingons que le choix de l’hypoth`ese alternative doit ˆetre fait avant de connaˆıtre les r´esultats d’´echantillonage. L’hypoth`ese se base sur d’autres donn´ees (par exemple, sur d’ob- servations visuelles quotidiennes par les chercheurs).... On n’a pas ´et´e mesur´e les30sujets.
Veuillez noter aussi que mˆeme si les deux hypoth`eses, H0 et H1, s’excluenet mutuelle- ment, elles ne forment pas forc´ement une partition de l’ensemble fondamental ! Il y a une possibilit´e th´eorique que[µ <84.6], disjoint deH0ainsi que deH1. Mais la structure du test d’hypoth`ese, d´etermin´ee par le choix deH0et deH1, est telle que, mˆeme s’il est vrai que le moyen du tour de taille s’est r´eduit, l’hypoth`ese nulle ne sera pas rejet´ee.
(3) Maintenant on analyse les deux hypoth`eses de fac¸on `a r´epondre `a la question suivante : en supposant que l’hypoth`ese nulle est vraie, qu’est-ce qu’on va observer dans notre ´etude ? Quel r´esultat d’´etude rendra l’hypoth`ese nulle cr´edible ? Ou bien, en d’autres mots : quel r´esultat de l’´etude mettrait la cr´edibilit´e de l’hypoth`ese nulle en question ?
Clairement, il faudra rejeter l’hypoth`ese nulle si le r´esultat d’´echantillonage sera tr`es peu probable. Ici, peu probable signifie : inf´erieure `a un risque donn´e,α > 0, tel queα = 5%, par exemple. (Ce risque est appel´e, plus pr´ecisement, le risque de premi`ere esp`ece).
Dans notre cas, il s’agit de la probabilit´e d’observer la moyenne d’´echantillonx¯= 88.26 cm. Quelle est probabilit´e d’obtenir un tel r´esultat surn = 30sujet en supposant queH0 est vraie ?
Supposons donc queH0 est vraie. Selon le th´eor`eme de la limite centrale, le tour de taille moyen suit la loi normale avec le moyenneµH0 = 84.6cm et l’´ecart-type σ/√
n, o`u σ est l’´ecart-type du tour de taille dans la population g´en´erale, etn= 30. Bien sˆur que dans notre cas σest connu, car en 1997 on avait obtenu un bon estimation pour σ, la valeur estσ = 2 cm. Alors, la moyenne d’´echantillon (qui est une variable al´eatoire) suit la loi
X¯ ∼N
84.6, 4
√30
=N(84.6,0.73).
Pour cette loi particuli`ere, on a bien sˆur
P( ¯X = 88.26),
tout simplement parce que la probabilit´e qu’une variable continue prenne la valeur num´erique donn´ee, est z´ero ! C’est peu int´eressant et peu utile.
Pour cette raison, on consid`ere la probabilit´e d’une fluctuation deX¯ plus grande ou ´egale
`a la fluctuation observ´ee,x¯=µ0 :
P X¯ ≥µ0kH0 est vraie .
Il s’agit de la probabilit´e conditionnelle siH0, c’est-`a dire, en supposant queH0 soit vraie.
C’est exactement cette hypoth`ese qui nous permet d’estimer la moyenne et l’´ecart-type de la distribution deX.¯
CarX¯ suit la loi normaleN(µH0, σ/√
n)conditionnellement surH0, on peut facilement calculer la valeur ci-dessus : soit directement avec R commander (distributions→continuous distributions→quantiles), soit en r´eduisant l’´etude `a la loi normale centr´ee r´eduite :
X¯ ≥µ0 ⇐⇒ X¯−µH0 ≥µ0−µH0
⇐⇒ X¯ −µH0
σ/√
n ≥ µ0−µH0
σ/√ n .
La variable al´eatoire
Z = X¯ −µH0
σ/√ n suit la loi normale centr´ee r´eduite :
Z ∼N(0,1).
Notons aussi
z0 = µ0−µH0
σ/√ n . Alors, nous nous occupons de la probabilit´e conditionnelle
P[Z ≥z0kH0]
de la fluctuation au moins aussi grande que la fluctuation observ´ee, siH0est vraie.
Voici quelques situations imaginaires, en gardant toujours les valeurs actuellesµH0 = 84.6 cm etσ = 4cm, ainsi quen = 30.
Exemple 13.2. Supposons que le tour de taille moyen d’´echantillon est ´egal `aµ0 = 85cm.
Dans ce cas-l`a, on a
z0 = µ0−µH0
σ/√ n
= 85−84.6 2/√
30
= 1.095445.
Pour chercher l’air sous la queue sup´erieure de la loi normale N(0,1) qui correspond `a z0 = 1.095445(oir la figure 1), on choisit dans R commander :
distributions→continuous distributions→normal distribution→probabilities On metµ= 0,σ = 1, upper tail, et la valeur de la variable= 1.095445:
> pnorm(c(1.095445), mean=0, sd=1, lower.tail=FALSE) [1] 0.1366609
D’ici on conclut :
P[Z ≥z0kH0] = 0.1366609.
On peut obtenir le mˆeme chiffre directement, sans passer parZ etz0 (voir la figure 1) : distributions → continuous distributions→ normal distribution→ probabilities, main- tenant on met µ = 84.6, σ = 2/√
30 = 0.3651484, upper tail, et la valeur de la variable
= 85:
> pnorm(c(85), mean=84.6, sd=0.3651484, lower.tail=FALSE) [1] 0.1366609
On en conclut :
P[ ¯X ≥85kH0] = 0.1366609.
Avec sa probabilit´e de13.6%, cet ´ev`enement est tout `a fait probable, il n’y a rien d’extraor- dinaire dans l’observation du tour de taille moyen de 85cm siH0 est vraie. Dans ce cas-l`a,
−4 −2 0 2 4
0.00.10.20.30.4
densité
z_0 = 1.095445
FIG. 1. La densit´e de la loi normale N(0,1) de la v.a. Z. L’aire sous la courbe `a droite dez0 = 1.095445est ´egale `a la probabilit´e0.1366609
83.0 83.5 84.0 84.5 85.0 85.5 86.0
0.00.20.40.60.81.0
le tour de taille moyen
densité
la moyenne du tour de taille
observée
FIG. 2. La densit´e de la loi normale N(µ, σ/√
n)de la v.a.X. L’aire sous¯ la courbe `a droite deµ0 = 85cm est ´egale `a la probabilit´e0.1366609
l’hypoth`ese H0 est cr´edible : l’observation de la moyenne d’´chantillon ne la contredit pas.
Dans cette situation imaginaire, on ´echoue `a rejetterH0.
Voici comment le diagramme 1 a ´et´e produit :
> plot(function(x) dnorm(x), -4,4, ylab="densit",xlab="", + col="blue",lwd=3)
> abline(v=c(1.095445),lwd=3,lty=2,col="red")
> abline(h=0,col="grey")
> text(x=2.2,y=0.3,cex=1,labels="z_0 = 1.095445")
> z <- seq(1.095445,4,length=100)
> w <- dnorm(z)
> points(z,w,type="h",col="red")
Donc, `a cette ´etape, on d´ecide queH0sera rejet´ee si, lors de l’´echantillonage, la probabilit´e d’observer le r´esultat sera plus petite que le risque sp´ecifi´eα >0, disonsα= 0.05.
(4) Enfin, on construit l’´echantillon tir´e au hasard, de l’effectif n´ecessaire pour pouvoir interpreter les r´esultats d’´etude. Les param`etres statistiques d’interˆet sont mesur´es. Dans notre cas, c’est la moyenne du tour de taille d’´echantillon, qui s’av`ere `aµ0 = 88.26cm.
(5) Maintenant, nous allons confronter l’hypoth`ese nulleH0 `a l’observation. L’hypoth`ese sera cr´edible si la probabilit´e d’observer l’´ecart du tour de taille moyen de30sujets≥88.26− 84.6 = 3.66cm est plus grande que α. Si cette probabilit´e est plus petite, l’hypoth`ese nulle semblerait pas cr´edible.
On peut calculer cette probabilit´e de deux fac¸ons diff´erentes. Soit directement,
> pnorm(c(88.26), mean=84.6, sd=0.3651484, lower.tail=FALSE) [1] 6.019353e-24
P[ ¯X ≥88.26kH0] = 6.019353e−24 = 0.000000000000000000000006, soit en utilisant les variables centr´ees r´eduites :
z0 = µ0−µH0
σ/√ n
= 88.26−84.6 2/√
30
= 10.02332, et la r´eponse est plus convaincante encore :
P[Z ≥z0kH0] =P[Z ≥ 10.02332kH0] = 0.
> pnorm(c(10.02332), mean=0, sd=0, lower.tail=FALSE) [1] 0
En tout cas, la valeur de la probabilit´e est infinitesimale. Cela veut dire que H0 n’est pas cr´edible, et doit ˆetre rejet´ee.
(6) Le rejet deH0signifie qu’on accepte automatiquement l’hypoth`ese alternativeH1. On en conclut que le tour de taille moyen de la population franc¸aise s’est augment´e.
Maintenant, sans doute, une nouvelle ´etude sera conduite afin d’estimer la valeur pr´ecise du tour moyen de taille...
13.3. Sommaire des tests d’hypoth`ese pour la moyenne.
13.3.1. Test unilateral `a droite. Pour un test d’hypoth`ese unilateral `a droite de la moyenne de la population (comme le test au-dessus), on fixe la valeur du risque de 1e esp`ese,α, et on cherche la valeur r´eelleatelle que
P[Z ≥a] =α, o`uZ suit la loi normaleN(0,1).
L’intervalle[a,+∞)est dit la r´egion critique. Voir la figure 3.
−4 −2 0 2 4
0.00.10.20.30.4
valeurs de la v.a. Z centrée réduite
densité
region critique
FIG. 3. La valeura = 1.644854et la r´egion critique au α = 0.05pour un test unilateral `a droite.
On calcule la valeur observ´ee de la moyenne centr´ee r´eduitez0,
(13.2) z0 = µ0−µH0
σ/√ n .
Siz0appartient `a la r´egion critique, l’hypoth`eseH0est rejet´ee. Sinon,H0n’est pas rejet´ee.
De fac¸on ´equivalente, on peut d´eterminer la probabilit´e p d’avoir la fluctuation de la moyenne au moins aussi grande que la moyenne observ´ee d’´echantillonµ0siH0 est vrai :
p=P[ ¯X ≥µ0kH0] =P[Z ≥z0].
Cette valuerps’appelle la valeurp(p-value, en anglais), ou bien le degr´e de signification de l’hypoth`ese nulle,H0. Si
p < α, alors l’hypoth`eseH0 est rejet´ee. Si
p≥α,
l’hypoth`eseH0n’est pas rejet´ee. Cela ne signifie pas queH0est accept´ee comme vraie ; c’est juste qu’il n’y a pas assez des preuves queH0 ne le soit pas.
13.3.2. Test unilateral `a gauche. La seule diff´erence ici, c’est la d´etermination de la r´egion critique et de la valeurp. On cherche la valeur r´eelleatelle que
P[Z ≤a] =α,
o`uZ suit la loi normaleN(0,1), et la r´egion critique est d´efini par (−∞, a].
De mˆeme fac¸on, on pose
p=P[ ¯X ≤µ0kH0] =P[Z ≤z0].
−4 −2 0 2 4
0.00.10.20.30.4
valeurs de la v.a. Z centrée réduite
densité
region critique
FIG. 4. La valeura = 1.96et la r´egion critique au α = 0.05pour un test unilateral `a gauche.
13.3.3. Test bilateral. Ici, la r´egion critique est sous la forme (−∞,−a]∪[1,+∞), o`u
P[Z ≤ −a] =P[Z ≥a] = α 2. La d´efinition de la valeurpdevient :
p=P[|X¯ −µ| ≥ |µ0−µ|kH0] =P[Z ≤ −|z0|] +P[Z ≥ |z0|].
Voir la figure 5.
−4 −2 0 2 4
0.00.10.20.30.4
valeurs de la v.a. Z centrée réduite
densité
region critique region
critique
FIG. 5. La valeura= 1.96et la r´egion critique auα= 0.05pour un test bilateral.
> plot(function(x) dnorm(x), -4,4, ylab="densite, + xlab="valeurs de la v.a. Z centree reduite", + col="blue",lwd=3)
> abline(v=c(-1.96,1.96),lwd=3,lty=2,col="red")
> abline(h=0,col="grey")
> z <- seq(1.96,4,length=100)
> w <- dnorm(z)
> points(z,w,type="h",col="red")
> points(-z,w,type="h",col="red")
> text(x=3.0,y=0.3,cex=1,labels="region \n critique")
> text(x=-3.4,y=0.3,cex=1,labels="region \n critique")