L’´et´e 2010 Cours 15 — le 6 juillet
∗ ∗ ∗
15.1. Les principes g´en´eraux des tests d’hypoth`ese. Les mˆemes m´ethodes peuvent ˆetre facilement modifi´ees pour pouvoir ˆetre utilis´ees dans beaucoup d’autres circonstances. La d´emarche reste toujours pareille.
– L’hypoth`ese nulle, qui est normalement d´efinie par une ´egalit´e H0 :θ =θH0.
Iciθest la valeur du param`etre statistique de la population dite th´eorique parce qu’elle est inaccessible, et θH0 est une valeur du param`etre concr`ete. D’habitude, on souhaite que l’hypoth`ese nulle soit rejet´ee.
– L’hypoth`ese alternative sous une de trois formes possibles : H1 :θ 6=θH0, H1 :θ ≥θH0, H1 :θ ≤θH0.
Selon le cas, on dit que le test est bilateral, unilateral `a droite, et unilateral `a gauche, resp´ectivement.
– On fixe d’avance la valeur α > 0 du risque de premi`ere esp`ece (c.`a.d., le risque de rejeterH0 mˆeme siH0est vraie). De fac¸on ´equivalente, on fixe la confiance1−α, qui est la probabilit´e de ne pas rejeterH0si elle est vraie.
– Au param`etre θ inconnu (qui n’est qu’un nombre r´eel) on associe la variable al´eatoire Θ, qui est la valeur observ´ee deθd’´echantillon. La variableΘd´epend d’´echantillonage.
On noteθ0la valeur deΘpour l’´echantillon, θ0 = Θ(s),
s∈S ´etant l’´ev`enement ´el´ementaire (le choix d’´echantillon). La valeurθ0est dite aussi estimation ponctuelle de Θ. Les estimations ponctuelles de Θ fluctuent autour de la valeur th´eorique,θ.
– La statistique du test, Z. C’est une variable al´eatoire d´etermin´ee en fonction de la va- riable al´eatoireΘ. La variableZ doit ˆetre choisie de telle fac¸on que, sous l’hypoth`ese nulleH0, la loi de distribution deZ soit connue. En d’autres mots, la distribution deZ est connue conditionnellement sur H0. L’estimation ponctuelle θ0 correspond `a l’esti- mation ponctuelle (valeur observ´ee) de la v.a.Z, qui est not´ez0.
1
– Le reste est standard. Par exemple, si on utilise la m´ethode de la valeurp, on d´etermine la valeurpcorr´espondante `a la valeur observ´ee,θ0, deΘ.
Dans le cas bilateral, on a
p=P[|Θ|>|θ0|kH0] =P[|Z|>|z0|kH0], dans le cas unilateral `a droite
p=P[Θ> θ0kH0] =P[Z > z0kH0], et enfin dans le cas unilateral `a gauche
p=P[Θ< θ0kH0] =P[Z < z0kH0].
On cherche la valeurpen utilisant les quantiles pertinants de la loi de distribution deZ, qui est connue si on suppose que l’hypoth`ese nulleH0 est vraie.
– Finalement, on confronte la valeurpet la valeurα. Si p < α,
on conclut que l’hypoth`ese nulle H0 n’est pas cr´edible, et on la rejette en faveur de l’hypoth`ese alternativeH1. Si, par contre,
p≤α,
alors l’observationθ0 peut ˆetre expliqu´ee comme une fluctuation al´eatoire deΘautour deθH0, et on ´echoue de rejeter l’hypoth`ese nulle.
15.2. Tests d’hypoth`ese pour la comparaison des fr´equences (proportions). Soientπ1 et π1 les proportions th´eoriques (donc inconnues) des membres d’une classeAparmi les deux populations ind´ependantes dif´erentes.
Exemple :1. Deux populations sont des entreprises avec et sans l’interdiction de fumer. L’´ev`enement Aqui nous int´eresse, c’est l’arrˆet du tabagisme. Plus pr´ecisement, nous nous int´eressons de la propor- tion des employ´es fumants qui arrˆete de fumer pendant un an dans chaque cas. Notonsπ1la proportion des employ´es qui arrˆetent de fumer chaque an de tous les entreprises (disons nord-am´ericaines) avec l’interdiction de fumer, etπ2 la proportion pareille qui travaillent aux entreprises sans l’interdiction de fumer. Bien sˆur que les deux proportions sont hors de la port´ee, on ne pourra jamais les mesurer de fac¸on pr´ecise.
On peut engendrer deux echantillons de deux populations ind´ependants, contenant respec- tivement n1 et n2 sujets, dont n1A etn2A sujets appartiennent `a la classeA. Alors on peut calculer les fr´equences (les proportions) observ´ees deA:
p1 = n1A
n1
etp2 = n2A
n2
.
Exemple : L’organisme d’accr´editation des organisations li´ees `a la sant´e a impos´e l’interdiction de fumer dans les hˆospitaux am´ericains en 1994. Dans une ´etude sur les effets de cette interdiction, des sujets fumeurs ont ´et´es s´elecionn´es al´eatoirement dans deux populations. Sur 843 employ´es fumeurs de l’hˆopital soumis `a l’interdiction, 56 ont arrˆet´e de fumer un an apr`es l’interdiction. Parmi 703
1Voir la page 151 dans Biostatistique pour les sciences de vie et de la sant´e par Triola et Triola.
employ´es fumeurs des entreprises sans interdiction de fumer, 27 ont cess´e de fumer pendant la mˆeme p´eriode. Donc, on a
p1 = n1A
n1
= 56
843 = 0.06642942 = 6.6%, p2 = n2A
n2
= 27
703 = 0.03840683 = 3.8%.
Maintenant la question qu’on se pose, c’est pas d’estimer les proportions th´eoriquesπ1 et π2, mais plutˆot : Y a-t-il une diff´erence statistiquement significative entrep1etp2pour qu’on puisse en d´eduire queπ1 > π2?
Nous allons ´etudier cette question au niveau de confiance95%, comme d’habutide.
Au cadre de notre exemple : peut-on conclure qu’en moyenne plus d’employ´es des entreprises avec interdiction de fumer arrˆeter de fumer ?
Voici le test d’hypoth`ese pertinent.
1. Le param`etre statistique au centre d’´etude est la diff´erence des deux proportions : θ =π1−π2.
2. L’hypoth`ese nulle dit que les fluctuations observ´ee entrep1etp2sont al´eatoires et sans signification statistique :
H0: π1 =π2, ou bienH0: π1−π2 = 0.
3. Le choix raisonnable pour l’hypoth`ese alternative sera H1: π1 > π2, c.`a.d.π1−π2 >0.
(Veuillez noter que l’hypoth`ese alternative n’est jamais formul´ee apr`es avoir analys´e l’´echantillon.) 4. On consid`ere les variables al´eatoiresP1(la proportion observ´ee deAdu premier ´echantillon, en fonction d’´echantillon), et pareillementP2. La valeurp1 est une estimation ponctulee de P1, etp2 est une estimation ponctuelle deP2.
5. On construit la statistique du test comme suit. D’abord, notonsp0la moyenne pond´er´ee des deux fr´equences :
p0 = n1A+n2A
n1+n2 = n1p1+n2p2 n1+n2 . C’est la fr´equence de la population combin´ee.
Sous l’hypoth`ese nulle, on a
E(P1 −P2) =π1−π2 = 0,
donc si la taille d’´echantillon est suffisamment grande,p1etp2sont tous les deux estimations de la valeur communeπ0 deπ1 etπ2, d’o`u on conclut
varP1 = p0(1−p0)
n1 , varP2 = p0(1−p0) n2 .
Puisque les deux populations sont ind´ependantes, les v.a.P1, P2sont ind´ependantes aussi, et on a
var(P1−P2) = var(P1) +var(−P2)
= var(P1) +var(P2)
= p0(1−p0)
n1 +p0(1−p0) n2
= p0(1−p0) 1
n1 + 1 n2
.
Les distributions de P1, P2 sont binˆomiales, donc si n1, n2 sont chacun suffisamment grands,
(15.1) n1A =n1 ≥ p1
5, (n1−n1A) =n1 ≥ 1−p1 5 ,
(15.2) n2A =n2 ≥ p2
5, (n2−n2A) =n2 ≥ 1−p2 5 ,
alors — toujours sous l’hypoth`ese nulle — les distributions deP1, P2 tendent chacune vers la loi normale. Il en va de mˆeme pour la somme de deux v.a. ind´ependantes P1 et −P2. La version centr´ee r´eduite de la v.a.
P1−P2
est pr´ecisement la statistique du test de comparaison de deux proportions (fr´equences) des populations ind´ependantes :
Z = P1−P2 r
π0(1−π0)
1
n1 +n12. SousH0, on a
Z ∼N(0,1).
Enfin, voici l’estimation ponctuelle de la statistique du test : z0 = p1−p2
r
p0(1−p0)
1
n1 +n12 .
C’est tout dont vous avez besoin pour tester l’hypoth`ese.
Exemple : Dans notre exemple, on a p0= n1A+n2A
n1+n2
= 56 + 27
843 + 703 = 0.05368693 = 5.3%.
Voici la statistique du test observ´ee :
z0 = p1−p2
r
p0(1−p0)
1
n1 +n12
= 0.06642942−0.03840683 q
0.05368693(1−0.05368693) 8431 + 7031
= 2.434127.
Carn1A,(n1−n1A), n2A,(n2 −n2A) >5, la statistique suit la loi normale. Le test est unilateral `a droite (par rapport `aπ1−π2). Pour determiner la valeur p, on utilise (par exemple) R commander (Distributions→. . .→normal probabilities) :
> pnorm(c(2.434127), mean=0, sd=1, lower.tail=FALSE) [1] 0.007463878
Alors,
p= 0.7%.
Donc, la diff´erence entre les deux proportions est statistiquement significative au α = 5%, voire α = 1%. L’hypoth`ese nulle est rejet´ee en faveur de l’hypoth`ese alternative : il est plus facile d’arrˆeter de fumer si personne ne fume plus au travail autour de vous.
Bien sˆur que tout cela peut ˆetre reformul´e au language de la r´egion critique.
15.3. L’intervalle de confiance pour la diff´erence entre les deux fr´equences. Soientp1, p2 les fr´equences observ´ees du mˆeme ´ev`enement dans deux populations ind´ependantes.
Alors p1 −p2 est un estimateur statistique sans biais pourπ1 −π2 (c.`a.d., la v.a. P1 −P2 converge en probabilit´e vers le nombre r´eelπ1−π2). Quelle est l’intervalle de confiance pour π1−π2 autour dep1−p2, au niveau donn´eeα?
Le probl`eme est diff´erent du test d’hypoth`ese : bien sˆur qu’on peut estimer l’intervalle de confiance en question sous l’hypoth`ese nulle, cette estimation est inutile, car au fond, on croit que l’hypoth`ese nulle est fausse !
La variance deP1−P2est ´egale `a
var(P1−P2) =varP1+varP2 = p1(1−p1)
n1 +p2(1−p2) n2 .
Sous la condition que n1, n2 soient suffisamment grands (les conditions (15.1) et (15.2)), la diff´erenceP1−P2suit la loi normale, et on a
(p1−p2)±zα/2
s
p1(1−p1)
n1 +p2(1−p2) n2 comme l’intervalle de confiance.
Exemple 15.1. (Voir Biostatistique pour les sciences de vie et de la sant´e par Triola et Triola, p. 151). Dans une ´etude sur les femmes et les maladies cardiaques, les r´esultats suivants ont ´et´e obtenus `a partir d’un ´echantillon : sur 10239 femmes soumises `a un niveau faible d’activit´e physique (moins de 200 kcal/semaine), il y a eu 101 cas de maladies cardiaques.
Parmi9877femmes exerc¸ant une activit´e physique mesur´ee entre 200 et 600 kcal/semaine, il y a eu 56 cas de maladies cardiaques. Construisez une estimation de l’intervalle de confiance
`a90%de la diff´erence entre les deux proportions. La diff´erence, est-elle significative ? On a :
– n1 = 10239, – n1A= 101,
– p1 = 101/10239 = 0.009864245, – n2 = 9877,
– n2A= 56,
– p2 = 56/9877 = 0.005669738, – α= 0.1.
Car ´evidemmentn1A,(n1−n1A), n2A,(n2−n2A)>5, on utilise la loi normale, et cherche zα/2 =z0.5 = 1.644854.
Voici l’intervalle de confiance : (p1−p2) ± zα/2
s
p1(1−p1)
n1 + p2(1−p2) n2 = (0.009864245−0.005669738)± 1.644854
r0.009864245(1−0.009864245)
10239 + 0.005669738(1−0.005669738) 9877
= [0.002163478,0.006225536]
= [0.2%,0.6%].
On peut en conclure que la diff´erence a une signification statistique.