Introduction `a la biostatistique – Mat 2779
L’´et´e 2010
Cours 16 — le jeudi 8 juillet
16.1. Tests d’hypoth`eses sur une proportion.
– L’hypoth`ese nulle `a tester :
H0: π =πH0,
o`uπest une proportion th´eorique de la population (inconnue).
– L’hypoth`ese alternative est formul´ee, comme toujours,
H1:π <
6=> πH0.
– La proportion d’´echantillon (connue) : p0 = na
n .
– Sinpi0 ≥5etn(1−π0)≥5, alors la statistique du test Z = P0−pH0
ppH0(1−pH0)/n
suit approximativement la loi normaleN(0,1), si l’hypoth`ese nulleH0 est vraie.
Remarque : dans le d´enominateur on utilise la proportionpH0 et pas la valeur ob- serv´ee d’´echantillon,p0, car on suppose que l’hypoth`ese nulle est vraie.1
– La statistique du test observ´ee :
z0 = p0−pH0
ppH0(1−pH0)/n.
– Maintenant on calcule la valeurp, et cetera, de fac¸on standard.
Exemple 16.1. On voudrait tester l’hypoth`ese que la proportion des mutants dans une po- pulation particuli`ere est π = 2%. Des500 sujets choisis al´eatoirement8sont des mutants.
Est-ce que les donn´ees sugg`erent quep <0.02auα= 5%? L’hypoth`ese nulle :
H0: π= 0.02 L’hypoth`ese alternative :
H1: π <0.02.
1Tout est correct dans les notes que j’utilisais pendant mon cours, pourtant j’ai un soupc¸on que dans le cours actuel j’ai fait une erreur ici. Veuillez v´efirier la formule et la corriger si besoin est.
1
2
Le test est unitaleral `a gauche. Voici la proportion observ´ee p0 = 8
500 = 0.016.
On a :npi0 = 10≥5etn(1−π0) = 490≥5. Voici la statistique du test observ´ee : z0 = p0−pH0
ppH0(1−pH0)/n = 0.016−0.02
p0.02(1−0.02)/500 =−0.6388766.
La valeurpcorrespondante :
p= 0.2614516.
> z0 <- (0.016-0.02)/(sqrt(0.02*(1-0.02)/500))
> z0
[1] -0.6388766
> p <- pnorm(c(z0), mean=0, sd=1, lower.tail=TRUE)
> p
[1] 0.2614516 Car on a
p= 0.2614516 = 26%>5% =α,
l’hypoth`ese nulle ne peut pas ˆetre rejet´ee. La fluctuation de la proportion observ´ee est pro- bablement al´eatoire. La r´eponse `a la question du probl`eme est donc n´egative.
16.2. Tests de comparaison des moyennes de deux populations ind´ependantes. Soient deux ´echantillons de taille n1 etn2, respectivement, dans lesquels la variable ´etudi´ee a une valeur moyenne de m1 (resp. m2). Chaque ´echantillon est extrait d’une population dans laquelle la variable qui nous int´eresse a une valeur moyenne (la moyenne de la population) inconnueµ1, resp.µ2.
La question qui se pose naturellement est la suivante : les deux ´echantillons sont-ils extraits de deux populations diff´erentes(µ1 6=µ2) ou d’une seule et mˆeme population(µ1 =µ2) ?
Formulons donc l’hypoth`ese nulle :
H0: µ1 =µ2, ou bien
H0: (µ1−µ2) = 0.
L’hypoth`ese alternative est formul´ee, comme d’habitude, sous trois formes dif´erentes pos- sibles :
H1: µ1 <
6=> µ2,
ou, qui est la mˆeme chose,
H1: (µ1−µ2) <
6=> 0.
NotonsM1la variable al´eatoire “la moyenne d’´echantillon un”, dontm1est une evaluation ponctuelle, et de mˆeme pourM2.
3
Comme toujours, s1 est l’´ecart type du premier ´echantillon, et s2 est l’´ecart type du deuxi`eme ´echantillon.
En omettant entier`ement la d´eduction math´ematique de la statistique du test, voici le som- maire des conclusions. Il y a deux cas `a considerer.
(a) Le cas o`u les tailles des ´echantillons,n1 etn2, sont tous les deux sup´erieures `a30.
SiH0 est vrai, alorsµ1 =µ2 et la variable al´eatoireZ centr´ee r´eduite : Z = M1 −M2
qs2
1
n1 +ns222
suit la loi normaleN(0,1).
(Bien sˆur si l’´ecart type de la populationσ1 est connu, on remplaces1avecσ1, et de mˆeme pourσ2. Mais g´en´eralement ce n’est pas le cas).
Voici la statistique de test observ´ee :
z0 = m1−m2 qs2
1
n1 + sn222
.
(b) Le cas o`un1 ou/etn2est(sont) inf´erieur(s) `a30.
En supposant queH0 est vraie, la mˆeme variable al´eatoire, mais cette fois not´eeT : T = M1−M2
qs2
1
n1 +ns22
2
,
suit la loi de Studenttavecdf =n1+n2−2degr´es de libert´e.
Voici la statistique de test observ´ee :
t0 = m1−m2 qs2
1
n1 + ns222
.
C’est tout ce que vous voulez pour tester l’hypoth`ese. Le reste est standard.
Exemple 16.2. (Voir page 204 dans Biostatistique sous la direction de Beuscart). Soit une
´etude o`u deux groupes de femmes primipares, ˆag´ees de20`a25ans, ont accouch´e normale- ment, d’une petite fille. Le premier groupe est compos´ee des anciennes fumeuses, et le second des femmes qui n’ont jamais fum´e.
Dans le groupe de femmes non fumeuses, dont l’effectif est 49, le poids moyen des b´eb´es
`a la naissance est de 3010 grammes avec l’´ecart type observ´e 170 g; dans le groupe des anciennes fumeuses, dont l’effectif est ´egalement49, le poids moyen des b´eb´es `a la naissance est de2950grammes avec l’´ecart type observ´e168g.
Les poids moyens de deux groups sont-ils statistiquement diff´erents ? On a :
– n1 =n2 = 49; tous les deux sont sup´erieurs `a30; – m1 = 3010;
4
– s1 = 170; – m2 = 2950; – s2 = 168;
– l’hypoth`ese nulleH0: µ1 =µ2; – l’hypoth`ese alternative :2H1: µ1 > µ2. – Le teste est unilateral `a droite.
– Car le niveau de confiance n’a pas ´et´e mentionn´e, on choisitα = 5%.
Maintenant on calcule la statistique du test observ´ee : z0 = m1−m2
qs2
1
n1 + sn222
= 3010−2950 q1702
49 + 168492
= 2.050155.
> m1 <- 3010
> m2 <- 2950
> n1 <- 49
> n2 <- 49
> s1 <- 170
> s2 <- 168
> n1 > 30 [1] TRUE
> n2 >30 [1] TRUE
> z0 <- (m1-m2)/sqrt(s1ˆ2/n1 + s2ˆ2/n2)
> z0
[1] 1.757276
Nous sommes prˆets `a determiner la valeur p corr´espondant `a la statistique : car R passe les valeurs des param`etres `a R commander, il suffit de trouver la probabilit´e de la queue sup´erieure dez0 :
> p<-pnorm(c(z0), mean=0, sd=1, lower.tail=FALSE)
> p
[1] 0.02017464
p= 0.03943539 = 4%.
Au5%, l’hypoth`ese nulleH0 est rejet´ee avec le risque de4% `a se tromper.
2Le cas bilateral est aussi l´egitime. Ce qui est int´eressant ici, c’est que dans le cas bilateral l’hypoth`ese nulle H0ne serait pas rejet´ee.