Chapitre 2
Comparaison de la moyenne de deux populations
Dans ce chapitre, on examinera bri`evement le probl`eme de comparaison des moyennes de deux populations normales ind´ependantes. On formule le probl`eme comme suit:
Soient deux ´echantillons ind´ependants: {Y11, Y12,· · ·, Y1n} et {Y21, Y22,· · ·, Y2m} form´es respectivement de n observations ind´ependantes d’une loi normale N(µ1, σ2) et m observa- tions ind´ependantes d’une loi normale N(µ2, σ2). On suppose, implicitement, que les deux populations poss`edent la mˆeme variance th´eorique σ2.
Dans ce contexte, on veut tester l’hypoth`ese nulleH0 :µ1 =µ2contre une des hypoth`eses alternatives H1 :µ1 6=µ2, H1 :µ1 > µ2 ou H1 :µ1 < µ2
Posons
Y¯1. = 1 n
Xn
i=1
Y1i Y¯2. = 1
m
Xm
i=1
Y2i S12 = 1
n−1
Xn
i=1
(Y1i−Y¯1.)2 S22 = 1
m−1
Xm
i=1
(Y2i−Y¯2.)2
D’apr`es le chapitre pr´ec´edent, on a alors
Y¯1. ∼ N(µ1,σ2 n ) Y¯2. ∼ N(µ2,σ2
m) n−1
σ2 S12 ∼ χ2n−1 m−1
σ2 S22 ∼ χ2m−1
Les quatre statistiques cit´ees ci-haut sont ind´ependantes. Comme les deux ´echantillons sont ind´ependants, on a aussi
Y¯1.−Y¯2.∼N(µ1−µ2, σ2(1 n + 1
m))
et m+n−2
σ2 Sp2 = 1
σ2{(n−1)S12+ (m−1)S22} ∼χ2n+m−2
2.1 Variance connue
Dans cette section, on suppose que la variance th´eoriqueσ2 commune aux deux populations est connue. Sous ces hypoth`eses, on a
Y¯1.−Y¯2.∼N(µ1−µ2, σ2(1 n + 1
m)) Donc sous l’hypoth`ese nulle H0, on a:
Y¯1.−Y¯2.∼N(0, σ2(1 n + 1
m)) qu’on peut encore ´ecrire
Z = Y¯1.−Y¯2.
qσ2(1n+ m1) ∼N(0,1) On rejette H0 contre H1 :µ1 6=µ2 au seuil 1−α si |Z|> Zα/2
On rejette H0 contre H1 :µ1 < µ2 au seuil 1−α si Z < Zα
Ceci nous permet aussi de construire un intervalle de confiance au niveau 1 −α pour µ1−µ2. Ce dernier est ´egal `a:
[( ¯Y1.−Y¯2.)−Zα/2
s
σ2(1 n + 1
m),( ¯Y1.−Y¯2.) +Zα/2
s
σ2(1 n + 1
m)]
2.2 Variance inconnue
En pratique, dans la plus part des cas, on ignore la variance th´eorique. Dans ce cas, on doit l’estimer. La statistique Sp2 (p pour pooled) est une estimateur de σ2, tout comme S12 etS22. En effet on a,
E[S12] =E[S22] =E[Sp2].
Intuitivement, Sp2 est un meilleurs estimateur que S12 ou S22 car il utilise toute l’information disponible dans les deux ´echantillons, ce qui n’est pas le cas pour les deux autres estimateurs.
V´erifions que Sp2 est le meilleur estimateur non biais´e deσ2 parmi les combinaisons lin´eaires deS12 et S22. Une telle combinaison lin´eaire s’´ecrit sous la forme
˜
σ2 =aS12+bS22.
Un tel estimateur est non biais´e donc E[ ˜σ2] =aE[S12] +bE[S22] = σ2 donc on a a+b= 1 ou b= 1−a D’autre part, on a
Var[˜σ2] = a2Var[S12] +b2Var[S22]
= a2 2σ4
n−1 + (1−a)2 2σ4 m−1
= 2σ4{ a2
n−1 +(1−a)2 m−1 }
Il est facile de voir que la quantit´e a2/(n−1) + (1−a)2/(m−1) est minimis´ee pour a = (n−1)/(n+m−2), ce qui correspond `a b = (m−1)/(n+m−2). Le ˜σ2 optimal est donc ´egal `a Sp2.
On a alors:
T = Y¯1.−Y¯2.
qSp2(n1 +m1) ∼tn+m−2
On rejette H0 contre H1 :µ1 6=µ2 au seuil 1−α si |T|> tn+m−2,α/2 On rejette H0 contre H1 :µ1 > µ2 au seuil 1−α si T > Tn+m−2α On rejette H0 contre H1 :µ1 < µ2 au seuil 1−α si T < Tn+m−2α
Ceci nous permet aussi de construire un intervalle de confiance au niveau 1 −α pour µ1−µ2. Ce dernier est ´egal `a:
[( ¯Y1.−Y¯2.)−tn+m−2,α/2
s
σ2(1 n + 1
m),( ¯Y1.−Y¯2.) +tn+m−2,α/2
s
σ2(1 n + 1
m)]
2.3 Calcul de puissance
Consid´erons la statistique du test lorsque l’hypoth`ese nulle est fausse. Si µ1 6=µ2, Y¯1.−Y¯2.
q
σ2(1/n+ 1/m) ∼N
µ1−µ2
q
σ2(1/n+ 1/m),1
Ainsi T2 suit une loi F non centr´ee avec 1 et n+m−2 degr´es de libert´e et param`etre de noncentralit´e
δ= (µ1−µ2)2 σ2(1/n+ 1/m).
On dit que T suit une distribution t non centr´ee `a m+n−2 degr´es de libert´e et avec param`etre de non centralit´e ´egal `a
ν= µ1−µ2
qσ2(1/n+ 1/m).
Pour la t le param`etre de non centralit´e diff`ere de celui de la F et de la Khi-deux; il peut ˆetre n´egatif. En faitδ =ν2. La distribution tnon centr´ee est utilis´ee pour calculer des puissances.
Exemple 2.1 Vingt souris de laboratoire ont ´et´e divis´ees en deux groupes de 10 souris au
de poids des 20 souris apr`es 3 semaines. On veut tester l’ypoth`ese nulle que le gain de poids est le mˆeme dans les deux groupes.
Apr`es une transformation logarithmique pour rendre les donn´ees normales, on obtient un test non significatif (pvalue=19%), avec une diff´erence de moyenne ´egale `a 0.32 et une variance estim´ee de 0.27. Quelle taille doit avoir chaque groupe pour faire en sorte que le test d’´egalit´e de moyennes bilat´eral au seuil 5% ait une puissance de 90%?
Soit n =m la taille des deux groupes. On va estimer µ1 −µ2 par -0.32 et σ2 par 0.27.
Pour un n quelconque, le param`etre de non-centralit´e vaut ν = −0.44×√
n. La puissance du test est donc
π(n) = P(T2(n−1)(ν)<−t2(n−1),0.975) +P(T2(n−1)(ν)> t2(n−1),0.975),
o`u Tn(ν)repr´esente une variable al´eatoire avec une distributiont non centr´ee avec param`etre de non-centralit´e ν et n degr´e de libert´e
Commande R pour lire les donn´ees, faire des tests et calculer faire un graphique de puissance.
grp1<-c(4,14,7,9,11,7,13,14,12,8) grp2<-c(5,21,16,23,4,16,13,19,9,21)
#Cacul de statistiques descriptives
c(mean(grp1),mean(grp2),var(grp1),var(grp2))
c(mean(log(grp1)),mean(log(grp2)),var(log(grp1)),var(log(grp2)))
#Representation graphique
boxplot(as.data.frame(cbind(grp1,grp2)))
boxplot(as.data.frame(cbind(log(grp1),log(grp2))))
#Test t sur l’echelle logarithmique
t.test(log(grp1),log(grp2),var.equal = TRUE)
10 20 30 40 50 60
0.30.40.50.60.70.80.9
n
pui
Figure 2.1: Graphique de la puissance en fonction de n
#calcul de l’estimation de variance combinee (var(log(grp1))+var(log(grp2)))/2
#Code pour calculer la puissance pui<-rep(0,51) for (i in (1:51)){n<-9+i nu<--0.44*sqrt(n)
pui[i]<-pt(qt(.025,df=2*(n-1)),df=2*(n-1),ncp=nu)+
1-pt(qt(.975,df=2*(n-1)),df=2*(n-1),ncp=nu) } n<-10:60 plot(n,pui)
#Code equivalent avec la distribution f non centree pui2<-rep(0,51) for (i in (1:51)){n<-9+i delta<-(0.44*sqrt(n))^2
pui2[i]<-1-pf(qf(.95,df1=1, df2=2*(n-1)),df1=1, df2=2*(n-1),ncp=delta) }
Le graphique de la puissance en fonction de n montre qu’une taille d’´echantillon n = 56 est n´ecessaire pour obtenir une puissance de 90% sous les sp´ecifications propos´ees. Etant donn´e une violation possible de l’hypoth`ese de normalit´e, il serait int´eressant d’utiliser un test non param´etrique comme celui de Wilcoxon.