Comparaison de la moyenne de deux populations

(1)

Chapitre 2

Comparaison de la moyenne de deux populations

Dans ce chapitre, on examinera brièvement le problème de comparaison des moyennes de deux populations normales indépendantes. On formule le problème comme suit:

Soient deux échantillons indépendants: {Y₁₁, Y₁₂,· · ·, Y_1n} et {Y₂₁, Y₂₂,· · ·, Y_2m} formés respectivement de n observations indépendantes d’une loi normale N(µ1, σ²) et m observations indépendantes d’une loi normale N(µ2, σ²). On suppose, implicitement, que les deux populations possèdent la même variance théorique σ².

Dans ce contexte, on veut tester l’hypoth`ese nulleH₀ :µ₁ =µ₂contre une des hypoth`eses alternatives H₁ :µ₁ 6=µ₂, H₁ :µ₁ > µ₂ ou H₁ :µ₁ < µ₂

Posons

Y¯_1. = 1 n

Xn

i=1

Y_1i Y¯_2. = 1

m

Xm

i=1

Y_2i S₁² = 1

n−1

Xn

i=1

(Y_1i−Y¯_1.)² S₂² = 1

m−1

Xm

i=1

(Y_2i−Y¯_2.)²

(2)

D’après le chapitre précédent, on a alors

Y¯_1. ∼ N(µ₁,σ² n ) Y¯2. ∼ N(µ2,σ²

m) n−1

σ² S₁² ∼ χ²_n−1 m−1

σ² S₂² ∼ χ²_m−1

Les quatre statistiques citées ci-haut sont indépendantes. Comme les deux échantillons sont indépendants, on a aussi

Y¯_1.−Y¯_2.∼N(µ₁−µ₂, σ²(1 n + 1

m))

et m+n−2

σ² S_p² = 1

σ²{(n−1)S₁²+ (m−1)S₂²} ∼χ²_n+m−2

2.1 Variance connue

Dans cette section, on suppose que la variance th´eoriqueσ² commune aux deux populations est connue. Sous ces hypoth`eses, on a

Y¯_1.−Y¯_2.∼N(µ₁−µ₂, σ²(1 n + 1

m)) Donc sous l’hypoth`ese nulle H₀, on a:

Y¯1.−Y¯2.∼N(0, σ²(1 n + 1

m)) qu’on peut encore ´ecrire

Z = Y¯_1.−Y¯_2.

qσ²(¹_n+ _m¹) ∼N(0,1) On rejette H₀ contre H₁ :µ₁ 6=µ₂ au seuil 1−α si |Z|> Z_α/2

(3)

On rejette H0 contre H1 :µ1 < µ2 au seuil 1−α si Z < Zα

Ceci nous permet aussi de construire un intervalle de confiance au niveau 1 −α pour µ₁−µ₂. Ce dernier est ´egal `a:

[( ¯Y1.−Y¯2.)−Z_α/2

s

σ²(1 n + 1

m),( ¯Y1.−Y¯2.) +Z_α/2

s

σ²(1 n + 1

m)]

2.2 Variance inconnue

En pratique, dans la plus part des cas, on ignore la variance th´eorique. Dans ce cas, on doit l’estimer. La statistique S_p² (p pour pooled) est une estimateur de σ², tout comme S₁² etS₂². En effet on a,

E[S₁²] =E[S₂²] =E[S_p²].

Intuitivement, S_p² est un meilleurs estimateur que S₁² ou S₂² car il utilise toute l’information disponible dans les deux ´echantillons, ce qui n’est pas le cas pour les deux autres estimateurs.

Vérifions que S_p² est le meilleur estimateur non biaisé deσ² parmi les combinaisons linéaires deS₁² et S₂². Une telle combinaison linéaire s’écrit sous la forme

˜

σ² =aS₁²+bS₂².

Un tel estimateur est non biais´e donc E[ ˜σ²] =aE[S₁²] +bE[S₂²] = σ² donc on a a+b= 1 ou b= 1−a D’autre part, on a

Var[˜σ²] = a²Var[S₁²] +b²Var[S₂²]

= a² 2σ⁴

n−1 + (1−a)² 2σ⁴ m−1

= 2σ⁴{ a²

n−1 +(1−a)² m−1 }

Il est facile de voir que la quantité a²/(n−1) + (1−a)²/(m−1) est minimisée pour a = (n−1)/(n+m−2), ce qui correspond à b = (m−1)/(n+m−2). Le ˜σ² optimal est donc égal à S_p².

(4)

On a alors:

T = Y¯1.−Y¯2.

qS_p²(_n¹ +_m¹) ∼t_n+m−2

On rejette H₀ contre H₁ :µ₁ 6=µ₂ au seuil 1−α si |T|> t_n+m−2,α/2 On rejette H₀ contre H₁ :µ₁ > µ₂ au seuil 1−α si T > T_n+m−2α On rejette H₀ contre H₁ :µ₁ < µ₂ au seuil 1−α si T < T_n+m−2α

Ceci nous permet aussi de construire un intervalle de confiance au niveau 1 −α pour µ₁−µ₂. Ce dernier est ´egal `a:

[( ¯Y_1.−Y¯_2.)−t_n+m−2,α/2

s

σ²(1 n + 1

m),( ¯Y_1.−Y¯_2.) +t_n+m−2,α/2

s

σ²(1 n + 1

m)]

2.3 Calcul de puissance

Consid´erons la statistique du test lorsque l’hypoth`ese nulle est fausse. Si µ₁ 6=µ₂, Y¯_1.−Y¯_2.

q

σ²(1/n+ 1/m) ∼N



 µ₁−µ₂

q

σ²(1/n+ 1/m),1





Ainsi T² suit une loi F non centrée avec 1 et n+m−2 degrés de liberté et paramètre de noncentralité

δ= (µ₁−µ₂)² σ²(1/n+ 1/m).

On dit que T suit une distribution t non centrée à m+n−2 degrés de liberté et avec paramètre de non centralité égal à

ν= µ₁−µ₂

qσ²(1/n+ 1/m).

Pour la t le paramètre de non centralité diffère de celui de la F et de la Khi-deux; il peut être négatif. En faitδ =ν². La distribution tnon centrée est utilisée pour calculer des puissances.

Exemple 2.1 Vingt souris de laboratoire ont été divisées en deux groupes de 10 souris au

(5)

de poids des 20 souris après 3 semaines. On veut tester l’ypothèse nulle que le gain de poids est le même dans les deux groupes.

Après une transformation logarithmique pour rendre les données normales, on obtient un test non significatif (pvalue=19%), avec une différence de moyenne égale à 0.32 et une variance estimée de 0.27. Quelle taille doit avoir chaque groupe pour faire en sorte que le test d’égalité de moyennes bilatéral au seuil 5% ait une puissance de 90%?

Soit n =m la taille des deux groupes. On va estimer µ₁ −µ₂ par -0.32 et σ² par 0.27.

Pour un n quelconque, le param`etre de non-centralit´e vaut ν = −0.44×√

n. La puissance du test est donc

π(n) = P(T_2(n−1)(ν)<−t2(n−1),0.975) +P(T_2(n−1)(ν)> t2(n−1),0.975),

où T_n(ν)représente une variable aléatoire avec une distributiont non centrée avec paramètre de non-centralité ν et n degré de liberté

Commande R pour lire les donn´ees, faire des tests et calculer faire un graphique de puissance.

grp1<-c(4,14,7,9,11,7,13,14,12,8) grp2<-c(5,21,16,23,4,16,13,19,9,21)

#Cacul de statistiques descriptives

c(mean(grp1),mean(grp2),var(grp1),var(grp2))

c(mean(log(grp1)),mean(log(grp2)),var(log(grp1)),var(log(grp2)))

#Representation graphique

boxplot(as.data.frame(cbind(grp1,grp2)))

boxplot(as.data.frame(cbind(log(grp1),log(grp2))))

#Test t sur l’echelle logarithmique

t.test(log(grp1),log(grp2),var.equal = TRUE)

(6)

10 20 30 40 50 60

0.30.40.50.60.70.80.9

n

pui

Figure 2.1: Graphique de la puissance en fonction de n

#calcul de l’estimation de variance combinee (var(log(grp1))+var(log(grp2)))/2

#Code pour calculer la puissance pui<-rep(0,51) for (i in (1:51)){n<-9+i nu<--0.44*sqrt(n)

pui[i]<-pt(qt(.025,df=2*(n-1)),df=2*(n-1),ncp=nu)+

1-pt(qt(.975,df=2*(n-1)),df=2*(n-1),ncp=nu) } n<-10:60 plot(n,pui)

#Code equivalent avec la distribution f non centree pui2<-rep(0,51) for (i in (1:51)){n<-9+i delta<-(0.44*sqrt(n))^2

pui2[i]<-1-pf(qf(.95,df1=1, df2=2*(n-1)),df1=1, df2=2*(n-1),ncp=delta) }

Le graphique de la puissance en fonction de n montre qu’une taille d’échantillon n = 56 est nécessaire pour obtenir une puissance de 90% sous les spécifications proposées. Etant donné une violation possible de l’hypothèse de normalité, il serait intéressant d’utiliser un test non paramétrique comme celui de Wilcoxon.