• Aucun résultat trouvé

Comparaison de la moyenne de deux populations

N/A
N/A
Protected

Academic year: 2022

Partager "Comparaison de la moyenne de deux populations"

Copied!
6
0
0

Texte intégral

(1)

Chapitre 2

Comparaison de la moyenne de deux populations

Dans ce chapitre, on examinera bri`evement le probl`eme de comparaison des moyennes de deux populations normales ind´ependantes. On formule le probl`eme comme suit:

Soient deux ´echantillons ind´ependants: {Y11, Y12,· · ·, Y1n} et {Y21, Y22,· · ·, Y2m} form´es respectivement de n observations ind´ependantes d’une loi normale N(µ1, σ2) et m observa- tions ind´ependantes d’une loi normale N(µ2, σ2). On suppose, implicitement, que les deux populations poss`edent la mˆeme variance th´eorique σ2.

Dans ce contexte, on veut tester l’hypoth`ese nulleH0 :µ1 =µ2contre une des hypoth`eses alternatives H1 :µ1 6=µ2, H1 :µ1 > µ2 ou H1 :µ1 < µ2

Posons

Y¯1. = 1 n

Xn

i=1

Y1i Y¯2. = 1

m

Xm

i=1

Y2i S12 = 1

n−1

Xn

i=1

(Y1i−Y¯1.)2 S22 = 1

m−1

Xm

i=1

(Y2i−Y¯2.)2

(2)

D’apr`es le chapitre pr´ec´edent, on a alors

Y¯1. N(µ12 n ) Y¯2. N(µ22

m) n−1

σ2 S12 χ2n−1 m−1

σ2 S22 χ2m−1

Les quatre statistiques cit´ees ci-haut sont ind´ependantes. Comme les deux ´echantillons sont ind´ependants, on a aussi

Y¯1.−Y¯2.N(µ1−µ2, σ2(1 n + 1

m))

et m+n−2

σ2 Sp2 = 1

σ2{(n−1)S12+ (m1)S22} ∼χ2n+m−2

2.1 Variance connue

Dans cette section, on suppose que la variance th´eoriqueσ2 commune aux deux populations est connue. Sous ces hypoth`eses, on a

Y¯1.−Y¯2.N(µ1−µ2, σ2(1 n + 1

m)) Donc sous l’hypoth`ese nulle H0, on a:

Y¯1.−Y¯2.N(0, σ2(1 n + 1

m)) qu’on peut encore ´ecrire

Z = Y¯1.−Y¯2.

qσ2(1n+ m1) N(0,1) On rejette H0 contre H1 :µ1 6=µ2 au seuil 1−α si |Z|> Zα/2

(3)

On rejette H0 contre H1 :µ1 < µ2 au seuil 1−α si Z < Zα

Ceci nous permet aussi de construire un intervalle de confiance au niveau 1 −α pour µ1−µ2. Ce dernier est ´egal `a:

[( ¯Y1.−Y¯2.)−Zα/2

s

σ2(1 n + 1

m),( ¯Y1.−Y¯2.) +Zα/2

s

σ2(1 n + 1

m)]

2.2 Variance inconnue

En pratique, dans la plus part des cas, on ignore la variance th´eorique. Dans ce cas, on doit l’estimer. La statistique Sp2 (p pour pooled) est une estimateur de σ2, tout comme S12 etS22. En effet on a,

E[S12] =E[S22] =E[Sp2].

Intuitivement, Sp2 est un meilleurs estimateur que S12 ou S22 car il utilise toute l’information disponible dans les deux ´echantillons, ce qui n’est pas le cas pour les deux autres estimateurs.

V´erifions que Sp2 est le meilleur estimateur non biais´e deσ2 parmi les combinaisons lin´eaires deS12 et S22. Une telle combinaison lin´eaire s’´ecrit sous la forme

˜

σ2 =aS12+bS22.

Un tel estimateur est non biais´e donc E[ ˜σ2] =aE[S12] +bE[S22] = σ2 donc on a a+b= 1 ou b= 1−a D’autre part, on a

Var[˜σ2] = a2Var[S12] +b2Var[S22]

= a24

n−1 + (1−a)24 m−1

= 2σ4{ a2

n−1 +(1−a)2 m−1 }

Il est facile de voir que la quantit´e a2/(n−1) + (1−a)2/(m−1) est minimis´ee pour a = (n1)/(n+m−2), ce qui correspond `a b = (m1)/(n+m−2). Le ˜σ2 optimal est donc ´egal `a Sp2.

(4)

On a alors:

T = Y¯1.−Y¯2.

qSp2(n1 +m1) ∼tn+m−2

On rejette H0 contre H1 :µ1 6=µ2 au seuil 1−α si |T|> tn+m−2,α/2 On rejette H0 contre H1 :µ1 > µ2 au seuil 1−α si T > Tn+m−2α On rejette H0 contre H1 :µ1 < µ2 au seuil 1−α si T < Tn+m−2α

Ceci nous permet aussi de construire un intervalle de confiance au niveau 1 −α pour µ1−µ2. Ce dernier est ´egal `a:

[( ¯Y1.−Y¯2.)−tn+m−2,α/2

s

σ2(1 n + 1

m),( ¯Y1.−Y¯2.) +tn+m−2,α/2

s

σ2(1 n + 1

m)]

2.3 Calcul de puissance

Consid´erons la statistique du test lorsque l’hypoth`ese nulle est fausse. Si µ1 6=µ2, Y¯1.−Y¯2.

q

σ2(1/n+ 1/m) ∼N

µ1−µ2

q

σ2(1/n+ 1/m),1

Ainsi T2 suit une loi F non centr´ee avec 1 et n+m−2 degr´es de libert´e et param`etre de noncentralit´e

δ= (µ1−µ2)2 σ2(1/n+ 1/m).

On dit que T suit une distribution t non centr´ee `a m+n−2 degr´es de libert´e et avec param`etre de non centralit´e ´egal `a

ν= µ1−µ2

qσ2(1/n+ 1/m).

Pour la t le param`etre de non centralit´e diff`ere de celui de la F et de la Khi-deux; il peut ˆetre n´egatif. En faitδ =ν2. La distribution tnon centr´ee est utilis´ee pour calculer des puissances.

Exemple 2.1 Vingt souris de laboratoire ont ´et´e divis´ees en deux groupes de 10 souris au

(5)

de poids des 20 souris apr`es 3 semaines. On veut tester l’ypoth`ese nulle que le gain de poids est le mˆeme dans les deux groupes.

Apr`es une transformation logarithmique pour rendre les donn´ees normales, on obtient un test non significatif (pvalue=19%), avec une diff´erence de moyenne ´egale `a 0.32 et une variance estim´ee de 0.27. Quelle taille doit avoir chaque groupe pour faire en sorte que le test d’´egalit´e de moyennes bilat´eral au seuil 5% ait une puissance de 90%?

Soit n =m la taille des deux groupes. On va estimer µ1 −µ2 par -0.32 et σ2 par 0.27.

Pour un n quelconque, le param`etre de non-centralit´e vaut ν = −0.44×√

n. La puissance du test est donc

π(n) = P(T2(n−1)(ν)<−t2(n−1),0.975) +P(T2(n−1)(ν)> t2(n−1),0.975),

o`u Tn(ν)repr´esente une variable al´eatoire avec une distributiont non centr´ee avec param`etre de non-centralit´e ν et n degr´e de libert´e

Commande R pour lire les donn´ees, faire des tests et calculer faire un graphique de puissance.

grp1<-c(4,14,7,9,11,7,13,14,12,8) grp2<-c(5,21,16,23,4,16,13,19,9,21)

#Cacul de statistiques descriptives

c(mean(grp1),mean(grp2),var(grp1),var(grp2))

c(mean(log(grp1)),mean(log(grp2)),var(log(grp1)),var(log(grp2)))

#Representation graphique

boxplot(as.data.frame(cbind(grp1,grp2)))

boxplot(as.data.frame(cbind(log(grp1),log(grp2))))

#Test t sur l’echelle logarithmique

t.test(log(grp1),log(grp2),var.equal = TRUE)

(6)

10 20 30 40 50 60

0.30.40.50.60.70.80.9

n

pui

Figure 2.1: Graphique de la puissance en fonction de n

#calcul de l’estimation de variance combinee (var(log(grp1))+var(log(grp2)))/2

#Code pour calculer la puissance pui<-rep(0,51) for (i in (1:51)){n<-9+i nu<--0.44*sqrt(n)

pui[i]<-pt(qt(.025,df=2*(n-1)),df=2*(n-1),ncp=nu)+

1-pt(qt(.975,df=2*(n-1)),df=2*(n-1),ncp=nu) } n<-10:60 plot(n,pui)

#Code equivalent avec la distribution f non centree pui2<-rep(0,51) for (i in (1:51)){n<-9+i delta<-(0.44*sqrt(n))^2

pui2[i]<-1-pf(qf(.95,df1=1, df2=2*(n-1)),df1=1, df2=2*(n-1),ncp=delta) }

Le graphique de la puissance en fonction de n montre qu’une taille d’´echantillon n = 56 est n´ecessaire pour obtenir une puissance de 90% sous les sp´ecifications propos´ees. Etant donn´e une violation possible de l’hypoth`ese de normalit´e, il serait int´eressant d’utiliser un test non param´etrique comme celui de Wilcoxon.

Références

Documents relatifs

Perdre ses photos de vacances : ¸ca n’a pas de

Méthode : Pour calculer la moyenne d'une série statistique :. • On additionne toutes les valeurs de

Enfin, dans la section 4, nous pr´ esentons quelques r´ esultats pr´ eliminaires montrant l’influence des individus utilis´ es pour l’inf´ erence sur le r´ eseau lui- mˆ eme et

On doit donc observer les franges du coin d’air; elles sont localis´ ees sur les miroirs lorsque l’incidence est normale ce qui est r´ ealis´ e ici avec l’auto-collimation; on

Nous proposons une application pratique à des données concernant 450 patients HIV-positifs pour lesquels nous disposons de relevés de huit variables biologiques : Globules

une estimation correcte de cette variance commune pourra être faite à partir de l’ensemble des deux. échantillons :

(2012), Comparaison de diff´ erents plans de sondage et construction de bandes de confiance pour l’estimation de la moyenne de donn´ ees fonctionnelles : une illustration sur

La moyenne est tirée vers le haut par les salaires élevés, même s'ils sont peu nombreux, et elle est pour cette raison généralement supérieure à la