• Aucun résultat trouvé

Chapitre 5 : tests de comparaison

N/A
N/A
Protected

Academic year: 2022

Partager "Chapitre 5 : tests de comparaison"

Copied!
6
0
0

Texte intégral

(1)

Chapitre 5

Tests de comparaison de deux moyennes.

5.1 Echantillons appariés ou indépendants ?

Dans le cas de la comparaison de deux moyennes expérimentales, on est confronté à deux cas de figure : soit les deux échantillons sont appariés (c’est à dire vont par paires) : ces deux échantillons cor- respondent plutôt àdeux observations X et Y sur chaque individud’un même échantillon.

Nécessairement, les échantillons sont de même taille !Dans ce cas, on se ramène à un test de confor- mité de la moyenne des différencesD=YX à une valeur théorique (souvent 0).

soit les deux échantillons considérés sont indépendants l’un de l’autre, par exemple prélevés dans des sous populations différentes. Les deux échantillons peuvent être de tailles différentes ou de même taille.

5.2 Cas de deux petits échantillons appariés.

La pression artérielle (mesurée généralement en centimètres de mercure (cmHg)) est exprimée par deux mesures :

— La pression maximale (systolique) au moment de la contraction du cœur ;

— La pression minimale (diastolique) au moment du relâchement du cœur.

On veut comparer chez 10 patients la pression systolique moyenne après administration d’un traitement hypotenseur de référence puis après administration d’un nouveau médicament hypotenseur. Le tableau suivant donne les résultats obtenus :

Malade 1 2 3 4 5 6 7 8 9 10

Référencex 17 15 15 13 12 17 15 16 19 11

Nouveau traitementy 16 13 12 13 14 12 13 13 17 10

On suppose les écarts normalement distribuées. Le nouveau médicament est-il plus efficace au niveau de risqueα= 5% ?

(2)

Les échantillons sont appariés. En effet, chaque patient a deux résultats de pression artérielle systo- lique : le traitement de référence et le nouveau médicament.

On note :X la pression aléatoire avec le traitement de référence,Y la pression aléatoire avec le nouveau médicament etD=X−Y la variable écart supposée normalement distribuée. Notons aussiµXl’espérance deX et µY l’espérance deY. Alors l’espérance deD estµD=µXµY.

Sur l’échantillon expérimental, (X, Y) = (x, y),D=d=xy et on a les valeurs suivantes : moyenne écart type

x mx= 15,0 sx= 2,32 (inutile) y my= 13,3 sy= 1,90 (inutile) d=xy md= 1,7 sd= 1,79

Attention :on a bienmd=mxmy

En revanche,sdn’est pas directement relié àsx etsy. En fait : s2d = s2x +s2y −2 Cov(x, y) et en général Cov(x, y)6= 0 lorsque les échantillons sont appariés ! 1. Formulation des hypothèses.

H0 : “le nouveau traitement n’est pas efficace : il n’y a pas de différence significative entre la référence et le nouveau traitement” (µX=µY, ou encoreµD= 0)

H1 : “le nouveau traitement est efficace : la pression artérielle est plus basse avec le nouveau traitement” (µX > µY, ou encoreµD>0)

On fait un test unilatéral.

2. Modèle statistique.On noteMn(D) etSn(D) la moyenne et l’écart type aléatoires des différences pour un échantillon théorique den= 10 patients. SousH0 on a :

Tn= Mn(D)−µD

Sn(D)

n−1

=Mn(D)

Sn(D)

n−1

St(9).

3. Région critique.Pour une confiance 1−α= 95%, on a une zone critique : Kα(Tn) ={Tn≥1,833}.

4. Prise de décision.md= 1,7,sD= 1,79 donc Tnexp= 1,7

1,79 9

= 2,85∈Kα(Tn)

donc on accepte H1 : au niveau de risque de 5% et au vu des résultats sur l’échantillon, on peut affirmer que le nouveau traitement est efficace.

5. Calcul dep-value (signification).

p-value =P(TnTnexp) =P(Tn ≥2,85) = 0,96%

Ce risque étant inférieur à 5%, on accepteH1.

5.3 Cas de deux échantillons indépendants.

5.3.1 Echantillonnage

Proposition 5.3.1. SiX1etX2sont deux variables aléatoires indépendantes telles queX1 N (µ1, σ1) etX2 N(µ2, σ2), alors

X1±X2 N

µ1±µ2, q

σ21+σ22 .

(3)

Conséquence : considérons une même variableX sur deux populations d’espérances µ1 et µ2 sur ces populations, et notonsMn1 et Mn2 les moyennes aléatoires sur deux échantillons indépendants de taille n1 etn2 respectivement issus de ces populations,Sn1 et Sn2 les variances aléatoires correspondantes.

Alors en vertu du théorème de la limite centrale, (combiné avec le théorème de Slutsky), sin1 etn2sont assez grands (supérieurs à 30), alors :

Mn1Mn2

q S2

n1

n1−1+ S

2n2

n2−1

N(0; 1).

Pour des échantillons de petite taille (n1≤30 oun2≤30), et sous les hypothèses que :

— sur la population 1,X N (µ1, σ1) ;

— sur la population 2,X N (µ2, σ2) ;

— on a égalité des écarts typesσ1=σ2; la variable :

Mn1Mn2

Sq

1 n1 +n1

2

St(n1+n2−2) où S= s

n1Sn2

1+n2Sn2

2

n1+n2−2 .

Lorsquen1+n2≥40 on utilise une loi normale centrée réduite :St(n1+n2−2)'N (0; 1).

Remarque 5.3.2. S est un estimateur de l’écart type communσ1=σ2.

On remarque queS2est la moyenne pondérée des variances aléatoires corrigées nn1

1−1S2n1 et nn2

2−1Sn22 pour les poidsn1−1 etn2−1.

5.3.2 Cas de deux grands échantillons indépendants

Dans une pisciculture, on a analysé l’effet de deux régimes alimentaires sur la croissance des loups (Dicentrarchus labrax appelés aussi bars). La longueur des poissons de deux lots a été mesurée à l’issue de l’expérience. Les résultats sont présentés ci-dessous.

Régime A Régime B Effectifs nA= 180 nB = 100 moyennes en cm mA= 21,0 mB = 21,4 Ecarts types en cm sA= 1,86 sB = 1,43

Au niveau de risque de 5% peut-on affirmer qu’il y a une différence significative entre les deux types d’alimentation ?

1. Formulation des hypothèses.

On noteµA etµB les moyennes théoriques des loups avec les deux types d’alimentation.

H0 : “ il n’y a pas de différence significative entre les deux types d’alimentation” (µA=µB) H1: “ les deux types d’alimentation donnent des résultats significativement différents” (µA6=µB).

On fait un test bilatéral.

2. Modèle statistique.

On note MnA, SnA, MnB et SnB les moyennes et écarts types aléatoires pour des échantillons théoriques denA= 180 loups avec l’alimentation Aet denB= 100 loups avec l’alimentation B.

SousH0 on a :

Z = MnAMnB

q S2 nA

nA−1+ S

nB2

nB−1

N(0; 1).

(4)

3. Région critique.Pour une confiance 1−α= 95%, on a une zone critique : Kα(Z) ={|Z| ≥1,96}={Zn ≥1,96} ∪ {Z ≤ −1,96}.

4. Prise de décision.

Zexp= mAmB

q s2A

nA−1+ns2B

B−1

= 21−21,4 q(1,86)2

179 +(1,43)99 2

=−2,003∈Kα(Z)

donc on accepte H1 : au niveau de risque de 5% et au vu des résultats sur l’échantillon, on peut affirmer que les deux alimentations donnent des résultats différents.

5. Calcul dep-value (signification).

p-value =P([|Z| ≥ |Zexp|) =P(|Z| ≥2,003) = 4,51%

Ce risque étant inférieur à 5%, on accepteH1.

5.3.3 Cas de deux petits échantillons indépendants.

Le cas de deux petits échantillons indépendants est plus délicat : comme on l’a vu dans paragraphe 5.3.1

— on a besoin de la normalité de la variable sur les deux populations ;

— les variances doivent être égales.

Voici un exemple.

On veut savoir si, chez les individus qui consomment régulièrement de l’huile d’olive, le risque cardio- vasculaire est diminué. On utilise pour cela le dosage en d-dimère et plus précisément le logarithme de ce dosage en d-dimères, modélisé par une loi normale – plus le dosage est faible, plus le risque cardiovascu- laire est faible et on rappelle que (d1d2)⇐⇒(lnd1<lnd2) –.

On a observé les résultats suivants sur un échantillon de 9 sujets consommant de l’huile d’arachide et un autre de 13 sujets consommant de l’huile d’olive.

huile huile

d’arachide d’olive

taille d’échantillon nA= 9 nO= 13

moyenne de lnd mA=−0,78 mO =−0,97 écart type de lnd sA= 0,27 sO= 0,32 variance corrigée de lnd bvA=98s2A= 0,082 bvO= 1312s2O= 0,111

1. On commence par tester l’égalité des variances.

(a) Formulation des hypothèses.

On noteσ2Aet σO2 les variances théoriques.

H0var : “ Les variances sont égales :σA2 =σO2

H1var : “ Les variances sont significativement différentesσ2A6=σ2O ” On fait un test bilatéral.

(5)

(b) Modèle statistique.

On note :

VbnA= nA nA−1Sn2

A VbnO= nO nO−1Sn2

O

les variances aléatoires corrigées pour des échantillons théoriques denA= 9 personnes consom- mant de l’huile d’arachide et denO = 13 consommant de l’huile d’olive.

SousH0var on a : F = VbnO

VbnA F(nO−1;nA−1) loi de Fisher Snedecor à (nO−1;nA−1) d.d.l..

0 t

Remarque : on choisit pour le numéréteur l’échantillon qui correspond à la variance corrigé expérimentale la plus grande, de sorte queFexp≥1.

(c) Valeur critique.On fixe un risqueα= 5%. La région critique est de la forme : Kα(F) ={F ≥fα+} ∪ {F ≤fα} avec P(F ≥fα+) =P(F ≤fα) =α

2 = 2,5%

(On a toujoursfα<1< fα+). En vertu de la remarque précédente, seule la valeursfα+= 4,20 suffit – on la lit dans la table de Fisher Snedecor à 2,5% colonne 12 ligne 8.

(d) Prise de décision.

1< Fexp=0,111

0,082 = 1,353<4,20 donc on accepteH0var : les variances sont égales.

2. On calcule ensuite l’estimateur de l’écart type commun (cf.paragraphe 5.3.1) :

s=Sexp= s

nAs2A+nOs2O nA+nO−2 =

s

(nA−1)bvA2 + (nO−1)bvO2 nA+nO−2 =

r8·0,111 + 12·0,082

20 = 0,315

3. Test des moyennes.

(a) Formulation des hypothèses.

On note µA et µO les moyennes de lnd théoriques avec l’huile d’arachide et l’huile d’olive respectivement.

H0: “ Il n’y a pas de différence significative entre les deux types d’huile” (µA=µB) H1: “ Il y a moins de risque cardiovasculaire avec l’huile d’olive ” (µA> µO).

On fait un test unilatéral.

(b) Modèle statistique.

On note MnA et MnO les moyennes aléatoires et S l’écart types commun estimé pour des échantillons théoriques de nA = 9 sujets avec l’huile d’arachide etnO = 13 sujet avec l’huile

(6)

d’olive.

SousH0 on a :

T = MnAMnO Sq

1 nA+n1

O

St(20).

(c) Région critique.Pour une confiance 1−α= 95%, on a une zone critique : Kα(T) ={T ≥1,7247}.

(d) Prise de décision.

Texp= mAmO

sq

1 nA +n1

O

= 1,39∈/Kα(T)

donc on accepteH0 : il n’y a pas de différence significative entre les deux types d’huile.

Références

Documents relatifs

• score d’homologie: la valeur du score diminue avec le nombre de différences observées entre les deux séquences. • score de distance: la valeur du score augmente avec le nombre

Le taux est un mode de comparaison entre deux quantités ou deux grandeurs, généralement de nature différente, exprimées à l’aide d’unités différentes et qui fait intervenir

• Lorsque les populations sont distribuées normalement et de variances inégales (on peut alors se demander quel est l'intérêt de comparer les moyennes) on met en œuvre d'autre

TEST.F : Sous l’hypothèse d’égalité des variances de deux populations, cette fonction renvoie la probabilité d’obtenir une telle différence entre les variances des

Nous nous posons la question de savoir si, en moyenne, les teneurs en nitrates des eaux de sources de l’ensemble de la région considérée ne dépassent pas un seuil ou une norme de

Ainsi, une différence de régime alimentaire affecte significativement la croissance des poissons au seuil α =

Pour cela, nous comparons deux échantillons de personnes du niveau de connaissance requis pour accéder à la formation.. Le premier échantillon (1) est constitué de 220

Dans [8] nous donnons des conditions sur € assurant l'identité dimf = dim. Cependant plusieurs situations amènent à considérer des famil- les ne donnant pas lieu à cette identité.