• Aucun résultat trouvé

Test de Student pour comparer deux moyennes

N/A
N/A
Protected

Academic year: 2022

Partager "Test de Student pour comparer deux moyennes"

Copied!
5
0
0

Texte intégral

(1)

Test de Student pour comparer deux moyennes

On présente :

tout d’abord 1 - les deux hypothèses Ho et H1.

Ho, dite hypothèse nulle, selon laquelle les deux moyennes des collectifs (populations) I et II sont les mêmes et H1, dite hypothèse alternative, selon laquelle les deux moyennes sont différentes.

H H

I II I II

I II

0 1

0 : ou

:

μ μ μ μ

μ μ

= − =

puis, 2 - le risque de première espèce de ce test bilatéral ("two-tail") ici α=0,05

ensuite vient 3 - le choix de la statistique à étudier

La variable aléatoire à étudier ici est la différence des moyennes X1 X2, la statistique utilisée dans ce test est :

T X X

SCE SCE

n n n n

X X

=

+

+ +

( 1 2)

1 2 1 2

1 2

2

1 1

(voir pages suivantes)

la variable aléatoire T est distribuée selon la loi de Student à n1 +n2 2 degrés de liberté (ddl), si les conditions de modélisation sont réunies. Rappelons ces conditions:

- Il faut que l’Echantillonnage soit Aléatoire, Simple et Indépendant (EASI).

- Il faut que les variables X et X1 2 soient distribuées selon une loi normale.

- Il faut que les deux collectifs (populations) I et II aient la même variance ("homoscédasticité")

- On se place dans le cas où l’hypothèse nulle Ho est vraie.

ensuite 4 - il faut calculer la valeur t prise par T à partir des échantillons observés et appliquer la règle de décision basée sur le modèle de Student.

Illustration sur un exemple

Nous allons comparer la quantité moyenne en matière protéique de deux fabrications de fromage de chèvre. Nous supposons que la variable X1 (respectivement X2) qui prend pour valeur la quantité en matière protéique, pour un fromage prélevé au hasard dans la premiére fabrication (respectivement la deuxième), est une variable normale. Les variances des fabrications ne sont pas différentes. L’échantillonnage est EASI.

(2)

1 - Les Hypothèses sont :

H H

I II I II

I II

0 1

0 : ou

:

μ μ μ μ

μ μ

= − =

2 - le risque α = 0,05 (on étudiera aussi α = 0,01)

d’où le 3 - résumé statistique

n1 20 n2 21 ddl 39

Moyenne 48,60 Moyenne 53,40 Numérateur -4,8

SCEX1 107,648 SCEX2 199,214 Dénominateur 0,8764

La valeur de t calculée ici est de -5.48.

4 - les règles de décision sont les suivantes (modèle de Student)

[ ]

t∉ − 2 02. ;+2 02. rejet de Ho au risque de 5%

[ ]

t∉ − 2 708. ;+2 708. rejet de Ho au risque de 1%

En conclusion puisque t vaut -5.48, nous rejetons Ho de façon "hautement significative". Nous affirmons que les deux fabrications ont des moyennes différentes avec un risque inférieur à 1%

de nous tromper.

Quelles sont les conditions requises pour l’utilisation du modèle de Student lors de ce test ?

Nous rappelons qu’une variable aléatoire T distribuée selon la loi de Student à n degrés de liberté (ddl) est définie comme suit:

T U

= K ν

où U est une variable normale centrée réduite et K une variable aléatoire, indépendante de U, distribuée selon la loi de χ² à ν ddl.

(3)

Montrons que la variable aléatoire T est de cette forme

T X X

SCE SCE

n n n n

X X

=

+

+ +

( 1 2)

1 2 1 2

1 2

2

1 1

Si X1et X2 sont des variables distribuées selon les lois normales suivantes,

X1 N(μ σ1; 1) et X2 N(μ σ2; 2) , alors X1 et X2 sont distribuées selon les lois

normales

X N( ;

n

X N( ;

n

1 1

1 1

2 2

2 2

μ σ μ σ

)

)

En conséquence, la variable aléatoire différence des deux variables aléatoires indépendantes X1 et X2, c’est à dire X1X2, est distribuée selon la loi Normale

N(μ μ ; σn σn )

1 2

1 2

2 2

1 2

+

Rappelons que les variances ne sont additives que si les variables sont indépendantes, ce qui est bien le cas avec deux Echantillons Aléatoires Simples Indépendants provenant de deux populations indépendantes.

D’où la variable aléatoire U, sous l’hypothèse Ho : ( μ1μ2 =0) :

U X X

n n

=

+ ( 1 2)

1 2

1 2 2

2

0

σ σ qui est distribuée selon la loi N(0;1).

Si les variances sont égales (c’est à dire si l’hypothèse d’homocédasticité est vérifiée) alors l’expression devient :

U X X

n n

=

+ 1

1 1

1 2

1 2

σ.( )

Occupons- nous à présent du dénominateur

On démontre, (théorème de Fisher), que si n variables aléatoires Xi sont indépendantes et suivent toutes la loi normale N(µ,σ), alors la variable aléatoire :

(Xi X)

i

n

= 2 1

σ2 , notée

encore : SCEX

σ2 , est distribuée selon la loi de χ² à n-1 ddl.

(4)

D’après ce théorème, les variables aléatoires K SCEX

1

1 2

= 1

σ et K SCEX

2 2

2

= 2

σ sont

distribuées respectivement selon la loi de χ² à n1-1 ddl et la loi de χ² à n2-1 ddl.

Ces variables étant indépendantes, leur somme suit la loi de χ² à (n1-1)+(n2-1) ddl.

K SCEX SCEX

= 1 + 2

1 2

2

σ σ2 suit donc la loi de χ² à n1+n2-2 ddl,

d’où la variable K

SCE SCE n n

X X

ν

σ σ

=

+ +

1 2

1 2

2 2

1 2 2 .

Si les variances sont égales (c’est à dire si l’hypothèse d’homocédasticité est vérifiée), alors l’expression devient:

1

2

1 2

1 2

σ

SCE SCE n n

X + X

+

On peut donc écrire le quotient des deux variables aléatoires U et K ν : 1

1 1

1

2

1 2

1 2

1 2

1 2

σ

σ

(X X )

n n

SCE SCE

n n

X X

+ + +

qui est donc une variable aléatoire suivant la

loi de Student à n1+n2-2 ddl.

En simplifiant par σ, nous reconnaissons notre variable T :

T X X

SCE SCE

n n n n

X X

=

+

+ +

( 1 2)

1 2 1 2

1 2

2

1 1

En guise de conclusion

Nous pouvons affirmer que la variable T ainsi construite est distribuée selon la loi de Student à

n1+n2 1 degrés de liberté et que tout ceci repose sur : - l’hypothèse nulle Ho : μ1 μ2 =0

- la propriété EASI des échantillons.

- le caractère normal des variables d’origine ("parentes").

- l’indépendance de ces variables l’une par rapport à l’autre.

- l’égalité des variances des deux populations d’origine .

(5)

Dans la pratique, il arrive souvent que les conditions nécessaires à l’utilisation du modèle de Student ne soient pas toutes réunies ; dans ce cas, les résultats des analyses sont pour le moins approximatifs...sinon faux! Comme pour le "test de Student par paires" que nous présenterons dans un autre article, nous préférerons utiliser dans ces circonstances un test non - paramétrique...affaire à suivre donc !

… étonnant non ? !

Références

Documents relatifs

[r]

(vérifier à la calculatrice la validité de votre réponse)... (vérifier à la calculatrice la validité de

Parmi les trois courbes proposées ci-dessous, laquelle peut correspondre à la représentation graphique de la fonction dérivée de f.. ( la réponse devra être

Tant que x≥.... 2) Complétez et/ou modifiez cet algorithme afin que son exécution simule 10000 tentatives de traversée et renvoie la fréquence de traversées réussies. 3) En

[r]

[r]

[r]

Artificial Neural Networks: From Perceptron to Deep Learning 1 © 2021 ⏐ Younès Bennani - USPN.. Artificial