Chapitre 6
Test d’hypothèses avec deux échantillons
1)Introduction les exemples précédents ont concerné l’utilisation d’un échantillon pour obtenir une inférence à propos d’une population. Dans la réalité, il y a des situations dans laquelle il est nécessaire de comparer deux échantillons issus de deux populations afin de conduire des inférences à propos de ces populations.
2) Inférence sur deux moyennes : échantillons indépendants
Définition : deux échantillons sont indépendants si les valeurs d’une population ne sont pas liées aux valeurs de l’autre
population.
Conditions d’application du test
1. les deux échantillons sont indépendants 2. les deux échantillons sont aléatoire simples
3. une ou les des deux conditions sont satisfaites ; les deux échantillons sont grands (n1 >30, n2>30) ou les deux
échantillons sont issus de populations possédant des distributions normales.
Cas de variances connues Statistique de test
z=(𝑥̅1−𝑥̅2)
√𝜎12
𝑛1+𝜎2
2 𝑛2
valeurs critiques à partir de la table de loi normale Remarque 𝜎12 et 𝜎22 sont rarement connus en réalité.
Cas de variances inconnues
Statistique de test
t =(𝑥̅1−𝑥̅2)
√𝑠12
𝑛1+𝑠2
2 𝑛2
Valeurs critiques
Les valeurs critiques sont obtenues à partir de la table de student à ddl=min(n1-1, n2-1)
Exemple lors d’une expérience à tester l’efficacité de la
paroxétine pour traiter la maladie bipolaire, des mesures ont été réalisées sur des sujets en utilisant l’échelle de
dépression de Hamilton avec les résultats donnés ci-dessous.
Utiliser un niveau de significativité de 0.05 pour tester l’affirmation que le groupe traité et le groupe placebo viennent d’une population avec la même moyenne.
Interpréter le résultat.
Groupe placebo n=43, 𝑥̅=21.57 s=3.87 Groupe traité n=33, 𝑥̅ = 20.38 s=3.91
Solution on vérifie les conditions d’application du test ; 1. les deux échantillons sont indépendants et issus d’un
tirage aléatoire simple
2. les échantillons sont de taille supérieure à 30(de grandes taille)
H0 : µ1= µ2 H1 : µ1 ≠ µ2
t =(𝑥̅1−𝑥̅2)
√𝑠12
𝑛1+𝑠22
𝑛2
=(21.57−20.38)
√3.872
43 +3.912
33
=1.321
valeurs critiques nous utilisons la loi de student 𝑡𝛼
2
,33-1=2.037
Conclusion la statistique de test ne se trouve pas dans la région critique, nous ne pouvons pas rejeter l’hypothèse nulle µ1= µ2
Interprétation il n’y a pas suffisamment de preuves pour garantir le rejet de l’affirmation que les patients ayant reçu un placebo et ceux traités par la paroxétine ont la même moyenne. Comme les moyennes ne sont pas
significativement différentes le traitement ne semble pas avoir d’effet significatif et cette substance n’est pas un bon traitement pour la maladie bipolaire
-4 -2 0 2 4
0.00.10.20.30.4
hypothèse alternative H1 : « ≠ »
Test bilatéral
densité de probabilité de t(32)
non rejet de H0
rejet de H0
t=2.037 t=1.321
statistique de test
rejet de H0
t=-2.037
Cas de variances égales (inconnues)
Même quand les valeurs spécifiques des écart types ne sont pas connus, s’il est possible de considérer qu’ils ont la même valeur, on peut avoir une estimation de la variance commune Conditions d’application
les deux populations ont le même écart type
les deux échantillons sont indépendants.
Les deux échantillons sont aléatoires simples
Une des deux conditions suivantes sont satisfaites ; les deux échantillons sont tous les deux grands ou les deux viennent de populations dont la distribution est
normale.
Test d’hypothèse : échantillons indépendants et σ1 = σ2 Statistique de test
(𝑥̅1 − 𝑥̅2)
√𝑠𝑐2
𝑛1 + 𝑠𝑐2 𝑛2
𝑠𝑐2 = (𝑛1 − 1)𝑠12 + (𝑛2 − 1)𝑠22 (𝑛1 − 1) + (𝑛2 − 1) ddl= (𝑛1 − 1) + (𝑛2 − 1)
Remarque si on veut utiliser cette méthode, comment
déterminer si les deux ecart types sont égaux? Une approche
est utilisée est celle de test de comparaison de deux variances qui sera traitée vers la fin de ce chapitre.
3) Inférences à partir de données appariés Avec les données appariées, il existe une relation telle que chaque valeur d’un échantillon correspond à une valeur de l’autre échantillon.
Exemples
Lors d’une expérience de test d’efficacité d’un régime pauvre en matière grasse, le poids de chaque sujet est mesuré avant et après le régime
Dans le test des effets d’un engrais sur la hauteur d’arbre, les arbres de l’échantillon sont plantées par paires, un arbre recevant le traitement et l’autre pas.
Conditions d’application
les données sont des données appariées
les échantillons sont aléatoires simples.
Une ou les deux conditions sont satisfaites ; le nombre de paires est grand ou les paires de valeurs proviennent de populations dont la distribution est
approximativement normale Notations
d : différence individuelle entre les deux valeurs d’une paire µd : valeur moyenne des différence d pour la population de toutes les paires
𝑑̅ : valeur moyenne des différences
sd : écart type des différences d pour les données appariées de l’échantillon.
n : nombre de paires.
Statistique de test
t=sd𝑑̅
√𝑛
valeurs critiques à partir de la table de student et ddl= n-1.
Exemple « efficacité de l’hypnose pour réduire la douleur»
Une étude a cherché à mesurer l’efficacité de l’hypnose pour réduire la douleur. Les résultats pour les sujets aléatoires sont données dans le tableau ci-dessous. Les valeurs concernent des mesures avant et après hypnose
L’hypnose semble t- elle être un bon traitement pour réduire la douleur ?
Sujet A B C D E F G H Avant 6.6 6.5 9 10.3 11.3 8.1 6.3 11.6 Après 6.8 2.4 7.4 8.5 8.1 6.1 3.4 2.0 Solution les données sont liées par paires car se sont les mesures prises sur les mêmes individus (avant et après
l’hypnoses) et on suppose que les échantillons sont issus de populations distribuées normalement)
H0 : µd = 0 H1 : µd > 0
On introduit une nouvelle variable des différences notée d Les valeurs de d sont
-0.2 4.1 1.6 1.8 3.2 2.0 2.9 9.6 On calcule
𝑑̅ = 3.125 sd = 2.911 statistique de test
t=sd𝑑̅
√𝑛
= 3.1252.911
√8
= 3.036
valeurs critiques à partir de la table de student ddl=8-1=7 et la colonne 2*0.05=0.1
t𝛼,7= 1.894
t > t𝛼,7= 1.894 donc on rejette H0
Interprétation : il y a suffisamment de preuves pour
confirmer que les mesures de douleur sont plus basse après hypnose. L’hypnose semble être un bon traitement pour réduire la douleur.
4) Inférence sur deux proportions dans les médias ainsi que dans la littérature scientifique on est confronté à des
comparaisons des proportions de deux populations. Les méthodes présentées dans cette section traite ce genre de problème sous certaines conditions.
Conditions requises
Les proportions sont issues de deux échantillons aléatoires simples indépendants.
n1p1> 5, n1(1- p1)et n2p2 > 5, n2(1-p2) > 5.
-4 -2 0 2 4
0.00.10.20.30.4
hypothèse alternative H1 : « > »
Test unilatéral
densité de probabilité de t(7)
valeur critique
rejet de H0
1.894 3.297 statistique de test
Notations
n1= taille d’échantillon 1 𝑝̂1=𝑥1
𝑛 (proportion d’échantillon 1) p1= proportion de la population 1
On attribue un sens similaire à n2, 𝑝̂2 et p2 qui proviennent de la population 2.
Test d’hypothèses
Nous testons l’affirmation p1 = p2 et nous utiliserons l’estimation pondérée de p1 et p2 notée 𝑝̅
𝑝̅ = 𝑛1𝑝̂1 + 𝑛2𝑝̂2 𝑛1 + 𝑛2 Statistique de test
z= 𝑝̂1−𝑝̂2
√𝑝̅(1−𝑝̅)( 1
𝑛1+ 1
𝑛2)
valeurs critiques à partir de α et la table de la loi normale.
Exemple : « test de l’efficacité d’un vaccin »
Un article d’une revue américaine rapportait les résultats expérimentaux relatifs à un vaccin administré à des enfants.
Sur 1070 enfants ayant reçu la vaccin, 14 ont développé la grippe , sur les 523 enfants qui ont reçu un placebo, 95 ont développé la grippe .
Utiliser un seuil de significativité de 0.05 pour tester l’affirmation que la proportion d’enfants vaccinés qui
développent la grippe est inférieure à celle des enfants qui ont reçu un placebo.
Enfants vaccinés (échantillon1) n1= 1070
𝑝̂1= 14
1070 = 0.0131
Enfants non vaccinés (échantillon2)
n2 =532 𝑝̂2= 95
532 = 0.1786
Solution
On vérifie que les conditions requises sont satisfaites
les deux échantillons sont aléatoires simples et
14 > 5, 1056 > 5 et 95 > 5, 437 > 5
L’affirmation d’un taux de grippe plus faible chez les enfants vaccinés peut être représentée par p1 < p2
Nous testons les hypothèses H0 : p1 = p2
H1 : p1 < p2
𝑝̅ = 14+95
1070+532 = 0.068
Statistique de test z=
14 1070−95
532
√0.068(1−0.068)( 1
1070+ 1
532)
= -12.39
la valeur critique à partir de la table de la loi normale est
−t𝛼 = -1.65
z =-12.39 < - 1.65 nous rejetons H0. Interprétation
Nous devons considérer l’affirmation originale que les
enfants qui ont reçu le vaccin ont développé la grippe avec un taux inférieur à celui de ceux qui ont reçu un placebo.
5) Comparaison de la dispersion de deux échantillons cette section présente une méthode qui permet de comparer les variances de deux populations. Les calculs seront simplifiés si nous considérons les deux échantillons de telle façon que s12
est la plus grande des deux variances.
Conditions requises
-4 -2 0 2 4
0.00.10.20.30.4
hypothèse alternative H1 : « < »
Test unilatéral
densité de probabilité de N(0,1)
-1.64 rejet de H0
Les deux populations sont indépendantes
Les deux populations ont une distribution normale. (une condition très importante)
Notations
S12 la plus grande des variances des deux échantillons.
n1 taille de l’échantillon dela plus grande variance
𝜎12 la variance théorique de la population de laquelle est issu l’échantillon à plus grande variance.
Les symboles S22, n2 et 𝜎22 sont utilisé pour l’autre échantillon et population.
Statistique de test F= S12
S22 (> 1)
Valeurs critiques à partir de α et la table Fisher (n1-1, n2-1) Exemple : « Calcium et pression sanguine »
Des données ont été collectées au cours d’une étude sur les suppléments calciques et leurs effets sur la pression
sanguine. Un groupe placebo et un groupe calcium ont commencé l’étude par une mesure de pression sanguine.
On a obtenu les résultats suivants Effectif Ecart type
Placebo n=13 s1= 9.46
Calcium n=15 s2 = 8.469
A un niveau de significativité de 0.05, tester l’affirmation que les deux échantillons sont issus de populations de mêmes écart-type.
Solution
Nous vérifions si les conditions sont satisfaites ; Les deux échantillons sont indépendants.
Les échantillons viennent de populations normales.
H0 : 𝜎12 = 𝜎22 H1 : 𝜎12 ≠ 𝜎22
Statistique de test
F= 9.4688.46922 = 1.248
Valeurs critiques il s’agit d’un test bilatéral avec une aire de 0.025 (0.05/2), on compare F a la valeur critique qui se
trouve à droite qui correspond à 3.0502
(table de Fisher avec 𝛼 = 0.025, ddl1=12 , ddl2=14, F(12, 14)) Conclusion F < 3.0502 , F=1.248 ne se situe pas dans la région critique. Ainsi nous ne pouvons pas rejeter H0.
Interprétation : il n’y a pas suffisamment de preuves pour rejeter l’hypothèse nulle d’égalité des variances.
0 1 2 3 4 5
0.00.20.40.60.8
H0: les deux variances sont différentes
Test bilatéral
densité de Fisher (12,14)
0.3119 F=1.248 3.0502
0.025 0.025