Biostatistique
V. Introduction aux tests statistiques
Ecole Supérieur de Technologie de Fkih Ben Salah
M. MERZOUKI
Génie Biologique & Industrie Agroalimentaire
2019-2020
L’hypothèse statistique
Une hypothèse statistique
est une assertion concernant la distribution d’une ou de plusieurs variables aléatoires. Elle peut notamment concerner lesparamètres d’une distribution donnée
ou encore
la loi de probabilité de la population étudiée
. L’examen de la validité d’une hypothèse se fait par untest d’hypothèse à
partir d’observations recueillies sur un échantillon de la
population étudiée
.hypothèse nulle & hypothèse alternative
Dans le cas d’un test d’hypothèse sur la loi de probabilité
suivie par la population étudiée, on appelle
hypothèse nulle
l’hypothèse selon laquelle la population étudiée
suit une loi de probabilité donnée
. L’hypothèse selon laquelle la populationne suit pas la loi de probabilité donnée
s’appellehypothèse alternative
L’hypothèse nulle est généralement notée H
0• L’hypothèse alternative H
1.
Dans le cas d’un test d’hypothèse sur les paramètres
d’une distribution, on appelle hypothèse nulle l’hypothèse selon laquelle le paramètre étudié est égal à une valeur donnée. L’hypothèse selon laquelle le paramètre est différent de cette valeur s’appelle hypothèse alternative.
Les tests statistiques
Objectifs
1 • savoir définir les notions suivantes : test d’hypothèse, différence significative, risques d’erreur de première espèces, degré de signification et puissance.
2 • savoir quelles conclusions on peut tirer des différents résultats possibles d’un test.
Le principe du test d’hypothèse est ensuite de
confronter les résultats observés à l’hypothèse nulle pour
savoir si ces résultats sont probables sous l’hypothèse
nulle.
Pour cela on va quantifier
le degré de signification
notép
et appelé simplement en anglais la
p-value
. Il s’agit dela
probabilité d’observer
, sous H0 ,une différence
au moins aussi grande que celle observée.Si p <α , on rejettera H0 Si p ≥ α on ne rejette pas H0
α étant un seuil communément fixé à 0.05 (5%)
p < 0.05 (*) différence significative
p < 0.01 (**) différence très significative
p < 0.001 (***) différence hautement significative
Ainsi, si p < α on rejette H0. On en conclut que les 2 moyennes théoriques sont différentes autrement dit que la différence observée est significative
Principe d’un test d’hypothèse
Exemple1: Comparaison de deux moyennes indépendants
Un essai a été réalisé sur 30 chiens, afin de tester l’efficacité d’un
supplément alimentaire
contre laformation de tartre
sur les dents de l’animal.Groupe 1 (Témoin ):
alimentation non supplémentée
Groupe 2
alimentation supplémentée
La formation de tartre est quantifiée par un index combinant la proportion de dents atteintes et l’épaisseur de la couche de tartre formée.
Les résultats obtenus sont résumés dans la table. A partir de ces résultats, on se demande si l’on peut conclure que le supplément alimentaire diminue la formation de tartre. Un test d’hypothèse vise à répondre à ce type de question.
Dans un test d’hypothèse, on définit
l’hypothèse nulle
notée H
0 comme l’hypothèse de différence nulle. Dans notre exemple, ce sera l’hypothèse selon laquellele supplément
alimentaire et le placebo ont le même effet
sur l’index de tartre. On définitl’hypothèse alternative notée H
1 comme l’hypothèse de différence non nulle.G1
0,49 1,05 0,79 1,35 0,55 1,36 1,55 1,66 1 0,61
1 0,82 1,4 0,75 0,59 1,62 1,66 1,2 0,53 1,55
0,66 1,54 0,55 0,59 1,67 1,68 1,26 0,55 0,58 1,78
0,34 0,76 0,45 0,69 0,87 0,94 0,22 1,07 1,38 0,35
0,76 0,43 0,67 0,86 0,92 0,25 1,09 1,34 0,36 0,73
0,44 0,65 0,86 0,92 0,22 1,1 1,31 0,96 0,22 0,92
G2
m1 = 0,74 σ1= 0,35 m2 = 1,08
σ2= 0,44
Dans ce cas, il s’agit de comparer deux moyennes observées. Lorsque les deux groupes d’échantillons (A et B) à comparer n’ont aucun lien, on utilise le test t de Student indépendant(ou non apparié).
Test t de Student pour échantillons indépendants
Il s’agit donc de calculer l’index de tartre observé sur les animaux des groupes « supplément » et « témoin » et d’évaluer si la différence est significativeau point de vue statistique.
est donnée par la formule suivante:
•Soit 1 et 2 deux groupes différents à comparer.
•Soit m1 et m2 la moyenne du groupe 1 et celui du groupe 2,
respectivement.
•Soit n1 et n2 la taille du groupe A et celle du groupe B, respectivement.
La valeur t de Student est donnée par la formule suivante:
σˆ représentant l’estimation de l’écart type commun défini par:
où σ1 et σ2 sont les écarts type estimés sur chaque échantillon.
Pour savoir si la différence est significative, il faut tout d’abord lire dans la table t, la valeur critique correspondant au risque alpha = 5% (α=0,05) pour un degré de liberté (d.d.l) :
T = n1 + n2 −2
Si la valeur absolue de t (|t|) est supérieure à la valeur critique, alors la différence est significative. Dans le cas contraire, elle, ne l’est pas. Le degré de significativité ou p-value correspond au risque indiqué par la table de Student pour la valeur |t|
T= 30+30-2=58
•tobs < tddl ; α = 5% : m1 n'est pas significativement différent de m2
•tobs ≥ tddl ; α = 5% : m1 diffère significativement de m2
tobs = 3,35
t58 ; α = 5% = 1,678
La différence observée sur l’index de tartre entre les groupes
« témoin » et « supplément » est donc significative. Elle permet de conclure à un effet du supplément alimentaire sur l’index de tartre.
Pour comparer deux moyennes observées m1et m2 sur deux échantillons indépendants de taille n1 et n2 ,
• On vérifie que les distributions observées sont proches de lois normales et/ou que les effectifs sont suffisamment grands (≥30)
• Les variances sont assez proches pour pouvoir être supposées égales
Exemple 2: Comparaison de deux pourcentages observés Échantillons indépendants
Test de l’écart réduit (Test Z).
Problème : comparer 2 proportions (p1 et p2) dans 2 groupes indépendants de tailles n1et n2
Comparer 1à 2
Formuler une hypothèse Hypothèse nulle H
0Les 2 échantillons sont issus de la même population ayant comme pourcentage
0
1=
2(=
0) où
1et
2pourcentages de la population dont sont issus les échantillons 1 et 2
Hypothèses alternatives H
1Test bilatéral :
1≠
2Test unilatéral :
1<
2ou
1>
21. Fixer le risque α
2. Choisir la statistique :
• Test du χ2 (loi du χ2)
• Test z (loi normale)
• Conditions d’application :
• n1. 0 ≥ 5 et n1.(1- 0) ≥ 5
• n2. 0 ≥ 5 et n1.(1- 0) ≥ 5
Test z
• Calculer la valeur z prise par la statistique Z –
– p
0est l'estimation de la proportion commune π
0– Z suit une loi normale centrée réduite
– Conditions d’application :
• n
1. π
0≥ 5 et n
1.(1- π
0) ≥ 5
• n
2. π
0≥ 5 et n
2.(1- π
0) ≥ 5
2 0 0
1 0 0
2 1
n
) p .(1 p n
) p .(1 p
p z p
+ −
−
= −
2 1
2 2 1
1
0
n n
.p n .p
p n
+
= +
avec
χ
2= (z)
2C
ij≥ 5
χ
2à 1 ddl est le carré d’une loi normale
centrée réduite
Test z
Confronter z à la valeur critique z α
Test bilatéral : on rejette H
0si |z|≥ z
αTest unilatéral :
si H
1s’écrit π
1> π
2, on rejette H
0si z ≥ z
2αsi H
1s’écrit π
1< π
2, on rejette H
0si z ≤ -z
2α Test z : exemple
On désire comparer l’efficacité de deux traitement T1 et T2 sur 100 patients atteints d’unemaladie M.
On tire au sort deux groupes de 50 patients, un groupe est soumis à T1, le second à T2.
Le pourcentage de guérison chez les patients soumis à T1 est de 30% et chez ceux soumis à T2 est de 40%.
Le taux de guérison est-il significativement différent entre les deux traitements?
1- Poserl’hypothèse nulle:
▪ H0: le taux de guérison n’est pas différent entre les deux traitement p1=p2.
▪ H1: le taux de guérison est différent entre les deux traitement p1≠p2
5- Lecture z = 1,05
z = 1,05 < z0,05 = 1,96 : H0 acceptable
Table de l’écart réduit (loi Normale)