Tests statistiques paramétriques
Michaël Genin
Université de Lille 2
EA 2694 - Santé Publique : Epidémiologie et Qualité des soins [email protected]
Plan
1 Principe des tests statistiques Exemples introductifs Définitions
2 Comparaison de moyennes
Comparaison d’une moyenne observée à une moyenne théorique Comparaison de deux moyennes / Echantillons indépendants Comparaison de deux moyennes / Echantillons appariés
3 Comparaison de proportions
Comparaison d’une proportion observée à une proportion théorique Comparaison de deux proportions / Echantillons indépendants
4 Conclusions
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 1 / 59
Principe des tests statistiques Exemples introductifs
Exemple 1 : efficacité d’un nouveau médicament
On souhaite tester l’efficacité d’un nouveau médicament p/r au médicament classique.
On dispose d’un échantillon de 100 patients divisé en 2 groupes : Groupe A (n= 50) : nouveau médicament
Groupe B (n= 50) : médicament classique En observant la guérison à 1 mois :
Groupe A : 75% de guérison Groupe B : 65% de guérison
Le nouveau médicament est-il plus efficace que le médicament classique ? D’un point de vue descriptif→OUI (∆(A,B) =0.1)
Si on tire un autre échantillon de patients, retrouve-t-on la même différence d’efficacité ? (fluctuations d’échantillonnage)
Peut-on extrapoler cette différence d’efficacité à la population ?
Les tests statistiques permettent de fixer une règle de décision objective.
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 4 / 59
Principe des tests statistiques Exemples introductifs
Exemple 2 : identification d’un facteur de risque
On s’intéresse au lien entre le tabagisme et et le cancer du poumon sur un échantillon de 200 individus. On procède à une étude cas/témoins :
Malade Non malade
Fumeur 70 20
Non fumeur 30 80
Chez les malades, on observe 70% de fumeurs Chez les non-malades, on observe 20% de fumeurs
Comment interpréter la proportion plus élevée de fumeurs dans l’échantillon de malades que dans celui des non-malades ?
Existence d’un réel lien entre le tabagisme et le cancer du poumon ? Différence de proportion liée à l’échantillon ?
Cette différence est-elle extrapolable à la population ?
Les tests statistiques permettent de fixer une règle de décision objective.
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 5 / 59
Principe des tests statistiques Définitions
Objectif: Valider ou non une hypothèse faite sur une ou plusieurs populations
1 Outil pour effectuer une preuve
MédicamentAest meilleur que le le médicamentB Un facteurF est lié à la pathologieP
2 Méthode expérimentale (non déterministe) On se base sur un ou plusieurs échantillons
La prise de décision peut être influencée par le choix de l’échantillon La conclusion ne pourra se faire de manière certaine (notion de risque)
3 Raisonnement mathématique particulier : raisonnement par l’absurde
→Test d’hypothèse
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 7 / 59
Principe des tests statistiques Définitions
Notion d’hypothèses (H0,H1) - Hypothèse nulle H0
On pose une hypothèse, appeléeHypothèse nulle, notéeH0. Souvent, cette hypothèse est le contraire ce que l’on cherche à prouver (raisonnement par l’absurde) :
H0: Le médicament classique et le nouveau ont la même efficacité C’est cette hypothèse qu’on vatesterà l’aide des obs. sur le (ou les) échantillon(s).
Un test statistique peut amener à deux décisionsexclusivespossibles : Conservation deH0
Le médicament classique et le nouveau ont la même efficacité Rejet deH0
Le médicament classique et le nouveau ont des efficacités différentes
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 8 / 59
Principe des tests statistiques Définitions
Notion d’hypothèses (H0,H1) - Hypothèse alternativeH1
Si l’hypothèse testée est rejetée, alors on "accepte" le complémentaire de cette hypothèse, appeléehypothèse alternative, notéeH1
H1: Le nouveau médicament et le classique ont des efficacités différentes
Un test statistique présente donc deux hypothèses,(H0,H1) H0: Le médicament classique et le nouveau ont la même efficacité H1: Le nouveau médicament et le classique ont des efficacités différentes
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 9 / 59
Principe des tests statistiques Définitions
Notion de risques(α, β)
Le jugement d’une hypothèse se fait sur un ou plusieurséchantillons.
→La conclusion du test n’est pascertainemais lui est associé unrisque d’erreurfaible.
Le risque de première espèceα
Risque de rejeterH0sachant qu’elle est vraie :P(RejetH0/H0 vraie)
Les deux médicaments n’ont pas la même efficacitéalors qu’en réalitéleur efficacité est équivalente. La preuve n’est pas certaine, on lui associe un risque fixé à l’avance (ex : α=5%)
Si on rejetteH0, le test est ditsignificatifau risqueαfixé à l’avance.
Le risque de seconde espèceβ
Risque de conserverH0sachant queH1est vraie :P(ConserverH0/H1vraie) Les deux médicaments ont la même efficacitéalors qu’en réalitéleur efficacité est différente.
Si on conserveH0, le test est ditnon significatifau risqueβ
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 10 / 59
Principe des tests statistiques Définitions
Notion de risques(α, β)- Récapitulatif
Réalité
Décision H0 H1
H0 conclusion correcte risque de deuxième espèce(β) H1 risque de première espèce(α) conclusion correcte
Réalité
Décision H0 H1
H0 Niveau de confiance 1−α β
H1 α Puissance 1−β
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 11 / 59
Principe des tests statistiques Définitions
Règle de décision
Se base surune statistique de testST : variable aléatoire observable telle que sa loi est complètement connue sousH0
La réalisation deST est observée sur l’échantillon
Les valeurs peu probables deST observées mettent en cause la validité deH0
Exemple : efficacité de deux médicaments par rapport au % guérison à 1 mois (π) H0: Le médicament classique et le nouveau ont la même efficacité (πn=πc) H1: Le nouveau médicament et le classique ont des efficacités différentes (πn̸=πc) Prenons (grossièrement) :
ST≈(πn−πc) On suppose deST ∼ N(0,1)sousH0.
On observesT (réalisation deST)sur un échantillon de taille 200 etsT=3.
sT=3 est une valeurtrès peu probablepour une loiN(0,1).
P(ST >3)<0.025
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 12 / 59
Principe des tests statistiques Définitions
Exemple : efficacité de deux médicaments par rapport au % guérison à 1 mois
0
SousH0
ST∼N(0,1)
Valeur deSTobserv´ee 3
SiH0était vraie, on aurait dû obtenir une valeur deST plus probable et non une valeur extrême.
2 explications possibles :
H0n’est pas vraie (les deux médicaments ont des efficacités différentes) Problème d’échantillonnage
Quelles valeurs deST conduisent au rejet deH0???
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 13 / 59
Principe des tests statistiques Définitions
Région critique
On appellerégion critiqueW l’ensemble des valeurs deST qui conduisent au rejet deH0
au profit deH1.
P(ST∈W/H0) =α P(ST ∈/W/H0) =1−α P(ST ∈/W/H1) =β P(ST ∈W/H1) =1−β
Exemple avec ST ∼ N(0,1)sousH0etα=0.05
z0.975
−z0.975 0
N(0,1)
2.5%
2.5% 95%
W =]− ∞;−z0.975]∪[z0.975; +∞[
Le test est ditbilatéral H1: Les deux médicaments ont une
efficacité différente(πn̸=πc)
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 14 / 59
Principe des tests statistiques Définitions
Tests unilatéraux
Exemple avec ST ∼ N(0,1)sousH0etα=0.05 Testunilatéral à gauche
−z0.95 0 N(0,1)
5% 95%
W =]− ∞;−Z0.95]
H1 : Le nouveau médicament est moins efficace que le classique
(πn< πc)
Testunilatéral à droite
z0.95 0
N(0,1)
5%
95%
W = [z0.95; +∞[
H1 : Le nouveau médicament est plus efficace que le classique
(πn> πc)
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 15 / 59
Principe des tests statistiques Définitions
Remarques
Le choix deαconditionne la capacité du test à rejeterH0
Siαest trop petit→on ne rejette que très rarementH0(test conservatif ) Siαest trop grand→on va rejeter très souventH0, mais le risque grand...
Distribution sousH0 Distribution sousH1
Zone de conservation deH0 Zone de rejet deH0
Risqueα
Seuil
P(ST∈W/H0) =α P(ST ∈/W/H0) =1−α Il est d’usage de fixerα=1%,5%,10%
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 16 / 59
Principe des tests statistiques Définitions
Remarques
Le risqueβse calcule si la loi deST sousH1est connue αetβvarient en sens inverse
Si on diminueαalorsβaugmente
Distribution sousH0 Distribution sousH1
Zone de rejet deH1 Zone de conservation deH1
Risqueβ Seuil
P(ST ∈/W/H1) =β P(ST ∈W/H1) =1−β
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 17 / 59
Principe des tests statistiques Définitions
Remarques
La puissance est donc fonction du risque de première espèceα Distribution sousH0 Distribution sousH1
Zone de rejet deH1 Zone de conservation deH1
Puissance1−β Seuil
P(ST ∈/W/H1) =β P(ST ∈W/H1) =1−β
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 18 / 59
Principe des tests statistiques Définitions
P-value
En pratique, au lieu de calculer la région critiqueW, on préfère donner un seuil critique appelép-value.
Lap-valuecorrespond à la plus petite valeur deαconduisant à rejeterH0. C’est ledegré de significationdu test. Plus elle faible par rapport àα, plus le test a un degré de signification important.
Test bilatéral : P-value =P(|ST|>st) Test unilatéral : P-value = 12P(|ST|>st)
Distribution sousH0
Zone de conservation deH0 Zone de rejet deH0 Risqueα
Seuil
Distribution sousH0
Zone de conservation deH0 Zone de rejet deH0 P-valueP(ST> sT)
Seuil sT
Distribution sousH0
Zone de conservation deH0 Zone de rejet deH0 P-valueP(ST> sT)
SeuilsT
P-value< αalors on rejetteH0
P-value⩾αalors on ne rejette pasH0
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 19 / 59
Principe des tests statistiques Définitions
Principe des tests statistiques
Démarche d’un test statistique
1 Choix de H0et deH1 2 Choix d’un risqueα
3 Choix d’une statistique de testST et de sa loi sousH0 4 Détermination de la région critiqueW
5 Conclusion : observation de la réalisation deST sur l’échantillon : SisT∈W alorsRejet deH0
SisT∈/W alorsNon rejet deH0 P-value< αalorson rejetteH0
P-value⩾αalorson ne rejette pasH0
Types de tests
Tests paramétriques: comparaison de paramètres (moyennes, variances...) Tests semi et non-paramétriques: comparaison de distributions
Les tests paramétriques nécessitent des conditions d’applications
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 20 / 59
Comparaison de moyennes Comparaison d’une moyenne observée à une moyenne théorique
Test de Student - moy. obs. / moy. théorique
Objectif
SoitX une variable quantitative de moyenne inconnueµ. L’objectif est de comparerµ, estimée sur l’échantillon par¯x, à une moyenne de référenceµ0.
Exemple: on sait que la taille (X) moyenne des habitants du Nord est de 175cm (µ0).
Nous cherchons à savoir si la taille moyenne des habitants du Pas-De-Calais est différente. Cette taille moyenne (µ) est inconnue mais estimée grâce à un échantillon de n=1000 individus tirés au hasard dans la population du Pas-De-Calais.
Fr´equence observ´ee / fr´equence th´eorique
⇡
p n
Conditions d’application n 30 et min{n⇡0, n(1 ⇡0)}>5
Statistique de test sousH0{⇡=⇡0}
U = P ⇡0
q⇡0(1 ⇡0) n
⇠N(0,1)
Deux fr´equences observ´ees
⇡1
p1
n1
⇡2
p2
n2
Tests param´ etriques de comparaison
Michael Genin - 2015
Conditions d’application
min{n1, n2} 30 min{n1p, n1(1 p)}>5 min{n2p, n2(1 p)}>5 Avec p l’estimation de la proportion commune :
p= n1p1+n2p2
n1+n2
Statistique de test sousH0{⇡1=⇡2}
U = P1 P2
qp(1 p)
n1 +p(1n2p) ⇠N(0,1)
Moyenne observ´ee / Moyenne th´eorique
X⇠L(µ, )
¯ x s
n
Conditions d’application : X ⇠N(µ, )
Statistique de test sousH0{µ=µ0}
T =X¯ µ0 pn
⇠Tn 1d.d.l.
Si est inconnu, il est estim´e parSet on le remplace dans la formule.
Deux moyennes observ´ees / ´echantillons appari´es
D=X1 X2 D⇠L(µD, D)
d¯ sD
Conditions d’application:D⇠N(µD, D)
Cas particulier : si n 30 on relaxe l’hypoth`ese de normalit´e faite surX.
Statistique de test sousH0{µD= 0}
T = D¯
pD
n
⇠Tn 1d.d.l.
Si Dest inconnu, il est estim´e parSDet on le remplace dans la formule.
Cas particulier: sin 30 on relaxe l’hypoth`ese de normalit´e faite surD.
Deux moyennes observ´ees / ´echantillons ind´ependants
X1⇠L(µ1, 1)
¯ x1
s1
n1 n2
X2⇠L(µ2, 2)
¯ x2
s2
Conditions d’application - Th´eor`eme g´en´eral
X1⇠N(µ1, 1) etX2⇠N(µ2, 2)
2 1= 22
Test de Fisher :
⇢ H0: 12= 22 H1: 126= 22
RejetH0 ConservationH0
Statistique de test (Welsh - Satterth- waite)
sousH0{µ1=µ2}
T = X¯1 X¯2
qS21 n1 +Sn222
⇠T⌫d.d.l.
Statistique de test sousH0{µ1=µ2}
T = X¯1 X¯2
qS2
n1 +Sn22 ⇠Tn1+n2 2d.d.l. avecS2l’estimateur de la variance commune :
S2=(n1 1)S12+ (n2 1)S22 n1+n2 2
Cas particulier : si min{n1, n2} 30 on relaxe l’hypoth`ese de normalit´e faite surX1etX2et l’hypoth`ese faite sur l’´egalit´e des variances.
Conditions d’applications
X ∼ N(µ, σ)
Cas particulier: sin>30 alors on relaxe l’hypothèse de normalité faite surX
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 23 / 59
Comparaison de moyennes Comparaison d’une moyenne observée à une moyenne théorique
Test De Student : Exemple sur le QI des prisonniers
Objectif: on cherche à déterminer si le QI des prisonniers est le même (en moyenne) que le QI de la population générale distribué selon une loi normale de moyenne :µ0=100, et d’écart-typeσ.X∼ N(µ0, σ)
Considérons la population de prisonniers dans laquelle le QI est distribué selon une loi normale de moyenneµet d’écart-typeσ′.X ∼ N(µ, σ′)
Soit un échantillon den=10 prisonniers sur lequel on calcul la moyenne empirique
¯
x=85 et l’écart-type empiriquesn−1=10.
1. Choix des hypothèses
H0: le QI moyen des pris. est identique à celui de la pop. générale (H0:µ=µ0) H1: le QI moyen des pris. est différent de celui de la pop. générale (H1:µ̸=µ0) 2. Choix d’un risqueα: 0.05
3. Choix de la statistique de test et de sa loi sousH0
T = X¯−µ0
Sn−1/√ n ∼
H0
Tn−1d.d.l
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 24 / 59
Comparaison de moyennes Comparaison d’une moyenne observée à une moyenne théorique
Test De Student : Exemple sur le QI des prisonniers 4. Détermination de la région critiqueW
t0.975,9
−t0.975,9 0
T(9ddl)
2.5% 95% 2.5%
W =]− ∞;−t0.975,,9ddl]∪[t0.975,,9ddl; +∞[
W =]− ∞;−2.26]∪[2.26; +∞[
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 25 / 59
Comparaison de moyennes Comparaison d’une moyenne observée à une moyenne théorique
Test De Student : Exemple sur le QI des prisonniers 5. Calcul de T sur l’échantillon et conclusions
t= x¯−µ0
sn−1/√
n =85−100 10/√
10 =−4.74
t∈W donc on rejetteH0au risque de première espèceα=5%de se tromper. La moyenne observée sur l’échantillon estsignificativement différentede la moyenne théorique.
Remarques
Test bilatéral→ H1:µ̸=µ0
Calcul de la p-value :
P(T9ddl >|t|) =2P(T9ddl >t) =2×P(T9ddl>4.74) =0.001 CommeP(T >|t|)<0.05, on rejetteH0
Si la méthodologie d’échantillonnage est bonne (la différence n’est pas due à un échantillon peu représentatif)
Inférence à la population des prisonniers: Le QI des prisonniers est en moyenne inférieur à celui de la population générale
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 26 / 59
Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants
Test de Student : moy. obs / moy. obs
Objectif
SoitX une variable aléatoire quantitative de distributionL(µ1, σ1)dans une population 1 etL(µ2, σ2)dans une population 2. L’objectif est de comparerµ1etµ2, non connues, mais estimées respectivement par¯x1etx¯2sur des échantillons de taillen1etn2.
Fr´equence observ´ee / fr´equence th´eorique
⇡
p n
Conditions d’application n 30 et min{n⇡0, n(1 ⇡0)}>5
Statistique de test sousH0{⇡=⇡0}
U= P ⇡0
q⇡0(1 ⇡0) n
⇠N(0,1)
Deux fr´equences observ´ees
⇡1
p1
n1
⇡2
p2
n2
Tests param´etriques de comparaison
Michael Genin - 2015
Conditions d’application
min{n1, n2} 30 min{n1p, n1(1 p)}>5 min{n2p, n2(1 p)}>5 Avec pl’estimation de la proportion commune :
p=n1p1+n2p2
n1+n2
Statistique de test sousH0{⇡1=⇡2}
U= P1 P2
qp(1 p) n1 +p(1np)
2
⇠N(0,1)
Moyenne observ´ee / Moyenne th´eorique
X⇠L(µ, )
¯ x s
n
Conditions d’application: X⇠N(µ, )
Statistique de test sousH0{µ=µ0}
T=X¯ µ0 pn
⇠Tn 1d.d.l.
Si est inconnu, il est estim´e parSet on le remplace dans la formule.
Deux moyennes observ´ees / ´echantillons appari´es
D=X1 X2
D⇠L(µD, D)
d¯ sD
Conditions d’application:D⇠N(µD, D)
Cas particulier: sin 30 on relaxe l’hypoth`ese de normalit´e faite surX.
Statistique de test sousH0{µD= 0}
T= D¯
pD n
⇠Tn 1d.d.l.
Si Dest inconnu, il est estim´e parSDet on le remplace dans la formule.
Cas particulier: sin 30 on relaxe l’hypoth`ese de normalit´e faite surD.
Deux moyennes observ´ees / ´echantillons ind´ependants
X1⇠L(µ1, 1)
¯ x1
s1
n1 n2
X2⇠L(µ2, 2)
¯ x2
s2
Conditions d’application - Th´eor`eme g´en´eral X1⇠N(µ1, 1) etX2⇠N(µ2, 2)
2 1= 22
Test de Fisher :
⇢H0: 21= 22
H1: 216= 22
RejetH0 ConservationH0
Statistique de test (Welsh - Satterth- waite)
sousH0{µ1=µ2}
T= X¯1 X¯2
qS2
n11+Sn222⇠T⌫d.d.l.
Statistique de test sousH0{µ1=µ2}
T= X¯1 X¯2
qS2
n1+Sn22⇠Tn1+n2 2d.d.l.
avecS2l’estimateur de la variance commune : S2=(n1 1)S12+ (n2 1)S22
n1+n2 2 Cas particulier: si min{n1, n2} 30 on relaxe l’hypoth`ese de normalit´e faite surX1etX2et l’hypoth`ese faite sur l’´egalit´e des variances.Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 28 / 59
Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants
Test F - Comparaison de deux variances Considérons :
X1∼ N(µ1, σ1)etX2∼ N(µ2, σ2) Les hypothèses du test
H0:σ21=σ22 H1:σ21> σ22
Soient deux échantillons de taillen1etn2: S12= 1
n1−1
n1
∑
i=1
(X1i−X¯1)2 etS22= 1 n2−1
n2
∑
i=1
(X2i−X¯2)2 Statistique de test sousH0
F= S12
S22 ∼ F(n1−1,n2−1)ddl
En pratique:
Test unilatéral à droite
On prend la valeur la plus élevée entres12 ets22comme numérateur de la statistique de test
Le rapport est⩾1.
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 29 / 59
Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants
Test F - Comparaison de deux variances Région critiqueW
Fn1−1,n2−1
5%
fn1−α1−1,n2−1
0 1 2 3 4 5 6
W = [fn11−−α1,n2−1; +∞[
Les variancesσ1etσ2sont diteshomogènessi le test F estnon significatif
→ Notion d’homoscédasticité
Si le test est significatif, les variances sont diteshétérogènes
→ Notion d’hétéroscédasticité
Le test nécessite la normalitédeX1etX2
X1etX2doivent êtreindépendantes
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 30 / 59
Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants
Test de Student - Ex. : patients diabétiques et taux de mauvais cholestérol (LDL) Objectif: on désire savoir si le LDL est différent entre les patients diabétiques et les personnes saines.
En population générale, on considère que le LDL chez les diabétiques est distribué selon uneloi normalede moyenneµ1et d’écart-typeσ1.X∼ N(µ1, σ1)
En population générale, on considère que le LDL chez les personnes saines est distribué selon uneloi normalede moyenneµ2et d’écart-typeσ2.X ∼ N(µ2, σ2)
On dispose de 2 groupes de sujets : Malades (n1=25) :x¯1=1.8,s1=0.5 Témoins (n2=20) :x¯2=1.3,s2=0.4 1. Choix des hypothèses
H0: Le LDL moyen est identique entre les témoins et les malades(µ1=µ2) H1: Le LDL moyen est différent entre les témoins et les malades(µ1̸=µ2) 2. Choix d’un risqueα: 0.05
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 31 / 59
Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants
Test de Student - Ex. : patients diabétiques et taux de mauvais cholestérol (LDL)
3. Choix de la statistique de test
1 Siσ21=σ22=σ2, alors sousH0: T = X¯1−X¯2
S
√1 n1+n1
2
∼ Tn1+n2−2ddl
AvecS2l’estimateur de la variance communeσ2. S2= (n1−1)S12+ (n2−1)S22
n1+n2−2
2 Siσ21̸=σ22, alors sousH0:
T = √X¯1−X¯2 S2
1 n1 +S
2 2 n2
∼ Tνddl
avecν= (s12
n1 +sn22
2
)2
/ ( s14
n21(n1−1)+ s42
n22(n2−1)
)
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 32 / 59
Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants
Test de Student - Ex. : patients diabétiques et taux de mauvais cholestérol (LDL)
3. Choix de la statistique de test
Il faut tout d’abord tester l’égalité des variances :H0:σ21=σ22v.s.H1:σ21> σ22 On pose un risqueα=5%
Statistique de test :
F=S12 S22 ∼
H0
F(n1−1,n2−1)ddl
Région critique :
F24,19
5%
f24,190.95
0 1 2 3
W = [f24,190.95; +∞[= [2.11; +∞[
Calcul sur l’échantillon
f = s12
s22 = (0.5)2
(0.4)2 =1.5625 Conclusion
f ∈/ W donc on ne rejette pas H0 au risque β. Les variances ne semblent pas différentes.
Nous pouvons désormais choisir quelle statistique de test utiliser pour le test de Student !
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 33 / 59
Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants
Test de Student - Ex. : patients diabétiques et taux de mauvais cholestérol (LDL) 3. Choix de la statistique de test
T = X¯1−X¯2
S
√1 n1+n1
2
∼ Tn1+n2−2ddl
4. Détermination de la région critiqueW
t0.975,43
−t0.975,43 0
T(43ddl)
2.5% 95% 2.5%
W =]− ∞;−t0.975,,43ddl]∪[t0.975,,43ddl; +∞[=]− ∞;−2.017]∪[2.017; +∞[
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 34 / 59
Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants
Test de Student - Ex. : patients diabétiques et taux de mauvais cholestérol (LDL) 5. Calcul de T sur l’échantillon et conclusions
Calculons l’estimation de la variance commune : s2=(n1−1)s12+ (n2−1)s22
n1+n2−2 =(25−1)0.52+ (20−1)0.42 25+20−2 ≈0.21 La statistique de test observée sur l’échantillon :
t= x¯1−x¯2
s
√
1 n1 +n1
2
= 1.8−1.3
√0.21√1
25+201 ≈3.64
t∈W =]− ∞;−2.017]∪[2.017; +∞[donc on rejetteH0avec un risqueαde première espèce.
La moyenne observée sur l’échantillon de malades estsignificativement différentede la moyenne chez les témoins.
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 35 / 59
Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants
Test de Student - Ex. : patients diabétiques et taux de mauvais cholestérol (LDL)
Remarques
Test bilatéral→ H1:µ1̸=µ2
Calcul de la p-value :
P(T >|t|) =2P(T >t) =2×P(T >3.64)≈7.3.10−4 CommeP(T >|t|)≪0.05, on rejetteH0
Si la méthodologie d’échantillonnage est bonne (la différence n’est pas due à des échantillons peu représentatifs)
Inférence à lapopulation de malades: Le LDL est en moyenne supérieur à celui de la population générale.
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 36 / 59
Comparaison de moyennes Comparaison de deux moyennes / Echantillons appariés
Définition de l’appariement
Un échantillon A et un échantillon B sont deséchantillons appariéssi chaque observation de A est liée à une observation homologue de B. Chaque couple de valeurs forme alors unepaire.
Exemples :
On mesure la taille pour différents couples de frère et soeur, et l’on souhaite comparer la taille entre les hommes et les femmes
Mesure d’un paramètre biologique chez des patients, avant et après une intervention (données répétées)
Test de Student pour échantillons appariés - Principe
On se base sur la différence des valeurs associées à chaque observation. L’hypothèse nulle testée stipule qu’en moyenne ces différences sont nulles.
On se libère de la variabilitéintra-échantillon(entre les observations d’un même échantillon) afin de prendre en compte uniquement la variabilitéinter-échantillons (variabilité des différences entre paires).
Dans le cadre des données appariées, un test de Student apparié est plus puissant qu’un test de Student de comparaison de moyennes.
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 38 / 59
Comparaison de moyennes Comparaison de deux moyennes / Echantillons appariés
Test de Student pour échantillons appariés
Objectif
Montrer qu’il existe une différence de moyennes d’une variable aléatoire quantitativeX entre deux échantillons appariés. PosonsX1la mesure dans le groupe 1 etX2la mesure dans le groupe 2. On s’intéresse à la différenceD=X1−X2.
x
Fr´equence observ´ee / fr´equence th´eorique
⇡
p n
Conditions d’application n 30 et min{n⇡0, n(1 ⇡0)}>5
Statistique de test sousH0{⇡=⇡0}
U= P ⇡0
q⇡0(1 ⇡0) n
⇠N(0,1)
Deux fr´equences observ´ees
⇡1
p1
n1
⇡2
p2
n2
Tests param´ etriques de comparaison
Michael Genin - 2015
Conditions d’application
min{n1, n2} 30 min{n1p, n1(1 p)}>5 min{n2p, n2(1 p)}>5 Avec p l’estimation de la proportion commune :
p=n1p1+n2p2
n1+n2
Statistique de test sousH0{⇡1=⇡2}
U= P1 P2
qp(1 p) n1 +p(1n p)
2
⇠N(0,1)
Moyenne observ´ee / Moyenne th´eorique
X⇠L(µ, )
¯ x s
n
Conditions d’application : X⇠N(µ, )
Statistique de test sousH0{µ=µ0}
T=X¯ µ0 pn
⇠Tn 1d.d.l.
Si est inconnu, il est estim´e parSet on le remplace dans la formule.
Deux moyennes observ´ees / ´echantillons appari´es
D=X1 X2
D⇠L(µD, D)
d¯ sD
Conditions d’application:D⇠N(µD, D)
Cas particulier: si n 30 on relaxe l’hypoth`ese de normalit´e faite surX.
Statistique de test sousH0{µD= 0}
T= D¯
pDn
⇠Tn 1d.d.l.
Si Dest inconnu, il est estim´e parSDet on le remplace dans la formule.
Cas particulier: sin 30 on relaxe l’hypoth`ese de normalit´e faite surD.
Deux moyennes observ´ees / ´echantillons ind´ependants
X1⇠L(µ1, 1)
¯ x1
s1
n1 n2
X2⇠L(µ2, 2)
¯ x2
s2
Conditions d’application - Th´eor`eme g´en´eral
X1⇠N(µ1, 1) etX2⇠N(µ2, 2)
2 1= 22
Test de Fisher :
⇢ H0: 21= 22 H1: 216= 22
RejetH0 ConservationH0
Statistique de test (Welsh - Satterth- waite)
sousH0{µ1=µ2}
T= X¯1 X¯2
qS12 n1+Sn222
⇠T⌫d.d.l.
Statistique de test sousH0{µ1=µ2}
T= X¯1 X¯2
qS2
n1+Sn22 ⇠Tn1+n2 2d.d.l.
avecS2l’estimateur de la variance commune : S2=(n1 1)S21+ (n2 1)S22
n1+n2 2
Cas particulier: si min{n1, n2} 30 on relaxe l’hypoth`ese de normalit´e faite surX1etX2et l’hypoth`ese faite sur l’´egalit´e des variances.
Conditions d’application
D∼ N(µD, σD). Sin≥30, on relaxe l’hypothèse de normalité faite surD.
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 39 / 59
Comparaison de moyennes Comparaison de deux moyennes / Echantillons appariés
Test de Student pour échantillons appariés - Exemple : Traitement du diabète1 Objectif: On désire étudier l’effet d’une nouvelle stratégie de traitement du diabète en mesurant l’effet sur la glycémie. On dose la glycémie (g/L) chez 15 sujetsavant le début du nouveau protocole et3 mois après.
Dans lapopulation de malades, on pose : X1la mesure de glycémie avant TTT
X2la mesure de glycémie après TTT (3 mois après)
D=X1−X2unevadistribuée selon uneloi normaled’espéranceµD et de varianceσ2D Sur l’échantillon
Les mesures sont appariées car elles sont effectuées sur les mêmes individus.
La moyenne des différences entre les mesures :d¯=0.1 L’écart-type des différences entre les mesures :sD=0.091
1.Statistique - Epidemiologie, T. Ancelle, p. 141
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 40 / 59
Comparaison de moyennes Comparaison de deux moyennes / Echantillons appariés
Test de Student pour échantillons appariés - Exemple : Traitement du diabète
1. Choix des hypothèses
H0: les glycémies sont identiques avant et après le nouveau protocole (H0:µD=0) H1unilatérale: la glycémie est réduite grâce au nouveau protocole (H1:µD>0) 2. Choix d’un risqueα: 0.05
3. Choix de la statistique de test
T = D¯ SD/√
n ∼
H0
Tn−1ddl
Avec
D¯ = ¯X1−X¯2
et
SD= vu ut n
n−1 [
1 n
∑n
i=1
D2i −( D¯)2
]
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 41 / 59
Comparaison de moyennes Comparaison de deux moyennes / Echantillons appariés
Test de Student pour échantillons appariés - Exemple : Traitement du diabète 4. Détermination de la région critiqueW
t0.95,14 0
T(14ddl)
5%
95%
W = [t0.95,14; +∞[= [1.761; +∞[ 5. Calcul de T sur l’échantillon et conclusions
t= d¯ sD/√
n = 0.1 0.091/√
15 =4.26
t∈W donc on rejetteH0au risque de première espèceα=5%de se tromper. La glycémie estsignificativement plus basseaprès administration de la nouvelle stratégie.
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 42 / 59
Comparaison de moyennes Comparaison de deux moyennes / Echantillons appariés
Test de Student pour échantillons appariés - Exemple : Traitement du diabète
Remarques
Test unilatéral→ H1:µD>0 Calcul de la p-value :
P(T14ddl>t) =P(T14ddl >4.26)≈4.10−4 CommeP(T >t)≪0.05, on rejetteH0
Si la méthodologie d’échantillonnage est bonne (la différence n’est pas due à un échantillon peu représentatif)
Inférence à la population de malades: La glycémie est en moyenne inférieure après TTT. Le TTT est efficace.
Relation de causalité
Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 43 / 59