• Aucun résultat trouvé

Tests statistiques paramétriques

N/A
N/A
Protected

Academic year: 2022

Partager "Tests statistiques paramétriques"

Copied!
49
0
0

Texte intégral

(1)

Tests statistiques paramétriques

Michaël Genin

Université de Lille 2

EA 2694 - Santé Publique : Epidémiologie et Qualité des soins [email protected]

(2)

Plan

1 Principe des tests statistiques Exemples introductifs Définitions

2 Comparaison de moyennes

Comparaison d’une moyenne observée à une moyenne théorique Comparaison de deux moyennes / Echantillons indépendants Comparaison de deux moyennes / Echantillons appariés

3 Comparaison de proportions

Comparaison d’une proportion observée à une proportion théorique Comparaison de deux proportions / Echantillons indépendants

4 Conclusions

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 1 / 59

(3)

Principe des tests statistiques Exemples introductifs

Exemple 1 : efficacité d’un nouveau médicament

On souhaite tester l’efficacité d’un nouveau médicament p/r au médicament classique.

On dispose d’un échantillon de 100 patients divisé en 2 groupes : Groupe A (n= 50) : nouveau médicament

Groupe B (n= 50) : médicament classique En observant la guérison à 1 mois :

Groupe A : 75% de guérison Groupe B : 65% de guérison

Le nouveau médicament est-il plus efficace que le médicament classique ? D’un point de vue descriptifOUI (∆(A,B) =0.1)

Si on tire un autre échantillon de patients, retrouve-t-on la même différence d’efficacité ? (fluctuations d’échantillonnage)

Peut-on extrapoler cette différence d’efficacité à la population ?

Les tests statistiques permettent de fixer une règle de décision objective.

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 4 / 59

(4)

Principe des tests statistiques Exemples introductifs

Exemple 2 : identification d’un facteur de risque

On s’intéresse au lien entre le tabagisme et et le cancer du poumon sur un échantillon de 200 individus. On procède à une étude cas/témoins :

Malade Non malade

Fumeur 70 20

Non fumeur 30 80

Chez les malades, on observe 70% de fumeurs Chez les non-malades, on observe 20% de fumeurs

Comment interpréter la proportion plus élevée de fumeurs dans l’échantillon de malades que dans celui des non-malades ?

Existence d’un réel lien entre le tabagisme et le cancer du poumon ? Différence de proportion liée à l’échantillon ?

Cette différence est-elle extrapolable à la population ?

Les tests statistiques permettent de fixer une règle de décision objective.

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 5 / 59

(5)

Principe des tests statistiques Définitions

Objectif: Valider ou non une hypothèse faite sur une ou plusieurs populations

1 Outil pour effectuer une preuve

MédicamentAest meilleur que le le médicamentB Un facteurF est lié à la pathologieP

2 Méthode expérimentale (non déterministe) On se base sur un ou plusieurs échantillons

La prise de décision peut être influencée par le choix de l’échantillon La conclusion ne pourra se faire de manière certaine (notion de risque)

3 Raisonnement mathématique particulier : raisonnement par l’absurde

Test d’hypothèse

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 7 / 59

(6)

Principe des tests statistiques Définitions

Notion d’hypothèses (H0,H1) - Hypothèse nulle H0

On pose une hypothèse, appeléeHypothèse nulle, notéeH0. Souvent, cette hypothèse est le contraire ce que l’on cherche à prouver (raisonnement par l’absurde) :

H0: Le médicament classique et le nouveau ont la même efficacité C’est cette hypothèse qu’on vatesterà l’aide des obs. sur le (ou les) échantillon(s).

Un test statistique peut amener à deux décisionsexclusivespossibles : Conservation deH0

Le médicament classique et le nouveau ont la même efficacité Rejet deH0

Le médicament classique et le nouveau ont des efficacités différentes

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 8 / 59

(7)

Principe des tests statistiques Définitions

Notion d’hypothèses (H0,H1) - Hypothèse alternativeH1

Si l’hypothèse testée est rejetée, alors on "accepte" le complémentaire de cette hypothèse, appeléehypothèse alternative, notéeH1

H1: Le nouveau médicament et le classique ont des efficacités différentes

Un test statistique présente donc deux hypothèses,(H0,H1) H0: Le médicament classique et le nouveau ont la même efficacité H1: Le nouveau médicament et le classique ont des efficacités différentes

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 9 / 59

(8)

Principe des tests statistiques Définitions

Notion de risques(α, β)

Le jugement d’une hypothèse se fait sur un ou plusieurséchantillons.

La conclusion du test n’est pascertainemais lui est associé unrisque d’erreurfaible.

Le risque de première espèceα

Risque de rejeterH0sachant qu’elle est vraie :P(RejetH0/H0 vraie)

Les deux médicaments n’ont pas la même efficacitéalors qu’en réalitéleur efficacité est équivalente. La preuve n’est pas certaine, on lui associe un risque fixé à l’avance (ex : α=5%)

Si on rejetteH0, le test est ditsignificatifau risqueαfixé à l’avance.

Le risque de seconde espèceβ

Risque de conserverH0sachant queH1est vraie :P(ConserverH0/H1vraie) Les deux médicaments ont la même efficacitéalors qu’en réalitéleur efficacité est différente.

Si on conserveH0, le test est ditnon significatifau risqueβ

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 10 / 59

(9)

Principe des tests statistiques Définitions

Notion de risques(α, β)- Récapitulatif

Réalité

Décision H0 H1

H0 conclusion correcte risque de deuxième espèce(β) H1 risque de première espèce(α) conclusion correcte

Réalité

Décision H0 H1

H0 Niveau de confiance 1α β

H1 α Puissance 1β

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 11 / 59

(10)

Principe des tests statistiques Définitions

Règle de décision

Se base surune statistique de testST : variable aléatoire observable telle que sa loi est complètement connue sousH0

La réalisation deST est observée sur l’échantillon

Les valeurs peu probables deST observées mettent en cause la validité deH0

Exemple : efficacité de deux médicaments par rapport au % guérison à 1 mois (π) H0: Le médicament classique et le nouveau ont la même efficacité (πn=πc) H1: Le nouveau médicament et le classique ont des efficacités différentes (πn̸=πc) Prenons (grossièrement) :

STn−πc) On suppose deST ∼ N(0,1)sousH0.

On observesT (réalisation deST)sur un échantillon de taille 200 etsT=3.

sT=3 est une valeurtrès peu probablepour une loiN(0,1).

P(ST >3)<0.025

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 12 / 59

(11)

Principe des tests statistiques Définitions

Exemple : efficacité de deux médicaments par rapport au % guérison à 1 mois

0

SousH0

STN(0,1)

Valeur deSTobserv´ee 3

SiH0était vraie, on aurait dû obtenir une valeur deST plus probable et non une valeur extrême.

2 explications possibles :

H0n’est pas vraie (les deux médicaments ont des efficacités différentes) Problème d’échantillonnage

Quelles valeurs deST conduisent au rejet deH0???

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 13 / 59

(12)

Principe des tests statistiques Définitions

Région critique

On appellerégion critiqueW l’ensemble des valeurs deST qui conduisent au rejet deH0

au profit deH1.

P(ST∈W/H0) =α P(ST ∈/W/H0) =1−α P(ST ∈/W/H1) =β P(ST ∈W/H1) =1−β

Exemple avec ST ∼ N(0,1)sousH0etα=0.05

z0.975

−z0.975 0

N(0,1)

2.5%

2.5% 95%

W =]− ∞;−z0.975][z0.975; +[

Le test est ditbilatéral H1: Les deux médicaments ont une

efficacité différenten̸=πc)

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 14 / 59

(13)

Principe des tests statistiques Définitions

Tests unilatéraux

Exemple avec ST ∼ N(0,1)sousH0etα=0.05 Testunilatéral à gauche

−z0.95 0 N(0,1)

5% 95%

W =]− ∞;−Z0.95]

H1 : Le nouveau médicament est moins efficace que le classique

n< πc)

Testunilatéral à droite

z0.95 0

N(0,1)

5%

95%

W = [z0.95; +[

H1 : Le nouveau médicament est plus efficace que le classique

n> πc)

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 15 / 59

(14)

Principe des tests statistiques Définitions

Remarques

Le choix deαconditionne la capacité du test à rejeterH0

Siαest trop petiton ne rejette que très rarementH0(test conservatif ) Siαest trop grandon va rejeter très souventH0, mais le risque grand...

Distribution sousH0 Distribution sousH1

Zone de conservation deH0 Zone de rejet deH0

Risqueα

Seuil

P(ST∈W/H0) =α P(ST ∈/W/H0) =1−α Il est d’usage de fixerα=1%,5%,10%

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 16 / 59

(15)

Principe des tests statistiques Définitions

Remarques

Le risqueβse calcule si la loi deST sousH1est connue αetβvarient en sens inverse

Si on diminueαalorsβaugmente

Distribution sousH0 Distribution sousH1

Zone de rejet deH1 Zone de conservation deH1

Risqueβ Seuil

P(ST ∈/W/H1) =β P(ST ∈W/H1) =1−β

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 17 / 59

(16)

Principe des tests statistiques Définitions

Remarques

La puissance est donc fonction du risque de première espèceα Distribution sousH0 Distribution sousH1

Zone de rejet deH1 Zone de conservation deH1

Puissance1−β Seuil

P(ST ∈/W/H1) =β P(ST ∈W/H1) =1−β

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 18 / 59

(17)

Principe des tests statistiques Définitions

P-value

En pratique, au lieu de calculer la région critiqueW, on préfère donner un seuil critique appelép-value.

Lap-valuecorrespond à la plus petite valeur deαconduisant à rejeterH0. C’est ledegré de significationdu test. Plus elle faible par rapport àα, plus le test a un degré de signification important.

Test bilatéral : P-value =P(|ST|>st) Test unilatéral : P-value = 12P(|ST|>st)

Distribution sousH0

Zone de conservation deH0 Zone de rejet deH0 Risqueα

Seuil

Distribution sousH0

Zone de conservation deH0 Zone de rejet deH0 P-valueP(ST> sT)

Seuil sT

Distribution sousH0

Zone de conservation deH0 Zone de rejet deH0 P-valueP(ST> sT)

SeuilsT

P-value< αalors on rejetteH0

P-value⩾αalors on ne rejette pasH0

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 19 / 59

(18)

Principe des tests statistiques Définitions

Principe des tests statistiques

Démarche d’un test statistique

1 Choix de H0et deH1 2 Choix d’un risqueα

3 Choix d’une statistique de testST et de sa loi sousH0 4 Détermination de la région critiqueW

5 Conclusion : observation de la réalisation deST sur l’échantillon : SisTW alorsRejet deH0

SisT/W alorsNon rejet deH0 P-value< αalorson rejetteH0

P-valueαalorson ne rejette pasH0

Types de tests

Tests paramétriques: comparaison de paramètres (moyennes, variances...) Tests semi et non-paramétriques: comparaison de distributions

Les tests paramétriques nécessitent des conditions d’applications

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 20 / 59

(19)

Comparaison de moyennes Comparaison d’une moyenne observée à une moyenne théorique

Test de Student - moy. obs. / moy. théorique

Objectif

SoitX une variable quantitative de moyenne inconnueµ. L’objectif est de comparerµ, estimée sur l’échantillon par¯x, à une moyenne de référenceµ0.

Exemple: on sait que la taille (X) moyenne des habitants du Nord est de 175cm (µ0).

Nous cherchons à savoir si la taille moyenne des habitants du Pas-De-Calais est différente. Cette taille moyenne (µ) est inconnue mais estimée grâce à un échantillon de n=1000 individus tirés au hasard dans la population du Pas-De-Calais.

Fr´equence observ´ee / fr´equence th´eorique

p n

Conditions d’application n 30 et min{n⇡0, n(1 ⇡0)}>5

Statistique de test sousH0{⇡=⇡0}

U = P ⇡0

q0(1 0) n

⇠N(0,1)

Deux fr´equences observ´ees

1

p1

n1

2

p2

n2

Tests param´ etriques de comparaison

Michael Genin - 2015

Conditions d’application

min{n1, n2} 30 min{n1p, n1(1 p)}>5 min{n2p, n2(1 p)}>5 Avec p l’estimation de la proportion commune :

p= n1p1+n2p2

n1+n2

Statistique de test sousH0{⇡1=⇡2}

U = P1 P2

qp(1 p)

n1 +p(1n2p) ⇠N(0,1)

Moyenne observ´ee / Moyenne th´eorique

X⇠L(µ, )

¯ x s

n

Conditions d’application : X ⇠N(µ, )

Statistique de test sousH0{µ=µ0}

T =X¯ µ0 pn

⇠Tn 1d.d.l.

Si est inconnu, il est estim´e parSet on le remplace dans la formule.

Deux moyennes observ´ees / ´echantillons appari´es

D=X1 X2 D⇠L(µD, D)

d¯ sD

Conditions d’application:D⇠N(µD, D)

Cas particulier : si n 30 on relaxe l’hypoth`ese de normalit´e faite surX.

Statistique de test sousH0D= 0}

T = D¯

pD

n

⇠Tn 1d.d.l.

Si Dest inconnu, il est estim´e parSDet on le remplace dans la formule.

Cas particulier: sin 30 on relaxe l’hypoth`ese de normalit´e faite surD.

Deux moyennes observ´ees / ´echantillons ind´ependants

X1⇠L(µ1, 1)

¯ x1

s1

n1 n2

X2⇠L(µ2, 2)

¯ x2

s2

Conditions d’application - Th´eor`eme g´en´eral

X1⇠N(µ1, 1) etX2⇠N(µ2, 2)

2 1= 22

Test de Fisher :

⇢ H0: 12= 22 H1: 126= 22

RejetH0 ConservationH0

Statistique de test (Welsh - Satterth- waite)

sousH012}

T = X¯12

qS21 n1 +Sn222

⇠Td.d.l.

Statistique de test sousH012}

T = X¯12

qS2

n1 +Sn22 ⇠Tn1+n2 2d.d.l. avecS2l’estimateur de la variance commune :

S2=(n1 1)S12+ (n2 1)S22 n1+n2 2

Cas particulier : si min{n1, n2} 30 on relaxe l’hypoth`ese de normalit´e faite surX1etX2et l’hypoth`ese faite sur l’´egalit´e des variances.

Conditions d’applications

X ∼ N(µ, σ)

Cas particulier: sin>30 alors on relaxe l’hypothèse de normalité faite surX

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 23 / 59

(20)

Comparaison de moyennes Comparaison d’une moyenne observée à une moyenne théorique

Test De Student : Exemple sur le QI des prisonniers

Objectif: on cherche à déterminer si le QI des prisonniers est le même (en moyenne) que le QI de la population générale distribué selon une loi normale de moyenne :µ0=100, et d’écart-typeσ.X∼ N0, σ)

Considérons la population de prisonniers dans laquelle le QI est distribué selon une loi normale de moyenneµet d’écart-typeσ.X ∼ N(µ, σ)

Soit un échantillon den=10 prisonniers sur lequel on calcul la moyenne empirique

¯

x=85 et l’écart-type empiriquesn−1=10.

1. Choix des hypothèses

H0: le QI moyen des pris. est identique à celui de la pop. générale (H0:µ=µ0) H1: le QI moyen des pris. est différent de celui de la pop. générale (H1:µ̸=µ0) 2. Choix d’un risqueα: 0.05

3. Choix de la statistique de test et de sa loi sousH0

T = X¯−µ0

Sn1/√ n

H0

Tn−1d.d.l

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 24 / 59

(21)

Comparaison de moyennes Comparaison d’une moyenne observée à une moyenne théorique

Test De Student : Exemple sur le QI des prisonniers 4. Détermination de la région critiqueW

t0.975,9

−t0.975,9 0

T(9ddl)

2.5% 95% 2.5%

W =]− ∞;−t0.975,,9ddl][t0.975,,9ddl; +∞[

W =]− ∞;2.26][2.26; +[

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 25 / 59

(22)

Comparaison de moyennes Comparaison d’une moyenne observée à une moyenne théorique

Test De Student : Exemple sur le QI des prisonniers 5. Calcul de T sur l’échantillon et conclusions

t= x¯−µ0

sn1/√

n =85100 10/

10 =−4.74

t∈W donc on rejetteH0au risque de première espèceα=5%de se tromper. La moyenne observée sur l’échantillon estsignificativement différentede la moyenne théorique.

Remarques

Test bilatéral→ H1:µ̸=µ0

Calcul de la p-value :

P(T9ddl >|t|) =2P(T9ddl >t) =2×P(T9ddl>4.74) =0.001 CommeP(T >|t|)<0.05, on rejetteH0

Si la méthodologie d’échantillonnage est bonne (la différence n’est pas due à un échantillon peu représentatif)

Inférence à la population des prisonniers: Le QI des prisonniers est en moyenne inférieur à celui de la population générale

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 26 / 59

(23)

Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants

Test de Student : moy. obs / moy. obs

Objectif

SoitX une variable aléatoire quantitative de distributionL(µ1, σ1)dans une population 1 etL2, σ2)dans une population 2. L’objectif est de comparerµ1etµ2, non connues, mais estimées respectivement par¯x1etx¯2sur des échantillons de taillen1etn2.

Fr´equence observ´ee / fr´equence th´eorique

p n

Conditions d’application n 30 et min{n⇡0, n(1 0)}>5

Statistique de test sousH0{⇡=0}

U= P 0

q0(1 0) n

N(0,1)

Deux fr´equences observ´ees

1

p1

n1

2

p2

n2

Tests param´etriques de comparaison

Michael Genin - 2015

Conditions d’application

min{n1, n2} 30 min{n1p, n1(1 p)}>5 min{n2p, n2(1 p)}>5 Avec pl’estimation de la proportion commune :

p=n1p1+n2p2

n1+n2

Statistique de test sousH0{1=2}

U= P1 P2

qp(1 p) n1 +p(1np)

2

N(0,1)

Moyenne observ´ee / Moyenne th´eorique

XL(µ, )

¯ x s

n

Conditions d’application: XN(µ, )

Statistique de test sousH0{µ=µ0}

T=X¯ µ0 pn

Tn 1d.d.l.

Si est inconnu, il est estim´e parSet on le remplace dans la formule.

Deux moyennes observ´ees / ´echantillons appari´es

D=X1 X2

DL(µD, D)

d¯ sD

Conditions d’application:DND, D)

Cas particulier: sin 30 on relaxe l’hypoth`ese de normalit´e faite surX.

Statistique de test sousH0{µD= 0}

T= D¯

pD n

Tn 1d.d.l.

Si Dest inconnu, il est estim´e parSDet on le remplace dans la formule.

Cas particulier: sin 30 on relaxe l’hypoth`ese de normalit´e faite surD.

Deux moyennes observ´ees / ´echantillons ind´ependants

X1L1, 1)

¯ x1

s1

n1 n2

X2L2, 2)

¯ x2

s2

Conditions d’application - Th´eor`eme g´en´eral X1N1, 1) etX2N2, 2)

2 1= 22

Test de Fisher :

H0: 21= 22

H1: 216= 22

RejetH0 ConservationH0

Statistique de test (Welsh - Satterth- waite)

sousH0{µ1=µ2}

T= X¯1 X¯2

qS2

n11+Sn222Td.d.l.

Statistique de test sousH0{µ1=µ2}

T= X¯1 X¯2

qS2

n1+Sn22Tn1+n2 2d.d.l.

avecS2l’estimateur de la variance commune : S2=(n1 1)S12+ (n2 1)S22

n1+n2 2 Cas particulier: si min{n1, n2} 30 on relaxe l’hypoth`ese de normalit´e faite surX1etX2et l’hypoth`ese faite sur l’´egalit´e des variances.Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 28 / 59

(24)

Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants

Test F - Comparaison de deux variances Considérons :

X1∼ N1, σ1)etX2∼ N2, σ2) Les hypothèses du test

H0:σ21=σ22 H1:σ21> σ22

Soient deux échantillons de taillen1etn2: S12= 1

n11

n1

i=1

(X1i−X¯1)2 etS22= 1 n21

n2

i=1

(X2i−X¯2)2 Statistique de test sousH0

F= S12

S22 ∼ F(n1−1,n2−1)ddl

En pratique:

Test unilatéral à droite

On prend la valeur la plus élevée entres12 ets22comme numérateur de la statistique de test

Le rapport est⩾1.

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 29 / 59

(25)

Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants

Test F - Comparaison de deux variances Région critiqueW

Fn1−1,n2−1

5%

fn1−α1−1,n2−1

0 1 2 3 4 5 6

W = [fn11α1,n21; +∞[

Les variancesσ1etσ2sont diteshomogènessi le test F estnon significatif

Notion d’homoscédasticité

Si le test est significatif, les variances sont diteshétérogènes

Notion d’hétéroscédasticité

Le test nécessite la normalitédeX1etX2

X1etX2doivent êtreindépendantes

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 30 / 59

(26)

Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants

Test de Student - Ex. : patients diabétiques et taux de mauvais cholestérol (LDL) Objectif: on désire savoir si le LDL est différent entre les patients diabétiques et les personnes saines.

En population générale, on considère que le LDL chez les diabétiques est distribué selon uneloi normalede moyenneµ1et d’écart-typeσ1.X∼ N1, σ1)

En population générale, on considère que le LDL chez les personnes saines est distribué selon uneloi normalede moyenneµ2et d’écart-typeσ2.X ∼ N2, σ2)

On dispose de 2 groupes de sujets : Malades (n1=25) :x¯1=1.8,s1=0.5 Témoins (n2=20) :x¯2=1.3,s2=0.4 1. Choix des hypothèses

H0: Le LDL moyen est identique entre les témoins et les malades(µ1=µ2) H1: Le LDL moyen est différent entre les témoins et les malades(µ1̸=µ2) 2. Choix d’un risqueα: 0.05

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 31 / 59

(27)

Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants

Test de Student - Ex. : patients diabétiques et taux de mauvais cholestérol (LDL)

3. Choix de la statistique de test

1 Siσ21=σ22=σ2, alors sousH0: T = X¯1−X¯2

S

1 n1+n1

2

∼ Tn1+n22ddl

AvecS2l’estimateur de la variance communeσ2. S2= (n11)S12+ (n21)S22

n1+n22

2 Siσ21̸=σ22, alors sousH0:

T = √X¯1−X¯2 S2

1 n1 +S

2 2 n2

∼ Tνddl

avecν= (s12

n1 +sn22

2

)2

/ ( s14

n21(n11)+ s42

n22(n21)

)

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 32 / 59

(28)

Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants

Test de Student - Ex. : patients diabétiques et taux de mauvais cholestérol (LDL)

3. Choix de la statistique de test

Il faut tout d’abord tester l’égalité des variances :H0:σ21=σ22v.s.H1:σ21> σ22 On pose un risqueα=5%

Statistique de test :

F=S12 S22

H0

F(n11,n21)ddl

Région critique :

F24,19

5%

f24,190.95

0 1 2 3

W = [f24,190.95; +[= [2.11; +[

Calcul sur l’échantillon

f = s12

s22 = (0.5)2

(0.4)2 =1.5625 Conclusion

f ∈/ W donc on ne rejette pas H0 au risque β. Les variances ne semblent pas différentes.

Nous pouvons désormais choisir quelle statistique de test utiliser pour le test de Student !

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 33 / 59

(29)

Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants

Test de Student - Ex. : patients diabétiques et taux de mauvais cholestérol (LDL) 3. Choix de la statistique de test

T = X¯1−X¯2

S

1 n1+n1

2

∼ Tn1+n22ddl

4. Détermination de la région critiqueW

t0.975,43

−t0.975,43 0

T(43ddl)

2.5% 95% 2.5%

W =]− ∞;−t0.975,,43ddl][t0.975,,43ddl; +[=]− ∞;2.017][2.017; +[

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 34 / 59

(30)

Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants

Test de Student - Ex. : patients diabétiques et taux de mauvais cholestérol (LDL) 5. Calcul de T sur l’échantillon et conclusions

Calculons l’estimation de la variance commune : s2=(n11)s12+ (n21)s22

n1+n22 =(251)0.52+ (201)0.42 25+202 0.21 La statistique de test observée sur l’échantillon :

t= x¯1−x¯2

s

1 n1 +n1

2

= 1.81.3

0.21√1

25+201 3.64

t∈W =]− ∞;2.017][2.017; +[donc on rejetteH0avec un risqueαde première espèce.

La moyenne observée sur l’échantillon de malades estsignificativement différentede la moyenne chez les témoins.

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 35 / 59

(31)

Comparaison de moyennes Comparaison de deux moyennes / Echantillons indépendants

Test de Student - Ex. : patients diabétiques et taux de mauvais cholestérol (LDL)

Remarques

Test bilatéral→ H1:µ1̸=µ2

Calcul de la p-value :

P(T >|t|) =2P(T >t) =2×P(T >3.64)7.3.104 CommeP(T >|t|)≪0.05, on rejetteH0

Si la méthodologie d’échantillonnage est bonne (la différence n’est pas due à des échantillons peu représentatifs)

Inférence à lapopulation de malades: Le LDL est en moyenne supérieur à celui de la population générale.

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 36 / 59

(32)

Comparaison de moyennes Comparaison de deux moyennes / Echantillons appariés

Définition de l’appariement

Un échantillon A et un échantillon B sont deséchantillons appariéssi chaque observation de A est liée à une observation homologue de B. Chaque couple de valeurs forme alors unepaire.

Exemples :

On mesure la taille pour différents couples de frère et soeur, et l’on souhaite comparer la taille entre les hommes et les femmes

Mesure d’un paramètre biologique chez des patients, avant et après une intervention (données répétées)

Test de Student pour échantillons appariés - Principe

On se base sur la différence des valeurs associées à chaque observation. L’hypothèse nulle testée stipule qu’en moyenne ces différences sont nulles.

On se libère de la variabilitéintra-échantillon(entre les observations d’un même échantillon) afin de prendre en compte uniquement la variabilitéinter-échantillons (variabilité des différences entre paires).

Dans le cadre des données appariées, un test de Student apparié est plus puissant qu’un test de Student de comparaison de moyennes.

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 38 / 59

(33)

Comparaison de moyennes Comparaison de deux moyennes / Echantillons appariés

Test de Student pour échantillons appariés

Objectif

Montrer qu’il existe une différence de moyennes d’une variable aléatoire quantitativeX entre deux échantillons appariés. PosonsX1la mesure dans le groupe 1 etX2la mesure dans le groupe 2. On s’intéresse à la différenceD=X1−X2.

x

Fr´equence observ´ee / fr´equence th´eorique

p n

Conditions d’application n 30 et min{n⇡0, n(1 0)}>5

Statistique de test sousH0{=0}

U= P 0

q0(1 0) n

N(0,1)

Deux fr´equences observ´ees

1

p1

n1

2

p2

n2

Tests param´ etriques de comparaison

Michael Genin - 2015

Conditions d’application

min{n1, n2} 30 min{n1p, n1(1 p)}>5 min{n2p, n2(1 p)}>5 Avec p l’estimation de la proportion commune :

p=n1p1+n2p2

n1+n2

Statistique de test sousH0{1=2}

U= P1 P2

qp(1 p) n1 +p(1n p)

2

N(0,1)

Moyenne observ´ee / Moyenne th´eorique

XL(µ, )

¯ x s

n

Conditions d’application : XN(µ, )

Statistique de test sousH0=µ0}

T=X¯ µ0 pn

Tn 1d.d.l.

Si est inconnu, il est estim´e parSet on le remplace dans la formule.

Deux moyennes observ´ees / ´echantillons appari´es

D=X1 X2

DL(µD, D)

d¯ sD

Conditions d’application:DND, D)

Cas particulier: si n 30 on relaxe l’hypoth`ese de normalit´e faite surX.

Statistique de test sousH0D= 0}

T= D¯

pDn

Tn 1d.d.l.

Si Dest inconnu, il est estim´e parSDet on le remplace dans la formule.

Cas particulier: sin 30 on relaxe l’hypoth`ese de normalit´e faite surD.

Deux moyennes observ´ees / ´echantillons ind´ependants

X1L1, 1)

¯ x1

s1

n1 n2

X2L2, 2)

¯ x2

s2

Conditions d’application - Th´eor`eme g´en´eral

X1N1, 1) etX2N(µ2, 2)

2 1= 22

Test de Fisher :

H0: 21= 22 H1: 216= 22

RejetH0 ConservationH0

Statistique de test (Welsh - Satterth- waite)

sousH0{µ1=µ2}

T= X¯1 X¯2

qS12 n1+Sn222

Td.d.l.

Statistique de test sousH01=µ2}

T= X¯1 X¯2

qS2

n1+Sn22 Tn1+n2 2d.d.l.

avecS2l’estimateur de la variance commune : S2=(n1 1)S21+ (n2 1)S22

n1+n2 2

Cas particulier: si min{n1, n2} 30 on relaxe l’hypoth`ese de normalit´e faite surX1etX2et l’hypoth`ese faite sur l’´egalit´e des variances.

Conditions d’application

D∼ ND, σD). Sin≥30, on relaxe l’hypothèse de normalité faite surD.

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 39 / 59

(34)

Comparaison de moyennes Comparaison de deux moyennes / Echantillons appariés

Test de Student pour échantillons appariés - Exemple : Traitement du diabète1 Objectif: On désire étudier l’effet d’une nouvelle stratégie de traitement du diabète en mesurant l’effet sur la glycémie. On dose la glycémie (g/L) chez 15 sujetsavant le début du nouveau protocole et3 mois après.

Dans lapopulation de malades, on pose : X1la mesure de glycémie avant TTT

X2la mesure de glycémie après TTT (3 mois après)

D=X1−X2unevadistribuée selon uneloi normaled’espéranceµD et de varianceσ2D Sur l’échantillon

Les mesures sont appariées car elles sont effectuées sur les mêmes individus.

La moyenne des différences entre les mesures :d¯=0.1 L’écart-type des différences entre les mesures :sD=0.091

1.Statistique - Epidemiologie, T. Ancelle, p. 141

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 40 / 59

(35)

Comparaison de moyennes Comparaison de deux moyennes / Echantillons appariés

Test de Student pour échantillons appariés - Exemple : Traitement du diabète

1. Choix des hypothèses

H0: les glycémies sont identiques avant et après le nouveau protocole (H0:µD=0) H1unilatérale: la glycémie est réduite grâce au nouveau protocole (H1:µD>0) 2. Choix d’un risqueα: 0.05

3. Choix de la statistique de test

T = D¯ SD/√

n

H0

Tn−1ddl

Avec

D¯ = ¯X1−X¯2

et

SD= vu ut n

n−1 [

1 n

n

i=1

D2i ( D¯)2

]

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 41 / 59

(36)

Comparaison de moyennes Comparaison de deux moyennes / Echantillons appariés

Test de Student pour échantillons appariés - Exemple : Traitement du diabète 4. Détermination de la région critiqueW

t0.95,14 0

T(14ddl)

5%

95%

W = [t0.95,14; +[= [1.761; +[ 5. Calcul de T sur l’échantillon et conclusions

t= d¯ sD/√

n = 0.1 0.091/

15 =4.26

t∈W donc on rejetteH0au risque de première espèceα=5%de se tromper. La glycémie estsignificativement plus basseaprès administration de la nouvelle stratégie.

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 42 / 59

(37)

Comparaison de moyennes Comparaison de deux moyennes / Echantillons appariés

Test de Student pour échantillons appariés - Exemple : Traitement du diabète

Remarques

Test unilatéral→ H1:µD>0 Calcul de la p-value :

P(T14ddl>t) =P(T14ddl >4.26)4.10−4 CommeP(T >t)≪0.05, on rejetteH0

Si la méthodologie d’échantillonnage est bonne (la différence n’est pas due à un échantillon peu représentatif)

Inférence à la population de malades: La glycémie est en moyenne inférieure après TTT. Le TTT est efficace.

Relation de causalité

Michaël Genin (Université de Lille 2) Tests statistiques paramétriques Version - 7 décembre 2016 43 / 59

Références

Documents relatifs

Ainsi, une différence de régime alimentaire affecte significativement la croissance des poissons au seuil α =

L’analyse des taux de mortalité pour une cause de décès donnée selon les modalités conjointes de plusieurs facteurs ne peut pas être effectuée par les

Pour fixer les idées nous nous plaçons maintenant dans le cadre des hypothèses servant de base au test sur les moyennes ; nous suppo-. sons notamment que

une estimation correcte de cette variance commune pourra être faite à partir de l’ensemble des deux. échantillons :

• score d’homologie: la valeur du score diminue avec le nombre de différences observées entre les deux séquences. • score de distance: la valeur du score augmente avec le nombre

• score d’homologie: la valeur du score diminue avec le nombre de différences observées entre les deux séquences.. • score de distance: la valeur du score augmente avec le nombre

• score d’homologie: la valeur du score diminue avec le nombre de différences observées entre les deux séquences.. • score de distance: la valeur du score augmente avec le nombre

Ce statut est à comparer avec celui du modèle normal : pour de petits échantillons le modèle normal est utile (s’il est vrai, il permet des conclusions précises)