• Aucun résultat trouvé

Chapitre IV. Tests du chi-deux

N/A
N/A
Protected

Academic year: 2022

Partager "Chapitre IV. Tests du chi-deux"

Copied!
26
0
0

Texte intégral

(1)

Chapitre IV. Tests du chi-deux

Cours de Tests param´ etriques

Deuxi`eme Ann´ee - IUT STID - Olivier Bouaziz

2018-2019

(2)

Introduction

Tests du chi-deux :

Tests param´ etriques bas´ es sur une statistique de test suivant approximativement une loi du χ

2

sous l’hypoth` ese nulle.

Objectifs :

I

Tests d’ind´ ependance

I

Tests d’homog´ en´ eit´ e

(3)

I

X : variable al´ eatoire qualitative ou quantitative discr` ete ` a K modalit´ es, not´ ees a

1

, . . . , a

K

.

I

Y : variable al´ eatoire qualitative ou quantitative discr` ete ` a L modalit´ es, not´ ees b

1

, . . . , b

L

.

I

n donn´ ees : (x

1

, y

1

), . . . , (x

n

, y

n

) r´ ealisations de n couples de

variables al´ eatoires (X

1

, Y

n

), . . . , (X

n

, Y

n

) ind´ ependantes et de

mˆ eme loi que le couple (X , Y ).

(4)

Objectif du test

On veut tester l’hypoth` ese

(H

0

) : X et Y sont ind´ ependantes contre

(H

1

) : X et Y ne sont pas ind´ ependantes

(5)

On souhaite savoir si le temps ´ ecoul´ e depuis la vaccination contre une maladie donn´ ee a ou non une influence sur le degr´ e de gravit´ e de la maladie lorsque celle-ci se d´ eclare.

I

Gravit´ e de la maladie : l´ eg` ere (L), moyenne (M) ou grave (G).

I

Dur´ ee ´ ecoul´ ee depuis vaccination : moins de 10 ans (A), entre 10 et 25 ans (B), plus de 25 ans (C).

I

1 574 malades.

A B C Total

G 1 42 230 273

M 6 114 347 467

L 23 301 510 834

Total 30 457 1087 1574

(6)

Exemple 1 (suite)

D’un point de vue descriptif on peut ´ etudier la distribution conditionnelle de la gravit´ e de la maladie conditionnellement ` a la dur´ ee ´ ecoul´ ee depuis vaccination :

A B C

G 0.03 0.09 0.21

M 0.20 0.25 0.32

L 0.77 0.66 0.47

Qu’en pensez-vous ?

(7)

Justification heuristique du test.

La loi du couple de variables (X , Y ) est caract´ eris´ ee par

. . . ..

R´ e´ ecriture math´ ematique des hypoth` eses H

0

et H

1

:

(H

0

) . . . .

(H

1

) . . . .

(8)

Principe du test d’ind´ ependance

On introduit, pour 1 ≤ k ≤ K et 1 ≤ l ≤ L, les variables al´ eatoires :

I

N

kl

, nombre de couples de variables (X

i

, Y

i

), pour 1 ≤ i ≤ n, tels que X

i

= a

k

ET Y

i

= b

l

.

I

N

k•

= P

L

l=1

N

kl

, nombre de variables X

i

, 1 ≤ i ≤ n, qui prennent la valeur a

k

.

I

N

•l

= P

K

k=1

N

kl

, nombre de variables Y

i

, pour 1 ≤ i ≤ n, qui

prennent la valeur b

l

.

(9)

Etant donn´ ee une r´ ealisation (x

1

, y

1

), . . . , (x

n

, y

n

) de

(X

1

, Y

1

), . . . , (X

n

, Y

n

), on note respectivement n

kl

, n

k•

et n

•l

les r´ ealisations correspondantes de N

kl

, N

k•

et N

•l

, qui peuvent ˆ etre repr´ esent´ ees dans le tableau de contingence ci-dessous.

X \ Y b

1

. . . b

l

. . . b

L

Total a

1

n

11

. . . n

1l

. . . n

1L

n

1•

.. . .. . .. . .. . .. . .. . .. . a

k

n

k1

. . . n

kl

. . . n

kL

n

k•

.. . .. . .. . .. . .. . .. . .. . a

K

n

K1

. . . n

Kl

. . . n

KL

n

K

Total n

•1

. . . n

•l

. . . n

•L

n

(10)

Principe du test d’ind´ ependance

On estime alors, pour 1 ≤ k ≤ K et 1 ≤ l ≤ L,

I

P (X = a

k

et Y = b

l

) par

. . . .

I

P (X = a

k

) × P(Y = b

l

) par

. . . .

Sous (H

0

), pour tous 1 ≤ k ≤ K , 1 ≤ l ≤ L, l’´ ecart entre

fr´ equence observ´ ee . . . . et fr´ equence th´ eorique sous (H

0

)

. . . . est cens´ e ˆ etre proche de 0, ou encore l’´ ecart entre

effectif observ´ e . . . . et effectif th´ eorique sous (H

0

)

. . . . est cens´ e ˆ etre proche de 0.

(11)

Statistique de test

T

n

=

K

X

k=1 L

X

l=1

N

kl

Nk•nN•l

2 Nk•N•l

n

(12)

Principe du test d’ind´ ependance

Proposition 1

Si les conditions suivantes sont satisfaites

I

le nombre d’observations n est

grand

,

I

n

k•

n

•l

/n ≥ 5 pour tous k = 1, . . . , K et l = 1, . . . , L, alors sous (H

0

),

T

n

suit approximativement la loi χ

2

((K − 1)(L − 1))

(13)

Zone de rejet au niveau α

R

n,α

= {T

n

≥ c

α

},

o` u c

α

est le quantile d’ordre 1 − α d’une loi χ

2

((K − 1)(L − 1)) . R` egle de d´ ecision :

I

si t

n

≥ c

α

, alors on rejette l’hypoth` ese d’ind´ ependance entre X et Y .

I

si t

n

< c

α

, alors on ne rejette pas l’hypoth` ese d’ind´ ependance

entre X et Y .

(14)

Retour ` a l’exemple 1

On souhaite savoir si le temps ´ ecoul´ e depuis la vaccination contre une maladie donn´ ee a ou non une influence sur le degr´ e de gravit´ e de la maladie lorsque celle-ci se d´ eclare.

I

Gravit´ e de la maladie : l´ eg` ere (L), moyenne (M) ou grave (G).

I

Dur´ ee ´ ecoul´ ee depuis vaccination : moins de 10 ans (A), entre 10 et 25 ans (B), plus de 25 ans (C).

I

1 574 malades.

A B C Total

G 1 42 230 273

M 6 114 347 467

L 23 301 510 834

Total 30 457 1087 1574

(15)

I

X : variable al´ eatoire qualitative ou quantitative discr` ete ` a K modalit´ es, not´ ees a

1

, . . . , a

K

.

I

Comparaison de la distribution de X dans L populations diff´ erentes.

I

Pour chaque 1 ≤ l ≤ L, on dispose d’un ´ echantillon de n

l

donn´ ees x

1l

, . . . , x

nll

r´ ealisations de n

l

variables X

1l

, . . . , X

nll

ind´ ependantes et de mˆ eme loi que X

l

.

I

On suppose que les L ´ echantillons

(X

11

, . . . , X

n11

), (X

12

, . . . , X

n22

), . . . , (X

1L

, . . . , X

nLL

) sont

ind´ ependants.

(16)

Objectif du test

On veut tester l’hypoth` ese

(H

0

) : Les variables X

1

, . . . , X

L

suivent toutes la mˆ eme loi contre

(H

1

) : Les variables X

1

, . . . , X

L

ne suivent pas toutes la mˆ eme loi

(17)

On a mesur´ e les groupes sanguins dans 2 populations de 1032 Pygm´ ees et 484 Esquimaux. Au vu de ces r´ esultats, peut-on dire que la distribution des groupes sanguins est la mˆ eme dans les deux populations ?

Groupe sanguin\ Pop. Pygm´ ees Esquimaux

AB 103 7

B 300 17

A 313 260

O 316 200

Total 1032 484

(18)

Exemple 2 (suite)

D’un point de vue descriptif on peut ´ etudier la distribution

conditionnelle du groupe sanguin conditionnellement au type de population (Pygm´ ees ou Esquimaux) :

Groupe sanguin\ Pop. Pygm´ ees Esquimaux

AB 0.10 0.01

B 0.29 0.04

A 0.30 0.54

O 0.31 0.41

Qu’en pensez-vous ?

(19)

Justification heuristique du test.

R´ e´ ecriture math´ ematique des hypoth` eses H

0

et H

1

:

(H

0

) . . . .

(H

1

) . . . .

(20)

Principe du test d’homog´ en´ eit´ e

On introduit, pour 1 ≤ k ≤ K et 1 ≤ l ≤ L, les variables al´ eatoires :

I

N

kl

, nombre de variables parmi (X

1l

, X

2l

, . . . , X

nll

) qui prennent la valeur a

k

.

I

N

k•

= P

L

l=1

N

kl

, nombre de variables X

il

, 1 ≤ i ≤ L,

1 ≤ i ≤ n

l

, qui prennent la valeur a

k

.

(21)

On note respectivement n

kl

et n

k•

des r´ ealisations de N

kl

et N

k•

qui peuvent ˆ etre repr´ esent´ ees dans le tableau de contingence ci-dessous. On note ´ egalement n = n

1

+ n

2

. . . + n

L

.

Modalit´ es de X \ Population 1 . . . l . . . L Total a

1

n

11

. . . n

1l

. . . n

1L

n

1•

.. . .. . .. . .. . .. . .. . .. . a

k

n

k1

. . . n

kl

. . . n

kL

n

k•

.. . .. . .. . .. . .. . .. . .. . a

K

n

K1

. . . n

Kl

. . . n

KL

n

K•

Total n

1

. . . n

l

. . . n

L

n

(22)

Principe du test d’homog´ en´ eit´ e

Sous (H

0

), pour 1 ≤ k ≤ K , on peut estimer P (X = a

k

) par :

. . . . Le test consiste alors ` a comparer, pour tous 1 ≤ k ≤ K et

1 ≤ l ≤ L :

I

l’effectif observ´ e pour la modalit´ e a

k

dans la l

e

population :

. . . ..

` a

I

l’effectif th´ eorique sous (H

0

) pour la modalit´ e a

k

dans la l

e

population :

. . . .

(23)

Statistique de test

T

n

=

K

X

k=1 L

X

l=1

N

kl

Nk•nnl

2 Nk•nl

n

(24)

Principe du test d’homog´ en´ eit´ e

Proposition 2

Si les conditions suivantes sont satisfaites

I

le nombre d’observations n = P

L

l=1

n

l

est

grand

,

I

n

k•

n

l

/n ≥ 5 pour tous k = 1, . . . , K et l = 1, . . . , L, alors sous (H

0

),

T

n

suit approximativement la loi χ

2

((K − 1)(L − 1))

(25)

Zone de rejet au niveau α

R

n,α

= {T

n

≥ c

α

},

o` u c

α

est le quantile d’ordre 1 − α d’une loi χ

2

((K − 1)(L − 1)) . R` egle de d´ ecision :

I

si t

n

≥ c

α

, alors on rejette l’hypoth` ese d’homog´ en´ eit´ e des L populations.

I

si t

n

< c

α

, alors on ne rejette pas l’hypoth` ese d’homog´ en´ eit´ e

des L populations.

(26)

Retour ` a l’exemple 2

On a mesur´ e les groupes sanguins dans 2 populations de 1032 Pygm´ ees et 484 Esquimaux. Au vu de ces r´ esultats, peut-on dire que la distribution des groupes sanguins est la mˆ eme dans les deux populations ?

Groupe sanguin\ Pop. Pygm´ ees Esquimaux

AB 103 7

B 300 17

A 313 260

O 316 200

Total 1032 484

Références

Documents relatifs

[r]

Les hommes tendent à être plus favorables aux statistiques (à plus de 90%) alors que l'inverse est vrai pour les femmes, seulement 25% d'entre elles montrant une attitude

Si la valeur absolue de la valeur de la statistique calcul´ ee sur l’´ echantillon, not´ ee t ν,obs est sup´ erieure ou ´ egale ` a c α , alors le test est significatif`. Vous

Un test bilat´ eral s’applique quand vous cherchez une diff´ erence entre deux param` etres, ou entre un param` etre et une valeur donn´ ee sans se pr´ eoccuper du signe ou du sens

` A cha- cune des valeurs ´ egales nous associons un entier au hasard puis nous affectons, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation... Les

Objectifs: Savoir effectuer une estimation ponctuelle ou par intervalle de confiance, savoir poser et faire un test, pour l’un des param` etres inconnus : moyenne µ, variance σ 2

L’objectif de l’´ etude est de mettre en place un mod` ele de r´ egression logistique pour pr´ edire la probabilit´ e de que ces patients fassent une apn´ ee du sommeil et

Grâce au théorème de Kolmogorov–Smirnov, on peut facilement mettre en oeuvre un test pour déterminer si un vecteur de données est ou non une réalisation d’un échantillon de