• Aucun résultat trouvé

Chapitre IV. Tests du chi-deux

N/A
N/A
Protected

Academic year: 2022

Partager "Chapitre IV. Tests du chi-deux"

Copied!
26
0
0

Texte intégral

(1)

Chapitre IV. Tests du chi-deux

Cours de Tests param´ etriques

Deuxi`eme Ann´ee - IUT STID - Olivier Bouaziz

2018-2019

(2)

Introduction

Tests du chi-deux :

Tests param´ etriques bas´ es sur une statistique de test suivant approximativement une loi du χ

2

sous l’hypoth` ese nulle.

Objectifs :

I

Tests d’ind´ ependance

I

Tests d’homog´ en´ eit´ e

(3)

I

X : variable al´ eatoire qualitative ou quantitative discr` ete ` a K modalit´ es, not´ ees a

1

, . . . , a

K

.

I

Y : variable al´ eatoire qualitative ou quantitative discr` ete ` a L modalit´ es, not´ ees b

1

, . . . , b

L

.

I

n donn´ ees : (x

1

, y

1

), . . . , (x

n

, y

n

) r´ ealisations de n couples de

variables al´ eatoires (X

1

, Y

n

), . . . , (X

n

, Y

n

) ind´ ependantes et de

mˆ eme loi que le couple (X , Y ).

(4)

Objectif du test

On veut tester l’hypoth` ese

(H

0

) : X et Y sont ind´ ependantes contre

(H

1

) : X et Y ne sont pas ind´ ependantes

(5)

On souhaite savoir si le temps ´ ecoul´ e depuis la vaccination contre une maladie donn´ ee a ou non une influence sur le degr´ e de gravit´ e de la maladie lorsque celle-ci se d´ eclare.

I

Gravit´ e de la maladie : l´ eg` ere (L), moyenne (M) ou grave (G).

I

Dur´ ee ´ ecoul´ ee depuis vaccination : moins de 10 ans (A), entre 10 et 25 ans (B), plus de 25 ans (C).

I

1 574 malades.

A B C Total

G 1 42 230 273

M 6 114 347 467

L 23 301 510 834

Total 30 457 1087 1574

(6)

Exemple 1 (suite)

D’un point de vue descriptif on peut ´ etudier la distribution conditionnelle de la gravit´ e de la maladie conditionnellement ` a la dur´ ee ´ ecoul´ ee depuis vaccination :

A B C

G 0.03 0.09 0.21

M 0.20 0.25 0.32

L 0.77 0.66 0.47

Qu’en pensez-vous ?

(7)

Justification heuristique du test.

La loi du couple de variables (X , Y ) est caract´ eris´ ee par

. . . ..

R´ e´ ecriture math´ ematique des hypoth` eses H

0

et H

1

:

(H

0

) . . . .

(H

1

) . . . .

(8)

Principe du test d’ind´ ependance

On introduit, pour 1 ≤ k ≤ K et 1 ≤ l ≤ L, les variables al´ eatoires :

I

N

kl

, nombre de couples de variables (X

i

, Y

i

), pour 1 ≤ i ≤ n, tels que X

i

= a

k

ET Y

i

= b

l

.

I

N

k•

= P

L

l=1

N

kl

, nombre de variables X

i

, 1 ≤ i ≤ n, qui prennent la valeur a

k

.

I

N

•l

= P

K

k=1

N

kl

, nombre de variables Y

i

, pour 1 ≤ i ≤ n, qui

prennent la valeur b

l

.

(9)

Etant donn´ ee une r´ ealisation (x

1

, y

1

), . . . , (x

n

, y

n

) de

(X

1

, Y

1

), . . . , (X

n

, Y

n

), on note respectivement n

kl

, n

k•

et n

•l

les r´ ealisations correspondantes de N

kl

, N

k•

et N

•l

, qui peuvent ˆ etre repr´ esent´ ees dans le tableau de contingence ci-dessous.

X \ Y b

1

. . . b

l

. . . b

L

Total a

1

n

11

. . . n

1l

. . . n

1L

n

1•

.. . .. . .. . .. . .. . .. . .. . a

k

n

k1

. . . n

kl

. . . n

kL

n

k•

.. . .. . .. . .. . .. . .. . .. . a

K

n

K1

. . . n

Kl

. . . n

KL

n

K

Total n

•1

. . . n

•l

. . . n

•L

n

(10)

Principe du test d’ind´ ependance

On estime alors, pour 1 ≤ k ≤ K et 1 ≤ l ≤ L,

I

P (X = a

k

et Y = b

l

) par

. . . .

I

P (X = a

k

) × P(Y = b

l

) par

. . . .

Sous (H

0

), pour tous 1 ≤ k ≤ K , 1 ≤ l ≤ L, l’´ ecart entre

fr´ equence observ´ ee . . . . et fr´ equence th´ eorique sous (H

0

)

. . . . est cens´ e ˆ etre proche de 0, ou encore l’´ ecart entre

effectif observ´ e . . . . et effectif th´ eorique sous (H

0

)

. . . . est cens´ e ˆ etre proche de 0.

(11)

Statistique de test

T

n

=

K

X

k=1 L

X

l=1

N

kl

Nk•nN•l

2 Nk•N•l

n

(12)

Principe du test d’ind´ ependance

Proposition 1

Si les conditions suivantes sont satisfaites

I

le nombre d’observations n est

grand

,

I

n

k•

n

•l

/n ≥ 5 pour tous k = 1, . . . , K et l = 1, . . . , L, alors sous (H

0

),

T

n

suit approximativement la loi χ

2

((K − 1)(L − 1))

(13)

Zone de rejet au niveau α

R

n,α

= {T

n

≥ c

α

},

o` u c

α

est le quantile d’ordre 1 − α d’une loi χ

2

((K − 1)(L − 1)) . R` egle de d´ ecision :

I

si t

n

≥ c

α

, alors on rejette l’hypoth` ese d’ind´ ependance entre X et Y .

I

si t

n

< c

α

, alors on ne rejette pas l’hypoth` ese d’ind´ ependance

entre X et Y .

(14)

Retour ` a l’exemple 1

On souhaite savoir si le temps ´ ecoul´ e depuis la vaccination contre une maladie donn´ ee a ou non une influence sur le degr´ e de gravit´ e de la maladie lorsque celle-ci se d´ eclare.

I

Gravit´ e de la maladie : l´ eg` ere (L), moyenne (M) ou grave (G).

I

Dur´ ee ´ ecoul´ ee depuis vaccination : moins de 10 ans (A), entre 10 et 25 ans (B), plus de 25 ans (C).

I

1 574 malades.

A B C Total

G 1 42 230 273

M 6 114 347 467

L 23 301 510 834

Total 30 457 1087 1574

(15)

I

X : variable al´ eatoire qualitative ou quantitative discr` ete ` a K modalit´ es, not´ ees a

1

, . . . , a

K

.

I

Comparaison de la distribution de X dans L populations diff´ erentes.

I

Pour chaque 1 ≤ l ≤ L, on dispose d’un ´ echantillon de n

l

donn´ ees x

1l

, . . . , x

nll

r´ ealisations de n

l

variables X

1l

, . . . , X

nll

ind´ ependantes et de mˆ eme loi que X

l

.

I

On suppose que les L ´ echantillons

(X

11

, . . . , X

n11

), (X

12

, . . . , X

n22

), . . . , (X

1L

, . . . , X

nLL

) sont

ind´ ependants.

(16)

Objectif du test

On veut tester l’hypoth` ese

(H

0

) : Les variables X

1

, . . . , X

L

suivent toutes la mˆ eme loi contre

(H

1

) : Les variables X

1

, . . . , X

L

ne suivent pas toutes la mˆ eme loi

(17)

On a mesur´ e les groupes sanguins dans 2 populations de 1032 Pygm´ ees et 484 Esquimaux. Au vu de ces r´ esultats, peut-on dire que la distribution des groupes sanguins est la mˆ eme dans les deux populations ?

Groupe sanguin\ Pop. Pygm´ ees Esquimaux

AB 103 7

B 300 17

A 313 260

O 316 200

Total 1032 484

(18)

Exemple 2 (suite)

D’un point de vue descriptif on peut ´ etudier la distribution

conditionnelle du groupe sanguin conditionnellement au type de population (Pygm´ ees ou Esquimaux) :

Groupe sanguin\ Pop. Pygm´ ees Esquimaux

AB 0.10 0.01

B 0.29 0.04

A 0.30 0.54

O 0.31 0.41

Qu’en pensez-vous ?

(19)

Justification heuristique du test.

R´ e´ ecriture math´ ematique des hypoth` eses H

0

et H

1

:

(H

0

) . . . .

(H

1

) . . . .

(20)

Principe du test d’homog´ en´ eit´ e

On introduit, pour 1 ≤ k ≤ K et 1 ≤ l ≤ L, les variables al´ eatoires :

I

N

kl

, nombre de variables parmi (X

1l

, X

2l

, . . . , X

nll

) qui prennent la valeur a

k

.

I

N

k•

= P

L

l=1

N

kl

, nombre de variables X

il

, 1 ≤ i ≤ L,

1 ≤ i ≤ n

l

, qui prennent la valeur a

k

.

(21)

On note respectivement n

kl

et n

k•

des r´ ealisations de N

kl

et N

k•

qui peuvent ˆ etre repr´ esent´ ees dans le tableau de contingence ci-dessous. On note ´ egalement n = n

1

+ n

2

. . . + n

L

.

Modalit´ es de X \ Population 1 . . . l . . . L Total a

1

n

11

. . . n

1l

. . . n

1L

n

1•

.. . .. . .. . .. . .. . .. . .. . a

k

n

k1

. . . n

kl

. . . n

kL

n

k•

.. . .. . .. . .. . .. . .. . .. . a

K

n

K1

. . . n

Kl

. . . n

KL

n

K•

Total n

1

. . . n

l

. . . n

L

n

(22)

Principe du test d’homog´ en´ eit´ e

Sous (H

0

), pour 1 ≤ k ≤ K , on peut estimer P (X = a

k

) par :

. . . . Le test consiste alors ` a comparer, pour tous 1 ≤ k ≤ K et

1 ≤ l ≤ L :

I

l’effectif observ´ e pour la modalit´ e a

k

dans la l

e

population :

. . . ..

` a

I

l’effectif th´ eorique sous (H

0

) pour la modalit´ e a

k

dans la l

e

population :

. . . .

(23)

Statistique de test

T

n

=

K

X

k=1 L

X

l=1

N

kl

Nk•nnl

2 Nk•nl

n

(24)

Principe du test d’homog´ en´ eit´ e

Proposition 2

Si les conditions suivantes sont satisfaites

I

le nombre d’observations n = P

L

l=1

n

l

est

grand

,

I

n

k•

n

l

/n ≥ 5 pour tous k = 1, . . . , K et l = 1, . . . , L, alors sous (H

0

),

T

n

suit approximativement la loi χ

2

((K − 1)(L − 1))

(25)

Zone de rejet au niveau α

R

n,α

= {T

n

≥ c

α

},

o` u c

α

est le quantile d’ordre 1 − α d’une loi χ

2

((K − 1)(L − 1)) . R` egle de d´ ecision :

I

si t

n

≥ c

α

, alors on rejette l’hypoth` ese d’homog´ en´ eit´ e des L populations.

I

si t

n

< c

α

, alors on ne rejette pas l’hypoth` ese d’homog´ en´ eit´ e

des L populations.

(26)

Retour ` a l’exemple 2

On a mesur´ e les groupes sanguins dans 2 populations de 1032 Pygm´ ees et 484 Esquimaux. Au vu de ces r´ esultats, peut-on dire que la distribution des groupes sanguins est la mˆ eme dans les deux populations ?

Groupe sanguin\ Pop. Pygm´ ees Esquimaux

AB 103 7

B 300 17

A 313 260

O 316 200

Total 1032 484

Références

Documents relatifs

[r]

Les hommes tendent à être plus favorables aux statistiques (à plus de 90%) alors que l'inverse est vrai pour les femmes, seulement 25% d'entre elles montrant une attitude

Objectifs: Savoir effectuer une estimation ponctuelle ou par intervalle de confiance, savoir poser et faire un test, pour l’un des param` etres inconnus : moyenne µ, variance σ 2

L’objectif de l’´ etude est de mettre en place un mod` ele de r´ egression logistique pour pr´ edire la probabilit´ e de que ces patients fassent une apn´ ee du sommeil et

Si la valeur absolue de la valeur de la statistique calcul´ ee sur l’´ echantillon, not´ ee t ν,obs est sup´ erieure ou ´ egale ` a c α , alors le test est significatif`. Vous

Un test bilat´ eral s’applique quand vous cherchez une diff´ erence entre deux param` etres, ou entre un param` etre et une valeur donn´ ee sans se pr´ eoccuper du signe ou du sens

` A cha- cune des valeurs ´ egales nous associons un entier au hasard puis nous affectons, par ordre croissant de ces entiers, un rang diff´ erent ` a chaque observation... Les

Grâce au théorème de Kolmogorov–Smirnov, on peut facilement mettre en oeuvre un test pour déterminer si un vecteur de données est ou non une réalisation d’un échantillon de