Chapitre IV. Tests du chi-deux
Cours de Tests param´ etriques
Deuxi`eme Ann´ee - IUT STID - Olivier Bouaziz
2018-2019
Introduction
Tests du chi-deux :
Tests param´ etriques bas´ es sur une statistique de test suivant approximativement une loi du χ
2sous l’hypoth` ese nulle.
Objectifs :
I
Tests d’ind´ ependance
I
Tests d’homog´ en´ eit´ e
I
X : variable al´ eatoire qualitative ou quantitative discr` ete ` a K modalit´ es, not´ ees a
1, . . . , a
K.
I
Y : variable al´ eatoire qualitative ou quantitative discr` ete ` a L modalit´ es, not´ ees b
1, . . . , b
L.
I
n donn´ ees : (x
1, y
1), . . . , (x
n, y
n) r´ ealisations de n couples de
variables al´ eatoires (X
1, Y
n), . . . , (X
n, Y
n) ind´ ependantes et de
mˆ eme loi que le couple (X , Y ).
Objectif du test
On veut tester l’hypoth` ese
(H
0) : X et Y sont ind´ ependantes contre
(H
1) : X et Y ne sont pas ind´ ependantes
On souhaite savoir si le temps ´ ecoul´ e depuis la vaccination contre une maladie donn´ ee a ou non une influence sur le degr´ e de gravit´ e de la maladie lorsque celle-ci se d´ eclare.
I
Gravit´ e de la maladie : l´ eg` ere (L), moyenne (M) ou grave (G).
I
Dur´ ee ´ ecoul´ ee depuis vaccination : moins de 10 ans (A), entre 10 et 25 ans (B), plus de 25 ans (C).
I
1 574 malades.
A B C Total
G 1 42 230 273
M 6 114 347 467
L 23 301 510 834
Total 30 457 1087 1574
Exemple 1 (suite)
D’un point de vue descriptif on peut ´ etudier la distribution conditionnelle de la gravit´ e de la maladie conditionnellement ` a la dur´ ee ´ ecoul´ ee depuis vaccination :
A B C
G 0.03 0.09 0.21
M 0.20 0.25 0.32
L 0.77 0.66 0.47
Qu’en pensez-vous ?
Justification heuristique du test.
La loi du couple de variables (X , Y ) est caract´ eris´ ee par
. . . ..
R´ e´ ecriture math´ ematique des hypoth` eses H
0et H
1:
(H
0) . . . .
(H
1) . . . .
Principe du test d’ind´ ependance
On introduit, pour 1 ≤ k ≤ K et 1 ≤ l ≤ L, les variables al´ eatoires :
I
N
kl, nombre de couples de variables (X
i, Y
i), pour 1 ≤ i ≤ n, tels que X
i= a
kET Y
i= b
l.
I
N
k•= P
Ll=1
N
kl, nombre de variables X
i, 1 ≤ i ≤ n, qui prennent la valeur a
k.
I
N
•l= P
Kk=1
N
kl, nombre de variables Y
i, pour 1 ≤ i ≤ n, qui
prennent la valeur b
l.
Etant donn´ ee une r´ ealisation (x
1, y
1), . . . , (x
n, y
n) de
(X
1, Y
1), . . . , (X
n, Y
n), on note respectivement n
kl, n
k•et n
•lles r´ ealisations correspondantes de N
kl, N
k•et N
•l, qui peuvent ˆ etre repr´ esent´ ees dans le tableau de contingence ci-dessous.
X \ Y b
1. . . b
l. . . b
LTotal a
1n
11. . . n
1l. . . n
1Ln
1•.. . .. . .. . .. . .. . .. . .. . a
kn
k1. . . n
kl. . . n
kLn
k•.. . .. . .. . .. . .. . .. . .. . a
Kn
K1. . . n
Kl. . . n
KLn
K•Total n
•1. . . n
•l. . . n
•Ln
Principe du test d’ind´ ependance
On estime alors, pour 1 ≤ k ≤ K et 1 ≤ l ≤ L,
I
P (X = a
ket Y = b
l) par
. . . .
I
P (X = a
k) × P(Y = b
l) par
. . . .
Sous (H
0), pour tous 1 ≤ k ≤ K , 1 ≤ l ≤ L, l’´ ecart entre
fr´ equence observ´ ee . . . . et fr´ equence th´ eorique sous (H
0)
. . . . est cens´ e ˆ etre proche de 0, ou encore l’´ ecart entre
effectif observ´ e . . . . et effectif th´ eorique sous (H
0)
. . . . est cens´ e ˆ etre proche de 0.
Statistique de test
T
n=
K
X
k=1 L
X
l=1
N
kl−
Nk•nN•l2 Nk•N•ln
Principe du test d’ind´ ependance
Proposition 1
Si les conditions suivantes sont satisfaites
I
le nombre d’observations n est
grand
,
I
n
k•n
•l/n ≥ 5 pour tous k = 1, . . . , K et l = 1, . . . , L, alors sous (H
0),
T
nsuit approximativement la loi χ
2((K − 1)(L − 1))
Zone de rejet au niveau α
R
n,α= {T
n≥ c
α},
o` u c
αest le quantile d’ordre 1 − α d’une loi χ
2((K − 1)(L − 1)) . R` egle de d´ ecision :
I
si t
n≥ c
α, alors on rejette l’hypoth` ese d’ind´ ependance entre X et Y .
I
si t
n< c
α, alors on ne rejette pas l’hypoth` ese d’ind´ ependance
entre X et Y .
Retour ` a l’exemple 1
On souhaite savoir si le temps ´ ecoul´ e depuis la vaccination contre une maladie donn´ ee a ou non une influence sur le degr´ e de gravit´ e de la maladie lorsque celle-ci se d´ eclare.
I
Gravit´ e de la maladie : l´ eg` ere (L), moyenne (M) ou grave (G).
I
Dur´ ee ´ ecoul´ ee depuis vaccination : moins de 10 ans (A), entre 10 et 25 ans (B), plus de 25 ans (C).
I
1 574 malades.
A B C Total
G 1 42 230 273
M 6 114 347 467
L 23 301 510 834
Total 30 457 1087 1574
I
X : variable al´ eatoire qualitative ou quantitative discr` ete ` a K modalit´ es, not´ ees a
1, . . . , a
K.
I
Comparaison de la distribution de X dans L populations diff´ erentes.
I
Pour chaque 1 ≤ l ≤ L, on dispose d’un ´ echantillon de n
ldonn´ ees x
1l, . . . , x
nllr´ ealisations de n
lvariables X
1l, . . . , X
nllind´ ependantes et de mˆ eme loi que X
l.
I
On suppose que les L ´ echantillons
(X
11, . . . , X
n11), (X
12, . . . , X
n22), . . . , (X
1L, . . . , X
nLL) sont
ind´ ependants.
Objectif du test
On veut tester l’hypoth` ese
(H
0) : Les variables X
1, . . . , X
Lsuivent toutes la mˆ eme loi contre
(H
1) : Les variables X
1, . . . , X
Lne suivent pas toutes la mˆ eme loi
On a mesur´ e les groupes sanguins dans 2 populations de 1032 Pygm´ ees et 484 Esquimaux. Au vu de ces r´ esultats, peut-on dire que la distribution des groupes sanguins est la mˆ eme dans les deux populations ?
Groupe sanguin\ Pop. Pygm´ ees Esquimaux
AB 103 7
B 300 17
A 313 260
O 316 200
Total 1032 484
Exemple 2 (suite)
D’un point de vue descriptif on peut ´ etudier la distribution
conditionnelle du groupe sanguin conditionnellement au type de population (Pygm´ ees ou Esquimaux) :
Groupe sanguin\ Pop. Pygm´ ees Esquimaux
AB 0.10 0.01
B 0.29 0.04
A 0.30 0.54
O 0.31 0.41
Qu’en pensez-vous ?
Justification heuristique du test.
R´ e´ ecriture math´ ematique des hypoth` eses H
0et H
1:
(H
0) . . . .
(H
1) . . . .
Principe du test d’homog´ en´ eit´ e
On introduit, pour 1 ≤ k ≤ K et 1 ≤ l ≤ L, les variables al´ eatoires :
I
N
kl, nombre de variables parmi (X
1l, X
2l, . . . , X
nll) qui prennent la valeur a
k.
I
N
k•= P
Ll=1
N
kl, nombre de variables X
il, 1 ≤ i ≤ L,
1 ≤ i ≤ n
l, qui prennent la valeur a
k.
On note respectivement n
klet n
k•des r´ ealisations de N
klet N
k•qui peuvent ˆ etre repr´ esent´ ees dans le tableau de contingence ci-dessous. On note ´ egalement n = n
1+ n
2. . . + n
L.
Modalit´ es de X \ Population 1 . . . l . . . L Total a
1n
11. . . n
1l. . . n
1Ln
1•.. . .. . .. . .. . .. . .. . .. . a
kn
k1. . . n
kl. . . n
kLn
k•.. . .. . .. . .. . .. . .. . .. . a
Kn
K1. . . n
Kl. . . n
KLn
K•Total n
1. . . n
l. . . n
Ln
Principe du test d’homog´ en´ eit´ e
Sous (H
0), pour 1 ≤ k ≤ K , on peut estimer P (X = a
k) par :
. . . . Le test consiste alors ` a comparer, pour tous 1 ≤ k ≤ K et
1 ≤ l ≤ L :
I
l’effectif observ´ e pour la modalit´ e a
kdans la l
epopulation :
. . . ..
` a
I
l’effectif th´ eorique sous (H
0) pour la modalit´ e a
kdans la l
epopulation :
. . . .
Statistique de test
T
n=
K
X
k=1 L
X
l=1
N
kl−
Nk•nnl2 Nk•nln
Principe du test d’homog´ en´ eit´ e
Proposition 2
Si les conditions suivantes sont satisfaites
I
le nombre d’observations n = P
Ll=1
n
lest
grand
,
I
n
k•n
l/n ≥ 5 pour tous k = 1, . . . , K et l = 1, . . . , L, alors sous (H
0),
T
nsuit approximativement la loi χ
2((K − 1)(L − 1))
Zone de rejet au niveau α
R
n,α= {T
n≥ c
α},
o` u c
αest le quantile d’ordre 1 − α d’une loi χ
2((K − 1)(L − 1)) . R` egle de d´ ecision :
I
si t
n≥ c
α, alors on rejette l’hypoth` ese d’homog´ en´ eit´ e des L populations.
I