Liaison entre variables qualitatives
Sidi Mohamed MAOULOUD
24 f´evrier 2015
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 1 / 48
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 2 / 48
1 Introduction
2 Tableau de Contingence
3 Effectifs marginaux
4 Distributions conditionnelles
5 Distribution th´eorique
6 Coefficient du khi-deux
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lors de la r´ealisation d’un projet de vente de viande, un producteur
commande une enquˆete ou l’a pos´e deux questions ”lieu d’habitation” cod´e par p = 5 modalit´es et ”mode de vente pr´ef´er´e” cod´e par q = 3 modalit´es
ferme marche domicile
Toulouse 45 50 13
Environs Toulouse 26 22 11
Saint-Gaudens 28 21 7
Environs Saint-Gaudens 61 24 7
Autre 14 9 11
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 5 / 48
. . . . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 6 / 48
Tableau de Contingence
La r´epartition des n observations, ou distribution conjointe, suivant les modalit´es de X etY se pr´esente sous forme d’un tableau `a double entr´ee, appel´ee tableau de contingence
❍
❍❍
❍❍❍ X
Y y1 · · · yj · · · yc
x1 n11 n1j n1c
... ...
xi ni1 nij nic
... ...
xl nl1 · · · nlj · · · nlc
Ici nij est le nombre d’unit´e statistique poss´edant simultan´ement la modalit´e xi de la variableX et la modalit´eyj de la variable Y
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Effectifs marginaux
le nombre d’unit´e statistique poss´edant la modalit´exi est ni·=
c
X
j=1
nij
Les ni·s’appellent les effectifs marginaux de la variable X le nombre d’unit´e statistique poss´edant la modalit´eyj est
n·j =
l
X
i=1
nij
Les n·j s’appellent les effectifs marginaux de la variableY l’effectif total de la population est
n=
l
X
i=1
ni·=
c
X
j=1
n·j
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 9 / 48
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 10 / 48
Distributions marginales
❍
❍❍
❍❍❍ X
Y y1 · · · yj · · · yc Total
x1 n11 n1j n1c n1·
... ...
xi ni1 nij nic ni·
... ...
xl nl1 · · · nl,j · · · nl,c nl·
Total n·1 · · · n·j · · · n·c n
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dans l’exemple pr´ec´edent on a
ferme marche domicile Sum
Toulouse 45 50 13 108
Environs Toulouse 26 22 11 59
Saint-Gaudens 28 21 7 56
Environs Saint-Gaudens 61 24 7 92
Autre 14 9 11 34
Sum 174 126 49 349
Ainsi par exemple 50 habite Toulouse et pr´ef`erent le mode de vente marche. Aussi on peut dire qu’il y a 59 qui habitent Environs Toulouse et qu’il y a 49 qui pr´ef`erent le mode domicile
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 13 / 48
. . . . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 14 / 48
Exemple
La distribution marginale de la variable habitation est donn´ee par
Toulouse Environs Toulouse Saint-Gaudens
108 59 56
Environs Saint-Gaudens Autre
92 34
La distribution marginale de la variable mode de vente pr´ef´er´e est donn´ee par
ferme marche domicile
174 126 49
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fr´ equences et fr´ equences marginales
la proportion d’unit´e statistique poss´edant `a la fois la modalit´exi et la modalit´eyjest
fij = nij n
la proportion d’unit´e statistique poss´edant la modalit´e xi est fi·= ni·
n
la proportion d’unit´e statistique poss´edant la modalit´e yj est f·j = n·j
n
On a l
X
i=1
fi·=
c
X
j=1
f·j = 1
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 17 / 48
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 18 / 48
Tableau de contingence des fr´ equences
❍
❍❍
❍❍❍ X
Y y1 · · · yj · · · yc Total
x1 f11 f1j f1c f1·
... ...
xi fi1 fij fic fi·
... ...
xl fl1 · · · flj · · · flc fl·
Total f·1 · · · f·,j · · · f·c n
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dans l’exemple pr´ec´edent on a
ferme marche domicile Sum
Toulouse 0.129 0.143 0.037 0.309
Environs Toulouse 0.074 0.063 0.032 0.169 Saint-Gaudens 0.080 0.060 0.020 0.160 Environs Saint-Gaudens 0.175 0.069 0.020 0.264
Autre 0.040 0.026 0.032 0.097
Sum 0.499 0.361 0.140 1.000
Ainsi par exemple 14.3 % des individus enquˆet´es habitent Toulouse et pr´ef`erent le mode de vente marche. Aussi on peut dire qu’il y a 16.9 % qui habitent Environs Toulouse et qu’il y a 14 % qui pr´ef`erent le mode domicile
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 21 / 48
. . . . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 22 / 48
Exemple
La distribution marginale de la variable habitation est donn´ee par
Toulouse Environs Toulouse Saint-Gaudens
0.309 0.169 0.160
Environs Saint-Gaudens Autre
0.264 0.097
La distribution marginale de la variable mode de vente pr´ef´er´e est donn´ee par
ferme marche domicile 0.499 0.361 0.140
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distributions conditionnelles
La distribution de la variable Y, dans la sous-population des individus poss´edant la modalit´e xi, est appel´ee distribution conditionnelle deY sachant X =xi. Pour j = 1,· · ·,c
fj|i = nij
ni·
La distribution de la variable X, dans la sous-population des individus poss´edant la modalit´e yj, est appel´ee distribution conditionnelle deX sachant Y =yj. Pour j = 1,· · ·,c
fi|j = nij
n·j
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 25 / 48
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 26 / 48
Exemple
Dans l’exemple pr´ec´edent on a
ferme marche domicile
Toulouse 0.417 0.463 0.120
Environs Toulouse 0.441 0.373 0.186 Saint-Gaudens 0.500 0.375 0.125 Environs Saint-Gaudens 0.663 0.261 0.076
Autre 0.412 0.265 0.324
Ainsi par exemple, chez les individus habitant Toulouse, 46.3 % pr´ef`erent le mode de vente marche.
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dans l’exemple pr´ec´edent on a
ferme marche domicile
Toulouse 0.259 0.397 0.265
Environs Toulouse 0.149 0.175 0.224 Saint-Gaudens 0.161 0.167 0.143 Environs Saint-Gaudens 0.351 0.190 0.143
Autre 0.080 0.071 0.224
Ainsi par exemple, chez les individus pr´ef`erent le mode de vente marche, 39.7 % habitent Toulouse.
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 29 / 48
. . . . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 30 / 48
L’ind´ ependance
En cas d’ind´ependance des variable X et Y les distributions
conditionnelles devraient ˆetre ´egales aux distributions marginales. En d’autres termes fj|i ne doit pas d´ependre dei. De mˆemefi|j ne doit pas d´ependre dej
∀i, On doit avoir parmi lesni· individus poss´edant la modalit´e,f·1×ni·
poss´edant la modalit´e y1,f·2×ni·poss´edant la modalit´e y2, etc..
En cas d’ind´ependance, le nombre d’individus poss´edant `a la fois la modalit´e xi et yj devrait ˆetre ´egal `a
tij =f·j ×ni·= ni·n·j n Les tij s’appelle les effectifs th´eoriques
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exemple
Le tableau des effectif th´eoriques de l’exemple pr´ec´edent ferme marche domicile Sum
Toulouse 53.8 39.0 15.2 108
Environs Toulouse 29.4 21.3 8.3 59
Saint-Gaudens 27.9 20.2 7.9 56
Environs Saint-Gaudens 45.9 33.2 12.9 92
Autre 17.0 12.3 4.8 34
Sum 174.0 126.0 49.0 349
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 33 / 48
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 34 / 48
Coefficient du khi-deux
Pour mesurer le lien entre deux variable on mesure l’´ecart entre la vraie situation et la situation th´eorique d’ind´ependance. Plus cet ´ecart est grand plus le lien est fort.
Pour mesurer l’´ecart entre les deux tableaux on utilise le coefficient du khi-deux d´efini par
χ2 =
l
X
i=1 c
X
j=1
(nij −tij)2 tij =n
l
X
i=1 c
X
j=1
(fij −fi·f·j)2 fi·f·j On aχ2≥0. Plus il est grand plus le lien est fort
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Illustrons le calcul du khi-deux `a l’aide de l’exemple pr´ec´edent Effectifs observ´es
fer mar dom
T 45 50 13
E-T 26 22 11
S-G 28 21 7
E-S-G 61 24 7
A 14 9 11
effectifs th´eoriques fer mar dom 53.8 39.0 15.2 29.4 21.3 8.3 27.9 20.2 7.9 45.9 33.2 12.9 17.0 12.3 4.8
(nij −tij)2/tij
fer mar dom 1.44 3.10 0.32 0.39 0.02 0.88 0.00 0.03 0.10 4.97 2.55 2.70 0.53 0.89 8.01 On a
χ2 = (45−53.8)53.8 2 + (50−39)39 2 +· · ·+(11−4.8)4.8 2
= 1.44 + 3.1 +· · ·+ 8.01
= 26.1
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 37 / 48
. . . . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 38 / 48
Le V de Cram` er
Le χ2 varie de 0 `a +∞. Il nous faudrait une mesure normalis´ee dont on connaˆıt la valeur maximale lorsque la liaison est parfaite c.-`a-d.
lorsque la connaissance de Y permet de d´eterminer avec certitude la valeur deX et/ou inversement.
Le V de Cram`er d´efini parφ= s
χ2
nmin(l−1,c−1). On a 0≤V ≤1
lorsque le lien est significatif (Test du khi-deux), leV s’interprete : 0<V ≤0.2 0.2<V ≤0.5 0.5<V ≤0.9 0.9<V ≤1 lien faibe lien mod´er´e lien fort lien tr`es fort
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mesures d’associations
D´etecter une liaison significative, c’est bien. Comprendre la nature de la liaison, c’est mieux.
La di´erence entre le tableau observ´e et le tableau th´eorique permet de construire un indicateur, le r´esidu rij =nij −tij.
Par construction,P
rij = 0. Le plus int´eressant est sans aucun doute le signe du r´esidu (rij) qui indique le sens de l’association : attraction entre les caract`eres (> 0) ou r´epulsion (<0).
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 41 / 48
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 42 / 48
Mesures d’associations
On appelle r´esidu standardis´e rstdij =rij/√tij On appelle r´esidu ajust´e rajij =rstdij/p
(1−fi·)(1−fi·)
Le χ2 est additif. Pour mesurer l’importance relative d’une case du tableau dans la caract´erisation de la liaison, nous pouvons lui associer une valeur, ditecontributionau χ2, ´egale `a
cntrij =
(nij−tij)2 tij
χ2
La contribution est le rapport entre le carr´e dur´esidu standardis´eet le χ2
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Un r´esidu ajust´e tel que|rajij|>2 est significatif et il indique une association entre la modalit´e xi et la modalit´e yj. Le sens de l’association est indiqu´e par le signe du r´esidu
Une contribution sup´erieure `a la contribution moyenne 1/lc, ce qui est ´equivalent `a rstdij2> χ2/(lc), indique une assossciation entre la modalit´e xi et la modalit´e yj
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 45 / 48
. . . . . . . . . . . . . . . . . . . . . . . .
Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 46 / 48
Exemple
Les r´esidus ajust´es
fer mar dom T -2.05 2.65 -0.72 E-T -0.98 0.21 1.12 S-G 0.02 0.24 -0.36 E-S-G 3.68 -2.33 -2.07 A -1.07 -1.23 3.24 Attraction : T et mar (2.65), E-S-G et fer (3.68), A et dom (3.24).
Repulsion : T et fer (-2.05), E-S-G et mar et dom(-2.33 et -2.07).
Les carr´es des r´esidus standardis´es fer mar dom
T 1.44 3.10 0.32 E-T 0.39 0.02 0.88 S-G 0.00 0.03 0.10 E-S-G 4.97 2.55 2.70 A 0.53 0.89 8.01 On a χ2/lc = 1.73. Attraction entre : T et mar (3.1), E-S-G et fer (4.97), A et dom (8.1). Repulsion entre : E-S-G et mar et dom (2.55 et 2.7)
. . . . . . . . . . . . . . . . . . . . . . . . . . . .