• Aucun résultat trouvé

Slides liaison entre variables qualitatives

N/A
N/A
Protected

Academic year: 2022

Partager "Slides liaison entre variables qualitatives"

Copied!
12
0
0

Texte intégral

(1)

Liaison entre variables qualitatives

Sidi Mohamed MAOULOUD

24 f´evrier 2015

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 1 / 48

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 2 / 48

1 Introduction

2 Tableau de Contingence

3 Effectifs marginaux

4 Distributions conditionnelles

5 Distribution th´eorique

6 Coefficient du khi-deux

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

(2)

Lors de la r´ealisation d’un projet de vente de viande, un producteur

commande une enquˆete ou l’a pos´e deux questions ”lieu d’habitation” cod´e par p = 5 modalit´es et ”mode de vente pr´ef´er´e” cod´e par q = 3 modalit´es

ferme marche domicile

Toulouse 45 50 13

Environs Toulouse 26 22 11

Saint-Gaudens 28 21 7

Environs Saint-Gaudens 61 24 7

Autre 14 9 11

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 5 / 48

. . . . . . . . . . . . . . . . . . . . . . . .

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 6 / 48

Tableau de Contingence

La r´epartition des n observations, ou distribution conjointe, suivant les modalit´es de X etY se pr´esente sous forme d’un tableau `a double entr´ee, appel´ee tableau de contingence

X

Y y1 · · · yj · · · yc

x1 n11 n1j n1c

... ...

xi ni1 nij nic

... ...

xl nl1 · · · nlj · · · nlc

Ici nij est le nombre d’unit´e statistique poss´edant simultan´ement la modalit´e xi de la variableX et la modalit´eyj de la variable Y

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

(3)

Effectifs marginaux

le nombre d’unit´e statistique poss´edant la modalit´exi est n=

c

X

j=1

nij

Les ni·s’appellent les effectifs marginaux de la variable X le nombre d’unit´e statistique poss´edant la modalit´eyj est

n·j =

l

X

i=1

nij

Les n·j s’appellent les effectifs marginaux de la variableY l’effectif total de la population est

n=

l

X

i=1

ni·=

c

X

j=1

n·j

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 9 / 48

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 10 / 48

Distributions marginales

X

Y y1 · · · yj · · · yc Total

x1 n11 n1j n1c n

... ...

xi ni1 nij nic n

... ...

xl nl1 · · · nl,j · · · nl,c n

Total n·1 · · · n·j · · · n·c n

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

(4)

Dans l’exemple pr´ec´edent on a

ferme marche domicile Sum

Toulouse 45 50 13 108

Environs Toulouse 26 22 11 59

Saint-Gaudens 28 21 7 56

Environs Saint-Gaudens 61 24 7 92

Autre 14 9 11 34

Sum 174 126 49 349

Ainsi par exemple 50 habite Toulouse et pr´ef`erent le mode de vente marche. Aussi on peut dire qu’il y a 59 qui habitent Environs Toulouse et qu’il y a 49 qui pr´ef`erent le mode domicile

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 13 / 48

. . . . . . . . . . . . . . . . . . . . . . . .

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 14 / 48

Exemple

La distribution marginale de la variable habitation est donn´ee par

Toulouse Environs Toulouse Saint-Gaudens

108 59 56

Environs Saint-Gaudens Autre

92 34

La distribution marginale de la variable mode de vente pr´ef´er´e est donn´ee par

ferme marche domicile

174 126 49

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

(5)

Fr´ equences et fr´ equences marginales

la proportion d’unit´e statistique poss´edant `a la fois la modalit´exi et la modalit´eyjest

fij = nij n

la proportion d’unit´e statistique poss´edant la modalit´e xi est f= n

n

la proportion d’unit´e statistique poss´edant la modalit´e yj est f·j = n·j

n

On a l

X

i=1

f=

c

X

j=1

f·j = 1

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 17 / 48

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 18 / 48

Tableau de contingence des fr´ equences

X

Y y1 · · · yj · · · yc Total

x1 f11 f1j f1c f

... ...

xi fi1 fij fic f

... ...

xl fl1 · · · flj · · · flc f

Total f·1 · · · f·,j · · · f·c n

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

(6)

Dans l’exemple pr´ec´edent on a

ferme marche domicile Sum

Toulouse 0.129 0.143 0.037 0.309

Environs Toulouse 0.074 0.063 0.032 0.169 Saint-Gaudens 0.080 0.060 0.020 0.160 Environs Saint-Gaudens 0.175 0.069 0.020 0.264

Autre 0.040 0.026 0.032 0.097

Sum 0.499 0.361 0.140 1.000

Ainsi par exemple 14.3 % des individus enquˆet´es habitent Toulouse et pr´ef`erent le mode de vente marche. Aussi on peut dire qu’il y a 16.9 % qui habitent Environs Toulouse et qu’il y a 14 % qui pr´ef`erent le mode domicile

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 21 / 48

. . . . . . . . . . . . . . . . . . . . . . . .

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 22 / 48

Exemple

La distribution marginale de la variable habitation est donn´ee par

Toulouse Environs Toulouse Saint-Gaudens

0.309 0.169 0.160

Environs Saint-Gaudens Autre

0.264 0.097

La distribution marginale de la variable mode de vente pr´ef´er´e est donn´ee par

ferme marche domicile 0.499 0.361 0.140

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

(7)

Distributions conditionnelles

La distribution de la variable Y, dans la sous-population des individus poss´edant la modalit´e xi, est appel´ee distribution conditionnelle deY sachant X =xi. Pour j = 1,· · ·,c

fj|i = nij

ni·

La distribution de la variable X, dans la sous-population des individus poss´edant la modalit´e yj, est appel´ee distribution conditionnelle deX sachant Y =yj. Pour j = 1,· · ·,c

fi|j = nij

n·j

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 25 / 48

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 26 / 48

Exemple

Dans l’exemple pr´ec´edent on a

ferme marche domicile

Toulouse 0.417 0.463 0.120

Environs Toulouse 0.441 0.373 0.186 Saint-Gaudens 0.500 0.375 0.125 Environs Saint-Gaudens 0.663 0.261 0.076

Autre 0.412 0.265 0.324

Ainsi par exemple, chez les individus habitant Toulouse, 46.3 % pr´ef`erent le mode de vente marche.

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

(8)

Dans l’exemple pr´ec´edent on a

ferme marche domicile

Toulouse 0.259 0.397 0.265

Environs Toulouse 0.149 0.175 0.224 Saint-Gaudens 0.161 0.167 0.143 Environs Saint-Gaudens 0.351 0.190 0.143

Autre 0.080 0.071 0.224

Ainsi par exemple, chez les individus pr´ef`erent le mode de vente marche, 39.7 % habitent Toulouse.

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 29 / 48

. . . . . . . . . . . . . . . . . . . . . . . .

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 30 / 48

L’ind´ ependance

En cas d’ind´ependance des variable X et Y les distributions

conditionnelles devraient ˆetre ´egales aux distributions marginales. En d’autres termes fj|i ne doit pas d´ependre dei. De mˆemefi|j ne doit pas d´ependre dej

∀i, On doit avoir parmi lesn individus poss´edant la modalit´e,f·1×n

poss´edant la modalit´e y1,f·2×ni·poss´edant la modalit´e y2, etc..

En cas d’ind´ependance, le nombre d’individus poss´edant `a la fois la modalit´e xi et yj devrait ˆetre ´egal `a

tij =f·j ×n= nn·j n Les tij s’appelle les effectifs th´eoriques

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

(9)

Exemple

Le tableau des effectif th´eoriques de l’exemple pr´ec´edent ferme marche domicile Sum

Toulouse 53.8 39.0 15.2 108

Environs Toulouse 29.4 21.3 8.3 59

Saint-Gaudens 27.9 20.2 7.9 56

Environs Saint-Gaudens 45.9 33.2 12.9 92

Autre 17.0 12.3 4.8 34

Sum 174.0 126.0 49.0 349

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 33 / 48

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 34 / 48

Coefficient du khi-deux

Pour mesurer le lien entre deux variable on mesure l’´ecart entre la vraie situation et la situation th´eorique d’ind´ependance. Plus cet ´ecart est grand plus le lien est fort.

Pour mesurer l’´ecart entre les deux tableaux on utilise le coefficient du khi-deux d´efini par

χ2 =

l

X

i=1 c

X

j=1

(nij −tij)2 tij =n

l

X

i=1 c

X

j=1

(fij −ff·j)2 ff·j On aχ2≥0. Plus il est grand plus le lien est fort

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

(10)

Illustrons le calcul du khi-deux `a l’aide de l’exemple pr´ec´edent Effectifs observ´es

fer mar dom

T 45 50 13

E-T 26 22 11

S-G 28 21 7

E-S-G 61 24 7

A 14 9 11

effectifs th´eoriques fer mar dom 53.8 39.0 15.2 29.4 21.3 8.3 27.9 20.2 7.9 45.9 33.2 12.9 17.0 12.3 4.8

(nij −tij)2/tij

fer mar dom 1.44 3.10 0.32 0.39 0.02 0.88 0.00 0.03 0.10 4.97 2.55 2.70 0.53 0.89 8.01 On a

χ2 = (45−53.8)53.8 2 + (50−39)39 2 +· · ·+(11−4.8)4.8 2

= 1.44 + 3.1 +· · ·+ 8.01

= 26.1

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 37 / 48

. . . . . . . . . . . . . . . . . . . . . . . .

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 38 / 48

Le V de Cram` er

Le χ2 varie de 0 `a +∞. Il nous faudrait une mesure normalis´ee dont on connaˆıt la valeur maximale lorsque la liaison est parfaite c.-`a-d.

lorsque la connaissance de Y permet de d´eterminer avec certitude la valeur deX et/ou inversement.

Le V de Cram`er d´efini parφ= s

χ2

nmin(l−1,c−1). On a 0≤V ≤1

lorsque le lien est significatif (Test du khi-deux), leV s’interprete : 0<V ≤0.2 0.2<V ≤0.5 0.5<V ≤0.9 0.9<V ≤1 lien faibe lien mod´er´e lien fort lien tr`es fort

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

(11)

Mesures d’associations

D´etecter une liaison significative, c’est bien. Comprendre la nature de la liaison, c’est mieux.

La di´erence entre le tableau observ´e et le tableau th´eorique permet de construire un indicateur, le r´esidu rij =nij −tij.

Par construction,P

rij = 0. Le plus int´eressant est sans aucun doute le signe du r´esidu (rij) qui indique le sens de l’association : attraction entre les caract`eres (> 0) ou r´epulsion (<0).

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 41 / 48

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 42 / 48

Mesures d’associations

On appelle r´esidu standardis´e rstdij =rij/√tij On appelle r´esidu ajust´e rajij =rstdij/p

(1−fi·)(1−f)

Le χ2 est additif. Pour mesurer l’importance relative d’une case du tableau dans la caract´erisation de la liaison, nous pouvons lui associer une valeur, ditecontributionau χ2, ´egale `a

cntrij =

(nij−tij)2 tij

χ2

La contribution est le rapport entre le carr´e dur´esidu standardis´eet le χ2

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

(12)

Un r´esidu ajust´e tel que|rajij|>2 est significatif et il indique une association entre la modalit´e xi et la modalit´e yj. Le sens de l’association est indiqu´e par le signe du r´esidu

Une contribution sup´erieure `a la contribution moyenne 1/lc, ce qui est ´equivalent `a rstdij2> χ2/(lc), indique une assossciation entre la modalit´e xi et la modalit´e yj

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 45 / 48

. . . . . . . . . . . . . . . . . . . . . . . .

Sidi Mohamed MAOULOUD Liaison entre variables qualitatives 24 f´evrier 2015 46 / 48

Exemple

Les r´esidus ajust´es

fer mar dom T -2.05 2.65 -0.72 E-T -0.98 0.21 1.12 S-G 0.02 0.24 -0.36 E-S-G 3.68 -2.33 -2.07 A -1.07 -1.23 3.24 Attraction : T et mar (2.65), E-S-G et fer (3.68), A et dom (3.24).

Repulsion : T et fer (-2.05), E-S-G et mar et dom(-2.33 et -2.07).

Les carr´es des r´esidus standardis´es fer mar dom

T 1.44 3.10 0.32 E-T 0.39 0.02 0.88 S-G 0.00 0.03 0.10 E-S-G 4.97 2.55 2.70 A 0.53 0.89 8.01 On a χ2/lc = 1.73. Attraction entre : T et mar (3.1), E-S-G et fer (4.97), A et dom (8.1). Repulsion entre : E-S-G et mar et dom (2.55 et 2.7)

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

Références

Documents relatifs

[r]

Naturally we can select the sequence (m)to be increasing. Therefore the compatibility condition has to be replaced by the following assertion:.. As one would guess.

Moti- vated by this observation we shall discuss the notion of an approximate limit in Section 6 and prove that a function satisfying the uniform Harnack

I;i: Rate Constan- ts for Proton Transfer Reactions of Aqueous Alkylaninoni~m .Ions ·... ampl e,

This non-negative functional tF was shown to be lower semi-continuous on the set of Lipschitz functions with the 1: I topology and hence could be extended to

Si nous nous reportons aux r~sultats contenus dans notre travail relatif aux formes quadrilin6aires, nous verrons ais~ment que la condition A -~ o, entraine

[r]

[r]