• Aucun résultat trouvé

Table de contingence, liaison entre deux variables qualitatives

On s’int´eresse maintenant au tableau crois´e ventilant une population selon les moda-lit´es de deux caract`eres qualitatifs. L’individu va disparaˆıtre en se fondant dans l’effectif correspondant au croisement d’une modalit´e de la premi`ere variable et d’une modalit´e de la seconde.

8.2.1 D´ efinitions et notations

Soient deux variables qualitatives not´ees L (pour Ligne) et C (pour Colonne) ayant respectivement I et J modalit´es et des matrices de codage N ×I etN ×J not´ees UL

et UC. Latable de contingence T croisant les effectifs des modalit´es de L etC est la matrice

T = [nij] =ULUC.

L’´el´ement nij est l’effectif des individus dans la modalit´e i deL et dans la modalit´e j de C.

N = XI

i=1

XJ j=1

nij.

On appelle tableau des fr´equences associ´e `a T, la matrice I×J P = 1

NT, d’´el´ement courantpij =nij/N.

1 = XI

i=1

XJ j=1

pij.

marges ligne et marges colonnes :

On appelle marge ligne de P (resp. de T) le vecteur colonne P1IJ (resp. T1IJ), dont l’´el´ement courant i

pi. = XJ

j=1

pij

(resp.ni.), est la fr´equence (resp. l’effectif) des individus qui sont dans la modalit´ei de L. On a pi.=ni./N.

On appelle marge colonne de P (resp. de T) le vecteur ligne 1IIP (resp. 1IIT), dont l’´el´ement courant j

p.j = XI

i=1

pij

(resp. n.j), est la fr´equence (resp. l’effectif) des individus qui sont dans la modalit´e j deC. On a p.j =n.j/N.

Calcul Matriciel et Analyse Factorielle des Donn´ees

i

1 j J

1

I

p p

i .

p . j 1

L

C

i j

Figure 18 : Tableau P des fr´equences, marge ligne et marge colonne de P.

M´etriques associ´ees `a P :

L’espaceIRI des colonnes deP est muni de la m´etrique diagonale des poids statistiques de la marge ligne,

DI =diag(p1., . . . , pI.).

L’espace IRJ des lignes de P est muni de la m´etrique diagonale des poids statistiques de la marge colonne,

DJ =diag(p.1, . . . , p.J).

Propri´et´es des m´etriques

M1 : 1 = 1IIDI1II = 1IJDJ1IJ = 1IIP1IJ ou encore 1 = XI

i=1

pi.= XJ

j=1

p.j = XI

i=1

XJ j=1

pij. M2 : La marge ligne s’´ecrit P1IJ =DI1II et la marge colonne 1IIP = 1IJDJ.

Les propri´et´es pr´ec´edentes vont jouer un rˆole cl´e dans l’Analyse Factorielle des Corres-pondances du tableau de contingence T. En fait, les m´etriques diagonales form´ees par les marges de P fournissent les poids statistiques au nuage des points lignes et au nuage des points colonnes repr´esent´es dans les plans factoriels de l’AFC.

8.2.2 Ind´ ependance de deux variables qualitatives L et C

Soient L et C deux variables qualitatives et P leur tableau I ×J des fr´equences. L et C sont empiriquement ind´ependantes si et seulement si

pij =pi.p.j ∀i= 1, . . . , I, ∀j = 1, . . . , J . Soit Π le tableau de l’ind´ependance construit `a partir des marges de P

Π = [πij =pi.p.j] =DI1II1IJDJ. L’ind´ependance empirique signifie P = Π.

On construit une mesure de l’´ecart `a l’ind´ependance par d2 =N

XI i=1

XJ j=1

1 pi.p.j

(pij −pi.p.j)2.

Ainsi, d2 = 0 si et seulement si P = Π. L’ind´ependance empirique est exceptionnellement r´ealis´ee en pratique, la question qui se pose est de savoir si la valeur calcul´ee du d2 de l’ind´ependance est proche ou non de 0 !

Test de l’ind´ependance entre L et C

Pearson a montr´e que sous l’hypoth`ese “H0 : L et C sont ind´ependantes”, d2 est une r´ealisation d’une variable al´eatoire D2 qui suit une loi du χ2 `a (I −1)(J −1) degr´es de libert´e.

α

Χ c2 D2 Χ2

f

(I-1)(J-1)

(D )2

Figure 19 : Densit´e de probabilit´e de la loi du χ2, r´egion (hachur´ee) peu probable des valeurs ´elev´ees .

Calcul Matriciel et Analyse Factorielle des Donn´ees

Pour un risque d’erreurα, le plus souvent 0.05, on rejette l’hypoth`eseH0 sid2est sup´erieur

`a la valeur critique χ2c qu’une variable χ2(I−1)(J−1) a une probabilit´e α de d´epasser, voir Figure 19.

Si d2 < χ2c on ne peut rejeter l’hypoth`ese d’ind´ependance. Dans ce cas, l’information contenue dans P est bien r´esum´ee par ses marges ligne et colonne que l’on visualise par des histogrammes classiques.

8.2.3 Profils lignes et colonnes, distributions conditionnelles

On appelle profil ligne ile vecteur ligne des fr´equences conditionnelles `a i fix´e Li = [pi1/pi., . . . , pij/pi., . . . , piJ/pi.].

La matrice I×J des I profils lignes est not´ee L=DI−1P (L pour “Ligne”).

L’espace Euclidien des profils lignes (points lignes deL) estRJ. Dans cet espace, chaque point lignei est affect´e de son poids pi., pour former le nuage NL.

On appelle profil colonne j le vecteur colonne des fr´equences conditionnelles `a j fix´e Cj = [p1j/p.j, . . . , pij/p.j, . . . , pIj/p.j].

La matrice I×J des J profils colonnes est not´ee C =P D−1J (C pour “Colonne”).

L’espace Euclidien des profils colonnes (points colonnes deC) est RI. Dans cet espace, chaque point colonnej est affect´e de son poids p.j, pour former le nuage NC.

Il ne doit pas y avoir d’ambigu¨ıt´e sur les notations L et C, nom des variables qua-litatives et matrices des profils.

Propri´et´es de L et C :

– L1IJ = 1II et 1IIC= 1IJ, (Preuve ´evidente, propri´et´es des m´etriques).

– Le point ligne moyen de L est la marge colonne de P. De fa¸con duale, le point colonne moyen de C est la marge ligne de P. 2

Preuve : Montrons le pour les points lignes. Soit L le point ligne moyen, L= 1IIDIL= 1IIDIDI−1P = 1IIP, qui est bien la marge colonne de P. 2

– Dans le cas de l’ind´ependance empirique, les lignes deLsont ´egales `a la marge colonne de P, les colonnes de C sont identiques `a la marge ligne de P.2

Preuve : Montrons le pour les points lignes. Dans le cas de l’ind´ependance empi-rique, P = Π, alorsL=D−1I Π =DI−1DI1II1IJDJ = 1II1IJDJ. 2

Le nuage des points lignes deLest concentr´e au point ligne moyen (la marge colonne deP). Idem pour le nuage des points colonnes de C concentr´e au point moyen qui est la marge ligne de P.

distance du χ2 entre profils

On est en pr´esence de deux nuages de points pesants. Le nuage desI profils lignes, chaque profil lignei est muni du poidspi.. Le nuage des J profils colonnes, chaque profil colonne j est muni de son poids p.j. Se pose maintenant la question de mesurer des distances Euclidiennes entre profils. Le type de distance utilis´e est la distance du χ2 qui est une distance Euclidienne.

La raison essentielle pour choisir la distance duχ2 est qu’elle v´erifie la propri´et´e suivante

´equivalence distributionelle :

Lorsque l’on effectue dans le tableauP, la somme de deux colonnes proportionnelles (ou de deux lignes), les distances duχ2 entre profils lignes (ou colonnes) restent inchang´ees.

Lien avec le χ2 de contingence : d2

Le coefficientd2/N est ´egal `a l’inertie du nuage des profils lignes (des profils colonnes). 2 Preuve:

On termine en rappelant que Lest la marge colonne de P.2

Calcul Matriciel et Analyse Factorielle des Donn´ees

R´esum´e Points lignes Points colonnes matrice L=DI−1P C=P DJ−1

nuages NL={L1, . . . , LI} NC ={C1, . . . , CJ}

poids DI DJ

espace (IRJ, DJ−1) (IRI, D−1I ) point moyen L= 1IIP C=P1IJ

inertie d2/N d2/N