Table de contingence, liaison entre deux variables qualitatives

On s’intéresse maintenant au tableau croisé ventilant une population selon les moda-lités de deux caractères qualitatifs. L’individu va disparaˆıtre en se fondant dans l’effectif correspondant au croisement d’une modalité de la première variable et d’une modalité de la seconde.

8.2.1 D´ efinitions et notations

Soient deux variables qualitatives notées L (pour Ligne) et C (pour Colonne) ayant respectivement I et J modalités et des matrices de codage N ×I etN ×J notées UL

et UC. Latable de contingence T croisant les effectifs des modalit´es de L etC est la matrice

T = [nij] =UL′UC.

L’élément nij est l’effectif des individus dans la modalité i deL et dans la modalité j de C.

N = XI

i=1

XJ j=1

n_ij.

On appelle tableau des fréquences associé à T, la matrice I×J P = 1

NT, d’´el´ement courantpij =nij/N.

1 = XI

i=1

XJ j=1

pij.

marges ligne et marges colonnes :

On appelle marge ligne de P (resp. de T) le vecteur colonne P1IJ (resp. T1IJ), dont l’´el´ement courant i

pi. = XJ

j=1

pij

(resp.n_i.), est la fr´equence (resp. l’effectif) des individus qui sont dans la modalit´ei de L. On a pi.=ni./N.

On appelle marge colonne de P (resp. de T) le vecteur ligne 1II′P (resp. 1II′T), dont l’´el´ement courant j

p.j = XI

i=1

pij

(resp. n.j), est la fr´equence (resp. l’effectif) des individus qui sont dans la modalit´e j deC. On a p.j =n.j/N.

Calcul Matriciel et Analyse Factorielle des Donn´ees

1 j J

p p

i .

p . j 1

L

C

i j

Figure 18 : Tableau P des fr´equences, marge ligne et marge colonne de P.

Métriques associées à P :

L’espaceIR^I des colonnes deP est muni de la m´etrique diagonale des poids statistiques de la marge ligne,

DI =diag(p1., . . . , pI.).

L’espace IR^J des lignes de P est muni de la m´etrique diagonale des poids statistiques de la marge colonne,

DJ =diag(p.1, . . . , p.J).

Propriétés des métriques

M1 : 1 = 1II′DI1II = 1IJ′DJ1IJ = 1II′P1IJ ou encore 1 = XI

i=1

pi.= XJ

j=1

p.j = XI

i=1

XJ j=1

pij. M2 : La marge ligne s’´ecrit P1IJ =DI1II et la marge colonne 1II′P = 1IJ′DJ.

Les propriétés précédentes vont jouer un rôle clé dans l’Analyse Factorielle des Corres-pondances du tableau de contingence T. En fait, les métriques diagonales formées par les marges de P fournissent les poids statistiques au nuage des points lignes et au nuage des points colonnes représentés dans les plans factoriels de l’AFC.

8.2.2 Ind´ ependance de deux variables qualitatives L et C

Soient L et C deux variables qualitatives et P leur tableau I ×J des fr´equences. L et C sont empiriquement ind´ependantes si et seulement si

pij =pi.p.j ∀i= 1, . . . , I, ∀j = 1, . . . , J . Soit Π le tableau de l’ind´ependance construit `a partir des marges de P

Π = [πij =pi.p.j] =DI1II1IJ′DJ. L’ind´ependance empirique signifie P = Π.

On construit une mesure de l’écart à l’indépendance par d² =N

XI i=1

XJ j=1

1 pi.p.j

(pij −pi.p.j)².

Ainsi, d² = 0 si et seulement si P = Π. L’indépendance empirique est exceptionnellement réalisée en pratique, la question qui se pose est de savoir si la valeur calculée du d² de l’indépendance est proche ou non de 0 !

Test de l’ind´ependance entre L et C

Pearson a montré que sous l’hypothèse “H0 : L et C sont indépendantes”, d² est une réalisation d’une variable aléatoire D² qui suit une loi du χ² à (I −1)(J −1) degrés de liberté.

Χ_c² D² Χ²

(I-1)(J-1)

(D )²

Figure 19 : Densité de probabilité de la loi du χ², région (hachurée) peu probable des valeurs élevées .

Calcul Matriciel et Analyse Factorielle des Donn´ees

Pour un risque d’erreurα, le plus souvent 0.05, on rejette l’hypoth`eseH0 sid²est sup´erieur

à la valeur critique χ²_c qu’une variable χ²_{(I−1)(J−1)} a une probabilité α de dépasser, voir Figure 19.

Si d² < χ²_c on ne peut rejeter l’hypothèse d’indépendance. Dans ce cas, l’information contenue dans P est bien résumée par ses marges ligne et colonne que l’on visualise par des histogrammes classiques.

8.2.3 Profils lignes et colonnes, distributions conditionnelles

On appelle profil ligne ile vecteur ligne des fréquences conditionnelles à i fixé Li = [pi1/pi., . . . , pij/pi., . . . , piJ/pi.].

La matrice I×J des I profils lignes est not´ee L=D_I⁻¹P (L pour “Ligne”).

L’espace Euclidien des profils lignes (points lignes deL) estR^J. Dans cet espace, chaque point lignei est affect´e de son poids pi., pour former le nuage N^L.

On appelle profil colonne j le vecteur colonne des fréquences conditionnelles à j fixé C^j = [p1j/p.j, . . . , pij/p.j, . . . , pIj/p.j]^′.

La matrice I×J des J profils colonnes est not´ee C =P D⁻¹_J (C pour “Colonne”).

L’espace Euclidien des profils colonnes (points colonnes deC) est R^I. Dans cet espace, chaque point colonnej est affect´e de son poids p.j, pour former le nuage N^C.

Il ne doit pas y avoir d’ambigu¨ıt´e sur les notations L et C, nom des variables qua-litatives et matrices des profils.

Propri´et´es de L et C :

– L1IJ = 1II et 1II′C= 1IJ′, (Preuve évidente, propriétés des métriques).

– Le point ligne moyen de L est la marge colonne de P. De fa¸con duale, le point colonne moyen de C est la marge ligne de P. 2

Preuve : Montrons le pour les points lignes. Soit L le point ligne moyen, L= 1II′DIL= 1II′DID_I⁻¹P = 1II′P, qui est bien la marge colonne de P. 2

– Dans le cas de l’indépendance empirique, les lignes deLsont égales à la marge colonne de P, les colonnes de C sont identiques à la marge ligne de P.2

Preuve : Montrons le pour les points lignes. Dans le cas de l’ind´ependance empi-rique, P = Π, alorsL=D⁻¹_I Π =D_I⁻¹DI1II1IJ′DJ = 1II1IJ′DJ. 2

Le nuage des points lignes deLest concentr´e au point ligne moyen (la marge colonne deP). Idem pour le nuage des points colonnes de C concentr´e au point moyen qui est la marge ligne de P.

distance du χ² entre profils

On est en pr´esence de deux nuages de points pesants. Le nuage desI profils lignes, chaque profil lignei est muni du poidspi.. Le nuage des J profils colonnes, chaque profil colonne j est muni de son poids p.j. Se pose maintenant la question de mesurer des distances Euclidiennes entre profils. Le type de distance utilis´e est la distance du χ² qui est une distance Euclidienne.

La raison essentielle pour choisir la distance duχ² est qu’elle vérifie la propriété suivante

´equivalence distributionelle :

Lorsque l’on effectue dans le tableauP, la somme de deux colonnes proportionnelles (ou de deux lignes), les distances duχ² entre profils lignes (ou colonnes) restent inchang´ees.

Lien avec le χ² de contingence : d²

Le coefficientd²/N est ´egal `a l’inertie du nuage des profils lignes (des profils colonnes). 2 Preuve:

On termine en rappelant que Lest la marge colonne de P.2

Calcul Matriciel et Analyse Factorielle des Donn´ees

R´esum´e Points lignes Points colonnes matrice L=D_I⁻¹P C=P D_J⁻¹

nuages NL={L1, . . . , LI} NC ={C¹, . . . , C^J}

poids D_I D_J

espace (IR^J, D_J⁻¹) (IR^I, D⁻¹_I ) point moyen L= 1II′P C=P1IJ

inertie d²/N d²/N

Dans le document Éléments de Calcul Matriciel et d’Analyse Factorielle de Données (Page 137-143)