On s’int´eresse maintenant au tableau crois´e ventilant une population selon les moda-lit´es de deux caract`eres qualitatifs. L’individu va disparaˆıtre en se fondant dans l’effectif correspondant au croisement d’une modalit´e de la premi`ere variable et d’une modalit´e de la seconde.
8.2.1 D´ efinitions et notations
Soient deux variables qualitatives not´ees L (pour Ligne) et C (pour Colonne) ayant respectivement I et J modalit´es et des matrices de codage N ×I etN ×J not´ees UL
et UC. Latable de contingence T croisant les effectifs des modalit´es de L etC est la matrice
T = [nij] =UL′UC.
L’´el´ement nij est l’effectif des individus dans la modalit´e i deL et dans la modalit´e j de C.
N = XI
i=1
XJ j=1
nij.
On appelle tableau des fr´equences associ´e `a T, la matrice I×J P = 1
NT, d’´el´ement courantpij =nij/N.
1 = XI
i=1
XJ j=1
pij.
marges ligne et marges colonnes :
On appelle marge ligne de P (resp. de T) le vecteur colonne P1IJ (resp. T1IJ), dont l’´el´ement courant i
pi. = XJ
j=1
pij
(resp.ni.), est la fr´equence (resp. l’effectif) des individus qui sont dans la modalit´ei de L. On a pi.=ni./N.
On appelle marge colonne de P (resp. de T) le vecteur ligne 1II′P (resp. 1II′T), dont l’´el´ement courant j
p.j = XI
i=1
pij
(resp. n.j), est la fr´equence (resp. l’effectif) des individus qui sont dans la modalit´e j deC. On a p.j =n.j/N.
Calcul Matriciel et Analyse Factorielle des Donn´ees
i
1 j J
1
I
p p
i .
p . j 1
L
C
i j
Figure 18 : Tableau P des fr´equences, marge ligne et marge colonne de P.
M´etriques associ´ees `a P :
L’espaceIRI des colonnes deP est muni de la m´etrique diagonale des poids statistiques de la marge ligne,
DI =diag(p1., . . . , pI.).
L’espace IRJ des lignes de P est muni de la m´etrique diagonale des poids statistiques de la marge colonne,
DJ =diag(p.1, . . . , p.J).
Propri´et´es des m´etriques
M1 : 1 = 1II′DI1II = 1IJ′DJ1IJ = 1II′P1IJ ou encore 1 = XI
i=1
pi.= XJ
j=1
p.j = XI
i=1
XJ j=1
pij. M2 : La marge ligne s’´ecrit P1IJ =DI1II et la marge colonne 1II′P = 1IJ′DJ.
Les propri´et´es pr´ec´edentes vont jouer un rˆole cl´e dans l’Analyse Factorielle des Corres-pondances du tableau de contingence T. En fait, les m´etriques diagonales form´ees par les marges de P fournissent les poids statistiques au nuage des points lignes et au nuage des points colonnes repr´esent´es dans les plans factoriels de l’AFC.
8.2.2 Ind´ ependance de deux variables qualitatives L et C
Soient L et C deux variables qualitatives et P leur tableau I ×J des fr´equences. L et C sont empiriquement ind´ependantes si et seulement si
pij =pi.p.j ∀i= 1, . . . , I, ∀j = 1, . . . , J . Soit Π le tableau de l’ind´ependance construit `a partir des marges de P
Π = [πij =pi.p.j] =DI1II1IJ′DJ. L’ind´ependance empirique signifie P = Π.
On construit une mesure de l’´ecart `a l’ind´ependance par d2 =N
XI i=1
XJ j=1
1 pi.p.j
(pij −pi.p.j)2.
Ainsi, d2 = 0 si et seulement si P = Π. L’ind´ependance empirique est exceptionnellement r´ealis´ee en pratique, la question qui se pose est de savoir si la valeur calcul´ee du d2 de l’ind´ependance est proche ou non de 0 !
Test de l’ind´ependance entre L et C
Pearson a montr´e que sous l’hypoth`ese “H0 : L et C sont ind´ependantes”, d2 est une r´ealisation d’une variable al´eatoire D2 qui suit une loi du χ2 `a (I −1)(J −1) degr´es de libert´e.
α
Χ c2 D2 Χ2
f
(I-1)(J-1)
(D )2
Figure 19 : Densit´e de probabilit´e de la loi du χ2, r´egion (hachur´ee) peu probable des valeurs ´elev´ees .
Calcul Matriciel et Analyse Factorielle des Donn´ees
Pour un risque d’erreurα, le plus souvent 0.05, on rejette l’hypoth`eseH0 sid2est sup´erieur
`a la valeur critique χ2c qu’une variable χ2(I−1)(J−1) a une probabilit´e α de d´epasser, voir Figure 19.
Si d2 < χ2c on ne peut rejeter l’hypoth`ese d’ind´ependance. Dans ce cas, l’information contenue dans P est bien r´esum´ee par ses marges ligne et colonne que l’on visualise par des histogrammes classiques.
8.2.3 Profils lignes et colonnes, distributions conditionnelles
On appelle profil ligne ile vecteur ligne des fr´equences conditionnelles `a i fix´e Li = [pi1/pi., . . . , pij/pi., . . . , piJ/pi.].
La matrice I×J des I profils lignes est not´ee L=DI−1P (L pour “Ligne”).
L’espace Euclidien des profils lignes (points lignes deL) estRJ. Dans cet espace, chaque point lignei est affect´e de son poids pi., pour former le nuage NL.
On appelle profil colonne j le vecteur colonne des fr´equences conditionnelles `a j fix´e Cj = [p1j/p.j, . . . , pij/p.j, . . . , pIj/p.j]′.
La matrice I×J des J profils colonnes est not´ee C =P D−1J (C pour “Colonne”).
L’espace Euclidien des profils colonnes (points colonnes deC) est RI. Dans cet espace, chaque point colonnej est affect´e de son poids p.j, pour former le nuage NC.
Il ne doit pas y avoir d’ambigu¨ıt´e sur les notations L et C, nom des variables qua-litatives et matrices des profils.
Propri´et´es de L et C :
– L1IJ = 1II et 1II′C= 1IJ′, (Preuve ´evidente, propri´et´es des m´etriques).
– Le point ligne moyen de L est la marge colonne de P. De fa¸con duale, le point colonne moyen de C est la marge ligne de P. 2
Preuve : Montrons le pour les points lignes. Soit L le point ligne moyen, L= 1II′DIL= 1II′DIDI−1P = 1II′P, qui est bien la marge colonne de P. 2
– Dans le cas de l’ind´ependance empirique, les lignes deLsont ´egales `a la marge colonne de P, les colonnes de C sont identiques `a la marge ligne de P.2
Preuve : Montrons le pour les points lignes. Dans le cas de l’ind´ependance empi-rique, P = Π, alorsL=D−1I Π =DI−1DI1II1IJ′DJ = 1II1IJ′DJ. 2
Le nuage des points lignes deLest concentr´e au point ligne moyen (la marge colonne deP). Idem pour le nuage des points colonnes de C concentr´e au point moyen qui est la marge ligne de P.
distance du χ2 entre profils
On est en pr´esence de deux nuages de points pesants. Le nuage desI profils lignes, chaque profil lignei est muni du poidspi.. Le nuage des J profils colonnes, chaque profil colonne j est muni de son poids p.j. Se pose maintenant la question de mesurer des distances Euclidiennes entre profils. Le type de distance utilis´e est la distance du χ2 qui est une distance Euclidienne.
La raison essentielle pour choisir la distance duχ2 est qu’elle v´erifie la propri´et´e suivante
´equivalence distributionelle :
Lorsque l’on effectue dans le tableauP, la somme de deux colonnes proportionnelles (ou de deux lignes), les distances duχ2 entre profils lignes (ou colonnes) restent inchang´ees.
Lien avec le χ2 de contingence : d2
Le coefficientd2/N est ´egal `a l’inertie du nuage des profils lignes (des profils colonnes). 2 Preuve:
On termine en rappelant que Lest la marge colonne de P.2
Calcul Matriciel et Analyse Factorielle des Donn´ees
R´esum´e Points lignes Points colonnes matrice L=DI−1P C=P DJ−1
nuages NL={L1, . . . , LI} NC ={C1, . . . , CJ}
poids DI DJ
espace (IRJ, DJ−1) (IRI, D−1I ) point moyen L= 1II′P C=P1IJ
inertie d2/N d2/N