Analyse Factorielle des Correspondances
Sidi Mohamed MAOULOUD
15 janvier 2016
Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances
Introduction
On consid`ere deux variables qualitativesX et Y observ´ees sur n unit´es statistiques ;
Les modalit´es de la variableX sontx1, x2, . . . ,xl et celle de la variableY sont y1, y2, . . . ,yc
ni,j et fi,j = nni,j d´esignent resp. le nombre et la fr´equence d’occurrence simultan´ee de la modalit´exi de la variable X et de la modalit´eyj de la variable Y ; ;
Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances
Tableau de contingence
Les tableaux de contingence des effectifs et des fr´equences sont donn´ee par sont donn´es par
X Y y1 · · · yj · · · yc y1 · · · yj · · · yc
x1 n1,1 n1,j n1,c f1,1 f1,j f1,c
... ... ...
xi ni,1 ni,j ni,c fi,1 fi,j fi,c
... ... ...
xl nl,1 · · · nl,j · · · nl,c fl,1 · · · fl,j · · · fl,c
Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances
Les tableaux de contingence des effectifs et fr´equences avec les marges sont donn´es par
X Y y1 · · · yj · · · yc T y1 · · · yj · · · yc T
x1 n1,1 n1,j n1,c n1,· f1,1 f1,j f1,c f1,·
... ... ...
xi ni,1 ni,j ni,c ni,· fi,1 fi,j fi,c fi,·
... ... ...
xl nl,1 · · · nl,j · · · nl,c n1,· fl,1 · · · fl,j · · · fl,c f1,·
T n·,1 n·,j n·,c n f·,1 f·,j f·,c 1
Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances
Objectifs
L’AFC permet d’´etudier la liaison (dite encore correspondance) entre deux variables qualitatives.
On pourra, avant de faire une AFC, effectuer un test d’ind´ependance appel´e test du chi-deux.
Sur le plan math´ematique, on peut consid´erer l’analyse des correspondances soit comme une analyse en composantes principales avec une m´etrique sp´eciale, la m´etrique du Chi deux. Ce qu’on verra plus loin
Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances
Test du chi-deux
On cherche `a r´epondre `a la question si les variables sont ou pas d´ependante..
Les hypoth`eses d’un test sontH0 :X et Y sont ind´ependante contreH1 :X et Y sont d´ependantes
Pour cela on construit une statistique qui va mesurer l’´ecart entre la situation observ´ee et une situation th´eorique d’ind´ependance. plus loin
Lorsqu’il y a ind´ependance On devrait avoirfi,j =fi,·f·,j
Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances
Test du chi-deux
L’´ecart `a l’ind´ependance peut ˆetre mesur´e par P
i
P
j(fi,j−fi,·f·,j)2 On pr´ef´erera utiliser
χ2 =nX
i
X
j
(fi,j −fi,·f·,j)2 fi,·f·,j
qui permet de donner une plus grande importance au modalit´es d’effectif faible.
Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances
Test du chi-deux
On peut montrer facilement que
χ2 =X
i
X
j
!ni,j− ni,·n·,j
n
2 ni,·n·,j
n
On montre que sous l’hypoth`ese d’ind´ependance la statistique χ2 suit une loi de χ2 `a (l−1)(c −1) ddl
On rejettera l’hypoth`ese d’ind´ependance (c.-`a-d., on conclue `a un lien entre les variables) siχ2 est sup´erieur au seuil
th´eorique.
Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances
L’AFC
Soit un tableau de contingenceN `al lignes etc colonnes On pose
Dl =
n1· · · · 0 ... . .. ...
0 · · · nl·
et Dc =
n·1 · · · 0 ... . .. ...
0 · · · n·c
Le tableau des profils lignes n
ij
ni·
est obtenu par Dl−1N ; le tableau des profils colonnes n
ij
n·j
est obtenu par NDc−1
Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances
Les profils lignes et colonnes
Les profils lignes forment un nuage del points dans Rc; chacun de ces points affect´e d’un poids proportionnel `a sa fr´equence marginale. La matrice poids et donc 1nDl Le centre de gravit´e de ce nuage de profils lignes est glT = (f·1,· · ·,f·c)
R´eciproquement, les profils de colonnes forment un nuage de c points dansRl; chacun de ces points affect´e d’un poids proportionnel `a sa fr´equence marginale. La matrice poids et donc 1nDc.
Le centre de gravit´e de ce nuage de profils colonnes est gc = (f1·,· · · ,fl·)
Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances
La m´ etrique du χ
2Pour calculer la distance entre deux profils-lignes i et i′ on utilise la formule suivante :
dχ22
!i,i′
=
c
X
j=1
n n·j
nij ni·− ni′j
ni′·
2
Il s’agit de la m´etrique associ´ee `a la matrice diagonale nDc−1 Le terme de m´etrique du χ2 vient du fait que les deux nuages ont pour inertie totale la quantit´e mesurant l’´ecart `a
l’ind´ependance
Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances
La m´ etrique du χ
2On a en effet
ϕ2 =Pl i=1
ni·
ndχ22(i,gl)
=Pl
i=1
Pc
j=1 ni·
n n n·j
n
ij
ni·
−n.j
n
2
= 1nPl i=1
Pc j=1
nij−ni·nn.j
2
ni·n·j n
= χn2 de mˆeme pour les profils colonnes
ϕ2 =Pc j=1
n·j
ndχ22(j,gc)
=Pc
j=1
Pl
i=1 n·j
n n ni·
n
ij
n·j
−ni·
n
2
= 1nPc j=1
Pl i=1
nij−ni·nn.j
2
ni·n·j n
= χn2
Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances
ACP du nuage des profils lignes
Tableau de donn´ees X =Dl−1N
M´etrique de l’espace des individus (Profils lignes) : M =nDc−1
Matrice des poids :D = 1nDl
Matrice de covariance est V =XTDX = 1nNTDl−1N Donc MV =Dc−1NTDl−1N
Les facteurs principaux sont les vecteurs propresu ∈Rc de Dl−1NTDl−1N tels que 1nuTDcu = 1
Composantes principales sont les vecteurs propres c ∈Rl de Dl−1NDc−1NT associ´es aux mˆemes valeurs propres
Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances
ACP du nuage des profils colonnes
Tableau de donn´eesX =Dc−1NT
M´etrique de l’espace des individus (Profils lignes) : M =nDl−1
Matrice des poids :D= n1Dc
Matrice de covariance estV =XTDX = 1nNDc−1NT DoncMV =Dl−1NDc−1NT
Ainsi les facteurs principaux sont les vecteurs propresu∈Rl deDl−1N Dc−1NT tels que n1uTDlu= 1
Les composantes principales sont les vecteurs propresc ∈Rc deDc−1NTDl−1N associ´es aux mˆemes valeurs propres
Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances
Lien entre ACPs de nuages des profils lignes et colonnes
Les facteurs principaux associ´es aux profils lignes sont les composantes principales associ´ee aux profils de colonnes et vice versa
Si u∈Rl est une composante principale des profils lignes et donc un facteur principal des profils colonne associ´e `a la valeur propreλc-`a-d , Dl−1N Dc−1NTu =λu et 1nuTDlu =λ alors : v = √1
λ Dc−1NTu est une composante principale des profils colonne et est un facteur principale des profils lignes
Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances
Interpretations des axes
Contributions des modalit´es. On a λk = 1
n
l
X
i=1
ni·(uik)2 = 1 n
c
X
j=1
n·j(vjk)2 Alors les contributions sont d´efinies par
contribk(i) = ni·(uik)2
nλk et contribk(j)n·j(vjk)2 nλk On consid`ere les modalit´es dont les contributions sont
sup´erieures `a leurs poidscontribk(i)> nni· et contribk(j) = nn·j Qualit´es de repr´esentation des modalit´es. Sont donn´ees pas les cosinus au carr´e de l’angle form´e avec l’axe
cos2k(i) = (uik)2 Pl
i=1(uik)2
et cos2k(j) = (vjk)2 Pl
j=1(ujk)2 Les qualit´es sont des cosinus et donc sont additives
Sidi Mohamed MAOULOUD Analyse Factorielle des Correspondances