M Éc E n
C4. A
NALYSE DES CORRESPONDANCES MULTIPLESJulie Scholler - Bureau B246
I. Problématique
• Plusieurs variables qualitatives
• Quel tableau pour coder les données ? pour l’analyse factorielle ?
• Que peut-on attendre d’une telle analyse ?
II. Données
Nos données
Résultats des votes de la chambre des représentants du congrès américain en 1984 avec l’affiliation des différents représentants Individus : 435 représentants
Variables :
• affiliation : democrat ou republican
• budget, physician, salvador, nicaraguan, missile, education : y, n, neither
II. Données
Tableau condensé
affiliation budg. physi. salva. nicara. missile educ.
1 republican n y y n n y
2 republican n y y n n y
3 democrat y neither y n n n
4 democrat y n neither n n n
5 democrat y n y n n neither
6 democrat y n y n n n
7 democrat n y y n n n
8 republican n y y n n n
II. Données
Tableau condensé
Tableau : individus x variables
I individus et J variables qualitatives
yi,j : numéro de la modalité de la variable j prise par l’individu i
1 · · · j · · · J 1...
i...
I
yi,j
Pas de propriétés numériques donc pas de sens de traiter ce tableau par une analyse factorielle
II. Données
Hypertableau de contingence
• Généralisation du tableau de contingence pour deux variables qualitatives
• Nombre de cases : YJ
j=1
Kj avec Kj nombre de modalités de la variable j
• Croît très rapidement avec J
• Dépasse rapidement l’effectif total : beaucoup de cases à effectif nul
II. Données
Tableau disjonctif complet
Variable 1 Variable j Variable J
K1 modalités Kj modalités KJ modalités
1 K1 K1+ 1 k K Marge
Individus
1 J
i 0 1 0 0 . . . xik 0 0 1 0 . . . J
I J
Marge I1 Ik IK IJ
xik =
(1 si l’individu i prend la modalité k 0 sinon
Tableau de I lignes et K = XJ
j=1
Kj colonnes
II. Données
Tableau disjonctif complet
Variable 1 Variable j Variable J
K1 modalités Kj modalités KJ modalités
1 K1 K1+ 1 k K Marge
Individus
1 J
i 0 1 0 0 . . . xik 0 0 1 0 . . . J
I J
Marge I1 Ik IK IJ
Notations :
• I nombre d’individus, J nombre de variables
• Kj nombre de modalités de la je variable
• Ik nombre d’individus ayant la modalité k
II. Données
Tableau disjonctif complet
affi.democrat affi.repu budget.n budget.neither budget.y
1 0 1 1 0 0
2 0 1 1 0 0
3 1 0 0 0 1
4 1 0 0 0 1
5 1 0 0 0 1
6 1 0 0 0 1
7 1 0 1 0 0
8 0 1 1 0 0
II. Données
Tableau de Burt
Variablej Variablel1 k q K
1 ... ... ...
... ... ...
Variablej ... ... ...
k · · · · · · Ikk · · · · · · Iqk · · ·
... ... ...
... ... ...
Variablel ... ... ...
... ... ...
q · · · · · · Iqk · · · · · · Iqq · · ·
... ... ...
... ... ...
K ... ... ...
Récapitule les liens entre les variables 2 à 2
Moins d’informations que l’hypertableau de contingence ou le TDC
II. Données
Tableau de Burt
affi.dem affi.repu budg.n budg.neith budg.y
affi.demo 267 0 29 7 231
affi.repu 0 168 142 4 22
budget.n 29 142 171 0 0
budget.neither 7 4 0 11 0
budget.y 231 22 0 0 253
physician.n 245 2 25 3 219
physician.neither 8 3 0 6 5
physician.y 14 163 146 2 29
III. Objectifs
Objectifs
Individus
• typologie d’individus
• mise en évidence de caractéristiques qui séparent des classes d’individus
Variables
• relations entre les modalités
• relations entre variables
• variables synthétiques
IV. AFC du TDC
Rappels AFC
1 · · · j · · · J 1...
i...
I
fij
f1•
...
fi• ...
fI•
f•1 · · · f•j · · · f•J 1 Distance du χ2
• entre deux profils lignes : d2(i, `) = XJ
j=1
1 f•j
fij
fi• − f`j f`•
2
• entre deux profils colonnes : d2(j,k) = XI
i=1
1 fi•
fij
f•j − fik f•k
!2
IV. AFC du TDC
Application au TDC
1 · · · k · · · K 1...
i...
I
xik
J...
J...
J I1 · · · Ik · · · IK IJ
Poids des individus : 1
I , . . . , 1
I , . . . 1 I
Poids des modalités : I1
IJ, . . . , Ik
IJ, . . . , IK IJ
Distances induites
• entre deux individus : d2(i, `) = 1 J
K
X
k=1
I
Ik (xik −x`k)2
• entre deux modalités : d2(j,k) = I
I
X
i=1
xij
Ij − xik Ik
!2
IV. AFC du TDC
Étude des individus
Distance entre deux individus d2(i, `) = 1
J
K
X
k=1
I
Ik (xik −x`k)2
IV. AFC du TDC
Tableau condensé
affiliation budg. physi. salva. nicara. missile educ.
1 republican n y y n n y
2 republican n y y n n y
3 democrat y neither y n n n
4 democrat y n neither n n n
5 democrat y n y n n neither
6 democrat y n y n n n
7 democrat n y y n n n
8 republican n y y n n n
IV. AFC du TDC
Étude des individus
Distance entre deux individus
d2(i, `) = 1 J
K
X
k=1
I
Ik (xik −x`k)2 Barycentre des individus GI
(GI)k = X
i
1 I
xik
J = 1 IJ
X
i
xik = Ik IJ
Distance au barycentre
d2(i,GI) = 1 J
K
X
k=1
I Ik
xik − Ik I
2
IV. AFC du TDC
Étude des variables
Distance entre deux modalités
d2(j,k) = I
I
X
i=1
xij
Ij − xik Ik
!2
= I
IkIj ×Ik6=j
avec Ik6=j : nombre d’individus possédant une et une seule des modalités k ou j.
Barycentre des modalités GK (GK)i = X
k
Ik IJ
xik
Ik = 1 IJ
X
k
xik = 1
I donc GK = 1
I , . . . , 1 I
Distance au barycentre
d2(k,GK) = XI
i=1
I xik
Ik − 1 I
2
= I Ik − 1
V. Ajustement des nuages
Ajustement des nuages
On procède comme pour les analyses factorielles déjà vues.
1. L’origine des axes est placé au barycentre/centre de gravité.
2. On cherche une suite d’axes orthogonaux maximisant l’inertie projetée.
3. On représente ces projections sur des plans associant deux axes, en premier lieu (u1,u2).
Propriétés déjà vues en AFC
• Les deux nuages ont la même inertie.
• Leurs ajustements sont « duaux »
• les inerties associées aux axes de même rang dans chacun des nuages sont égales ;
• les facteurs de même rang sont liés par des relations dites de transition.
●
●
●
●
●
● ●● ●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
● ●
● ●
●
● ●
● ● ●●●
●
●
●
●
●
●
●
●
●
● ●
●
●
● ● ●●●●●●
● ●
●
●
●
●
●
● ●
●
● ●
● ●
● ● ●● ●● ●
●
●
●
●
● ●●
●
●
●
● ●● ●
●
●
● ● ● ● ●
● ●
●
● ●
●
●
●
● ● ●●
●
●
● ●
● ●
●
●
● ●
● ●●
● ●
●●
● ●●●●●
●
●
● ●● ● ●●
● ● ●●
● ●
●
●
● ●
●
● ●●
●
●
● ●● ●
● ● ●●
●
● ●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
● ●
● ●
●
● ●
●
● ● ●
●
●
●
●
●
● ● ● ●●
●
●
● ●
●
● ● ●
●
● ●
●
● ●
● ●
●
● ●
● ●● ● ● ●●●●
● ●
●
●
●
●
●
●
●
● ●
●
●
●
●
● ●●
●
● ●●
●
●
●
●
●
●
●
● ●
● ●
●
●
●
● ●● ●● ●●●
● ●
●
● ●
●
●
●
●
●
●
●
● ●●
●
● ● ●
● ●
●
●
●
●
●
● ●●
● ●
●
● ●●
●
● ●
●
●
●
●
●
●
●
●
● ●
●
● ●
●
●
●
●
● ●
●
● ●●
●
● ●
● ● ●● ●● ● ●●●
●
● ●●
● ●
● ●●● ●● ● ●●●
●
●
●
●
●
● ●
●
●
● ●●● ● ●●●● ●
●
●
● ●
●
●
●
● ●
●
●
●
●● ●●●●●
● ●●
● ●
●
●
●
● ● ●
● ● ●
●
●
● ●
● ●
●
●
● ● ●
●
●
0 1 2 3 4 5
−1 0 1
Dim1 (37.1%)
Dim2 (17.6%)
Individuals − MCA
budget_n budget_neither
budget_y physician_n physician_neither
physician_y salvador_n
salvador_neither
salvador_y nicaraguan_n nicaraguan_neither
nicaraguan_y
missile_n missile_neither
missile_y
education_n education_neither
education_y
0 1 2 3 4 5
−1 0 1
Dim1 (37.1%)
Dim2 (17.6%)
Variable categories − MCA
●
●
●
●
●
● ●● ●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
● ●
● ●
●
● ●
● ● ●●●
●
●
●
●
●
●
●
●
●
● ●
●
●
● ● ●●●●●●
● ●
●
●
●
●
●
● ●
●
● ●
● ●
● ● ●● ●● ●
●
●
●
●
● ●●
●
●
●
● ●● ●
●
●
● ● ● ● ●
● ●
●
● ●
●
●
●
● ● ●●
●
●
● ●
● ●
●
●
●
● ● ●●
● ●
● ●
● ●●●●●
●
●
● ●● ● ●●
● ● ●●
● ●
●
●
● ●
●
● ●●
●
●
●
● ● ●
● ● ●●
●
● ●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
● ●
● ●
●
●
●
●
● ● ●
●
●
●
●
●
● ● ● ●●
●
●
● ●
●
● ● ●
●
● ●
●
● ●
● ●
●
● ●
● ●● ● ● ●●●●
● ●
●
●
●
●
●
●
●
● ●
●
●
●
●
● ●●
●
● ●●
●
●
●
●
●
●
●
● ● ●
●
●
●
●
● ●● ●● ●●●
● ●
●
● ●
●
●
●
●
●
●
●
● ●●
●
● ● ●
● ●
●
●
●
●
●
● ● ●●●
●
● ●●
●
● ●
●
●
●
●
●
●
●
●
● ●
●
● ●
●
●
●
●
● ●
●
● ●●
●
● ●
● ● ●● ●● ● ●●●
●
● ●●
● ●
● ●●● ●● ● ●●●
●
●
●
●
●
● ●
●
●
● ●●● ● ●●●● ●
●
●
● ●
●
●
●
● ●
●
●
●
●● ●●●●●
● ●●
● ●
●
●
●
● ● ●
● ● ●
●
●
● ●
● ●
●
●
● ● ●
●
●
budget_n budget_neither
budget_y physician_n physician_neither
physician_y salvador_n
salvador_neither
salvador_y
nicaraguan_n nicaraguan_neither
nicaraguan_y missile_n
missile_neither
missile_y
education_n
education_neither
education_y
0 2 4
−1 0 1
Dim1 (37.1%)
Dim2 (17.6%)
MCA − Biplot
V. Ajustement des nuages
Relations de transition et représentations simultanées
Fs(i) = 1√ λs
K
X
k=1
xik
J Gs(k) et Gs(k) = 1√ λs
I
X
i=1
xik
Ik Fs(i) En projection sur l’axe s, l’individu i est placé (au coefficient 1/pλs
près) au barycentre des modalités qu’il possède. Idem pour les modalités.
V. Ajustement des nuages
Inerties
Inertie d’une modalité
Inertie(k/GK) = 1 J
1− Ik I
Inertie totale
Inertie(NK) = K J −1 Inertie de la variable j
Kj − 1 J
V. Ajustement des nuages
Inerties relatives de chaque axe
●
●
●
●
● ●
● ●
●
●
37.1%
17.6%
9%
7.2% 6.5% 6.2%
4.4% 3.8%
2.9% 2.2%
0 10 20 30 40
1 2 3 4 5 6 7 8 9 10
Dimensions Percentage of explained variances
V. Ajustement des nuages
Facteurs
Fs : ensemble des projections de tous les points du nuages NI sur le se axe
Les Fs constituent de nouvelles variables quantitatives. Liens avec les variables étudiées ?
Comment mesurer le lien entre une variable quantitative et une variable qualitative ?
V. Ajustement des nuages
Carré du rapport de corrélation
Carré du rapport de corrélation : η2 = inertie inter classeinertie totale 0 6 η2 6 1
• Barycentre des individus prenant la modalité k : Gmod k
• Poids de Gmod k : Ik I
• Coordonnées de Gmod k sur le se axe : Fs(Gmod k)
η2(Fs,j) = P
k∈K˜j
Ik
I (Fs(Gmod k))2 λs
• Fs(Gmod k) ?
V. Ajustement des nuages
Relations de transition et représentations simultanées
Fs(i) = 1√ λs
K
X
k=1
xik
J Gs(k) et Gs(k) = 1√ λs
I
X
i=1
xik
Ik Fs(i) En projection sur l’axe s, l’individu i est placé (au coefficient 1/pλs
près) au barycentre des modalités qu’il possède. Idem pour les modalités.
V. Ajustement des nuages
η2(Fs,j) = P
k∈K˜j Ik
I (Fs(Gmod k))2 λs
= J X
k∈K˜j
Ik
IJGs(k)2
= J X
k∈K˜j
Inertie de la modalité k projetée sur le se axe
Quantité maximisée par la méthode
Inertie de NK projeté sur le se axe = XK
k=1
Ik
IJGs(k)2
= 1J
J
X
j=1
η2(Fs,j)
Fs : variables quantitatives les plus liées à l’ensemble des variables qualitatives étudiées
VI. Aide à l’interprétation
Aides à l’interprétation
• Valeurs propres, pourcentage d’inertie associée à un axe
• Forme des nuages, coordonnées
• Qualité de représentation
• Contributions : individus, modalités, variables
• Représentation des variables par leurs carrés des rapports de corrélation
• Éléments supplémentaires : individus particuliers, variables qualitatives (signalétique), variables quantitatives
VI. Aide à l’interprétation
Inerties relatives de chaque axe
●
●
●
●
● ●
● ●
●
●
37.1%
17.6%
9%
7.2% 6.5% 6.2%
4.4% 3.8%
2.9% 2.2%
0 10 20 30 40
1 2 3 4 5 6 7 8 9 10
Dimensions Percentage of explained variances
VI. Aide à l’interprétation
Aides à l’interprétation
• Valeurs propres, pourcentage d’inertie associée à un axe
• Forme des nuages, coordonnées
• Qualité de représentation
• Contributions : individus, modalités, variables
• Représentation des variables par leurs carrés des rapports de corrélation
• Éléments supplémentaires : individus particuliers, variables qualitatives (signalétique), variables quantitatives
●
●
●
●
●
● ●● ●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
● ●
● ●
●
● ●
● ● ●●●
●
●
●
●
●
●
●
●
●
● ●
●
●
● ● ●●●●●●
● ●
●
●
●
●
●
● ●
●
● ●
● ●
● ● ●● ●● ●
●
●
●
●
● ●●
●
●
●
● ●● ●
●
●
● ● ● ● ●
● ●
●
● ●
●
●
●
● ● ●●
●
●
● ●
● ●
●
●
● ●
● ●●
● ●
●●
● ●●●●●
●
●
● ●● ● ●●
● ● ●●
● ●
●
●
● ●
●
● ●●
●
●
● ●● ●
● ● ●●
●
● ●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
● ●
● ●
●
● ●
●
● ● ●
●
●
●
●
●
● ● ● ●●
●
●
● ●
●
● ● ●
●
● ●
●
● ●
● ●
●
● ●
● ●● ● ● ●●●●
● ●
●
●
●
●
●
●
●
● ●
●
●
●
●
● ●●
●
● ●●
●
●
●
●
●
●
●
● ●
● ●
●
●
●
● ●● ●● ●●●
● ●
●
● ●
●
●
●
●
●
●
●
● ●●
●
● ● ●
● ●
●
●
●
●
●
● ●●
● ●
●
● ●●
●
● ●
●
●
●
●
●
●
●
●
● ●
●
● ●
●
●
●
●
● ●
●
● ●●
●
● ●
● ● ●● ●● ● ●●●
●
● ●●
● ●
● ●●● ●● ● ●●●
●
●
●
●
●
● ●
●
●
● ●●● ● ●●●● ●
●
●
● ●
●
●
●
● ●
●
●
●
●● ●●●●●
● ●●
● ●
●
●
●
● ● ●
● ● ●
●
●
● ●
● ●
●
●
● ● ●
●
●
0 1 2 3 4 5
−1 0 1
Dim1 (37.1%)
Dim2 (17.6%)
Individuals − MCA
budget_n budget_neither
budget_y physician_n physician_neither
physician_y salvador_n
salvador_neither
salvador_y nicaraguan_n nicaraguan_neither
nicaraguan_y
missile_n missile_neither
missile_y
education_n education_neither
education_y
0 1 2 3 4 5
−1 0 1
Dim1 (37.1%)
Dim2 (17.6%)
Variable categories − MCA
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●●
●
●●
●●●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●●●●●●●
●●
●
●
●
●
●
●
●
●
●●●
●●●●
●●●●
●
●
●
●●
●
●●
●
●
●●
●●
●
●
●
●●●●
●
●
●
●●
●
●
●
●●●●
●
●
●●
●●
●
●
●●
●●●
●●
●
●
●●●●●●
●
●
●●●●●●●●●●
●●
●
●
●●
●
●
●●
●
●
●
●●●
●●●
●●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●●
●
●●
●●
●
●
●
●
●●●●●
●
●
●●
●
●●●
●
●
●
●
●●
●●
●
●
●
●●
●●
●●●●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●●
●●●●●●●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●●●
●
●●●●●●
●
●
●
●
●
●
●
●●
●
●
●
●
●●●
●●●
●
●●●●●●●●●●●
●
●
●
●
●●
●
●●●
●
●●●●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●●
●
●
●
●
●●
●
●
●
●●●
●
●
●
●●●●
●●●●●
●●
●
●
●
●●●
●●●
●
●
●●
●●
●
●
●●●
●
●
−2
−1 0 1 2
−2 −1 0 1 2 3
Dim3 (9%)
Dim4 (7.2%)
Individuals − MCA
budget_n budget_neither
budget_y physician_n physician_neither
physician_y salvador_n
salvador_neither
salvador_y nicaraguan_n
nicaraguan_neither nicaraguan_y
missile_n
missile_neither
missile_y education_n
education_neither education_y
−2
−1 0 1 2
−2 −1 0 1 2 3
Dim3 (9%)
Dim4 (7.2%)
Variable categories − MCA
VI. Aide à l’interprétation
Individus extrêmes
Dimension 1
affiliation budget physician salvador nicarag. missile educ. Coord.
16 republican n y y n n y 1.14
31 republican n y y n n y 1.14
18 democrat y n n y y n -0.91
20 democrat y n n y y n -0.91
Dimension 2
affiliation budget physician salvador nicarag. missile educ. Coord.
108 republican neither neither neither neither neither neither 5.19 249 republican neither neither neither neither neither neither 5.19 184 democrat neither neither neither neither y neither 4.77
395 democrat neither neither neither n n n 3.35
394 republican neither neither n y y y 2.38
105 democrat neither neither n y y n 2.37
144 democrat n n n y y n -0.22
145 democrat n n n y y n -0.22