M Éc E n
C4. A
NALYSE DES CORRESPONDANCES MULTIPLESJulie Scholler - Bureau B246
I. Problématique
• Plusieurs variables qualitatives
• Quel tableau pour coder les données ? pour l’analyse factorielle ?
• Que peut-on attendre d’une telle analyse ?
II. Données
Nos données
Résultats des votes de la chambre des représentants du congrès américain en 1984 avec l’affiliation des différents représentants Individus : 435 représentants
Variables :
• affiliation : democrat ou republican
• budget, physician, salvador, nicaraguan, missile, education : y, n, neither
II. Données
Tableau condensé
affiliation budg. physi. salva. nicara. missile educ.
1 republican n y y n n y
2 republican n y y n n y
3 democrat y neither y n n n
4 democrat y n neither n n n
5 democrat y n y n n neither
6 democrat y n y n n n
7 democrat n y y n n n
8 republican n y y n n n
II. Données
Tableau condensé
Tableau : individus x variables
I individus et J variables qualitatives
yi,j : numéro de la modalité de la variable j prise par l’individu i
1 · · · j · · · J 1...
i...
I
· · · ·
· · · ·
· · · yi,j · · · ·
· · · ·
· · · ·
Pas de propriétés numériques donc pas de sens de traiter ce tableau par une analyse factorielle
II. Données
Hypertableau de contingence
• Généralisation du tableau de contingence pour deux variables qualitatives
• Nombre de cases : YJ
j=1
Kj avec Kj nombre de modalités de la variable j
• Croît très rapidement avec J
• Dépasse rapidement l’effectif total : beaucoup de cases à effectif nul
II. Données
Tableau disjonctif complet
Variable 1 Variable j Variable J
K1 modalités Kj modalités KJ modalités
1 K1 K1+ 1 k K Marge
Individus
1 J
i 0 1 0 0 . . . xik 0 0 1 0 . . . J
I J
Marge I1 Ik IK IJ
xik =
(1 si l’individu i prend la modalité k 0 sinon
Tableau de I lignes et K = XJ
j=1
Kj colonnes
II. Données
Tableau disjonctif complet
Variable 1 Variable j Variable J
K1 modalités Kj modalités KJ modalités
1 K1 K1+ 1 k K Marge
Individus
1 J
i 0 1 0 0 . . . xik 0 0 1 0 . . . J
I J
Marge I1 Ik IK IJ
Notations :
• I nombre d’individus, J nombre de variables
• Kj nombre de modalités de la je variable
• Ik nombre d’individus ayant la modalité k
II. Données
Tableau disjonctif complet
affi.democrat affi.repu budget.n budget.neither budget.y
1 0 1 1 0 0
2 0 1 1 0 0
3 1 0 0 0 1
4 1 0 0 0 1
5 1 0 0 0 1
6 1 0 0 0 1
7 1 0 1 0 0
8 0 1 1 0 0
II. Données
Tableau de Burt
Variablej Variablel1 k q K
1 ... ... ...
... ... ...
Variablej ... ... ...
k · · · · · · Ikk · · · · · · Iqk · · ·
... ... ...
... ... ...
Variablel ... ... ...
... ... ...
q · · · · · · Iqk · · · · · · Iqq · · ·
... ... ...
... ... ...
K ... ... ...
Récapitule les liens entre les variables 2 à 2
Moins d’informations que l’hypertableau de contingence ou le TDC
II. Données
Tableau de Burt
affi.dem affi.repu budg.n budg.neith budg.y
affi.demo 267 0 29 7 231
affi.repu 0 168 142 4 22
budget.n 29 142 171 0 0
budget.neither 7 4 0 11 0
budget.y 231 22 0 0 253
physician.n 245 2 25 3 219
physician.neither 8 3 0 6 5
physician.y 14 163 146 2 29
III. Objectifs
Objectifs
• Individus :
typologie d’individus
mise en évidence de caractéristiques qui séparent des classes d’individus
• Variables :
relations entre les modalités relations entre variables variables synthétiques
IV. AFC du TDC
Rappels AFC
1 · · · j · · · J 1...
i...
I
· · · ·
· · · ·
· · · fij · · · ·
· · · ·
· · · ·
f1•
...
fi• ...
fI•
f•1 · · · f•j · · · f•J 1 Distance du χ2
• entre deux profils lignes : d2(i, `) = XJ
j=1
1 f•j
fij
fi• − f`j f`•
2
• entre deux profils colonnes : d2(j,k) = XI
i=1
1 fi•
fij
f•j − fik f•k
!2
IV. AFC du TDC
Application au TDC
1 · · · k · · · K 1...
i...
I
· · · ·
· · · ·
· · · xik · · · ·
· · · ·
· · · ·
J...
J...
J I1 · · · Ik · · · IK IJ
Poids des individus : 1
I , . . . , 1
I , . . . 1 I
Poids des modalités : I1
IJ, . . . , Ik
IJ, . . . , IK IJ
Distances induites
• entre deux individus : d2(i, `) = 1 J
K
X
k=1
I
Ik (xik −x`k)2
• entre deux modalités : d2(j,k) = I
I
X
i=1
xij
Ij − xik Ik
!2
IV. AFC du TDC
Étude des individus
Distance entre deux individus d2(i, `) = 1
J
K
X
k=1
I
Ik (xik −x`k)2
IV. AFC du TDC
Tableau condensé
affiliation budg. physi. salva. nicara. missile educ.
1 republican n y y n n y
2 republican n y y n n y
3 democrat y neither y n n n
4 democrat y n neither n n n
5 democrat y n y n n neither
6 democrat y n y n n n
7 democrat n y y n n n
8 republican n y y n n n
IV. AFC du TDC
Étude des individus
Distance entre deux individus d2(i, `) = 1
J
K
X
k=1
I
Ik (xik −x`k)2 Barycentre des individus GI
(GI)k = X
i
1 I
xik
J = 1 IJ
X
i
xik = Ik IJ Distance au barycentre
d2(i,GI) = 1 J
K
X
k=1
I Ik
xik − Ik I
2
IV. AFC du TDC
Étude des variables
Distance entre deux modalités : d2(j,k) = I
I
X
i=1
xij
Ij − xik Ik
!2
= I
IkIj × Ik6=j
avec Ik6=j : nombre d’individus possédant une et une seule des modalités k ou j.
Barycentre des modalités GK (GK)i = X
k
Ik IJ
xik
Ik = 1 IJ
X
k
xik = 1
I donc GK = 1
I, . . . , 1 I
Distance au barycentre
d2(k,GK) = XI
i=1
I xik
Ik − 1 I
2
= I Ik − 1
V. Ajustement des nuages
Ajustement des nuages
On procède comme pour les analyses factorielles déjà vues.
1. L’origine des axes est placé au barycentre/centre de gravité.
2. On cherche une suite d’axes orthogonaux maximisant l’inertie projetée.
3. On représente ces projections sur des plans associant deux axes, en premier lieu (u1,u2).
Propriétés déjà vues en AFC
• Les deux nuages ont la même inertie.
• Leurs ajustements sont « duaux »
• les inerties associées aux axes de même rang dans chacun des nuages sont égales ;
• les facteurs de même rang sont liés par des relations dites de transition.
−2 −1 0 1 2
0123456
Individus
Dim 1 (37.14%)
Dim 2 (17.61%)
−2 −1 0 1 2
012345
Modalités
Dim 1 (37.14%)
Dim 2 (17.61%)
budget_n budget_neither
budget_yphysician_n physician_neither
physician_y salvador_n
salvador_neither
salvador_ynicaraguan_n nicaraguan_neither
nicaraguan_y missile_n missile_neither
missile_y
education_n education_neither
education_y
−4 −2 0 2 4
0123456
Représentation simultanée
Dim 1 (37.14%)
Dim 2 (17.61%)
budget_n budget_neither
budget_y physician_n physician_neither
physician_y salvador_n
salvador_neither
salvador_ynicaraguan_n nicaraguan_neither
nicaraguan_y missile_n missile_neither
missile_y education_n
education_neither
education_y
V. Ajustement des nuages
Relations de transition et représentations simultanées
Fs(i) = 1√ λs
K
X
k=1
xik
J Gs(k) et Gs(k) = 1√ λs
I
X
i=1
xik
Ik Fs(i) En projection sur l’axe s, l’individu i est placé (au coefficient 1/pλs
près) au barycentre des modalités qu’il possède. Idem pour les modalités.
V. Ajustement des nuages
Inerties
Inertie d’une modalité :
Inertie(k/GK) = 1 J
1− Ik I
Inertie totale
Inertie(NK) = K J −1 Inertie de la variable j
Kj − 1 J
V. Ajustement des nuages
Inerties relatives de chaque axe
1 2 3 4 5 6 7 8 9 10 11 12
Axes factoriels
Parts
0 5 10 15 20 25 30 35
V. Ajustement des nuages
Facteurs
Fs : ensemble des projections de tous les points du nuages NI sur le se axe
Les Fs constituent de nouvelles variables quantitatives. Liens avec les variables étudiées ?
Comment mesurer le lien entre une variable quantitative et une variable qualitative ?
V. Ajustement des nuages
Carré du rapport de corrélation
Carré du rapport de corrélation : η2 = inertie inter classeinertie totale 0 6 η2 6 1
• Barycentre des individus prenant la modalité k : Gmod k
• Poids de Gmod k : Ik I
• Coordonnées de Gmod k sur le se axe : Fs(Gmod k)
η2(Fs,j) = P
k∈K˜j Ik
I (Fs(Gmod k))2 λs
• Fs(Gmod k) ?
V. Ajustement des nuages
Relations de transition et représentations simultanées
Fs(i) = 1√ λs
K
X
k=1
xik
J Gs(k) et Gs(k) = 1√ λs
I
X
i=1
xik
Ik Fs(i) En projection sur l’axe s, l’individu i est placé (au coefficient 1/pλs
près) au barycentre des modalités qu’il possède. Idem pour les modalités.
V. Ajustement des nuages
η2(Fs,j) = P
k∈K˜j Ik
I (Fs(Gmod k))2 λs
= J X
k∈K˜j
Ik
IJGs(k)2
= J X
k∈K˜j
Inertie de la modalité k projetée sur le se axe
Quantité maximisée par la méthode :
Inertie de NK projeté sur le se axe = XK
k=1
Ik
IJGs(k)2
= 1J
J
X
j=1
η2(Fs,j)
Fs : variables quantitatives les plus liées à l’ensemble des variables qualitatives étudiées
VI. Aide à l’interprétation
Aides à l’interprétation
• Valeurs propres, pourcentage d’inertie associée à un axe
• Forme des nuages, coordonnées
• Qualité de représentation
• Contributions : individus, modalités, variables
• Représentation des variables par leurs carrés des rapports de corrélation
• Éléments supplémentaires : individus particuliers, variables qualitatives (signalétique), variables quantitatives
VI. Aide à l’interprétation
Valeur propre Part d’inertie Part cumulée d’inertie
dim 1 0.74 37.14 37.14
dim 2 0.35 17.61 54.75
dim 3 0.18 8.97 63.72
dim 4 0.14 7.21 70.93
dim 5 0.13 6.48 77.41
dim 6 0.12 6.21 83.63
dim 7 0.09 4.39 88.01
dim 8 0.08 3.81 91.83
dim 9 0.06 2.92 94.75
dim 10 0.04 2.2 96.95
dim 11 0.04 1.89 98.84
dim 12 0.02 1.16 100
Total 2 100 /
VI. Aide à l’interprétation
1 2 3 4 5 6 7 8 9 10 11 12
Axes factoriels
Parts
0 5 10 15 20 25 30 35
VI. Aide à l’interprétation
Aides à l’interprétation
• Valeurs propres, pourcentage d’inertie associée à un axe
• Forme des nuages, coordonnées
• Qualité de représentation
• Contributions : individus, modalités, variables
• Représentation des variables par leurs carrés des rapports de corrélation
• Éléments supplémentaires : individus particuliers, variables qualitatives (signalétique), variables quantitatives
−2 −1 0 1 2
0123456
Individus
Dim 1 (37.14%)
Dim 2 (17.61%)
−2 −1 0 1 2
012345
Modalités
Dim 1 (37.14%)
Dim 2 (17.61%)
budget_n budget_neither
budget_yphysician_n physician_neither
physician_y salvador_n
salvador_neither
salvador_ynicaraguan_n nicaraguan_neither
nicaraguan_y missile_n missile_neither
missile_y
education_n education_neither
education_y
−2 −1 0 1 2 3
−4−2024
Individus
Dim 3 (8.97%)
Dim 4 (7.21%)
−3 −2 −1 0 1 2 3
−4−2024
Modalités
Dim 3 (8.97%)
Dim 4 (7.21%) budget_n
budget_neither
budget_y physician_n physician_neither
physician_y salvador_n
salvador_neither
salvador_y nicaraguan_n
nicaraguan_neither nicaraguan_y missile_n
missile_neither
missile_y education_n
education_neither education_y
−4 −2 0 2 4
0123456
Dim 1 (37.14%)
Dim 2 (17.61%)
budget_n budget_neither budget_y
−4 −2 0 2 4
0123456
Dim 1 (37.14%)
Dim 2 (17.61%)
physician_n physician_neither physician_y
−4 −2 0 2 4
0123456
Dim 1 (37.14%)
Dim 2 (17.61%)
salvador_n salvador_neither salvador_y
−4 −2 0 2 4
0123456
Dim 1 (37.14%)
Dim 2 (17.61%)
nicaraguan_n nicaraguan_neither nicaraguan_y
−4 −2 0 2 4
0123456
Dim 1 (37.14%)
Dim 2 (17.61%)
missile_n missile_neither missile_y
−4 −2 0 2 4
0123456
Dim 1 (37.14%)
Dim 2 (17.61%)
education_n education_neither education_y
VI. Aide à l’interprétation
Individus extrêmes
Dimension 1
affiliation budget physician salvador nicarag. missile educ. Coord.
16 republican n y y n n y 1.14
31 republican n y y n n y 1.14
18 democrat y n n y y n -0.91
20 democrat y n n y y n -0.91
Dimension 2
affiliation budget physician salvador nicarag. missile educ. Coord.
108 republican neither neither neither neither neither neither 5.19 249 republican neither neither neither neither neither neither 5.19 184 democrat neither neither neither neither y neither 4.77
395 democrat neither neither neither n n n 3.35
394 republican neither neither n y y y 2.38
105 democrat neither neither n y y n 2.37
144 democrat n n n y y n -0.22
145 democrat n n n y y n -0.22
VI. Aide à l’interprétation
Aides à l’interprétation
• Valeurs propres, pourcentage d’inertie associée à un axe
• Forme des nuages, coordonnées
• Qualités de représentation
• Contributions : individus, modalités, variables
• Représentation des variables par leurs carrés des rapports de corrélation
• Éléments supplémentaires : individus particuliers, variables qualitatives (signalétique), variables quantitatives
VI. Aide à l’interprétation
Les 244 individus les mieux représentés dans le premier plan ont une qualité de représentation supérieure à 0.92. Les individus suivants ont une qualité inférieure à 0.62.
−6 −4 −2 0 2 4 6
0123456
Individus
Dim 1 (37.14%)
Dim 2 (17.61%)
VI. Aide à l’interprétation
Aides à l’interprétation
• Valeurs propres, pourcentage d’inertie associée à un axe
• Forme des nuages, coordonnées
• Qualités de représentation
• Contributions : individus, modalités, variables
• Représentation des variables par leurs carrés des rapports de corrélation
• Éléments supplémentaires : individus particuliers, variables qualitatives (signalétique), variables quantitatives
VI. Aide à l’interprétation
Nombre d’individus nécessaires pour atteindre 50% des contributions Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
132 4 13 19 12
163134363739505456575859606266676880838485878810010711211412012212312612713313413513613714714915115515715916417219119620720821221521822422622923123423625125225425725826727727928028430330430530630730931132532833133634034134634734835735836037537637938039340240440540640841041141343343515921521561922961112199022524828312118202224252627283032333540414243444547515361636469707173759192991061091101111151171191251281321381391401461501531541581661701711731751761801811821831851871881901941992012022032042102112132142192202212232272282372422452462532552562592602612632642652662692702712722732812852862942983003083123133193203213223293303323333343383393453613773813904124154184204234244254274321310400288342378401464823924425041638240275364365370383417
87
2321182052162973143543733853893024291011611621651743861241892743154281311602913722365178179186209262292355434105130141951162438119720623534935936340921499311312923329329533736736941942614414519326829931031839297721773563919424738238438832617822873352003447619832423043198366398430778616329142143301167168394152396316241371 541455238148317184403141327353351289290368387397399422323104
389362407108249741693747995102222276343
6
27828242110321778350352964395
Contributions des individus à l'axe 1
0.0 0.1 0.2 0.3 0.4
10824918439539410596152396323371116378401121973 434374288342302429400130143914
430131160291372521561922963162411951119902252482831241452432365178179186209262292355326103217104324144145193268299310318392182022242526272830323335404142434445475153616364697071737591929910610911011111511711912512813213813914014615015315415816617017117317517618018118218318518718819019419920120220320421021121321421922022122322722823724224524625325525625926026126326426526626927027127227328128528629429830030831231331932032132232933033233333433833934536137738139041241541842042342442542743213103511413273531782287335148317947217735681197206235349359363409464823924425041640320024738238438821499311312923329329533736736941942689362407344552382914214330174169783503522322304312892903683873973994229836639867995102222276343278282421 738240275364365370383417
8
101161162165174386124189274315428761987786163167168
231343637395054565758596062666768808384858788100107112114120122123126127133134135136137147149151155157159164172191196207208212215218224226229231234236251252254257258267277279280284303304305306307309311325328331336340341346347348357358360375376379380393402404405406408410411413433435159161
118205216297314354373385389
Contributions des individus à l'axe 2
0 5 10 15
963951053944341301437840117822873353243264648239244250416200103217104288342302429121 33749718452156192296316195241152323
5243414236517817918620926229235511199022524828312396108249371400131160291372
4
43039111634474169141327353721773562323512304319440338240275364365370383417
7829142143301893624077619814414519326829931031839278350352131820222425262728303233354041424344454751536163646970717375919299106109110111115117119125128132138139140146150153154158166170171173175176180181182183185187188190194199201202203204210211213214219220221223227228237242245246253255256259260261263264265266269270271272273281285286294298300308312313319320321322329330332333334338339345361377381390412415418420423424425427432101231343637395054565758596062666768808384858788100107112114120122123126127133134135136137147149151155157159164172191196207208212215218224226229231234236251252254257258267277279280284303304305306307309311325328331336340341346347348357358360375376379380393402404405406408410411413433435159162473823843881182052162973143543733853891483172782824218119720623534935936340998366398124189274315428
67995102222276343167168214993113129233293295337367369419426552381011611621651743867786163289290368387397399422
Contributions des individus à l'axe 3
0 2 4 6 8
physician_y nicaraguan_n budget_n salvador_y salvador_n missile_n education_y nicaraguan_y missile_y physician_n budget_y education_n missile_neither nicaraguan_neither physician_neither salvador_neither budget_neither education_neither
Contributions des modalités à l'axe 1
0 2 4 6 8 10
budget_neither physician_neither salvador_neither nicaraguan_neither education_neither missile_neither education_n salvador_n physician_n nicaraguan_y budget_y education_y missile_y budget_n physician_y nicaraguan_n salvador_y missile_n
Contributions des modalités à l'axe 2
0 5 10 15 20
missile_neither budget_neither physician_neither nicaraguan_neither education_neither missile_y salvador_neither education_n physician_n nicaraguan_n budget_y missile_n education_y salvador_y budget_n nicaraguan_y physician_y salvador_n
Contributions des modalités à l'axe 3
0 10 20 30 40
missile_neither education_neither salvador_neither budget_neither physician_neither nicaraguan_neither missile_y education_y education_n nicaraguan_n physician_y missile_n salvador_n budget_y salvador_y budget_n nicaraguan_y physician_n
Contributions des modalités à l'axe 4
0 10 20 30
salvador_neither education_neither nicaraguan_neither budget_neither physician_neither education_n salvador_n education_y physician_n salvador_y nicaraguan_y missile_neither physician_y missile_y budget_y nicaraguan_n missile_n budget_n
Contributions des modalités à l'axe 5
0 10 20 30 40
VI. Aide à l’interprétation
−2 −1 0 1 2
012345
Modalités contribuant le plus
Dim 1 (37.14%)
Dim 2 (17.61%)
budget_n budget_neither physician_neither
physician_y salvador_n
salvador_y nicaraguan_n
−3 −2 −1 0 1 2 3
−4−2024
Modalités contribuant le plus
Dim 3 (8.97%)
Dim 4 (7.21%)
budget_neither
missile_neither
education_neither
VI. Aide à l’interprétation
Aides à l’interprétation
• Valeurs propres, pourcentage d’inertie associée à un axe
• Forme des nuages, coordonnées
• Qualités de représentation
• Contributions : individus, modalités
• Représentation des variables par leurs carrés des rapports de corrélation
• Éléments supplémentaires : individus particuliers, variables qualitatives (signalétique), variables quantitatives
VI. Aide à l’interprétation
Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
budget 0.7 0.52 0.15 0.06 0.03
physician 0.77 0.52 0.15 0.06 0.03
salvador 0.82 0.37 0.01 0.08 0.33
nicaraguan 0.79 0.33 0.14 0.05 0.08
missile 0.72 0.1 0.48 0.36 0
education 0.64 0.26 0.13 0.25 0.31
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
Dim 1 (37.14%)
Dim 2 (17.61%)
budget physician salvador nicaraguan
missile education
affiliation
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
Dim 3 (8.97%)
Dim 4 (7.21%)
budget physician salvadornicaraguan
missile education
affiliation
VI. Aide à l’interprétation
Aides à l’interprétation
• Valeurs propres, pourcentage d’inertie associée à un axe
• Forme des nuages, coordonnées
• Qualités de représentation
• Contributions : individus, modalités
• Représentation des variables par leurs carrés des rapports de corrélation
• Éléments supplémentaires : individus particuliers, variables qualitatives (signalétique), variables quantitatives
VI. Aide à l’interprétation
Variables qualitatives supplémentaires
−2 −1 0 1 2
0123456
Individus selon lors affiliation
Dim 1 (37.14%)
Dim 2 (17.61%)
democrat republican
−2 −1 0 1 2
012345
Modalités avec affiliation
Dim 1 (37.14%)
Dim 2 (17.61%)
budget_n budget_neither
budget_y physician_n physician_neither
physician_y salvador_n
salvador_neither
salvador_y nicaraguan_n nicaraguan_neither
nicaraguan_y
missile_n missile_neither
missile_y education_n
education_neither
education_y democrat republican
VI. Aide à l’interprétation
Quelques types de facteurs
• Facteur dû à quelques éléments hors norme
• Facteur m’étant en évidence un groupe
• Facteur d’opposition
• Facteur associé à une partition
• Facteur d’échelle
• Effet Guttman
VII. Tableau de Burt
Tableau de Burt
−2 −1 0 1 2 3
0123456
AMC à partir du tabeau de Burt
Dim 1 (70.57%)
Dim 2 (15.87%)
budget_n budget_neither
budget_y physician_n
physician_neither
physician_y salvador_n salvador_neither
salvador_y nicaraguan_n
nicaraguan_neither
nicaraguan_y missile_n missile_neither
missile_yeducation_n education_neither
education_y
−2 −1 0 1 2 3
0123456
AMC à partir du TDC
Dim 1 (37.14%)
Dim 2 (17.61%)
budget_n budget_neither
budget_y physician_n physician_neither
physician_y salvador_n salvador_neither
salvador_y nicaraguan_n
nicaraguan_neither
nicaraguan_ymissile_n missile_neither
missile_y education_n education_neither
education_y
VIII. Généralisation
Généralisation
• Données quantitatives en ACM : intérêt ? comment ?
−4 −2 0 2 4 6
−505
Premier plan pour l'ACP
Dim 1 (79.85%)
Dim 2 (18.97%)
Bordeaux Brest
Clermont Grenoble Lille
Lyon Marseille Montpellier
Nantes Nice
Paris Rennes
Strasbourg Toulouse Vichy
−1.0 −0.5 0.0 0.5 1.0 1.5 2.0
−2−1012
Premier pan pour l'ACM
Dim 1 (21.62%)
Dim 2 (16.15%)
Bordeaux Brest
Clermont Grenoble Lille
Lyon
Marseille Montpellier
Nantes
Nice
Paris Rennes
Strasbourg
Toulouse Vichy
−1.0 −0.5 0.0 0.5 1.0
−1.0−0.50.00.51.0
Liaisons pour l'ACP
Dim 1 (79.85%)
Dim 2 (18.97%)
jan fev
mar avr mai juin juil
aou sept
oct nov
dec lati
longi
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
Liaisons pour l'ACM
Dim 1 (21.62%)
Dim 2 (16.15%)
jan
fev mar
avr maijuin juil septaou
oct
nov dec
lati longi
−4 −2 0 2 4 6
−0.50.00.51.01.5
Coefficient de corrélation linéaire : 0.93
Premier facteur de l'ACP
Premier facteur de l'ACM
−2 −1 0 1 2 3 4
−1.5−1.0−0.50.00.51.0
Coefficient de corrélation linéaire : 0.43
Deuxième facteur de l'ACP
Deuxième facteur de l'ACM
−1.0 0.5 2.0
−4−202
Janvier
Dim 1 (21.62%)
Dim 2 (16.15%)
[0.4,2.34]
(4.88,5.6]
(5.6,7.5]
−1.0 0.5 2.0
−4−202
Février
Dim 1 (21.62%)
Dim 2 (16.15%)
[1.5,3.28]
(3.28,3.94]
(5.42,6.6]
(6.6,8.5]
−1.0 0.5 2.0
−4−202
Mars
Dim 1 (21.62%)
Dim 2 (16.15%)
[5.6,7.42]
(7.42,7.7]
(7.7,8.1]
(8.1,9.92]
(9.92,10.8]
−1.0 0.5 2.0
−4−202
Avril
Dim 1 (21.62%)
Dim 2 (16.15%)
[8.9,9.88]
(9.88,10.5]
(10.5,10.8]
(10.8,12.8]
(12.8,13.3]
−1.0 0.5 2.0
−4−202
Mai
Dim 1 (21.62%)
Dim 2 (16.15%)
[11.6,13.5]
(13.5,14]
(14,14.7]
(14.7,15.9]
−1.0 0.5 2.0
−4−202
Juin
Dim 1 (21.62%)
Dim 2 (16.15%)
[14.4,16.9]
(16.9,17.3]
(18.1,19.5]
−1.0 0.5 2.0
−4−202
Juillet
Dim 1 (21.62%)
Dim 2 (16.15%)
(19.2,20.3]
(20.3,21.3]
(21.3,23.3]
−1.0 0.5 2.0
−4−202
Août
Dim 1 (21.62%)
Dim 2 (16.15%)
[16,18.2]
(18.2,18.8]
(19.7,21.3]
(21.3,22.8]
−1.0 0.5 2.0
−4−202
Septembre
Dim 1 (21.62%)
Dim 2 (16.15%)
[14.7,15.6]
(15.6,16.1]
(16.1,16.8]
(16.8,18.7]
(18.7,20.3]
−1.0 0.5 2.0
−4−202
Octobre
Dim 1 (21.62%)
Dim 2 (16.15%)
[9.5,11.2]
(11.2,11.4]
(11.4,12.1]
(12.1,14]
(14,16]
−1.0 0.5 2.0
−4−202
Novembre
Dim 1 (21.62%)
Dim 2 (16.15%)
[4.9,6.58]
(6.58,6.94]
(6.94,8.36]
(8.36,9.28]
−1.0 0.5 2.0
−4−202
Décembre
Dim 1 (21.62%)
Dim 2 (16.15%)
[1.3,3.34]
(3.34,4.02]
VIII. Généralisation
Généralisation
• Données quantitatives en ACM
• Données mixtes : AFDM
IX. Mise en pratique
Mise en pratique
Les données sont extraites d’une ancienne enquête du Crédoc.
On a posé à 1000 personnes, les quatre questions d’opinion suivantes :
1. La préservation de l’environnement est une chose ...
2. Les découvertes scientifiques améliorent-elles la vie ? 3. Opinion sur le fonctionnement de la justice
4. La société française a-t-elle besoin de se transformer ? En outre, on a demandé les quatre repères sociaux suivants :
6. Sexe 7. Diplôme 8. Profession 9. Âge
M Éc E n
C5. C
LASSIFICATION NON SUPERVISÉE Julie Scholler - Bureau B246I. Introduction
Classification
Objectif : distinguer des sous-ensembles homogènes susceptibles de traitements et d’analyses différenciées
Classification : regrouper des objets en un nombre limité de classes ayant les propriétés suivantes :
• elles ne sont pas définies par l’analyste mais découvertes
• elles regroupent les objets ayant des caractéristiques similaires et séparent les objets très différents
Attention au vocabulaire : classification 6= classement
I. Introduction
Méthodes
Nombre de partitions de n objets : Bn = 1
e
n
X
k=1
kn k!
B4 = 15, B6 ' 200, B7 ' 900, B12 ' 30.000.000, B30 ' 1024 Impossible d’étudier toutes les partitions
Nécessité d’algorithmes performants Deux types :
• méthodes de partitionnement
• classifications hiérarchiques
I. Introduction
Qualité d’une partition
Critère de l’inertie
• Grande inertie interclasse
• Proportion d’inertie expliquée par les classes Nombre optimum de classes ?
II. Méthodes de partitionnement
Méthodes de partitionnement
Nombre de classes fixé Différents algorithmes :
• méthode des centres mobiles
• méthode des k-means
• méthode des nuées dynamiques
II. Méthodes de partitionnement
Algorithme des centres mobiles
Initialisation : On choisit k objets comme centres initiaux (tirage au sort, k premiers, un tous les n/k, etc.).
Puis on répète les étapes suivantes jusqu’à ce que la qualité de la partition ne s’accroisse plus significativement ou jusqu’à un nombre d’itérations fixé.
1. On calcule les distances entre les objets et les centres, puis on affecte chaque objet au centre le plus proche.
2. On remplace les k centres précédents par les barycentres des k nouvelles classes définies à l’étape précédente.
II. Méthodes de partitionnement
Premier exemple
+ + +
+
+ +
x
x x
II. Méthodes de partitionnement
Deuxième exemple
+ + + + + + +
A B C D E
F G
II. Méthodes de partitionnement
Avantages
• complexité linéaire : temps d’exécution proportionnel au nombre d’individu
• chaque itération améliore la qualité des classes qui peut être très élevées pour des classes sphériques
Inconvénients
• nombre de classes fixé
• la partition obtenue dépend des centres initiaux
• pas d’optimum global, juste local
II. Méthodes de partitionnement
Encore un exemple
−2 0 2 4
−6−4−202
Vitesse des différents algorithmes
• centres mobiles : 4 itérations
• k-means : 2 itérations
• nuées dynamiques : 1 seule itération
II. Méthodes de partitionnement
Encore un exemple
−2 0 2 4
−6−4−202
• Inertie totale : 473.6
• Inerties intra-groupes : 63.2 et 65.4 (en tout 128.6)
• Inertie inter-groupes : 345.0
• 72.8% de l’inertie est expliquée par le découpage en groupes.
II. Méthodes de partitionnement
En trois groupes
−2 0 2 4
−6−4−202
Essai 1 Inertie inter=375.45
−2 0 2 4
−6−4−202
Essai 2 Inertie inter=373.73
−2 0 2 4
−6−4−202
Essai 3 Inertie inter=369.29
Part d’inertie expliquée par le découpage : entre 78 et 79 %
III. Classifications hiérarchiques
Classification hiérarchique ascendante
Produit une suite de partitions emboîtées Algorithme
Initialisation : les classes initiales sont les n objets seuls.
Puis on répète les étapes suivantes jusqu’à ce que l’on ait plus qu’une seule classe.
1. On calcule les distances entre toutes les classes 2 à 2.
2. On regroupe les deux classes les plus proches.
III. Classifications hiérarchiques
Premier exemple
A
+
B
+
C
+
D
+
E+
Coordonnées :
• A (6; 0)
• B (2; 2)
• C (3,3)
• D (6; 4)
• E (7.5; 4)