M Éc E n
C5. C
LASSIFICATION NON SUPERVISÉE Julie Scholler - Bureau B246I. Introduction
Classification
Objectif : distinguer des sous-ensembles homogènes susceptibles de traitements et d’analyses différenciées
Classification : regrouper des objets en un nombre limité de classes ayant les propriétés suivantes :
• elles ne sont pas définies par l’analyste mais découvertes
• elles regroupent les objets ayant des caractéristiques similaires et séparent les objets très différents
Attention au vocabulaire : classification 6= classement
I. Introduction
Méthodes
Nombre de partitions de n objets : Bn = 1
e
n
X
k=1
kn k!
B4 = 15, B6 ' 200, B7 ' 900, B12 ' 30.000.000, B30 ' 1024 Impossible d’étudier toutes les partitions
Nécessité d’algorithmes performants Deux types :
• méthodes de partitionnement
• classifications hiérarchiques
I. Introduction
Qualité d’une partition
Critère de l’inertie
• Grande inertie interclasse
• Proportion d’inertie expliquée par les classes Nombre optimum de classes ?
Méthodes de partitionnement
Nombre de classes fixé Différents algorithmes :
• méthode des centres mobiles
• méthode des k-means
• méthode des nuées dynamiques
II. Méthodes de partitionnement
Algorithme des centres mobiles
Initialisation : On choisit k objets comme centres initiaux (tirage au sort, k premiers, un tous les n/k, etc.).
Puis on répète les étapes suivantes jusqu’à ce que la qualité de la partition ne s’accroisse plus significativement ou jusqu’à un nombre d’itérations fixé.
1. On calcule les distances entre les objets et les centres, puis on affecte chaque objet au centre le plus proche.
2. On remplace les k centres précédents par les barycentres des k nouvelles classes définies à l’étape précédente.
II. Méthodes de partitionnement
Premier exemple
+ + +
+
+ +
x
x x
II. Méthodes de partitionnement
Deuxième exemple
+ + + + + + +
A B C D E
F G
Avantages
• complexité linéaire : temps d’exécution proportionnel au nombre d’individu
• chaque itération améliore la qualité des classes qui peut être très élevées pour des classes sphériques
Inconvénients
• nombre de classes fixé
• la partition obtenue dépend des centres initiaux
• pas d’optimum global, juste local
II. Méthodes de partitionnement
Encore un exemple
−2 0 2 4
−6−4−202
Vitesse des différents algorithmes
• centres mobiles : 4 itérations
• k-means : 2 itérations
• nuées dynamiques : 1 seule itération
II. Méthodes de partitionnement
Encore un exemple
−2 0 2 4
−6−4−202
• Inertie totale : 473.6
• Inerties intra-groupes : 63.2 et 65.4 (en tout 128.6)
• Inertie inter-groupes : 345.0
• 72.8% de l’inertie est expliquée par le découpage en groupes.
II. Méthodes de partitionnement
En trois groupes
−2 0 2 4
−6−4−202
Essai 1 Inertie inter=375.45
−2 0 2 4
−6−4−202
Essai 2 Inertie inter=373.73
−2 0 2 4
−6−4−202
Essai 3 Inertie inter=369.29
Part d’inertie expliquée par le découpage : entre 78 et 79 %
Classification hiérarchique ascendante
Produit une suite de partitions emboîtées
Algorithme
Initialisation : les classes initiales sont les n objets seuls.
Puis on répète les étapes suivantes jusqu’à ce que l’on ait plus qu’une seule classe.
1. On calcule les distances entre toutes les classes 2 à 2.
2. On regroupe les deux classes les plus proches.
III. Classifications hiérarchiques
Premier exemple
A
+
B
+
C
+
D
+
E+
Coordonnées
• A (6; 0)
• B (2; 2)
• C (3,3)
• D (6; 4)
• E (7.5; 4)
III. Classifications hiérarchiques
Distance entre deux individus
Distance entre deux individus : euclidienne, Manhattan, χ2, etc.
A
+
B
+
C
+
D
+
E+
Coordonnées :
• A (6; 0)
• B (2; 2)
• C (3,3)
• D (6; 4)
• E (7.5; 4)
Distance euclidienne
A B C D E
A 0
B 4.5 0
C 4.2 1.4 0
D 4 4.5 3.2 0
E 4.3 5.9 4.6 1.5 0 Distance de Manhattan
A B C D E
A 0
B 6 0
C 6 2 0
D 4 6 4 0
E 5.5 7.5 5.5 1.5 0
III. Classifications hiérarchiques
Choix des distances
Distance entre deux individus
• euclidienne
• de Manhattan
• du χ2, etc.
Distance ou écart entre groupes d’individus
• minimale, maximale, moyenne
• entre barycentres
• méthode de Ward
Méthode de Ward
Fusion des groupes faisant le moins baisser l’inertie inter-groupes
∆(A,B) = 1
n × nAnb
nA + nBd2(gA,gB)
avec gA et gB les barycentres des classes et nA et nB les effectifs des classes
Il ne s’agit pas d’une distance à proprement parler.
Interprétation
• regroupe des classes proches au sens de leurs barycentres
• regroupe des classes de faibles poids
• favorise l’agrégation entre eux d’éléments isolés
III. Classifications hiérarchiques
Réalisation d’une CAH
16 42 17 6 11 201
18 25 513 7 19 21 323 9
15 24 12 8 2 10 4
14 22 44 46 33 35 27 29 31 47 36 41 26 28 40 48 37 50 38 39 43 45 30 32 34 49
0.00.40.81.2
Single Linkage
12 210 9 15 24 21 323 7
19 17 611 1 5
13 20 18 25 16 14 22 4 8
33 44 46 45 30 32 35 43 34 49 38 39 28 40 48 47 36 41 27 29 31 42 26 37 50
0246810
Complete Linkage
Height
42 47 36 41 27 29 31 26 28 40 48 38 39 37 50 35 45 30 32 43 34 49 16 9 15 247
19 21 3 23 176 11 1 5
13 20 18 25 33 44 46 122 10 14 224 8
012345
Average Linkage
42 47 36 41 27 29 31 28 40 48 26 38 39 37 50 45 30 32 35 43 34 49 16 14 224 8 12 2
10 33 44 46 9 15 247
19 21 3 23 17 6 11 1 5
13 20 18 25
020406080
Ward Method
Height
III. Classifications hiérarchiques
−2 0 2 4
−6−4−202
Individu 16 en rouge
III. Classifications hiérarchiques
Choix du nombre de classes
∆k : augmentation d’inertie intraclasse lors du passage de k + 1 classes à k classes
Pseudo-critères
• allure générale de l’arbre du diagramme en bâton des gains d’inertie interclasse ∆k
• R : choisir k tel que ∆k−1
∆k est petit
• part d’inertie expliquée par les classes
• naturel : nature des données, visualisation
Avantages
• pas les deux principaux inconvénients des méthodes de partitionnement (nombre de classes fixé, dépendance aux centres initiaux)
• possibilité de choisir un nombre de classes optimal
Inconvénients
• complexité non linéaire (n3 diminuée à n2)
• critère de partitionnement non global
IV. En conclusion
Méthodes mixtes
Combiner les points forts, éviter les points faibles
• Partitionnement : rapide mais comment connaître le nombre de classes optimal
• CAH : pas d’a priori sur le nombre de classes, critère non global En pratique
Si beaucoup d’individus
1. Partitionnement en environ 20-50 groupes (n0.3)
2. CAH sur les représentants des groupes obtenus avec la méthode de partitionnement
3. Consolidation par partitionnement
IV. En conclusion
Analyse factorielle en renfort
• découvrir visuellement le nombre de classes (naturel) en amont
• visualiser a posteriori les classes obtenues
• éliminer le bruit en ne regardant que les coordonnées sur les premiers axes factoriels
Classification et imputation
• réalisation d’une classification non supervisée à partir des variables entièrement renseignées et imputation par la valeur moyenne ou la modalité majoritaire de la classe
V. Mise en pratique - Congrès
Nos données
Résultats des votes de la chambre des représentants du congrès américain en 1984 avec l’affiliation des différents représentants Individus : 435 représentants
Variables :
• affiliation : democrat ou republican
• budget, physician, salvador, nicaraguan, missile, education : y, n, neither
1 215
435 433 413 411 410 408 406 405 404 402 393 380 379 376 375 360 358 357 348 347 346 341 340 336 331 328 325 311 309 307 306 305 304 303 284 280 279 277 267 258 257 254 252 251 236 234 231 229 226 224 218 215 212 208 207 196 191 172 164 159 157 155 151 149 147 137 136 135 134 133 127 126 123 122 120 114 112 107 10088 87 85 84 83 80 68 67 66 62 60 59 58 57 56 54 50 39 37 36 31 34916 301 14329
142 403 35278 350 428 315 274 124 189 421 278 282 167 168 16377 86
386 174 165 162 101 161 4078936294 351 398983666
343 276 222 10279 957 8 417 383 370 365 364 27538
240 389 385 373 354 314 297 216 118 2057416976 198 230 431 344 232 184 108 249 396 288 342 374
3
302 429 15297 121 395 105 394 426 419 369 367 337 295 293 233 129 11393 21 49
388 384 247 382 422 399 397 387 368 289 290 35672 177 353 141 327 392 318 310 299 268 193 144 145 148 31713 10
432 427 425 424 423 420 418 415 412 390 381 377 361 345 339 338 334 333 332 330 329 322 321 320 319 313 312 308 300 298 294 286 285 281 273 272 271 270 269 266 265 264 263 261 260 259 256 255 253 246 245 242 237 228 227 223 221 220 219 214 213 211 210 204 203 202 201 199 194 190 188 187 185 183 182 181 180 176 175 173 171 170 166 158 154 153 150 146 140 139 138 132 128 125 119 117 115 111 110 109 10699 92 91 75 73 71 70 69 64 63 61 53 51 47 45 44 43 42 41 40 35 33 32 30 28 27 26 25 24 22 18 20 409 363 359 349 235 2068119755
238 13014 104 326 324 103 2171733582
287 200 416 250 244 23946 48 323 116 371 430 372 291 131 160
4
391 40096 434 378 401 195 316 241 296 19252
156 355 292 262 209 186 179 17823 65 12 11 283 248 22519 90
4145243
0.0 0.2 0.4
Height
Classification sur les données brutes avec la méthode de Ward
V. Mise en pratique - Congrès
Choix du nombre de classes
∆k : augmentation d’inertie intraclasse lors du passage de k + 1 classes à k classes
Pseudo-critères
• allure générale de l’arbre du diagramme en bâton des gains d’inertie interclasse ∆k
• R : choisir k tel que ∆k−1
∆k est petit
• part d’inertie expliquée par les classes
• naturel : nature des données, visualisation
V. Mise en pratique - Congrès
0.0 0.5 1.0 1.5 2.0
0 5 10 15 20
.
Inerties intra
0.0 0.2 0.4
0 5 10 15 20
.
Gains d'inertie inter
V. Mise en pratique - Congrès
121543543341341141040840640540440239338037937637536035835734834734634134033633132832531130930730630530430328428027927726725825725425225123623423122922622421821521220820719619117216415915715515114914713713613513413312712612312212011411210710088878584838068676662605958575654503937363134916301143291424033527835042831527412418942127828216716816377863861741651621011614078936294351398983666 343276222102799578
417383370365364275382403893853733543142972161182057416976198230431344232184108249396288342374
3
30242915297121395105394426419369367337295293233129113932149388384247382422399397387368289290356721773531413273923183102992681931441451483171310432427425424423420418415412390381377361345339338334333332330329322321320319313312308300298294286285281273272271270269266265264263261260259256255253246245242237228227223221220219214213211210204203202201199194190188187185183182181180176175173171170166158154153150146140139138132128125119117115111110109106999291757371706964636153514745444342414035333230282726252422182040936335934923520681197552381301410432632410321717335822872004162502442394648323116371430372291131160
4
39140096434378401195316241296192521563552922622091861791782365121128324822519904145243
0.0 0.2 0.4
Height
avec la méthode de Ward
Classification sur les données brutes
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●
●
●
●●●
●
●
●
●●
●●●●●●●●●●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0 2 4
−1 0 1
Dim1 (37.1%)
Dim2 (17.6%)
cluster
● 1
2 3
Visualisation des groupes
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●
●
●
●●●
●
●
●
●●
●●●●●●●●●●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0 2 4
−1 0 1
Dim1 (37.1%)
Dim2 (17.6%)
cluster
● 1 2 3
Visualisation des groupes
V. Mise en pratique - Congrès
Amélioration de la classification
Idée : modifier les données en entrée de la classification non supervisée
Objectif
• éliminer le bruit
• éviter de donner trop de poids à des individus aberrants (ou des erreurs)
Méthode
On ne conserve qu’une représentation des données correspondant à 90-95% de l’inertie totale.
Concrètement
On ne conserve que les coordonnées des individus sur les premiers axes d’une analyse factorielle.
V. Mise en pratique - Congrès
●
●
●
●
●
●
●
●
●
●
● ●
40 60 80 100
2.5 5.0 7.5 10.0 12.5
cumulative.variance.percent
Parts d'inerties cumulées
V. Mise en pratique - Congrès
1637786167168389385373354314297216118205232301143291422304314033527835039898366 78 41738337036536427538240386174165162101161428315274124189
121543543341341141040840640540440239338037937637536035835734834734634134033633132832531130930730630530430328428027927726725825725425225123623423122922622421821521220820719619117216415915715515114914713713613513413312712612312212011411210710088878584838068676662605958575654503937363134916184108249396288342374
3
302429152971213951053944212782827619834474169356721774078936294388384247382426419369367337295293233129113932149422399397387368289290
6
34327622210279954324274254244234204184154123903813773613453393383343333323303293223213203193133123083002982942862852812732722712702692662652642632612602592562552532462452422372282272232212202192142132112102042032022011991941901881871851831821811801761751731711701661581541531501461401391381321281251191171151111101091069992917573717069646361535147454443424140353332302827262524221820131035314132735139231831029926819314414514831740936335934923520681197552381301432410321710432617335822872004162502442394648323116371391400
4
43037229113116096434378401195316241296192521563552922622091861791782365414524312112832482251990
0.0 0.2 0.4
Height
avec découpage automatique
Classification en conservant 10 axes
6
343276222102799574169352783504212782823011432914234423043116716876198163778639898366
121543543341341141040840640540440239338037937637536035835734834734634134033633132832531130930730630530430328428027927726725825725425225123623423122922622421821521220820719619117216415915715515114914713713613513413312712612312212011411210710088878584838068676662605958575654503937363134916386174165162101161232 78
41738337036536427538240428315274124189389385373354314297216118205184108249395105394396152288342302429374
39712143242742542442342041841541239038137736134533933833433333233032932232132031931331230830029829428628528127327227127026926626526426326126025925625525324624524223722822722322122021921421321121020420320220119919419018818718518318218118017617517317117016615815415315014614013913813212812511911711511111010910699929175737170696463615351474544434241403533323028272625242218201310356721779439231831029926819314414538838424738240936335934923520681197426419369367337295293233129113932149552384223993973873682892903531413274078936214831740335110432641625024423946481032171733582287200324130149643439140029619252156241316195116371323372291131160430
4
355292262209186179178236537840112112832482251990243414
50.0
0.2 0.4
Height
avec découpage automatique
Classification en conservant 5 axes
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●
●
●
●●●
●
●
●
●●
●●●●●●●●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0 2 4
−1 0 1
Dim1 (37.1%)
Dim2 (17.6%)
cluster
● 1
2 3
À partir de 10 dimensions
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●
0 2 4
−1 0 1
Dim1 (37.1%)
Dim2 (17.6%)
cluster
● 1
2 3 4 5 6 7
À partir de 5 dimensions
V. Mise en pratique - Congrès
Consolidation de la partition obtenue
Objectif
• encore diminuer l’inertie intraclasse
• palier (partiellement) au problème d’optimisation non globale de la CAH
Méthode
Réalisation d’une méthode de partitionnement à partir des centres des classes obtenues à l’issue de la CAH