Clustering

(1)

M Éc E n

C5. C

LASSIFICATION NON SUPERVISÉE Julie Scholler - Bureau B246

I. Introduction

Classification

Objectif : distinguer des sous-ensembles homogènes susceptibles de traitements et d’analyses différenciées

Classification : regrouper des objets en un nombre limité de classes ayant les propriétés suivantes :

• elles ne sont pas définies par l’analyste mais découvertes

• elles regroupent les objets ayant des caractéristiques similaires et séparent les objets très différents

Attention au vocabulaire : classification 6= classement

(2)

Méthodes

Nombre de partitions de n objets : B_n = 1

e

n

X

k=1

kⁿ k!

B₄ = 15, B₆ ' 200, B₇ ' 900, B₁₂ ' 30.000.000, B₃₀ ' 10²⁴ Impossible d’étudier toutes les partitions

Nécessité d’algorithmes performants Deux types :

• méthodes de partitionnement

• classifications hiérarchiques

I. Introduction

Qualité d’une partition

Critère de l’inertie

• Grande inertie interclasse

• Proportion d’inertie expliquée par les classes

Nombre optimum de classes ?

(3)

II. Méthodes de partitionnement

Méthodes de partitionnement

Nombre de classes fixé Différents algorithmes :

• méthode des centres mobiles

• méthode des k-means

• méthode des nuées dynamiques

Algorithme des centres mobiles

Initialisation : On choisit k objets comme centres initiaux (tirage au sort, k premiers, un tous les n/k, etc.).

Puis on répète les étapes suivantes jusqu’à ce que la qualité de la partition ne s’accroisse plus significativement ou jusqu’à un nombre d’itérations fixé.

1. On calcule les distances entre les objets et les centres, puis on affecte chaque objet au centre le plus proche.

2. On remplace les k centres précédents par les barycentres des k nouvelles classes définies à l’étape précédente.

(4)

Premier exemple

(5)

(6)

(7)

(8)

(9)

(10)

Deuxième exemple

+ + + + + + +

A B C D E

F G

1. Centres initiaux : A, D, F 2. Centres initiaux : A, B, C

Avantages

• complexité linéaire : temps d’exécution proportionnel au nombre d’individu

• chaque itération améliore la qualité des classes qui peut être très élevées pour des classes sphériques

Inconvénients

• nombre de classes fixé

• la partition obtenue dépend des centres initiaux

• pas d’optimum global, juste local

(11)

Encore un exemple

−2 0 2 4

−6−4−202

Vitesse des différents algorithmes

• centres mobiles : 4 itérations

• k-means : 2 itérations

• nuées dynamiques : 1 seule itération

Encore un exemple

−2 0 2 4

−6−4−202

• Inertie totale : 473.6

• Inerties intra-groupes : 63.2 et 65.4 (en tout 128.6)

• Inertie inter-groupes : 345.0

• 72.8% de l’inertie est expliquée par le découpage en groupes.

(12)

En trois groupes

−2 0 2 4

−6−4−202

Essai 1 Inertie inter=375.45

−2 0 2 4

−6−4−202

−2 0 2 4

−6−4−202

Part d’inertie expliquée par le découpage : entre 78 et 79 %

III. Classifications hiérarchiques

Classification hiérarchique ascendante

Produit une suite de partitions emboîtées

Algorithme

Initialisation : les classes initiales sont les n objets seuls.

Puis on répète les étapes suivantes jusqu’à ce que l’on ait plus qu’une seule classe.

1. On calcule les distances entre toutes les classes 2 à 2.

2. On regroupe les deux classes les plus proches.

(13)

Premier exemple

(14)

Premier exemple

(15)

Premier exemple

(16)

Premier exemple

Choix des distances

Distance entre deux individus

• euclidienne

• de Manhattan

• du χ², etc.

Distance ou écart entre groupes d’individus

• minimale, maximale, moyenne

• entre barycentres

• méthode de Ward

(17)

Méthode de Ward

Fusion des groupes faisant le moins baisser l’inertie inter-groupes

∆(A,B) = 1

n × n_An_b

n_A + n_Bd²(g_A,g_B)

avec g_A et g_B les barycentres des classes et n_A et n_B les effectifs des classes

Il ne s’agit pas d’une distance à proprement parler.

Interprétation

• regroupe des classes proches au sens de leurs barycentres

• regroupe des classes de faibles poids

• favorise l’agrégation entre eux d’éléments isolés

Réalisation d’une CAH

16 42 17 6 11 201

18 25 513 7 19 21 323 9

15 24 12 8 2 10 4

14 22 44 46 33 35 27 29 31 47 36 41 26 28 40 48 37 50 38 39 43 45 30 32 34 49

0.00.40.81.2

Single Linkage

12 210 9 15 24 21 323 7

19 17 611 1 5

13 20 18 25 16 14 22 4 8

33 44 46 45 30 32 35 43 34 49 38 39 28 40 48 47 36 41 27 29 31 42 26 37 50

0246810

Complete Linkage

Height

42 47 36 41 27 29 31 26 28 40 48 38 39 37 50 35 45 30 32 43 34 49 16 9 15 247

19 21 3 23 176 11 1 5

13 20 18 25 33 44 46 122 10 14 224 8

012345

Average Linkage

42 47 36 41 27 29 31 28 40 48 26 38 39 37 50 45 30 32 35 43 34 49 16 14 224 8 12 2

10 33 44 46 9 15 247

19 21 3 23 17 6 11 1 5

13 20 18 25

020406080

Ward Method

Height

(18)

−2 0 2 4

−6−4−202

Individu 16 en rouge

Choix du nombre de classes

∆_k : augmentation d’inertie intraclasse lors du passage de k + 1 classes à k classes

Pseudo-critères

• allure générale de l’arbre du diagramme en bâton des gains d’inertie interclasse ∆_k

• R : choisir k tel que ∆_k−1

∆_k est petit

• part d’inertie expliquée par les classes

• naturel : nature des données, visualisation

(19)

Avantages

• pas les deux principaux inconvénients des méthodes de partitionnement (nombre de classes fixé, dépendance aux centres initiaux)

• possibilité de choisir un nombre de classes optimal

Inconvénients

• complexité non linéaire (n³ diminuée à n²)

• critère de partitionnement non global

IV. En conclusion

Méthodes mixtes

Combiner les points forts, éviter les points faibles

• Partitionnement : rapide mais comment connaître le nombre de classes optimal

• CAH : pas d’a priori sur le nombre de classes, critère non global En pratique

Si beaucoup d’individus

1. Partitionnement en environ 20-50 groupes (n^0.3)

2. CAH sur les représentants des groupes obtenus avec la méthode de partitionnement

3. Consolidation par partitionnement

(20)

Analyse factorielle en renfort

• découvrir visuellement le nombre de classes (naturel) en amont

• visualiser a posteriori les classes obtenues

• éliminer le bruit en ne regardant que les coordonnées sur les premiers axes factoriels

Classification et imputation

• réalisation d’une classification non supervisée à partir des variables entièrement renseignées et imputation par la valeur moyenne ou la modalité majoritaire de la classe

V. Mise en pratique - Congrès

Nos données

Résultats des votes de la chambre des représentants du congrès américain en 1984 avec l’affiliation des différents représentants Individus : 435 représentants

Variables :

• affiliation : democrat ou republican

• budget, physician, salvador, nicaraguan, missile, education : y, n, neither

(21)

1 215

435 433 413 411 410 408 406 405 404 402 393 380 379 376 375 360 358 357 348 347 346 341 340 336 331 328 325 311 309 307 306 305 304 303 284 280 279 277 267 258 257 254 252 251 236 234 231 229 226 224 218 215 212 208 207 196 191 172 164 159 157 155 151 149 147 137 136 135 134 133 127 126 123 122 120 114 112 107 10088 87 85 84 83 80 68 67 66 62 60 59 58 57 56 54 50 39 37 36 31 34916 301 14329

142 403 35278 350 428 315 274 124 189 421 278 282 167 168 16377 86

386 174 165 162 101 161 4078936294 351 398983666

343 276 222 10279 957 8 417 383 370 365 364 27538

240 389 385 373 354 314 297 216 118 2057416976 198 230 431 344 232 184 108 249 396 288 342 374

3

302 429 15297 121 395 105 394 426 419 369 367 337 295 293 233 129 11393 21 49

388 384 247 382 422 399 397 387 368 289 290 35672 177 353 141 327 392 318 310 299 268 193 144 145 148 31713 10

432 427 425 424 423 420 418 415 412 390 381 377 361 345 339 338 334 333 332 330 329 322 321 320 319 313 312 308 300 298 294 286 285 281 273 272 271 270 269 266 265 264 263 261 260 259 256 255 253 246 245 242 237 228 227 223 221 220 219 214 213 211 210 204 203 202 201 199 194 190 188 187 185 183 182 181 180 176 175 173 171 170 166 158 154 153 150 146 140 139 138 132 128 125 119 117 115 111 110 109 10699 92 91 75 73 71 70 69 64 63 61 53 51 47 45 44 43 42 41 40 35 33 32 30 28 27 26 25 24 22 18 20 409 363 359 349 235 2068119755

238 13014 104 326 324 103 2171733582

287 200 416 250 244 23946 48 323 116 371 430 372 291 131 160

4

391 40096 434 378 401 195 316 241 296 19252

156 355 292 262 209 186 179 17823 65 12 11 283 248 22519 90

4145243

0.0 0.2 0.4

Height

Classification sur les données brutes avec la méthode de Ward

Choix du nombre de classes

∆_k : augmentation d’inertie intraclasse lors du passage de k + 1 classes à k classes

Pseudo-critères

• allure générale de l’arbre du diagramme en bâton des gains d’inertie interclasse ∆_k

• R : choisir k tel que ∆_k−1

∆_k est petit

• average silhouette : mesure à quel point un individu est dans le bon groupe

• gap statistic : comparaison avec une situation aléatoire

• part d’inertie expliquée par les classes

• naturel : nature des données, visualisation

(22)

0.0 0.5 1.0 1.5 2.0

0 5 10 15 20

.

Within cluster inertia

0.0 0.2 0.4

0 5 10 15 20

.

Between inertia gain

0.9 1.1 1.3 1.5 1.7

1 2 3 4 5 6 7 8 9 10

Number of clusters k

Gap statistic (k)

Optimal number of clusters

0.0 0.2 0.4 0.6

1 2 3 4 5 6 7 8 9 10

Number of clusters k

Average silhouette width

Optimal number of clusters

1215

43543341341141040840640540440239338037937637536035835734834734634134033633132832531130930730630530430328428027927726725825725425225123623423122922622421821521220820719619117216415915715515114914713713613513413312712612312212011411210710088878584838068676662605958575654503937363134916 30114329 14240335278

3504283152741241894212782821671681637786 3861741651621011614078936294

351398983666 343276222102799578

41738337036536427538 2403893853733543142972161182057416976

198230431344232184108249396288342374

3

30242915297 121395105394426419369367337295293233129113932149

38838424738242239939738736828929035672 1773531413273923183102992681931441451483171310

4324274254244234204184154123903813773613453393383343333323303293223213203193133123083002982942862852812732722712702692662652642632612602592562552532462452422372282272232212202192142132112102042032022011991941901881871851831821811801761751731711701661581541531501461401391381321281251191171151111101091069992917573717069646361535147454443424140353332302827262524221820 4093633593492352068119755

23813014 1043263241032171733582

2872004162502442394648 323116371430372291131160

4

39140096 43437840119531624129619252

15635529226220918617917823651211 2832482251990

4145243

0.0 0.2 0.4

Height

avec la méthode de Ward

Classification sur les données brutes

●

●●

●

●●

●

●●

●

●●●●●●●●

●

●●●

●

●●

●●●●●●●●●●●

●

●●

●

0 2 4

−1 0 1

Dim1 (37.1%)

Dim2 (17.6%)

cluster

● 1

2 3

Visualisation des groupes

(23)

●

●●

●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●

●●●

●

●●

●●●●●●●●●●●

●

●●

●

0 2 4

−1 0 1

Dim1 (37.1%)

Dim2 (17.6%)

cluster

● 1 2 3

Visualisation des groupes

Amélioration de la classification

Idée : modifier les données en entrée de la classification non supervisée

Objectif

• éliminer le bruit

• éviter de donner trop de poids à des individus aberrants (ou des erreurs)

Méthode

On ne conserve qu’une représentation des données correspondant à 90-95% de l’inertie totale.

Concrètement

On ne conserve que les coordonnées des individus sur les premiers axes d’une analyse factorielle.

(24)

●

● ●

40 60 80 100

2.5 5.0 7.5 10.0 12.5

cumulative.variance.percent

Parts d'inerties cumulées

1637786167168389385373354314297216118205232301143291422304314033527835039898366 78 41738337036536427538240386174165162101161428315274124189

121543543341341141040840640540440239338037937637536035835734834734634134033633132832531130930730630530430328428027927726725825725425225123623423122922622421821521220820719619117216415915715515114914713713613513413312712612312212011411210710088878584838068676662605958575654503937363134916184108249396288342374

3

302429152971213951053944212782827619834474169356721774078936294388384247382426419369367337295293233129113932149422399397387368289290

6

34327622210279954324274254244234204184154123903813773613453393383343333323303293223213203193133123083002982942862852812732722712702692662652642632612602592562552532462452422372282272232212202192142132112102042032022011991941901881871851831821811801761751731711701661581541531501461401391381321281251191171151111101091069992917573717069646361535147454443424140353332302827262524221820131035314132735139231831029926819314414514831740936335934923520681197552381301432410321710432617335822872004162502442394648323116371391400

4

43037229113116096434378401195316241296192521563552922622091861791782365414524312112832482251990

0.0 0.2 0.4

Height

avec découpage automatique

Classification en conservant 10 axes

6

343276222102799574169352783504212782823011432914234423043116716876198163778639898366

121543543341341141040840640540440239338037937637536035835734834734634134033633132832531130930730630530430328428027927726725825725425225123623423122922622421821521220820719619117216415915715515114914713713613513413312712612312212011411210710088878584838068676662605958575654503937363134916386174165162101161232 78

41738337036536427538240428315274124189389385373354314297216118205184108249395105394396152288342302429374

39712143242742542442342041841541239038137736134533933833433333233032932232132031931331230830029829428628528127327227127026926626526426326126025925625525324624524223722822722322122021921421321121020420320220119919419018818718518318218118017617517317117016615815415315014614013913813212812511911711511111010910699929175737170696463615351474544434241403533323028272625242218201310356721779439231831029926819314414538838424738240936335934923520681197426419369367337295293233129113932149552384223993973873682892903531413274078936214831740335110432641625024423946481032171733582287200324130149643439140029619252156241316195116371323372291131160430

4

355292262209186179178236537840112112832482251990243414

50.0

0.2 0.4

Height

avec découpage automatique

Classification en conservant 5 axes

(25)

●

●●

●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●

●●●

●

●●

●●●●●●●●●●●●

●

●●●

●

●●

●

●●

●

0 2 4

−1 0 1

Dim1 (37.1%)

Dim2 (17.6%)

cluster

● 1

2 3

À partir de 10 dimensions

●

● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●

0 2 4

−1 0 1

Dim1 (37.1%)

Dim2 (17.6%)

cluster

● 1

2 3 4 5 6 7

À partir de 5 dimensions

Consolidation de la partition obtenue

Objectif

• encore diminuer l’inertie intraclasse

• palier (partiellement) au problème d’optimisation non globale de la CAH

Méthode

Réalisation d’une méthode de partitionnement à partir des centres des classes obtenues à l’issue de la CAH