• Aucun résultat trouvé

S´eance 3: Positionnement Multidimensionnel - Classification

N/A
N/A
Protected

Academic year: 2022

Partager "S´eance 3: Positionnement Multidimensionnel - Classification"

Copied!
26
0
0

Texte intégral

(1)

S ´eance 3: Positionnement Multidimensionnel - Classification

S ´ebastien Gadat

Laboratoire de Statistique et Probabilit ´es UMR 5583 CNRS-UPS

www.lsp.ups-tlse.fr/gadat

(2)

Introduction Distance, similarit ´es Recherche d’une configuration de points

Troisi `eme partie III

Positionnement Multidimensionnel

S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification

(3)

Introduction Distance, similarit ´es Recherche d’une configuration de points

Introduction

Notations

On suppose donn ´es n individus.

p variables de valeurs inconnues pour chaque individu.

Indice de dissimilarit ´e/distance entre chacun des individus connus.

♣ Comment construire une repr ´esentation euclidienne dans un

espace de taille r ´eduite fid `ele aux donn ´ees ?

(4)

Introduction Distance, similarit ´es Recherche d’une configuration de points

Exemples

Donn ´ees : tableau contenant les distances `a parcourir par route entre diff ´erentes villes (en km).

Les ”coordonn ´ees” des villes sont inconnues.

−800 −600 −400 −200 0 200 400

−400−2000200400

cp1

cp2

amie ando

ange

bale laba

besa bord

boul bour

bres

brux caen

cala

cham

cher

clem

dijo gene gren

leha hend

lill limo

lour

luxe lyon

lema

mars

metz mont

mulh nanc nant

nice

orle pari perp

poit

reim renn

roue

roya stma

stra toul

tour

troy

F

IG

.: Approximation euclidienne issue du tableau de distances.

S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification

(5)

Introduction Distance, similarit ´es Recherche d’une configuration de points

Exemples

♣ La matrice de distances est-elle euclidienne ?

♣ L’approximation euclidienne est-elle satisfaisante ?

La MDS est une technique factorielle (n ´ecessit ´e de d ´eterminer un nombre de dimension).

Possibilit ´e d’observer graphiquement les donn ´ees `a travers

diff ´erentes optiques.

(6)

Introduction Distance, similarit ´es Recherche d’une configuration de points

D ´efinitions

D ´efinitions

Rappelons quelques propri ´et ´es et d ´efinitions ´el ´ementaires mais basiques `a propos de la notion de distance.

Une matrice (n × n) D est appel ´ee matrice de distance si elle est sym ´etrique et si :

d

jj

= 0 et ∀(j, k), j 6= k, d

kj

≥ 0.

Une matrice (n × n) C est appel ´ee matrice de similarit ´e si elle est sym ´etrique et si

∀(j, k), c

kj

≤ c

jj

.

♣ On peut transformer une matrice de similarit ´e en (c

kj

)

j,k

en matrice de distance via :

d

kj

=(c

jj

+ c

kk

− 2c

kj

)

−1/2

S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification

(7)

Introduction Distance, similarit ´es Recherche d’une configuration de points

D ´efinitions

D ´efinitions

Une matrice de distance est dite euclidienne s’il existe une configuration de vecteurs {x

1

, . . . , x

n

} v ´erifiant

(d

kj

)

2

=

On note A la matrice issue de D de terme g ´en ´eral

(a

ji

) = − (d

kj

)

2

2

D d ´esigne la matrice des poids des individus.

(8)

Introduction Distance, similarit ´es Recherche d’une configuration de points

D ´efinitions

D ´efinitions

Proposition :

La matrice de projection D-orthogonale au vecteur 1 est donn ´ee par

H = Id − 11

0

D

Une matrice de distance D est euclidienne si et seulement si B = HAH

0

est sym ´etrique d ´efinie positive. (B est la matrice obtenue par double centrage de A).

Si la matrice de similarit ´e C est positive, alors la matrice de distance D d ´eduite de C est euclidienne.

S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification

(9)

Introduction Distance, similarit ´es Recherche d’une configuration de points

Recherche d’une configuration de points

Positionnement multidimensionnel : recherche d’une

configuration de points dans un espace euclidien qui admette une matrice de distances :

´egale `a D si celle-ci satisfait la proposition pr ´ec ´edente

meilleure approximation possible pour un rang de matrice donn ´e (en g ´en ´eral 2) de D

Il n’y a jamais unicit ´e d’une telle repr ´esentation : si (x

i

)

i

est une solution, alors

(z

i

)

i

= (Fx

i

+ b)

i

est une solution lorsque F orthogonale et b quelconque.

Une solution est donc d ´efinie `a rotation et translation pr `es.

(10)

Introduction Distance, similarit ´es Recherche d’une configuration de points

Algorithme MDS

On se donne D matrice de distance et B la matrice centr ´ee des lignes et colonnes, calcul ´ee comme pr ´ec ´edemment.

Si D est une matrice de distance euclidienne de points {x

1

, . . . , x

n

}, alors B s’ ´ecrit en fait

b

i,j

= hx

i

− ¯ x, x

j

− ¯ xi

et B se met sous la forme B = (HX)

0

(HX) et est appel ´ee matrice des produits scalaires de la configuration centr ´ee.

R ´eciproquement, si B est positive de rang p, on ´ecrit sa d ´ecomposition spectrale

B = U∆U

0

Les vecteurs sont les lignes de la matrice centr ´ee X = U∆

1/2

qui fournissent les coordonn ´ees des vecteurs de la repr ´esentation euclidienne.

S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification

(11)

Introduction Distance, similarit ´es Recherche d’une configuration de points

Relation entre ACP et MDS

Supposons que Y soit un nuage de n points (x

1

, . . . x

n

) d ´ecrits par p variables (connues). On d ´efinit D comme la matrice des distances entre les n individus :

d

ji

= kx

i

− x

j

k

M

La repr ´esentation graphique obtenue par MDS sur D est identique `a

la r ´ealisation d’une ACP sur (Y , M, 1/nId).

(12)

Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles

Quatri `eme partie IV Classification

S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification

(13)

Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles

Introduction

Notations

On suppose donn ´es n individus.

Les donn ´ees se pr ´esentent :

Sous la forme d’un tableau de distance

Les observations de p variables quantitatives sur les n individus Un m ´elange de variables qualitatives et quantitatives

Pour chacun des cas, on construit un tableau de distance entre individus

Objectif : recherche d’une segmentation (ou partition) des

individus

(14)

Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles

Introduction

Notations

Probl `eme : il y a trop de partitions possibles pour esp ´erer explorer toutes les segmentations des individus

Moyens : optimisation d’un crit `ere pour fusionner deux groupes d’individus

Le probl `eme trait ´e s’appelle clustering, c’est une technique d’apprentissage non supervis ´e

S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification

(15)

Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles

Construction d’un Crit `ere

Toutes les techniques pr ´esent ´ees seront des algorithmes it ´eratifs convergeant vers une ”bonne” partition.

Comment mesurer si une partition est ”bonne” ? Degr ´es de latitude :

Mesure d’ ´eloignement des individus

Crit `ere d’homog ´en ´eit ´e des classes `a optimiser (souvent un crit `ere de variance)

M ´ethode de fusion (Classification ascendante ou nu ´ees dynamiques)

Nombre de classes

Obtenir des classes ”homog `enes” (variance intra-classe faible) Obtenir des classes ”bien” distinctes (variance inter-classe

´elev ´ee)

(16)

Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles

Classification hi ´erarchique ascendante

Regrouper 2 individus les plus proches

Construction progressive d’un arbre du bas vers le haut S ´election de groupes `a ”fusionner” par le biais de calculs de sauts ou linkage

Nombre de classes d ´etermin ´e a posteriori

S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification

(17)

Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles

Classification Ascendante Hi ´erarchique sur les villes

luxemetz nancreim troy besa dijo stra

bale mulhmars nice

cham genegren lyon

hend

bord roya mont perpando lour toul

boul cala brux

lill

caen cher leha roue amieparibres

renn stma laba nantclem

limo poit ange lema tour bour orle

010002000300040005000

Height

F

IG

.: Villes : Exemple d’un dendrogramme issu de la classification des donn ´ees par CAH et saut de Ward.

S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification

(18)

Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles

Classification par r ´e-allocation dynamique

On fixe le nombre de classes k a priori

Tirage al ´eatoire (uniforme) de k centres de classe

Partition des individus en regroupant vers le centre le plus proche possible

Mise `a jour des centres comme barycentre des groupes obtenus It ´eration du processus jusqu’ `a stabilisation des partitions

S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification

(19)

Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles

CAH sur l’exemple des villes

5 10 15

10002000300040005000

nb de classes

Hauteur

F

IG

.: Villes : D ´ecroissance de la variance interclasses `a chaque regroupement dans le cas du saut de Ward.

S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification

(20)

Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles

CAH sur l’exemple des villes

−800 −600 −400 −200 0 200 400

−400−2000200400

cp1

cp2

amie ando

ange

bale laba

besa bord

boul bour

bres

brux caen

cala

cham

cher

clem

dijo gene gren

leha hend

lill limo

lour

luxe lyon

lema

mars

metz mont

mulh nanc nant

nice

orle pari perp

poit

reim renn

roue

roya stma

stra toul

tour

troy

F

IG

.: Villes : Repr ´esentation des classes (couleurs) obtenues par CAH dans les coordonn ´ees du MDS.

S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification

(21)

Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles

Stabilit ´e des classifications

Choix du nombre de classe : k est le plus petit entier correspondant `a une baisse non significative de la variance inter-classes : ici k = 5.

CAH : instabilit ´e importante par rapport aux modifications des distances entre individus initiaux

R ´e-allocation dynamique : plus grande stabilit ´e

(22)

Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles

Indice de ressemblance Indice de ressemblance Mesures d’ ´eloignement entre groupes

Mesures d’ ´eloignement entre individus

L’indice de ressemblance s satisfait :

∀(i, j) ∈ Ω s(i, j) = s(j, i)

∀i ∈ Ω s(i, i) = S > 0

∀(i, j) ∈ Ω s(i, j) < S

L’indice de dissemblance d satisfait :

∀(i, j) ∈ Ω d(i, j) = d(j, i)

∀i ∈ Ω d(i, i) = 0

On passe d’une notion `a l’autre en utilisant :

∀(i, j) ∈ Ω d(i, j) = S − s(i, j) Par ailleurs, on peut normer l’indice d par

d

?

(i, j) = 1 D d(i, j)

S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification

(23)

Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles

Indice de ressemblance Indice de ressemblance Mesures d’ ´eloignement entre groupes

Mesures d’ ´eloignement entre individus

Un indice de distance est un indice de dissemblance satisfaisant en plus :

∀(i, j) ∈ Ω d(i, j) = 0 = ⇒ i = j

Une distance est un indice de distance v ´erifiant en plus l’in ´egalit ´e triangulaire :

∀(i, j, k) ∈ Ω d(i, j) ≤ d(i, k) + d(k, j)

M ´etrique Euclidienne M = Id, distance euclidienne : d(x, y) = kx − yk

M

M ´etrique r ´eduite matrice diagonale M : inverse des ´ecarts types

M ´etrique de Mahalanobis : M inverse de la matrice de variance

covariance

S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification

(24)

Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles

Indice de ressemblance Indice de ressemblance Mesures d’ ´eloignement entre groupes

Mesures d’ ´eloignement entre groupes

Pour effectuer la CAH, il est n ´ecessaire de pouvoir calculer des distances entre groupes. Si A et B d ´esignent ces 2 groupes, on peut opter pour plusieurs strat ´egies :

♣ d(A, B)= Saut minimum, single linkage

♣ d(A, B)= Saut maximum, complete linkage

♣ d(A, B)= Saut moyen, average linkage

♣ d(A, B)= Barycentres, centro¨ıds

♣ d(A, B)= Saut de Ward

Le saut de Ward est la strat ´egie la plus courante : dans le cas Euclidien, ce crit `ere correspond `a chaque it ´eration `a minimiser la d ´ecroissance de la variance interclasse.

S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification

(25)

Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles

Propri ´et ´es des Centres mobiles

On initialise les k centres sur k individus parmi les n choisis au hasard.

Propri ´et ´e La variance inter-classes augmente `a chaque it ´eration.

L’algorithme converge vers un optimum local de la variance inter/intra classes.

Plusieurs am ´enagement ont ´et ´e propos ´es :

k-means : les barycentres des classes sont mis `a jour `a chaque allocation d’un individu dans une classe

on remplace le noyau barycentrique par un noyau repr ´esentatif

de la classe

(26)

Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles

Classification par Centres mobiles

−800 −600 −400 −200 0 200 400

−400−2000200400

cp1

cp2

amie ando

ange

bale laba

besa bord

boul bour

bres

brux caen

cala

cham

cher

clem

dijo gene gren

leha hend

lill limo

lour

luxe lyon

lema

mars

metz mont

mulh nanc nant

nice

orle pari perp

poit

reim renn

roue

roya stma

stra toul

tour

troy

F

IG

.: Villes : Repr ´esentation des classes (couleurs) obtenues par PAM dans les coordonn ´ees du MDS.

S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification

Références

Documents relatifs

Revenons dans ce paragraphe sur nos rdsultats rdlatifs aux nombres du troisibme degrd de discriminant donnd dont nous avons parld plus haut.. Donc, pour ddterminer les

Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.2 or any later version published by the

associons une dissimilarité à 3 voies, notée aussi T, dans laquelle les relations entre les éléments d’un ensemble (I, J ou K) ou entre deux ensembles sont

été observés sur n objets, la recherche d’une représentation utilisable des n objets dans le plan des deux premières composantes principales est sans aucun doute.. une

[r]

Naturellement la restriction “fonctions rationnelles” joue elle aussi son rˆole : comme les informaticiens savent bien, une s´eparation de cas peut ˆetre repr´esent´ee par

Le positionnement multidimensionnel est la recherche d’une configuration de points dans un espace euclidien qui admette D comme matrice de distances si celle-ci est euclidienne ou,

Les données se présentent sous la forme du triangle inférieur d’une matrice symétrique, par construction, et contenant les distances kilométriques de villes françaises prises 2 à