Partionnement non-supervisée Intelligence Artificielle et Systèmes Formels Master 1 I2L

(1)

Partionnement non-supervis´ ee

Intelligence Artificielle et Syst`emes Formels Master 1 I2L

S´ebastien Verel verel@lisic.univ-littoral.fr

http://www-lisic.univ-littoral.fr/^∼verel

Universit´e du Littoral Cˆote d’Opale Laboratoire LISIC Equipe CAMOME

(2)

Objectifs de la s´ eance 11

Connaitre l’algorithme du k-means

(3)

Introduction Partitionnement automatique Algorithme k-means

Plan

1 Introduction

2 Partitionnement automatique

3 Algorithme k-means

(4)

Types d’apprentissage

Apprentissage supervis´e :

Apprentissage sur un ensemble d’exemples étiquetés : (entrée, sortie désirée)

Apprentissage non supervis´e :

Apprentissage sur un ensemble d’exemples non ´etiquet´es (cf. clustering)

Apprentissage semi-supervis´e :

Apprentissage sur un ensemble d’exemples ´etiquet´es / non

´

etiquet´es

Apprentissage par renforcement :

Apprentissage o`u les actions sur l’environnement se mesurent par une r´ecompense

...

(5)

Exemple intuitif

id Qualit´e Prix

1 30 100

2 40 120

3 10 20

4 10 25

5 35 90

6 38 110

Peut-on partitionner l’ensemble de ces produits en k = 2 classes ?

Si oui, proposer un partition.

Un nouveau produit arrive (Q,P) = (32,92).

Dans quelle classe l’affecter ? Pourquoi ?

(6)

Exemples graphiques

-4 -2 0 2 4 6 8 10 12 14

2 3 4 5 6 7 8 9 10 11 12 13 2

3 4 5 6 7 8 9 10 11 12 13

0 1 2 3 4 5 6 7 8 9 10

(7)

Exemples graphiques

-4 -2 0 2 4 6 8 10 12 14

2 3 4 5 6 7 8 9 10 11 12 13 2

3 4 5 6 7 8 9 10 11 12 13

0 1 2 3 4 5 6 7 8 9 10

(8)

Pourquoi partitionner ?

Pour comprendre les données, Pour classifier des données, Pour prédire.

Quelques exemples issus du LISIC :

Monitoring System of Phytoplankton Blooms by using unsupervised classifier and time modeling. K.

Rousseeuw, ´E. Poisson Caillault, A. Lefebvre, D. Hamad. IEEE International Geoscience and Remote Sensing Symposium, IGARSS 2013. Melbourne, Australia, 21-26 July.

Constrained Spectral Embedding for K-Way Data Clustering. Guillaume Wacquet ; Emilie Poisson Caillault ; Denis Hamad ; Pierre-Alexandre H´ebert Pattern Recognition Letters, Available online 19 February 2013, Detection of contrasted physico-chemical and biological environmental status using unsupervised classification tools. ROUSSEEUW Kevin, LEFEBVRE Alain, CAILLAULT Emilie, HAMAD Denis 5th FerryBox Worshop, Helsinki, Finland, 24-25 April 2013.

A new benchmark image test suite for evaluating color texture classification schemes A. POREBSKI, N.

VANDENBROUCKE, L. MACAIRE, D. HAMAD Multimedia Tools and Applications Journal, 2013.

...

(9)

Position du probl` eme

Partitionnement entr´ee:

Ensemble den points / exemples / observations

E ={e₁,e2, . . . ,en}

sortie:

Partition de E

P ={P₁,P₂, . . . ,P_k}

´equivalent `a une fonction c :E → {1, . . . ,k}

Combien de partitions aveck clusters ?

kⁿ/k!

Beaucoup mˆeme pour n= 100 et k= 2, comment choisir ?...

(10)

Position du probl` eme

E ={e₁,e2, . . . ,en}

sortie:

Partition de E

P ={P₁,P₂, . . . ,P_k}

(11)

Position du probl` eme

E ={e₁,e2, . . . ,en}

sortie:

Partition de E

P ={P₁,P₂, . . . ,P_k}

kⁿ/k!

(12)

Probl` eme d’optimisation associ´ e

Probl`eme d’optimisation

Crit`ere de la qualit´e d’une partition : U :P(E)→IR

Trouver une bonne partition revient `a maximiser le crit`ere : argmax_P∈P(E)U(P)

Utilisation de m´ethodes d’optimisation (locale, greedy, etc.)...

(13)

Crit` ere de qualit´ e

Forme

En général, le critère est de la forme :

U(P) =

k

X

i∈1

w(P_i)

avecw une mesure de la qualit´e d’un cluster.

Exemples

Somme des carr´es des distances entre les points du cluster : w(Pi) = X

x∈P_i

X

y∈P_i

d²(x,y)

Probabilit´e d’observation des points du cluster : w(Pi) = Y

x∈P_i

Pr(x|θ_i)

Remarque : des fois, le crit`ere optimis´e est implicite...

(14)

Algorithmes de partitionnement

Diff´erentes approches :

Partitionnement hi´erarchique :

Regroupement (ou s´eparation) de clusters selon un crit`ere Dendrogramme

Partitionnement contro¨ıde :

Utilisation de centres pour param`etrer les clusters k-means (cf. plus loin)

Partitionnement fondé sur des distributions de probabilité Un cluster est représenté par une distribution de probabilité dont il faut trouver les paramètres

Algorithme E-M, Gaussian mixture models Partitionnement fond´e sur la densit´e :

Selon la densit´e locale de points, croissance du cluster DBSCAN

(15)

Pseudo-code

k-means

Choisir (al´eatoirement) k centresµ⁽¹⁾₁ , . . . , µ⁽¹⁾_k repeat

Affecter chaque observations au centre le plus proche : P_i^(t)={e_j : d(e_j, µ^(t)_i )≤d(e_j, µ^(t)_a ) ∀a= 1..k} Mettre `a jour les centres (moyenne des clusters) :

µ^(t+1)_i = ¹

]P_i^(t)

P

e_j∈P_i^(t)e_j

until plus de changement (convergence)

Le k-means est un algorithme local tel que U(P^(t+1))<U(P^(t+1)), d’o`u optima local...

(16)

Avantages / Inconv´ enients

Avantages

Facile à interpréter Facile à coder

Complexit´e polynomiale

Inconv´enients

Fixer le nombre de clusters k

La forme des clusters est supposée ”sphérique” et les clusters séparables