• Aucun résultat trouvé

3.3 Classification non supervisée

Jusqu’à présent, nous avons considéré que chaque forme qui est présentée au système possède une étiquette, et que l’on connaissait ainsi sa classe, ce qui permettait de procéder à l’apprentissage. Dans le cas de la classification non supervisée, on ne dispose pas de ces informations, ce qui rend plus complexe le processus de classification.

3.3.1 Modèles de mélange

Le principe des modèles de mélange consiste à décomposer la densité P (x) en une somme de c composantes correspondant aux c classes, paramétrées par Θi, i = 1, · · · ,c. Chacune de ces composantes se voit affectée d’un coefficient πi représentant la probabilité a priori des différentes classes :

P (x|Θ) =

c X

i=1

πiP (x|Θi). (3.32)

Ces coefficients respectent les contraintes suivantes : πi∈]0, 1[ et

c X

i=1

πi = 1 (3.33)

L’ensemble des paramètres à estimer Θ est donc composé des coefficients de mélange et des paramètres des distributions propres à chaque classe. (Ici encore, par souci de simplicité, nous considérerons le cas où les distributions sont gaussiennes.) Dans le cas où les distribu-tions sont normales, les classes sont définies par une moyenne et une matrice de covariance, donnant P (x|Θi) = 1 (2π)p/2 1 i|1/2 exp 1 2(x − vi) TΣi−1(x − vi) ! (3.34) Afin de trouver ces paramètres, on cherchera à maximiser la vraisemblance.À la différence du cas supervisé, nous ne connaissons pas les classes, nous sommes donc dans une situation ou les données sont incomplètes. L’algorithme Expectation-Maximization (EM) est utilisé dans cette situation. Une variable aléatoire Z correspondant aux données manquantes est ajoutée au modèle. Les réalisations zk= {z1k, · · · ,zck} de Z sont en fait les vecteurs d’appartenance de x aux classes :

zik=

(

1 si xk appartient à ωi

0 sinon (3.35)

Ainsi lorsque nous maximisions L(X|v,Σ) par la technique du maximum de vraisemblance, nous cherchons maintenant à maximiser L(X,Z|v,Σ). L’approche EM consiste, de manière alternative, à calculer l’espérance conditionnelle de la vraisemblance complète (E-step)

Q(Θ| ˆΘ(t)) =E[L(Θ)|(X, ˆΘ(t))] (3.36) puis de mettre à jour les paramètres des modèles (M-step)

ˆ

Θ(t+1)= argmaxΘQ(Θ| ˆΘ(t)) (3.37)

3.3.2 Partitions

Dans cette section, nous rappelons brièvement quelques principes généraux des méthodes de classification par partitionnement.

3.3.2.1 Voronoï

La région Ri de Voronoï du prototype vi est l’ensemble des vecteurs deRp pour lesquels

vi est le vecteur le plus proche : Ri =

x ∈ X : i = argminj||x − vj||2

(3.38) Ces régions forment des cellules, et l’ensemble constitue un diagramme de Voronoï. Chaque point contenu dans une cellule, c’est à dire une région Ri, appartient ainsi à la classe du prototype correspondant, voir Fig.3.3. Cette notion de partition de l’espace en cellules est

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

Fig. 3.3: Diagramme de Voronoï - Les prototypes sont représentés par des points rouge, et les frontières par des traits bleus

primordiale, puisque, selon que l’on soit en classification supervisée ou non supervisée, on aboutira aux méthodes des k plus proches voisins et des c-moyennes, respectivement.

3.3.2.2 C-moyennes

Lloyd propose dans [Lloyd,1982] un algorithme simple permettant de construire un dia-gramme de Voronoï à partir des données X. Celui-ci est plus connu sous le nom de K-means, ou HCM, ou en français, et en gardant la notation c pour le nombre de classes, C-moyennes. Brièvement, cet algorithme, à partir d’une initialisation des c vecteurs prototypes, cherche à minimiser la distance intra-classes

J = c X i=1 X x∈ωi ||x − vi||2 (3.39)

3.3. Classification non supervisée 89

À chaque itération, les prototypes vi sont mis à jour selon

vi= 1 ni

X

x∈ωi

x (3.40)

jusqu’à convergence des prototypes. En fin d’algorithme, on obtient donc un ensemble de prototypes, et un diagramme de Voronoï associé. Un problème de cette approche est sa sensibilité à l’initialisation des prototypes, c’est pourquoi il est usuel d’initialiser de manière aléatoire les prototypes, et de relancer plusieurs fois l’algorithme.

3.3.2.3 C-moyennes floues

Dans l’algorithme précédent, les éléments appartenaient ou non à des ensembles, et ce de manière stricte. Grâce à l’approche floue, cette appartenance est dorénavant une valeur com-prise entre 0 et 1, et permet ainsi de modéliser l’appartenance de x à plusieurs ensembles. L’algorithme des C-moyennes floues (FCM, [Bezdek,1981]) est l’extension immédiate des C-moyennes. On cherche à minimiser la fonctionnelle suivante

Jm(U,V ) = n X k=1 c X i=1 umik||xk− vi||2 (3.41)

où les degrés uik d’appartenance de xk au cluster i sont calculés sous les contraintes

c X i=1 uik= 1 (3.42) et 0 < n X k=1 uik < n(∀i = 1,c) (3.43) pour tout xk dans X, et sont éléments de la matrice de c-partition floue U = [u1,...,uc] de taille (c × n). Le paramètre de fuzzification m > 1 permet de rendre la partition obtenue plus ou moins floue. Plus m est grand, plus les frontières sont douces, plus m est petit, plus la partition obtenue sera stricte (c’est à dire qu’elle contiendra uniquement des 0 et des 1). La minimisation de (3.41) s’obtient par itérations successives de (U,V ) :

uik = 1 , c X j=1 ||xk− vi|| ||xk− vj|| !2/(m−1) (3.44) vi = Pn k=1umikxk Pn k=1um ik (3.45) L’algorithme continue jusqu’à ce que la valeur de la fonctionnelle Jm(U,V ) converge. Comme pour l’algorithme précédent, il faut aussi choisir le nombre de clusters, ainsi qu’un paramètre supplémentaire, m.

Nous ne développons pas plus l’étude de cet algorithme dans cette partie, dans la mesure ou celle-ci sera fournie dans un autre chapitre, où nous nous concentrerons sur le choix de la valeur de c pour le clustering flou.

3.3.2.4 C-moyennes possibilistes

En tant que nouvelle modification des C-moyennes, l’approche possibiliste relâche la contrainte (3.42). Ainsi, on pourra trouver une forme x ayant un faible degré d’apparte-nance à l’ensemble des classes, comme une forme possédant un fort degré d’apparted’apparte-nance à plusieurs classes. Ces deux situations correspondront aux points atypiques et aux classes se chevauchant, respectivement. Dans ce contexte, nous appellerons les degrés d’appartenance des degrés de typicalité. La première formulation des C-moyennes possibilistes (PCM, [Kri-shnapuram and Keller,1993]) inclut un terme de pénalité évitant les solutions triviales, en introduisant un biais de 1 pour tous les degrés.

Jm(U,V ) = n X k=1 c X i=1 umik||xk− vi||2+ c X i=1 ηi n X k=1 (1 − uik)m (3.46) Dans la seconde approche [Krishnapuram and Keller, 1996], le terme de pénalité est l’en-tropie des groupes de données, on voudra ainsi minimiser le désordre. La fonctionnelle s’écrit Jm(U,V ) = n X k=1 c X i=1 uik||xk− vi||2+ c X i=1 ηi n X k=1 (uiklog uik− uik)m (3.47) où le paramètre ηi est un compromis lié à la taille des groupes. Les auteurs suggèrent de l’estimer de la manière suivante

ηi = γ

Pn

k=1umik||xk− vi||2

Pn

k=1umik (3.48)

lors de chaque itération, ou de manière fixe, ce qui est plus en adéquation avec le calcul lors de la minimisation, où il est considéré comme tel. Un nouveau paramètre γ est introduit dans ce calcul, mais celui-ci est généralement fixé à 1. Selon la fonctionnelle considérée, la mise à jour des degrés d’appartenance se fait par

uik = 1 , 1 + ||xk− vi||2 ηi ! 1 m−1 (3.49) uik = exp ||xk− vi|| 2 ηi ! (3.50) et celle des centres en utilisant (3.45), et en fixant m = 1 pour la deuxième approche. L’avan-tage de cette méthode réside en plusieurs points. Le degré d’appartenance d’un point à une classe ne dépend plus de celui aux autres classes, on peut en fait le voir comme une distance particulière (induisant des difficultés d’interprétation des degrés d’appartenance obtenus). Cette indépendance est particulièrement intéressante dans le cas de données bruitées ou se chevauchant car ce sont des situations que l’on pourra reconnaître en étudiant les degrés d’appartenance. Un deuxième point, que certains auteurs voient comme un inconvénient, est qu’à la fin de l’algorithme, deux clusters peuvent être identiques. Dans le cas où le nombre de clusters n’est pas connu, il peut être pratique de fixer celui-ci à une valeur assez élevé, et laisser l’algorithme PCM trouver un nombre correct de clusters, quitte à fusion-ner les clusters par la suite. On remarquera que ce nombre de clusters correct est obtenu de manière indirecte par une mesure d’entropie dans (3.47), qui est aussi une mesure de validité de partition, voir Chapitre5.

3.3. Classification non supervisée 91

Les trois méthodes HCM, FCM et PCM font parties de la famille des C-moyennes, et chacune d’elles impose des contraintes différentes sur les degrés d’appartenance. Ainsi les uik appartiennent aux ensembles suivants

– HCM : uk ∈ Lhc= {uk ∈ [0, 1]c: c X i=1 uik = 1, uik ∈ {0, 1}} (3.51) – FCM : uk∈ Lf c= {uk∈ [0, 1]c: c X i=1 uik= 1} (3.52) – PCM : uk∈ Lpc= {uk∈ [0, 1]c} (3.53) Ainsi défini, on remarque assez rapidement que

HCM ⊂ F CM ⊂ P CM

3.3.2.5 Variantes des C-moyennes

Les trois algorithmes des C-moyennes qui viennent d’être présentés sont basés sur une représentation par points des prototypes. D’autre part, l’utilisation de distance euclidienne ne permet d’obtenir que des clusters hyper-sphériques, ne donnant pas toujours de bons résultats. C’est ainsi que Gustafsson et Kessel [Gustafson and Kessel, 1979] proposent d’utiliser des matrices de covariances Ai estimées à partir des degrés d’appartenance uik. Cela ajoute donc un descripteur supplémentaire à chaque classe, décrite maintenant par le couple (vi, Ai). La fonctionnelle à minimiser s’écrit donc

Jm(U,V ) = n X k=1 c X i=1 umik||xk− vi||2A i (3.54)

où det(Ai) = ρi > 0, garantissant que Ai est définie positive. Les auteurs montrent en particulier que la minimisation de (3.54) conduit à la condition

Ai=ρidet(Ci)

1/p

Ci−1 (3.55)

où Ci est la matrice de covariance floue usuelle : Ci =

Pn

k=1umik(xk− vi)(xk− vi)T

Pn

k=1umik (3.56)

Cette idée d’adapter les distances à la forme de chaque cluster a mené à l’idée d’introduire des prototypes de lignes [Gunderson et al.,1981] et de cercles [Davé,1992]. On pourra enfin trouver une généralisation avec le modèle FCQS (Fuzzy C-Quadric Shell) [Krishnapuram et al.,1995]. Le lecteur pourra consulter [Bezdek et al.,1999b] pour plus de détails. À noter que l’algorithme des C-moyennes floues peut être adapté à la décomposition de mélanges suivant le principe de maximum de vraisemblance précédemment introduit, produisant l’algorithme FMLE [Gath and Geva,1989].

À la fin de l’algorithme de classification, et quelle que soit la métrique et les proto-types employés, les méthodes des C-moyennes ont en commun de produire une matrice

transformer en une partition stricte. Cette opération s’effectue généralement en choisissant pour un élément xk, la classe ωi pour laquelle le degré d’appartenance uik est le plus fort, de manière analogue à la règle MAP utilisée dans le cadre probabiliste et supervisé. Dans certains cas, la supériorité d’un degré d’appartenance par rapport aux autres n’est pas évidente; c’est typiquement le cas lorsque les classes se chevauchent. C’est le problème que nous aborderons dans cette thèse : d’une part en classification supervisée pour le rejet en ambiguïté (section3.4.2), et d’autre part en classification non supervisée pour la validation de partition (section3.4.3).