Classification non supervisée - Opérateurs d'agrégation pour la mesure de similarité. Applicati

3.3 Classification non supervisée

Jusqu’à présent, nous avons considéré que chaque forme qui est présentée au système possède une étiquette, et que l’on connaissait ainsi sa classe, ce qui permettait de procéder à l’apprentissage. Dans le cas de la classification non supervisée, on ne dispose pas de ces informations, ce qui rend plus complexe le processus de classification.

3.3.1 Modèles de mélange

Le principe des modèles de mélange consiste à décomposer la densité P (x) en une somme de c composantes correspondant aux c classes, paramétrées par Θ_i, i = 1, · · · ,c. Chacune de ces composantes se voit affectée d’un coefficient π_i représentant la probabilité a priori des différentes classes :

P (x|Θ) =

c X

i=1

πiP (x|Θi). (3.32)

Ces coefficients respectent les contraintes suivantes : πi∈]0, 1[ et

c X

i=1

πi = 1 (3.33)

L’ensemble des paramètres à estimer Θ est donc composé des coefficients de mélange et des paramètres des distributions propres à chaque classe. (Ici encore, par souci de simplicité, nous considérerons le cas où les distributions sont gaussiennes.) Dans le cas où les distribu-tions sont normales, les classes sont définies par une moyenne et une matrice de covariance, donnant P (x|Θ_i) = ¹ (2π)p/2 1 |Σ_i|1/2 exp −¹ 2^{(x − v}ⁱ⁾ TΣ_i⁻¹(x − v_i) ! (3.34) Afin de trouver ces paramètres, on cherchera à maximiser la vraisemblance.À la différence du cas supervisé, nous ne connaissons pas les classes, nous sommes donc dans une situation ou les données sont incomplètes. L’algorithme Expectation-Maximization (EM) est utilisé dans cette situation. Une variable aléatoire Z correspondant aux données manquantes est ajoutée au modèle. Les réalisations z_k= {z_1k, · · · ,z_ck} de Z sont en fait les vecteurs d’appartenance de x aux classes :

z_ik=

(

1 si x_k appartient à ω_i

0 sinon ^(3.35)

Ainsi lorsque nous maximisions L(X|v,Σ) par la technique du maximum de vraisemblance, nous cherchons maintenant à maximiser L(X,Z|v,Σ). L’approche EM consiste, de manière alternative, à calculer l’espérance conditionnelle de la vraisemblance complète (E-step)

Q(Θ| ˆΘ^(t)) =E[L(Θ)|(X, ˆΘ^(t))] (3.36) puis de mettre à jour les paramètres des modèles (M-step)

Θ^(t+1)= argmax_ΘQ(Θ| ˆΘ^(t)) (3.37)

3.3.2 Partitions

Dans cette section, nous rappelons brièvement quelques principes généraux des méthodes de classification par partitionnement.

3.3.2.1 Voronoï

La région R_i de Voronoï du prototype v_i est l’ensemble des vecteurs deR^p pour lesquels

v_i est le vecteur le plus proche : R_i =

x ∈ X : i = argmin_j||x − v_j||2

(3.38) Ces régions forment des cellules, et l’ensemble constitue un diagramme de Voronoï. Chaque point contenu dans une cellule, c’est à dire une région R_i, appartient ainsi à la classe du prototype correspondant, voir Fig.3.3. Cette notion de partition de l’espace en cellules est

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

Fig. 3.3: Diagramme de Voronoï - Les prototypes sont représentés par des points rouge, et les frontières par des traits bleus

primordiale, puisque, selon que l’on soit en classification supervisée ou non supervisée, on aboutira aux méthodes des k plus proches voisins et des c-moyennes, respectivement.

3.3.2.2 C-moyennes

Lloyd propose dans [Lloyd,1982] un algorithme simple permettant de construire un dia-gramme de Voronoï à partir des données X. Celui-ci est plus connu sous le nom de K-means, ou HCM, ou en français, et en gardant la notation c pour le nombre de classes, C-moyennes. Brièvement, cet algorithme, à partir d’une initialisation des c vecteurs prototypes, cherche à minimiser la distance intra-classes

J = c X i=1 X x∈ωi ||x − v_i||2 (3.39)

3.3. Classification non supervisée 89

À chaque itération, les prototypes v_i sont mis à jour selon

v_i= ¹ ni

x∈ωi

x (3.40)

jusqu’à convergence des prototypes. En fin d’algorithme, on obtient donc un ensemble de prototypes, et un diagramme de Voronoï associé. Un problème de cette approche est sa sensibilité à l’initialisation des prototypes, c’est pourquoi il est usuel d’initialiser de manière aléatoire les prototypes, et de relancer plusieurs fois l’algorithme.

3.3.2.3 C-moyennes floues

Dans l’algorithme précédent, les éléments appartenaient ou non à des ensembles, et ce de manière stricte. Grâce à l’approche floue, cette appartenance est dorénavant une valeur com-prise entre 0 et 1, et permet ainsi de modéliser l’appartenance de x à plusieurs ensembles. L’algorithme des C-moyennes floues (FCM, [Bezdek,1981]) est l’extension immédiate des C-moyennes. On cherche à minimiser la fonctionnelle suivante

J_m(U,V ) = n X k=1 c X i=1 u^m_ik||x_k− v_i||² (3.41)

où les degrés u_ik d’appartenance de x_k au cluster i sont calculés sous les contraintes

c X i=1 u_ik= 1 (3.42) et 0 < n X k=1 u_ik < n(∀i = 1,c) (3.43) pour tout x_k dans X, et sont éléments de la matrice de c-partition floue U = [u1,...,uc] de taille (c × n). Le paramètre de fuzzification m > 1 permet de rendre la partition obtenue plus ou moins floue. Plus m est grand, plus les frontières sont douces, plus m est petit, plus la partition obtenue sera stricte (c’est à dire qu’elle contiendra uniquement des 0 et des 1). La minimisation de (3.41) s’obtient par itérations successives de (U,V ) :

uik = 1 , c X j=1 ||x_k− v_i|| ||x_k− v_j|| !2/(m−1) (3.44) v_i = Pn k=1u^m_ikx_k Pn k=1um ik (3.45) L’algorithme continue jusqu’à ce que la valeur de la fonctionnelle J_m(U,V ) converge. Comme pour l’algorithme précédent, il faut aussi choisir le nombre de clusters, ainsi qu’un paramètre supplémentaire, m.

Nous ne développons pas plus l’étude de cet algorithme dans cette partie, dans la mesure ou celle-ci sera fournie dans un autre chapitre, où nous nous concentrerons sur le choix de la valeur de c pour le clustering flou.

3.3.2.4 C-moyennes possibilistes

En tant que nouvelle modification des C-moyennes, l’approche possibiliste relâche la contrainte (3.42). Ainsi, on pourra trouver une forme x ayant un faible degré d’apparte-nance à l’ensemble des classes, comme une forme possédant un fort degré d’apparted’apparte-nance à plusieurs classes. Ces deux situations correspondront aux points atypiques et aux classes se chevauchant, respectivement. Dans ce contexte, nous appellerons les degrés d’appartenance des degrés de typicalité. La première formulation des C-moyennes possibilistes (PCM, [Kri-shnapuram and Keller,1993]) inclut un terme de pénalité évitant les solutions triviales, en introduisant un biais de 1 pour tous les degrés.

J_m(U,V ) = n X k=1 c X i=1 u^m_ik||x_k− v_i||²+ c X i=1 η_i n X k=1 (1 − u_ik)^m (3.46) Dans la seconde approche [Krishnapuram and Keller, 1996], le terme de pénalité est l’en-tropie des groupes de données, on voudra ainsi minimiser le désordre. La fonctionnelle s’écrit Jm(U,V ) = n X k=1 c X i=1 u_ik||x_k− v_i||²+ c X i=1 ηi n X k=1 (u_iklog u_ik− u_ik)^m (3.47) où le paramètre η_i est un compromis lié à la taille des groupes. Les auteurs suggèrent de l’estimer de la manière suivante

ηi = γ

k=1u^m_ik||x_k− v_i||2

k=1u^m_ik ^(3.48)

lors de chaque itération, ou de manière fixe, ce qui est plus en adéquation avec le calcul lors de la minimisation, où il est considéré comme tel. Un nouveau paramètre γ est introduit dans ce calcul, mais celui-ci est généralement fixé à 1. Selon la fonctionnelle considérée, la mise à jour des degrés d’appartenance se fait par

u_ik = 1 , 1 + ||x_k− v_i||2 η_i ! 1 m−1 (3.49) u_ik = exp −^||x^k^{− v}ⁱ^|| 2 η_i ! (3.50) et celle des centres en utilisant (3.45), et en fixant m = 1 pour la deuxième approche. L’avan-tage de cette méthode réside en plusieurs points. Le degré d’appartenance d’un point à une classe ne dépend plus de celui aux autres classes, on peut en fait le voir comme une distance particulière (induisant des difficultés d’interprétation des degrés d’appartenance obtenus). Cette indépendance est particulièrement intéressante dans le cas de données bruitées ou se chevauchant car ce sont des situations que l’on pourra reconnaître en étudiant les degrés d’appartenance. Un deuxième point, que certains auteurs voient comme un inconvénient, est qu’à la fin de l’algorithme, deux clusters peuvent être identiques. Dans le cas où le nombre de clusters n’est pas connu, il peut être pratique de fixer celui-ci à une valeur assez élevé, et laisser l’algorithme PCM trouver un nombre correct de clusters, quitte à fusion-ner les clusters par la suite. On remarquera que ce nombre de clusters correct est obtenu de manière indirecte par une mesure d’entropie dans (3.47), qui est aussi une mesure de validité de partition, voir Chapitre5.

3.3. Classification non supervisée 91

Les trois méthodes HCM, FCM et PCM font parties de la famille des C-moyennes, et chacune d’elles impose des contraintes différentes sur les degrés d’appartenance. Ainsi les u_ik appartiennent aux ensembles suivants

– HCM : u_k ∈ L_hc= {u_k ∈ [0, 1]^c: c X i=1 uik = 1, u_ik ∈ {0, 1}} (3.51) – FCM : u_k∈ L_{f c}= {u_k∈ [0, 1]^c: c X i=1 u_ik= 1} (3.52) – PCM : u_k∈ L_pc= {u_k∈ [0, 1]^c} (3.53) Ainsi défini, on remarque assez rapidement que

HCM ⊂ F CM ⊂ P CM

3.3.2.5 Variantes des C-moyennes

Les trois algorithmes des C-moyennes qui viennent d’être présentés sont basés sur une représentation par points des prototypes. D’autre part, l’utilisation de distance euclidienne ne permet d’obtenir que des clusters hyper-sphériques, ne donnant pas toujours de bons résultats. C’est ainsi que Gustafsson et Kessel [Gustafson and Kessel, 1979] proposent d’utiliser des matrices de covariances A_i estimées à partir des degrés d’appartenance u_ik. Cela ajoute donc un descripteur supplémentaire à chaque classe, décrite maintenant par le couple (v_i, A_i). La fonctionnelle à minimiser s’écrit donc

J_m(U,V ) = n X k=1 c X i=1 u^m_ik||x_k− v_i||²_A i (3.54)

où det(A_i) = ρ_i > 0, garantissant que A_i est définie positive. Les auteurs montrent en particulier que la minimisation de (3.54) conduit à la condition

Ai=ρidet(C_i)

1/p

C_i⁻¹ (3.55)

où C_i est la matrice de covariance floue usuelle : C_i =

k=1u^m_ik(x_k− v_i)(x_k− v_i)^T

k=1u^m_ik ^(3.56)

Cette idée d’adapter les distances à la forme de chaque cluster a mené à l’idée d’introduire des prototypes de lignes [Gunderson et al.,1981] et de cercles [Davé,1992]. On pourra enfin trouver une généralisation avec le modèle FCQS (Fuzzy C-Quadric Shell) [Krishnapuram et al.,1995]. Le lecteur pourra consulter [Bezdek et al.,1999b] pour plus de détails. À noter que l’algorithme des C-moyennes floues peut être adapté à la décomposition de mélanges suivant le principe de maximum de vraisemblance précédemment introduit, produisant l’algorithme FMLE [Gath and Geva,1989].

À la fin de l’algorithme de classification, et quelle que soit la métrique et les proto-types employés, les méthodes des C-moyennes ont en commun de produire une matrice

transformer en une partition stricte. Cette opération s’effectue généralement en choisissant pour un élément x_k, la classe ω_i pour laquelle le degré d’appartenance u_ik est le plus fort, de manière analogue à la règle MAP utilisée dans le cadre probabiliste et supervisé. Dans certains cas, la supériorité d’un degré d’appartenance par rapport aux autres n’est pas évidente; c’est typiquement le cas lorsque les classes se chevauchent. C’est le problème que nous aborderons dans cette thèse : d’une part en classification supervisée pour le rejet en ambiguïté (section3.4.2), et d’autre part en classification non supervisée pour la validation de partition (section3.4.3).

Dans le document Opérateurs d'agrégation pour la mesure de similarité. Application à l'ambiguïté en reconnaissance de formes. (Page 102-107)