Techniques de classification partitionnaires

Chapitre 1 : Interprétation des images

4. Techniques classiques de la classification

4.2. Techniques de classification partitionnaires

Les algorithmes de classification partitionnaire divisent l’ensemble de données en un certain nombre de groupes. Le but de ces algorithmes est de minimiser un critère spécifique (telle que la fonction d’erreur quadratique), d’où ils peuvent être traités de même qu’un

29 problème d’optimisation. Ces problèmes sont le plus souvent combinatoires de type NP- Complet (26). Les avantages des algorithmes hiérarchiques sont des inconvénients des algorithmes partitionnaires et vice versa. En raison de leurs avantages, les algorithmes partitionnaires sont plus populaires que les techniques hiérarchiques en reconnaissance des formes (32), en particulier, ce mémoire s’intéresse aux techniques partitionnaires. Ces derniers sont généralement des algorithmes itératifs qui convergent vers un optimum local (16). En employant la forme générale la classification itérative utilisée par Harmely et Elkan en 2002, les étapes d’un algorithme de classification itératif peuvent être données comme suit :

1. Initialiser aléatoirement les centres des K groupes 2. Répéter

(a) Pour chaque point, , dans l’ensemble de données faire

Calculer leurs degrés d’appartenance à chaque centre et leurs poids

Fin pour

(b) Recalculer les centres des K groupes, en utilisant ∑_∑ ( ₍| _|) ₎

(21)

Jusqu’à la satisfaction d’un certain critère

Figure 11. Algorithme de classification partitionnaire

 est la fonction d’appartenance qui quantifie l’appartenance du point au groupe . La fonction d’appartenance , doit satisfaire les contraintes suivantes :

1.

| ) et

2.

∑

 Les algorithmes déterministe de classification utilisent un degré d’appartenance déterministe (i.e. | ) ), tandis que les algorithmes flous de segmentation utilisent une fonction flexible d’appartenance (i.e. | ) ) (16).

 La fonction de poids, , dans l’équation (5) définie le degré d’influence du point dans le calcul des centres dans l’itération suivante, tel que ( ) (16). La fonction du poids a été proposée par (33).

 Plusieurs critères d’arrêt peuvent être utilisés dans un algorithme itératif de classification, par exemple :

1. Arrêter quand les valeurs des centres deviennent plus petites qu’une valeur définie à l’initialisation.

2. Arrêter quand la quantification de l’erreur est suffisamment petite, ou 3. Arrêter quand un nombre maximal d’itérations est excédé.

Dans ce qui suit, nous allons décrire les algorithmes de segmentation itératifs les plus populaires tout en considérant les fonctions d’appartenance et de poids de l’équation (5).

L’Algorithme K-means

L’algorithme K-means est l’un des algorithmes partitionnaires itératifs les plus populaires et les plus utilisés (34). Il se base sur l’optimisation de la fonction suivante :

∑ ∑ (22)

D’où, l’algorithme K-means minimise la distance intra-classes (16). L’algorithme K-means commence par groupes (les valeurs initiales des groupes sont sélectionnées aléatoirement ou dérivées à partir des informations connues à priori). Puis, chaque point de l’ensemble des données est assigné au groupe auquel il est le plus proche (i.e. le centre le plus proche). Finalement, les centres sont recalculés conformément aux points récemment assignés. Ce processus est réitéré jusqu’à ce que la convergence soit atteinte.

Les fonctions de poids et d’appartenance du K-means sont définies comme par ( | ) { ( )

( )

( ) (24)

D’où, K-means utilise une fonction déterministe d’appartenance et une fonction constante de poids, ainsi, tous les points sont d’une importance identique (16).

31 Les avantages majeurs de l’algorithme K-means sont les suivants (27):

 Il est très facile à implémenter, et

 Son temps est de , ce qui rends l’exécution de l’algorithme un peu lente en cas d’un nombre important de données.

Cependant, l’algorithme K-means présente quelques inconvénients (35) :

 Il dépend des données,

 Il dépend fortement des conditions initiales, et

 Le nombre de groupes doit être défini à priori.

L’algorithme K-medoids

Dans l’algorithme K-medoids (36), à chaque groupe correspond un point parmi les points représentatifs dans le groupe, ce point étant le plus proche du centre. L’algorithme (37) commence par un ensemble initial de ce qu’on appelle « medoids », et remplace un des medoids par un non-medoids, cela améliore la distance totale du regroupement résultant. Il est important de noter que cet algorithme est approprié à un ensemble petit de données (23).

L’objectif de cet algorithme est de déterminer un point représentatif (medoid) pour chaque groupe, afin de trouver les points les plus centralement localisés dans les groupes. L’algorithme commence par la sélection d’un point comme point représentatif pour chacun des k groupes. Puis, chaque point non sélectionné est groupé avec le point représentatif le plus similaire. L’algorithme permute les points représentatifs avec les points non sélectionnés jusqu’à ce que tous les points soient qualifiés comme medoid. Il est nettement clair que l’algorithme K-medoids est couteux du fait qu’il doit comparer un point avec tous les points de l’ensemble des données (37).

L’algorithme Fuzzy C-means

La version floue du K-means, dite C-means flou ou Fuzzy C-means (FCM) (appelée aussi K-means flou ou fuzzy K-means), a été proposé par Bezdek (38) (39). L’avantage qu’offre FCM est qu’il assigne chaque point à chaque groupe avec un certain degré d’appartenance (i.e. segmentation floue). Cela est plus approprié pour des applications réelles d’où la présence de chevauchements entre les groupes dans l’ensemble de données. Le but du FCM est d’optimiser la fonction suivante :

∑∑ (25)

Ou est connu par « fuzziness exponent », avec . L’augmentation de la valeur de q rend l’algorithme plus flou ; est la valeur d’appartenance pour le point dans le groupe en satisfaisant les contraintes suivantes :

2. ∑

Les fonctions d’appartenance et de poids pour le FCM sont définies par (16) ( | ) ‖ ‖

⁄

∑‖ ‖ ⁄ (26)

( ) (27)

D’où, FCM utilise une fonction d’appartenance souple et une fonction constante de poids. En général, FCM est plus performant que K-means (17) et est moins affecté par la présence d’incertitudes dans l’ensemble de données (40). Cependant, tel le K-means FCM requiert l’initialisation du nombre de groupes à l’avance. De plus, il peut converger vers un optimum local (23).

Krishnapuram et Keller (41) (42) propose un « possibilistic clustering algorithm », appelé possibilistic C-means. Possibilistic clustering est similaire à la segmentation floue; la différence principale est que dans le possobilistic clustering les valeurs d’appartenance peuvent ne pas être additionnées en une seule (27). Possibilistic C-means se montre performant dans les cas où l’ensemble de données contient du bruit. Néanmoins, il a quelques inconvénients suivant (27) :

 Il est susceptible de produire des groupes coïncidents,

 Il impose à l’utilisateur de spécifier le nombre de groupes à l’avance,

 Il peut converger vers un optimum local, et

33 L’algorithme Gaussian Expectation-Maximization

L’algorithme Expection-Maximisation (EM) est un autre algorithme populaire de classification (43) (44) (45). EM est utilisé pour l’estimation des paramètres dans le cas de données manquantes ou inconnues (17). EM partitionne l’ensemble des données en groupes par la détermination d’une mixture de Gaussians fitting de l’ensemble de données. A chaque Gaussien correspondent deux matrices: une pour la moyenne et l’autre pour la covariance. Le critère à optimiser dans EM a été définie par (16) est

∑ ∑ ( | ) (28)

Où est la propabilité de étant donné qu’elle est générée par une distribution Gaussienne avec le centre , et est la probabilité précédente du centre .

Les fonctions d’appartenance et de poids pour EM sont définies par (16)

( | ) ( | ) (29)

( ) (30)

D’où, EM utilise une fonction souple d’appartenance et une fonction constante de poids. L’algorithme commence par une estimation initiale des paramètres. Puis, une étape de prévision est effectuée ou les valeurs connues de données sont utilisées pour calculer les valeurs prévues des données inconnues (17). Cette étape est suivie par des étapes de maximisation ou les valeurs connues et prévues des données sont utilisées pour générer une nouvelle estimation des paramètres. Les étapes de prévision et de maximisation sont réitérées jusqu’à atteindre la convergence.

Les résultats obtenus par Veenman, Reinders et Backer (46) et Hamerly (17) proposent une étude comparative entre EM et K-means. De plus, d’autres chercheurs ont prouvé que EM est moins performant pour un ensemble de données de dimension élevée, ceci est dû aux problèmes de précision numérique. De plus, EM dépend de l’estimation initiale des paramètres (17) (27) et nécessite la connaissance du nombre de groupes à l’avance. De surcroît, EM suppose que la densité de chaque groupe est Gaussienne, ce qui n’est pas toujours vrai.

34 L’algorithme k-Harmonic Means

Zhang et ses collègues (47) (33) ont proposé un nouvel algorithme appelé « K- Harmonic Means » (KHM), avec des résultats prometteurs. Dans KHM la moyenne harmonique de la distance de chaque centre de groupe avec tous les points est calculée. En conséquence, les centres de groupe sont mis-à-jour. KHM doit optimiser la fonction suivante :

∑ _∑ ‖ ‖ (31)

Où est un paramètre initialisé par l’utilisateur, typiquement . Les fonctions d’appartenance et de poids du KHM sont (16)

( | ) ‖ ‖ ∑‖ ‖ (32) ( ) ∑ ‖ ‖ (∑‖ ‖ ) (33)

Ainsi, KHM a une fonction souple d’appartenance et une fonction variable de poids. KHM assigne les poids les plus élevés aux points les plus loin de tous les centres afin d’aider ces derniers à couvrir l’ensemble entier des données (16). Contrairement au K-means, KHM est moins sensible aux conditions initiales. Les expériences menées par Zhang et ses collègues (47), Zhang (33), et Hamerly et Elkan (16) prouvent que KHM est plus performant que K- means, FCM, et EM.

Dans le document Conception de la Technique des Chauves-souris pour la Classification Automatique des Images (Page 37-43)