• Aucun résultat trouvé

41 3.1.4 Les méthodes basées sur les perceptrons

3.2 Les méthodes de classification non-supervisées

3.2.3 Les méthodes de type hiérarchique

La construction d’une classification hiérarchique peut se faire de deux façons : pour la première, à partir d’une matrice symétrique des similarités entre les individus, un algorithme agglomératif forme initialement de petites classes ne comprenant que des individus très semblables, puis, à partir de celles-ci, il construit des classes de moins en moins homogènes, jusqu’à obtenir une unique classe. Ce mode de construction est appelé Classification Ascendante Hiérarchique (CAH). Le second mode de construction d’une classification hiérarchique inverse le processus précédent. Il repose sur un algorithme divisif muni d’un critère de division d’un sous-ensemble de variables, et procède par dichotomies successives de l’ensemble des individus tout entier, jusqu’à un niveau vérifiant certaines règles d’arrêt et dont les éléments constituent une partition de l’ensemble des individus à classer. Ce mode de construction s’appelle la classification.

48

3.2.3.1 Classification Ascendante Hiérarchique (CAH)

Classification Ascendante Hiérarchique (CAH)

Le but d’une CAH est d’obtenir une classification automatique de l’ensemble des individus. Cette classification commence par déterminer parmi les n individus, quels sont les 2 individus qui se ressemblent le plus par rapport à l’ensemble des p caractéristiques spécifiées. Elle va alors regrouper ces deux individus pour former une classe. Il existe donc à ce niveau

n−1

classes, une étant formée des deux individus regroupés précédemment, les autres ne contenant qu’un unique individu. Le processus se poursuit en déterminant quelles sont les deux classes qui se ressemblent le plus, et en les regroupant. Cette opération est répétée jusqu’à l’obtention d’une unique classe regroupant l’ensemble des individus.

Cette procédure est basée sur la détermination d’un critère de ressemblance entre les individus. La méthode laisse à l’utilisateur le choix de la dissimilarité et la détermination d’une dissimilarité entre classes : procédé appelé un critère d’agrégation. Le critère d’agrégation permet de comparer les classes deux à deux pour sélectionner les classes les plus similaires. Les critères les plus classiques sont le plus proche voisin, le diamètre maximum, la distance moyenne et la distance entre les centres de gravité.

Classification symbolique ascendante hiérarchique

En 2003, une approche symbolique de classification ascendante hiérarchique a été proposée par (Mali et Mitra, [2003]). Elle suit le même principe de fonctionnement que les approches classiques mais en diffère par le critère d’agrégation qu’elle utilise. En effet, elle définit la distance entre deux classes C1 et C2 comme suit :

| || |

| | | || || |

2 1 2 1 2 1 2 1 2 1 88 9 A BB C D

7 7

C + C C C C C ) x , d(x = ) C , (C dagrégation u q (1.6)

où d représente la mesure de dissimilarité de Gowda et Diday (Gowda et Diday, [1992]) définie sur l’ensemble des individus et |Ci| représente le cardinal de la classe Ci.

On observera notamment que le terme de pondération utilisé par cette distance prend une valeur de 10000

50 pour (|ci| = |cj| = 100), une valeur de

110100

pour (|ci| = 1 et |cj| = 100) et une

valeur de

0,5

pour (|ci| = |cj|=1). En conséquence, l’approche de classification hiérarchique tend à

favoriser le fusionnement des classes singletons, ou des petites et grandes classes, au détriment de la fusion des classes de tailles moyennes.

49

Ces méthodes de classification ascendante hiérarchique sont faciles à implémenter. Mais elles sont très coûteuses avec une complexité temporelle en O(n2).

3.2.3.2 Classification Descendante Hiérarchique (CDH)

Les méthodes de classification descendante hiérarchique partent d’un ensemble d’individus et construisent, de manière itérative, une partition de l’ensemble. A l’inverse de la classification ascendante hiérarchique, à chaque étape, l’algorithme se charge de deux actions :

1. Chercher une classe à diviser

2. Choisir un mode d’affectation des objets aux sous-classes

Parmi les algorithmes les plus anciens, l’algorithme de Williams présentés dans (Williams et Lambert, [1959]) divise la classe la plus grande en deux classes. Hubert dans (Hubert, [1973]) a proposé de diviser la classe de plus grand diamètre. Aucun des deux n’a justifié son choix de division.

Cette méthode de classification construit une hiérarchie, en commençant par une grande classe contenant tous les objets. A chaque étape, elle divise une classe en deux classes plus petites jusqu’à ce que toutes les classes ne contiennent qu’un seul individu. Ceci veut dire que pour n individus, la hiérarchie est construite en

n−1

étapes au plus. Dans la première étape, les données sont divisées en deux classes au moyen des dissimilarités. Dans chacune des étapes suivantes, la classe avec le diamètre le plus grand se divise de la même façon. Après

n−1

divisions, tous les individus sont bien séparés. La dissimilarité moyenne entre l’individu x qui appartient à la classe C contenant n individus et tous les autres individus de la classe C est définie par :

7

≠ ∈ − x C,y x x d(x, y) n = d 1 1 (1.7)

Par rapport à la plupart des algorithmes en classification automatique, l’algorithme de classification descendante hiérarchique ne nécessite pas l’utilisation d’un seuil arbitraire pour la formation des classes qui peut éventuellement mener à une partition non réaliste. Si l’algorithme d’échange ne privilégie pas les aspects locaux, il est initialisé avec une partition liée par des relations de filiation avec des partitions précédemment obtenues. Cela donne à l’algorithme un certain aspect global. Les résultats sont en général grossiers, les niveaux des nœuds de la hiérarchie ne sont plus définis par l’ordre dans lequel ils apparaissent.

Bien que les méthodes hiérarchiques représentent la famille principale des techniques de classification et qu’elles aient été appliquées avec succès dans plusieurs domaines, elles

50

souffrent d’une faiblesse qui réside dans leur critère de partitionnement qui n’est pas global, mais dépend des classes déjà obtenues précédemment. En effet, les opérations de fusions/divisions des classes se déroulent sans jamais remettre en cause les associations déjà constituées, ce qui peut conduire à des classes peu représentatives (notamment en présence de données aberrantes) (NG et Han, [2002]). Pour les cas agglomératifs par exemple, deux individus placés dans des classes différentes ne sont plus jamais comparés, et deux individus placés dans une même classe ne peuvent plus être séparés. En d’autres termes, la classification obtenue en k classes est rarement la meilleure possible (optimale), mais seulement la meilleure entre celles obtenues en fusionnant des classes d’une classification en k+1 classes.

Le tableau 1.8 illustre les taux de reconnaissance obtenus par des méthodes hiérarchiques. Ces méthodes permettent d’avoir de bons taux de reconnaissance de manuscrits, mais ces résultats ne sont pas suffisants pour conclure à leur réelle performance, car il est nécessaire de tenir compte du choix des caractéristiques sur les taux de reconnaissance.

D9BDF212CDEFE1E1 D"E11EE1"D"'F1EF11EE1E1

FEE2

1

Auteur(s) Caractéristiques Types de document Taux de

reconnaissance

(Hochberg et al. [1997])

Nb. de pixels noirs et blancs arabe, cyrillique, grecque, hébreux…

98% (Bhardwaj et al.

[2009])

Orientation, courbure à partir du contour

anglais- base IAM 75,5%