• Aucun résultat trouvé

8 CONCLUSIONS ET PERSPECTIVES

A. Synthèse sur les méthodes de regroupement : le clustering Cette annexe a pour objectif dans un premier temps de décrire les différentesCette annexe a pour objectif dans un premier temps de décrire les différentes

A.1 Les différentes méthodes de clustering

A.1.6. Les méthodes hiérarchiques

Leur principe est de créer une décomposition hiérarchique en groupes, autrement dit en clusters, en prenant la matrice de distances comme critère de regroupement. Ces méthodes ne nécessitent pas de fixer une valeur de K à priori, mais elles ont besoin d’une condition d’arrêt.

161

Etape 0 Etape 1 Etape 2 Etape 3 Etape 4

b

d

c

e

a

a b

d e

c d e

a b c d e

Etape 4 Etape 3 Etape 2 Etape 1 Etape 0

Agglomerative

(AGNES)

Divisive

(DIANA)

A.1.6.1. La méthode AGNES (Agglomerative Nesting) A.1.6.1.1. Caractéristiques

Il s'agit d'une méthode ascendante qui consiste à regrouper par agglomération progressive des éléments les plus proches deux à deux. Elle fusionne les nœuds (i.e. les points de jonction des groupes) qui ont la plus faible dissimilarité et utilise une combinaison d’indices de dissimilarité (cf section A.1.3) entre les individus et d’agrégation.

Il existe différents critères pour définir un indice d’agrégation (qui permet de calculer une distance), donc différentes hiérarchies comme illustré sur la figure 7.

Figure 7: Distance inter-groupe pour les méthodes de hiérarchisation

Un premier critère possible est le « single linkage (ou lien simple ou saut minimal) ». Il permet une plus grande similarité que d’autres critères et à tendance à produire des classes générales par effet de chaînage, mais il est sensible aux individus bruités.

Le deuxième critère est le « complete linkage (ou lien complet ou saut maximal) ». Il favorise une plus petite similarité et à tendance à produire des classes spécifiques c'est-à-dire

qu'on ne regroupe que des classes très proches. Il s'agit d'une bonne méthode pour des clusters. Toutefois, ce critère est aussi sensible aux individus bruités.

Le troisième critère est l'« average linkage (ou liaison moyenne ou saut moyen) ». Il a tendance à produire des classes de variance proche mais il est plus difficile à calculer.

Pour finir, on peut citer le critère du barycentre (ou centroïde), appelé aussi distance des centres, qui a une faible résistance aux « outliers ».

La méthode de «Ward», très connue et très utilisée, correspond aussi à un indice d'agrégation. L'objectif de cette méthode est d'avoir un gain minimum d’inertie intra-classe à chaque agrégation. Cela induit ainsi une perte d’inertie inter-classe due à cette agrégation. Pour chaque regroupement possible, on calcule la variation d'inertie inter-classe, puis on réunit les deux clusters dont le regroupement fera le moins baisser l'inertie inter-classe. La distance entre deux classes est celle de leurs barycentre au carré, pondérée par les effectifs des deux clusters. Cette technique tend à regrouper les petites classes entre elles.

La méthode de Ward fait intervenir la distance suivante :

avec gA = centre de gravité de la classe A (poids pA) gB = centre de gravité de la classe B (poids pB)

En pratique, la méthode de Ward constitue une des meilleures méthodes de classification hiérarchique dans un espace euclidien. Il est cependant souvent intéressant de tester plusieurs critères d’agrégation.

A.1.6.1.2. L'algorithme de AGNES

Dans l'algorithme de AGNES, on part d'un seul objet auquel on associe les autres objets un par un.

Cet algorithme comporte deux étapes : l’initialisation et la répétition jusqu’à la jonction finale des deux derniers clusters.

Lors de l'initialisation, chaque individu correspond à un cluster, puis la matrice de ressemblance M, c'est-à-dire la matrice des distances entre chaque couple de clusters est calculée.

Ensuite, on sélectionne sur la base de M les deux clusters les plus proches, que l'on nommera CI et CJ. Ils forment un « sommet » (ou point de jonction). Puis, on fusionne CI et CJ pour former un cluster nommé CG. Ensuite, on met M à jour en calculant grâce à un critère d'agrégation la ressemblance entre CG et les clusters existants.

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Figure 8: Algorithme de AGNES

A.1.6.1.3. Le dendrogramme ou l'arbre hiérarchique

Le dendrogramme ou l’arbre hiérarchique est un diagramme représentant les relations hiérarchiques entre les groupes. La position de deux objets au sein d’un groupe ou entre les groupes n’est pas liée à leur proximité dans l’espace des données. La longueur appelée aussi la hauteur d’une branche est proportionnelle à la distance entre deux classes. En traçant une ligne verticale ou horizontale à une hauteur donnée de l’arbre, on peut identifier K groupes.

Pour définir les différents clusters, il est pertinent de couper après la série d'agrégation à faibles distances (branches courtes de l'arbre) et avant les agrégations à grandes distances (branches longues).

Figure 9: Dendrogramme avec K = 2

A.1.6.1.4. Avantages

Un avantage de cette méthode, qui correspond à l’algorithme hiérarchique le plus utilisé, est qu’elle permet de déterminer le nombre optimal de classes à la simple lecture de l’arbre. De plus, cette méthode est déterministe c'est-à-dire qu'elle donnera toujours le même résultat.

A.1.6.1.5. Inconvénients

Cette méthode possède quelques inconvénients. En effet, plus on est haut dans l’arbre, moins bonne est la représentation de la structure des données. Dès que le nombre de données devient important, le temps de calcul devient très long. Cette méthode est sensible au critère d'agrégation retenu. Il faut donc faire attention à la sur-interprétation des résultats. Pour finir, les regroupements sont définitifs, ce qui ne permet pas d'optimisation postérieure au clustering.

Attention, toute méthode de regroupement (hiérarchique ou non) est sensible aux points aberrants (« outliers »). Il faut donc les repérer, par la distance inter-points par exemple

et éventuellement, suivant l’objectif rechercher, les omettre/isoler avant d'appliquer la(les) méthode(s).

A.1.6.2. La méthode DIANA (Divisive Analysis) (Kaufman and Rousseeuw 1990) A.1.6.2.1. Caractéristiques

Il s’agit d’une méthode descendante, c'est-à-dire qui fonctionne suivant un ordre inverse à la méthode AGNES. Elle réalise des divisions successives en deux groupes jusqu'à ce que le nombre de clusters soit atteint ou que les clusters contiennent un seul objet. Cette méthode est très peu utilisée.

A.1.6.2.2. L'algorithme de DIANA

L’algorithme de DIANA se déroule en deux étapes. Tout d'abord, on part de l'ensemble des objets que l'on divise ensuite successivement en sous-ensembles grâce à un algorithme de partitionnement. Cet algorithme est alors appliqué de manière récursive jusqu’à ce que tous les groupes aient une taille de 1.

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Figure 10: Algorithme de DIANA

A.1.6.2.3. Avantages

Un avantage de cette méthode provient de son approche récursive qui la rend plus rapide que la méthode agglomérative AGNES. De plus, l'algorithme DIANA est bien adaptée pour l’identification d’un faible nombre de groupes.

A.1.6.2.4. Inconvénients

Les inconvénients de la méthode DIANA sont une large dépendance au choix de l’algorithme de partitionnement, et son caractère non-déterministe. Enfin, plus on est bas dans l’arbre, moins bonne est la représentation de la structure des données.