• Aucun résultat trouvé

CONFIGURATIONS FAMILIALES

Encadré 2 : Démarche algorithmique des méthodes K-means

1. Les repères K sont placés de manière aléatoire et deviennent les centres de gravité.

2. À chaque étape, un objet est affecté au centre de gravité K le plus proche.

3. On déplace le repère K vers le centre du groupe d’objets qui lui est nouvellement attribué.

4. On répète l’affectation des objets vers les centres de gravité jusqu’à ce qu’il n’y ait plus de changements après quelques itérations.

Aussi bien pour les K-means que pour les PAM, le nombre de classes est fixé à l’avance et correspond aux centres de gravité. À la différence des K-means, les centres de gravité des algorithmes PAM ne sont pas les moyennes mais les individus les plus représentatifs.

Les méthodes de classification hiérarchique 3.3.2.2

Ces méthodes opèrent par agglomération des objets étape par étape. Dans la classification hiérarchique ascendante (ou agglomérative), à chaque étape les objets les plus proches forment une nouvelle entité jusqu’à ce qu’il n’y ait plus d’objets à affecter.

On part des n objets pour aboutir à un seul et unique groupe. Cette recomposition hiérarchique permet de partir des n groupes (chaque objet étant un groupe) au sommet avec un groupe (réunissant les n objets). Comme le précise Müllner (2011):

« Agglomerative clustering schemes start from the partition of the data set into singleton nodes and merge step by step the current pair of mutually closest nodes into a new node until there is one final node left, which comprises the entire data set » (p. 1).

Ce même principe peut être appliqué mais en partant du sommet, c’est-à-dire de un groupe vers les n groupes. Dans ce cas précis, on a une classification hiérarchique descendante ou divisive. La figure suivante illustre les deux méthodes de la classification hiérarchique.

Figure 9 : Illustration des classifications hiérarchiques ascendante et divisive

Le principe des algorithmes consiste donc à regrouper (ou inversement à diviser) les objets deux à deux. Les algorithmes de la classification hiérarchique diffèrent de manière considérable dès qu’il faut définir la base sur laquelle les deux objets sont agglomérés ou divisés. Logiquement, à chaque étape deux objets sont agglomérés (divisés) parce que similaires (différents). Le choix des objets à agglomérer ou diviser se fait à partir d’un indice de dissimilarité qui est donné par la distance entre deux objets.

Les algorithmes disponibles pour la classification hiérarchique sont nombreux. Halkidi (2001) en décrit trois : le BIRC (Balanced Iterative Reducing and Clustering using hierarchies), le CURE (Clustering Using Representatives) et le ROCK (clustering de données catégorielles). Plus récemment, Müllner (2011) a établi une liste des plus performants. On constate qu’à la différence des algorithmes de partitionnement, ceux de la classification hiérarchique sont plus interactifs et nécessitent l’intervention de l’utilisateur à des moments clés pour préciser l’indice de dissimilarité, la stratégie d’agrégation, le nombre de clusters. Le niveau d’exigence est lié à la procédure elle-même comme le précisent Jain et all (1999) : « Hierarchical algorithms are more versatile than partitional algorithms ». Il est dès lors plus pertinent de procéder à un examen par étapes de la classification hiérarchique.

Encadré 3 : démarche algorithmique de la classification hiérarchique (Jain et all, 1999) 1. Élaboration d’une matrice de proximité indiquant la distance (mesure la dissimilarité) entre chaque pair d’objets.

2. Regroupement du pair d’objets les plus proches (classification hiérarchique ascendante), ou inversement dislocation du pair d’objets les plus dissemblants (classification hiérarchique divisive).

3. Mise à jour de la matrice des distances et répétition de la précédente opération.

4. Arrêt des itérations algorithmiques si les objets se retrouvent en une seule classe (classification hiérarchique ascendante) ou en n objets (classification hiérarchique divisive).

À ce stade, on peut voir que par rapport aux méthodes de partitionnement, la classification hiérarchique nécessite d’une part la définition de l’indice de dissimilarité par la distance, d’autre part le nombre de classes à retenir puisque les algorithmes produisent n-1 groupes.

3.3.2.2.1 Indice de dissimilarité et distance entre objets:

La dissimilarité est basée sur la notion de distance. Cette dernière doit vérifier l’inégalité triangulaire : la distance pour aller d’un point A et à un point B est plus réduite que si on contourne par un point C. Partant de là, on peut calculer la matrice des distances entre soit deux objets, soit entre groupes et objets. Plusieurs types de distances ont été proposés et sont plus ou moins pertinents selon la nature des données à traiter.

La distance la plus utilisée est celle euclidienne qui est une distance géométrique. Pour pondérer l’effet des objets extrêmes, on utilise le carré de la distance euclidienne.

3.3.2.2.2 Stratégie d’agrégation des classes:

Au fur et à mesure du regroupement des objets, il arrive un moment où ce ne sont plus deux objets qui doivent se regrouper (ou se diviser) mais plutôt un objet avec une classe ou deux classes. Puisque celles-ci sont constituées d’objets ou de points répartis dans un espace multidimensionnel, il importe de définir à nouveau la distance mais cette fois entre les groupes et classes. Trois stratégies d’agrégation sont possibles.

Le saut minimal ou « single linkage » : les classes sont agglomérées à partir des objets les plus proches dans les deux classes respectives.

Le saut maximal ou « complete linkage » : les classes sont agglomérées à partir des objets les plus éloignés des deux classes.

La méthode Ward : les classes sont regroupées que si elles permettent une minimisation de la variance intra-classe. En d’autres termes, on choisit de regrouper deux classes tel que leur regroupement présente plus d’homogénéité que si on l’avait fait pour deux quelconques autres classes.

La comparaison entre ces stratégies d’agrégation fait l’objet d’une attention particulière de la part de maints auteurs. En effet les inconvénients des unes et des autres amènent à en privilégier une en particulier. Le saut minimal a le désavantage d’agréger les objets au groupe déjà constitué, on se retrouve avec un grand groupe et des satellites, Morineau parle d’«effets de chaîne». D’un autre côté, le saut maximal tend à égaliser la taille des groupes, ce qui peut poser un problème pour les objets similaires mais dissociés sous la contrainte des objets extrêmes.

La méthode de saut Ward est aussi sensible aux objets extrêmes. De même, elle ne semble pas très adaptée lorsque le nombre de pas (étape 2 de l’Encadré 3) est trop élevé.

Par rapport à ses avantages, la méthode Ward optimise la variance intra-classe et reflète mieux le caractère « naturel » de la classification, à l’opposé des autres sauts qui partent d’un indice parfaitement arbitraire. Pour atténuer l’effet du nombre de pas, il convient de faire précéder l’agrégation avec la méthode Ward par une analyse factorielle qui résume les n objets aux facteurs (correspondant à nos patterns familiaux du Tableau 3).

Parallèlement, on obtient de meilleurs résultats en utilisant le carré de la distance euclidienne. En effet, en élevant au carré la distance entre deux objets similaires ou proches (si distance réduite=2, 2 au carré => 4), on diminue la valeur de cette distance par rapport au carré de deux objets éloignés (distance plus éloignée=3, 3 au carré => 9).

Or la méthode de Ward agrège en rendant le plus homogène possible en fonction de la position des objets dans l’espace et c’est cette propriété qui la rend complémentaire avec l’analyse factorielle. Un autre avantage est qu’elle corrige l’effet de la présence d’erreurs dans la base de données selon Milligan et Cooper (1987). Les études comparatives plébiscitent largement la méthode de Ward. Milligan et Cooper arrivent à la conclusion suivante: « Ward’s method tended to perform well in the cases where it was tested. Often, it gave the best cluster recovery » (idem, p. 339).

Au terme de la procédure de classification, on obtient un regroupement étape par étape des réseaux individuels selon les conditions de similarité précédemment précisées. Le dendrogramme (Figure 10) montre comment s’agrègent progressivement les groupes de réseaux formant ainsi des clusters. Un cluster correspond à un niveau de regroupement (coupe horizontale du dendrogramme) et à une grappe de configurations familiales. Le nombre possible de clusters passe de 2 (cluster avec 2 configurations) à 400 (niveau de départ sans aucun regroupement de réseau). Seuls les clusters de 2 à 10 configurations feront l’objet d’un examen et au final un seul cluster sera validé en fonction de plusieurs critères que nous allons détailler.

Figure 10 : Dendrogramme de la classification hiérarchique pour les 20 premiers termes

LA VALIDATION D’UN CLUSTER DE CONFIGURATIONS