• Aucun résultat trouvé

Classification hiérarchique ascendante : outil performant pour la segmentation

Groupe 1 61,25 72 Riyad ; Ach Charqiya ; La Mecque

IV. Classification hiérarchique ascendante : outil performant pour la segmentation

La classification hiérarchique est une technique qui consiste à regrouper les observations en classes de telle sorte que les éléments d’une même classe soient plus proches entre eux que d’un élément quelconque d’une autre classe. L’objet principal de cette méthode est de classer des individus en groupes homogènes et en nombre réduit de classes différentes les unes des autres, mais présentant chacune une certaine homogénéité au regard des variables retenues. Comme l’analyse factorielle, l’analyse typologique permet de réduire le nombre d’observations en les regroupant en classes ou types homogènes et différenciés à partir d’un indice de distance déterminé au départ.

La classification est un des nombreux domaines de l’analyse de données qui vise à extraire l’information à partir de grands volumes de données en utilisant différentes techniques computationnelles de l’apprentissage, des statistiques et des reconnaissances des formes. On citera les deux méthodes principales, supervisée et non supervisée. Une des deux approches fondamentales de la classification non supervisée est la classification hiérarchique, qui inclut deux méthodes principales classification hiérarchique, ascendante et descendante. Ces méthodes hiérarchiques diffèrent entre elles par le choix du critère de ressemblance et par la façon de mesurer les ressemblances entre un nouveau groupe fusionné et les autres restés inchangés. Dans le cadre de ce travail, nous décrirons les principales étapes de la classification hiérarchique ascendante, qui définit par un certain nombre de variables, en les regroupant de façon hiérarchique. Elle commence par agréger celles qui sont les plus semblables entre elles, puis les observations ou groupes d’observations un peu moins semblables et ainsi de suite jusqu’au regroupement trivial de l’ensemble de l’échantillon. Ces agrégations se font deux à deux. Les liens hiérarchiques apparaissent sur un dendrogramme qui nous montre les liaisons entre les classes et la hauteur des branches nous indique leur niveau de proximité (annexe n°4).

La classification hiérarchique ascendante est un processus relativement simple et répétitif. Les individus/observations sont regroupés en segments aux caractéristiques communes. On peut définir le processus de classification comme suit :

- chaque observation représente un groupe, le nombre de groupes est par conséquent égal au nombre d’observations ;

121

- les deux groupes aux caractéristiques les plus proches sont agrégés au sein d’un même groupe en fonction de la mesure de distance euclidienne et de la méthode d’agrégation retenue. En ce qui concerne la constitution des groupes, l’approche que l’on se propose d’utiliser est l’algorithme de la méthode de Ward (Malhotra et al., 2007). Cette méthode vise à calculer les moyennes pour toutes les variables de chaque groupe, puis, pour chaque individu, le carré de la distance euclidienne au centre de la classe ;

- le processus d’agrégation ci-dessus est répété n – 1 fois (n étant le nombre d’observations), c’est-à-dire jusqu’à ce qu’il n’y ait plus qu’un seul groupe.

La figure n°45 représente le dendrogramme de la classification hiérarchique des régions du royaume, autrement dit c’est la représentation graphique des résultats de la classification des individus en groupes. On peut lire le dendrogramme de gauche à droite pour une classification hiérarchique ascendante, et de droite à gauche pour une classification hiérarchique descendante. Les traits horizontaux de la partie gauche du dendrogramme représentent les 13 segments finaux réalisés lors de la classification hiérarchique. La longueur de ces traits horizontaux est également caractéristique de la distance qui sépare les groupes. Les lignes verticales représentent l’agrégation, le rapprochement de deux groupes.

122

Source : réalisation personnelle par SPSS

Figure 45: Dendrogramme de la classification hiérarchique des régions du royaume de l’Arabie Saoudite

Le dendrogramme nous fournit à la fois une visualisation graphique des résultats et le niveau en termes de distance des regroupements effectués, basés sur les résultats du tableau du planning des agglomérations en annexe n°5. On peut voir, dans notre exemple, que les segments (9-13) et (8-11) sont les plus proches, à une distance de 1. On constate ensuite que les deux segments suivants sont les segments (1-5), (8-6) et (9-6), d’une distance de 2. Par la suite, le segment (3-4) apparaît, à une distance de 3. Le « saut » suivant est effectué à une distance de 4 et regroupe l’agrégation des segments (8-11-6) avec le segment 12. On entend par « saut » les écarts de distance entre les regroupements effectués. Ensuite, nous avons (3- 13), à une distance de 5. Le saut suivant est effectué à une distance de 6 et regroupe l’agrégation des segments (1-5) avec le segment 2. Le saut suivant est effectué à une distance de 7 et regroupe l’agrégation des segments (9-13-7-3-4) avec le segment 10. le saut suivant se situe à une distance de 9, c’est-à-dire à une différence de distance de 2, ce qui correspond pratiquement au double en termes de distance du précédent regroupement. Il existe donc un écart important entre les trois premiers regroupements et les suivants. Une solution à 4 classes semble donc pertinente.

Enfin, le recours à l’analyse en classification hiérarchique vise à détecter différents types de développement entre les régions. Les régions sont dès lors classées en groupes, chaque groupe

123

ayant des caractéristiques communes basées sur des scores globaux dérivés de l’analyse factorielle. La séparation des régions en groupes repose sur la maximisation de la variation inter-groupes contre une minimisation de la variation intra-groupe.

Les régions du Royaume ont été classées en utilisant l’analyse des clusters en quatre groupes principaux homogènes, comme illustré par l’arbre des clusters précédents.

Enfin, les groupes de la figure n° 46 seront présentés comme suit :

- Le groupe 1 est constitué des régions : Riyad, Ach-Charqiya et la Mecque

- Le groupe 2 est constitué des régions : Médine, Al Quasim, Tabuk, Al Jawf et Al Hudud

- Le groupe 3 est constitué des régions : Al Bahah, Asir, Najran et Hail - Le groupe 4 est constitué de la région de Jazan.

Source : Réalisation personnelle

Figure 46: répartition des régions en 4 groupes selon l’analyse de la classification hiérarchique ascendante