• Aucun résultat trouvé

LA TYPOLOGIE DES FACETTES TOPOGRAPHIQUES

IV. 2.2.2 Les différentes classifications testées.

Trois techniques de classifications sont testées : les Classifications Ascendantes Hiérarchiques (CAH), les classifications autour des centres mobiles (K-means) et les classifications mixtes qui font intervenir les deux techniques précédentes dans la détermination des classes. Si le principe de chacune de ces classifications est de minimiser la variance intra-classe et de maximiser la variance inter-classe, les algorithmes de calcul qu'elles emploient fournissent toujours des résultats différents selon la méthode utilisée.

En effet, les principes d'agrégation sont différents d'une méthode à l'autre. La CAH repose sur des algorithmes ascendants c'est-à-dire qui procèdent à la construction des classes en comparant et en agrégeant les objets deux à deux pour fournir au final une hiérarchie de partition des objets (Lebart, Morineau & Piron, 2004). La classification autour des centres mobiles procède de manière inverse : elle cherche à réaliser une partition dès le départ, en affectant les différents éléments à des centres provisoires de classes puis recentre les classes définies par itération successive en réaffectant les différents objets dans ces nouvelles partitions (Lebart, Morineau & Piron, 2004).

IV.2.2.2.a - Les classifications ascendantes hiérarchiques.

La Classification Ascendante Hiérarchique procède à des regroupements successifs des unités élémentaires en fonction de leur ressemblance par rapport à un critère d'agrégation (Sanders, 1989). Elle commence par calculer la dissimilarité entre l'ensemble des objets de la table puis procède au regroupement des objets deux à deux en fonction du critère d'agrégation choisi (figure 4.9). Cette première étape permet de créer des classes contenant chacune deux objets. La dissimilarité entre les différents groupes d'objets obtenus est alors calculée. Ceux-ci sont à nouveau regroupés en cherchant toujours à minimiser le critère d'agrégation choisi. L'opération est alors répétée jusqu'à ce que tous les objets soient agrégés. Le critère d'agrégation retenu dans notre cas est la distance de Ward qui se base sur le variance minimale entre les objets d'une classe : deux objets ou deux groupes d'objets sont agrégés de telle manière que l'augmentation de la variance intra-classe soit toujours la plus petite possible, permettant ainsi la création de classes homogènes (Bouroche & Saporta, 1987).

L'avantage de la CAH est de fournir un résultat graphique, représenté dans un dendrogramme qui permet de visualiser le résultat du regroupement des objets deux à deux, dont la lecture directe est utile pour déterminer le nombre de classes à retenir. En revanche, il s'avère que cette méthode demande un temps de calcul assez important lorsque le tableau de données est grand. La lecture du dendrogramme sera d'ailleurs pratiquement impossible (XLStat help, 2006) lorsque le nombre d'individus est trop important.

Figure 4.9 : Agglomération progressive de cinq points selon les algorithmes de la CAH et construction du dendrogramme.

(Figure extraite Lebart, Morineau & Piron, 2004)

IV.2.2.2.b - Les classifications autour des centres mobiles.

Les classifications autour des centres mobiles (figure 4.10) procèdent de manière inverse par rapport à la CAH. En effet, la première étape de cette méthode de classification consiste à définir aléatoirement des centres de classes et à leur associer les objets qui leur sont les plus proches en fonction d'un critère d'agrégation donné. La seconde itération permet de redéfinir les centres des classes en fonction des objets qui leur ont été affectés en première itération. Les objets sont alors réaffectés en fonction de la distance qui les séparent des nouveaux centres définis et ainsi de suite jusqu'à ce que la convergence soit établie (XLStat help, 2006). L'algorithme s'arrête nécessairement lorsque deux itérations successives conduisent à la même partition ou lorsque le critère d'agrégation choisi cesse de décroître de manière sensible. Il est toutefois possible de décider arbitrairement d'un nombre d'itérations et ainsi d'agir sur le nombre de classes. Lebart, Morineau & Piron (2004) précisent que dans le cas particulier des K-means, la position d'un centre est recalculée chaque fois qu'un individu est réaffecté dans la classe qui lui correspond le mieux, si bien qu'il est possible d'obtenir une partition satisfaisante dès la première itération. Cette technique de classification offre comme avantage, par rapport aux CAH, de permettre la réaffectation d'un individu à des classes différentes au cours des itérations

successives, ce qui permet de le placer au final dans l'ensemble qui lui correspond le mieux (XLStat help, 2006). Elle est en outre plus rapide en terme de calcul et semble de ce point de vue mieux adaptée aux grands tableaux de données. En revanche, le fait que les centres des classes soient établis aléatoirement lors de la première itération rend la classification finale très dépendante de l'ordre des individus dans le fichier de départ (Lebart, Morineau & Piron, 2004). Si cet ordre est modifié, les classes le seront aussi nécessairement. De ce fait, il est rare de pouvoir obtenir successivement les mêmes classes à partir d'un même fichier de données. De plus, cette méthode de classification ne permet pas de voir le nombre cohérent de classes qu'il est possible d'extraire d'un ensemble de données car aucun rendu graphique n'existe pour le déterminer.

Figure 4.10 : Les étapes de l'algorithme de classification autour des centres mobiles.

IV.2.2.2.c - Les classifications mixtes.

Les classifications ascendantes hiérarchiques et les K-means procèdent de manière différentes pour classer les données d'un tableau, chacune avec ses atouts et ses inconvénients. Ces deux méthodes sont toutefois très complémentaires. De ce fait elles peuvent être groupées dans ce que l'on nomme classification mixte. L'algorithme de la classification mixte repose sur trois phases. Lebart, Morineau & Piron (2004) précisent que cette méthode consiste en la mise en place d'un partitionnement initial du tableau de données en quelques dizaines (voire centaines) de groupes à partir desquels une classification ascendante fixera le nombre de classes qu'il est possible d'envisager par lecture sur le dendrogramme. Enfin la partition finale est obtenue par un algorithme de classification autour des centres mobiles, en recalculant les classes à partir des barycentres donnés par la CAH (figure 4.11).

Figure 4.11 : L'algorithme de la classification mixte.

(D'après Lebart, Morineau & Piron, 2004)

Cette technique est généralement utilisée pour traiter les très grands tableaux de données, contenant plusieurs milliers d'individus. Ce n'est évidemment pas le cas des facettes topographiques qui comptent au plus 1305 individus sur le bassin versant de Kamech. Cette méthode est plus lourde à mettre en œuvre que les précédentes du fait du nombre d'étapes qu'elle nécessite. C'est en outre pour cette

raison que seulement trois scénarios sont établis suivant cette méthode. Les résultats ne présentant pas de différences réellement significatives pouvant justifier la mise en œuvre d'une telle technique.

La méthode permettant d'établir la typologie des facettes topographiques repose donc, en premier lieu, sur une ACP réalisée dans le but de réduire l'information disponible au départ puis passe par l'intermédiaire de classifications numériques pour établir les classes sur lesquelles la typologie se base. Le paragraphe suivant présente les différents scénarios établis et les analyses qu'ils permettent dans le but de faire ressortir la meilleure typologie possible pour chaque bassin versant.

IV.3 - LA TYPOLOGIE DES FACETTES TOPOGRAPHIQUES :

Documents relatifs