• Aucun résultat trouvé

IV. Méthodes d’analyses multivariées

IV.3. Classification Ascendante Hiérarchique (CAH)

La classification hiérarchique utilise les distances entre les échantillons ou ensembles d'échantillons lors de la formation des classes. On obtient une arborescence avec à la base les échantillons eux mêmes et, au sommet l'ensemble des données regroupées en une seule classe [23]. En effet, cette arborescence contient une racine, de nœuds, de branches et enfin de feuilles. Les branches sont les connexions reliant la racine, les nœuds et les feuilles. Chaque nœud d’un arbre de décision représente un test réalisé par rapport à un attribut. Chaque branche parcourue à partir d’un nœud correspond à une sortie possible du test réalisé. Enfin, chaque feuille, i.e. chaque terminaison d’une branche d’un arbre, contient l’estimation d’une classe. La classification hiérarchique se présente sous deux variantes: la première classification est de type ascendant, elle consiste en un regroupement progressif des éléments, alors que la deuxième classification est descendante et elle vise plutôt l'éclatement des sous-ensembles. Dans ce qui suit, nous détaillerons la méthode que nous avions pu utiliser au cours de ces travaux de thèse, à savoir, la CAH.

IV.3.1. Principe de la CAH

Le principe de la CAH consiste à obtenir une classification automatique de l'ensemble d'individus. Elle commence par déterminer parmi les n individus, quels sont les 2 individus qui se ressemblent le plus par rapport à l'ensemble des p variables spécifiées. Elle va alors regrouper ces 2 individus pour former une classe. Il existe donc à ce niveau (n-1) classes, une étant formée des 2 individus regroupés précédemment, les autres ne contenant qu'un unique individu. Le processus se poursuit en déterminant quelles sont les 2 classes qui se ressemblent le plus, et par la suite, elles vont être regroupées. Cette opération est répétée jusqu’à l'obtention d'une unique classe regroupant l'ensemble des individus.

Pour illustrer ces propos, la figure III.4 présente le schéma de principe de la classification hiérarchique ascendante. L'ensemble d'apprentissage est constitué au départ (étape n°1) des 9 échantillons, donc, a priori de 9 "classes".

Figure III.4: Schéma de principe de la classification hiérarchique ascendante. L'ensemble d'apprentissage est constitué de 9 individus.

Dans cet exemple, la procédure peut être arrêtée à un niveau approprié tel que l'étape n° 7. On obtient alors un regroupement en trois classes constituées des individus suivants: {ͻǡͳǡͷ}, {͸ǡ ͹ǡͶ} et {ʹǡ͵ǡͺ}. L'algorithme peut être contrôlé (arrêté) en suivant deux critères:

La détermination d'un critère de ressemblance entre les individus. La méthode laisse à l'utilisateur le choix de la dissimilarité.

La détermination d'une dissimilarité entre classes, procédé appelé le critère d'agrégation. La méthode laisse à l'utilisateur le choix de ce critère.

IV.3.2. Choix des indices: dissimilarité et agrégation

Différentes mesures de la distance peuvent être appliquées dans la classification hiérarchique ascendante. Généralement, les données à étudier orientent l’utilisateur dans le choix de la distance qui peut être de type Euclidienne, Mahalanobis, Manhattan, etc. Toutefois, les distances de norme Euclidienne représentent une bonne partie des références rencontrées.

Pour le choix de l’indice d’agrégation, de nombreux critères ont été proposés les plus connus sont:

Le critère du saut minimal: la distance entre 2 classes ͳ et ʹ est définie par la plus courte distance séparant un individu de C1 et un individu de C2.

ሺͳǢʹሻൌ‹ሺሼ†ሺͳǢʹሻሽǢͳאͳǢʹאʹሻ

Le critère du saut maximal: La distance entre 2 classes ͳ etʹ est définie par la plus grande distance séparant un individu de C1 et un individu de C2.

ሺͳǢʹሻൌƒšሺሼ†ሺͳǢʹሻሽǢͳאͳǢʹאʹሻ

Le critère de la moyenne: Ce critère consiste à calculer la distance moyenne entre tous les éléments de ͳ et tous les éléments de ʹǤ

ܦሺܥͳǢ ܥʹሻ ൌ  ͳ

݊஼ଵ݊஼ଶ ෍ ෍ ݀ሺ݊Ǣ ݊

א஼ଶ א஼ଵ

Avec:݊஼ଵ est le cardinal de ͳ et ݊஼ଶest le cardinal de ʹǤ

Le critère de Ward: Ce critère ne s'applique que si on est muni d'un espace euclidien. La dissimilarité entre 2 individus doit être égale à la moitié du carré de la distance euclidienne d. Le critère de Ward consiste à choisir à chaque étape le regroupement de classes tel que l'augmentation de l'inertie intra-classe soit minimal.

ܦሺܥͳǢ ܥʹሻ ൌ  ݊஼ଵ݊஼ଶ

݊஼ଵ൅݊஼ଶሺ݃஼ଵǢ ݃஼ଶ Avec,݃஼ଵ le centre de gravité de ͳ et ݃஼ଶle centre de gravité de ʹǤ

La difficulté du choix du critère d'agrégation réside dans le fait que ces critères peuvent déboucher sur des résultats différents. Selon la plupart des références le critère le plus couramment utilisé est celui du Ward.

Cette méthode de classification a comme avantages d’être interprétable, flexible et relativement eˆˆ‹cace [24]. Cependant elle présente certaines faiblesses en raison d’absence des règles de choix des indices de dissimilarité et d’agrégation.

IV.4. Analyse Discriminante Linéaire (ADL)

L’Analyse Discriminante Linéaire (ADL), appelée aussi, Analyse Factorielle Discriminante (AFD), initialement introduite par Fisher [25] puis par Mahalanobis [26] en 1936, est une méthode permettant de modéliser l'appartenance à un groupe d'individus en fonction des valeurs prises par plusieurs variables, puis de déterminer le groupe le plus probable pour un individu, connaissant uniquement les valeurs des variables qui le caractérisent. Les variables qui décrivent les individus sont à fortiori des variables quantitatives alors que les groupes sont spécifiés par une variable qualitative. Ce classifieur est considéré donc comme une méthode de classification supervisée puisqu’on « connaît la réponse », les observations étant déjà affectées à un groupe.

IV.4.1. Principe de l’ADL

D’une manière générale, l'idée du principe de la discrimination repose sur le fait que la discrimination visuelle est plus aisée si les centres de gravité de chaque sous-nuage appartenant à une seule classe sont éloignés, et chaque sous-nuage appartenant à une seule classe sont les plus

homogènes possibles autour de ces centres de gravité. Ce postulat est respecté catégoriquement par l’analyse discriminante linéaire. Pour ce faire, il faut maximiser les variances interclasses (entre les classes) et minimiser les variances intra-classes (à l'intérieur des classes). Le principe de l’ADL est illustré sur la figure III.5. Nous constatons que deux objectifs se dessinent:

Figure III.5: Schéma de principe de l’ADL.

Le premier objectif consiste à déterminer les fonctions linéaires discriminantes sur l'échantillon d'apprentissage, i.e. la combinaison linéaire des K variables explicatives dont les valeurs séparent au mieux les Q classes. Il s'agit donc d'une étape de discrimination des classes.

Le second objectif consiste à déterminer la classe de nouveaux individus pour lesquels nous observons les valeurs des K variables explicatives. Il s'agit d'un problème de classement par opposition au problème de classification qui est la construction de classes les plus homogènes possibles dans un échantillon.

Typiquement, cette méthode peut être vue comme une analyse factorielle, car son aspect descriptif fait appel à des calculs d'axes principaux. C'est une méthode avant tout prédictive qui discrimine les individus selon des classes connues. Son aspect prédictif de classement de nouveaux individus peut en fait faire appel à d'autres méthodes de classification géométriques ou probabilistes.

IV.4.2. Variantes de l’ADL

L’ADL se présente selon deux variantes successives: descriptive et décisionnelle.

L’ADL d’ordre descriptif consiste à calculer de nouvelles variables (facteurs discriminants) qui sont les combinaisons linéaires des K variables. Le but est donc d’obtenir un axe discriminant de variance maximale séparant au mieux les classes entre elles. En d’autres termes, ce nouvel axe devra prendre des valeurs les plus voisines possibles pour les individus appartenant à un même groupe, mais les plus différentes possibles pour les individus appartenant à des groupes distincts. Pour cela, la première combinaison linéaire sera celle dont la variance entre les classes (variance inter-classe) est maximale et la variance à l’intérieur des classes (variance intra-classe) est minimale. L’idée de

maximiser la variance inter-classe permet d’accentuer les différences entre ces classes, et de minimiser la variance intra-classe revient à délimiter l’étendue dans les classes en réduisant les différences au sein d’une même classe. On cherche ensuite, parmi les combinaisons linéaires non corrélées à la première, celle qui discrimine le mieux les classes. Ces différentes combinaisons linéaires seront alors les fonctions linéaires discriminantes.

Une fois la meilleure description des N individus en Q groupes mise au point, on peut alors chercher à affecter une observation anonyme à l’une des Q classes. Ceci constitue la deuxième variante de l’ADL (ordre décisionnel). Pour cela, il existe plusieurs règles. Une règle simple consiste à choisir la classe dont le centre de gravité est le plus proche du point-individu (fonction canonique discriminante). Cette approche purement géométrique ne prend cependant pas en compte les probabilités de présence a priori des différentes classes, qui peuvent être très inégales dans des cas particuliers. Par conséquent, d’autres approches d’analyse discriminante classiques peuvent être exploitées, notamment le modèle bayésien d’affectation (fonction de Fisher) pour lequel on calcule les probabilités d’appartenance à chacun des Q groupes considérés d’un individu i à identifier. Ce nouvel individu appartiendra au groupe ayant la probabilité maximale [27]. Néanmoins, la métrique de Mahalanobis reste la plus utilisée.