• Aucun résultat trouvé

Sélection des niveaux d’un arbre binaire avec le critère ICL

mélange pouvant être évalué avec les techniques explicitées dans le chapitre 4. L’arbre fourni en sor- tie avec l’algorithme 3 est binaire, ce qui pose le problème de la pertinence de chaque niveau. Nous proposons dans la suite une méthode pour sélectionner les partitions pertinentes.

6.3

Sélection des niveaux d’un arbre binaire avec le critère

ICL

Notre classification hiérarchique ne doit contenir que des niveaux pertinents, c’est à dire, avec des classes distinctes et des données bien regroupées pour faciliter le parcours de l’arbre par un utilisateur. L’arbre binaire fournit par l’algorithme de Fraley ne garantit pas que les niveaux présentent ces proprié- tés.

Algorithme 4 Recherche de partition avec un minimum local du critère ICL

en entrée : un arbre binaire construit à partir d’un modèle de mélange. Chaque niveau est un modèle de mélange gaussien.

initialisation : la variablei fait référence au niveau de l’arbre et est initialisée à i = 1. ICL(i) est le critère ICL associé à la partition du niveau i.

tantquei n’est pas associé aux feuilles de l’arbre faire

1.calculer le critèreICL(i + 1) ;

siICL(i) < ICL(i + 1) alors

2.1.sélectionner le niveaui ;

pour chaque noeudq de la partition du niveau i faire

2.2.appeller récursivement la fonction pour le sous-arbre de racineq ;

fin pour

2.3.aller à l’étape5 ;

finsi

3.i = i + 1 ;

fin tantque

sii est associé aux feuilles de l’arbre alors

4.le niveau des feuilles est sélectionné {quand aucun niveau ne présente de minimum local du critère ICL, nous sélectionnons par défaut le niveau des feuilles} ;

finsi

5.fin de la fonction.

Notre objectif est de faire une sélection des niveaux susceptibles de bien représenter la structure de la collection.

Critère de sélection

La sélection de niveaux dans une hiérarchie revient à comparer les partitions obtenues dans l’arbre. Celui-ci fournit les différentes solutions de partitions pour un nombre variable de composantes et chaque niveau est un modèle de mélange. Le fait de disposer d’une classification hiérarchique binaire présente un avantage certain : le nombre de partitions à comparer est limité, l’espace des paramètres des modèles étant déterminé pendant la construction de l’arbre.

Nous avons le choix entre deux techniques pour sélectionner les niveaux pertinents : la détection d’un coude dans une courbe d’erreur ou la comparaison avec des critères statistiques. La partition initiale étant obtenue à l’aide du critère statistique ICL et l’évaluation des partitions étant directe avec cette méthode, nous avons choisi de garder la même approche et de comparer les partitions avec ce critère. Nous rappelons que le critère ICL pénalise la vraisemblance d’un modèle par sa complexité et par un critère de classifiabilité, ce qui est pertinent pour choisir des partitions avec des composantes distinctes.

Méthode de sélection

La méthode de sélection, proposée dans [51], consiste à retrouver les niveaux de la partition présen- tant un minimum local du critère ICL. De tels niveaux sont censés être une représentation pertinente plus générale que la partition la plus fine de l’arbre. Notre objectif est de retrouver toutes les partitions dans l’arbre binaire présentant un minimum local du critère ICL. Nous ne présenterons que ces partitions à l’utilisateur afin de faciliter le parcours de la collection.

Figure 6.2: Selection de niveaux avec l’algorithme 4. La figure de droite est l’arbre initial. Les niveaux présentant des minima du critère ICL sont représentés par des rectangles gris. La figure de droite repré- sente l’arbre obtenu après la sélection des niveaux : seuls les niveaux ayant un minimum du critère ICL apparaissent.

Nous présentons un exemple sur les métadonnées spatiales de la collection réaliste du chapitre pré- cédent. La figure 6.1 page 113 présente un exemple de sélection de niveaux avec le critère ICL. Nous avons construit un arbre binaire obtenu avec l’algorithme de Fraley (page 112) et sélectionné les niveaux présentant un minimum local du critère ICL. La figure 6.1(a) présente la partition initiale des données et la courbe sur la figure (b) présente le critère ICL de chaque niveau de l’arbre. Nous sélectionnons tous les niveaux associés à un minimum local sur cette courbe, obtenu ici pour les modèles à4 et 9 composantes.

Les niveaux sélectionnés dans les deux cas semblent pertinents, les classes étant distinctes. Ils présentent de bonnes solutions pour représenter la structure des données.

Notre algorithme de sélection des niveaux consiste donc à parcourir l’arbre de haut en bas et à sélectionner le premier niveau présentant un minimum local du critère ICL. Une fois ce niveau obtenu, nous effectuons une recherche des minima du critère ICL dans chaque sous-arbre du niveau courant. Nous recherchons des minima locaux, et non plus globaux, du critère ICL. L’algorithme 4 ci-contre détaille cette approche et la figure 6.2 ci-dessus l’illustre par un exemple. L’arbre de gauche représente l’arbre binaire initial obtenu avec l’algorithme 3. Les niveaux présentant un minimum du critère ICL sont représentés par des rectangles gris. Nous parcourons la racine et sélectionnons le premier minimum local. Ensuite, nous lançons une recherche des minima locaux dans les sous-arbres du niveau sélectionné. Les deux autres niveaux sélectionnés sont donc des partitions d’une partie seulement des données. Les classes situées aux feuilles de l’arbre sont toujours retournées. L’arbre de droite représente la structure obtenue après la sélection des niveaux.

Propriétés de l’arbre obtenu

L’arbre obtenu est entièrement déterminé par la structure des données via l’évaluation des niveaux avec le critère ICL. Ces propriétés sont libres puisque le nombre de fils par noeud, la largeur et la pro- fondeur dépendent du processus de sélection des minima du critère ICL. Nous proposons dans la suite un algorithme incrémental combinant cette approche avec notre algorithme d’optimisation.