• Aucun résultat trouvé

1.3 Identification des classes de gènes co-exprimés

1.3.2 Automatisation du découpage de la hiérarchie

Une des questions principales de la méthode de classification mixte hiérarchique- pyramidale est de savoir comment déterminer le seuil de découpage de la hiérarchie. Notre but était d’automatiser ce choix. Pour cela, nous avons défini des critères tenant compte de la qualité globale de la partition obtenue pour un seuil de découpage donné, ainsi qu’un critère technique concernant l’algorithme de construction des pyramides. 1.3.2.1 Définition de critères de partitionnement

La question principale était donc de déterminer la valeur de l’indice à fixer pour le découpage de la hiérarchie et l’obtention de la partition. Il est clair que plus cette valeur est élevée et plus le nombre de classes est faible. Mais la taille de ces classes en est d’autant plus grande. Or, nous sommes confrontés à une limitation technique puisque l’algorithme de construction des pyramides, la CAP (voir page 38), ne peut s’appliquer qu’à 250 individus au plus.

La valeur maximale est celle de l’indice de la racine. Dans ce cas, la partition possède une classe unique qui est l’ensemble de départ. Par conséquent, ce découpage ne présente aucun intérêt. A l’inverse, une valeur d’indice proche de 0 se situe près des feuilles dont l’indice est nul par convention. Le nombre de classes est alors très élevé, proche du nombre total d’individus, et la taille des classes est très faible.

À ce stade, l’objectif était donc de définir un critère de partitionnement pour in- diquer la valeur d’indice permettant d’obtenir la meilleure partition. Pour cela, nous avons choisi de quantifier la qualité d’une partition par la distance intra-classe d’une part et la distance inter-classes de l’autre. La distance intra-classe caractérise l’homo- généité de chaque classe. Par conséquent, la distance intra-classe globale d’une partition est d’autant plus faible que les éléments de chaque classe sont proches les uns des autres. La distance inter-classes, quant à elle, caractérise l’éloignement des classes les unes par rapport aux autres. Ainsi, une partition dont les classes sont très espacées a une dis- tance inter-classes élevée. Notre objectif était d’obtenir une partition telle que ses classes étaient homogènes et éloignées les unes des autres. Par conséquent, nous avons choisi de maximiser la distance inter-classes et de minimiser la distance intra-classe. Nous avons utilisé les critères de Dunn et Davies-Bouldin définis par Bolshakova et al. comme suit [Bolshakova et Azuaje, 2003] : D(U ) = min 1≤i≤c ( min 1≤j≤c,j6=i ½ δ(X i, Xj) max1≤k≤c{∆(Xk)} ¾) (1.3)

Fig. 1.1 – Principe de la classification mixte hiérarchique-pyramidale. Cette figure illustre le principe de la classification mixte hiérarchique-pyramidale. Une hiérar- chie est d’abord construite. Elle est ensuite découpée à une hauteur donnée de manière à obtenir une partition de l’ensemble de départ. Enfin, une pyramide est construite pour chaque classe de la partition.

1.3. IDENTIFICATION DES CLASSES DE GÈNES CO-EXPRIMÉS où δ(Xi, Xj) définit la distance inter-classes entre Xiet Xj; ∆(Xk) représente la distance

intra-classe de la classe Xk, et c est le nombre de classes de la partition U. Nous avons

donc cherché à maximiser cet indice. DB(U ) = 1 c c X i=1 max i6=j ½∆(X i) + ∆(Xj) δ(Xi, Xj) ¾ (1.4) où δ(Xi, Xj) définit la distance inter-classes entre Xiet Xj; ∆(Xk) représente la distance

intra-classe de la classe Xk, et c est le nombre de classes de la partition U. Nous avons

donc cherché à minimiser cet indice.

L’indice Silhouette n’a pas été utilisé car les auteurs ont montré que sa validité était discutable en termes de biologie [Bolshakova et Azuaje, 2003]. De plus, les auteurs ont montré que l’utilisation de différentes distances (∆ et δ) n’avait pas d’influence majeure sur les critères. Ainsi, nous avons choisi d’implémenter ces critères en utilisant la distance euclidienne.

1.3.2.2 Développement d’une méthode de découpage automatique d’une hiérarchie

Le but de cette méthode était d’utiliser une hiérarchie pour partitionner l’ensemble des individus considérés, afin de créer des classes de taille compatible avec l’algorithme de CAP et de meilleure qualité possible, en se basant sur les critères de taille et de partitionnement. Pour cela, nous avons suivi un parcours de la hiérarchie par indice décroissant, c’est-à-dire en partant de la racine et en descendant vers les feuilles. Un nombre de classes à étudier était fixé au départ comme paramètre. En effet, le but n’était pas d’obtenir directement des classes de petite taille mais plutôt de sélectionner des groupes d’individus assez différenciés, homogènes, quitte à recouper ceux qui contenaient trop d’individus. Néanmoins, il pourrait être intéressant de tester d’autres approches plus fines. Une idée serait par exemple de calculer une valeur d’indice pour certaines partitions régulièrement espacées, et d’en déduire, par une méthode de gradient, la zone de l’optimum du critère considéré.

Pour une hauteur donnée, nous avons donc testé la coupe de la hiérarchie à cette hauteur. Pour cela, nous avons considéré la qualité de la partition obtenue en calculant les indices de Dunn et Davies-Bouldin. Les classes qui optimisaient les différents critères étaient alors retenues.

À ce stade, si les critères sélectionnaient la même hauteur, cette dernière était choisie pour le découpage. Sinon, parmi les hauteurs qui optimisaient les critères, nous avons choisi de conserver la plus élevée dans la hiérarchie car ceci permettait de découper le moins possible la hiérarchie de départ, tout en sachant que les classes trop grandes étaient de toute façon redécoupées par la suite jusqu’à avoir un nombre d’individus inférieur au seuil fixé.

Cette méthode permet donc de découper automatiquement une hiérarchie en respec- tant strictement le critère de taille et en optimisant le critère de partitionnement.