Discussion et conclusion - : Présélection par regroupements fonctionnels : Correlation-Gene Ont

Chapitre 3 : Présélection par regroupements fonctionnels : Correlation-Gene Ontology

3.4 Discussion et conclusion

La méthode CoGO, dans cette version, n'a pas permis une amélioration de la stabilité et a même tendance à produire des sélections peu stables. Une première hypothèse pour expliquer ces mauvaises performances est que la correspondance entre d'une part les corrélations observées sur les données biopuces, et d'autre part les groupes de fonctions GO serait insuffisante pour en faire une combinaison pertinente.

En effet, bien que les corrélations entre gènes partageant une même annotation soient, en valeur relative, plus du double de celles entre gènes pris au hasard, en valeur absolue la différence reste modérée et les valeurs des corrélations à l'intérieur des fonctions restent faibles (~0.32 comme nous l'avons indiqué dans la présentation de la méthode). Cependant, les expériences réalisées avec la méthode CoGO "opposée" suggèrent que les regroupements basés sur les fonctions et les corrélations ont bien une certaine pertinence : quand on réalise des sélections basées sur des clusters les plus fonctionnellement hétérogènes possibles, sur la base

Correlation-Gene Ontology (CoGO)

de la métrique de similarité définie dans CoGO, la stabilité est très basse en général et au niveau fonctionnel en particulier. Ce qui indique que bien que certains gènes soient communs entre les sélections (CWrel>0), au-delà de l'intersection liée au hasard (ATIPA >0), les gènes non communs

sont par contre tellement différents d'une sélection à l'autre que la stabilité fonctionnelle mesurée est inférieure à la stabilité fonctionnelle liée au hasard (SFA<0). La métrique de similarité de

CoGO est donc bien capable, dans une certaine mesure, d'identifier quels gènes sont les plus distants, et donc inversement lesquels sont les plus proches. Pour aller plus loin, il serait intéressant d'étudier une version utilisant uniquement la similarité fonctionnelle GO et une version utilisant uniquement les corrélations.

Plusieurs autres pistes peuvent être avancées pour expliquer les mauvaises performances de CoGO. Tout d'abord, GO inclut des annotations de niveaux de preuve variés. Par exemple, en octobre 2007, sur 16 millions d'annotations GO, plus de 95% étaient des annotations obtenues automatiquement, et chez l'humain, moins de 30% des gènes avaient une annotation de source expérimentale (Rhee et al., 2008). Il semble difficile de se passer des annotations non expérimentales, mais leur prise en compte implique une certaine quantité d'erreurs, qui peuvent réduire la pertinence de nos groupements fonctionnels. Peut-être que la mise en place d'une pondération des annotations, en fonction de leur niveau de preuve, dans le calcul de la matrice de similarité pourrait constituer un compromis intéressant, bien que difficile à calculer, posant en particulier une nouvelle problématique de choix d'un paramètre (quelle pondération donner aux différents niveaux de preuve ?).

D'autre part, une partie des gènes (moins de 5% sur les données leucémie, plus de 20% sur les données DiOGenes) n'ont aucune annotation. Afin de ne pas les éliminer de l'analyse, nous leur avons assigné une similarité fonctionnelle a priori (les corrélations ont ensuite été mesurées normalement) avec les autres gènes égale à la similarité fonctionnelle a priori moyenne sur l'ensemble des gènes analysés. Cette approximation a pu nuire également à la qualité des clusters. Cependant, les performances de CoGO sont moins bonnes sur les données leucémie que sur DiOGenes, alors que les données leucémie ont plus de quatre fois moins d'annotations manquantes.

Les simplifications réalisées au niveau de l'implémentation de la méthode, nécessaires afin d'alléger les calculs, ont également pu dégrader les performances. Le préfiltrage, par un filtre t-

Correlation-Gene Ontology (CoGO)

score, pour ne garder que 25% des gènes les plus associés à la classe avant de les clusteriser n'est sans doute pas une limitation majeure, car sur des données puces, pour un problème donné un grand nombre de variables ne sont pas pertinentes et il est relativement facile d'en éliminer une grande partie de manière suffisamment fiable (Somol & Novovicova, 2010). Cela dit, les clusters des gènes les moins pertinents, à proximité de ce seuil de 25%, sont vraisemblablement rendus instables par l'élimination occasionnelle d'une partie de leurs membres. Il serait donc intéressant de mettre en oeuvre la méthode sans préfiltrage... ce qui augmenterait d'autant plus les temps de calcul qu'il faudrait également augmenter le nombre de clusters. La fixation arbitraire du nombre de clusters pourrait être plus problématique, mais optimiser automatiquement le nombre de clusters semble difficilement réalisable vus les temps de calcul observés pour réaliser une sélection avec un nombre de clusters prédéterminé (~30 minutes pour une sélection avec 200 clusters). Nous avons réalisé des expériences avec un autre nombre de clusters (150), les résultats obtenus ont été similaires. Cela suggère que le nombre de clusters n'a pas une trop grande importance, en tout cas dans cette plage de valeurs, mais il n'empêche qu'une recherche plus exhaustive d'un nombre de clusters optimal, intégrée à la méthode, serait un plus si elle ne s'accompagnait pas d'une augmentation déraisonnable du temps de calcul. Il pourrait aussi être intéressant de s'intéresser à l'homogénéité des clusters, plutôt que leur nombre, comme critère d'arrêt du clustering.

Enfin, une dernière piste pour expliquer la stabilité moindre de CoGO est liée à son fonctionnement théorique même : CoGO essaye de regrouper des gènes fonctionnellement proches, via leurs annotations et leurs corrélations observées, afin de ne conserver qu'un représentant pertinent par groupe fonctionnel. Cela permet de réaliser la sélection finale à partir d'un sous-ensemble réduit de gènes, conservant le plus possible l'information contenue dans le jeu de données complet, ce qui devrait donc être plus stable par augmentation du ratio N/D. Mais, même en mettant de côté l'instabilité de l'étape de création des clusters et d'identification de leur centroïde, le fait de ne conserver qu'un seul représentant par groupe fonctionnel pourrait de par lui-même diminuer la stabilité. En effet, en ne conservant qu'un seul représentant par groupe fonctionnel, on élimine des variables redondantes. Or, des travaux suggèrent que la stabilité est liée à la redondance (Haury, 2012) : il est donc possible qu'en diminuant trop la redondance, on diminue la stabilité. De plus, conserver un certain nombre (restreint !) de

Correlation-Gene Ontology (CoGO)

variables pertinentes redondantes peut permettre plus de robustesse de la classification en cas d'aléa de mesure sur l'une d'entre elles. Enfin, on peut imaginer que certains groupes fonctionnels soient mieux représentés, indépendamment des aléas de mesures, par plusieurs gènes pltôt que par un gène unique, ce que notre méthode ne permet pas de détecter. Cela pourrait expliquer les performances de classification un peu moindres sur les sélections CoGO, et peut-être serait-il pertinent de réaliser une version qui conserverait non plus un mais 2 ou 3 représentants par cluster, ou, pour tenir compte de leur taille, une certaine proportion de gènes par cluster.

Apport des méthodes d'ensemble

Dans le document en fr (Page 91-96)