Comparaison avec les m´ethodes classiques

5.5 Un ensemble de prot´eines EF-hand

5.5.3 Comparaison avec les m´ethodes classiques

Nous avons testé différentes méthodes classiques sur les données EF et EF40. Les pro-grammes impliqués sont le Gibbs Motif Sampler (GMS) (Neuwald et al., 1995), CONSEN-SUS et MEME. CONSENCONSEN-SUS et MEME peuvent être paramétrés pour rechercher N oc-currences d’un motif sous la distribution AOPS. Le GMS est un programme dédié à la recherche d’occurrences sous ce mode. On ne peut par contre pas le forcer à reporter exac-tement N occurrences. On doit en revanche lui fournir le nombre d’occurrences attendues qu’il va utiliser comme base pour commencer sa recherche. Les données EF ne posent aucun problème aux méthodes précitées. Elles sont toutes capables de retrouver rapide-ment (moins de dix secondes CPU) les vingt-sept occurrences du motif. Le résultat est par contre très variable pour les données EF40. Notre stratégie de grimpeur strict sur la

5.5. UN ENSEMBLE DE PROT ÉINES EF-HAND 101 fonction OF^(HR) retrouve comme le montre la Figure 5.9 toutes les occurrences du motif en six secondes CPU, et pour un taux de succès de 0.95. CONSENSUS retrouve toutes les occurrences du motif. Il faut pour cela augmenter la largeur du faisceau proposée par défaut avec l’option ’-q 20000’. Il utilise alors environ 30 Mo de mémoire et construit l’alignement correct en vingt-deux minutes CPU. MEME ne retrouve aucune des occur-rences du motif, malgré nos efforts pour optimiser ses paramètres. Le GMS ne reporte que vingt-deux occurrences, toutes correctes, en un temps CPU d’environ une seconde et pour un taux de succès de 0.95 (estimé sur deux cent optimisations indépendantes).

Cette performance est tout à fait remarquable si l’on considère que ce programme ne tient pas compte de la nature des acides aminés comme le fait l’entropie recouvrante. Cette performance est due à la stratégie du GMS, qui va réduire le nombre d’occurrences qu’il considère simultanément afin de converger rapidement vers un ULMA de petite taille. Les occurrences restantes sont par la suite identifiées directement par le modèle inféré sur le petit nombre d’occurrences. Le fonctionnement du GMS est expliqué en détail dans la section 3.5.3. On peut supposer que cette stratégie est efficace pour retrouver un motif dont les occurrences sont fortement conservées, condition requise pour pouvoir identifier le signal en ne considérant qu’un petit nombre de ses occurrences (cette observation est

également valable pour CONSENSUS). Il ne reporte par contre que vingt-deux occur-rences sur les vingt-sept connues. Les cinq occuroccur-rences manquées ne sont probablement pas assez significatives par rapport au bruit pour qu’il puisse les identifier comme faisant partie su signal. Il faudrait en conclusion effectuer d’autres analyses afin de déterminer les limites de ce programme.

Chapitre 6

Conclusions et perspectives

6.1 Conclusions

Nous avons proposé une étude sur le problème de l’alignement local multiple et sans indels, avec une spécificité pour les séquences de protéines. Ce travail à été effectué dans un but applicatif afin de répondre à une problématique concrète. Nous pensons avoir en grande partie réussi notre pari initial, qui était le développement d’une méthode fiable pour l’optimisation d’alignements. Cette étude a abouti sur la réalisation d’un outil d’aligne-ment qui présente comme le montre nos résultats des performances supérieures en termes d’optimisation et de reconnaissance du signal aux autres approches comparables. La liste descriptive qui suit énumère les contributions scientifiques apportées par notre travail.

• L’alignement local multiple et sans indels a été défini sous la forme d’un problème d’optimisation combinatoire par voisinage. Les définitions strictes des espaces de recherche, des fonctions de voisinage et fonctions objectif apportent une nouvelle compréhension du problème, propice à l’étude des difficultés qu’il peut présenter. Ce problème n’avait à notre connaissance pas été traité de cette fa¸con auparavant.

• Nous avons pris en considération quatre modes de contraintes sur la répartition des occurrences. Nous les avons revus sous la forme de contraintes sur l’espace de re-cherche. Ces contraintes peuvent s’avérer utile à un biologiste, en fonction de ses connaissances préalables sur les données qu’il cherche à analyser.

• Une fonction objectif dédiée à l’évaluation d’alignements de séquences protéiques a

été développée. Cette fonction est basée sur l’entropie relative, classiquement uti-lisée pour ce problème. Notre fonction garde les spécificités de l’entropie relative, mais permet en revanche de considérer la nature des acides aminés qui sont alignés.

Cette fonction permet ainsi de détecter des similarités beaucoup plus faibles qu’avec la fonction classique et augmente considérablement la signification biologique des alignements produits. Elle modifie également la structure du paysage d’exploration, le rendant plus propice à une optimisation par un grimpeur. Nos expérimentations indiquent que cette fonction est à tous points de vue préférable pour l’optimisation d’alignements de séquences protéiques, par rapport à la fonction classique.

• Nous avons développé une approche consistant à générer rapidement des graines prometteuses pour le grimpeur, utilisé en conjonction avec le mode OOPS. Cette

103

approche permet de réduire considérablement le nombre de points de l’espace de re-cherche qui doivent être considérés pour permettre l’obtention d’une solution fiable.

L’approche proposée ne peut pas être directement étendue aux autres modes avec la même efficacité que pour le mode OOPS. Cependant, le principe de générer rapi-dement des graines par assemblage direct de facteurs similaires est prometteur pour améliorer sensiblement les capacités d’exploration.

• L’implémentation de notre approche a permi la réalisation d’un programme d’aligne-ment qui est significatived’aligne-ment plus performant que les méthodes existantes pour ce problème. Le développement de la fonction objectifOF^(HR), spécifique aux protéines, permet de réaliser des alignements fiables sur des séquences protéiques distantes. Ce programme a également été utilisé avec succès pour la détection de sites de régulation sur des séquences d’ADN (Yap et al., 2005).

• Nous proposons à la communauté informatique et bioinformatique une librairie de développement écrite en C++. Cette librairie permet d’intégrer directement nos stratégies d’optimisation avec leurs fonctions objectif dans un projet plus vaste. Son architecture permet de lui adjoindre rapidement des nouvelles fonctionnalités comme une fonction de voisinage ou une fonction objectif.

• Nous avons donné un point de vue sur la fa¸con d’évaluer les méthodes. Par le biais du problème Challenge, nous avons montré que toutes les comparaisons ne sont pas pertinentes. Lors de nos comparaisons avec d’autres approches, nous avons séparé l’évaluation de la qualité des fonctions objectif, et l’évaluation de la capacité d’op-timisation d’une fonction objectif donnée. Ces deux aspects sont souvent confondus et il semble primordial de les distinguer. De plus une stratégie d’optimisation com-binatoire devrait toujours être évaluée en fonction du nombre de points considérés par l’exploration ainsi que du temps CPU. Ces deux points de vue sont essentiels pour pouvoir juger de la qualité globale d’une approche.

Dans le document Stratégies d'optimisation combinatoire pour le problème de l'alignement local multiple sans indels, et application aux séquences protéiques (Page 111-115)