• Aucun résultat trouvé

5.5 Un ensemble de prot´eines EF-hand

5.5.3 Comparaison avec les m´ethodes classiques

Nous avons test´e diff´erentes m´ethodes classiques sur les donn´ees EF et EF40. Les pro-grammes impliqu´es sont le Gibbs Motif Sampler (GMS) (Neuwald et al., 1995), CONSEN-SUS et MEME. CONSENCONSEN-SUS et MEME peuvent ˆetre param´etr´es pour rechercher N oc-currences d’un motif sous la distribution AOPS. Le GMS est un programme d´edi´e `a la recherche d’occurrences sous ce mode. On ne peut par contre pas le forcer `a reporter exac-tement N occurrences. On doit en revanche lui fournir le nombre d’occurrences attendues qu’il va utiliser comme base pour commencer sa recherche. Les donn´ees EF ne posent aucun probl`eme aux m´ethodes pr´ecit´ees. Elles sont toutes capables de retrouver rapide-ment (moins de dix secondes CPU) les vingt-sept occurrences du motif. Le r´esultat est par contre tr`es variable pour les donn´ees EF40. Notre strat´egie de grimpeur strict sur la

5.5. UN ENSEMBLE DE PROT ´EINES EF-HAND 101 fonction OF(HR) retrouve comme le montre la Figure 5.9 toutes les occurrences du motif en six secondes CPU, et pour un taux de succ`es de 0.95. CONSENSUS retrouve toutes les occurrences du motif. Il faut pour cela augmenter la largeur du faisceau propos´ee par d´efaut avec l’option ’-q 20000’. Il utilise alors environ 30 Mo de m´emoire et construit l’alignement correct en vingt-deux minutes CPU. MEME ne retrouve aucune des occur-rences du motif, malgr´e nos efforts pour optimiser ses param`etres. Le GMS ne reporte que vingt-deux occurrences, toutes correctes, en un temps CPU d’environ une seconde et pour un taux de succ`es de 0.95 (estim´e sur deux cent optimisations ind´ependantes).

Cette performance est tout `a fait remarquable si l’on consid`ere que ce programme ne tient pas compte de la nature des acides amin´es comme le fait l’entropie recouvrante. Cette performance est due `a la strat´egie du GMS, qui va r´eduire le nombre d’occurrences qu’il consid`ere simultan´ement afin de converger rapidement vers un ULMA de petite taille. Les occurrences restantes sont par la suite identifi´ees directement par le mod`ele inf´er´e sur le petit nombre d’occurrences. Le fonctionnement du GMS est expliqu´e en d´etail dans la section 3.5.3. On peut supposer que cette strat´egie est efficace pour retrouver un motif dont les occurrences sont fortement conserv´ees, condition requise pour pouvoir identifier le signal en ne consid´erant qu’un petit nombre de ses occurrences (cette observation est

´egalement valable pour CONSENSUS). Il ne reporte par contre que vingt-deux occur-rences sur les vingt-sept connues. Les cinq occuroccur-rences manqu´ees ne sont probablement pas assez significatives par rapport au bruit pour qu’il puisse les identifier comme faisant partie su signal. Il faudrait en conclusion effectuer d’autres analyses afin de d´eterminer les limites de ce programme.

Chapitre 6

Conclusions et perspectives

6.1 Conclusions

Nous avons propos´e une ´etude sur le probl`eme de l’alignement local multiple et sans indels, avec une sp´ecificit´e pour les s´equences de prot´eines. Ce travail `a ´et´e effectu´e dans un but applicatif afin de r´epondre `a une probl´ematique concr`ete. Nous pensons avoir en grande partie r´eussi notre pari initial, qui ´etait le d´eveloppement d’une m´ethode fiable pour l’optimisation d’alignements. Cette ´etude a abouti sur la r´ealisation d’un outil d’aligne-ment qui pr´esente comme le montre nos r´esultats des performances sup´erieures en termes d’optimisation et de reconnaissance du signal aux autres approches comparables. La liste descriptive qui suit ´enum`ere les contributions scientifiques apport´ees par notre travail.

• L’alignement local multiple et sans indels a ´et´e d´efini sous la forme d’un probl`eme d’optimisation combinatoire par voisinage. Les d´efinitions strictes des espaces de recherche, des fonctions de voisinage et fonctions objectif apportent une nouvelle compr´ehension du probl`eme, propice `a l’´etude des difficult´es qu’il peut pr´esenter. Ce probl`eme n’avait `a notre connaissance pas ´et´e trait´e de cette fa¸con auparavant.

• Nous avons pris en consid´eration quatre modes de contraintes sur la r´epartition des occurrences. Nous les avons revus sous la forme de contraintes sur l’espace de re-cherche. Ces contraintes peuvent s’av´erer utile `a un biologiste, en fonction de ses connaissances pr´ealables sur les donn´ees qu’il cherche `a analyser.

• Une fonction objectif d´edi´ee `a l’´evaluation d’alignements de s´equences prot´eiques a

´et´e d´evelopp´ee. Cette fonction est bas´ee sur l’entropie relative, classiquement uti-lis´ee pour ce probl`eme. Notre fonction garde les sp´ecificit´es de l’entropie relative, mais permet en revanche de consid´erer la nature des acides amin´es qui sont align´es.

Cette fonction permet ainsi de d´etecter des similarit´es beaucoup plus faibles qu’avec la fonction classique et augmente consid´erablement la signification biologique des alignements produits. Elle modifie ´egalement la structure du paysage d’exploration, le rendant plus propice `a une optimisation par un grimpeur. Nos exp´erimentations indiquent que cette fonction est `a tous points de vue pr´ef´erable pour l’optimisation d’alignements de s´equences prot´eiques, par rapport `a la fonction classique.

• Nous avons d´evelopp´e une approche consistant `a g´en´erer rapidement des graines prometteuses pour le grimpeur, utilis´e en conjonction avec le mode OOPS. Cette

103

approche permet de r´eduire consid´erablement le nombre de points de l’espace de re-cherche qui doivent ˆetre consid´er´es pour permettre l’obtention d’une solution fiable.

L’approche propos´ee ne peut pas ˆetre directement ´etendue aux autres modes avec la mˆeme efficacit´e que pour le mode OOPS. Cependant, le principe de g´en´erer rapi-dement des graines par assemblage direct de facteurs similaires est prometteur pour am´eliorer sensiblement les capacit´es d’exploration.

• L’impl´ementation de notre approche a permi la r´ealisation d’un programme d’aligne-ment qui est significatived’aligne-ment plus performant que les m´ethodes existantes pour ce probl`eme. Le d´eveloppement de la fonction objectifOF(HR), sp´ecifique aux prot´eines, permet de r´ealiser des alignements fiables sur des s´equences prot´eiques distantes. Ce programme a ´egalement ´et´e utilis´e avec succ`es pour la d´etection de sites de r´egulation sur des s´equences d’ADN (Yap et al., 2005).

• Nous proposons `a la communaut´e informatique et bioinformatique une librairie de d´eveloppement ´ecrite en C++. Cette librairie permet d’int´egrer directement nos strat´egies d’optimisation avec leurs fonctions objectif dans un projet plus vaste. Son architecture permet de lui adjoindre rapidement des nouvelles fonctionnalit´es comme une fonction de voisinage ou une fonction objectif.

• Nous avons donn´e un point de vue sur la fa¸con d’´evaluer les m´ethodes. Par le biais du probl`eme Challenge, nous avons montr´e que toutes les comparaisons ne sont pas pertinentes. Lors de nos comparaisons avec d’autres approches, nous avons s´epar´e l’´evaluation de la qualit´e des fonctions objectif, et l’´evaluation de la capacit´e d’op-timisation d’une fonction objectif donn´ee. Ces deux aspects sont souvent confondus et il semble primordial de les distinguer. De plus une strat´egie d’optimisation com-binatoire devrait toujours ˆetre ´evalu´ee en fonction du nombre de points consid´er´es par l’exploration ainsi que du temps CPU. Ces deux points de vue sont essentiels pour pouvoir juger de la qualit´e globale d’une approche.