Cette section pr´esente les principales perspectives que nous avons pu d´egager `a la fin de notre ´etude.

• Les strat´egies Q et AG concernant le choix des graines `a optimiser n’ont ´et´e d´evelop-p´ees que pour le mode OOPS. La raison ´etait que la fa¸con de conduire ces choix d´ependait de l’op´erateur de projection M toP, qui effectue l’alignement d’un mot sur les s´equences. Cette proc´edure est relativement coˆuteuse en calculs, et il ap-paraˆıt qu’une strat´egie de choix de graines n’est efficace que si les graines peuvent ˆetre produites en un temps CPU significativement inf´erieur `a celui qui est requis par l’optimisation d’une graine par le grimpeur. Le concept g´en´eral de produire des graines prometteuses apparaˆıt tr`es pertinent pour augmenter l’efficacit´e globale de la proc´edure d’optimisation. Des recherches devraient ˆetre men´ees afin d’´etudier une m´ethode de construction de graines prometteuses efficaces du point de vue du temps CPU. Une graine prometteuse peut ˆetre simplement d´efinie comme ´etant un ensemble de N occurrences de longueur W, qui pr´esentent une similarit´e plus

im-6.2. PERSPECTIVES 105 portante que ce que l’on attendrait par hasard. Une piste de recherche serait de repr´esenter S dans une structure de donn´ees appropri´ee, permettant de r´eunir ra-pidement des facteurs s qui pr´esentent la propri´et´e ´enonc´ee.

• Notre nouvelle fonction a ´et´e ´evalu´ee sur sa capacit´e `a isoler un signal du bruit ainsi que sur l’effet qu’elle produit sur le paysage d’exploration. Une ´etude int´eressante consisterait `a ´evaluer le mod`ele probabiliste recouvrant qu’elle utilise, sur sa capacit´e

`a discriminer de nouvelles occurrences d’un motif connu. Ce travail impliquerait le d´eveloppement d’une statistique sur le mod`ele recouvrant, permettant de d´ecider de l’appartenance ou non d’une s´equence inconnue `a la famille repr´esent´ee par le motif.

• Il n’existe pas `a notre connaissance de comparaison compl`ete sur la pertinence bio-logique des diff´erentes fonctions objectif pour l’alignement multiple de s´equences prot´eiques. Les ´etudes men´ees ne comparent pas ces fonctions sur leurs capacit´es

`a ordonner correctement les points de l’espace de recherche. Par exemple, l’´etude propos´ee dans (Thompson et al., 2001) compare diff´erentes fonctions, (entropie rela-tive et somme des paires inclues), sur les ´ecarts de valeurs qu’elles donnent entre un alignement jug´e biologiquement correct et un deuxi`eme alignement non significatif.

Cette ´etude ´evalue ces fonctions sur la signification de leurs valeurs absolues, sous le point de vue d’une mesure de signifiance statistique. Bien que le fait de pouvoir dis-tinguer un alignement al´eatoire d’un alignement homologue est capital, nous pensons que ce n’est pas ce qui est demand´e `a une fonction objectif d´edi´ee `a l’optimisation.

Le probl`eme de la signifiance de l’alignement est statistique et doit ˆetre mesur´e par la suite, sur l’alignement d´ej`a optimis´e. On attend d’une bonne fonction objectif qu’elle ait la capacit´e d’ordonnancer correctement les points de l’espace de recherche, les

´ecarts de valeurs ´etant secondaires. Une autre propri´et´e attendue d’une fonction ob-jectif est la rapidit´e de son ´evaluation, dont d´epend directement le temps n´ecessaire

`a une optimisation pour produire un alignement fiable. Une ´etude comparative, sous ce point de vue, des diff´erentes fonctions objectif serait extrˆemement int´eressante.

• Une limitation majeure des programmes d’optimisation d’ULMA sont les param`etres W et N qui doivent ˆetres donn´es par l’utilisateur. Plusieurs programmes et en ticulier le Gibbs Motif Sampler, proposent une m´ethode permettant de lever par-tiellement ces contraintes. L’utilisateur doit cependant toujours donner une valeur approximative pour ces param`etres, et le programme se charge ensuite de les faire va-rier de fa¸con `a les optimiser. Une telle approche se fait cependant au d´etriment de la qualit´e de l’optimisation. Il serait alors utile de pouvoir ´evaluer une p-valeur d’un ali-gnement, de fa¸con `a pouvoir comparer des alignements optimis´es ind´ependamment avec diff´erentes valeurs de N et W. Une telle approche est propos´ee dans (Hertz and Stormo, 1999), qui d´ecrit une m´ethode analytique pour calculer la probabilit´e d’obtenir un score ´egal ou sup´erieur avec un alignement compl`etement al´eatoire.

Cette statistique, d´evelopp´ee pour l’entropie relative, donne g´en´eralement de bons r´esultats. Elle n’est cependant pas directement applicable `a notre nouvelle fonction. Il serait alors int´eressant d’´elaborer une telle statistique pour l’entropie relative recou-vrante. Une m´ethode relativement fiable pour estimer une p-valeur est de proc´eder

`a un grand nombre d’optimisations sur les s´equences randomis´ees, afin d’estimer la distribution des scores optimis´es attendus sur des donn´ees non significatives (rando-mis´ees). Cette approche simple donne de bons r´esultats, mais elle est par contre trop

coˆuteuse en temps de calcul si l’on d´esire comparer un grand nombre d’alignements avec diff´erentes valeurs de N deW.

• Les programmes d’optimisation d’alignement par voisinage ne permettent en g´en´eral pas de consid´erer les ´ev´enements mutationnels comme les insertions ou les d´el´etions.

Consid´erer ces ´ev´enements lors de l’optimisation d’une fonction bas´ee sur l’entropie pose deux probl`emes. Premi`erement, l’´evaluation de leurs coˆuts, et deuxi`emement l’explosion combinatoire produite. On peut imaginer un traitement des coˆuts d’indels par une fonction s´epar´ee et il serait alors int´eressant de d´evelopper des fonctions de voisinage adapt´ees `a ce probl`eme, ouvrant la perspective de r´ealiser des alignement avec indels fiables sur des s´equences distantes. Une alternative serait de limiter cette approche par voisinage `a un post traitement d’un ULMA d´ej`a obtenu, en utilisant une proc´edure de raffinement it´eratif (Wallace et al., 2005; Gotoh, 1993) afin d’y ins´erer des ´eventuels indels.

• L’optimisation simultan´ee de plusieurs ULMAs pourrait permettre de produire un alignement multiple complet sur les s´equences. Ce concept est utilis´e par MEME, qui recherche successivement un nombre donn´e d’ULMAs. Afin de ne pas converger deux fois sur la mˆeme solution, les occurrences d´ej`a d´etect´ees sont masqu´ees `a chaque

´etape. Une piste int´eressante pour permettre l’optimisation simultan´ee de plusieurs ULMAs est d´ecrite par Yoann Mescam (Gras et al., 2004). Il utilise un algorithme g´en´etique avec le concept de “niche ´ecologique”, pour permettre `a plusieurs ULMAs diff´erents de coexister pendant une optimisation.


