• Aucun résultat trouvé

Cette th`ese est organis´ee de la fa¸con suivante. Le Chapitre 2 pr´esente un panorama des m´ethodes g´en´eriques d’optimisation combinatoire par voisinage. Nous commen¸cons par d´efinir les notions de base permettant de caract´eriser un probl`eme d’optimisation, `a savoir l’espace de recherche, le paysage d’exploration, le voisinage, les maximums locaux et globaux et les bassins d’attraction. Nous d´ecrivons ´egalement les principales approches d’optimisation g´en´eriques, `a savoir les grimpeurs et les approches ´evolutionnistes.

Le Chapitre 3 donne l’´etat de l’art des programmes et m´ethodes couramment utilis´es pour l’alignement de s´equences. Nous discutons ´egalement des fonctions de scores, ou fonctions objectif, qui sont utilis´ees pour mesurer la qualit´e biologique des alignements produits.

Le Chapitre 4 pr´esente notre approche originale pour le probl`eme de l’alignement local multiple et sans indels. Nous approchons ce probl`eme sous la forme d’une optimisation combinatoire par voisinage, en d´efinissant les espaces de recherche, les fonctions de voisi-nages, et diff´erentes strat´egies d’optimisation. Nous d´ecrivons ´egalement dans ce chapitre une nouvelle fonction objectif d´edi´ee `a l’optimisation d’alignements multiples de s´equences de prot´eines. Le Chapitre 5 pr´esente une s´erie de r´esultats, impliquant des donn´ees r´eelles et artificielles. Nous y ´evaluons l’efficacit´e de nos strat´egies, en comparaison avec diff´erents programmes de r´ef´erence. Nous y comparons ´egalement notre nouvelle fonction objectif avec celle classiquement utilis´ee, sur sa capacit´e `a identifier des alignements de s´equences prot´eiques faiblement conserv´ees. Nous ´evaluons ´egalement ces fonctions par rapport aux

1.3. ORGANISATION DU DOCUMENT 13 effets qu’elles peuvent apporter sur le paysage d’exploration. Finalement, le Chapitre 6 pr´esente nos conclusions et les principales contributions scientifiques de notre travail, ainsi que les perspectives d´egag´ees.

Chapitre 2

L’optimisation combinatoire par voisinage

2.1 Introduction

L’optimisation combinatoire est une probl´ematique consistant, pour un ensemble de variables prenant des valeurs enti`eres, `a d´eterminer leurs instanciations, ´eventuellement sous contraintes, correspondant au maximum (ou minimum) d’une fonction de ces va-riables,OF, g´en´eralement appel´eefonction objectif. L’ensemble des combinaisons pouvant ˆetre prises par ces variables constitue l’espace de recherche du probl`eme. Une combinaison donn´ee est appel´ee une solution potentielle ou plus simplement une solution, alors que les instanciations des variables qui maximisent OF sont appel´ees les solutions optimales du probl`eme. Dans le cas d’une optimisation combinatoire sous contrainte, on d´efinit un ensemble de contraintes sur les variables rendant non valide un sous-ensemble de l’espace de recherche.

Lorsque la fonction objectif OF n’est pas connue analytiquement, c’est `a dire que l’on ne peut pas l’exprimer directement `a partir des variables, on dit que le probl`eme est de type “boˆıte noire”. Dans ce cas, on ne peut connaˆıtre la valeur de la fonction que de fa¸con indirecte pour chacun des points de l’espace de recherche. On ne dispose donc pas de propri´et´es sur OF et les m´ethodes d’optimisation par gradient ou par “fitting” sont inutilisables. Ce chapitre est essentiellement d´edi´e au probl`emes de type “boˆıte noire”.

Les m´ethodes d’optimisations sont tr`es nombreuses. Il existe plusieurs classifications possibles, l’une d’elle consiste en la s´eparation en deux groupes : les m´ethodes par voisi-nage et les m´ethodes par construction.

Les m´ethodes par voisinage structurent l’espace de recherche en un ou plusieurs paysages par l’interm´ediaire de fonctions devoisinage. Ces m´ethodes disposent en permanence d’une ou plusieurs solutions compl`etes (pour lesquelles on a calcul´e la valeur de OF), qu’elles modifient de fa¸con plus ou moins importante pour obtenir de nouvelles solutions. Nous d´ecrirons ce type de m´ethodes plus en d´etail dans le reste de ce chapitre.

L’autre groupe de m´ethodes, dites par construction, ´elabore une solution en instanciant successivement les variables. Certaines de ces m´ethodes sont dites exactes dans le sens ou elles garantissent de trouver la solution optimale. La plus simple d’entre elles est l’explo-ration exhaustive de l’espace de recherche par arborescence comme le fait l’algorithme de

“retour en arri`ere” par exemple (Russel and Norvig, 2003). La complexit´e moyenne de 15

ces approches est exponentielle avec le nombre de variables. Des variantes plus ou moins complexes comme les algorithmes A ou de branch and bound utilisent des heuristiques exactes pour ´elaguer l’arbre de recherche. La complexit´e de ces m´ethodes est directement d´ependante de l’heuristique utilis´ee et de son ad´equation avec la fonction objectif. Un exemple d’algorithme de branch and bound pour le probl`eme de l’alignement local mul-tiple sans indels est d´ecrit dans (Horton, 2001).

La plupart des autres m´ethodes par construction ne garantissent de trouver la ou les solu-tions optimales que dans certaines condisolu-tions li´ees aux propri´et´es du probl`eme consid´er´e.

La strat´egie non-exacte la plus simple est la construction gloutonne dans laquelle on ins-tancie les variables les unes apr`es les autres, selon la valeur potentielle de la solution non compl`etement instanci´ee. Une instanciation effectu´ee ne peut pas ˆetre remise en cause par la suite. Une m´ethode gloutonne plus ´elabor´ee est larecherche par faisceau (beam search).

Cette m´ethode parcourt et ´elague un arbre de recherche. Elle doit disposer d’un score pour les noeuds internes correspondant `a des solutions non compl´etement instanci´ees. L’arbre est parcouru par niveaux. Tous les noeuds d’un niveau sont consid´er´es, puis on ne conserve que les k meilleurs, les autres ´etant ´elagu´es avec leurs sous-arbres correspondants, en pre-nant bien sˆur le risque d’´elaguer un sous-arbre menant `a la solution optimale. On pro-gresse ainsi niveau par niveau jusqu’aux feuilles, correspondant `a des solutions compl`etes.

A chaque niveau, on ´evalue donc k∗nsolutions incompl`etes, o`u n est le nombre moyen de fils par noeuds. Le param`etre k est appell´e la largeur du faisceau. Sa valeur influe directement sur les complexit´es spatiales et temporelles. Cette technique est utilis´ee par la m´ethode d’alignement multiple CONSENSUS (Hertz et al., 1990), que nous d´ecrivons dans la Section 3.5.4.

La majeure partie des probl`emes d’optimisation combinatoire ont ´et´e d´emontr´es NP-complets et donc particuli`erement difficiles `a r´esoudre. Des m´ethodes exactes (programma-tion dynamique, branch and bound...) peuvent s’av´erer efficaces dans certaines instances de ces probl`emes, mais le plus souvent aucune solution exacte ne peut ˆetre d´ecouverte en un temps raisonnable et des approches heuristiques non-exactes doivent ˆetre utilis´ees pour proposer des solutions approch´ees de bonne qualit´e.