Problématique et Objectifs - Contributions à la résolution de problèmes d’optimisation com

Comme nous l’avons vu dans le chapitre précédent, la détermination de la séquence d’ADN d’un organisme (ou le processus de séquen¸cage d’ADN) représente une étape cruciale dans tout projet de génomique. En effet, cette étape conditionne fortement les succès des tâches postérieures (i.e., l’identification des régions codantes et la pré- diction des gènes). La séquen¸cage shotgun est la stratégie la plus utilisée dans les projets de séquen¸cage de génomes (Pop, 2004). Cette stratégie crée d’abord plusieurs copies de l’ADN initial. Puis, elle coupe de fa¸con aléatoire chaque copie en plusieurs fragments, suffisamment courts pour être séquencés par un séquenceur. Ensuite, tous les fragments séquencés (ou lectures) sont assemblés l’un avec l’autre pour construire la séquence parent initiale. Cependant, après le découpage de la séquence initiale du génome en un nombre très grand de fragments, la position et la copie de génome de chaque fragment sont oubliées. De plus, du fait qu’un brin d’ADN peut être lu dans les deux sens, on ne connait pas aussi l’orientation du fragment. La détermination de l’ordre et de l’orientation de chaque fragment conduit au problème connu dans la lit- térature sous le nom de problème d’assemblage de fragments d’ADN. En fait, il s’agit donc d’un problème d’optimisation combinatoire, connu comme étant _{N P-difficile} (Pevzner, 2000) : pour n fragments, il y a 2n_{n! configurations possibles, o`}_{u 2}n _{est le}

nombre de toutes les combinaisons possibles en termes d’orientation de fragments, et n! est le nombre de toutes les permutations possibles des fragments.

Le problème d’assemblage de fragments d’ADN a été traité par plusieurs approches. Les approches les plus communes sont basées sur des heuristiques gloutonnes et utilisent des structures de données de type graphe. Les algorithmes gloutons ont été utilisés dans la plupart des packages les plus populaires, comme PHRAP (Green, 1994), Celera assembler (Myers, 1995), TIGR assembler (Sutton et al., 1995), STROLL (Chen et Skiena, 1997), CAP3 (Huang et Madan, 1999), et EULER (Pevzner, 2000). D’autres approches utilisent des algorithmes heuristiques et métaheuristiques pour pouvoir traiter des instances plus difficiles et de grande taille. L’algorithme heuristique la plus connu dans la littérature est l’algorithme PALS (Alba et Luque, 2007), qui est très performant pour trouver des solutions précises et est plus rapide que les

techniques précédemment existantes. Dans la section 4.4, nous avons passé en revue plusieurs travaux dans la littérature portent sur les algorithmes heuristiques et méta- heuristiques. Cette revue de la littérature présente plusieurs types d’algorithmes : des algorithmes génétiques (Hughes et al., 2016, Kikuchi et Chakraborty, 2006, 2012, Li et Khuri, 2004, Minetti et al., 2008a, b, Nebro et al., 2008, Parsons et al., 1995), des algorithmes basés sur l’intelligence par essaim (Ezzeddine et al., 2014, Firoz et al., 2012, Gheraibia et al., 2016, Huang et al., 2015, 2016, Indumathy et al., 2015, Mallén- Fullerton et Fernández-Anaya, 2013, Meksangsouy et Chaiyaratana, 2003, Rajagopal et Maheswari Sankareswaran, 2015, Verma et al., 2012), des métaheuristiques hybrides (Alba et Dorronsoro, 2009b, Alba et Luque, 2008, Dorronsoro et al., 2008, Minetti et al., 2014), et d’autres techniques (Kubalik et al., 2010, Minetti et al., 2012,

Ulker, 2016).

Comme nous l’avons déjà mentionné, l’algorithme heuristique de recherche locale PALS est bien connu dans la littérature. Bien que cet algorithme soit plus performant que plusieurs autres assembleurs, sa performance peut être améliorée, surtout sur des instances de grande taille. En fait, la stratégie de recherche de l’algorithme PALS conduit à une convergence rapide vers des optimums locaux. Effectivement, l’algorithme doit être capable de diversifier la recherche pour trouver des solutions beaucoup plus précises. Pour offrir cette capacité d’exploration, des variantes ont été proposées pour cet algorithme. Alba et Luque ont proposé dans (Alba et Luque, 2008) d’appliquer l’algorithme PALS comme opérateur de mutation dans un GA. Dans ce schéma hybride, la population de GA est exploitée pour fournir à l’algorithme PALS de multiples configurations de départ. Deux autres approches similaires ont été pré- sentées dans (Alba et Dorronsoro, 2009b, Dorronsoro et al., 2008). Pour le même but, Minetti et al. ont récemment proposé dans (Minetti et al., 2014) une méthode dis- tribuée combinant l’algorithme PALS avec un algorithme de recuit simulé. L’objectif était de pouvoir traiter les données bruitées. Dans cette approche hybride, l’algorithme de recuit simulé est utilisé pour fournir des configurations de départ pour l’algorithme PALS, tandis que le modèle distribué est adopté afin de promouvoir la diversifica- tion de recherche. Ces approches hybrides qui combinent l’algorithme PALS avec des algorithmes métaheuristiques ont été décrites dans la section 4.4.2. Elles améliorent

la qualité des résultats, mais en contrepartie elles augmentent fortement le temps de calcul par rapport à l’algorithme PALS.

Dans ce travail, nous proposons deux modifications à l’algorithme PALS original afin d’améliorer sa performance. Le but visé par la première modification est d’éviter les phénomènes de convergence prématurée vers des optima locaux. La stratégie de sélection de mouvements à appliquer à la solution courante est modifiée de manière à ce qu’une grande amélioration soit subséquemment achevée. L’objectif visé par la seconde modification est de réduire le temps de calcul. Cette modification consiste à appliquer à chaque itération de l’algorithme plusieurs mouvements (au lieu d’un seul mouvement) pour améliorer la solution courante. Nous proposons aussi quelques alternatives possibles à cette approche et les comparons afin de tirer des conclusions.

Dans le document Contributions à la résolution de problèmes d’optimisation combinatoires NP-difficiles (Page 171-173)