• Aucun résultat trouvé

Comme nous l’avons vu dans le chapitre pr´ec´edent, la d´etermination de la s´equence d’ADN d’un organisme (ou le processus de s´equen¸cage d’ADN) repr´esente une ´etape cruciale dans tout projet de g´enomique. En effet, cette ´etape conditionne fortement les succ`es des tˆaches post´erieures (i.e., l’identification des r´egions codantes et la pr´e- diction des g`enes). La s´equen¸cage shotgun est la strat´egie la plus utilis´ee dans les projets de s´equen¸cage de g´enomes (Pop, 2004). Cette strat´egie cr´ee d’abord plusieurs copies de l’ADN initial. Puis, elle coupe de fa¸con al´eatoire chaque copie en plusieurs fragments, suffisamment courts pour ˆetre s´equenc´es par un s´equenceur. Ensuite, tous les fragments s´equenc´es (ou lectures) sont assembl´es l’un avec l’autre pour construire la s´equence parent initiale. Cependant, apr`es le d´ecoupage de la s´equence initiale du g´enome en un nombre tr`es grand de fragments, la position et la copie de g´enome de chaque fragment sont oubli´ees. De plus, du fait qu’un brin d’ADN peut ˆetre lu dans les deux sens, on ne connait pas aussi l’orientation du fragment. La d´etermination de l’ordre et de l’orientation de chaque fragment conduit au probl`eme connu dans la lit- t´erature sous le nom de probl`eme d’assemblage de fragments d’ADN. En fait, il s’agit donc d’un probl`eme d’optimisation combinatoire, connu comme ´etant N P-difficile (Pevzner, 2000) : pour n fragments, il y a 2nn! configurations possibles, o`u 2n est le

nombre de toutes les combinaisons possibles en termes d’orientation de fragments, et n! est le nombre de toutes les permutations possibles des fragments.

Le probl`eme d’assemblage de fragments d’ADN a ´et´e trait´e par plusieurs ap- proches. Les approches les plus communes sont bas´ees sur des heuristiques gloutonnes et utilisent des structures de donn´ees de type graphe. Les algorithmes gloutons ont ´et´e utilis´es dans la plupart des packages les plus populaires, comme PHRAP (Green, 1994), Celera assembler (Myers, 1995), TIGR assembler (Sutton et al., 1995), STROLL (Chen et Skiena, 1997), CAP3 (Huang et Madan, 1999), et EULER (Pevzner, 2000). D’autres approches utilisent des algorithmes heuristiques et m´etaheuristiques pour pouvoir traiter des instances plus difficiles et de grande taille. L’algorithme heuris- tique la plus connu dans la litt´erature est l’algorithme PALS (Alba et Luque, 2007), qui est tr`es performant pour trouver des solutions pr´ecises et est plus rapide que les

techniques pr´ec´edemment existantes. Dans la section 4.4, nous avons pass´e en revue plusieurs travaux dans la litt´erature portent sur les algorithmes heuristiques et m´eta- heuristiques. Cette revue de la litt´erature pr´esente plusieurs types d’algorithmes : des algorithmes g´en´etiques (Hughes et al., 2016, Kikuchi et Chakraborty, 2006, 2012, Li et Khuri, 2004, Minetti et al., 2008a, b, Nebro et al., 2008, Parsons et al., 1995), des algorithmes bas´es sur l’intelligence par essaim (Ezzeddine et al., 2014, Firoz et al., 2012, Gheraibia et al., 2016, Huang et al., 2015, 2016, Indumathy et al., 2015, Mall´en- Fullerton et Fern´andez-Anaya, 2013, Meksangsouy et Chaiyaratana, 2003, Rajagopal et Maheswari Sankareswaran, 2015, Verma et al., 2012), des m´etaheuristiques hy- brides (Alba et Dorronsoro, 2009b, Alba et Luque, 2008, Dorronsoro et al., 2008, Minetti et al., 2014), et d’autres techniques (Kubalik et al., 2010, Minetti et al., 2012,

¨

Ulker, 2016).

Comme nous l’avons d´ej`a mentionn´e, l’algorithme heuristique de recherche locale PALS est bien connu dans la litt´erature. Bien que cet algorithme soit plus perfor- mant que plusieurs autres assembleurs, sa performance peut ˆetre am´elior´ee, surtout sur des instances de grande taille. En fait, la strat´egie de recherche de l’algorithme PALS conduit `a une convergence rapide vers des optimums locaux. Effectivement, l’algorithme doit ˆetre capable de diversifier la recherche pour trouver des solutions beaucoup plus pr´ecises. Pour offrir cette capacit´e d’exploration, des variantes ont ´et´e propos´ees pour cet algorithme. Alba et Luque ont propos´e dans (Alba et Luque, 2008) d’appliquer l’algorithme PALS comme op´erateur de mutation dans un GA. Dans ce sch´ema hybride, la population de GA est exploit´ee pour fournir `a l’algorithme PALS de multiples configurations de d´epart. Deux autres approches similaires ont ´et´e pr´e- sent´ees dans (Alba et Dorronsoro, 2009b, Dorronsoro et al., 2008). Pour le mˆeme but, Minetti et al. ont r´ecemment propos´e dans (Minetti et al., 2014) une m´ethode dis- tribu´ee combinant l’algorithme PALS avec un algorithme de recuit simul´e. L’objectif ´etait de pouvoir traiter les donn´ees bruit´ees. Dans cette approche hybride, l’algorithme de recuit simul´e est utilis´e pour fournir des configurations de d´epart pour l’algorithme PALS, tandis que le mod`ele distribu´e est adopt´e afin de promouvoir la diversifica- tion de recherche. Ces approches hybrides qui combinent l’algorithme PALS avec des algorithmes m´etaheuristiques ont ´et´e d´ecrites dans la section 4.4.2. Elles am´eliorent

la qualit´e des r´esultats, mais en contrepartie elles augmentent fortement le temps de calcul par rapport `a l’algorithme PALS.

Dans ce travail, nous proposons deux modifications `a l’algorithme PALS original afin d’am´eliorer sa performance. Le but vis´e par la premi`ere modification est d’´eviter les ph´enom`enes de convergence pr´ematur´ee vers des optima locaux. La strat´egie de s´election de mouvements `a appliquer `a la solution courante est modifi´ee de mani`ere `a ce qu’une grande am´elioration soit subs´equemment achev´ee. L’objectif vis´e par la seconde modification est de r´eduire le temps de calcul. Cette modification consiste `a appliquer `a chaque it´eration de l’algorithme plusieurs mouvements (au lieu d’un seul mouvement) pour am´eliorer la solution courante. Nous proposons aussi quelques alternatives possibles `a cette approche et les comparons afin de tirer des conclusions.