• Aucun résultat trouvé

L’approche OLC et difficult´es d’assemblage

4.2 Assemblage de fragments d’ADN

4.2.3 L’approche OLC et difficult´es d’assemblage

Selon l’approche OLC, le processus d’assemblage se d´eroule en trois phases (Myers Jr, 2016) : (1) recherche des chevauchements approximatifs, (2) d´etermination de l’aligne- ment, et (3) construction de la s´equence consensus. Dans ce qui suit, nous d´ecrivons chaque phase.

Phase 1 : Recherche des chevauchements (Overlap) Cette phase consiste `a chercher le bon ou le plus long alignement entre le suffixe d’une lecture et le pr´efixe d’une autre lecture. Dans cette ´etape, on consid`ere toutes les paires de lectures et leurs compl´ements inverses (voir d´efinition 4.1) pour d´eterminer leur similarit´e. Ha- bituellement, un algorithme d’alignement semi-global par programmation dynamique est utilis´e dans cette ´etape. L’intuition derri`ere la recherche des chevauchements entre paires de lectures est que deux lectures suffisamment chevauchantes se retrouvent tr`es probablement l’une `a cˆot´e de l’autre dans la s´equence cible.

Phase 2 : Alignement (Layout) Cette phase consiste `a chercher un ordre plau- sible de fragments en se basant sur les chevauchements calcul´es. En d’autres termes, le chevauchement est utilis´e pour organiser les fragments l’un `a cˆot´e de l’autre pour reconstituer la s´equence originale dont ils sont issus. C’est la plus difficile ´etape parce que la d´ecision d’assembler deux fragments se base sur leur chevauchement qui peut ˆetre approximatif du fait des erreurs de s´equen¸cage. Les difficult´es auxquelles on doit porter attention sont (Alba et Luque, 2007, Myers Jr, 2016) :

1. Orientation inconnue. Apr`es le d´ecoupage de la s´equence originale en un tr`es grand nombre de fragments, l’orientation est oubli´ee (i.e., on ne sait pas lequel des deux brins d’une double h´elice d’ADN on s´equence). Si une lecture ne se chevauche pas avec toute autre lecture, il est encore possible que son compl´ement inverse ait un tel chevauchement. Pour n fragments, il y a 2n combinaisons

possibles en termes d’orientation (pour un seul arrangement de fragments). 2. Erreurs de s´equen¸cage. Les erreurs de s´equen¸cage peuvent survenir sous plu-

sieurs formes : substitutions, insertions et d´el´etions. Elles sont dues `a des erreurs exp´erimentales dans la proc´edure ´electrophor`ese (une technique de laboratoire utilis´ee pour la lecture des s´equences d’ADN). Elles peuvent biaiser la d´etec- tion des chevauchements entre paires de lectures. De ce fait, la d´etermination de la s´equence consensus n´ecessite des alignements multiples dans les r´egions fortement couvertes.

l’´echantillonnage non al´eatoire de fragments. Elle apparait quand l’algorithme d’assemblage ne peut assembler la collection de fragments dans un seul contig. Un contig est une s´equence continue et ordonn´ee dans laquelle le chevauchement entre les fragments successifs est sup´erieur un seuil pr´ed´efini appel´e cutoff (le param`etre k dans la d´efinition 4.2).

4. R´egions r´ep´et´ees. Les r´ep´etitions sont des s´equences qui apparaissent plusieurs fois dans la s´equence cible. Elles repr´esentent l’une des sources les plus impor- tantes de difficult´es de tout projet de s´equen¸cage. On ne sait pas si une s´equence est r´ep´et´ee, combien de fois elle est r´ep´et´ee, ou si une r´ep´etition est son compl´e- ment inverse. En effet, aucun assembler existant ne traite de mani`ere parfaite les r´ep´etitions.

5. S´equences chim´eriques et Contamination. Deux ou plusieurs fragments s´epar´es sont chim´eriques s’ils se fusionnent pour former un seul fragment. On parle de contamination lorsque la purification des fragments, apr`es clonage, de l’ADN du vecteur est incompl`ete. Les fragments contamin´es doivent ˆetre ´elimin´es avant l’assemblage.

Apr`es avoir d´etermin´e l’ordre d’assemblage de fragments d’ADN, un algorithme d’alignement progressif est appliqu´e pour combiner tous les alignements par paire calcul´es dans la premi`ere phase.

Phase 3 : G´en´eration d’une s´equence consensus (Consensus) Cette phase consiste `a produire une s´equence d’ADN `a partir du r´esultat de la phase d’alignement. La technique la plus utilis´ee dans cette phase consiste `a appliquer une r`egle de majorit´e pour construire la s´equence consensus.

Une simple illustration des trois phases de l’approche OLC est donn´ee dans la figure 4.3. A partir d’un ensemble de cinq fragments, dans un premier temps les che- vauchements maximaux (exacts) entre les paires de fragments sont calcul´es. Puis, un ordre d’assemblage de fragments est d´etermin´e. Enfin, une s´equence consensus est construite en assemblant les cinq fragments. Le probl`eme r´eel est certainement plus

compliqu´e que cette illustration, puisque il comporte, comme nous avons d´ej`a dis- cut´e, des compl´ements inverses, des erreurs de s´equen¸cage, des r´ep´etitions, et d’autres difficult´es.

Une collection de fragments f1 A C C T G T G A G f2 C G G C T G f3 G A G T T A T C f4 T G A C G A C f5 A T C A G A C C C 1. Recherche de chevauchements f1 A C C T G T G A G f2 C G G C T G f3 G A G T T A T C f4 T G A C G A C f5 A T C A G A C C C 2. Alignement f2 C G G C T G f4 T G A C G A C f1 A C C T G T G A G f3 G A G T T A T C f5 A T C A G A C C C 3. S´equence consensus f6 C G G C T G A C G A C C T G T G A G T T A T C A G A C C C

Figure 4.3 – Illustration des trois phases de l’approche OLC.

Par la suite de ce chapitre et de cette th`ese, nous adressons le probl`eme d’aligne- ment de la deuxi`eme phase, qui est connu dans la litt´erature sous le nom, en anglais, “DNA fragment assembly problem” - litt´eralement, “probl`eme d’assemblage de frag- ments d’ADN”. Ce probl`eme a ´et´e montr´eN P-difficile par Pevzner (Pevzner, 2000), par r´eduction au probl`eme de chemin hamiltonien, ce qui signifie que des algorithmes (m´eta)heuristiques sont n´ecessaires pour calculer des solution approch´ees.

Aux difficult´es mentionn´ees plus haut Kim et Mohan (Kim et Mohan, 2003) ont ajout´e une autre difficult´e majeure : l’absence d’un mod`ele formel pleinement satis- faisant pour le probl`eme d’assemblage de fragments d’ADN. Dans la section suivante, nous pr´esentons les mod`eles formels existants.