• Aucun résultat trouvé

PARTIE II : LES DONNEES MOLECULAIRES A L’HEURE DU SEQUENÇAGE HAUT

CHAPITRE 4 - ANALYSE DES DONNEES NGS

4.3. Assemblage des données NGS

Lors de la construction des librairies, la fragmentation de l’ADN peut résulter en fragments trop courts, qui vont produire des lectures contenant des fragments d’adaptateur qui peuvent impacter fortement l’assemblage. C’est pourquoi, un nettoyage de ces séquences non souhaitées est fortement conseillé avant d’entreprendre les étapes suivantes. Des outils comme CUTADAPT [Martin, 2011] ou FASTQ_Trimmer (inclut dans le kit FASTX) [Pearson et al., 1997], permettent d’enlever les séquences des adaptateurs et de garder uniquement la partie d’ADN

authentique. Néanmoins, il peut en résulter que certaines des lectures seront faites uniquement d’adaptateurs et qui après nettoyage seront donc vides, diminuant le nombre de lectures génomiques utiles.

4.3.2. Le contigage

Le nombre de lectures étant de l’ordre des millions, l’analyse des données NGS a nécessité le développement d’algorithmes informatiques capables de résumer les informations qui y sont contenues afin de les rendre manipulables.

Une des manières, conduite pendant cette thèse, est l’assemblage de novo, qui consiste à générer des séquences plus longues à partir de l’assemblage de lectures chevauchantes [Paszkiewicz et Studholme, 2010]. De manière générale, les logiciels d’assemblage dits assembleurs, vont comparer les séquences de toutes les lectures et vont les assembler de manière à produire des contigs. Un contig sera donc un résumé d’un ensemble de lectures qui vont avoir des motifs en commun permettant de les fusionner dans une seule et unique séquence consensus. Ceci va réduire de manière importante le nombre de séquences tout en gardant l’essentiel de l’information et rendant les démarches informatiques plus aisées en termes de ressources et de temps de calcul.

Deux approches, non exclusives, pouvant être utilisées pour ce type d’assemblage sont détaillées ci-après, étant donnée leur utilisation pendant cette thèse.

Une première approche est celle suivie par le logiciel ABySS (pour Assembly by Short-Read Sequences) [Simpson et al., 2009], qui a été conçu spécialement pour des lectures courtes. Cet algorithme va d’abord identifier toutes les séquences possibles d’une taille k définie par l’utilisateur, va ensuite les rechercher parmi toutes les lectures, et va additionner les lectures à chaque fois qu’il trouvera des séquences différant de k-1 sites sur leurs extrémités.

Le paramètre k, indiquant la taille des séquences à comparer, est connu comme k-mer et sa valeur maximale sur ABySS est de 64 (pouvant être diminué jusqu’à 32 ou augmenté jusqu’à 96 au moment de la compilation du logiciel selon besoins). La valeur donnée à ce paramètre peut avoir un fort impact sur le nombre de contigs résultants ainsi que sur leur taille maximale. La valeur optimale du k-mer va surtout être déterminée par la quantité des séquences et leur degré de chevauchement. L’objectif étant d’obtenir des contigs le plus longs possibles, la

valeur optimale de k serait donc celle produisant les contigs de taille maximale. Comme il peut être observé sur la figure 4.2, cette valeur va être différente pour chaque librairie et il peut y avoir des valeurs qui vont produire des résultats similaires.

Une stratégie qui s’est avérée utile et efficace consiste à conduire l’assemblage avec des valeurs différentes de k-mer, puis réunir tous les contigs résultants et refaire un assemblage à partir de ces contigs. Ceci évite la recherche de la valeur optimale de k-mer et maximise le nombre de contigs obtenus.

Ce deuxième assemblage peut être fait en utilisant une deuxième approche proposée par le logiciel CAP3 [Huang et Madan, 1999]. Cet algorithme va d’abord construire des alignements multiples pour générer des séquences consensus à partir de ceux-ci et va répéter le processus jusqu’à ce que les contigs produits ne puissent pas être assemblés entre eux. CAP3 pourrait également être utilisé sur les lectures, mais il est moins performant et nécessite beaucoup de temps et de mémoire de calcul en raison du nombre de comparaisons nécessaires pour construire alignements avec des millions de lectures. Dans l’approche que nous avons suivie pour l’assemblage, nous avons utilisé CAP3 pour produire des supercontigs, c’est-à-dire pour construire des nouveaux contigs, plus longs, à partir des contigs ABySS.

a

b

Figure 4.2. Nombre (a) et longueur maximale des contigs ABySS en fonction du k-mer. Ce graphique

montre que si le nombre de contigs ne semble pas être fortement influencé, la longueur maximale est en revanche très sensible à ce paramètre qui est aussi spécifique à chaque librairie.

4.3.3. Cartographie ou mapping des lectures contre une référence

Une deuxième stratégie d’assemblage consiste à cartographier les lectures contre une séquence de référence [Li et al., 2009] plus ou moins proche de l’espèce cible. Couplé à une interface graphique, le « mapping » permet aussi d’avoir des aperçus visuels de la couverture ainsi que de la variabilité et la qualité des séquences. Cependant, si cette approche est très efficace lorsque la référence est phylogénétiquement proche du taxon cible et a l’avantage de demander moins de temps et de puissance de calcul que l’assemblage de novo, elle peut résulter peu performante si les séquences à mapper et la référence présentent des divergences importantes. Si bien ceci peut être réglé au niveau du paramétrage du «mapping», autoriser trop de différences entre les séquences peut entraîner que les NUMTS ou des éventuels contaminants (bactéries, ADN humain ou encore des espèces phylogénétiquement proches) soient aussi assemblés.

4.4. Assemblage de génomes mitochondriaux à partir de données