• Aucun résultat trouvé

1.5 Outils d’analyse bioinformatique

1.5.2 Techniques d’assemblage et d’alignement

A partir des données brutes (raw data ) générées par le séquençage, il existe plusieurs possi- bilités d’analyse de ces données suivant ce que l’on recherche (figure 1.29). La composition exhaustive du génome ainsi que la place des gènes les uns par rapport aux autres nécessite la reconstruction du génome par une technique nommée assemblage. En revanche, la comparai- son du ou des génome(s) séquencé(s) ainsi que la recherche de SNPs ou d’indels par rapport à une référence nécessite une autre technique dite d’alignement.

Assemblage

La technique d’assemblage est la reconstruction du génome de manière la plus complète pos- sible en rassemblant les reads qui se chevauchent pour obtenir des séquences plus longues que l’on appelle des contigs (figure 1.30).

Figure 1.30 – Assemblage de reads en contigs

En utilisant une technique classique d’assemblage à partir de séquençage Ion Torrent ou Illumina, il est pratiquement impossible d’obtenir le génome complet. Bien que les logi- ciels d’assemblage soient performants, la complexité du génome à reconstruire (avec plus ou moins de séquences répétées et des séquences peu ou mal couvertes) ainsi que la qualité du séquençage influent sur le nombre et la qualité des contigs qui seront produits. De plus, le génome séquencé doit avoir une couverture globale suffisante pour permettre l’assemblage, une moyenne de 60X ou 80X étant généralement utilisée.

Il existe un grand nombre de logiciels disponibles permettant d’assembler des génomes. Trois d’entre eux seront présentés ici : Ray [115], MIRA [116] et SPAdes [117]. Chaque logiciel est optimisé pour certains types de séquenceur. En fonction du séquenceur qui a produit les données, il existe un certain biais, qui correspond à des erreurs générées lors du séquençage. Les logiciels permettent de nettoyer les données avant assemblage (conservation des reads de bonne qualité, erreurs systématiques de séquençage enlevées, etc.). Ray est spécialisé pour l’assemblage de données Illumina. MIRA, en fonction des arguments spécifiés peut assembler des données de 454, d’Ion Torrent ou d’Illumina. SPAdes gère les données 454, Ion Torrent, Illumina et PacBio.

Étant donné que chaque logiciel possède ses propres spécificités, type de données pris en entrée mais également algorithme utilisé, il est important de comparer leurs performances

afin d’obtenir le meilleur assemblage possible pour le génome et les données brutes que l’on possède.

Alignement

L’autre technique utilisée, l’alignement, est surtout utile pour comparer des séquences à un génome de référence. Il s’agit d’aligner les reads sur la référence et d’observer la répartition de la couverture comme visible sur la figure 1.31. Le logiciel BWA [118] est un des plus utilisé pour aligner les reads.

Figure 1.31 – Alignement des reads sur une référence. Visualisation à l’aide du logiciel sam- scope [119]. En bas se trouve la séquence de référence et les reads (rectangles rouges) sont positionnés sur celle-ci. Des variations de couverture (nombre de reads sur l’axe des Y) induisent des pics pour les zones les plus lues.

L’alignement donne une indication sur les zones manquantes du génome (figure 1.32 visualisée avec le logiciel Samscope [119]). En effet, une zone non couverte par les reads indique une zone qui n’existe pas dans le génome séquencé. Par contre, il est impossible de visualiser des zones présentes chez le génome séquencé et absente de la référence. Lorsque l’alignement est fait, les reads qui ne sont pas mappés ou positionnés sur la référence n’apparaissent pas lorsque l’on visualise le résultat, bien qu’ils puissent être récupérés depuis le fichier d’alignement. Les fichiers d’alignement sont au format SAM ou BAM (format compressé), et contiennent l’ensemble des reads, qu’ils soient ou non alignés sur la référence.

L’alignement indique la présence de SNPs ou indels qui peuvent avoir un intérêt majeur dans l’étude des fonctions biologiques modifiées (figure 1.33). Avec la visualisation, il est possible de voir les différents SNPs présents sur le génome. En effet, il y a des cas où les reads alignés indiquent un certain nucléotide alors que la référence en indique un autre. C’est le marqueur d’une variation ponctuelle de séquence. Ces variations sont en général utilisées pour la créa- tion d’arbres phylogénétiques qui permettent d’observer la parenté entre différents génomes.

Figure 1.32 – Zone absente du génome mais présente dans la référence. Visualisation à l’aide du logiciel samscope [119]. L’axe des Y donne la couverture du génome.

Figure 1.33 – Visualisation d’un SNP dans la séquence observée avec le logiciel samscope [119]. La présence du SNP est indiquée par la présence du nucléotide A (en vert) en remplacement du nucléotide G présent sur la référence. La validité du SNP est certifiée par la présence de la mutation sur la majorité des reads.

Choix de la technique

En fonction des informations que l’on recherche et de la qualité du séquençage, on utili- sera préférentiellement l’une ou l’autre de ces techniques. Les avantages et inconvénients de chacune sont présentés dans le tableau 1.6.

Alignement Assemblage

Visualisation de données man-

quantes

Visualisation de données spécifiques absentes de la référence

Analyse de SNPs Notions de synténie (enchaînement des gènes

sur un chromosome) Fait avec une couverture de séquen-

çage faible (moins de 40X)

Se fait de novo, sans référence préalable

Tableau 1.6 – Comparaison des techniques d’assemblage et d’alignement

Documents relatifs