• Aucun résultat trouvé

Un assemblage de qualité

Dans le document Annotation des génomes de paramécies (Page 57-60)

Les génomes eucaryotes

I.3 Séquençage et assemblage de génomes

I.3.4 Un assemblage de qualité

L

a qualité d’un assemblage s’évalue selon plusieurs paramètres. Plus un assemblage va se rapprocher de la réalité du génome d’intérêt meilleur il sera. Une bonne connais- sance de l’organisme et de son génome est donc inestimable. Des informations indépen- dantes sur le nombre de chromosomes, la taille du génome, sa ploïdie, sa composition nucléotidique moyenne (taux de G+C) permettent de juger de la qualité d’un assemblage. Avoir accès au génome d’une espèce proche est également un atout. Un logiciel comme QUAST (Gurevich et al. 2013) évalue la qualité des assemblages en donnant de nom- breuses statistiques et permet de comparer les génomes.

Les contigs sont les séquences consensus contiguës calculées à partir des lectures sé- quencées. Plusieurs contigs ordonnés, orientés et liés entre eux par des informations de liaison longue distance forment les scaffolds. La taille du plus petit et du plus grand scaf- fold sont des valeurs facilement appréhendables. La somme des longueurs des scaffolds, aussi appelée complexité de l’assemblage, doit se rapprocher de la taille estimée du gé- nome. Compte tenu de la difficulté d’assembler les séquences répétées, un assemblage avec une couverture de génome de 90-95% est considéré comme bon. Évidemment cette valeur dépend de la quantité, de la taille, et de la ressemblance des séquences répétées. Les séquences répétées trop ressemblantes ne sont pas différentiables par l’assembleur et sont souvent retrouvées en une seule occurrence dans l’assemblage. Cette occurrence, parfois isolée sur un contig, risque d’être une version consensus chimérique des répétitions. On parle de collapse de séquences. Souvent composés de séquences répétées, les centromères et télomères sont rarement bien assemblés.

Le N50 est une des métriques les plus utilisées pour juger de la qualité d’un assem- blage. Cette mesure est définie comme la taille pour laquelle la longueur combinée de tous les scaffolds (ou contigs) plus grands que cette valeur représente au moins 50% de la complexité de l’assemblage (Narzisi and Mishra 2011). C’est une valeur représentative de la fragmentation de l’assemblage. Plus le N50 est élevé, meilleur est l’assemblage. Il faut néanmoins prendre garde à ne pas artificiellement surévaluer le N50. Par exemple, si l’étape de scaffolding est réalisée avec trop de permissivité, la moindre information de liaison longue distance va avoir tendance à lier des contigs artificiellement et ainsi aug- menter le N50. Dans une optique d’annotation de gènes, un N50 minimum correspondant à la taille moyenne des gènes est nécessaire. Dans le cas contraire il est recommandé de générer plus de données ou des données d’un type différent. D’autre part, il est fréquent que la séquence entre deux contigs liés soit indéterminée. Des "N" représentent cette in- certitude de nucléotide. Le nombre de N et le nombre de régions avec des Ns contigus (Gap) sont des paramètres pour estimer les lacunes dans l’assemblage.

Il est rare que le premier assemblage d’un génome d’une espèce soit parfait. On parle d’un assemblage "brouillon" (ou draft). De nombreuses études indépendantes sont néces- saires pour corriger un assemblage afin qu’il atteigne un stade mature. Seuls quelques génomes de grands organismes modèles, sans compter celui de l’homme, peuvent se pré-

valoir d’avoir atteint le stade d’un assemblage finalisé. Plusieurs types d’erreurs existent dans un assemblage avec plus ou moins de répercussions sur les analyses futures et no- tamment l’annotation. Des liaisons chimériques ou manquantes entre contigs vont en- trainer une incohérence entre le nombre de chromosomes et le nombre de scaffolds. Des erreurs plus locales, comme de petites inversions, des substitutions, des manques de nu- cléotides ou des nucléotides surnuméraires sont très problématiques pour l’annotation. En effet, une substitution peut révéler ou effacer un codon terminateur ou initiateur de tra- duction des gènes codants. Une insertion ou une délétion (InDel) de nucléotides décalent les phases ouvertes de lecture ne pouvant conduire qu’à une annotation erronée. Nous verrons dans la section IV et V.1.1 (p.89 et p.105) des Résultats qu’une amélioration de l’assemblage de P. tetraurelia a permis une meilleure annotation des gènes et de séquences liées à des transposons (IES, voir section III.3.2.1 p.68). La technologie de séquençage employée et la couverture du génome en lectures influencent le type et le nombre d’er- reurs. Par exemple, des lectures courtes de type Illumina vont avoir tendance à fragmenter l’assemblage. En revanche, des lectures longues provenant de technologies de troisième génération seront plus promptes à faire des erreurs de type InDel.

En 2007, l’arrivée des NGS et ses lectures courtes, a entrainé une augmentation du nombre de génomes disponibles (voir section I.3 p.16) (Goodwin et al. 2016). Cependant, nul ne peut nier que les meilleurs assemblages (aussi les plus coûteux) ont été réalisés avec des lectures Sanger. La troisième génération de séquenceur permet d’obtenir des tailles de lectures très importantes (van Dijk et al. 2018) et donc des assemblages intéressants. Cependant le taux d’erreur reste un problème important (Henson et al. 2012, Sohn and Nam 2018). Il est devenu courant d’allier les deux types de technologies pour profiter des avantages de l’un et de l’autre. Par exemple, avec des logiciels comme Pilon (Walker et al. 2014), des lectures de séquençage Illumina sont utilisées pour corriger l’assemblage réalisé à partir de lectures longues. Nous avons également vu dans le paragraphe I.3.3 (p.26) précédent qu’il était possible de corriger les lectures ONT ou PacBio pour obtenir un meilleur assemblage (Wang and Au 2020). Il est possible que ces étapes ne soient bientôt plus nécessaires avec la constante amélioration de la qualité de séquençage des lectures longues.

Dans le document Annotation des génomes de paramécies (Page 57-60)