• Aucun résultat trouvé

La recherche par homologie peut se faire de manière manuelle ou automatique L’approche ma nuelle va partir d’une séquence cible La découverte de copies va améliorer la séquence consensus

Dans le document Annotation des génomes de paramécies (Page 76-81)

Annotation des génomes

A. La recherche par homologie peut se faire de manière manuelle ou automatique L’approche ma nuelle va partir d’une séquence cible La découverte de copies va améliorer la séquence consensus

de l’élément permettant l’identification de nouvelles copies. La recherche automatique va cher- cher l’ensemble des copies sur un génome à partir d’une banque de séquences consensus B. La recherche de structures va détecter des caractéristiques propres à chaque type d’élément. La re- cherche de motifs LTR en est un exemple. C. Des études de génomique comparative vont détecter des insertions récentes d’éléments dans une espèce par rapport à des espèces proches. D. Ap- proche de novo La méthode d’auto-comparaison de séquences similaires au sein d’un génome. L’alignement multiple des occurrences permet de déduire une séquence consensus. L’approche de novo par assemblage utilise des données de séquençage. Par échantillonnage des lectures, seules les régions répétées auront une chance d’être assemblées.

II.2.2.1 Approches basées sur la similarité de séquence

L

es occurrences d’ET sont recherchées dans un génome à partir de séquences consensus d’ET. Ces séquences peuvent être des séquences nucléotidiques (des copies ou des séquences consensus correspondant à l’élément d’origine) ou des séquences protéiques (traduction des phases ouvertes de lecture des séquences consensus). Les approches par similarité sont impliquées dans les deux étapes de l’annotation des ET : la découverte et la détection. Ces méthodes sont assez sensibles et détectent des éléments en faible nombre de copies mais privilégient l’identification de familles déjà connues ou ayant suffisam- ment peu divergé. Par essence, une recherche avec des séquences protéiques se limite aux super-familles d’ET montrant une partie codante. Des traces de séquences codantes sont scrutées sur le génome à partir de banques de séquences protéiques, et à l’aide d’outils comme BLAST (Altschul et al. 1990) ou à partir de profils HMM Pfam (El-Gebali et al. 2019) avec des outils comme HMMER3 (Eddy 2009). La figure II.6 (p.47) schématise deux approches par similarité de séquence. L’approche dite "manuelle" utilise une séquence amorce et par des recherches récursives de copies identifie et raffine de nouveaux élé- ments. Le travail d’annotation des ET du génome de la paramécie a été réalisé en suivant cette méthodologie (Arnaiz et al. 2012, Guérin et al. 2017). L’approche automatique utilise une banque de séquences pour retrouver l’ensemble des copies des éléments. La base de données Dfam rassemble des profils HMM d’une collection d’alignements de sé- quences consensus ou de copies d’ET (Hubley et al. 2016). De son côté la bibliothèque de séquences nucléotidiques RepBase regroupe des séquences d’éléments mobiles pour une variété d’eucaryotes (Jurka et al. 2005, Bao et al. 2015). RepBase reste une ressource incontournable dans le domaine. Des programmes comme RepeatMasker (Smit 1996), Censor (Jurka et al. 1996), BLASTER (Quesneville et al. 2003) ou simplement BLAST (Altschul et al. 1990) peuvent l’exploiter. Les données de RepBase peuvent être complé- tées avec des séquences plus proches de l’espèce cible, provenant d’annotations manuelles ou d’autres types d’approches (par exemple de novo). Contrairement à l’approche de novo, l’approche basée sur l’homologie ne détecte pas des éléments très divergents ou complè- tement nouveaux.

II.2.2.2 Approches de novo

L

es approches de novo profitent de la nature répétée des ET. Sans aucune information préalable, ces méthodes visent à découvrir tous les éléments répétés d’un génome et potentiellement de nouveaux éléments. Plus l’élément sera répété dans le génome plus il sera aisé de le détecter. A l’inverse, les éléments avec un faible nombre de copies, ou avec des copies très dégénérées d’un même élément, seront difficilement détectables. Le nombre croissant de génomes disponibles rend ces approches particulièrement attractives. Malheureusement, les approches de novo génèrent de nombreux faux positifs. Trois classes

de méthodes se distinguent : (i) par analyse de K-mer (ii) par auto-comparaison de gé- nome (iii) par assemblage.

Analyse de K-mer Des programmes comme REPuter (Kurtz and Schleiermacher 1999), REAS (Li et al. 2005), Tallymer (Kurtz et al. 2008), Jellyfish (Marçais and King- sford 2011) ou RepeatExplorer (Novák et al. 2013) repèrent des K-mers sur-représentés dans la séquence génomique ou dans les lectures de séquençage. Ces "mots" corres- pondent, potentiellement, à des portions d’éléments répétés. Au delà de l’annotation des ET, ces méthodes sont également utilisées pour masquer les régions répétées. Les analyses de K-mer détectent aussi bien des familles multi-géniques, des duplications segmentales que de véritables portions d’ET (Lerat 2010).

Auto-comparaison de génome Comme leur nom l’indique, les méthodes d’auto- comparaison de génome alignent l’ensemble du génome sur lui-même. Les séquences similaires sont regroupées et des alignements multiples permettent de déduire des sé- quences consensus correspondant à des familles d’éléments. Les logiciels comme RECON (Bao and Eddy 2002), PILER (Edgar and Myers 2005) ou BLASTER (Quesneville et al. 2005) diffèrent par le programme utilisé pour l’alignement du génome mais surtout par l’algorithme de regroupement des séquences similaires. Cette procédure s’effectuant à partir d’un assemblage de génome, la qualité de celui-ci (le bon assemblage des régions répétées, sans trop de collapse voir section I.3.4 p.28) est critique.

Assemblage L’approche de novo utilise des données de séquençage pour effectuer l’as- semblage des ET. Nous avons vu dans le chapitre précédent que les assembleurs géno- miques classiques éprouvent quelques difficultés avec les séquences répétées. Pourtant, Tedna est un exemple d’assembleur de données Illumina dédié aux ET (Zytnicki et al. 2014). Par ailleurs, l’outil dnaPipeTE (Goubert et al. 2015) est basé sur le postulat que des lectures correspondant à des régions répétées seront sur-représentées dans un séquençage, par rapport à des régions non répétées. Par échantillonnage extrême (<1X) des lectures, puis une procédure d’assemblage, seules les régions répétées auront une chance d’être assemblées. Évidemment plus les copies des ET seront dégénérées, plus il sera difficile de les reconstituer.

II.2.2.3 Approches basées sur la structure des ET

C

es approches détectent les caractéristiques structurelles de certains types d’ET. Elles recherchent des répétitions terminales (LTR,TIR) (Figure II.6 p.47) ou des motifs particuliers comme les sites dupliqués lors de l’insertion d’un élément. Par définition, les familles d’ET non-structurés ne sont pas détectables. De plus, ces méthodes se basent exclusivement sur notre connaissance des ET et de leurs caractéristiques communes. De nouveaux éléments peuvent être trouvés mais pas de nouvelles classes. Beaucoup de pro-

grammes sont spécifiques d’une certaine classe d’élément ou d’un certain type de struc- ture. Sans être exhaustif, en voici quelques exemples : LTRHarvest (Ellinghaus et al. 2008), RTanalyzer (Lucier et al. 2007), SINEDR (Tu et al. 2004), FindMITE (Tu 2001) ou HelitronFinder (Du et al. 2008).

II.2.2.4 Approches basées sur la génomique comparative

L

es outils basés sur la génomique comparative utilisent, comme son nom l’indique, les génomes de plusieurs espèces (ou souches). L’analyse des ruptures d’alignements multiples de ces génomes fait ressortir des régions où, potentiellement, un ET s’est inséré (Figure II.6 p.47) (Caspi and Pachter 2006, Quadrana et al. 2016). Afin de mettre en œuvre ce genre d’approche, il faut avoir accès à des génomes de bonne qualité et de plusieurs espèces adéquatement distantes les unes des autres. En effet, si les génomes sont trop proches, évolutivement parlant, alors aucune insertion ne pourra être détectée. Au contraire, si les génomes sont trop distants alors les génomes auront du mal à s’aligner et la plupart des différences seront dues à des réarrangements chromosomiques et non pas des insertions d’ET.

La paramécie

M

on travail de thèse porte sur l’annotation des génomes de paramécies. Dans ce cha- pitre, je décrirai la place phylogénétique des paramécies, et je présenterai des no- tions sur la biologie de ces organismes, ainsi que leurs caractéristiques génomiques.

Les paramécies sont des eucaryotes unicellulaires appartenant au groupe des ciliés. Les ciliés sont des organismes phylogénétiquement éloignés des autres organismes modèles. Ils ont la particularité de présenter deux types de noyaux dans leur cytoplasme : un noyau germinal et un noyau somatique (voir Figure III.1 p.52). Ces noyaux contiennent des matériels génétiques différents devant être annotés spécifiquement.

III.1 Place du modèle paramécie

III.1.1 Les eucaryotes

L

a figure III.2 (p.54) montre la place des ciliés dans un arbre phylogénétique des euca- ryotes. Appartenant au groupe des alvéolés, Paramecium et Tetrahymena sont les ciliés les plus étudiés dans le monde. Ces deux espèces sont, néanmoins, très éloignées phylo- génétiquement. Leur divergence est au moins comparable à la séparation des mammifères et des arthropodes (300 à 500 Ma) (Baroin-Tourancheau et al. 1992, Xiong et al. 2019). Les ciliés sont dans une radiation très profonde de l’arbre des eucaryotes et regroupent des organismes morphologiquement différents (voir Figure III.4 p.55). La précision du positionnement phylogénétique des espèces dans les arbres dépend essentiellement des séquences fournies pour les construire (Adl et al. 2012) (voir section I.1.1 p.3). Plus un groupe d’espèces est étudié, et donc plus nous avons accès à une variété de séquences, plus le positionnement phylogénétique sera stable et robuste. Les organismes de labora- toire ne sont qu’un échantillonnage non-représentatif du vivant. Il est vrai que les espèces avec un enjeu économique ou un lien avec la santé humaine sont préférées. Par exemple, les groupes des animaux, champignons et plantes représentent 85% des génomes séquen- cés alors qu’ils ne représentent que 23% de la biodiversité (Burki 2014) (voir section I.3 p.16). Pourtant, à l’image de TARA Océan, des projets métagénomiques à très grande

Figure III.1 – Organisation cellulaire de la paramécie

A. Paramécie en immunoflorescence. Les corps basaux couvrant le cortex cellulaire sont marqués

Dans le document Annotation des génomes de paramécies (Page 76-81)