• Aucun résultat trouvé

CHAPITRE 2 : Workflow d’analyse génomique pour la Maladie de Tuberculose

III. Analyse génomique des 4 MTB

3. Annotation

L'annotation du génome est un processus clé pour identifier les régions codantes et non codantes d'un génome, la localisation des gènes et leurs fonctions. L'analyse de la séquence d'ADN avec des logiciels d'annotation de génome permet de rechercher et de cartographier des gènes, des exons-introns, des éléments régulateurs, des répétitions et des mutations. Les bases de données génomiques sont essentielles pour récupérer des informations sur les fonctions de nom de gènes, de produit protéique et de séquence d'ADN.

L’annotation génomique consiste à analyser la séquence nucléotidique qui constitue l’information brute pour en extraire l'information biologique nécessaire pour la compréhension du fonctionnement de la cellule et les relations entre les gènes.

L'annotation génomique in silico50 utilise uniquement des algorithmes recherchant des similarités (de séquence, de structure, de motifs…), permettant de prédire la fonction d’un gène. Elle aboutit au transfert « automatique » de l’information figurant dans l’étiquette d’un gène « similaire» d’un génome déjà annoté au génome en cours d’annotation (X. Zhou et Rokas 2014).

La figure 23 montre un schéma approximatif du workflow d’annotation du génome, en commençant par la séquence du génome, suivi de la prédiction statistique des gènes et la recherche de bases de données polyvalentes à des fins de similarité de séquences. La contribution des autres approches, en particulier la recherche de bases de données spécialisées, comprenant des bases de données de domaines, telles que Pfam, SMART et CDD ainsi que des bases de données orientées sur le génome, telles que COG ou KEGG et l'analyse du contexte génomique varient considérablement d'un projet à l'autre. Jusqu'à présent, ces méthodes et ressources relativement nouvelles restent la base de la recherche de base de données traditionnelle dans l'annotation du génome (Koonin et Galperin 2003). On distingue trois types d’annotation : syntaxique ou structurale, l’annotation fonctionnelle et l’annotation relationnelle (X. Zhou et Rokas 2014).

50 in silico est une locution adverbiale d'inspiration latine qui désigne une recherche ayant été effectuée par des modèles informatiques.

Figure 24: Workflow d’annotation génomique

FB: feedback from gene identification for correction of sequencing errors, primarily frameshifts

3.1. L’annotation structurale ou syntaxique

L’annotation structurale ou l’annotation syntaxique consiste à identifier les éléments génétiques présents dans le génome. Ces éléments peuvent inclure les séquences codant des protéines et des molécules d’ARN (ARNt, ARNr, ARNsn, ….), les promoteurs, les exons, les introns, les CDS, les transposons, ainsi certaines séquences répétées et séquences régulatrices de l’expression des gènes. La détection de ces régions d’intérêt se fait à l’aide de la comparaison de séquences ou de motifs et de prédictions ab initio aussi appelée De Novo ou intrinsèques.

3.2. L’annotation fonctionnelle

L’annotation fonctionnelle permet de déterminer la fonction des éléments identifiés lors de l’annotation structurale particulièrement la fonction des gènes protéiques. Cette annotation se base sur la recherche d’homologie entre la séquence inconnue considérée et un ensemble de séquences annotées, pour identifier le maximum d’informations utiles à la fonction du gène et de son produit prédit. Cependant la prédiction devra être validée expérimentalement pour en garantir la qualité d’annotation (X. Zhou et Rokas 2014)

3.3. L’annotation relationnelle

L’annotation relationnelle, ou contextuelle détermine les relations susceptibles d’exister entre les éléments prédits (annotation structurale) et caractérisés (annotation fonctionnelle), ces relations sont de différentes natures (Venter et al. 2001) telles que l’homologie (les protéines peuvent être regroupées en familles d’homologues), l’interaction physique (les éléments interagissent physiquement entre eux : protéine/acides nucléiques, protéine/protéine et acides nucléiques/acides nucléiques) et l’implication commune dans un processus biologique (participation à la même voie métabolique, même voie de transport ou même réseau de régulation).

3.4. Annotations des 4 MTB Les 4 MTB ont été annotés par plusieurs outils :

§ Annotation avec subsystem: RAST (Rapid Annotation using Subsystem Technology) est un serveur web dédié pour l’annotation des génomes procaryotes surtout pour les bactéries et les archaea (Aziz et al. 2008), cet outil se base sur l’annotation en utilisant le subsystem 2.0. RAST permet d’identifier les séquences codants des protéines (CDS), l’ARN ribosomal et l’ARN de transfert en utilisant FIGfams (Meyer, Overbeek, et Rodriguez 2009) et Glimmer (Arthur L. Delcher et al. 2007) (A. L. Delcher et al. 1999) qui permet de prédire les positions des gènes dans l’ADN microbien, en particulier les génomes des bactéries et les virus.

§ Annotation avec Prokka : L’outil Prokka (Rapid Prokaryotic Genome annotation) est utilisé pour finaliser les résultats obtenus par RAST, c’est un logiciel d’annotation rapide de génomes procaryotes (Seemann 2014). Prokka combine plusieurs outils tels que Prodigal (Prokaryotic Dynamic Programming Genefinding Algorithm) (Hyatt et al. 2010) pour identifier un nombre maximal de gènes, RNAmmer (consistent and

rapid annotation of ribosomal RNA genes) (Lagesen et al. 2007) pour prédire les ARNr, ARAGORNE (Laslett et Canback 2004) pour identifier les ARNt et Infernal 1.1 (100-fold faster RNA homology searches) (Nawrocki et Eddy 2013) pour déterminer les ARN non codants en se basant sur la base de données Rfam (RNA families database) (Nawrocki et al. 2015). L’annotation avec Prokka utilise les bases de données Pfam (protein families database) (Finn et al. 2008) (El-Gebali et al. 2019), TIGRFAMs (Haft et al. 2013) et RefSeq de NCBI (O’Leary et al. 2016) (Haft et al. 2018).

§ Annotation avec TB Profiler c’est outil en ligne rapide qui a été développé pour rapporter les profils des Mycobacterium tuberculosis multi-résistantes aux médicaments ainsi le type de souche à partir des séquences brutes. En utilisant une bibliothèque prédictive de 1525 mutations pour 15 médicaments anti-tuberculeux, la précision du diagnostic in silico était supérieure à celle de certains diagnostics commerciaux et bases de données alternatives. TB Profiler se base sur cette bibliothèque qui a permis de faciliter les tests de sensibilité aux médicaments basés sur les séquences génomiques (Coll et al. 2015).

§ Annotation avec MAGE : c’est une partie de la plateforme MicroScope (Vallenet et al. 2009) basée sur le Web pour une annotation efficace et une analyse comparative du génome microbien (http://www.genoscope.cns.fr/agc/microscope). MAGE permet une annotation d’expert en tant que complément de l’annotation automatique, la plateforme permet de visualiser et parcourir les informations d’annotation sur les génomes microbiens disponibles dans le but d’améliorer la qualité de l’annotation du génome microbien, en particulier pour les génomes initialement analysés et annotés par des procédures automatiques.

Documents relatifs