• Aucun résultat trouvé

Homologie de séquences et annotation fonctionnelle

1.6. Annotation du génome

1.6.3. Homologie de séquences et annotation fonctionnelle

L'objectif de l'annotation fonctionnelle est de prédire les fonctions des produits des gènes identifiés lors de l'annotation syntaxique. De manière générale, l'annotation fonctionnelle peut avoir au moins deux sources d'information : la validation expérimentale et le transfert par homologie de séquence.

La validation expérimentale nécessite, comme son nom l'indique, des expériences menées in vitro ou in vivo permettant de découvrir biologiquement la fonction du gène. Ces travaux sollicitent plusieurs protocoles de biologie moléculaire comme des expériences de mutations par interruption de gènes (par des transposons, et bien d'autres techniques) et/ou de complémentation. Ces résultats d'études génétiques, font souvent l'objet de publications scientifiques qui peuvent servir de référence lors de l’annotation par des biocurateurs.

Figure 22. Homologie, Orthologie, Paralogie et Xénologie. Tous les gènes des espèces A, B et C sont homologues puisqu'ils proviennent tous d'un ancêtre commun. L'acquisition du gène AB1 est faite par transfert horizontal (HGT), ce gène est donc xénologue des autres. Les événements de spéciation sont à l'origine de gènes orthologues, ainsi B1 est orthologue de C1. Enfin, les phénomènes de duplication sont à l'origine de gènes paralogues, ainsi C2 et C3 sont paralogues entre eux.

Adapté de Fitch 2000. Téléchargée le 23 octobre 2017

Figure 23. Best Bidirectional Hits (BBH) ou Reciprocal Best Hit. Deux situations sont décrites dans le schéma. Les gènes en vert, où le meilleur résultat du gène vert foncé sur le génome 1 correspond au gène vert du génome 2. Cependant, le meilleur alignement du gène vert du génome 2 est le gène vert clair du gènome 1. Ces gènes ne sont donc pas des BBH. Dans le cas des gènes en bleu, il s'agit bien de BBH. Spéciation nº1 Spéciation nº2 Duplication nº1 Duplication nº2 HGT A1 AB1 B1 B2 C1 C2 C3

1 2

29 L'autre stratégie, qui est de loin la plus utilisée pour assigner une fonction à un gène, est le transfert de fonction in silico par homologie de séquence. Le terme d'homologie a été utilisé, en anatomie, pour décrire un même organe ayant, chez des espèces différentes d'animaux, la même fonction. À cette définition s'ajoutera un critère d'évolution pour introduire dans la définition d'homologie l'origine ancestrale commune (Stormo 2009). Au concept d’homologie, s’oppose celui d’analogie, qui décrit des organes avec des fonctions similaires mais qui ne sont pas de relation évolutive. L’exemple typique étant les ailes d’insectes et celles de mammifères qui sont analogues, tandis que les ailes de mammifères sont homologues des pattes d’autres mammifères.

Cette relation d'homologie est précisée au niveau génétique par W. Fitch en utilisant les termes d'évolution divergente à partir d'un ancêtre commun pour caractériser des gènes homologues et d'évolution convergente à partir de gènes non apparentés pour des gènes analogues (Fitch 1970). L'homologie peut être divisée en trois types : l'orthologie qui correspond à des gènes divergents à la suite d’un événement de spéciation; la paralogie où les gènes divergent suite à un événement de duplication au sein de la même espèce et finalement, la xénologie où l'histoire évolutive du gène implique un transfert inter-espèce (transfert

horizontal, horizontal gene transfer ou HGT) (Figure 22). Il est recommandé d'utiliser ces

définitions précises chaque fois que le type de relation est connu ou supposé, et de réserver le terme d'homologie quand la distinction n’est pas possible (Fitch 2000; Koonin 2005). La

conjecture de l'orthologie (ortholog conjecture) établit que les gènes orthologues ont la même

fonction, ou plutôt des fonctions équivalentes, dans les différents organismes. Cette hypothèse est centrale pour l'annotation fonctionnelle des génomes (Wolf and Koonin 2012).

Pour déterminer la relation d'orthologie entre deux séquences, une des premières méthodes utilisée est de réaliser des alignements de séquences dits réciproques. Cette technique, des meilleurs alignements réciproques (Best Bidirectional Hits ou BBH) est basée sur l'hypothèse que les séquences de gènes orthologues (et celles des protéines qu'ils codent) ont un pourcentage de similarité plus important entre elles qu'avec toute autre séquence de leur propre génome et toute autre séquence de l'autre génome (Wolf and Koonin 2012)

(Figure 23).

La grande quantité de génomes séquencés et leur mise à disposition dans des bases de données internationales, permettent de comparer les séquences à annoter avec un ensemble de séquences portant des informations fonctionnelles. Les bases de données peuvent être

généralistes comme GenBank, UniProtKB (C. H. Wu et al. 2006), Pfam (Finn et al. 2016; Sonnhammer et al. 1997) ou Rfam (Griffiths-Jones et al. 2003), certaines étant biocurées comme le sous-ensemble Swiss-Prot qui fait partie de UniProtKB (Boutet et al. 2016). D'autre part, les bases de données peuvent être dédiées : i) à une espèce particulière comme EcoCyc pour Escherichia coli K-12 (Keseler et al. 2017) ou SubtiWiki pour Bacillus subtilis (Michna et al. 2016) ; ii) à des groupes d'organismes proches comme CyanoBase pour les cyanobactéries ou RhizoBase pour les rhizobactéries (Fujisawa et al. 2014) ; iii) à des groupes de protéines comme The Histone Database pour les histones (Marino-Ramirez et al. 2011) ; ou iv) à des voies métaboliques particulières comme REPAIRtoire pour la réparation de l'ADN (Milanowska et al. 2011) ou plus générales comme MetaCyc pour les enzymes du métabolisme des petites molécules (Caspi et al. 2014) ou l’ensemble des voies métaboliques comme KEGG (Kanehisa et al. 2017).

La stratégie générale pour utiliser ces bases de données est l'utilisation d'algorithmes d'alignement local, principalement BLAST (Pearson 2013) et ses adaptations pour des séquences moins conservées comme PSI-BLAST (Altschul et al. 1997). La base de données est interrogée pour trouver les séquences donnant les meilleurs scores (pour chaque séquence requête ou query) et l'annotation de la séquence la plus proche sera transférée (Koestler et al. 2010; Sasson et al. 2006). Cette méthodologie est toutefois source d'erreur comme par exemple des transferts de fonction alors que seulement une partie de la séquence est conservé (Sasson et al. 2006), des erreurs d'annotation dans la base de données non biocurées qui seront alors propagées impunément (Jones et al. 2007; Schnoes et al. 2009), des seuils de pourcentage de similitude pour transférer des fonctions différentes selon le groupe de protéines (e.g. des protéines très conservées comme les ADN polymérases vs des protéines plus variantes comme les récepteurs de surface des bactéries pathogènes), la faible spécificité/sensibilité de la méthode d'alignement local par rapport à des alignements dits supervisés (qui utilisent des modèles spécifiques aux groupes de protéines, e.g. HMM ou CV pour des domaines fonctionnels) (Borodovsky et al. 1995) et le problème de détecter des vrais orthologues et non des paralogues avec des fonctions qui peuvent être assez divergentes (Kuzniar et al. 2008; Sasson et al. 2006).

Une autre méthodologie, dite de regroupement (clustering) tente d'identifier de manière générale des groupes de gènes orthologues entre plusieurs génomes. La méthode des COGs (Cluster of Orthologous Groups of proteins) et sa base de données, reflètent la possibilité des relations d'orthologie un à un, un à plusieurs et plusieurs à plusieurs (Tatusov

31 et al. 2000). Plusieurs méthodes utilisent cette notion de groupes de gènes orthologues qui permet d'étendre la réciprocité à l'ensemble des relations d'homologie, en utilisant les arbres phylogénétiques pour vérifier la concordance avec les arbres d'espèces et supprimer des paralogues dans les groupes en divisant les groupements (Altenhoff et al. 2016). La base de données eggNOG (evolutionary genealogy of genes : Non-supervised Orthologous Groups) peut être citée comme un exemple récent (Huerta-Cepas et al. 2017).

Une aide à l'identification des relations d'orthologie est l'identification de la synténie. L'introduction du terme de synténie est attribué au généticien britannique J. Renwick qui définit le terme comme la présence de deux loci sur le même chromosome (Renwick 1971). Cette définition est utile seulement pour des organismes avec plusieurs chromosomes, mais pas pour la vaste majorité des bactéries. Le sens premier du terme est élargi, pour désigner des

loci d’organismes différents mais localisés dans une région chromosomique homologue

(McCouch 2001; Passarge et al. 1999). L'ordre des gènes dans les génomes procaryotes n'est pas conservé à grande échelle (Mushegian and Koonin 1996) et le maintien de l'ordre de certains des gènes serait le résultat de sélection par épistasie (interaction des produits géniques) (Nei 2003) mais également par co-expression et co-régulation (Lemoine et al. 2007). L'ordre des gènes dans ces régions homologues, un cas particulier de synténie, où les orientations, proximité et position sont conservées est appelé colinéarité (H. Tang et al. 2008). Cette conservation de la synténie sert à vérifier les annotations existantes et les prédictions de fonction (Sridhar and Rafi 2007).