• Aucun résultat trouvé

Les approches intrinsèques de détection des gènes transférés horizontalement

Sueoka (Sueoka, 1962) a montré qu’il existait une grande diversité des contenus en base G et C des génomes bactériens. Les mycoplasmes peuvent avoir des génomes ne contenant que 25 % de G+C alors que certaines bactéries comme Micrococcus peuvent contenir jusqu’à 75 % de G+C. Cette grande variété de contenu en base est due, selon Sueoka, a une « pression de mutation directionnelle » différente d’un organisme à l’autre. Il en résulte que chaque génome a une composition en bases et en oligonucléotides (et notamment en codons) qui lui est propre et qui est considérée comme étant relativement homogène. Un autre facteur affectant la composition des gènes est leur taux d’expression. Gouy et Gautier (Gouy et Gautier, 1982) ont montré que l’usage des codons d’un gène dépendait également de son taux d’expression, et que les gènes d’un organisme pouvaient se regrouper en deux classes selon l’intensité de leur biais d’utilisation des codons : une première classe correspondant aux gènes fortement exprimés (biais fort) et une seconde correspondant aux gènes faiblement exprimés (biais plus faible). Ainsi, pour un gène, le fait d’avoir un usage du code différant à la fois des gènes fortement et faiblement exprimés du génome pourrait être le témoignage d’une adaptation à un précédent génome. Deux approches ont donc été proposées afin d’utiliser cette particularité des gènes acquis récemment pour tenter de les quantifier. La première est due à Médigue et al. (Medigue, et al., 1991) qui ont proposé d’utiliser une analyse multivariée de l’usage des codons d’E. coli. Utilisant un jeu de séquences représentant près d’un tiers du génome, ils font une Analyse Factorielle des Correspondances (AFC) sur les fréquences relatives des codons et argumentent que les gènes se regroupent non pas en deux classes comme proposé par Gouy et Gautier (Gouy et Gautier, 1982) mais en trois

Fig. 1.9: Analyse Factorielle des Correspondances (AFC) réalisée sur les fréquences absolues des codons de 4254 gènes d'Escherichia coli. Cette analyse est analogue à celle effectuée par Médigue et al. (1991). Les gènes pointés par l' ellipse de droite appartiennent à la classe I (fortement exprimés) et les gènes de l' ellipse de gauche constituent la classe III (gènes transférés horizontalement).

(voir Fig. 1.9) : une première correspondant aux gènes moyennement exprimés, qui représentent la majorité des gènes ; une deuxième contenant des gènes fortement exprimés comme les protéines ribosomales ou les ARNt synthétases ; et une troisième où l’on trouve notamment des plasmides ou des phages. Cette troisième classe est particulièrement intéressante car, pour Médigue et al. (1991), elle représente les gènes ayant été acquis récemment par E. coli. Cette classe représente plus de 10 % de leur échantillon de gènes, ce qui tend à montrer que les gènes acquis récemment de bactéries très lointaines sont nombreux dans ce génome. Les auteurs notent la richesse en A+T (47 % de G+C en moyenne) des gènes

de la 3ème classe en comparaison des deux autres classes (53 % de G+C), ainsi que leur

tendance à ne pas éviter les codons rares d’E. coli (principalement ATA, AGA et AGG). Une des particularités des gènes détectés comme ayant été acquis par transfert horizontal qui n’est pas discutée par Médigue et al. (1991) est leur tendance au regroupement dans l’AFC. En effet, les trois classes sont définies grâce à une méthode statistique de regroupement des points (« clustering ») qui permet de faire une classification en un nombre de classes souhaitées. Si l’on peut facilement argumenter sur des bases biologiques que les deux premières classes constituent des groupes cohérents au niveau de leur usage du code, il est plus hasardeux de le considérer a priori pour la troisième. Par définition, des gènes acquis de bactéries phylogénétiquement éloignées devraient former un groupe extrêmement hétérogène. Ainsi, les caractéristiques communes des gènes inférés comme ayant été acquis récemment nécessitent une explication d’ordre biologique. Cet article fut le premier à proposer une détection de gènes transférés horizontalement sans recours à aucune analyse phylogénétique. Beaucoup plus récemment, Moszer et al. (Moszer, et al., 1999) proposèrent une analyse du génome de Bacillus subtilis avec la même méthode. Les trois mêmes groupes peuvent être

identifiés. Dans ce cas également, la 3ème classe (13 % du génome), qui contient des gènes

attendus comme fréquemment sujets à des transferts est fortement enrichie en A+T par rapport au génome de Bacillus qui possède pourtant un taux de G+C génomique relativement faible (43 % de G+C en troisième position des gènes).

La découverte de Groisman sur les séquences de salmonelles, consolidée par d’autres études (Ochman, et al., 1996; Medigue, et al., 1991) montrant que les gènes acquis récemment possèdent souvent une composition en base différente du G+C moyen du génome (et en l’occurrence souvent plus faible), suggéra que le contenu en G+C, notamment à la position la moins contrainte des codons (la troisième) pouvait permettre de détecter les événements récents de transferts de gènes venant d’espèces lointaines. Ainsi, Lawrence et

Ochman (Lawrence et Ochman, 1997) proposèrent d’appliquer cette méthode d’abord à un fragment de séquences représentant près d’un tiers du génome d’E.

coli (1,43 mégabases soit 1294 gènes) puis au

génome complet (Lawrence et Ochman, 1998). Ils utilisèrent trois indices pour détecter les séquences atypiques : le taux de G+C en première et troisième position des codons, le CAI (Codon Adaptation Index

-Sharp et Li, 1987) et le χ2

d’usage du code (sous l’hypothèse d’une utilisation équiprobable des codons) pondéré par la taille des gènes (voir Fig. 1.10). Notamment, ils considèrent que la distribution du taux de G+C en première et troisième position pour les gènes « natifs » doit suivre une loi normale, et que les gènes s’écartant de plus de 2 SE (erreur standard) de la moyenne doivent avoir été acquis récemment (fig 1.11). Ils prédisent ainsi que 17 % du génome d’E. coli K12 a été acquis récemment d’organismes éloignés phylogénétiquement et remarquent qu’une proportion de ces gènes plus importante qu’attendue est retrouvée dans la région du

terminus de réplication. Comme l’ont noté plus tard Guindon et Perrière (Guindon et Perriere, 2001), ces gènes sont eux aussi beaucoup plus souvent enrichis en A+T par rapport au reste du génome.

Selon leurs auteurs, ces méthodes sous-estiment le nombre de transferts : elles ne sont capables de déterminer des transferts que lorsqu’ils proviennent d’espèce ayant un usage du code différant drastiquement de la bactérie étudiée. Comme il est probable que les transferts

horizontaux marchent d’autant mieux entre des espèces relativement proches, le pourcentage de gènes acquis récemment par Escherichia coli devrait largement excéder les 20 %. Bien que

Fig. 1.10: graphe bivarié du CAI et du χ2

de l' usage du code pour 1189 gènes d'E. coli.

Les points représentent les gènes natifs (n=1024) et les cercles, les gènes acquis par transfert horizontal (n=165).

Extrait de Lawrence et Ochman (1997).

0 50 100 150 200 250 300 350 400 Nombre de gènes 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 G+C3 Fig. 1.11 : La distribution du G+C en troisième position des gènes chez E.

coli et sa comparaison à une loi

normale (en gris). Les gènes sortant de cette distribution théorique sont considérés comme ayant été acquis récemment. D’après Lawrence et Ochman, 1997; Lawrence et Ochman, 1998.

certains auteurs comme Syvanen (Syvanen, 1994) remarquèrent très tôt que les approches utilisant la composition des gènes, basées sur des hypothèses fortes, devaient être utilisées avec beaucoup de précaution, le chiffre de 17 % de gènes acquis récemment par E. coli est très couramment cité comme un fait avéré.

Le séquençage de nombreux génomes complets ces dernières années a permis de généraliser ce type d’approches basées sur des méthodes intrinsèques. Par exemple, Garcia-Vallvé et al. (Garcia-Vallve,

et al., 2000) ont créé une base de

données accessible sur Internet (http://www.fut.es/~debb/HGT/) qui permet de récupérer tous les gènes prédits comme ayant été acquis récemment dans tous les génomes procaryotes disponibles. La méthode utilisée combine un certain nombre d’approches statistiques liées à celles décrites précédemment. Les résultats révèlent une grande disparité entre les espèces bactériennes notamment (voir Fig. 1.12). Le pourcentage inféré de gènes transmis horizontalement chez E. coli est inférieur aux précédentes estimations, mais il reste relativement élevé chez des espèces comme Bacillus subtilis. D’une manière générale, et étant donné que toutes ces valeurs représentent des sous-estimations, le phénomène de transfert horizontal apparaît ainsi comme un facteur majeur de l’évolution des génomes, et même pour certains auteurs comme le mécanisme roi permettant l’adaptation des bactéries, loin devant la mutation.

1.7

Conjugaison, transduction et transformation : la vie sexuelle des