• Aucun résultat trouvé

Motifs courts exceptionnels dans les génomes des archées et de leurs éléments extra-chromosomiques

3.2 Analyse des palindromes

3.2.2 Rangs de palindromes et pseudo-palindromes de tailles 4 à 6 dans les séquences

La brève analyse précédente confirmant le fait que certains palindromes peuvent être très exceptionnels dans les séquences des génomes d'archées, nous avons systématiquement noté le rang de certains palindromes dans toutes les séquences des génomes d'hôte cellulaire, et dans les séquences concaténées d'éléments extra-chromosomiques. Les motifs palindromiques de taille 4, au nombre de 16, ont tous pu être examinés. Pour les mots plus longs, seuls les motifs apparaissant comme les plus exceptionnels ont été étudiés. Les tableaux contenant les données (Tableaux A, B, et C) se trouvent à la fin de cette partie (IV). Comme précédemment, le rang 1 correspond au mot le plus exceptionnellement rare du génome, tandis que le rang le plus haut correspond au mot le plus exceptionnellement fréquent dans la séquence.

De cette analyse, il ressort tout d'abord que, pour une séquence donnée, tous les palindromes ne sont pas exceptionnels. Seul un petit nombre d'entre eux sont très exceptionnels, de l'ordre de 2 à 6 par séquence, pour une longueur de mots donnée. Deux exemples sont montrés dans les Figures 23 et 24. Comme on pouvait s'y attendre, les motifs qui sont exceptionnels sont généralement évités. Mais il arrive que certains soient exceptionnellement fréquents : un exemple très marqué est le pseudo-palindrome CTGAG/CTCAC dans les séquences génomiques d'hôtes appartenant à l'ordre Thermoproteales (Tableau B). D'ailleurs, un même motif palindromique peut être exceptionnellement rare dans une séquence et exceptionnellement fréquent dans une autre. Un bon exemple est le couple CCTGG/CCAGG, qui correspond aux mots les plus évités dans les séquences concaténées CRYPTIC (Tableau B, Sulfolobales, rangs 1023 et 1024), et qui d'autre part correspond aux mots les plus sur-représentés dans la séquence génomique de

Figure 22 : Scores d'exceptionnalité des mots de 4 lettres pour les séquences concaténées LIPOTHRIX (axe des X) et pour

Sulfolobus acidocaldarius (axe des Y). Entouré en rouge : le

Methanosarcina acetivorans (Tableau B, Methanosarcinales, rangs 1 et 2). Ceci suggère que

la plupart des motifs ont un certain niveau de spécificité, et qu'ils ne sont pas nécessairement reliés aux mêmes fonctions biologiques dans des organismes différents.

Figure 23 : Scores d'exceptionnalité des mots de 5 lettres chez Pyrobaculum

aerophilum (axe des X) et Pyrobaculum arsenaticum (axe des Y). Entourés en

rouge : points correspondant au couple de pseudo-palindromes GCTGC/GCAGC.

Figure 24 : Scores d'exceptionnalité des mots de 6 lettres dans le génome de Natronomonas pharaonis (axe des X) et les séquences concaténées HALO_EXTRA (axe des Y). Entourés en rouge : points correspondant à des palindromes très évités.

ctcgag ggcgcc

Il semble toutefois que les motifs présentent généralement les mêmes caractéristiques d'exceptionnalité dans les séquences correspondant à un même ordre phylogénétique (Thermoplasmatales, Methanococcales, etc.). En effet, les résultats sont généralement homogènes au sein d'un même ordre, y compris pour les séquences concaténées d'éléments extra-chromosomiques. On entend par là que ce sont les mêmes motifs très exceptionnels qui sont retrouvés dans ces séquences. Un exemple est visible dans la Figure 25, ou l'on voit que le mot GATC est le mot le plus évité à la fois dans le génome d'Haloquadratum walsbyi et dans les séquences concaténées HALO_EXTRA. C'est même l'ensemble des scores d'exceptionnalité qui apparaissent comme bien corrélés. La Figure 24, citée précédemment, est aussi un bon exemple pour HALO_EXTRA, cette fois avec les mots de taille 6. Globalement, c'est pour des ordres du phylum Crenarchaeota que l'homogénéité est la moins forte (Sulfolobales, Desulfurococcales). L'homogénéité est très bonne pour les ordres Methanosarcinales, Halobacteriales, et Thermoproteales.

Un point intéressant est que pour les motifs pseudo-palindromiques de taille 5, quelques motifs sont exceptionnellement rares pour la plupart des séquences rattachées au phylum Euryarchaeota. Il s'agit notamment des 4 motifs GGTCC, GGACC, CCTGG et CCAGG (Tableau B). D'autres motifs, différents, sont exceptionnellement évités dans la plupart des séquences rattachées au phylum Crenarchaeota. Il s'agit notamment du couple GCAGC/GCTGC. Peut-être ces motifs sont-ils liés à des fonctions biologiques importantes conservées au sein de chaque phylum.

Figure 25 : Scores d'exceptionnalité des mots de 4 lettres dans les séquences d'Haloquadratum walsbyi (axe des X) et les séquences concaténées HALO_EXTRA (axe des Y). Entouré en rouge : point correspondant au palindrome GATC.

ORDRE Toujours

SOUS-représentés SouventSOUS-représentés SouventSUR-représentés ToujoursSUR-représentés

Desulfuroccocales cctagg tata

cgatcg, (cgatcg) (ttgcaa)

Sulfolobales gcgc gatatc ggcc, gtac gcagc-gctgc, gcggc- gccgc, tttaa-ttaaa, taatta, cctagg, caattg SULFO_EXTRA ttaa, ggcc, gcgc, gatc gcagc-gctgc, gcggc- gccgc taatta, gatatc (cgtcg) Thermoproteales ggcc gcagc-gctgc cgcg, gcgcgcggc-gccgc, (gagtc) cacgtg, gacgtc ttaa (cgacg-cgtcg) tatata, (ttgcaa) ctgag-ctcag

Halobacteriales ggcc, catg, gatc

ctcgag, cgatcg cgcg, agct, ctaggactc-gagtc, ctgag- ctcag, cctgg-ccagg gggccc, cacgtg, agatct, tcgcga, gacgtc

(gatatc)

HALO_EXTRA cgcg, agct, catg, ctag, gatc

gcagc-gctgc, ggtcc-ggacc, cctgg-ccagg, gactc-gagtc, ctcag-ctgag

cccggg, gggccc, cacgtg, ctcgag, gagctc, agatct, tcgcga, gacgtc, cgatcg, ggatcc

gatatc

Methanococcales tata, gatc, ctag cctgg-ccagg taatta, ctgcag, gatatc cgcg, gtac ggtcc-ggacc ctcgag, gacgtc atat, tgca ttaaa-tttaa caattg Methanomicrobiales ggtcc-ggacc ctgag-ctcag gggccc, agatct, cgatcg ggcc, ctag cctgg-ccagg, gactc- gagtc cccggg, ctcgag, ctgcag ccgg gatatc, ttgcaa Methanosarcinales ctag ggtcc-ggacc ctcgag, cgatcg (tata), ggcc cctgg-ccagg cacgtg, gagctc, agatct, ctgcag, ggatcc (ccgg) (gcagc-gctgc) caattg, tatata, gatatc, (ttgcaa)

Thermococcales ggtcc-ggacc, gactc-

gagtc gatatc, cgatcg tata, gcgc, gatc gcagc-gctgc gacgtc (cgacg-cgtcg) (ttgcaa) THERMOC_EXTRA atat, tata, catg, ctag, gatc

gcagc-gctgc, gccgc, gagtc ctcgag, cccggg

(ctgag)

tatata, taatta, (ttgcaa) Thermoplasmatales atat, ctag

agatct, cgatcg, ggatcc tata, cgcg ggtcc-ggacc, cctgg- ccagg gatc (cccggg)

Tableau 12 : Palindromes et pseudo-palindromes exceptionnels de 4 à 6 lettres, dans les séquences d'archées et de leurs éléments extra-chromosomiques, selon leur ordre phylogénétique d'appartenance.

Finalement, un très grand nombre de palindromes très exceptionnels ont été identifiés, et il est impossible de les énumérer tous. Nous avons tenté de regrouper l'information dans un unique tableau, plus synthétique, ci-dessus (Tableau 12). Lorsque l'on compare au Tableau 11, dans lequel seuls les systèmes connus de restriction-modification sont indiqués, on voit que notre travail d'analyse ouvre de nombreuses pistes. Tout d'abord, des motifs déjà connus pour une espèce, ponctuellement, (ex : GGCC ou GATC), s'avèrent être exceptionnels dans un grand nombre d'autres séquences. En outre, des motifs totalement nouveaux ont été identifiés. Notamment, il semble que pas ou peu de fonctions associées à des motifs palindromiques de taille 6 soient encore connues chez les archées. Des motifs exceptionnels de taille 4 à 6 ont déjà été identifiés pour 6 génomes d'archées (Rocha et al., 2001). Le fait d'avoir ici plusieurs génomes pour chaque ordre permet en plus de voir à quel point les phénomènes d'exceptionnalité sont conservés. Lorsque c'est le cas, cela renforce la conviction que les observations ne sont pas le produit du hasard et qu'il doit bien exister des mécanismes biologiques expliquant l'exceptionnalité des différents motifs. Notre analyse concerne de plus un bien plus grand nombre d'ordres phylogénétiques.

Enfin, le fait que dans de nombreux cas, un même palindrome soit exceptionnel dans la plupart des séquences d'un même groupe phylogénétique, pourrait indiquer que certains palindromes sont reliés à des fonctions biologiques plus essentielles que la restriction- modification. Par exemple, chez Escherichia coli, comme brièvement mentionné en introduction, le système de réparation Vsr (« Very short patch repair ») corrige les mésappariements GT en GC, ce qui semble provoquer l'évitement de certains mots contenant un T, comme CTAG (Bhagwat and McClelland, 1992). Il n'est pas exclu que des mécanismes similaires existent chez les archées. De plus, la sur-représentation de certains palindromes est intrigante car inhabituelle, et renforce l'idée que les palindromes pourraient être reliés à une variété de fonctions biologiques.