• Aucun résultat trouvé

Motifs courts exceptionnels dans les génomes d'archées et de leurs éléments extra chromosomiques

Motifs courts exceptionnels dans les génomes des archées et de leurs éléments extra-chromosomiques

L4 (16) L5 (64) L6 (64) L7 (256) L8 (256) SEQUENCES p-value p-value p-value p-value p-value

1.3 Motifs courts exceptionnels dans les génomes d'archées et de leurs éléments extra chromosomiques

Un moyen de détecter les motifs fonctionnels non-codant dans les génomes est l'analyse statistique des séquences, permettant de détecter les motifs exceptionnels. Pour les archées, encore peu de motifs fonctionnels non-codants sont connus. Par ailleurs, un nombre conséquent de génomes d'archées, de leurs virus et de leurs plasmides sont aujourd'hui disponibles dans les bases de données. En collaboration avec Sophie Schbath, de l'Unité Mathématique, Informatique & Génome de l'INRA Jouy-en-Josas, nous avons recherché des motifs exceptionnels dans une quarantaine de génomes d'archées, une quarantaine de génomes de virus ou provirus et une quarantaine de séquences de plasmides. Les mots de taille 4 à 8 ont été étudiés, avec le logiciel RMES (Hoebeke and Schbath, http://genome.jouy.inra.fr/ssb/rmes).

Au préalable, la composition des séquences de virus et plasmides en mots courts a été analysée, afin de concaténer les séquences homogènes. Ceci dans le but de produire une analyse statistique plus riche. Pour constituer les groupes, deux méthodes différentes on été utilisées, le clustering hiérachique et l'analyse en composante principale. Outre le but méthodologique, cette étape a montré que les groupes formés reflètent clairement l'ordre auquel appartiennent les hôtes des virus ou plasmides (Thermococcales, Halobacteriales, Sulfolobales). Quelques exceptions existent mais ne sont pas nombreuses. Pour les éléments extra-chromosomiques de Sulfolobales, dont les séquences sont plus nombreuses, des sous-groupes ont même pu être établis, qui reflétaient non plus la phylogénie des hôtes, mais plutôt les familles virales (Rudiviridae, Lipothrixviridae, etc.) et le type de plasmide (conjugatif, cryptique). Cette dernière observation est encourageante quant à l'utilisation des signatures pour identifier la nature ou l'origine de séquences non-identifiées. Des exemples d'applications possibles sont la métagénomique, ou l'étude des ORFans, les cadres de lecture orphelins.

Concernant les motifs exceptionnels, deux familles de motifs ont d'abord été examinées, les motifs palindromiques et pseudo-palindromiques d'une part, et les motifs symétriques d'autre part.

Les motifs palindromiques sont évités dans les génomes de bactéries, par exemple chez

Escherichia coli, et l'évitement s'explique en partie par l'existence de systèmes de restriction-

modification ou de méthylation et dans certains cas par l'existence de systèmes de réparation.

Nous avons montré que les motifs palindromiques (ou pseudo-palindromiques) de taille 4 à 6 sont évités dans les génomes d'archées et de leurs éléments extra-chromosomiques. En nous basant sur les quelques systèmes de restriction-modification/méthylation déjà identifiés chez les archées, nous avons estimé que cet évitement peut sûrement, dans certains cas, être lié à la présence de systèmes de restriction-modification dans les génomes. Par ailleurs, nous avons remarqué que les motifs évités sont souvent les mêmes dans les génomes correspondant à un même ordre (ex : Halobacteriales), ceci y compris pour les génomes d'éléments extra-chromosomiques. Enfin, si les palindromes sont globalement évités dans les génomes d'archées, ce phénomène semble moins marqué que pour les bactéries. En effet, dans chaque séquence, seuls quelques palindromes sont exceptionnellement évités. En outre, les mots pseudo-palindromiques de taille 7 seraient même plutôt, en moyenne, sur-représentés.

Concernant les motifs symétriques, il nous semble que ceux-ci n'ont encore jamais été spécifiquement étudiés, ni chez les archées, ni pour d'autres types d'organismes. Ici, nous avons observé une sur-représentation globale des mots symétriques de taille 4 et 7, et une sous- représentation globale des mots symétriques de taille 5. Dans une bien moindre mesure, les mots symétriques de taille 6 étaient évités et ceux de taille 8 sur-représentés. Pour l'instant, nous ne sommes pas en mesure de proposer d'hypothèses précises pour expliquer ce phénomène.

Pour finir, nous nous sommes intéressés aux mots très exceptionnels, sur-représentés, de taille 5 à 7, retrouvés chez toutes les espèces d'un même genre. Ces mots pourraient être de bons candidats pour une implication dans des fonctions générales, de type maintenance du génome, régulation de la transcription, etc.

réalisées pour les motifs les plus intéressants. Sophie Schbath a par exemple regardé s'ils avaient une position préférentielle par rapport aux gènes (méthode FADO décrite dans Gusto and Schbath, 2005) mais les résultats n'ont rien montré de significatif. La distribution des motifs dans les génomes a également été examinée. Ceci a montré que AATCC correspond aux séquences répétées de CRISPRs chez Sulfolobus solfataricus et Sulfolobus tokodaii. Par ailleurs, le couple de mots CCTGGG/CCCAGG, extrêmement sur-représenté chez Pyrococcus, semble évité en deux endroits du génome, en particulier chez Pyrococcus horikoshii.

En conclusion, les travaux ont bien démontré l'intérêt d'étudier les motifs exceptionnels chez les archées car de nombreux candidats ont pu être identifiés. Mais l'interprétation est difficile en raison des connaissances encore limitées sur les archées. Il est pourtant nécessaire de s'atteler à la tâche. Des allers-retours entre approches expérimentales et in silico pourraient être fructueuses. Des projets plus ciblés sur certains mots ou certains organismes pourraient également être utiles, permettant des analyses plus poussées et l'utilisation de critères supplémentaires (ex : différence de composition en motifs entre brin direct et indirect, soit « leading » et « lagging »).

2

Des pistes pour poursuivre sur le virus SIRV2