Chapitre 5 Discussion et Conclusion 71
5.3 Approches envisagées pour approfondir et améliorer 74
5.3.1. Subdiviser par clan
Notre approche consistait à compiler les familles de Rfam en 23 catégories afin de
calculer un score d’abondance qui est une moyenne de log de ratios d’occurrence d’un motif
précis. Pour améliorer la représentativité des motifs rares, nous avons réduit les 23 catégories
en 6 supercatégories. Nous pensons qu’il serait pertinent de tester une approche différente
dans la compilation des catégories pour améliorer le système de score telle que subdiviser les
familles de Rfam par clan et recalculer les scores d’abondance. Ceci diminuerait les
occurrences totales des motifs vu qu’un clan risque d’être beaucoup plus petit qu’une
catégorie ou supercatégorie. Cependant cette approche augmenterait vraisemblablement la
spécificité et permettrait d’obtenir une meilleure discrimination au niveau de RNAscore. Un
désavantage de cette approche serait de réduire le pouvoir discriminant de la plupart des
motifs très rares, mais comme noté plus haut, ces derniers s’avèrent peu utiles. Il s’agirait donc
d’un sacrifice acceptable. Ce qui est plus problématique est que même certains motifs
« intermédiaires » sont peu ou pas représentés dans certains clans. Le deuxième désavantage
serait de rendre beaucoup plus complexe la compilation et l’utilisation des scores si les clans
sont ensuite compilés dans des systèmes de scores qui auraient plus de deux versions.
5.3.2. Tenir compte des espèces et de la composition en GC
La composition en nucléotides a été utilisée dans la recherche de nouveaux ARNnc
(132,133). En effet, comme la structure des ARNnc est plus importante que pour les région
codante ou les promoteurs, il y a un nombre minimal de paires de bases GC qui est requis pour
avoir des structures stables(134). Ainsi, une région avec un %GC plus élevé peut être
indicatrice de la présence d’un ARNnc. Chez des organismes à faible %GC cela peut
représenter un pouvoir discriminant intéressant. Les ARNnc ont des biais de séquence qui
existent chez certains organismes plus que d’autres. Il serait donc intéressant d’intégrer le
%GC des régions de l’ARN qui forme des paires de base pour réaliser un filtre tenant compte
de ces contraintes de façon plus précise que les études précédentes.
Un autre point majeur qui n’a pas été abordé dans notre étude concerne les variations
entre espèces. En effet, la proportion des bases qui entre dans la composition des génomes
varie grandement selon le groupe taxonomique concerné. Ainsi, Streptomyces coelicolor a un
%GC de 72%, alors que pour Saccharomyces cerevisiae il est de 38% (135). Au-delà des
paires de bases, cela a évidemment un impact sur les probabilités de trouver simplement par
hasard des boucles GAAA ou GCGC par exemple. Cette information pourrait servir à mieux
classifier la rareté ou l’abondance de motifs donnés en pondérant ceux-ci selon le %GC du
motif et le %GC du génome de l’organisme d’où origine la séquence. Ainsi, nous avons
simplifié l’analyse en considérant comme uniforme les probabilités d’occurrence aléatoire
pour chaque motif (une chance sur 256). En réalité, pour la boucle GCGC les probabilités
basées sur le %GC de S. coelicolor et de S. cerevisiae donneraient ~1/60 ((1/(72/2))
4) et
~1/767 ((1/(38/2))
4), respectivement, et seraient de ~1/1012 ((1/(72/2))*(1/(28/2))
3) et ~1/177
((1/(38/2))*(1/(62/2))
3) pour la boucle GAAA pour les deux mêmes espèces. En d’autres mots,
si GCGC est très rare chez S. coelicolor ou GAAA très abondant, cela renforcerait encore plus
leurs caractères extrêmes. Cependant, une telle pondération implique de connaître le %GC du
génome de l’organisme, ce qui n’est pas toujours le cas pour les séquences d’ARN trouvées
dans Rfam. Cela sous-entend aussi que la distribution de ce %GC est uniforme dans le
génome, ce que nous savons n’est pas le cas. Il n’est donc pas clair de quelle façon une
pondération devrait être implémentée.
De plus, en tenant compte des différences entre espèces, nous pourrions
potentiellement mieux expliquer certaines des fréquences observées. Par exemple, une
séquence donnée étant liée par une protéine ribosomale pourrait se trouver à être
particulièrement rare dans l’ensemble des ARN d’un organisme parce qu’autrement elle se
trouverait liée par la très abondante protéine ribosomale. À l’opposé, la surreprésentation de
certaines séquences dans certains groupes taxonomiques pourrait aussi correspondre un
avantage notable de pouvoir lier une protéine donnée, telle que la protéine Hfq qui lie les
petits ARN bactériens via leur séquence AU riche.
5.3.3. Évaluer d’autres éléments structuraux
Hormis les boucles et « bulges », d’autres parties de la structure des ARN seraient
intéressantes à évaluer, notamment les paires de bases des tiges. Celles-ci sont primordiales à
la formation de la structure secondaire et tertiaire. Néanmoins, bien que cet aspect soit plutôt
bien étudié du point de vue des prédictions de structure et thermodynamique, il ne l’est pas
autant pour ce qui est de biais potentiels, et de leurs implications, du point de vue biologique.
Certains exemples sont connus et étudiés, comme la possibilité de glissement de l’ARN
polymérase lors de la synthèse de régions homopolymères. Par contre, la diversité de
composition, le nombre de paires de bases Wobble, la présence de répétitions ou la présence
de motifs particuliers sont autant d’avenues qui pourraient être explorées d’une façon analogue
à ce qui a été fait pour les régions dites « simple brin » dans ce mémoire.
Dans le document
Identification de caractéristiques communes et rares dans les ARN structurés dans la base de données Rfam
(Page 87-90)