• Aucun résultat trouvé

Chapitre 5   Discussion et Conclusion 71

5.3 Approches envisagées pour approfondir et améliorer 74

5.3.1. Subdiviser par clan

Notre approche consistait à compiler les familles de Rfam en 23 catégories afin de

calculer un score d’abondance qui est une moyenne de log de ratios d’occurrence d’un motif

précis. Pour améliorer la représentativité des motifs rares, nous avons réduit les 23 catégories

en 6 supercatégories. Nous pensons qu’il serait pertinent de tester une approche différente

dans la compilation des catégories pour améliorer le système de score telle que subdiviser les

familles de Rfam par clan et recalculer les scores d’abondance. Ceci diminuerait les

occurrences totales des motifs vu qu’un clan risque d’être beaucoup plus petit qu’une

catégorie ou supercatégorie. Cependant cette approche augmenterait vraisemblablement la

spécificité et permettrait d’obtenir une meilleure discrimination au niveau de RNAscore. Un

désavantage de cette approche serait de réduire le pouvoir discriminant de la plupart des

motifs très rares, mais comme noté plus haut, ces derniers s’avèrent peu utiles. Il s’agirait donc

d’un sacrifice acceptable. Ce qui est plus problématique est que même certains motifs

« intermédiaires » sont peu ou pas représentés dans certains clans. Le deuxième désavantage

serait de rendre beaucoup plus complexe la compilation et l’utilisation des scores si les clans

sont ensuite compilés dans des systèmes de scores qui auraient plus de deux versions.

5.3.2. Tenir compte des espèces et de la composition en GC

La composition en nucléotides a été utilisée dans la recherche de nouveaux ARNnc

(132,133). En effet, comme la structure des ARNnc est plus importante que pour les région

codante ou les promoteurs, il y a un nombre minimal de paires de bases GC qui est requis pour

avoir des structures stables(134). Ainsi, une région avec un %GC plus élevé peut être

indicatrice de la présence d’un ARNnc. Chez des organismes à faible %GC cela peut

représenter un pouvoir discriminant intéressant. Les ARNnc ont des biais de séquence qui

existent chez certains organismes plus que d’autres. Il serait donc intéressant d’intégrer le

%GC des régions de l’ARN qui forme des paires de base pour réaliser un filtre tenant compte

de ces contraintes de façon plus précise que les études précédentes.

Un autre point majeur qui n’a pas été abordé dans notre étude concerne les variations

entre espèces. En effet, la proportion des bases qui entre dans la composition des génomes

varie grandement selon le groupe taxonomique concerné. Ainsi, Streptomyces coelicolor a un

%GC de 72%, alors que pour Saccharomyces cerevisiae il est de 38% (135). Au-delà des

paires de bases, cela a évidemment un impact sur les probabilités de trouver simplement par

hasard des boucles GAAA ou GCGC par exemple. Cette information pourrait servir à mieux

classifier la rareté ou l’abondance de motifs donnés en pondérant ceux-ci selon le %GC du

motif et le %GC du génome de l’organisme d’où origine la séquence. Ainsi, nous avons

simplifié l’analyse en considérant comme uniforme les probabilités d’occurrence aléatoire

pour chaque motif (une chance sur 256). En réalité, pour la boucle GCGC les probabilités

basées sur le %GC de S. coelicolor et de S. cerevisiae donneraient ~1/60 ((1/(72/2))

4

) et

~1/767 ((1/(38/2))

4

), respectivement, et seraient de ~1/1012 ((1/(72/2))*(1/(28/2))

3

) et ~1/177

((1/(38/2))*(1/(62/2))

3

) pour la boucle GAAA pour les deux mêmes espèces. En d’autres mots,

si GCGC est très rare chez S. coelicolor ou GAAA très abondant, cela renforcerait encore plus

leurs caractères extrêmes. Cependant, une telle pondération implique de connaître le %GC du

génome de l’organisme, ce qui n’est pas toujours le cas pour les séquences d’ARN trouvées

dans Rfam. Cela sous-entend aussi que la distribution de ce %GC est uniforme dans le

génome, ce que nous savons n’est pas le cas. Il n’est donc pas clair de quelle façon une

pondération devrait être implémentée.

De plus, en tenant compte des différences entre espèces, nous pourrions

potentiellement mieux expliquer certaines des fréquences observées. Par exemple, une

séquence donnée étant liée par une protéine ribosomale pourrait se trouver à être

particulièrement rare dans l’ensemble des ARN d’un organisme parce qu’autrement elle se

trouverait liée par la très abondante protéine ribosomale. À l’opposé, la surreprésentation de

certaines séquences dans certains groupes taxonomiques pourrait aussi correspondre un

avantage notable de pouvoir lier une protéine donnée, telle que la protéine Hfq qui lie les

petits ARN bactériens via leur séquence AU riche.

5.3.3. Évaluer d’autres éléments structuraux

Hormis les boucles et « bulges », d’autres parties de la structure des ARN seraient

intéressantes à évaluer, notamment les paires de bases des tiges. Celles-ci sont primordiales à

la formation de la structure secondaire et tertiaire. Néanmoins, bien que cet aspect soit plutôt

bien étudié du point de vue des prédictions de structure et thermodynamique, il ne l’est pas

autant pour ce qui est de biais potentiels, et de leurs implications, du point de vue biologique.

Certains exemples sont connus et étudiés, comme la possibilité de glissement de l’ARN

polymérase lors de la synthèse de régions homopolymères. Par contre, la diversité de

composition, le nombre de paires de bases Wobble, la présence de répétitions ou la présence

de motifs particuliers sont autant d’avenues qui pourraient être explorées d’une façon analogue

à ce qui a été fait pour les régions dites « simple brin » dans ce mémoire.

Documents relatifs