• Aucun résultat trouvé

Les caractéristiques des outils de prédiction des cibles moléculaires des

CHAPITRE 1 : INTRODUCTION

2. Les microARNs

2.3. La prédiction bio-informatique des cibles moléculaires des miRs

2.3.1. Les caractéristiques des outils de prédiction des cibles moléculaires des

Les approches computationnelles modélisent la façon dont les miRs ciblent des ARNm spécifiques et un choix croissant d'outils est disponible, chacun avec une approche distincte pour la prédiction des cibles des miRs. Il existe quatre caractéristiques couramment utilisées par les outils de prédiction des cibles des miRs : la

correspondance de la séquence « seed », la conservation, l’énergie libre et l’accessibilité du site. Ces caractéristiques seront décrites dans les sections suivantes.

2.3.1.1. La correspondance de la séquence seed

Chez les animaux, une séquence d'environ sept nucléotides dans la région 5' du miR (du nucléotide 2 au 8), connue sous le nom de séquence seed, reconnaît une séquence présente dans le 3’UTR (3’ Untranslated Region) de son ARNm cible (Doench and Sharp 2004, Brennecke, Stark et al. 2005, Grimson, Farh et al. 2007) (Figure 9). Il est important de noter que la séquence reconnue par le miR peut également, dans un nombre plus limité des cas, se retrouver dans le 5’UTR (5’ Untranslated Region) ou le CDS (Coding DNA Sequence) de l’ARN cible (Xu, San Lucas et al. 2014). La « correspondance de la séquence seed » ou « seed match » est une correspondance Watson-Crick entre un miR et son ARNm cible dans la séquence seed (Figure 9). Un appariement Watson-Crick se produit lorsque l'adénine (A) est associée à l'uracile (U) et la guanine (G) à la cytosine (C). Les différents algorithmes de prédiction des cibles des miRs peuvent se baser sur plusieurs types de seed match. Dans l’ARNm, les séquences

impliquées dans le seed match sont appelées sites canoniques. Il existe aussi des appariements miR-ARNm plus rares qui se font à des sites non canoniques, caractérisés par une correspondance imparfaite entre la séquence seed du miR et la séquence d’ARNm. Comme les sites canoniques, les sites non canoniques peuvent contrôler la dégradation et la répression traductionnelle des ARNm cibles (Agarwal, Bell et al. 2015).

Figure 9 : Schéma d'une interaction d’un miR avec son ARNm cible. Le numéro de

position du miR est indiqué en bleu. La séquence seed fait référence aux nucléotides 2- 8 du miR. La « correspondance de la séquence seed » est indiquée en rouge. Adapté de (Peterson, Thompson et al. 2014).

Les types de sites canoniques les plus efficaces sont : le site 8mer (où l’appariement des bases se forme de la position 2 à la position 8 du miR, la position 1 correspondant à une adénine sur l’ARNm), le site 7mer-m8 (où l’appariement de base se forme de la position 2 à la position 8 du miR) et le site 7mer-A1 (où l’appariement de base se forme de la position 2 à la position 7 du miR, la position 1 correspondant à une adénine sur l’ARNm) (Lewis, Burge et al. 2005) (Figure 10).

Dans le site 8mer et 7mer-A1, l'adénine en position 1 est accommodée dans une poche spécifique de l'Argonaute (Schirle, Sheu-Gruttadauria et al. 2014). Deux autres types de sites canoniques, chacun associé à une conservation préférentielle et à une efficacité plus faible, sont les site 6mer (où l’appariement de base se forme de la position 2 à la position 7 du miR) (Lewis, Burge et al. 2005) et le site offset-6mer (où l’appariement de base se forme de la position 3 à la position 8 du miR) (Friedman, Farh et al. 2009) (Figure 10).

Figure 10 : Sites canoniques des ARNm. Du bas vers le haut : le site 8mer ; le site

7mer-m8 ; le site 7mer-A1 ; le site 6mer et le site offset-6mer. Adapté de (http://www.targetscan.org/docs/canonical.png).

Les sites 3'-supplémentaires et les sites centrés font partie des sites non canoniques. Dans le premier cas, un appariement très étendu à la région 3' du miR peut compenser un mésappariement à l'une des positions de la séquence seed (Figure 11) (Doench and Sharp 2004, Brennecke, Stark et al. 2005, Bartel 2009). Un exemple de ce site est le 3’UTR de l’ARNm lin-41 chez C. elegans, ciblé sur deux sites différents par le miR let-7 (Reinhart, Slack et al. 2000).

Les sites centrés (Figure 11), comme les sites 3'-supplémentaires, sont rares mais efficaces. Ces sites présentent un appariement de 11-12 paires de nucléotides contiguës au centre du miR (Yekta, Shih et al. 2004, Davis, Caiment et al. 2005, Karginov, Cheloufi et al. 2010, Shin, Nam et al. 2010). L'existence d'autres types de sites non canoniques encore non caractérisés est suggérée par le grand nombre de régions d'ARNm qui se lient au complexe RISC in vivo (Chi, Hannon et al. 2012, Loeb, Khan et al. 2012, Helwak, Kudla et al. 2013, Khorshid, Hausser et al. 2013, Grosswendt, Filipchyk et al. 2014).

Figure 11 : Sites non canoniques des ARNm. Du bas vers le haut : les sites 3'-

supplémentaires et les sites centrés. Adapté de (http://www.targetscan.org/docs/canonical.png).

Le type (par exemple, 8mer ou 7mer-A1) et le nombre de site influencent fortement l'efficacité de la répression. Chaque site supplémentaire agit généralement de façon indépendante pour conférer une répression supplémentaire (Grimson, Farh et al. 2007, Nielsen, Shomron et al. 2007). Dans ce contexte, les sites qui se situent entre 8 et 40 nucléotides agissent généralement en coopération, tandis que ceux à moins de 8 nucléotides les uns des autres agissent de manière compétitive (Grimson, Farh et al. 2007). De plus, pour un miR en particulier, le même type de site peut avoir un impact plus important dans une région 3’ UTR d’un ARNm par rapport à un autre ARNm. Cette différence peut être due au positionnement du site par rapport à la position du ribosome (dans le cas de la répression traductionnelle) (Grimson, Farh et al. 2007) ou par rapport au 3’UTR (Grimson, Farh et al. 2007). Dans ce dernier cas, la qualité de la répression est influencée par l’accessibilité du site au complexe RISC qui, à son tour, peut être entre autres modifié par : le nombre élevé d’uraciles et d’adénines, la longueur du 3'UTR (Hausser, Landthaler et al. 2009) et la présence d’une structure secondaire plus ou

2.3.1.2. La conservation

Un concept très important dans l’analyse de séquences impliquées dans le seed match est la conservation préférentielle de ces séquences. En biologie de l'évolution, les séquences d’ARN conservées sont des séquences identiques ou similaires entre les espèces qui ont été préservées par un processus de sélection naturelle. En général, une séquence est préférentiellement conservée par rapport à une autre car elle est plus fonctionnelle (Lichtarge and Sowa 2002). Les outils de prédiction peuvent concentrer l’analyse de conservation sur le 3’UTR, le 5’UTR, le miR ou la combinaison des trois. Il y a également un intérêt croissant dans l'analyse de la conservation des régions génomiques flanquant le gène du miR et les gènes cibles (Lewis, Shih et al. 2003).

2.3.1.3. L’énergie libre

L'énergie libre (ou énergie libre de Gibbs) peut être utilisée pour mesurer la stabilité d'un système biologique. Si la liaison miR-ARNm est stable, cet ARNm peut être considéré comme une cible du miR. Compte tenu de la difficulté à mesurer directement l'énergie libre, on considère généralement le changement d'énergie libre au cours d'une réaction aussi indiqué comme ΔG. Les réactions avec un ΔG négatif sont considérées comme favorables. Donc, les probabilités que ces interactions aient lieu sont plus grandes. En prédisant la façon dont le miR et sa cible s'hybrident, les régions d'énergie libre élevée ou faible peuvent être déduites et le ΔG global peut être utilisé comme indicateur de la force de leur liaison (Yue, Liu et al. 2009).

2.3.1.4. L’accessibilité du site

L'accessibilité du site mesure la facilité avec laquelle un miR peut se localiser et s'hybrider avec un ARNm cible. Après la transcription, l'ARNm adopte une structure secondaire (Mahen, Watson et al. 2010) qui peut interférer avec la capacité d'un miR à se lier à ce dernier. L'hybridation miR-ARNm implique un processus en deux étapes dans lesquelles un miR se lie d'abord à une courte région accessible de l'ARNm, ensuite la structure secondaire de l'ARNm se déroule alors que le miR termine sa liaison (Long, Lee et al. 2007). Ainsi, la quantité d’énergie requise pour rendre un site accessible est analysée pour évaluer la probabilité qu'un ARNm soit la cible d'un miR.

2.3.1.5. Les caractéristiques moins communes des outils de prédiction

des cibles de miRs

Les caractéristiques discutées ci-dessus sont le plus couramment utilisées dans les outils de prédiction des cibles des miRs. Au fur et à mesure que les chercheurs caractérisent davantage les interactions miR-ARNm, des caractéristiques supplémentaires sont rajoutées à ces outils.

L’ abondance de sites cibles est une mesure du nombre de sites cibles présents dans un 3’UTR (Garcia, Baek et al. 2011). Le contenu local en AU de l’ARNm est la concentration des nucléotides A et U adjacents à la séquence correspondante à la région seed du miR (Betel, Koppal et al. 2010). Les sites 3'-supplémentaires représentent une autre caractéristique qui peut être considérée par les outils de prédiction.

Enfin, les techniques d'apprentissage automatique sont aussi utilisées dans la prédiction des cibles des miRs. Ces techniques utilisent des données d'entraînement pour développer un modèle des cibles des miRs. Ensuite, ils utilisent ce modèle dans le processus de prédiction des miRs. Les techniques d'apprentissage utilisent plusieurs caractéristiques dans leurs prédictions car elles peuvent être entraînées pour déterminer la puissance prédictive de chaque caractéristique sur des séries des données positives et négatives (Sturm, Hackenberg et al. 2010).