Chapitre 2 : Analyse des clubs assortis
F. Robustesse des enrichissements
2. Robustesse des ontologies face aux faux positifs et faux négatifs
Du fait de la spécificité et de la sensibilité imparfaites des algorithmes de prédictions
de cibles des miARN, une dernière question concernant nos prédictions réside dans leur robustesse face aux « fausses » prédictions ; c’est-à-dire face aux faux positifs et aux faux
négatifs. Nous avons donc étudié cette dernière pour le club assorti 2 en faisant varier
aléatoirement les prédictions de façon indépendante et à quatre niveaux différents pour Figure 61. Corrélation entre les p-valeurs corrigées des annotations avec TargetScan contre celles de DIANA-microT. A | Club assorti 1. B | Club assorti 2.
168
chaque catégorie : 5%, 10%, 20% et 30%. Par exemple, pour étudier l’effet qu’aurait 5%
supplémentaire de faux positifs sur les prédictions, nous avons ajouté 5% de cibles (choisi au hasard parmi l’ensemble des gènes connus et non déjà prédits pour le(s) miARN(s) en
question) puis recalculé les enrichissements. Pour les faux négatifs, nous avons retiré un certain pourcentage de gènes prédits pour être réguler par les miARN. En répétant l’opération
un grand nombre de fois, on obtient un histogramme.
La Figure 62 montre cette étude principalement pour les dix meilleures annotations du club assorti 2. Sur le panel A, nous pouvons observer l’évolution de la p-valeur pour le meilleur
terme du club assorti 2 (Tableau 9) face au retrait de gènes au hasard dans l’ensemble de
gènes partagés par les trois miARN. Cette dernière reste assez stable jusqu’à 20% de faux
négatifs où une baisse assez significative peut alors être observée (trois ordres de grandeur).
Concernant le taux de faux positifs, le schéma reste globalement le même avec des effets plus
marqués à partir de 20% (Figure 62 B). Comme les p-valeurs dépendent également du nombre
de gènes cibles, il est également intéressant de considérer les rangs dans les annotations plutôt que leur significativité. Les panels C et D montre l’évolution du rang des cinq meilleures
annotations pour le club assorti 2 sous les effets des taux de faux négatifs (C) et de faux
positifs (D). En général, les différentes annotations gardent des rangs sensiblement identiques jusqu’environ 20%, niveau à partir duquel une grande variabilité commence à apparaitre. C’est
également le cas pour les cinq meilleures annotations suivantes (6 à 10) visualisables sur les
panels E et F. Nous pouvons toutefois constater que même à 30%, les dix meilleures
annotations sont tout de même souvent retrouvées parmi les vingt meilleures annotations. En
revanche, les cinq meilleures annotations ont plutôt tendance à se retrouver plus haut dans la
169
Ces résultats indiquent donc une certaine robustesse des analyses d’ontologie face Figure 62. Robustesse des ontologies face aux fausses prédictions. A | p-valeurs du terme le plus enrichi pour le club assorti 2 après retrait de 5, 10, 20 et 30% de cibles (faux négatifs). B | p-valeurs du terme le plus enrichi pour le club assorti 2 après ajout de 5, 10, 20 et 30% de cibles (faux positifs). Barre rouge : p-valeur sans changement | Rang des cinq meilleures annotations pour le club assorti 2 et suivi de ces rang en fonction des faux négatifs. D | Rang des cinq meilleures annotations pour le club assorti 2 et suivi de ces rangs en fonction des faux positifs. E | Suite des meilleures annotations (6 à 10) pour le club assorti 2 et suivi de ces rangs en fonction des faux négatifs. F | Suite des meilleures annotations (6 à 10) pour le club assorti 2 et suivi de ces rang en fonction des faux positifs. 250 changements aléatoires pour chaque point d’étude. Sur C, D, E et F sont représentés la moyenne des 250 permutations et la déviation standard.
170
aux prédictions des cibles. De façon très intéressante, il semble assez rare d’augmenter
artificiellement la p-valeurs même lorsque beaucoup de gènes sont rajoutés dans les tests
(30% de faux positifs typiquement). Les enrichissements que nous observons pour le club
assorti 2 sont donc probablement réellement dus aux gènes annotés pour les fonctions
biologiques et non pas simplement un effet du nombre de gènes testés.
G.
Conclusions et discussion
Nous avons pu mettre en évidence deux clubs assortis et prédire leur(s) implication(s) biologique(s) ainsi que leur rôle d’influence sur les miARN les entourant. Cette analyse globale
permet notamment de donner une information sur les fonctions biologiques les plus
probablement corégulées par les clubs assortis et également les autres miARN du réseau. En revanche, l’analyse ne peut pas donner en soi d’informations sur les fonctions très spécifiques
de chacun des miARN. Nos prédictions s’arrêtent donc forcément à une vision systémique de
la régulation par les miARN. Nous voyons ainsi qu’il existe trois grandes communautés de
miARN : ceux plutôt impliqués dans la régulation de la signalisation, ceux impliqués dans la régulation transcriptionelle et ceux entre les deux ne montrant pas d’enrichissement particulier.
Par ailleurs nous avons pu tester expérimentalement certaines de nos prédictions sur un des
deux clubs.
Peu d’informations étaient disponibles au moment de l’écriture du premier manuscrit
pour le deuxième club, composé de miR-612, -661 et -940,. L’analyse GO nous a permis de
prédire une implication des trois miARN dans la transduction des signaux par les petites GTPases. Cette hypothèse impliquait une possibilité pour les trois miARN d’influencer le
cytosquelette et la motilité cellulaire. Après validation fonctionnelle in vitro, nous avons pu
confirmer ces différentes hypothèses en montrant que les miARN agissent sur le cytosquelette
au travers de la phosphorylation de MLCII, un élément clé dans le contrôle du cytosquelette.
De façon plus étonnante, la surexpression ectopiques des miARN montrait des phénotypes
171
spatiale de la phosphorylation contrairement aux miR-612 et miR-940 qui baissait les niveaux
de phosphorylation sans influencer fortement leur distribution. Ce phénomène antagoniste a également pu être confirmé par des expériences d’invasion permettant donc de confirmer
l’implication du club assorti 2 dans la voie de signalisation des petites GTPases, la régulation
du cytosquelette d’actine, la motilité cellulaire ainsi que l’invasion. Les mécanismes
moléculaires impliqués dans ces comportements antagonistes devraient être plus finement
caractérisés dans le futur.
En corrélation avec nos résultats, Tao et collaborateurs ont montré que miR-612 avait
un effet inhibiteur dans les carcinomes hépatiques autant sur la prolifération, la migration, l’invasion et la métastase. De plus, le miARN semble avoir un effet sur les étapes initiales et
finales de la cascade métastatique en réprimant des invasions locales et les colonisations
distales (Tao et al., 2013). De façon similaire, miR-661 a été montré comme impliqué dans l’invasion des cellules cancéreuses mammaires en ciblant spécifiquement les gènes Nectin-1
et StarD10 (Vetter et al., 2010). Au moment des premières expériences sur le club assorti, aucune information n’était reportée pour miR-940. Depuis, plusieurs auteurs ont pu montrer
pour miR-940 des rôles similaires à ceux que nous avons montrés. Par exemple, Rajendiran et collaborateurs ont prouvé que miR-940 est capable de supprimer la migration et l’invasion
des cellules cancéreuses de prostates en contrôlant l’expression de MIEN1 (Rajendiran et al.,
2014). Le miARN est par ailleurs surexprimé dans les tissus normaux et sous-exprimé dans
les tissus tumoraux, plaçant donc miR-940 comme un outil potentiel de diagnostic et de
pronostic pour le cancer de la prostate. De la même manière, Ma et collaborateur ont mis en
évidence des résultats similaires pour le carcinome nasopharyngé (Ma et al., 2014). MiR-940
semble par ailleurs également impliqué dans les adénocarcinomes pancréatiques (Song et al.,
2015) et hépatiques (Yuan et al., 2015) toujours selon le même schéma, c’est à dire en
réprimant la progression tumorale. Nous restons cependant les premiers à avoir montré un
172
Concernant l’expression des membres des clubs assortis, nous pouvons constater que
les miARN ne sont, en règle générale, pas coexprimés – il semblerait d’ailleurs que pour la
plupart des tissus, seul un membre des deux clubs soit fortement exprimé à la fois (Figure 63).
MiR-940 semble particulièrement exprimé dans les épithéliums glandulaires alors que
miR-495, quant à lui, est plutôt exprimé dans différentes régions du cerveau. Enfin, dans les tissus rectaux, c’est miR-612 qui semble prendre le relai. En revanche, et contrairement aux
résultats sur l’ensemble des miARN, la classification tissus glandulaire/autres tissus semble
moins présente avec ces onze miARN uniquement.
Les clubs assortis définissent deux sphères séparées par une zone intermédiaire
représentant les trois types de miARN déjà évoqués. Une grande corrélation existant entre les
enrichissements des clubs assortis et leur sphère respective, nous avons donc nommé les Figure 63. Expression des membres des clubs assortis dans différents tissus (cf.
page 100). Seuls les miARN dont l’expression était retrouvée sur l’ensemble des tissus
analysés sont présentés. Soit 8 miARN sur les 11 formant les clubs assortis. En bleu sont représentés les membres du club assorti 1 et en rouge, ceux du club assorti 2.
173
deux sphères « zone d’influence des clubs assortis ». Une idée importante derrière toutes ces
analyses est la notion d’exploration globale se basant sur les gènes partagés. En effet, bien
que les deux sphères soient impliquées l’une et l’autre dans différentes fonctions cellulaires –
prédites à partir des gènes partagés, certains miARN des zones pourraient tout de même ne pas avoir d’implication dans ces fonctions. Il existe en fait simplement une plus grande
probabilité que ces miARN soient impliqués dans ces processus. En gardant donc à l’esprit
que notre analyse se limite à des aspects globaux de la régulation biologique par les miARN,
nous pouvons noter un certain lien entre la forme du réseau (les deux clubs assortis et les
différentes zones du réseau) et les fonctions biologiques partagées par les miARNs
(signalisation et transcription). Par ailleurs, nous avons également vu que la robustesse ne se limite pas à la construction des réseaux et aux liens entre les miARN mais s’étend également
à l’analyse d’ontologie puisque peu importe l’algorithme, les prédictions restent identiques.
Nous pouvons également noter qu’en ajoutant des fausses prédictions aux ensembles de
données, les résultats obtenus par les analyses d’ontologie restent plutôt stables.
174