Robustesse des ontologies face aux faux positifs et faux négatifs

Chapitre 2 : Analyse des clubs assortis

F. Robustesse des enrichissements

2. Robustesse des ontologies face aux faux positifs et faux négatifs

Du fait de la spécificité et de la sensibilité imparfaites des algorithmes de prédictions

de cibles des miARN, une dernière question concernant nos prédictions réside dans leur robustesse face aux « fausses » prédictions ; c’est-à-dire face aux faux positifs et aux faux

négatifs. Nous avons donc étudié cette dernière pour le club assorti 2 en faisant varier

aléatoirement les prédictions de façon indépendante et à quatre niveaux différents pour Figure 61. Corrélation entre les p-valeurs corrigées des annotations avec TargetScan contre celles de DIANA-microT. A | Club assorti 1. B | Club assorti 2.

168

chaque catégorie : 5%, 10%, 20% et 30%. Par exemple, pour étudier l’effet qu’aurait 5%

supplémentaire de faux positifs sur les prédictions, nous avons ajouté 5% de cibles (choisi au hasard parmi l’ensemble des gènes connus et non déjà prédits pour le(s) miARN(s) en

question) puis recalculé les enrichissements. Pour les faux négatifs, nous avons retiré un certain pourcentage de gènes prédits pour être réguler par les miARN. En répétant l’opération

un grand nombre de fois, on obtient un histogramme.

La Figure 62 montre cette étude principalement pour les dix meilleures annotations du club assorti 2. Sur le panel A, nous pouvons observer l’évolution de la p-valeur pour le meilleur

terme du club assorti 2 (Tableau 9) face au retrait de gènes au hasard dans l’ensemble de

gènes partagés par les trois miARN. Cette dernière reste assez stable jusqu’à 20% de faux

négatifs où une baisse assez significative peut alors être observée (trois ordres de grandeur).

Concernant le taux de faux positifs, le schéma reste globalement le même avec des effets plus

marqués à partir de 20% (Figure 62 B). Comme les p-valeurs dépendent également du nombre

de gènes cibles, il est également intéressant de considérer les rangs dans les annotations plutôt que leur significativité. Les panels C et D montre l’évolution du rang des cinq meilleures

annotations pour le club assorti 2 sous les effets des taux de faux négatifs (C) et de faux

positifs (D). En général, les différentes annotations gardent des rangs sensiblement identiques jusqu’environ 20%, niveau à partir duquel une grande variabilité commence à apparaitre. C’est

également le cas pour les cinq meilleures annotations suivantes (6 à 10) visualisables sur les

panels E et F. Nous pouvons toutefois constater que même à 30%, les dix meilleures

annotations sont tout de même souvent retrouvées parmi les vingt meilleures annotations. En

revanche, les cinq meilleures annotations ont plutôt tendance à se retrouver plus haut dans la

169

Ces résultats indiquent donc une certaine robustesse des analyses d’ontologie face Figure 62. Robustesse des ontologies face aux fausses prédictions. A | p-valeurs du terme le plus enrichi pour le club assorti 2 après retrait de 5, 10, 20 et 30% de cibles (faux négatifs). B | p-valeurs du terme le plus enrichi pour le club assorti 2 après ajout de 5, 10, 20 et 30% de cibles (faux positifs). Barre rouge : p-valeur sans changement | Rang des cinq meilleures annotations pour le club assorti 2 et suivi de ces rang en fonction des faux négatifs. D | Rang des cinq meilleures annotations pour le club assorti 2 et suivi de ces rangs en fonction des faux positifs. E | Suite des meilleures annotations (6 à 10) pour le club assorti 2 et suivi de ces rangs en fonction des faux négatifs. F | Suite des meilleures annotations (6 à 10) pour le club assorti 2 et suivi de ces rang en fonction des faux positifs. 250 changements aléatoires pour chaque point d’étude. Sur C, D, E et F sont représentés la moyenne des 250 permutations et la déviation standard.

170

aux prédictions des cibles. De façon très intéressante, il semble assez rare d’augmenter

artificiellement la p-valeurs même lorsque beaucoup de gènes sont rajoutés dans les tests

(30% de faux positifs typiquement). Les enrichissements que nous observons pour le club

assorti 2 sont donc probablement réellement dus aux gènes annotés pour les fonctions

biologiques et non pas simplement un effet du nombre de gènes testés.

G. Conclusions et discussion

Nous avons pu mettre en évidence deux clubs assortis et prédire leur(s) implication(s) biologique(s) ainsi que leur rôle d’influence sur les miARN les entourant. Cette analyse globale

permet notamment de donner une information sur les fonctions biologiques les plus

probablement corégulées par les clubs assortis et également les autres miARN du réseau. En revanche, l’analyse ne peut pas donner en soi d’informations sur les fonctions très spécifiques

de chacun des miARN. Nos prédictions s’arrêtent donc forcément à une vision systémique de

la régulation par les miARN. Nous voyons ainsi qu’il existe trois grandes communautés de

miARN : ceux plutôt impliqués dans la régulation de la signalisation, ceux impliqués dans la régulation transcriptionelle et ceux entre les deux ne montrant pas d’enrichissement particulier.

Par ailleurs nous avons pu tester expérimentalement certaines de nos prédictions sur un des

deux clubs.

Peu d’informations étaient disponibles au moment de l’écriture du premier manuscrit

pour le deuxième club, composé de miR-612, -661 et -940,. L’analyse GO nous a permis de

prédire une implication des trois miARN dans la transduction des signaux par les petites GTPases. Cette hypothèse impliquait une possibilité pour les trois miARN d’influencer le

cytosquelette et la motilité cellulaire. Après validation fonctionnelle in vitro, nous avons pu

confirmer ces différentes hypothèses en montrant que les miARN agissent sur le cytosquelette

au travers de la phosphorylation de MLCII, un élément clé dans le contrôle du cytosquelette.

De façon plus étonnante, la surexpression ectopiques des miARN montrait des phénotypes

171

spatiale de la phosphorylation contrairement aux miR-612 et miR-940 qui baissait les niveaux

de phosphorylation sans influencer fortement leur distribution. Ce phénomène antagoniste a également pu être confirmé par des expériences d’invasion permettant donc de confirmer

l’implication du club assorti 2 dans la voie de signalisation des petites GTPases, la régulation

du cytosquelette d’actine, la motilité cellulaire ainsi que l’invasion. Les mécanismes

moléculaires impliqués dans ces comportements antagonistes devraient être plus finement

caractérisés dans le futur.

En corrélation avec nos résultats, Tao et collaborateurs ont montré que miR-612 avait

un effet inhibiteur dans les carcinomes hépatiques autant sur la prolifération, la migration, l’invasion et la métastase. De plus, le miARN semble avoir un effet sur les étapes initiales et

finales de la cascade métastatique en réprimant des invasions locales et les colonisations

distales (Tao et al., 2013). De façon similaire, miR-661 a été montré comme impliqué dans l’invasion des cellules cancéreuses mammaires en ciblant spécifiquement les gènes Nectin-1

et StarD10 (Vetter et al., 2010). Au moment des premières expériences sur le club assorti, aucune information n’était reportée pour miR-940. Depuis, plusieurs auteurs ont pu montrer

pour miR-940 des rôles similaires à ceux que nous avons montrés. Par exemple, Rajendiran et collaborateurs ont prouvé que miR-940 est capable de supprimer la migration et l’invasion

des cellules cancéreuses de prostates en contrôlant l’expression de MIEN1 (Rajendiran et al.,

2014). Le miARN est par ailleurs surexprimé dans les tissus normaux et sous-exprimé dans

les tissus tumoraux, plaçant donc miR-940 comme un outil potentiel de diagnostic et de

pronostic pour le cancer de la prostate. De la même manière, Ma et collaborateur ont mis en

évidence des résultats similaires pour le carcinome nasopharyngé (Ma et al., 2014). MiR-940

semble par ailleurs également impliqué dans les adénocarcinomes pancréatiques (Song et al.,

2015) et hépatiques (Yuan et al., 2015) toujours selon le même schéma, c’est à dire en

réprimant la progression tumorale. Nous restons cependant les premiers à avoir montré un

172

Concernant l’expression des membres des clubs assortis, nous pouvons constater que

les miARN ne sont, en règle générale, pas coexprimés – il semblerait d’ailleurs que pour la

plupart des tissus, seul un membre des deux clubs soit fortement exprimé à la fois (Figure 63).

MiR-940 semble particulièrement exprimé dans les épithéliums glandulaires alors que

miR-495, quant à lui, est plutôt exprimé dans différentes régions du cerveau. Enfin, dans les tissus rectaux, c’est miR-612 qui semble prendre le relai. En revanche, et contrairement aux

résultats sur l’ensemble des miARN, la classification tissus glandulaire/autres tissus semble

moins présente avec ces onze miARN uniquement.

Les clubs assortis définissent deux sphères séparées par une zone intermédiaire

représentant les trois types de miARN déjà évoqués. Une grande corrélation existant entre les

enrichissements des clubs assortis et leur sphère respective, nous avons donc nommé les Figure 63. Expression des membres des clubs assortis dans différents tissus (cf.

page 100). Seuls les miARN dont l’expression était retrouvée sur l’ensemble des tissus

analysés sont présentés. Soit 8 miARN sur les 11 formant les clubs assortis. En bleu sont représentés les membres du club assorti 1 et en rouge, ceux du club assorti 2.

173

deux sphères « zone d’influence des clubs assortis ». Une idée importante derrière toutes ces

analyses est la notion d’exploration globale se basant sur les gènes partagés. En effet, bien

que les deux sphères soient impliquées l’une et l’autre dans différentes fonctions cellulaires –

prédites à partir des gènes partagés, certains miARN des zones pourraient tout de même ne pas avoir d’implication dans ces fonctions. Il existe en fait simplement une plus grande

probabilité que ces miARN soient impliqués dans ces processus. En gardant donc à l’esprit

que notre analyse se limite à des aspects globaux de la régulation biologique par les miARN,

nous pouvons noter un certain lien entre la forme du réseau (les deux clubs assortis et les

différentes zones du réseau) et les fonctions biologiques partagées par les miARNs

(signalisation et transcription). Par ailleurs, nous avons également vu que la robustesse ne se limite pas à la construction des réseaux et aux liens entre les miARN mais s’étend également

à l’analyse d’ontologie puisque peu importe l’algorithme, les prédictions restent identiques.

Nous pouvons également noter qu’en ajoutant des fausses prédictions aux ensembles de

données, les résultats obtenus par les analyses d’ontologie restent plutôt stables.

174

Chapitre 3 :

Dans le document Une approche réseau pour l’inférence du rôle des microARN dans la corégulation des processus biologiques (Page 180-187)