Analyse des données - Cribles ARNi - Une approche réseau pour l’inférence du rôle des microARN

H. Cribles ARNi

2. Analyse des données

Brièvement, l’analyse de cribles ARNi (ou chimique) passe principalement par quatre

étapes (Boutros and Ahringer, 2008) :

 Lecture et analyse des données brutes (recherche d’outliers, seuillage, etc.)

 Analyse de qualité (Z’ factor, étude des contrôles, etc.)

110

 Sélection de hits

L’analyse des données consiste à détecter – et corriger le cas échéant – différents biais

pouvant influencer les analyses. Ces biais peuvent être de nature aléatoire ou systématique

(Caraus et al., 2015). Les biais aléatoires sont des biais liés aux différences intrinsèques qui existent d’une expérience à l’autre (p.ex. des données aberrantes locales à un ou quelques

puits). Ces derniers sont essentiellement corrigés par la mise en place de répliques techniques

et biologiques. Les effets spatiaux, quant à eux, sont des biais systématiques (mais pas les

seuls). Ce sont essentiellement des problèmes techniques et environnementaux pouvant

significativement influencer le nombre de faux positifs lors de la sélection de hits. Un exemple

de biais systématiques serait un séchage non uniforme entrainant une augmentation du

nombre de hits en bord de plaque (« border effect ») ou encore une erreur robotique entrainant

des « patterns » remarquables (ligne à ligne ou colonne à colonne). Il existe différentes

méthodes pour circonvenir à ces problèmes (correction lowess, Bscore, SPAWN, etc.) mais que nous n’aborderons pas dans ce manuscrit. L’objectif de ces méthodes est de transformer

les données de telle sorte que les effets spatiaux soient corrigés.

L’étude de la qualité des plaques forme un prérequis à la poursuite de l’étude du crible

puisqu’elle définit l’exploitabilité des données. Le Z’ factor (Zhang et al., 1999) est une mesure

simple de la qualité des plaques qui se base sur les contrôles internes aux plaques (à ne pas

confondre avec le Zscore) :

𝑍′_{𝑓𝑎𝑐𝑡𝑜𝑟 = 1 −}3(𝜎𝑝+ 𝜎𝑛) |µ𝑝− µ𝑛|

où 𝜎𝑝 et µ𝑝 représentent respectivement l’écart type et la moyenne associée à un contrôle

positif (ayant un effet marqué, p.ex. un siARN dirigé vers Oct4-GFP dans notre cas) et 𝜎𝑛 et

µ𝑛, ces mêmes mesures associées à un contrôle négatif (sans effet attendu). Pour les cribles chimiques, un Z’ factor de 1 équivaut à un crible parfait où la démarcation entre les contrôles

111

comme peu exploitable. Entre 1 et 0.5, le crible est très bon et peut être analysé sans problème (Figure 29). A cause de l’absence de très bons contrôles négatifs et positifs pour les cribles

ARN interférence, ces chiffres ne sont pas parfaitement adaptés à ce type d’études. Il n’est donc pas rare de voir des cribles ARN interférence avec des Z’ factor inférieur à 0,5 sans pour

autant être non-exploitables.

Dans le cas de données cellule-à-cellule, le Z’factor peut être calculé sur les données

brutes ou sur les données agrégées (par champs, puits, conditions ou des combinaisons de

ces trois dernières). Les données brutes montrant généralement beaucoup de variabilité, il est souvent plus intéressant d’agréger les données dans un premier temps (par champs, puis par

puits) pour calculer le score. C’est la solution qui a été choisie dans cette analyse. Pour

agréger les données cellules-à-cellules, une première médiane a été calculée pour chaque champ de vue sur l’intensité de GFP. Ces médianes ont ensuite été utilisées pour calculer une

médiane de l’intensité de GFP par puits (Figure 30).

Après l’étape de vérification des données, vient la normalisation et le scoring. La

méthode de normalisation Zscore (ou score standard) est probablement la méthode la plus

utilisée pour le criblage haut-débit :

𝑍𝑠𝑐𝑜𝑟𝑒𝑖 =𝑥𝑖− µ𝑛 𝜎𝑛

Figure 29. Illustration de la variation et la séparation des données pour les contrôles (positif « p » et négatif

« n ». Un Z’factor élevé indique une forte séparation (grande bande de séparation) entre les deux distributions. A

0 (ou moins), il n’y a aucune bande de séparation et les deux distributions se chevauchent. D’après (Zhang et al., 1999)

Matériels et méthodes

112

où 𝑖 représente une condition ; 𝑥, la valeur associée à cette condition et 𝜎𝑛 et µ𝑛 représentent

respectivement la déviation standard et la moyenne des contrôles négatifs (ou de la plaque

entière). Une variation plus robuste de ce score repose sur l’utilisation de la médiane et la déviation absolue de la médiane (Median Absolute Deviation – MAD) en lieu et place de la

moyenne et de la déviation standard – on parle dans ce cas de Zscore robuste.

Cette méthode de normalisation fait également office de méthode de scoring puisqu’elle possède les mêmes caractéristiques que les distributions normales centrées

réduites : le Zscore (classique) représente la déviation des valeurs associées aux conditions étudiées par rapport à une moyenne. Un Zscore supérieur à 3 (déviation supérieure à 3σ par

rapport au centre de la distribution) représente environ 0.1% des observations (soit une probabilité d’être observé au hasard de 0.0027) : une observation déviant assez de la

moyenne pour être significativement considérée comme un hit. La distribution, supposée Cellules Puits Champs Traitements GFP

Cellule1 PuitsA Champ1 siARN1 150

Cellule2 PuitsA Champ1 siARN1 120

Cellule3 PuitsA Champ1 siARN1 124

Cellule4 PuitsA Champ2 siARN1 160

Cellule5 PuitsA Champ2 siARN1 167 Agrégat par champs

Cellule6 PuitsA Champ2 siARN1 154

Cellule7 PuitsA Champ2 siARN1 128 Champs Puits Trts GFP Agrégat par Puits

Cellule8 PuitsA Champ3 siARN1 103 Champ1 PuitsA siARN1 124

Cellule9 PuitsA Champ3 siARN1 189 Champ2 PuitsA siARN1 157 Puits Trts GFP

Cellule10 PuitsA Champ3 siARN1 150 Champ3 PuitsA siARN1 150 PuitsA siARN1 150

Cellule11 PuitsB Champ1 siARN2 70 Champ1 PuitsB siARN2 70 PuitsB siARN2 76

Cellule12 PuitsB Champ1 siARN2 75 Champ2 PuitsB siARN2 85.5

Cellule13 PuitsB Champ1 siARN2 62 Champ3 PuitsB siARN2 76

Cellule14 PuitsB Champ2 siARN2 54

Cellule15 PuitsB Champ2 siARN2 79

Cellule16 PuitsB Champ2 siARN2 92

Cellule17 PuitsB Champ2 siARN2 160

Cellule18 PuitsB Champ3 siARN2 95

Cellule19 PuitsB Champ3 siARN2 76

Cellule20 PuitsB Champ3 siARN2 72

Figure 30. Exemple d’agrégation des données par champs puis par puits. A chaque étape, l’intensité de GFP est agrégée en calculant une médiane.

113

Gaussienne (sous l’hypothèse nulle) étant symétrique, un score inférieur à -3 représente aussi

0.1% des observation et correspond à une baisse de la fluorescence. Dans notre cas, un

Zscore négatif équivaut à une baisse de fluorescence de la GFP. Sachant que les LNA inhibent

les miARN, nous pouvons dire que le miARN visé est impliqué dans la différenciation. A l’inverse, un Zscore positif montre une augmentation de fluorescence et ainsi une implication

des miARNs dans la maintenance de la totipotence. Tout comme le Z’factor, le Zscore a

préférablement été calculé sur les données agrégées (par champs puis par puits).

De la même manière qu’avec les logFC, ces scores ont été appliqués sur le réseau

afin de découvrir des communautés potentiellement enrichies en hit, en suivant les mêmes étapes qu’exposées précédemment et notamment l’approche par randomisation. Dans ce cas

en revanche, c’est la valeur absolue des scores qui a été étudiée pour prendre en compte tous

114

Chapitre 1 :

Dans le document Une approche réseau pour l’inférence du rôle des microARN dans la corégulation des processus biologiques (Page 122-127)