H. Cribles ARNi
2. Analyse des données
Brièvement, l’analyse de cribles ARNi (ou chimique) passe principalement par quatre
étapes (Boutros and Ahringer, 2008) :
Lecture et analyse des données brutes (recherche d’outliers, seuillage, etc.)
Analyse de qualité (Z’ factor, étude des contrôles, etc.)
110
Sélection de hits
L’analyse des données consiste à détecter – et corriger le cas échéant – différents biais
pouvant influencer les analyses. Ces biais peuvent être de nature aléatoire ou systématique
(Caraus et al., 2015). Les biais aléatoires sont des biais liés aux différences intrinsèques qui existent d’une expérience à l’autre (p.ex. des données aberrantes locales à un ou quelques
puits). Ces derniers sont essentiellement corrigés par la mise en place de répliques techniques
et biologiques. Les effets spatiaux, quant à eux, sont des biais systématiques (mais pas les
seuls). Ce sont essentiellement des problèmes techniques et environnementaux pouvant
significativement influencer le nombre de faux positifs lors de la sélection de hits. Un exemple
de biais systématiques serait un séchage non uniforme entrainant une augmentation du
nombre de hits en bord de plaque (« border effect ») ou encore une erreur robotique entrainant
des « patterns » remarquables (ligne à ligne ou colonne à colonne). Il existe différentes
méthodes pour circonvenir à ces problèmes (correction lowess, Bscore, SPAWN, etc.) mais que nous n’aborderons pas dans ce manuscrit. L’objectif de ces méthodes est de transformer
les données de telle sorte que les effets spatiaux soient corrigés.
L’étude de la qualité des plaques forme un prérequis à la poursuite de l’étude du crible
puisqu’elle définit l’exploitabilité des données. Le Z’ factor (Zhang et al., 1999) est une mesure
simple de la qualité des plaques qui se base sur les contrôles internes aux plaques (à ne pas
confondre avec le Zscore) :
𝑍′𝑓𝑎𝑐𝑡𝑜𝑟 = 1 −3(𝜎𝑝+ 𝜎𝑛) |µ𝑝− µ𝑛|
où 𝜎𝑝 et µ𝑝 représentent respectivement l’écart type et la moyenne associée à un contrôle
positif (ayant un effet marqué, p.ex. un siARN dirigé vers Oct4-GFP dans notre cas) et 𝜎𝑛 et
µ𝑛, ces mêmes mesures associées à un contrôle négatif (sans effet attendu). Pour les cribles chimiques, un Z’ factor de 1 équivaut à un crible parfait où la démarcation entre les contrôles
111
comme peu exploitable. Entre 1 et 0.5, le crible est très bon et peut être analysé sans problème (Figure 29). A cause de l’absence de très bons contrôles négatifs et positifs pour les cribles
ARN interférence, ces chiffres ne sont pas parfaitement adaptés à ce type d’études. Il n’est donc pas rare de voir des cribles ARN interférence avec des Z’ factor inférieur à 0,5 sans pour
autant être non-exploitables.
Dans le cas de données cellule-à-cellule, le Z’factor peut être calculé sur les données
brutes ou sur les données agrégées (par champs, puits, conditions ou des combinaisons de
ces trois dernières). Les données brutes montrant généralement beaucoup de variabilité, il est souvent plus intéressant d’agréger les données dans un premier temps (par champs, puis par
puits) pour calculer le score. C’est la solution qui a été choisie dans cette analyse. Pour
agréger les données cellules-à-cellules, une première médiane a été calculée pour chaque champ de vue sur l’intensité de GFP. Ces médianes ont ensuite été utilisées pour calculer une
médiane de l’intensité de GFP par puits (Figure 30).
Après l’étape de vérification des données, vient la normalisation et le scoring. La
méthode de normalisation Zscore (ou score standard) est probablement la méthode la plus
utilisée pour le criblage haut-débit :
𝑍𝑠𝑐𝑜𝑟𝑒𝑖 =𝑥𝑖− µ𝑛 𝜎𝑛
Figure 29. Illustration de la variation et la séparation des données pour les contrôles (positif « p » et négatif
« n ». Un Z’factor élevé indique une forte séparation (grande bande de séparation) entre les deux distributions. A
0 (ou moins), il n’y a aucune bande de séparation et les deux distributions se chevauchent. D’après (Zhang et al., 1999)
Matériels et méthodes
112
où 𝑖 représente une condition ; 𝑥, la valeur associée à cette condition et 𝜎𝑛 et µ𝑛 représentent
respectivement la déviation standard et la moyenne des contrôles négatifs (ou de la plaque
entière). Une variation plus robuste de ce score repose sur l’utilisation de la médiane et la déviation absolue de la médiane (Median Absolute Deviation – MAD) en lieu et place de la
moyenne et de la déviation standard – on parle dans ce cas de Zscore robuste.
Cette méthode de normalisation fait également office de méthode de scoring puisqu’elle possède les mêmes caractéristiques que les distributions normales centrées
réduites : le Zscore (classique) représente la déviation des valeurs associées aux conditions étudiées par rapport à une moyenne. Un Zscore supérieur à 3 (déviation supérieure à 3σ par
rapport au centre de la distribution) représente environ 0.1% des observations (soit une probabilité d’être observé au hasard de 0.0027) : une observation déviant assez de la
moyenne pour être significativement considérée comme un hit. La distribution, supposée Cellules Puits Champs Traitements GFP
Cellule1 PuitsA Champ1 siARN1 150
Cellule2 PuitsA Champ1 siARN1 120
Cellule3 PuitsA Champ1 siARN1 124
Cellule4 PuitsA Champ2 siARN1 160
Cellule5 PuitsA Champ2 siARN1 167 Agrégat par champs
Cellule6 PuitsA Champ2 siARN1 154
Cellule7 PuitsA Champ2 siARN1 128 Champs Puits Trts GFP Agrégat par Puits
Cellule8 PuitsA Champ3 siARN1 103 Champ1 PuitsA siARN1 124
Cellule9 PuitsA Champ3 siARN1 189 Champ2 PuitsA siARN1 157 Puits Trts GFP
Cellule10 PuitsA Champ3 siARN1 150 Champ3 PuitsA siARN1 150 PuitsA siARN1 150
Cellule11 PuitsB Champ1 siARN2 70 Champ1 PuitsB siARN2 70 PuitsB siARN2 76
Cellule12 PuitsB Champ1 siARN2 75 Champ2 PuitsB siARN2 85.5
Cellule13 PuitsB Champ1 siARN2 62 Champ3 PuitsB siARN2 76
Cellule14 PuitsB Champ2 siARN2 54
Cellule15 PuitsB Champ2 siARN2 79
Cellule16 PuitsB Champ2 siARN2 92
Cellule17 PuitsB Champ2 siARN2 160
Cellule18 PuitsB Champ3 siARN2 95
Cellule19 PuitsB Champ3 siARN2 76
Cellule20 PuitsB Champ3 siARN2 72
Figure 30. Exemple d’agrégation des données par champs puis par puits. A chaque étape, l’intensité de GFP est agrégée en calculant une médiane.
113
Gaussienne (sous l’hypothèse nulle) étant symétrique, un score inférieur à -3 représente aussi
0.1% des observation et correspond à une baisse de la fluorescence. Dans notre cas, un
Zscore négatif équivaut à une baisse de fluorescence de la GFP. Sachant que les LNA inhibent
les miARN, nous pouvons dire que le miARN visé est impliqué dans la différenciation. A l’inverse, un Zscore positif montre une augmentation de fluorescence et ainsi une implication
des miARNs dans la maintenance de la totipotence. Tout comme le Z’factor, le Zscore a
préférablement été calculé sur les données agrégées (par champs puis par puits).
De la même manière qu’avec les logFC, ces scores ont été appliqués sur le réseau
afin de découvrir des communautés potentiellement enrichies en hit, en suivant les mêmes étapes qu’exposées précédemment et notamment l’approche par randomisation. Dans ce cas
en revanche, c’est la valeur absolue des scores qui a été étudiée pour prendre en compte tous
114