• Aucun résultat trouvé

Chapitre 3 : Méthodologie robuste de sélection de gènes, MetRob

3.2 Perturbation des données

3.2.3 Test de différentes perturbations

3.2.3.1 Perturbation 1 : perturber directement le log ratio

La première perturbation testée repose sur l’observation de la distribution du bruit sur le log ratio dans l’étude de variabilité technique (Figure 3.4). Cette distribution n’est pas normale mais pourrait ressembler à une loi normale au carré signée. Les données ont donc été perturbées en ajoutant une variable aléatoire 2

U Signe(U)

V= × , où U suit une loi normale centrée en zéro. L’écart type de U a été calculé à partir des données de l’étude de variabilité :

18 . 0 3 σ σ EtudeVar

U = = , avec σEtudeVar l’écart type du bruit observé sur les données de variabilité technique (voir le calcul de la formule en Annexe D).

La distribution de bruit obtenue est représentée sur la Figure 3.9. Elle ressemble effectivement à celle observée pour le bruit technique réel avec un étalement cependant moins large. Un test de Kolmogorov-Smirnov conclut que l’hypothèse nulle de même distribution initiale pour le bruit réel et le bruit obtenu avec la perturbation 1 est rejetée avec une p-value inférieure à 2.2×10-16 (voir Annexe D pour le détail du test de Kolmogorov-Smirnov). Cette perturbation n’est donc pas adaptée à notre problématique. De plus, perturber directement le log ratio sans tenir compte des valeurs des intensités occulte les bruits sur le log ratio importants observés pour les faibles intensités. Les perturbations testées par la suite prennent donc en compte les valeurs d’intensité.

FIG. 3.9 : Histogramme du bruit sur le log ratio pour la perturbation 1 Les barres sont de largeur 0.01.

3.2.3.2 Perturbation 2 : perturber les intensités sans lien entre intensité Cy3

et intensité Cy5

Dans un premier temps, les intensités ont été perturbées de manière indépendante. Un nouveau log ratio était en suite calculé. Cette étape a été réalisée à partir de l’observation du bruit sur l’intensité en fonction de l’intensité (Figure 3.7.a). Chaque intensité (Cy3 et Cy5) a

été perturbée par l’ajout d’une variable aléatoire de moyenne nulle et d’écart type 0.124×I, où I est la valeur de l’intensité considérée. Cet écart type a été estimé à partir de la relation entre écart type de l’intensité sur les réplicats techniques et moyenne de l’intensité grâce à une droite de régression (Figure 3.10). Trois lois ont été testées pour cette variable aléatoire : loi uniforme sur l’intervalle [− 3×0.124×I, 3×0.24×I] (type de perturbation proposé par Sayyed-Ahmad), loi normale d’écart type 0.124×I et loi normale au carré signée d’écart type

3 I 0.124×

.

FIG. 3.10 : Écart type de l’intensité sur les différents réplicats techniques en fonction de la moyenne de l’intensité sur ces mêmes réplicats

La droite représentée en rouge est la droite de régression.

Les résultats présentés ici sont ceux de la loi ayant reproduit le mieux la relation entre intensité et bruit sur l’intensité, c’est-à-dire la loi normale (Figure 3.11.a). Cependant, le bruit final obtenu sur le log ratio a une distribution trop large qui n’est pas du tout cohérente avec la réalité (Figure 3.11.b). Par la suite, le lien entre les bruits sur les deux intensités a donc été pris en compte.

b

a

FIG. 3.11 : Résultats obtenus avec la perturbation 2

(a) : Bruit sur l’intensité en fonction de l’intensité. (b) : Histogramme du bruit sur le log ratio. Les barres sont de largeur 0.01.

3.2.3.3 Perturbation 3 : perturber les intensités avec lien entre intensité Cy3

et intensité Cy5

Pour la perturbation 3, les bruits ont été choisis afin d’essayer de reproduire le lien entre bruit sur l’intensité Cy3 et bruit sur l’intensité Cy5 tout en respectant ce qui a déjà été observé dans la perturbation précédente. On observe sur la Figure 3.7.b que les bruits sur les deux intensités semblent liés par une relation linéaire à une variable aléatoire près, que l’on note V, dont l’écart type est plus important pour les bruits élevés. Il a donc été décidé de choisir un bruit moyen BM à partir de la moyenne des intensités Cy3 et Cy5 comme expliqué pour la perturbation 2 (loi normale d’écart type 0.124×I), puis d’obtenir les bruits sur les intensités Cy3 (verte) et Cy5 (rouge) de la manière suivante :

2 V BM BIV= − et 2 V BM BIR = + . V reste à déterminer.

Afin d’étudier plus précisément les propriétés de la différence entre les bruits sur les deux intensités, cette différence a été représentée en fonction de l’intensité moyenne (Figure 3.12.a). On observe une allure assez similaire à la Figure 3.7.a mais en plus condensé, avec un écart type croissant avec l’intensité. La variable aléatoire V a dont été définie comme suivant une loi normale au carré signée, centrée en zéro et d’écart type dépendant de la moyenne des intensités. D’après la représentation de cet écart type en fonction de l’intensité moyenne

(Figure 3.12.b), il est difficile de trouver une relation exacte. Néanmoins, le problème a été simplifié en approchant la relation entre écart type de V et moyenne des intensités par une droite d’équation : y =0.071×x. V suit donc une loi normale au carré signée centrée en zéro et d’écart type 3 I 0.071× .

b

a

FIG. 3.12 : Étude de la différence entre bruit sur l’intensité Cy5 et bruit sur l’intensité Cy3 (a) : Différence entre les bruits sur les intensités Cy5 et Cy3 en fonction de la moyenne des intensités

Cy5 et Cy3. (b) : Écart type de la différence entre les bruits sur les intensités Cy5 et Cy3 en fonction de la moyenne des intensités Cy5 et Cy3.

Après application de cette perturbation, le graphe de la différence entre les bruits des intensités Cy5 et Cy3 en fonction de la moyenne des intensités n’est pas tout à fait équivalent à celui obtenu sur données réelles (Figure 3.13.a). Cette observation n’est pas étonnante au vu des approximations qui ont été faites. La distribution du bruit sur le log ratio obtenue au final est par contre assez proche de l’originale, mais toujours pas suffisamment (Figure 3.13.b). En effet, un test de Kolmogorov-Smirnov rejette l’hypothèse de même distribution initiale pour le bruit réel et le bruit de la perturbation 3 avec une p-value inférieure à 2.2×10-16.

b

a

FIG. 3.13 : Résultats obtenus avec la perturbation 3

(a) : Différence entre les bruits sur les intensités Cy5 et Cy3 en fonction de la moyenne des intensités Cy5 et Cy3. (b) : Histogramme du bruit sur le log ratio. Les barres sont de largeur 0.01.

3.2.3.4 Perturbation 4 : perturber le log ratio en fonction des intensités

La difficulté de reproduire le bruit technique à partir de lois de probabilités a conduit à s’interroger sur la possibilité d’une perturbation empirique des données prenant en compte les observations déjà effectuées. On souhaite à la base perturber le log ratio. Cependant, les résultats précédents ont plutôt suggéré une influence de la valeur des intensités sur le bruit. Il a donc été décidé de s’inspirer du graphe de la Figure 3.8.a, sur lequel on observe une variation de l’étalement du bruit sur le log ratio en fonction de la moyenne des intensités Cy5 et Cy3.

Le principe utilisé est donc le suivant. Pour une séquence dont on cherche à perturber le log ratio, un bruit est tiré au hasard parmi les bruits réels trouvés pendant l’étude de variabilité technique. Cependant, ce bruit n’est pas tiré parmi tous les bruits réels, mais parmi ceux qui correspondent sur la Figure 3.8.a à un intervalle d’intensité contenant la moyenne des intensités Cy5 et Cy3 de la séquence considérée. Ce bruit est ensuite ajouté à la valeur initiale du log ratio.

b

a

FIG. 3.14 : Histogramme des intensités moyennes

(a) : Toutes les valeurs d’intensité. (b) : La moitié supérieure des valeurs d’intensité supérieures. Les barres sont de largeur 100.

En pratique, tous les bruits de tous les réplicats techniques obtenus lors de l’étude de variabilité technique ont été regroupés et ordonnés en fonction de la moyenne des intensités leur correspondant (moyenne sur les réplicats techniques et moyenne sur les intensités Cy3 et Cy5). Comme le nombre de valeurs disponibles décroît exponentiellement avec l’intensité (Figure 3.14a et Figure 3.14b), les intervalles d’intensité ont été définis de la manière suivante. Ils sont de longueurs croissantes valant la suite des puissances de 10 (L dans {1,10,100,...,100000}) avec une exception pour le premier intervalle qui contient également les intensités très faibles ne disposant pas de données de bruit dans l’étude de variabilité technique. La longueur de l’intervalle est augmentée quand il n’y a pas au moins 18 points dans un intervalle. Ce nombre correspond à un minimum de trois séquences avec six réplicats techniques par intervalle.

Une telle perturbation permet effectivement de retrouver l’allure du graphe du bruit sur le log ratio en fonction de la moyenne des intensités Cy3 et Cy5 (Figure 3.15.a), mais également d’obtenir une excellente distribution du bruit sur le log ratio (Figure 3.15.b). Un test de Kolmogorov-Smirnov fournit une p-value non significative de 0.43. L’hypothèse nulle de provenance d’une même distribution pour les données de bruit réelles et les données de bruit de la perturbation 4 n’est donc pas rejetée.

b

a

FIG. 3.15 : Résultats obtenus avec la perturbation 4

(a) : Bruit sur le log ratio en fonction de la moyenne des intensités Cy3 et Cy5. (b) : Histogramme du bruit sur le log ratio. Les barres sont de largeur 0.01.