Analyse qualité et filtration - Analyse du transcriptome de Buchnera aphidicola, la bactérie sy

L’analyse qualité et la filtration sont des étapes cruciales du processus d’analyse des données d’expression. Ce sont elles qui permettront l’obtention de données de qualité et augmenteront la puissance, la sensibilité et la spécificité des analyses statistiques. C’est aussi au cours de ces étapes que le choix de la méthode de normalisation sera effectuté. Nous avons réalisé un protocole détaillé décrivant les paramétrages du scanner et du logiciel GenePix, ainsi que la démarche générale et les commandes R nécessaires à la visualisation des nuages de points. Ce protocole sera prochainement disponible sur le site du PRABI. Dans ce chapitre, une brève analyse critique de ces différentes étapes et les figures correspondant à nos deux expériences YF et AAS seront proposées.

3.1. Détection du signal (lecture au scanner)

La première étape du processus consiste à mesurer la fluorescence des spots grâce à un scanner. Les problèmes de quenching des fluorochromes et de non linéarité du signal sont abordés par Ramdas et al. (2001) et Taylor et al. (2001).

Différentes options permettent d'améliorer la qualité et la reproductibilité du signal détecté. L'ajustement le plus couramment utilisé consiste à augmenter la puissance des photomultiplicateurs (PMT) jusqu'à obtenir une image à la limite de la saturation afin de conserver un maximum de linéarité entre le signal et l'abondance des transcrits. Smyth et al. (2002) prétendent que, contrairement à une idée souvent préconçue, il paraît plus important de se placer pour chaque lame à la saturation limite, plutôt que d’assurer des valeurs de PMT identiques pour toutes les lames. Notre expérience nous a conduit à suivre cette recommandation. Néanmoins, il sera toujours préférable de ne pas travailler avec des lames présentant de trop fortes disparités d’intensité de signal pour obtenir une variabilité acceptable. Pour tenter de remédier à ce problème, le logiciel Masliner (Dudley et al. 2002) a été développé ; il facilite l'analyse d'une expérimentation faite avec plusieurs images réalisées avec plusieurs valeurs de PMT. Masliner permet de corriger les problèmes de saturation et de non linéarité. Ce type de méthodes n’a pas été utilisé jusqu’à présent sur la plateforme du DTAMB.

3.2. Détection du signal spécifique et du bruit de fond (analyse de l’image)

La seconde étape consiste à déterminer l'intensité spécifique du spot par rapport à l'intensité du bruit de fond. Il s’agit ici d’un problème d’analyse d’image géré de façons différentes par les divers logiciels commerciaux à un niveau local dans l’environnement direct du spot (Smyth et Speed 2003). Cette étape se déroule en trois phases, la localisation du spot, la segmentation (définition des contours) et l’intégration de la fluorescence. Différentes méthodes de segmentation ont été développées, mais ces aspects ne seront pas détaillés ici. De bonnes revues sur ces problèmes ont été publiées par Yang et al. (2001b) et Kafadar et Phang (2003). Wu

et al. (2001) proposent une méthode d’estimation du bruit de fond basée sur un jeu

de spots témoins (tampon de dépôt) répartis sur toute la surface de la lame.

Du point de vue de l’expérimentateur, l’élimination du bruit de fond paraît toujours une étape nécessaire. Néanmoins, du point de vue de l’analyste, cette soustraction est souvent discutable et même néfaste. En effet, si l’estimation du bruit de fond est effectuée avec la même précision que celle du signal, la variabilité sur la mesure sera fortement augmentée par la soustraction, et les analyses statistiques perdront de la puissance. Cette soustraction n’a de sens que lorsque des biais systématiques importants sont présents sur les lames. Notre expérience nous conduit à conseiller de soustraire le bruit de fond seulement lorsque des voiles importants sont visibles sur les lames d’un jeu de données. La fonction « maImage » de la bibliothèque de fonctions R marray est très efficace pour visualiser de tels artéfacts (figure 14).

Un autre problème lié a la soustraction du bruit de fond est l’obtention de valeurs négatives lorsque le signal est très faible (gène faiblement exprimé), la fluorescence extérieure pouvant alors dépasser l’intensité spécifique du plot. La transformation logarithmique des données est alors impossible sans l’élimination de ces valeurs négatives ou nulles. Différentes méthodes ont été proposées pour résoudre ce problème. La plus simple est celle développée par Edwards (2003). Elle consiste à transformer les valeurs négatives par une fonction affine pour les ramener à une valeur comprise entre 0 et 1. La transformation d’Edwards permet de ne pas générer de données manquantes. Elle est facile à mettre en place, néanmoins la distribution des points transformés est très différente de celles des points non transformés. L’inclusion de ces valeurs dans les modèles statistiques peut biaiser fortement les analyses. Kooperberg et al. (2002) ont proposé une approche Bayesienne pour reconstituer la valeur des spots négatifs beaucoup plus performante car basée sur des hypothèses de distributions et intégrant la variabilité des pixels associée au signal spécifique ou au bruit de fond.

La figure 14 illustre deux cas extrêmes représentés par les expériences YF et AAS. Dans la première expérience le biais systématique lié au bruit de fond est très fort et nécessite une soustraction, dans la deuxième, il est faible et les données sont analysées sans soustraction.

3.3. Elimination des mauvais spots (filtration)

Les logiciels d'analyse d’image proposent différents critères pour évaluer la qualité des spots, comme la variance du signal ou du bruit de fond, l'aire (A) ou le diamètre (d) du spot. A partir de ces variables, on peut calculer des indices permettant une sélection plus efficace comme la circularité (A/d2) ou le coefficient de variation CV (écart-type / moyenne). D'un point de vue général, les « mauvais » spots sont caractérisés par une taille anormale (trop grosse ou trop petite), une mauvaise circularité, un fort CV dans le signal ou dans le bruit de fond, ou enfin, un faible rapport signal / bruit. Dès qu’une puce possède plus de 1000 spots, la détection des spots anormaux, pour être correcte, doit impérativement être automatisée en suivant des critères objectifs. Le logiciel GenePix propose différentes implémentations de procédures très intéressantes et faciles à réaliser (Fielden et al. 2002). La filtration des données avec le logiciel va consister à associer une valeur de qualité (un flag) à chacun des spots de chaque lame. GenePix propose différents niveaux de qualité : (-100) mauvais spot ; (-75) spot vide ; (-50) spot non détecté ; (0) spot non repéré et (100) bon spot. La détection du signal n’est pas un problème complètement résolu, Ekstrom et al. (2004) proposent une étude de différentes méthodes de transformation très intéressante.

Une littérature très abondante est disponible sur le sujet et beaucoup d'auteurs ont proposé des méthodes de filtration, empiriques pour certaines (Wu et al. 2001), statistiques pour d’autres ( T s e n g et al. 2001 ; Finkelstein et al. 2002a ; Jensen et al. 2002, Chen et al. 2002). Smyth et Speed (2003) proposent une revue très complète et détaillée de ces différents travaux. Nous avons effectué cette analyse qualité avec le logiciel GenePix selon la démarche suivante, comprenant sept étapes :

(1) détection manuelle des spots situés sous des rayures ou des taches ; (2) détection semi-automatique des spots de tailles anormales ; (3) détection automatique des spots saturés ;

(4) détection semi-automatique des spots montrant une mauvaise corrélation entre moyenne et médiane des pixels ;

(5) détection semi-automatique des spots montrant une forte variabilité du bruit de fond ;

(6) détection semi-automatique des spots montrant une forte variabilité du signal ;

(7) détection automatique des spots à fort rapport signal sur bruit.

Les six premières étapes visent à détecter les « mauvais » spots et la dernière sélectionne un jeu de « bons » spots. Le paramétrage du logiciel pour réaliser cette détection sera disponible prochainement sur le site du PRABI. La figure 14B illustre quelques-unes des figures anormales de plots classiquement rencontrées.

L’analyse qualité aboutit à l’association d’un indice qualité à chacun des spots des lames du jeu de données. Il reste à utiliser cette valeur d’indice dans la suite du processus d’analyse. Cet indexage de la qualité sera très utile pour la visualisation graphique des données permettant de décider de l’élimination d’une lame par exemple ou de prévoir la démarche de normalisation qui va suivre. Les bibliothèques de fonctions « marray » proposent un ensemble de représentations graphiques pertinentes présentées sur la figure 14. L’indexage de la qualité permet également de moyenner les répétitions techniques par niveau de qualité. A l’issue de cette analyse visuelle, nous suggérons de regrouper les index de qualité en deux groupes : les bons spots à conserver pour l’analyse (de –50 à 100), et les mauvais à rejeter (-100), les valeurs des spots vides (-75) ayant été éliminées physiquement. Les moyennes des répétitions techniques peuvent alors être envisagées en éliminant les mauvais spots. Si pour un gène, aucun spot de qualité n’est disponible, alors, la moyenne est calculée sur l’ensemble des mauvais spots et l’indice (-100) est associé à la valeur moyenne pour ne pas générer de trous dans le tableau de données. Des fonctions R ont été développées au laboratoire pour générer ces moyennes (Morin 2004).

Figure 14. Quelques graphes utiles pour l’analyse qualité. A : la fonction « maImage »

permet de représenter une variable sur la puce, ici le bruit de fond rouge sur une mauvaise lame à droite et sur une bonne à gauche. B : Différentes figures de spots, normaux (1), masqués par une tache ou une rayure (2, 5), saturé (3), grains dans le bruit de fond (4), taille anormalement faible (6). C : graphe R=f(G). D : graphe MA, log2(R/G)=f(1/2log2(RG)). E : graphe quantile – quantile. F : boîte à moustaches permettant la comparaison de la distribution des groupes de spots correspondant aux quatre aiguilles de dépôt d’une même lame.

Dans le document Analyse du transcriptome de Buchnera aphidicola, la bactérie symbiotique du puceron Acyrthosiphon pisum (Page 71-76)