• Aucun résultat trouvé

2 Contrôles qualité et validation des données transcriptomiques

AlyA4 (Zg4130),AlyA6 (Zg4132) and other PL6

B. Algues brunes

III- 2 Contrôles qualité et validation des données transcriptomiques

III-2-a Contrôles des échantillons biologiques

Les ARNs totaux extraits de Z. galactanivorans ont été analysés au spectrophotomètre afin de vérifier qu'ils remplissaient les critères définis par Nimblegen, à savoir : une concentration supérieure à 1 µg.µL-1, un rapport A260/A280 supérieur à 1,8 (dénotant une faible contamination par des protéines) et un rapport A260/A230 supérieur à 1,8 (dénotant l'absence de contamination par des sels ou des solvants). Après les étapes de transcription inverse et de synthèse du deuxième brin, les ADNc des 24 échantillons biologiques (8 conditions en triplicat) répondaient bien aux critères de concentration et de pureté définis par Nimblegen (C ≥ 100 ng.µL-1

; A260/A280 ≥ 1,8; A260/A230 ≥ 1,8). Les profils des ADNc ont également été analysés (Figure 5-5).

On constate que la plupart des échantillons ont un profil similaire. Cependant, les échantillons provenant de cultures en lambda-carraghénane semblent très différents, avec un profil atypique, ce qui peut dénoter un problème lors de la synthèse des ADNc. Les échantillons A1, R1, R2 et R3 ont également un profil particulier, mais de qualité tout à fait exploitable pour Nimblegen. Tous les échantillons d'ADNc (y compris "lambda") ont été marqués à la cyanine 3 et hybridés sur les puces à ADN.

Algina te Glucose

Iota ca rra gh.

Ka ppa

ca rra gh. La mina rine Porphyra n Aga r

La mbda ca rra gh. 6000 nt 4000 nt 2000 nt 1000 nt 500 nt 200 nt

186

III-2-b Contrôles qualité des données brutes

La distribution des données brutes issues du passage des puces au scanner a été contrôlée (Figure 5-6). On constate des différences d'intensité du signal mesuré selon les puces. Ces différences devront être corrigées par la normalisation inter-cadrans.

Afin de vérifier la cohérence des données, les coefficients de corrélation de Pearson entre les valeurs de chaque échantillon et l'échantillon médian (moyenne des 24 valeurs d'expression par gène) ont été calculés et sont représentés sur la Figure 5-7. Ce type de graphique permet de repérer des échantillons présentant une distribution atypique des signaux. On remarque que les trois échantillons provenant de culture en lambda-carraghénane n'ont qu'une faible corrélation avec l'échantillon médian calculé et se différencient clairement des autres. Ce phénomène est sans doute à relier avec les profils atypiques obtenus pour les ADNc de ces trois échantillons et peut poser un problème quant à leur utilisation ultérieure dans le jeu de données.

lambda agar porphyranlaminarine glucose iota kappa alginate

lo g ( in te n s it é )

187 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 coe ff ic ie nt de c or la ti on

Figure 5-7 : Coefficient de corrélation de Pearson des données brutes avec l'échantillon médian

188

III-2-a Contrôle des données normalisées

La distribution des données après normalisation par la méthode des quantiles est représentée sur la Figure 5-8. La normalisation a bien permis d'homogénéiser la distribution des signaux sur toutes les puces, en leur donnant des moyennes et des variances similaires. Cette étape permet de corriger les effets liés à l'expérimentation (biais dans les quantités d'ARN ou d'ADNc utilisées, efficacités de marquage ou d'hybridation différentes selon les échantillons, différences de détection de la fluorescence, etc.) et non à des variations biologiques. La normalisation inter-puces est basée sur plusieurs postulats dont : (i) la majorité des gènes sur une puce ont une expression constante et (ii) globalement l'expression est régulée autant positivement que négativement. Ces hypothèses sont assez bien vérifiées sur des puces pangénomiques telles que celle utilisée dans cette étude.

lambda agar porphyran laminarine glucose iota kappa alginate

lo g ( in te n s it é )

189

Une étude du comportement des trois réplicats biologiques pour une même condition a été réalisée en Analyse en Composante Principale (PCA). Les résultats sont représentés sur la Figure 5-9.

Sur ce graphique, on remarque que les différents réplicats biologiques d'une même condition sont relativement proches. Ceci dénote une bonne reproductibilité des valeurs d'expression des gènes et montre également que les variations dues à des phénomènes biologiques sont plus importantes que les biais expérimentaux potentiels. On remarque de plus que les trois réplicats obtenus à partir de cultures en lambda-carraghénane sont très éloignés de tous les autres et semblent encore une fois avoir un comportement particulier. Les trois réplicats "glucose" sont également à part, ce qui peut dénoter des différences majeures du métabolisme lors de l'utilisation de monosaccharides vs. polysaccharides.

La proportion de gènes exprimés a été estimée sur chaque cadran, en considérant que les cibles dont le signal ne dépassait pas celui des sondes aléatoires n'étaient pas transcrites. Seulement 5% des cibles (géniques + intergéniques) ont été détectées comme significativement exprimées dans la condition "lambda-carraghénane", contre une moyenne de 35% pour toutes les autres conditions (p-value < 0.01) Cette proportion semble extrêmement faible, et montre très probablement un grave défaut des trois réplicats concernés. En résumé, les échantillons provenant de cultures en lambda-carraghénane présentent un profil d'ADNc anormal, une faible corrélation avec l'échantillon médian, se démarquent nettement de tous les autres et n'ont conduit qu'à très peu d'hybridations spécifiques sur les puces. Par conséquent, il a été décidé d'abandonner l'analyse de cette condition, dont les résultats risqueraient d'être trop entachés d'erreur. Les intensités correspondant à ces trois réplicats ont été supprimées du jeu de données brutes, qui a ensuite été normalisé à nouveau.

-2,E+07 0,E+00 2,E+07 4,E+07

-6,E+07 -4,E+07 -2,E+07 0,E+00 2,E+07

glucose alginate laminarine lambda iota kappa agar porphyrane

Figure 5-9 : Représentation graphique de l'analyse PCA sur les données normalisées, selon les deux axes principaux