• Aucun résultat trouvé

2.5 Analyse du transcriptome

2.5.3 Algorithmes pour l’extraction du signal des puces d’expression Af-

Après hybridation, la puce est scannée pour obtenir une image qui représente le niveau de fluorescence proportionnel à la quantité d’oligonucléotides fixés. En sortie de scanner, ces fichiers images sont traités afin d’obtenir une valeur numérique pour chaque oligonucléotide. Cependant, lors d’une expérience de puces, il y a plusieurs sources de variations qui participent au signal, comme des différences dans le marquage ou les quantités d’ARN déposées et leur qualité également. Différentes méthodes permettent ainsi d’obtenir un signal d’expression associé à chaque gène ou ARN messager, en pre- nant en compte les différentes sources de variations qui se révèlent être non spécifiques.

2.5.3.1 MAS 5.0

L’algorithme MAS 5.0, développé par Affymetrix, génère deux types de valeurs : un signal proprement dit qui représente la quantité relative du transcrit dans l’échantillon analysé, et une p-value associée qui représente la probabilité que le transcrit soit absent de l’échantillon. Toutes les valeurs de fluorescence sont d’abord corrigées d’un bruit de fond éventuel en se basant sur les intensités de fluorescence des cellules adjacentes. Puis le signal est calculé en prenant en compte l’intensité d’hybridation des sondes PM et des sondes MM, lesquelles sont censées rendre compte du bruit de fond d’hybridation non spécifique, le principe de base étant de soustraire la fluorescence des oligonucléo- tides MM à celle des oligonucléotides PM et d’estimer une moyenne robuste de log(PM- MM). Le calcul du statut Absent ou Présent est basé quant à lui sur l’utilisation d’un score discriminant qui est une mesure relative de la différence entre les intensités PM et MM. Les couples d’oligonucléotides pour lesquels les intensités PM et MM sont semblables sont ignorés, et la p-value résulte d’un test de Wilcoxon, où ces scores discriminants sont comparés à une valeur seuil fixée par la méthode à 0,0015. Le statut Absent, Présent ou Marginal résulte directement de cette p-value. Suite au calcul du signal et de la p-value, l’algorithme MAS 5.0 procède à une normalisation de toutes les puces afin de les ajus-

2.5. ANALYSE DU TRANSCRIPTOME

ter, chacune à une même intensité moyenne appelée « target value » (habituellement, cette valeur est de 500). Cette étape repose sur l’hypothèse que l’intensité moyenne des sondes à la surface de la puce doit être égale d’un échantillon à l’autre et permet donc de comparer les valeurs d’expression d’un gène entre les échantillons.

En plus d’être relativement obscur, l’algorithme MAS 5.0 présente l’inconvénient de reposer sur beaucoup de valeurs arbitraires. Il présente également des performances discutables pour les faibles valeurs d’hybridation.

2.5.3.2 RMA et GCRMA

La méthode RMA pour Robust Multiarray Average, est une alternative à MAS 5.0 dé- veloppée par Irizzary et al. [Irizarry et al., 2003]. Sans tenir compte des MM, la méthode RMA vise à établir des critères de comparaison tangibles entre les différentes puces d’une expérience, là où MAS 5.0 se contentait d’ajuster le niveau moyen de toutes les puces. Après avoir estimé et soustrait le bruit de fond calculé globalement à partir de toutes les valeurs de PM, les puces sont normalisées entre elles par la méthode des quantiles [Bolstad et al., 2003], c’est-à-dire que les signaux sont ajustés de manière à ce que toutes les puces aient la même distribution d’intensité des sondes. Enfin, un algo- rithme « median-polish » est appliqué aux signaux de chacun des probe sets pris sépa- rément en partant des observations suivantes : l’affinité d’une sonde pour sa cible devrait être constante d’une puce à l’autre et la variance des sondes devrait être globalement constante. Un signal est alors obtenu pour chaque ensemble de sondes, représentant la valeur d’expression du transcrit cible.

La méthode GCRMA, pour GeneChip RMA [Wu et al., 2004b] diffère de la précédente par le calcul du bruit de fond. Cette correction du bruit de fond est réalisée en fonction du contenu en nucléotides G et C de chacune des sondes à la surface de la puce. En effet, si l’on fait l’hypothèse qu’il existe un bruit de fond dû à une homologie partielle des séquences entre la sonde et des acides nucléiques en solution, il existe une hybridation entre ces séquences, et donc un bruit de fond, proportionnelle au contenu en nucléotides G/C dans chaque sonde. GCRMA utilise un modèle prenant en compte la composition nucléotidique de chaque sonde, ainsi que la position des nucléotides G et C, le reste de la procédure étant semblable à celle de la méthode RMA.

2.5.3.3 Autres algorithmes

Il existe d’autres méthodes de normalisation des données Affymetrix mais celles-ci ne sont pas utilisées en routine. On peut citer la méthode Li-Wong [Li and Wong, 2001] notamment implémentée dans le logiciel D-Chip. Plus récemment, les méthodes FARMS, pour Factor Analysis for Robust Microarray Summarization [Hochreiter et al., 2006] basée sur l’hypothèse d’une distribution Gaussienne du bruit, et la méthode non paramétrique DFW [Chen et al., 2007] pour Distribution Free Weighted method, sont censées donner d’excellents résultats en termes de spécificité et de sensibilité.

3. ANALYSE DE DONNÉES HAUT DÉBIT

Chapitre 3

Analyse de données haut débit

Comme nous venons de le décrire, les technologies haut débit génèrent un grand nombre d’information. Leur analyse nécessite donc un ensemble de méthodologies adap- tées afin d’extraire au mieux l’information biologique répondant aux questions posées.

Dans cette partie nous allons aborder les différentes méthodes communément uti- lisées dans l’analyse de données haut débit. Nous verrons dans un premier temps les méthodes de clustering hiérarchique et d’analyse en composantes principales qui per- mettent l’analyse exploratoire multivariée des données. Nous aborderons ensuite les analyses supervisées qui permettent de mettre en évidence les gènes impliqués dans les questions biologiques posées. Enfin, nous aborderons les méthodes qui permettent de regrouper les gènes d’intérêt en sous groupe afin d’extraire au mieux l’information biologique.

Nous prendrons comme exemple dans cette partie des données d’expression repré- sentées par une matrice de n observations (échantillons) et p variables (gènes).

3.1 Analyses exploratoires non supervisées

Les analyses non supervisées consistent à prendre en compte l’ensemble des p gènes et/ou l’ensemble des n échantillons de manière à les séparer en groupes distincts de façon automatique sans que la connaissance de classes existantes ne vienne interfé- rer dans le résultat. Ces analyses permettent de mettre en évidence des similitudes entre groupes d’échantillons ou de gènes et permettent par exemple de découvrir de nouveaux sous-groupes dans un cancer donné en se basant sur leur profil d’expression (ou sur le profil de leur altérations chromosomiques).