Logiciels de traitement des données et d’analyse

Chapitre 1 : Contexte biologique et technologique

1.5 Logiciels de traitement des données et d’analyse

Le résultat d’une analyse en puces à ADN est une image dans laquelle chaque spot coloré représente une sonde. Différents logiciels permettent d’exploiter ces résultats. Le logiciel Feature Extraction précité permet d’avoir accès à des valeurs de ratio d’expression pour chaque sonde et corrige une quantité importante de biais liés à l’expérience. Le logiciel Rosetta Resolver permet de combiner les données obtenues par animal, par produit, par expérience. Il permet également différents types d’analyses statistiques sur les résultats. Le logiciel Ingenuity Pathway Analysis comprend quant à lui une base de données consolidée permettant une analyse fonctionnelle de listes de gènes régulés.

1.5.1 Logiciel Feature Extraction

Feature Extraction [28] est un logiciel développé par Agilent qui permet d’obtenir des informations quantitatives à partir de l’image scannée d’une puce à ADN. La version 9.5 a été utilisée. Le détail du protocole appliqué dans notre étude est donné en Annexe B. Seules les grandes lignes du traitement sont reprises ici.

Le logiciel identifie tout d’abord la position des spots (features), puis il détermine pour chacun une zone centrale correspondant au signal et une zone périphérique correspondant au bruit de fond. Les pixels ayant des valeurs extrêmes ne sont pas pris en compte dans les calculs. Si plus de 50% des pixels d’un spot sont saturés pour les deux couleurs (vert pour Cy3 et rouge pour Cy5), ce spot sera considéré comme une valeur manquante. Ce traitement permet de gérer les limites techniques du scanner. Plusieurs tests sont ensuite effectués pour détecter les spots anormaux : spots non uniformes pour le signal ou le bruit de fond ou spots ayant des valeurs extrêmes dans une population de réplicats. Les spots non uniformes pour le signal seront également considérés comme des valeurs manquantes. Ce type de spots correspond généralement à des marques de lavage. Les spots ayant un signal significativement différent du bruit de fond sont également signalés.

Le signal est corrigé par soustraction d’un effet spatial additif pouvant être lié à une hybridation non uniforme et par division d’un effet spatial multiplicatif potentiellement dû à des différences de vitesses de réaction entre le centre de la lame et la périphérie. Une normalisation des intensités est ensuite réalisée afin de corriger une partie du biais lié aux différences entre les deux fluorochromes utilisés. Ce biais est connu pour dépendre entre autres de l’intensité et de la position sur la lame. La méthode utilisée est « linear and lowess ». Une régression linéaire est tout d’abord effectuée sur chaque canal afin de ramener la moyenne géométrique des intensités Cy3 et Cy5 à 1000. Le biais restant est estimé par régression locale (Locally weighted scatterplot smoothing : voir Annexe B) sur le MA-Plot (Figure 1.7 : graphe représentant M, le logarithme du rapport des intensités, en fonction de A, la moyenne logarithmique des intensités). Une régression locale est effectuée afin de trouver la tendance centrale des données, puis les données sont ajustées de manière à centrer le graphe en 0. Les biais liés aux fluorochromes indépendants de l’intensité et dépendants de l’intensité sont ainsi corrigés.

A : 0,5××××Log(Ir××××Ig) _{A : 0,5}××××Log(Ir××××Ig)

M : L o g (I r/ Ig ) M : L o g (I r/ Ig )

a b

FIG. 1.7 : MA-plot représentant le logarithme du rapport des intensités en fonction de la moyenne logarithmique des intensités [29]

a : graphe avant normalisation lowess, b : graphe après normalisation lowess Ig=Intensité du canal Cy3 (vert), Ir=Intensité du canal Cy5 (rouge)

Après normalisation, le log ratio de chaque spot est calculé : ) I I log( LogRatio g r = , où I_r est l’intensité du canal Cy5 (rouge) et I_g l’intensité du canal Cy3 (vert). Enfin, la significativité de la régulation des gènes entre les deux échantillons biologiques hybridés est déterminée pour chaque spot par l’utilisation du plus conservatif des deux modèles d’erreurs suivants :

- Propagated error model (modèle d’erreur propagée) : La dispersion des observations est estimée à partir de la dispersion des pixels.

- Universal error model (modèle d’erreur universel) : La dispersion des observations est estimée à partir d’un modèle supposant un effet additif et un effet multiplicatif par rapport à l’intensité du signal. L’erreur sur l’intensité I est donnée par

2 2 2 2 I M A

σ = + × . Le paramètre M² a été estimé à partir d’expériences réalisées par Agilent. Le paramètre A² est estimé automatiquement sur chaque lame.

Le modèle fournissant la plus grande erreur est utilisé pour calculer une p-value, c’est-à-dire la probabilité d’obtenir le même log ratio sous l’hypothèse nulle de non-régulation du spot. Le logiciel fournit donc notamment pour chaque spot deux valeurs d’intensités normalisées (Cy5 en rouge et Cy3 en vert), le rapport d’expression entre les deux canaux, une erreur sur ce rapport d’expression et une p-value informant sur la significativité de la régulation entre les échantillons. Ces résultats prennent en compte la gestion de plusieurs biais expérimentaux ou techniques. Les limites de mesure du scanner et la possibilité de marques de lavage sont gérées par le marquage des spots saturés ou non uniformes comme données manquantes. La correction de l’effet spatial du signal permet entre autres de compenser une hybridation non uniforme. Enfin, le déséquilibre entre les fluorochromes est traité à deux niveaux. La normalisation des intensités permet de gérer le biais dépendant de l’intensité et la procédure de dye-swap citée précédemment permet de gérer le biais dépendant de la séquence d’ARN considérée.

1.5.2 Logiciel Rosetta Resolver

Les données fournies par Feature Extraction sont ensuite importées dans le logiciel Rosetta Resolver [27] pour y être visualisées et analysées. Resolver permet d’observer les résultats pour une même lame au niveau des features, des reporters, des séquences ou des gènes et de combiner plusieurs lames correspondant au même traitement afin de rendre les résultats plus robustes (par exemple combinaison par dye-swap pour un même animal). Il fournit également des outils de visualisation (diagrammes de Venn, graphes de dispersion des intensités ou des log ratios, etc.) et des outils statistiques (analyse en composantes principales, analyse des variances, classification, etc.) permettant une première analyse des résultats. Resolver permet également de créer des ensembles de séquences prédéfinis qui peuvent servir de base pour les analyses statistiques (par exemple classification non supervisée à partir des séquences sélectionnées).

La méthode « Combining » permet de fusionner des lames correspondant aux mêmes conditions de traitement. Pour n lames à combiner, le nouveau log ratio est calculé par une moyenne pondérée par l’erreur sur le log ratio de sorte que les lames ayant une erreur plus importante influent moins sur le résultat final. Le modèle d’erreur développé par Rosetta a inspiré celui utilisé par Feature Extraction sans être totalement équivalent. Le détail de l’erreur utilisée est donné en Annexe B. Cette méthode est très utile pour définir des expériences où les données peuvent être regroupées par animal ou par traitement. Ces expériences peuvent ensuite être directement utilisées pour les analyses statistiques. La méthode « Squeezing » permet de passer des features aux reporters, des reporters aux séquences et des séquences aux gènes. Le principe est globalement le même que pour le « Combining ».

Il faut néanmoins noter que les informations obtenues à partir de Feature Extraction ne sont pas toutes reprises dans Resolver par la suite. Par exemple, la significativité du signal par rapport au bruit de fond pour chaque spot n’est pas importée dans Resolver.

1.5.3 Logiciel Ingenuity Pathway Analysis

Ingenuity Pathway Analysis (IPA) [30] est un logiciel d’analyse biologique, complémentaire de Resolver, qui comprend une base de données consolidée recensant les interactions décrites dans la littérature entre les gènes (régulations géniques, interactions protéiques, …), ainsi que les fonctions des gènes quand elles sont connues. Il permet de placer les séquences qui ont été considérées comme différentiellement régulées entre deux conditions biologiques dans des mécanismes biologiques, des voies de signalisation et des fonctions connues, répondant ainsi à diverses questions sur les gènes d’intérêt :

- Sont-ils reliés entre eux dans des réseaux communs ? - Remplissent-ils des fonctions similaires ?

- Interviennent-ils dans la même voie métabolique ou de signalisation ?

IPA est compatible avec de nombreuses plate-formes d’analyse à haut débit de type puces à ADN. Il reconnaît entre autres les codes des séquences provenant de Resolver. Néanmoins les mises à jour des bases de données de Resolver et d’Ingenuity n’étant pas synchronisées, il peut survenir des différences d’annotations entre les deux logiciels.

Dans le document Développement d'une méthodologie robuste de sélection de gènes dans le cadre d'une activation pharmacologique de la voie PPAR (Page 33-37)