• Aucun résultat trouvé

Exploitation des données de puces à ADN

B. Les microarrays sur lame de verre

2) Exploitation des données de puces à ADN

Les images obtenues à partir du scanner sont analysées à l’aide d’un logiciel

permettant d’extraire les données de fluorescence et de les convertir en données numériques.

Le logiciel (dans notre cas Genepix Pro 5) permet ainsi de générer une série de données

la lame. Le logiciel d’extraction permet également un premier filtrage des données car il

donne la possibilité de repérer visuellement les spots de mauvaise qualité qui ne sont pas

exploitables pour la suite de l’analyse. Il est également possible d’exclure de l’analyse les

spots dont l’intensité est trop faible où dont le rapport signal/bruit de fond est trop faible. Il est

ensuite nécessaire de normaliser les ratios d’expression ainsi obtenus de manière à ajuster

l’intensité globale des différentes images obtenues à partir des deux canaux rouge et vert.

Cette normalisation permet de corriger les éventuels biais techniques causés par les

différences d’incorporation, de fluorescence des fluorochromes mais également les

différences dues aux paramétrages des lasers pendant la lecture des lames. Il existe différentes

méthodes pour normaliser les données dont notamment la normalisation par rapport à la

moyenne globale des intensités, la normalisation par rapport à des gènes de références présent

sur la lame ou encore, la normalisation de Lowess. C’est après normalisation que les données

d’une lame peuvent être exploitées pour réaliser des statistiques et ainsi convertir les données

obtenues à partir de la lecture des lames en phénomènes biologiques notables (Waka Lin 2004

pour revue).

Les puces à ADN permettent de mesurer le niveau d’expression relatif de chaque gène

dans un échantillon d’ARN donné comparé à un contrôle de référence. Plus le ratio

d’expression entre l’échantillon et la référence est élevé, plus la quantité d’ARN

correspondant au gène d’intérêt est importante dans l’échantillon considéré. Il existe deux

approches pour analyser des données d’expression issues d’expérience de microarray. La

première, l’approche exploratoire qui permet de comparer des échantillons présentant un

profil d’expression similaire, la meilleure illustration de cette méthode est le clustering

hiérarchique qui permet de regrouper les gènes et les classes d’échantillons selon la similarité

de leur profil d’expression (Lyer 1999). La seconde approche permet de comparer les

échantillons de manière discriminante en les comparants sur la base de leur appartenance à

une classe définie (Mount and Pandey 2005).

L’analyse statistique est un point clé dans l’exploitation de données issues de

microarray. Etant donné les nombreuses sources de variations qu’il est possible d’induire à

chaque étape de l’expérience (extraction de l’ARN, amplification et marquage de l’ARN,

hybridation sur la lame, lecture de la lame au scanner, sélection manuelle des spots…), il est

essentiel que l’analyse statistique soit la plus adaptée au design de l’expérience. Par exemple,

le clustering hiérarchique se prête mal à l’analyse des différences d’expression entre les gènes

de deux groupes de rats bien identifiés. Il existe de nombreux logiciels permettant de réaliser

les données dès leur normalisation et offrent la possibilité de réaliser de nombreux tests

statistiques sur les données après normalisation. Parmi ces différents logiciels on peut citer

Bioconductor, BRB-Arraytools ou encore Genecluster. Dans nos différentes études, les

analyses statistiques des données ont été effectuées avec le logiciel développé par la société

Agilent, Genespring GX. Ces tests statistiques regroupent la plupart des méthodes connues et

permettent notamment l’exploitation différentielle des données soit par le test-t pour comparer

2 classes d’échantillons, soit par la méthode ANOVA lorsque l’on souhaite comparer plus de

deux classes d’échantillons. Il existe d’autres méthodes pour comparer les classes

d’échantillons entre elles, par exemple, il est possible de comparer le ratio d’expression

directement et ainsi de déterminer le « fold change » qui permet d’évaluer la différence

d’expression d’un gène donné par rapport à ce même gène dans une autre classe d’échantillon

(Cui 2003 pour revue).

L’une des plus importantes difficultés dans l’exploitation des données de microarray

est de déterminer la pertinence biologique des différences statistiques constatées lors de

l’analyse. Au-delà de simplement identifier quels sont les gènes différentiellements exprimés

dans un groupe de rat comparés à un autre par exemple, il est fondamental de comprendre

comment ces différences d’expression agissent ensemble pour aboutir à une réponse

phénotypique complexe. Une approche pour réaliser une telle analyse est d’associer les gènes

en fonction de leurs ontologies. Ainsi, si un groupe de gènes regroupés au sein d’une même

ontologie est différemment exprimé dans une classe d’échantillon d’intérêt comparé à la

classe témoin, il est possible que cette fonction soit impliquée dans la réponse phénotypique

observée dans cette classe d’intérêt (Armstrong et Van de Wiel 2004). Il est également

possible avec les outils disponibles actuellement d’associer les listes de gènes

différentiellements exprimés entre classe d’échantillon a différentes voie métaboliques pour

créer ainsi des réseaux de gènes dont l’expression varie dans une situation physiologique

donnée (Mount and Pandey 2005). De nombreux outils ont été développés pour permettre la

construction de ses réseaux de gènes à partir des voies métaboliques, parmi ceux-ci, on peut

citer Pathway Miner ou Ingenuity Pathways Analysis.

En résumé, l’exploitation des données de puces à ADN dépend de nombreux facteurs.

Il est en effet possible d’induire des différences entre les échantillons d’intérêts à toutes les

étapes du protocole. Il est également important de mettre au point un design d’expérience

correct. Il est plus simple de découvrir des différences d’expression fiables et censées lorsque

l’on cherche à comparer deux groupes d’échantillons différenciés par une seule variable (par

compare des échantillons très différents entre eux. L’analyse statistique doit également être

intelligemment menée. Une approche différentielle n’est en effet pas judicieuse lorsque les

échantillons auxquels on s’intéresse sont mal classifiés. Tous ses éléments font que

l’utilisation de la technologie microarray reste, malgré les innovations technologiques, assez

lourde à mettre en œuvre et compliquée à exploiter. Cependant, les logiciels disponibles

aujourd’hui permettent de réaliser des analyses assez fiables des données obtenues. Il est

même également possible d’aller au-delà de la simple comparaison de l’expression entre les

gènes, on peut comparer les voies métaboliques entre elles et les associer en réseaux de gènes

différentiellements exprimés dans une condition physiologique donnée comparée à une

situation physiologique normale.

Documents relatifs