B. Les microarrays sur lame de verre
2) Exploitation des données de puces à ADN
Les images obtenues à partir du scanner sont analysées à l’aide d’un logiciel
permettant d’extraire les données de fluorescence et de les convertir en données numériques.
Le logiciel (dans notre cas Genepix Pro 5) permet ainsi de générer une série de données
la lame. Le logiciel d’extraction permet également un premier filtrage des données car il
donne la possibilité de repérer visuellement les spots de mauvaise qualité qui ne sont pas
exploitables pour la suite de l’analyse. Il est également possible d’exclure de l’analyse les
spots dont l’intensité est trop faible où dont le rapport signal/bruit de fond est trop faible. Il est
ensuite nécessaire de normaliser les ratios d’expression ainsi obtenus de manière à ajuster
l’intensité globale des différentes images obtenues à partir des deux canaux rouge et vert.
Cette normalisation permet de corriger les éventuels biais techniques causés par les
différences d’incorporation, de fluorescence des fluorochromes mais également les
différences dues aux paramétrages des lasers pendant la lecture des lames. Il existe différentes
méthodes pour normaliser les données dont notamment la normalisation par rapport à la
moyenne globale des intensités, la normalisation par rapport à des gènes de références présent
sur la lame ou encore, la normalisation de Lowess. C’est après normalisation que les données
d’une lame peuvent être exploitées pour réaliser des statistiques et ainsi convertir les données
obtenues à partir de la lecture des lames en phénomènes biologiques notables (Waka Lin 2004
pour revue).
Les puces à ADN permettent de mesurer le niveau d’expression relatif de chaque gène
dans un échantillon d’ARN donné comparé à un contrôle de référence. Plus le ratio
d’expression entre l’échantillon et la référence est élevé, plus la quantité d’ARN
correspondant au gène d’intérêt est importante dans l’échantillon considéré. Il existe deux
approches pour analyser des données d’expression issues d’expérience de microarray. La
première, l’approche exploratoire qui permet de comparer des échantillons présentant un
profil d’expression similaire, la meilleure illustration de cette méthode est le clustering
hiérarchique qui permet de regrouper les gènes et les classes d’échantillons selon la similarité
de leur profil d’expression (Lyer 1999). La seconde approche permet de comparer les
échantillons de manière discriminante en les comparants sur la base de leur appartenance à
une classe définie (Mount and Pandey 2005).
L’analyse statistique est un point clé dans l’exploitation de données issues de
microarray. Etant donné les nombreuses sources de variations qu’il est possible d’induire à
chaque étape de l’expérience (extraction de l’ARN, amplification et marquage de l’ARN,
hybridation sur la lame, lecture de la lame au scanner, sélection manuelle des spots…), il est
essentiel que l’analyse statistique soit la plus adaptée au design de l’expérience. Par exemple,
le clustering hiérarchique se prête mal à l’analyse des différences d’expression entre les gènes
de deux groupes de rats bien identifiés. Il existe de nombreux logiciels permettant de réaliser
les données dès leur normalisation et offrent la possibilité de réaliser de nombreux tests
statistiques sur les données après normalisation. Parmi ces différents logiciels on peut citer
Bioconductor, BRB-Arraytools ou encore Genecluster. Dans nos différentes études, les
analyses statistiques des données ont été effectuées avec le logiciel développé par la société
Agilent, Genespring GX. Ces tests statistiques regroupent la plupart des méthodes connues et
permettent notamment l’exploitation différentielle des données soit par le test-t pour comparer
2 classes d’échantillons, soit par la méthode ANOVA lorsque l’on souhaite comparer plus de
deux classes d’échantillons. Il existe d’autres méthodes pour comparer les classes
d’échantillons entre elles, par exemple, il est possible de comparer le ratio d’expression
directement et ainsi de déterminer le « fold change » qui permet d’évaluer la différence
d’expression d’un gène donné par rapport à ce même gène dans une autre classe d’échantillon
(Cui 2003 pour revue).
L’une des plus importantes difficultés dans l’exploitation des données de microarray
est de déterminer la pertinence biologique des différences statistiques constatées lors de
l’analyse. Au-delà de simplement identifier quels sont les gènes différentiellements exprimés
dans un groupe de rat comparés à un autre par exemple, il est fondamental de comprendre
comment ces différences d’expression agissent ensemble pour aboutir à une réponse
phénotypique complexe. Une approche pour réaliser une telle analyse est d’associer les gènes
en fonction de leurs ontologies. Ainsi, si un groupe de gènes regroupés au sein d’une même
ontologie est différemment exprimé dans une classe d’échantillon d’intérêt comparé à la
classe témoin, il est possible que cette fonction soit impliquée dans la réponse phénotypique
observée dans cette classe d’intérêt (Armstrong et Van de Wiel 2004). Il est également
possible avec les outils disponibles actuellement d’associer les listes de gènes
différentiellements exprimés entre classe d’échantillon a différentes voie métaboliques pour
créer ainsi des réseaux de gènes dont l’expression varie dans une situation physiologique
donnée (Mount and Pandey 2005). De nombreux outils ont été développés pour permettre la
construction de ses réseaux de gènes à partir des voies métaboliques, parmi ceux-ci, on peut
citer Pathway Miner ou Ingenuity Pathways Analysis.
En résumé, l’exploitation des données de puces à ADN dépend de nombreux facteurs.
Il est en effet possible d’induire des différences entre les échantillons d’intérêts à toutes les
étapes du protocole. Il est également important de mettre au point un design d’expérience
correct. Il est plus simple de découvrir des différences d’expression fiables et censées lorsque
l’on cherche à comparer deux groupes d’échantillons différenciés par une seule variable (par
compare des échantillons très différents entre eux. L’analyse statistique doit également être
intelligemment menée. Une approche différentielle n’est en effet pas judicieuse lorsque les
échantillons auxquels on s’intéresse sont mal classifiés. Tous ses éléments font que
l’utilisation de la technologie microarray reste, malgré les innovations technologiques, assez
lourde à mettre en œuvre et compliquée à exploiter. Cependant, les logiciels disponibles
aujourd’hui permettent de réaliser des analyses assez fiables des données obtenues. Il est
même également possible d’aller au-delà de la simple comparaison de l’expression entre les
gènes, on peut comparer les voies métaboliques entre elles et les associer en réseaux de gènes
différentiellements exprimés dans une condition physiologique donnée comparée à une
situation physiologique normale.
Dans le document
Approche multifonctionnelle mitochondriale par puce à ADN dédiée
(Page 38-41)