• Aucun résultat trouvé

CHAPITRE 1 – INTRODUCTION

I. LES APPROCHES GENOMIQUES DES MALADIES COMPLEXES

3.2 Méthodologies d’étude

Au cours des dernières années, des études de profils d'expression génique utilisant la technologie des puces à ADN ont été développées pour la recherche clinique à grande échelle et systématique afin d’identifier les gènes impliqués dans les maladies complexes. À l'heure actuelle, les puces couvrant l'ensemble du génome humain sont devenues disponibles dans le commerce et leur potentiel pour identifier l'activité d’un gène anormal dans

une maladie est maintenant bien reconnu. L’analyse de l'expression par les

puces est basée sur l'hybridation d'un jeu ordonné de sondes attachées à

une surface avec une cible constituée d’ARNm isolé d’une population

cellulaire donnée. En général, ce sont des ARNm isolés dans différentes situations biologiques, par exemple, avant et après un traitement ou bien chez des malades comparés à des sujets sains. L'hybridation reflète l'abondance relative de chaque ARNm et conduit à l'identification de gènes sur- ou sous-régulés par rapport à l’échantillon de référence. En regroupant des ensembles de gènes exprimés de manière différentielle selon leur fonction, des informations peuvent être obtenues sur les voies principales liées à une maladie ou à un traitement.

Jusqu’alors, l’étude des transcrits passait par une approche analytique d’un gène, et c’est par l’accumulation de ces expériences unitaires qu’une compréhension a posteriori de la cellule était envisagée. Les nouvelles approches globales quant à elles fournissent une image à un « temps T » du niveau d’expression de plusieurs milliers de gènes dans un type cellulaire et un contexte physiologique et/ou pathologique donné. Cette vision globale instantanée est très importante en particulier pour le transcriptome, pour lequel au temps T+1, l’image obtenue peut être très différente. Dans l’étude globale des transcrits, on distinguera les microarrays à une couleur (type

Affymetrix®) où l’on mesure une valeur d’expression absolue et les puces

deux couleurs (par exemple la plateforme BeadChip de illumina® ou encore

Agilent®) qui sont basées sur l’expression relative d’un échantillon test par

36 Dans tous les cas, l’expérience commence par une extraction des ARN suivie de la synthèse des ADNc, leur marquage et l’hybridation sur les puces à ADN, lavages et séchage des lames puis lecture par un scanner. Le signal généré pour chaque fluorochrome est converti en fausses couleurs (généralement rouge pour la cyanine 5 et vert pour la cyanine 3). Les deux images ainsi obtenues sont superposées. Quant à l’analyse proprement dite des données d’expression, le but, dans la grande majorité des expériences, est de trouver les gènes dont l’expression varie entre deux groupes (par exemple un groupe témoin et un groupe traité par un médicament).

Initialement, la sélection des gènes « signatures » (gènes sous- ou/et sur-régulés) a été basée sur l’utilisation d’un seuil de « Log ratio ». Pour chaque gène, c’est le rapport entre ses niveaux d’expression mesurés dans des conditions différentes qui est informatif : on parle de facteur de régulation ou variation de ratio « fold change ». Avec cette méthode de variation de ratio, on se place à un seuil (souvent 2 en valeur absolue) et on sélectionne tous les gènes dont la variation de ratio est supérieure en valeur absolue à cette valeur seuil.

Cependant, ce n’est pas un test statistique et il n’intègre pas la variance (47). Par exemple, la variabilité des différences d’expression sur l’ensemble de la puce n’est pas prise en compte. Ainsi, un gène (par exemple un facteur de transcription) dont la variation n’est que de 1,5 fois peut avoir des conséquences drastiques.

D’autre part, une différence d’expression de 2 peut résulter d’un ratio d’intensité de 10 / 5 ou 10 000 / 5 000. Cette méthode ne prend pas en compte les réplicats biologiques dans le calcul des probabilités d’expression différentielle. Or, en utilisant les répétitions, il est possible de déterminer si un gène est ou n’est pas différentiellement exprimé, en utilisant les tests d’hypothèses (tests statistiques).

Il est important de noter que la comparaison des niveaux d'expression absolus ne s'effectue généralement pas directement entre les

37 gènes, mais se limite plutôt entre les différents échantillons hybridés. La raison généralement invoquée est que d'un gène à un autre, les unités de la mesure de l'expression ne sont pas les mêmes (48). Par conséquent, un

Microarray n'est généralement pas utilisé pour répondre à la question « le

gène A est-il plus exprimé que le gène B », mais pour répondre à des questions telles que « le gène A répond-il à la stimulation X? », « le gène A répond-il plus que le gène B à la stimulation X? » ou encore « l'expression du gène A est-elle corrélée à celle du gène B? ». Ces dernières portant sur les niveaux d'expression relatifs plutôt qu'absolus.

Il est aussi important de mentionner qu'en pratique, l'analyse de l'expression différentielle suit le paradigme gène par gène. En effet, bien que l'expression génique soit un phénomène coordonné, et que par conséquent les niveaux d'expression des gènes soient fortement dépendants, notre connaissance de cette dépendance (donc de la distribution jointe...) est à ce jour plutôt limitée.

L'analyse de l'expression différentielle suit habituellement la procédure suivante :

Formuler un test d'hypothèse statistique. On définit ici quantitativement ce que l'on entend par expression différentielle en formulant une hypothèse nulle et une hypothèse alternative. Par exemple, on testera l'hypothèse nulle que la différence entre les moyennes de deux groupes (ou le coefficient de régression d'un modèle linéaire) est égale à zéro. Cette hypothèse nulle est la plus courante, mais d'autres sont possibles, comme par exemple de tester si la différence de moyennes dépasse un certain seuil arbitraire ou encore un test sur la différence des médianes.

Utilisation de réplicats et ce pour apporter une correction de fond aux

différents tests réalisés et aux données transcriptomes obtenues. Ces réplicats peuvent être soit biologiques (échantillons différents pour un même phénotype) ou encore techniques (plusieurs extraits d’un même échantillon).

38 Ces deux approches permettant l'amélioration de la sensibilité de l’analyse.

Les résultats obtenus pourront être aussi validés par l’analyse en PCR

(Polymerase Chain reaction) quantitative en temps réel d’un certain nombre de gènes pour une analyse de type contrôle de qualité, par exemple un échantillon minimum de 20 gènes.

Calculer une statistique pour l'expression différentielle pour chaque gène. Cette statistique peut être par exemple la simple différence des

moyennes (le fold-change), le t de Student, la différence des médianes, une statistique non paramétrique, etc. Si l’un de ces tests est applicable, il faudra alors comparer la valeur de la statistique obtenue précédemment avec la distribution de cette dernière sous l'hypothèse nulle. Par exemple, le t-test de Student suit une distribution bien connue du même nom. Cette étape fournit habituellement une Pvalue, qui correspond à la probabilité d'erreur de type I

sous l'hypothèse nulle.

Ordonner les gènes selon la significativité de leur test d'hypothèse. Il

faut noter que dans le cas des microarrays d’Affymetrix, l'ordonnancement par significativité est souvent le même que celui de la valeur absolue de la statistique puisque chaque test comporte le même nombre de degrés de liberté. On appelle aussi la statistique de l'expression différentielle « statistique d'ordonnancement », même si à proprement parler, l'ordonnancement s'effectue la plupart du temps sur une valeur de significativité comme la Pvalue.

Recalculer la significativité pour tenir compte que plusieurs hypothèses ont été testées simultanément (problème des tests multiples).

L'analyste sera fréquemment intéressé à obtenir une sous-liste parmi les gènes les plus significatifs. Même si la valeur-P d'un test pris individuellement donne la probabilité d'erreur de type I (hypothèse nulle rejetée faussement, ou faux positif), évaluer la significativité d'une liste de plusieurs tests demande un calcul supplémentaire. L'idée se comprend assez facilement : le bruit expérimental fait inévitablement en sorte que

39 certains gènes, en réalité non différentiellement exprimés, résultent en des valeur-p significatives.

La significativité d'une liste sélectionnée par un simple seuil sur la valeur-p n'est donc manifestement pas quantifiée par ce seuil. Une nouvelle définition de la significativité, ainsi qu'une procédure pour l'évaluer sont donc nécessaires. Par exemple, les procédures de type FDR (False Discovery

Rate) évaluent la proportion de faux positifs d'une sous-liste donnée.