• Aucun résultat trouvé

les formes autosomiques dominantes de la MP

V. DISCUSSION GENERALEGENERALE

2. Intérêts et limites de l’étude du transcriptome

Le développement de stratégies thérapeutiques modifiant le cours évolutif de la maladie nécessite une meilleure compréhension des mécanismes à l’origine de la MP. La majorité des études fondamentales sont sous-tendues par une approche de type ‘mécanisme-candidat’ s’attachant à approfondir nos connaissances sur des mécanismes déjà identifiés. L’identification de nouveaux mécanismes pathogéniques est néanmoins nécessaire pour envisager de nouvelles hypothèses sur les événements concourant à la mort neuronale. Le développement de techniques plus globales comme l’étude du profil d’expression génique (transcriptome) permet de proposer de nouvelles hypothèses en raison d’une approche globale et sans a priori du fonctionnement d’un type cellulaire ou tissulaire lors d’une circonstance pathologique donnée. Cette technique, grâce à l’utilisation de puces représentant un grand nombre de transcrits du génome, permet d’identifier les gènes, fonctions et voies métaboliques dérégulés par comparaison avec des témoins en mesurant l’intensité relative de chaque sonde déposée sur une lame de verre.

2.1 Considérations techniques

L’étude du transcriptome est à l’origine d’un grand nombre d’informations qui nécessitent un traitement bioinformatique adéquat mais également de nombreux contrôles de qualité. En effet, de nombreux paramètres entrent en ligne pour juger de la validité des résultats. Tout d’abord, l’ARN utilisé doit être de qualité correcte ; nous avons choisi de ne retenir que les ARN ayant un RIN (RNA integrity number) >9 dans nos expériences pour limiter la dégradation et donc les données aberrantes. De plus, le temps après le prélèvement sanguin pour procéder au recueil des

cas où nous nous sommes déplacés dans la région Nord-Pas de Calais ou en France pour obtenir les échantillons (notamment pour les sujets avec mutation, délai <6h). Toutes les étapes expérimentales (extraction de l’ARN, marquage, hybridation, lecture des spots) peuvent entraîner des biais et nécessitent des contrôles ; comme le sont les ‘spike-in’ qui sont des ARN servant de contrôles lors des étapes de marquage et d’hybridation (Yang, 2006). L’analyse des données nécessite au préalable une normalisation des intensités de fluorescence au sein de chaque puce et entre les différentes puces afin de pallier à certains biais expérimentaux. Le choix des témoins est également capital pour interpréter les données. Dans nos expériences, en plus des témoins individuels, nous avons utilisé un assemblage d’ARN équimolaire nous servant ainsi de référence entre les expériences de puces et de RT-PCR en temps réel et pour limiter la variabilité des contrôles. En effet, il existe une variabilité importante entre les sujets comme nous avons pu l’observer sur les analyses en composantes principales pour les expériences LRRK2 et SCA2 où les sujets du groupe témoin présentent un nuage de points plus vaste que les sujets porteurs de mutation (Figures 13 et 24) (Storey et al., 2007).

L’analyse des données a été réalisée grâce au logiciel Genespring GX qui permet d’identifier les gènes significativement dérégulés au sein des différents groupes étudiés. Nous avons utilisé à la fois un test statistique de type t-test de Welch (test paramétrique autorisant les variances inégales) avec ou sans correction pour tests multiples (Benjamini & Hochberg) et une mesure des ratios d’expression (RE) pour chaque sonde. Nous avons choisi des limites pour les RE faibles (entre 1,2 et 1,3) pour ne pas éliminer par excès les gènes, dont la variation d’expression était peu importante, comme c’est le cas pour les facteurs de transcription ou les autres gènes vitaux au fonctionnement cellulaire, dont on peut supposer qu’une forte dérégulation serait létale pour la cellule. L’amélioration de la technique de bio-puces a permis à d’autres équipes de choisir également des RE faibles (Scherzer et al., 2007 ; Ohnuki et al., 2010). Le logiciel Genespring a également été utilisé pour réaliser les analyses en composante principale permettant de déterminer si la liste de gènes dérégulés pouvait séparer les individus sans a priori. Enfin, l’interprétation des résultats a principalement utilisé le logiciel IPA qui permet d’identifier au sein d’une liste de gènes, les fonctions, réseaux moléculaires et voies canoniques impliqués. D’autres logiciels existent comme DAVID (Database for Annotation, Visualization and Integrated Discovery; Dennis et al., 2003) ou WebGestalt (Web-based Gene Set Analysis Toolkit; http://bioinfo.vanderbilt.edu/webgestalt). Cependant, l’avantage d’IPA est qu’il génère des réseaux moléculaires à partir de la connectivité entre les gènes présents dans sa base de

données, qu’il donne accès aux références bibliographiques ayant permis d’identifier ces liens et qu’il présente les résultats des analyses sous un format agréable.

2.2 Validation des données transcriptomiques

Les résultats des études du transcriptome par puces d’expression nécessitent d’être validés par une seconde technologie. Nous avons d’abord validé l’expression de certains gènes d’intérêt significativement dérégulés par RT-PCR en temps réel, méthode largement utilisée et gold standard pour les mesures d’expression génique (Wang et al., 2006). Cette seconde technique permet d’établir une corrélation avec les ratios d’expression issus des puces. Néanmoins, cette corrélation n’est pas parfaite tant en sens de variation (sur ou sous-expression) que sur les niveaux des ratios. Les données de la littérature estiment qu’une corrélation est correcte si elle est supérieure à 0,8 pour des ratios d’expression d’au moins 1,4 (Morey et al., 2006). Cette technique nécessite également une normalisation avec un ou plusieurs gènes de ménage dont l’expression est stable pour les différents individus et un choix des amorces de PCR idéalement à proximité de la sonde de micro-puces (Etienne et al., 2004). Nous avons ainsi pu valider l’expression des isoformes de SNCA par cette technique. La validation par RT-PCR en temps réel nécessite un temps expérimental important en raison des mises au point et doit être renouvelée pour chaque analyse identifiant d’autres gènes d’intérêt. Par ailleurs, le choix de quelques gènes, dont l’expression est validée en RT-PCR en temps réel, apporte moins d’informations sur la pathogénie de la maladie que les aspects fonctionnels issus des voies métaboliques dérégulées.

C’est pourquoi par la suite nous avons décidé de valider les données de la plateforme Agilent par une autre plateforme de puces Illumina. Dans les différentes expériences ayant utilisées les 2 plateformes (études duplication SNCA, expansion SCA2 et stades cliniques), les pourcentages de gènes dérégulés communs entre les 2 plateformes étaient faibles (entre 11 et 27%) ; en particulier pour l’analyse des sujets SCA2 parkinsoniens ce qui pourrait expliquer la moins bonne concordance des voies canoniques entre les 2 plateformes (Paragraphe 4.3.2.2). De plus, les sens de variation des ratios d’expression peuvent être opposés (par exemple, concordance pour 78% des 373 gènes communs entre les plateformes Agilent et Illumina pour l’analyse du transcriptome du sujet dupliqué P59/04, Paragraphe 3.2.2). Ces données indiquent que la concordance entre les plateformes n’est pas parfaite, mais ces chiffres ont déjà été évoqués dans la littérature. En effet, les pourcentages des gènes dérégulés communs entre les plateformes (Affymetrix, Agilent, Illumina, Applied Biosystems et GE Healthcare) évoluent entre 9 et 34% alors que les fonctions et voies métaboliques dérégulées se recoupent dans 47 à 70% des cas dans une analyse par le logiciel IPA réalisée à partir des échantillons du projet MAQC (MicroArray Quality Control ; Shi

concluent donc sur l’intérêt d’utiliser des plateformes différentes apportant des informations sur la fonctionnalité et non pas uniquement sur les listes de gènes dérégulés (Li et al., 2009). De plus, les différentes plateformes apportent des visions complémentaires des processus biologiques impliqués et permettent ainsi d’identifier des différences plus subtiles dans l’expression des gènes (Pedotti et al., 2008). Ces données nous ont confortés dans le choix d’une seconde plateforme pour la validation des puces Agilent. Toutefois, elles nous incitent à la prudence dans l’interprétation des résultats. La plateforme Illumina nous semble de qualité moindre en raison d’une concordance moins bonne entre les sens de variations des ratios d’expression (sur et sous-expression) pour les transcrits représentés par plusieurs sondes (par exemple, concordance de 64% pour Illumina versus 90% pour Agilent dans l’expérience SCA2 et 81% versus 94% dans l’expérience portant sur le dupliqué SNCA). De plus, hormis pour cette dernière expérience qui comportait de réels réplicats biologiques (ARN du sujet P59/04 déposé sur 3 puces différentes), aucune autre analyse réalisée avec les puces Illumina ne permettait d’obtenir des gènes significativement dérégulés en appliquant une correction pour tests multiples de Benjamini & Hochberg ce qui indique une plus grande variabilité des résultats obtenus que sur la plateforme Agilent. De plus, il a été montré une moins bonne corrélation entre les résultats des puces Illumina et les RT-PCR en temps réel utilisant le SYBR® Green (Arikawa et al., 2008). Néanmoins, les puces Illumina présentent l’avantage d’utiliser une technique d’hybridation différente et de comporter des sondes représentant des ARN non codants comme les miRNA. Ainsi, l’utilisation de 2 plateformes permet d’obtenir des résultats plus exhaustifs sur le même processus biologique.

Au total, toutes ces données nous poussent envisager l’analyse du transcriptome comme une technique intéressante pour identifier des fonctions et voies métaboliques dérégulées, mais qu’elle ne peut être suffisante à elle seule pour identifier des biomarqueurs de la maladie qui nécessitent des tests plus stricts et d’autres techniques.

3. Apport du transcriptome des PBMC des formes