• Aucun résultat trouvé

Lors de l'introduction de biomarqueurs clinico-biologiques classiques et de biomarqueurs génétiques, deux phénomènes interviennent : 1- la surestimation de l'eet des gènes due en partie à la phase de sélection ; 2- la sous-estimation, de l'eet des variables clinico-biologiques classiques due à l'omission de gènes d'intérêt dans le modèle.

Les biomarqueurs issus du transcriptome n'ont pas encore été validés. Ils sont souvent mis en évidence sur un unique jeu de données, et leur eet est généralisé à d'autres jeux de données.

Or nos résultats montrent que la capacité prédictive de ces gènes est surestimée. Cet optimisme est d'autant plus grand que l'eectif de l'étude est faible et que le nombre de gènes étudiés est élevé. Ceci s'explique par le processus de sélection des gènes et par la trop faible puissance des études : par manque de puissance, les gènes sélectionnés sont essentiellement des faux positifs.

Si la proportion de gènes d'intérêt est trop faible, l'optimisme est d'autant plus fort. C'est un constat d'autant plus gênant que le nombre de gènes d'intérêt est rarement connu à l'avance.

Cependant, il peut être estimé et l'étude calibrée en fonction.

L'eet des variables clinico-biologiques classiques quant à lui n'est pas surestimé, car ces variables ont déjà été validées.

Ces remarques doivent être gardées à l'esprit lors de l'introduction des deux types de bio-marqueurs dans un même modèle. L'eet des biobio-marqueurs classiques ne doit pas être négligé, car contrairement à celui des gènes, il n'est pas surestimé, son importance étant essentiellement masquée par l'eet observé des gènes.

Quatrième partie

Perspectives de travail

Chapitre 6

Ouverture à l'analyse du protéome

Si l'étude du transcriptome permet de quantier le niveau d'expression des gènes d'une cellule à un moment donné, cette information n'est pas susante pour étudier et analyser la ré-gulation de l'expression d'un gène dans la cellule. En eet, après la traduction interviennent des modications post-traductionnelles, tels que l'ajout de glucides ou de lipides, le clivage et/ou le rassemblement de plusieurs chaînes polypeptidiques, qui peuvent déterminer la fonctionnalité de la protéine. Le nombre et la variété des protéines varient ainsi selon l'état et le moment de la vie de la cellule. L'ensemble des protéines dans une cellule à un moment donné constitue le pro-téome de la cellule. La comparaison du prol protéique d'échantillons susceptibles de présenter des diérences (sain/malade, type1/type2 de tumeur, etc) ouvre donc une voie supplémentaire en clinique pour l'identication de nouveaux biomarqueurs qui vont permettre un diagnostic ou un pronostic précoce, de classer des tumeurs, constituer de nouvelles cibles thérapeutiques, etc.

La première étude clinique a été conduite par Pétricoin et al. [115] dans le cadre du cancer de l'ovaire. En se basant sur 50 femmes atteintes et 50 femmes indemnes de la maladie, les auteurs ont montré qu'un ensemble de 5 pics permettait de distinguer les deux groupes de femmes. Cette première étude a d'abord généré un fort enthousiasme dans la communauté scientique...avant d'être critiquée pour son manque de rigueur [116]. Les diérences de prols protéiques mises en évidence étaient en réalité dues à des artefacts techniques et non biologiques. Malgré ses limites non contestées, cette étude a ouvert le champ d'application à d'autres cancers 1 et a eu le mérite de mettre l'accent sur l'importance de la phase de pré-traitement dans l'analyse du protéome.

1cf Henderson et Steele [117] pour une revue des études protéomiques menées en cancérologie.

6.1 Présentation du contexte biologique

6.1.1 Acquisition des données

Le matériel biologique utilisé pour les études de protéome est classiquement le plasma ou le sérum. Deux technologies majeures sont disponibles : les gels d'électrophorèse 2D, et la spectrométrie de masse.

6.1.1.1 Electrophorèse bidimensionnelle

L'électrophorèse bidimensionnelle permet de séparer et visualiser des centaines, voire des milliers de protéines sous forme de taches sur un gel. Déposées sur un gel, les protéines contenues dans les extraits cellulaires sont séparées dans la première dimension en fonction de leur charge, puis en fonction de leur taille moléculaire dans la deuxième dimension. Les gels obtenus sont ensuite colorés puis numérisés, et l'abondance relative des protéines issues de deux échantillons diérents peut être comparée sur la base des intensités de coloration des protéines séparées.

6.1.1.2 Spectrométrie de masse

La spectrométrie de masse repose également sur la séparation puis la détection des protéines présentes dans l'échantillon biologique. Après purication, l'échantillon biologique est déposé sur une lame d'acier inoxydable, prétraitée pour que la surface puisse retenir préférentiellement des classes particulières de protéines en fonction de leurs propriétés biochimiques (protéines hydrophobes, protéines anioniques ou cationiques, protéines liant des métaux, etc). Selon le type de surface utilisé, deux types de spectrométrie de masse existent : SELDI-TOF (Surface Enhanced Laser Desorption Ionisation - Time Of Flight) ou MALDI-TOF (Matrix Assisted Laser Desorption Ionisation - Time Of Flight) [118, 119]. L'échantillon biologique est mélangé avec un acide (matrice d'absorption d'énergie) qui permet sa cristallisation lorsqu'il sèche. Le cristal ainsi obtenu est placé dans un tube à vide et soumis à un rayonnement laser qui détache et ionise les protéines. Ces molécules de protéines ionisées en phase gazeuse sont soumises à un champ électrique qui produit une accélération des ions dans le tube. Enn, un détecteur au bout du tube enregistre l'intensité et le temps de vol de chacune des molécules. Par une relation mathématique simple, à chaque temps de vol tcorrespond un rapport de masse sur charge m/z (mesuré en Daltons) qui va permettre d'identier la protéine : t = Dp

m/2zV, où V est la tension du champ électrique appliqué, et D une constante de proportionnalité.

Un spectre est constitué de l'enregistrement du nombre d'ions (intensité) qui arrivent sur le détecteur pour un ensemble de valeurs de m/z. La gure 6.1 illustre le principe de la spectromé-trie de masse. C'est cette dernière technique qui est actuellement la plus utilisée en protéomique clinique.

Fig. 6.1: Principe de la mesure en spectrométrie de masse

6.1.2 Pré-traitement des données

Comme l'analyse des biopuces, celle des spectres issues de spectrométrie de masse nécessite une phase de pré-traitement en plusieurs étapes pour soustraire de la mesure les variations qui ne sont pas des variations biologiques.

La première étape est une étape de calibration qui permet de faire correspondre le temps de vol observé à une valeur de m/z, en se basant sur un calibrant, échantillon qui contient uniquement cinq ou six protéines de masses connues.

On considère ensuite qu'un spectre est constitué par la superposition de trois composantes : le signal des pics (c'est le signal d'intérêt), un bruit de fond lisse appelé aussi ligne de base, et un bruit aléatoire de mesure. Les phases de soustraction de la ligne de base et de débruitage permettent de se rapprocher du "vrai" signal. La gure 6.2 montre l'eet de la soustraction de

Fig. 6.2: Visualisation sur un spectre des eets de la soustraction de la ligne de base.

la ligne de base sur un spectre. En vert est représenté le spectre brut, en rouge la ligne de base, et en bleu le signal après soustraction de la ligne de base.

Une fois cette étape eectuée, et pour être en mesure de comparer des spectres de patients diérents, les pics jugés informatifs doivent être détectés puis alignés pour faire se correspondre les pics préalablement détectés et jugés identiques d'un spectre à l'autre.

6.1.3 Traitement des données

L'analyse du protéome introduit un degré de complexité supplémentaire par rapport à l'étude du transcriptome. En eet, avec la technologie des biopuces, les variables d'intérêt potentielles sont connues a priori : ce sont les gènes correspondant aux sondes, dont l'emplace-ment sur la puce et l'identité sont connus. Le nombre de variables à étudier est donc déni. Dans l'analyse du protéome en revanche, le nombre de variables à étudier n'est pas connu a priori.

Une étape supplémentaire d'identication des variables est nécessaire, puisque les pics qui cor-respondent à des protéines doivent êtres identiés, en les diérenciant des pics correspondant à du bruit.

Cette particularité des données protéomiques conduit à deux types d'approches pour leur analyse. La première consiste à travailler sur un ensemble de pics identiés dans un certain

pour-centage des spectres, en assignant une valeur nulle aux pics non détectés dans un spectre. Les mêmes méthodes que celles utilisées pour l'étude du transcriptome peuvent alors être utilisées, avec les mêmes enjeux statistiques dus au "éau de la dimension". Le second type d'approche permet de contourner l'étape de détection des pics en utilisant l'analyse fonctionnelle qui prend comme unité statistique non plus les pics, mais le spectre tout entier comme une fonction. La méthodologie des ondelettes est particulièrement adaptée à ce type de données [120, 121, 122].