• Aucun résultat trouvé

L’analyse de ces protéomes entiers avec la méthode de quantification sans marquage mise en place s’est ainsi révélée performante et utile pour avancer dans la compréhension du fonctionnement de l’IL-33 au sein des cellules endothéliales. Elle nous a permis d’accéder à une large couverture du protéome et de quantifier autour de 5000 protéines grâce au fractionnement de l’échantillon protéique sur gel 1D, tout en conservant une précision de quantification correcte. L’ensemble de cette étude a été réalisée via le logiciel MFPaQ, qui a démontré son efficacité pour quantifier de façon robuste et relativement rapide plusieurs milliers de protéines par extraction automatique des signaux peptidiques associés. Cependant, a posteriori, la comparaison des protéines variantes caractérisées dans le cas des stimulations IL-33, IL1 , et TNF /INF a permis de mettre en évidence la présence de faux-positifs et de faux négatifs dans ces listes de variants. En effet, le logiciel permet à l’utilisateur, via une interface très synthétique, de visualiser les signaux extraits pour chaque ion peptidique dans les différentes conditions, et éventuellement de réaliser une validation manuelle de la quantification en dé-sélectionnant certains peptides mal quantifiés. Ces erreurs de quantification sont diverses et sont liées à la complexité des cartes peptidiques LC-MS (massifs isotopiques chevauchants, interférences, présence de peptides isobariques, non reproductibilité des temps de rétention, signaux de faible intensité…). Cependant, dans le cadre d’une étude à grande échelle portant sur plusieurs milliers de protéines, la validation manuelle des signaux associés aux protéines variantes devient rapidement impraticable. L’application d’un test statistique simple (test de Student) et d’un seuil de ratio pour la définition des protéines modulées nous a permis dans une certaine mesure d’éliminer ces faux-positifs. Malgré tout, un certain taux d’erreur persiste probablement dans les résultats, et il sera donc nécessaire d’optimiser encore le traitement bioinformatique des données, à la fois au niveau de l’extraction des signaux MS et au niveau du traitement statistique (cf Conclusion générale et Perspectives).

Cette méthode de quantification nous a tout de même permis de mettre en évidence plusieurs dizaines de protéines très clairement induites dans les cellules endothéliales suite à la stimulation IL-33. Par ailleurs, l’application de méthodes quantitatives nous a également aidés à caractériser les formes maturées d’IL-33 suite au clivage par des protéases de neutrophiles. Au final, ces données ont contribué à mieux comprendre le rôle et les mécanismes d’action de l’IL-33. Suite à un traumatisme ou à une infection, les cellules endothéliales lésées ou nécrosées pourraient libérer l’IL-33 présente dans leur noyau (Cayrol and Girard 2009). Les neutrophiles sont alors rapidement recrutés au niveau des tissus endommagés et libèrent dans l’espace extracellulaire différentes protéases à sérine, comme l’élastase et la cathepsine G. L’élastase clive alors l’IL-33 pleine taille en une forme maturée l’IL-3399-270, et la cathepsine G génère l’IL-3395-270 et l’IL-33109-270. Ces nouvelles formes présentent une activité supérieure à la forme pleine taille et permettraient ainsi d’activer fortement la réponse inflammatoire en activant différentes cellules de l’immunité innée et les cellules endothéliales. L’analyse de la réponse de ces cellules endothéliales à la stimulation par l’une des formes clivées de l’IL-33 (IL-3395-270) a en effet permis de mettre en évidence l’induction d’un phénotype pro-inflammatoire très net. La cytokine semble pour cela stimuler la voie NFκB, permettant ainsi d’activer des gènes cibles de la réponse inflammatoire. Elle joue cette façon un rôle dans l’activation de ces cellules pour le recrutement de cellules immunitaires au niveau du site de l’inflammation grâce à la production de chimiokines et à l’expression de molécules d’adhésion. Les mécanismes de maturation et de présentation des antigènes sont également activés dans ces

RESULTATS – PARTIE III. Etude du rôle de l’IL-33 dans les cellules endothéliales

174

conditions. Elle pourrait par ailleurs jouer un rôle dans la mise en place d’une régulation de la coagulation sanguine, qui accompagne la réponse inflammatoire. Ce phénotype est comparable à celui obtenu suite à la stimulation des cellules endothéliales avec l’IL-1β. L’IL-33 et l’IL-1β semblent ainsi induire les mêmes voies et les mêmes gènes dans les cellules endothéliales. Bien qu’il soit possible qu’elles jouent parfois un rôle redondant dans certaines conditions physiologiques, elles se distinguent par leur mode de libération et leur mode d’activation qui utilisent des mécanismes différents. Comme décrit précédemment, l’alarmine IL-33 est en effet relarguée dans l’espace extracellulaire suite à des dommages cellulaires des cellules endothéliales et est maturée en formes « super-actives » par des protéases de neutrophiles pour alerter de nombreux acteurs du système immunitaire inné. L’IL-1β est quant à elle produite par les cellules de l’immunité innée suite à la détection de motifs moléculaires portés par les pathogènes (PAMP, « pathogen associated molecular partterns ») ou de signaux de danger ou alarmines (DAMP, « danger associated molecular pattern »). Cette détection est assurée par un complexe multiprotéique de l’immunité innée, l’inflammasome (Gross, Thomas et al. 2011), qui contient la caspase-1. La caspase-1 assure alors la maturation de la forme pleine taille pro-IL-1β, non active, en IL-1β active qui va pouvoir être sécrétée par plusieurs voies non conventionnelles (incluant l’exocytose de lysosomes sécrétoires, le détachement de microvésicules de la membrane plasmique, le relargage d’exosomes et la libération directe au travers de pores (Lopez-Castejon and Brough 2011)) et induire une réponse inflammatoire. Les deux cytokines ne sont ainsi pas libérées ni activées dans les mêmes conditions cellulaires, et doivent de cette façon assurer chacune leur rôle pro-inflammatoire dans des conditions particulières.

Au cours de cette étude, nous n’avons en revanche pas mis en évidence un rôle intracellulaire de l’IL-33. Cela ne nous permet pas pour autant d’exclure totalement qu’elle joue un rôle à l’intérieur de la cellule. Il est en effet possible que les conditions expérimentales dans lesquelles nous nous sommes placées (niveau d’extinction de l’IL-33) ne soient pas idéales pour observer ces effets. De plus, l’analyse réalisée ne nous permet peut-être pas de mettre en évidence les variations d’expression engendrées qui peuvent être faibles et concerner des protéines très peu abondantes.

L’IL-33 est par ailleurs capable de cibler et d’activer de nombreuses cellules de l’immunité innée, comme les mastocytes, les basophiles ou encore les cellules lymphoïdes innées de type 2 (Schmitz, Owyang et al. 2005; Ali, Huber et al. 2007; Cherry, Yoon et al. 2008; Price, Liang et al. 2010; Chang, Kim et al. 2011). Il sera alors intéressant, en perspective de cette étude, d’étudier plus précisément le rôle de la cytokine dans l’immunité innée en mettant en évidence les protéines modulées par l’IL-33 dans ces cellules cibles.

175

CONCLUSION GENERALE ET

PERSPECTIVES

Dans cette thèse, j’ai tenté d’illustrer au travers de différentes applications, l’intérêt des approches de protéomique globale par nanoLC-MS/MS de type « shotgun », permettant de caractériser sans a priori des mélanges de protéines. Associées à l’utilisation d’une méthode quantitative sans marquage basée sur l’extraction des signaux MS, ces approches analytiques nous ont permis d’obtenir des informations diverses, à l’échelle de la protéine unique (caractérisation des sites de clivages lors de la maturation d’une cytokine), à l’échelle de complexes protéiques (identification de partenaires d’une protéine appât d’intérêt), ou à l’échelle de protéomes entiers (étude des modulations d’expression des protéines à grande échelle). Tout au long de ma thèse, les méthodes protéomiques ont évolué, avec des instruments de plus en plus performants et des processus bioinformatiques plus élaborés. Malgré cela, les approches de protéomique globale ont à faire face à des défis analytiques énormes, en particulier dans le contexte de la caractérisation de protéomes entiers, ou de la recherche de biomarqueurs. Sur ces mélanges de très grande complexité et de gamme dynamique très large, les limitations de la protéomique « shotgun » ont largement été mises en avant dans la littérature récente, et les approches ciblées ont parallèlement gagné en popularité, principalement grâce à leur meilleure sensibilité. Cette partie a pour objectif de dresser un bilan des études réalisées et d’évoquer les enjeux techniques ainsi que les perspectives apportées par les développements récents dans le domaine de la protéomique.

Caractérisation de complexes et recherche de partenaires : vers des méthodes d’analyse simplifiées et robustes

Si les approches de protéomique globale peuvent être remises en question dans certains contextes d’analyse, un des domaines où elles sont probablement le plus utiles et efficaces concerne la caractérisation de complexes et les expériences d’AP-MS. En effet, ces expériences sont très souvent des études de « découverte » plutôt que des études de « validation », généralement entreprises pour découvrir de nouveaux partenaires non suspectés d’une protéine d’intérêt, et nécessitent donc une caractérisation sans a priori des échantillons. De plus, ces échantillons, bien que contenant souvent plusieurs centaines de protéines, sont néanmoins de complexité et de gamme dynamique limitées et accessibles à une analyse efficace par une approche « shotgun ». Il faut noter cependant que cela est directement lié au fait que l’approche comporte une composante biochimique cruciale, qui est l’étape de purification par affinité, et que le succès de ces expériences dépend autant de la qualité des étapes biochimiques que de celles de l’analyse protéomique en elle- même. On peut penser que l’une et l’autre sont complémentaires jusqu’à un certain point : une immunoprécipitation peu efficace n’aboutissant qu’à un enrichissement moyen avec un bruit de fond important demandera une analyse protéomique plus sensible et une quantification efficace pour définir les partenaires probables, alors qu’au contraire, une immunopurification très performante ne nécessitera qu’une analyse MS assez basique de l’échantillon. Ces deux étapes restent cependant essentielles et lorsqu’ elles sont efficaces, les approches d’AP-MS sont souvent performantes d’un

CONCLUSION GENERALE ET PERSPECTIVES

176

point de vue biologique pour élucider des mécanismes et découvrir de nouveaux réseaux d’interactions.

Une partie de ma thèse a été consacrée à l’analyse de complexes impliquant des facteurs nucléaires, les protéines THAP, identifiées dans les cellules endothéliales humaines. Au cours de cette étude, l’emploi de méthodes de quantification sans marquage s’est avéré essentiel pour pouvoir identifier les partenaires spécifiques de plusieurs protéines THAP (THAP1, THAP3, THAP7 et THAP11). Des partenaires spécifiques communs (le facteur de prolifération cellulaire HCF-1 et la glycosyl-transférase OGT) ont pu être mis en évidence et ont à terme permis de mieux comprendre le mécanisme d’action de ces facteurs de transcription dans les cellules endothéliales humaines. Pour cette étude, les complexes immunopurifiés ont été fractionnés sur gel SDS-PAGE en amont de l’analyse nanoLC-MS/MS dans le but d’identifier correctement les protéines faiblement abondantes interagissant éventuellement avec les protéines THAP. A l’heure actuelle, réaliser un tel fractionnement dans ce type d’étude n’est souvent plus nécessaire. Il complique en effet le traitement des données post-acquisition, augmente le temps d’analyse, introduit des biais supplémentaires et donc potentiellement des erreurs dans la quantification, sans pour autant être largement bénéfique pour l’identification des protéines. Les spectromètres de masse récents (tel que le LTQ-Orbitrap Velos) sont en effet suffisamment performants pour identifier les quelques centaines de protéines présentes dans des échantillons immunopurifiés en une analyse unique. Pour ces raisons, l’étude des interactants du facteur général de la transcription TFIIH chez la souris a été réalisée en une seule acquisition nanoLC-MS/MS. Elle a abouti à la découverte de plusieurs nouveaux partenaires, dont la protéine ELL, ce qui a permis d’aller plus loin dans la compréhension des mécanismes cellulaires assurés par TFIIH. Au final, dans cette expérience, le très bon enrichissement obtenu pour le complexe TFIIH, probablement lié à la bonne stabilité du complexe ainsi qu’à l’immunopurification à l’aide d’anticorps très affins de type GFP-trap, a permis de caractériser efficacement les partenaires en un temps d’analyse relativement réduit. Le fait de pouvoir réduire les temps d’analyse a permis de mettre au point les conditions expérimentales de façon plus souple, et de réaliser facilement des réplicats biologiques. En revanche, les analyses nanoLC-MS/MS de ces différents échantillons biologiques ont été réalisées indépendamment, à des intervalles de temps assez longs. Cela pose le problème de la mauvaise reproductibilité des analyses nanoLC-MS/MS sur la durée, qui rend difficile la comparaison directe des signaux MS enregistrés pour ces différents réplicats biologiques. Pour chacun d’entre eux, des analyses quantitatives indépendantes immunopurification/contrôle ont été réalisées, et les listes de protéines variantes ont ensuite été recoupées entre les réplicats biologiques pour définir les protéines partenaires candidates. Il serait plus rapide et plus efficace de traiter ces réplicats d’expériences via des analyses nanoLC-MS/MS rapprochées, ce qui permettrait d’appliquer directement une méthode statistique sur les données quantitatives pour mesurer la significativité des résultats et aider à l’identification des partenaires protéiques bona fide. En conclusion, l’analyse nanoLC-MS/MS d’échantillon immunopurifiés apparaît comme un processus relativement simple, rapide, et robuste, qui doit pouvoir renseigner sur l’abondance relative immunopurification/contrôle de l’ensemble des protéines de l’échantillon, non pas seulement de la protéine appât ou de quelques protéines cibles comme un western-blot. L’application de méthodes sans marquage, faciles à mettre en œuvre et clairement suffisantes pour caractériser des variations de grande amplitude, semble idéale pour ce type d’expérience.

CONCLUSION GENERALE ET PERSPECTIVES

177

Analyse quantitative de protéomes complexes : vers une évaluation objective et une optimisation des méthodes bioinformatiques

Les méthodes de protéomique quantitative globale peuvent également être utilisées pour analyser des protéomes complexes et déterminer les modulations d’expression protéique engendrées par un stimulus donné. Elles doivent alors répondre à des enjeux plus complexes en termes de gamme dynamique et de quantification, et sont souvent concurrencées par d’autres approches globales (notamment transcriptomiques, de type séquençage RNA haut débit de nouvelle génération, offrant une bien meilleure couverture analytique) ou ciblées (notamment de type MRM, offrant une meilleure précision quantitative et une meilleure sensibilité). Elles restent cependant les seules à permettre de quantifier directement des protéines à très grande échelle, et méritent à ce titre d’être développées et optimisées. En dehors de la limitation en gamme dynamique qui demeure un problème important (cf ci-dessous), un défi important réside également dans le traitement bioinformatique des données pour réaliser la quantification.

Dans ce manuscrit, j’ai présenté des données quantitatives exclusivement obtenues à l’aide du logiciel MFPaQ. Au-delà du côté pratique associé à l’utilisation d’un logiciel « maison » (permettant l’organisation et le rapatriement automatique des données de spectrométrie de masse générées au laboratoire, la maîtrise des critères utilisés pour valider préalablement les protéines quantifiées, la possibilité d’implémenter des routines et des macros « à façon » répondant spécifiquement aux besoins de l’utilisateur, etc…), l’extraction de XIC via MFPaQ nous a semblé représenter une approche basique mais efficace pour la quantification des protéines identifiées par nanoLC-MS/MS. C’est donc cette méthode qui a été employée dans le but d’étudier à large échelle les cellules endothéliales dans des conditions inflammatoires induites par différentes cytokines, que ce soit via l’analyse du glycoprotéome ou celle du protéome total. Dans un premier temps, une stimulation « modèle » a été réalisée avec des cytokines bien caractérisées (TNFα/IFNγ), dans le but d’évaluer et de valider la méthode, avant de passer à l’étude du phénotype IL-33. L’analyse des données issues de plusieurs réplicats nanoLC-MS/MS réalisés sur le même échantillon montre que la méthode est globalement assez précise, puisque que sur toute la population de protéines quantifiées, le coefficient de variation médian se situe à 7%. Il faut cependant noter qu’il existe un nombre non négligeable de valeurs de CV extrêmes, correspondant à des protéines pour lesquelles le signal a été extrait de façon non reproductible dans un des réplicats.

Ce problème renvoie à celui des variants faux-positifs et faux-négatifs, évoqué précédemment. Même si le taux global d’erreur (« Family Wise Error Rate », FWER, soit le taux de protéines identifiées variantes à tort par rapport au nombre total de protéines étudiées) est relativement faible, le taux de fausse découverte (« False Discovery Rate », FDR, taux de variants faux-positifs par rapport au nombre de protéines déclarées variantes) est probablement non- négligeable. Il est certainement possible de contrôler ce FDR via l’application de méthodes statistiques plus élaborées et l’acquisition d’un nombre plus important de réplicats. Cependant, il est important de pouvoir l’estimer et d’identifier les sources d’erreur afin de pouvoir améliorer les méthodes. Si on considère les données brutes enregistrées par le spectromètre de masse, il est possible que de nombreux peptides soient non quantifiables, par exemple à cause d’interférences avec une d’autres espèces du fait de la grande complexité des mélanges peptidiques et de l’encombrement sur une carte LC-MS. Cependant, de nombreuses erreurs sont également dues au traitement bioinformatique lui-même, et il arrive que certaines protéines soient mal quantifiées alors

CONCLUSION GENERALE ET PERSPECTIVES

178

que les données existantes pourraient permettre une quantification correcte (typiquement lorsqu’une erreur d’extraction est commise sur un des peptides de la protéine, alors que les autres peptides sont correctement quantifiés). Il est difficile d’évaluer a priori l’étendue de ce type de problème sur une étude à grande échelle, dans la mesure où les variants biologiques réels ne sont pas strictement définis. La présence de faux-positifs ou de faux-négatifs a pu être mis en évidence lors de la comparaison des résultats obtenus sur la stimulation des HUVEC avec les différentes cytokines (TNFα/IFNγ, IL-1 , IL-33), où des résultats non cohérents sur certaines protéines caractérisées dans les différentes expériences ont été corrigés manuellement, après vérification visuelle des signaux enregistrés. De plus, la connaissance du contexte biologique et les données de la littérature ont permis de repérer des protéines de l’inflammation mal quantifiées et déclarées non- variantes, ainsi que des protéines a priori non pertinentes dans la réponse inflammatoire, et définies à tort comme variantes. Ce type d’erreur reste marginal, mais il est important de les détecter afin d’identifier les problèmes et d’améliorer les traitements bioinformatiques (extraction du signal, contrôle de la qualité des XIC, sélection des peptides quantifiables, élimination des cas aberrants, etc…). A ce titre, le travail réalisé sur ces études quantitatives nous a permis d’identifier certains défauts du logiciel MFPaQ, qui pourront donc être évités dans les nouveaux outils en développement dans l’équipe.

Enfin, au-delà de la détection d’erreurs ponctuelles propres à un outil bioinformatique particulier, il apparaît important de pouvoir mesurer précisément et objectivement les performances de différentes méthodes bioinformatiques, au travers de métriques quantifiables, comme la sensibilité ou le FDR. Une telle évaluation est rarement réalisée dans la littérature. Elle nécessite en effet d’une part de connaître précisément les protéines variantes de l’échantillon, et d’autre part, de disposer d’un échantillon contenant un nombre suffisamment élevé de variants pour avoir une évaluation statistique des erreurs possibles. Initialement, l’expérience réalisée en stimulation TNFα/IFNγ était censée représentée une situation modèle bien caractérisée, et nous a servi de support pour comparer sommairement MFPaQ avec d’autres logiciels d’analyse quantitative efficaces comme Progenesis LC-MS. Cependant, même sur une situation de ce type, si on peut facilement valider les variations majeures attendues (par exemple, VCAM1, CMH, SélectineE, etc…), il est difficile de définir avec certitude les vrais positifs et les vrais négatifs au voisinage des valeurs seuil, et de calculer précisément un FDR. Des études comparatives sont à présent en cours dans l’équipe pour comparer différentes méthodes et logiciels d’analyse quantitative sur la base de mesures fiables de FDR et de sensibilité, réalisées à partir de mélanges standards complexes et bien