• Aucun résultat trouvé

L’analyse sans a priori est une analyse en aveugle dont l’objectif est de donner une cartographie du protéome d’un échantillon. C’est une analyse non ciblée où seuls les ions précurseurs les plus intenses d’un scan de surveillance sont sélectionnés pour être fragmentés. Elle est aussi appelée « shotgun proteomics ». Les peptides identifiés à partir des spectres MS/MS sont validés par des modèles statistiques et quantifiés de manière différentielle à l’aide d’outils dédiés. Le principe et la méthodologie de l’analyse sans a priori sont décrits dans les paragraphes suivants.

1.2.1. Le séquençage peptidique et la recherche dans les bases de

données

Le séquençage peptidique est la détermination de la structure en acides aminés d’un peptide. Comme nous l’avons vu précédemment, les protéines sont digérées en peptides par une hydrolyse enzymatique, souvent réalisée par de la trypsine. Cette enzyme clive préférentiellement en position C-terminale de deux acides aminés basiques : la Lysine (K) et l’Arginine (R). La fragmentation des peptides a lieu le long de la liaison peptidique (Figure 6). Ce qui a donné lieu à l’établissement d’une nomenclature par Roepstorff et Fohlman en 1984

24, qui a été ensuite simplifiée par Biemann en 1990 25 (Figure 6).

Figure 6 : Nomenclature de la fragmentation peptidique, d'après Biemann, 1990

Dans ce contexte, les fragmentations se déroulent à basse énergie de collision et suivent le modèle du « proton mobile » décrit par Dongré et al. en 1996 26 ; celui-ci montre la fragmentation initiée par le proton au niveau des liaisons peptidiques. Dans le cas de peptides trypsiques, l’état de charge principal est z=+2. Il est intéressant de noter qu’une charge est souvent portée par l’acide aminé basique en position C-terminale et que l’autre

est portée par l’extrémité N-terminale du peptide. L’énergie pour transférer cette charge le long de la chaîne peptidique est faible et favorise l’obtention d’ions de type y ou b 27 facilitant la lecture des spectres MS/MS et la prédiction de la séquence en acides aminés.

A partir du spectre MS/MS d’un peptide, l’utilisation des bases de données permet de déterminer sa séquence en acides aminés. Le peptide ainsi reconstitué permet d’identifier la protéine d’intérêt. Si l’organisme d’intérêt n’est pas séquencé et donc non référencé dans les bases de données, la séquence du peptide doit être déterminée de novo à partir des spectres MS/MS obtenus ou bien par homologie de séquence.

Les bases de données dans lesquelles sont effectuées ces recherches, sont appelées banques protéiques. Elles sont construites à partir des données de génomiques triées, révisées et annotées. La banque de données Uniprot (www.uniprot.org) est probablement la plus utilisée de par son exhaustivité et sa qualité au niveau de l’annotation. La recherche dans ces bases de données s’effectue par alignement entre les spectres MS/MS théoriques et les spectres MS/MS mesurés. Cette approche est appelée « Peptide Fragment Fingerprinting » 28. Différents algorithmes de recherche ont été développés 29, fonctionnant globalement de la même façon mais ayant une approche différente dans l’attribution du score donné à l’alignement entre le spectre théorique et le spectre expérimental. Protein Prospector, utilisé au cours de de travail de thèse, a été développé par l’université de San Francisco et est fondé sur un score calculé à partir de la significativité des correspondances entre spectres obtenus et spectres théoriques 30,31.

La recherche dans les bases de données nécessite une mesure précise des masses issues de spectres MS/MS. C’est pourquoi ces spectres sont acquis sur des appareillages dont le couplage implique des analyseurs avec une grande capacité de résolution, dits de haute résolution. Ceux-ci étant principalement utilisés en mode d’acquisition d’information dépendante.

1.2.2. Le mode DDA : Data Dependant Analysis

L’acquisition dépendante d’information en mode DDA (« Data Dependant Analysis »), est la méthode de choix pour réaliser une analyse protéomique sans a priori. L’acquisition se déroule en deux temps. Dans un premier temps, l’acquisition d’un scan de surveillance est réalisée. Dans un deuxième temps, l’acquisition de spectres MS/MS sur les ions précurseurs sélectionnés est générée selon les données récoltées lors du premier scan.

Les appareillages mis en jeu impliquent le plus souvent un premier analyseur de type quadripôle ou trappe linéaire et un second analyseur haute résolution de type Orbitrap ou Temps de vol. Deux publications du groupe de Matthias Mann illustrent le potentiel du couplage quadripôle Orbitrap en identifiant plusieurs milliers de protéines (2500 puis 5000) dans des lysats cellulaires 32,33. La Figure 7-A montre le schéma du QExactive HF

couplage quadripôle-Orbitrap. Typiquement, une analyse DDA sur ce type d’instrument est nommée expérience TopN (N est le nombre d’ions précurseurs sélectionnés) dont le principe est le suivant (Figure 7-B) :

- Scan de surveillance : le quadripôle fonctionne comme un guide d’ion et les ions sont analysés dans l’Orbitrap à haute résolution (typiquement 70 000 pour m/z=200) - Sélection : Les N ions les plus intenses (entre 10 et 20 selon la complexité de la

matrice) sont filtrés dans le quadripôle

- Fragmentation des ions sélectionnés dans la cellule de collision HCD (Higher-energy collisional dissociation)

- Analyse des fragments dans l’Orbitrap (typiquement à une résolution de 17 500 pour m/z=200)

Figure 7 : Principe de l’analyse DDA sur un Q Exactive, d'après Scheltema et al, 2014

Dans un instrument de type qTOF, l’analyse DDA est conduite selon le même principe 34. Cependant, bien que le pouvoir de résolution du TOF soit moins élevé que celui de l’Orbitrap, ce couplage a l’avantage d’être plus rapide (jusqu’à 50 MS/MS par secondes) et d’avoir une gamme dynamique plus importante.

Quel que soit l’instrument, la sélection des ions est basée sur leur intensité mesurée lors du scan de surveillance. Systématiquement ce sont les ions les plus abondants qui sont sélectionnés pour être fragmentés. C’est pourquoi, pour permettre d’accéder aux ions les moins abondants, le principe d’exclusion dynamique a été adopté. Celui-ci permet de ne pas

sélectionner à nouveau le même rapport m/z pendant un temps donné afin d’aller sélectionner des ions moins intenses qui pourraient correspondre à des peptides co-élués avec un peptide très concentré. Ce principe a permis d’augmenter considérablement la profondeur des indentifications du protéome lors d’une analyse conduite en utilisant le mode DDA.

L’acquisition DDA est une méthode très puissante pour l’identification de protéines. De plus de nombreuses approches ont été développées afin de pouvoir quantifier les protéines identifiées.

1.2.3. Les stratégies de quantification principalement utilisées lors

d’une analyse sans a priori

Dans une stratégie d’approche spectre centrée, la quantification des protéines est principalement réalisée de façon relative. Cela consiste à comparer le taux d’expression des protéines entre plusieurs conditions, généralement grâce à un marquage isotopique différent pour chaque condition. Le marquage métabolique et le marquage chimique sont les plus utilisés.

Le marquage métabolique est basé sur l’incorporation, aux protéines, d’azote 15 ou d’acides aminés marqués par des isotopes stables (15N, 13C). Cette approche, appelée SILAC pour Stable Isotope Labelling by Amino acids in Cell culture 35, consiste à comparer deux échantillons : l’un cultivé dans un milieu « marqué » comportant des acides aminés marqués et l’autre cultivé dans un autre milieu sans marquage isotopique. Les acides aminés marqués sont ainsi incorporés au sein des protéines lors de leur synthèse. Les deux échantillons, marqué et non marqué, sont ensuite mélangés et traités ensemble. Une quantification relative d’un échantillon par rapport à l’autre peut être effectuée (Figure 8). Cette stratégie a été utilisée dans le screening de biomarqueurs du cancer pancréatique 36. Dans cette étude, les auteurs ont ajouté des acides aminés marqués à une culture de cellules saines. Cette culture est ensuite comparée à une culture de cellules cancéreuses. Ils ont ainsi pu quantifier 195 protéines parmi lesquelles 145 étaient différentiellement

exprimées.

Figure 8 : Principe de la stratégie de quantification SILAC, d'après Ong et al, 2002

De nombreux types de marquages chimiques sont possibles. Ils peuvent se faire sur les différentes fonctions réactives d’une protéine, comme les amines (en N-terminal de la protéine ou des peptides, sur la chaîne latérale des lysines), les acides carboxyliques (en C-terminal, sur les chaînes latérales des acides aspartique et glutamique) ou encore sur les thiols des chaînes latérales des cystéines. A titre d’exemple, le réactif Tandem Mass Tag® 37

(ou TMT®) est commercialisé par la société Thermo Scientific et permet une quantification multiplexée jusqu’à 10 conditions différentes. Comme pour l’approche précédente, les différents échantillons sont mélangés et analysés simultanément. En revanche, le marquage est constitué d’un groupe rapporteur et d’une balance dont la somme donne une masse fixe. Le premier analyseur va donc laisser passer simultanément les 10 peptides isobariques marqués permettant de gagner en temps de cycle par rapport à l’approche SILAC. La liaison entre la balance et le groupe rapporteur étant rompue lors de la fragmentation, la quantification est réalisée à partir des fragments marqués différentiellement.

Cependant, de nombreuses revues relatent qu’une grande partie des études de protéomique globale liées à la compréhension des systèmes biologiques est réalisée sans marquage, par la méthode dite « label free » 38–41. Cette méthode est en effet applicable à tous types d’échantillons, facile à mettre en place et moins onéreuse. Elle nécessite en revanche des outils parfois complexes d’analyse et de validation des résultats. La quantification peut se faire à partir de l’intensité ou de l’aire du pic mesuré ou bien par décompte de spectres. Cependant, plusieurs entités peuvent représenter une protéine, (i) les ions précurseurs différentiellement chargés pour un même peptide ou (ii) plusieurs peptides pour une même protéine. Il est nécessaire de synthétiser ces données en un seul résultat représentant le niveau d’expression de la protéine afin de répondre aux problématiques de recherche de biomarqueurs ou de biologie des systèmes. Des modèles probabilistes n’ont cessé d’être introduits dans les analyses protéomiques quantitatives et ont permis d’améliorer la précision et la sensibilité des résultats. Ces modèles ainsi que les différents outils pour le traitement des données sont détaillés dans un certain nombre de revues 42,43. Récemment, le logiciel

open source Skyline 3.0® 44, permet la mise en place à l’aide du package R MSstat®, d’une approche statistique 45 qui a été utilisée dans ce travail de thèse et explicitée dans le chapitre 3.

Quelle que soit la stratégie de quantification choisie, celle-ci reste relative et ne permet pas de répondre à toutes les problématiques posées par l’analyse protéomique. De plus, le principe même de l’acquisition en mode DDA peut engendrer des biais analytiques dont la description est donnée dans le paragraphe suivant.

1.2.4. Les limites de l’approche spectre centrée

Garantir à la fois l’acquisition d’un grand nombre de spectres MS/MS et leur excellente qualité est l’enjeu majeur de l’approche spectre centrée. La Figure 9 synthétise la mise en œuvre de cette stratégie afin de mieux comprendre et appréhender les étapes limitantes dans une analyse en aveugle.

Figure 9 : Résumé de la mise en œuvre d'une analyse spectre centrée

La qualité des spectres MS/MS peut être altérée à cause de phénomènes de co-fragmentation. Ces phénomènes observés résultent de la fragmentation simultanée de deux ions isolés dans la même fenêtre du quadripôle (en général de 0.7 Th) conduisant à un seul spectre MS2 pour deux ions correspondants probablement à deux peptides différents. Ce phénomène explicité dans une étude du groupe de Mattias Mann 46 peut être largement atténué si un soin particulier est apporté à la préparation des échantillons. Il est possible de simplifier l’échantillon soit à l’étape protéique (par exemple par séparation sur gels SDS-PAGE 47) soit à l’étape peptidique par fractionnement (par exemple par Extraction sur Phase Solide, SPE 48) ou en optimisant la séparation chromatographique 22. La préparation d’échantillon ne sera pas détaillée ici.

Le biais majeur dans l’analyse DDA est le sous-échantillonnage, en particulier dans des matrices complexes où l’abondance des protéines est sur une gamme dynamique de plusieurs ordres de magnitude. Des études montrent la façon dont les peptides les moins abondants sont parfois sélectionnés de manière aléatoire voire jamais sélectionnés, créant ainsi le phénomène des « missing-values » (valeurs-manquantes) alors que les ions les plus abondants sont parfois sélectionnés de manière redondante 49–51. Une simplification de la matrice par fractionnement avec une séparation chromatographique optimisée et une répétition systématique des analyses permet de diminuer ce phénomène et d’améliorer la reproductibilité des analyses. Cependant, le manque de sensibilité de l’analyse MS lors du scan de surveillance restera une limitation dans l’analyse DDA.

L’analyse spectre centrée est tout de même une méthode de choix pour identifier en première intention un très grand nombre de protéines dans un échantillon comme dans le cadre de la phase de découverte de biomarqueurs. En revanche, pour répondre à des problématiques de quantification, ce type d’analyse n’est pas le plus optimal. D’autres modes d’acquisition de données ont été développés pour pallier ces limitations. Cependant, ceux-ci partent d’un a priori ; c’est-à-dire d’un choix de la protéine à rechercher et à quantifier. Dans une stratégie « Bottom-up », cette approche a logiquement été appelée « peptide-centrée ».