• Aucun résultat trouvé

Partie II Développement de méthodes d’analyse

CHAPITRE 4 Quantification sans marquage pour la recherche de biomarqueurs

A. Quantification MS2 : le spectral count

En 2004, Liu et coll.234 montraient une corrélation entre le nombre de spectres MS/MS et la quantité de protéines contenue dans un échantillon. Depuis, le spectral count n’a cessé de gagner en popularité, comme en témoignent les nombreuses publications y faisant référence235-239. Cette technique sans marquage présente un intérêt majeur : le traitement des données y est largement simplifié. Par ailleurs, elle est très bien adaptée pour les instruments de basse résolution qui ne permettent pas d’extraire des courants d’ions avec une précision importante133.

Cependant, cette technique est limitée par le mode d’acquisition DDA qui engendre une non-répétabilité de la sélection des ions, et notamment des ions les moins abondants. En outre, l’exclusion dynamique paramétrée afin de ne pas sélectionner de manière trop récurrente les ions les plus abondants permet certes d’augmenter la couverture d’identification mais empêche dans le même temps une estimation précise de la quantité de ces mêmes ions133. Ces deux paramètres inhérents à l’analyse protéomique engendrent des valeurs manquantes difficiles à pallier lors d’analyses statistiques. Enfin, reste la question des peptides partagés240 : comment attribuer de la manière la plus juste possible les spectres partagés entre plusieurs protéines ? Plusieurs solutions ont été proposées, chacune comportant des biais : ne pas les prendre en compte et réaliser le calcul uniquement sur les peptides protéotypiques, c’est-à-dire uniques à la protéine, les attribuer plusieurs fois ou encore effectuer une pondération, par exemple suivant la quantité de protéines présente dans l’échantillon. Ces limitations engendrent des variations dans le nombre de spectres comptés pour chaque protéine. C’est pourquoi des techniques de normalisation ont été mises en œuvre :

 Normalisation par le nombre total de spectres assignés au cours de l’analyse

 Normalisation par une protéine connue pour ne pas être régulée dans l’échantillon

 Normalisation par des facteurs physico-chimiques : nombre de peptides trypsiques de la protéine (emPAI, exponentially Modified Protein Abundance Index)241, 242, probabilité de détecter les peptides dans l’échantillon suivant leur longueur et leur composition en résidus d’acides aminés (APEX, Absolute Protein Expression)243, 244, longueur de la protéine (NSAF,

Normalized Spectral Abundance Factor)245

Chapitre 4 : quantification sans marquage pour la recherche de biomarqueurs Partie II

109 ▐

Afin d’évaluer la pertinence des résultats, des tests statistiques peuvent être utilisés233, 247-250 :

Le t-test (test de Student) permet de mesurer la distance entre la moyenne des réplicats d’une catégorie et la moyenne des réplicats d’une autre catégorie. Le résultat est donné sous forme de probabilité : la valeur p. Cette valeur donne la probabilité que la distance entre les deux catégories soit due au hasard. La méthode nécessite au moins six réplicats et l’hypothèse d’une distribution normale.

Le LPE (local pooled error) est une variante du t-test qui ne nécessite que deux réplicats.

 Le G-test et le test exact de Fisher sont basés sur des distributions multinomiales et hypergéométriques et ne nécessitent qu’un seul réplicat. En cas de multiples injections du même échantillon, les réplicats sont groupés251, 252.

 Le beta-binomial test 253, 254: ce test tenant compte de la variabilité inter et intra échantillons a été récemment implémenté au laboratoire, au sein de la plateforme MSDA.

Dans cette partie, la qualité du spectral count sur la trappe ionique AmaZon sera discutée.

A.1. Répétabilité des analyses

Afin d’évaluer la qualité du spectral count de l’AmaZon, un digestat de levure dopé avec des quantités croissantes de BSA (10, 20, 50, 100, 500 et 1000 fmol) a été injecté en triplicat.

Dans l’échantillon analysé, les protéines de levure ont un niveau d’expression constant. Dans un premier temps, la répétabilité du spectral count a été évaluée en utilisant diverses techniques de normalisation proposées par ScaffoldTM (Proteome Software Inc., Portland, OR)255 : pas de normalisation, normalisation par le nombre total de spectres, techniques NSAF et emPAI. La figure 79 présente le coefficient de variation médian obtenu sur les 18 injections du digestat de levure suivant les quatre types de normalisation utilisés et les filtres imposant un nombre minimum de spectres pour chaque protéine (aucun, nombre de spectres > 2 dans au moins une analyse et nombre de spectres > 3 dans au moins une analyse).

Partie II Chapitre 4 : quantification sans marquage pour la recherche de biomarqueurs

▐ 110 Figure 79

Coefficient de variation médian obtenu sur 18 injections du même échantillon de levure sur la trappe ionique AmaZon suivant le type de normalisation utilisé

Quatre types de normalisation sont ici présentés (aucune, nombre total de spectres, NSAF et emPAI). Des filtres ont été appliqués sur les protéines : (1) Toutes les protéines ont été considérées (Tous), (2) uniquement les protéines avec un nombre de spectres supérieur à deux dans au moins une analyse (s > 2) et les protéines avec un nombre de spectres supérieur à 3 dans au une analyse (s > 3).

Les coefficients de variation médians obtenus sont très élevés si aucun filtre n’est appliqué sur le nombre de spectres. Cette observation confirme la difficulté d’évaluer la quantité des protéines peu abondantes. Si des filtres autorisant uniquement les protéines avec un nombre minimum de spectres de 2 et de 3 sont appliqués, les coefficients de variation médians atteignent un niveau correct. Il est important de noter ici que l’application des filtres sur le nombre de spectres entraîne une diminution importante du nombre de protéines quantifiables : 377 protéines identifiées au total, 205 si le nombre de spectres minimum est supérieur à 2 et 131 si supérieur à 3. Ces données sont corrélées avec les valeurs rapportées dans la littérature (% CV médian de 16 à 38 %)233, 256.

Par ailleurs, aucune différence notable ni amélioration des résultats n’est observée à la suite d’application de différents types de normalisation. Cela ne semble pas aberrant dans la mesure où les analyses ont été réalisées sur une seule journée, réduisant ainsi au maximum les possibilités de variation.

Par la suite, afin d’obtenir des résultats les plus fiables possibles, aucune normalisation ne sera appliquée et les protéines quantifiées et étudiées devront présenter un minimum de trois spectres dans au moins l’un des échantillons.

A.2. Quantification de la BSA

Dans un deuxième temps, la gamme de BSA a été considérée. La figure 80 présente le nombre de spectres obtenus suivant la quantité de BSA dopée. Une corrélation est bien observée entre les deux paramètres (R2=0,98). Cependant, notons que pour les ajouts de 10 et 20 fmol, aucun peptide de BSA

82 40 27 81 36 27 71 39 30 65 39 29 0 20 40 60 80 100 Tous s>2 s>3 Co e ff ic ie n t d e v ar iation m é d ian (% )

Chapitre 4 : quantification sans marquage pour la recherche de biomarqueurs Partie II

111 ▐

n’est détecté. Le spectral count est ici limité par le mode d’acquisition DDA qui défavorise les peptides les moins abondants.

Figure 80

Corrélation entre la quantité de protéine BSA dopée dans le digestat de levure et le nombre de spectres associés à la protéine BSA

Au laboratoire, le test beta-binomial a été implémenté pour effectuer des traitements statistiques des données. La variabilité est modélisée suivant deux directions : la variation intra-échantillon est modélisée par une distribution binomiale (bien adaptée pour les valeurs discrètes de spectral count) et la variation inter-échantillons est modélisée en traitant les paramètres de la distribution β-binomiale comme des valeurs aléatoires issues d’une distribution β.

Afin d’évaluer la pertinence de ce test statistique, certains échantillons ont été comparés deux à deux : échantillon 100-1000 fmol (ratio de 10), échantillon 100-500 fmol (ratio de 5) et échantillon 500-1000 fmol (ratio de 2). Les « graphiques volcano » (volcano plot) obtenus pour les différents ratios considérés sont présentés en figure 4. La BSA est détectée sans ambiguïté, significativement différente pour des ratios de 5 et 10 (cf. figure 81B et C). Pour un ratio de 2, la différence est significative en termes de valeur p, par contre, au niveau du ratio, elle ne se distingue pas des protéines non régulées (cf. figure 81A). Par conséquent, la validation des ratios de quantité 2 apparaît ici délicate.

y = 0,022x + 0,05 R² = 0,9832 0 5 10 15 20 25 0 200 400 600 800 1000 1200 N o m b re d e sp e ctr e s assoc s à la p ro in e B SA

Partie II Chapitre 4 : quantification sans marquage pour la recherche de biomarqueurs

▐ 112 Figure 81

Graphiques "volcano" issus de la comparaison deux à deux du spectral count d’échantillons d’un digestat de levure dopé avec différentes quantités de BSA

(A) ratio 2 : spectral count 1000 fmol/500 fmol; (B) ratio 5 : spectral count 500 fmol/100 fmol; (C) ratio 10 : spectral count 1000 fmol/100 fmol.

Par ailleurs, un second écueil majeur est à considérer. En effet, le test ne permet pas de traiter les valeurs manquantes. Deux solutions peuvent être envisagées : ne pas tenir compte des protéines possédant des valeurs manquantes ou attribuer par défaut une valeur de 1. La première solution n’est pas idéale dans le cadre de la recherche de biomarqueurs. En effet, les détections absent/présent restent les plus simples à mettre en évidence. La deuxième solution va quant à elle introduire des biais : une protéine non détectée ou non présente sera considérée comme identifiée.