2 MSIdb et algorithmes de validation - Développement de nouveaux outils bioinformatiques pour l

4.2.1 Stratégie de validation avancée des données d’identification

Comme nous l’avons vu dans l’introduction, les stratégies de validation des résultats d’identification ont grandement évolué ces dernières années. Une des méthodes qui s’est clairement démarquée par sa simplicité de mise œuvre ainsi que par sa flexibilité (adaptable à tout type de moteur de recherche, d’instrument…) est l’approche « target-decoy ». Nous avons vu que celle-ci présente cependant des inconvénients et notamment la dualité du mode de recherche (banques séparées ou banques concaténées), ceci ayant pour conséquence d’aboutir à des calculs de FDRs différents selon le mode utilisé et donc à des résultats de validation différents.

Nous avons cependant évoqué brièvement l’existence d’une méthode unifiant le calcul du FDR. En effet la stratégie proposée dans (Navarro and Vazquez 2009) consiste à forcer la compétition entre les identifications target et decoy lorsque la recherche est effectuée en banques séparées. Ainsi de façon similaire à une recherche concaténée l’effet de compétition élimine certains hits decoy qui sont mieux interprétés dans la banque target, mais par contre l’espace de recherche n’est pas doublé évitant ainsi d’introduire un biais dans le calcul du FDR. La mise en compétition repose sur l’utilisation d’une « joint-table » où les scores des peptides sont comparés pour les deux types d’analyses target et decoy (cf figure 31). C’est l’utilisation du résumé statistique de cette table qui permet d’accéder à la valeur du FDR.

120

Note : « Score threshold » = 30

Figure 31 : mise en compétition des résultats d’identification issus d’analyses « target-decoy » en

banques séparées. La table est une illustration de la « joint table » utilisée dans l’approche décrite dans (Navarro and Vazquez 2009). Elle montre les différents cas de figure (colonne « Class ») qui peuvent exister lorsque l’on compare les scores de peptides identifiés par une approche target/decoy à partir des mêmes spectres MS/MS. Le comptage des peptides appartenant à chacune des classes est utilisé comme base pour la détermination du taux de faux positifs calculé via la formule : FDR = (2db + do) / (db + tb + to). Le graphe de droite est tiré de la publication de cette même étude et illustre d’une façon globale sous la forme d’un nuage de points le résultat de cette mise en compétition (recherche Mascot réalisées sur 40000 spectres MS/MS d’un protéome total de cellules Jurkat obtenus à l’aide d’un instrument de type LCQ-DECA XP (Lopez-Ferrer, Martinez- Bartolome et al. 2004)). On perçoit clairement une symétrie des données entre les hits target et les hits decoy (zone « du/tu »), correspondant essentiellement aux fausses identifications. Les vrais positifs sont majoritairement représentés dans les zones tb et to. Comme le montre la figure, il est possible d’utiliser le logarithme de la E-value à la place du score pour générer la « joint table ». J’ai implémenté cet algorithme dans le logiciel Prosper en espérant ainsi disposer d’une méthode quasi universelle pour l’estimation du taux de faux positifs des résultats d’identification. Au lieu d’utiliser les valeurs de score ou d’E-value fournies par Mascot j’ai opté pour l’utilisation d’une E- value ajustée pour chacun des peptides. Comme nous l’avons vu dans l’introduction cette valeur est classiquement calculée à partir de l’ « identity threshold ». On peut cependant obtenir un meilleur pouvoir si l’on calcule cette E-value à partir de l’ « homology threshold » lorsqu’il est inférieur au seuil d’identité. En pratique le seuil d’homologie n’est pas toujours défini et on ne peut donc pas calculer cette valeur probabilistique pour tous les peptides. Cependant on peut créer une fonction de calcul hybride qui choisit le seuil le plus faible parmi les seuils qui sont définis pour un peptide donné, et calcule ensuite la E-value ajustée à partir de ce seuil. En utilisant cette méthode dans le cas d’un mélange complexe de protéines, et pour un FDR peptidique de 5%, nous observons en général un gain d’environ 30% en identification de spectres MS/MS et un gain d’environ 10% en identification de protéines. Cette approche est d’ailleurs similaire à celle que Mascot emploie pour le calcul du score protéique MudPIT. Une fois cette nouvelle E-value calculée pour tous les peptides, ces derniers sont ensuite validés en faisant varier de manière itérative un seuil de E-value jusqu’à obtenir une valeur de FDR souhaité (5% par exemple). A chaque étape la valeur de FDR est calculée via l’approche de Navarro décrite précédemment.

La validation des peptides ne constitue que la première étape du processus de validation réalisé par Prosper. L’ensemble des peptides validés sont ensuite regroupés en protéines en suivant le principe de « parcimonie ». Les groupes de protéines définis comme des « oversets » (cf partie I-4.5) subissent

121

à leur tour une étape de validation avec un contrôle du FDR. Pour cela, les données « target » et « decoy » ont été traitées de façon analogue (même algorithme de regroupement). Le FDR est alors calculé simplement de la façon suivante :

FDR = 100 x nb_protéines_decoy / nb_protéines_target

Comme nous l’avons vu dans la partie I-5.4 les vraies identifications peptidiques se regroupent de façon non aléatoire en protéines contrairement aux fausses identifications. En pratique, on constate en effet que les protéines « target » sont en général identifiées par plusieurs peptides alors que les protéines « decoy » sont peu fréquemment représentées par plusieurs peptides. Par conséquent, le FDR protéique est toujours plus élevé que le FDR peptidique si la validation n’est réalisée que sur les peptides. La validation au niveau peptidique n’est donc pas suffisante si l’on souhaite réellement contrôler le taux d’erreur d’identifications protéiques. Pour atteindre un FDR protéique souhaité, il est nécessaire de filtrer les protéines identifiées à partir de critères spécifiques. J’ai implémenté deux stratégies de validation des protéines dans Prosper. La première, identique à celle utilisée dans MFPaQ, met en œuvre des jeux de critères peptidiques (seuil de score, longueur de séquence) plus ou moins stringents en fonction du nombre de peptides identifiés (1 et 2 par défaut) pour la protéine considérée (cf partie II-2). Bien que cette approche assez simple se soit révélée très satisfaisante, elle ne fournit pas la liste de protéines optimale pour un FDR donné. Afin d’illustrer les biais introduits par cette stratégie, prenons l’exemple de deux protéines A et B :

- soit A une protéine identifié avec un peptide de score 25 et autre de score 37, - soit B une protéine identifiée avec un peptide de score 27 et autre de score 28.

Si nous établissons les règles de validation stipulant qu’une protéine est validée si elle possède : - soit 1 peptide de score supérieur ou égal à 40,

- soit 2 peptides de score supérieur ou égal à 26.

Alors la protéine B sera validée mais pas la protéine A. Pourtant la présence d’un peptide de score 37 (proche du seuil de score pour les identifications protéiques à un peptide unique) nous indique la présence d’une bonne identification peptidique. De façon intuitive, nous souhaiterions que le score de 37 puisse « compenser » celui de 25. Une façon simpliste de mettre en œuvre cette compensation est de sommer les scores peptidiques, ce qui nous donne un score de 62 pour la protéine A et de 55 pour la protéine B. Ce calcul correspond à la fonction standard de calcul de score protéique de Mascot. Comme nous l’avons vu dans la partie 1.4.5 elle présente le défaut de prendre en compte les identifications peptidiques avec des scores très faibles. La fonction de score MudPIT a pour but de corriger ce défaut et également de prendre en compte les statistiques de seuil d’identité et d’homologie pour chaque peptide individuel. La deuxième stratégie de validation de Prosper s’inspire d’ailleurs de cette fonction de score. Cependant, contrairement à la fonction de Mascot, celle de Prosper n’ajoute pas à la fin la somme des seuils soustraits. Voici l’algorithme de cette fonction :

Protein score = 0

For each peptide match {

If there is a homology threshold and ions score > homology threshold { Protein score += peptide score - homology threshold

} else if ions score > identity threshold {

Protein score += peptide score - identity threshold }

}

122

Ainsi les scores protéiques de Prosper ont une valeur minimale qui est toujours proche de zéro alors que le score MudPIT définit une valeur minimale variable selon le jeu de donnée considéré (la somme des seuils soustraits pouvant changer d’un fichier à un autre).

Afin d’atteindre la valeur de FDR souhaité au niveau protéique les seuils d’identité et d’homologie sont modulés en faisant varier la valeur de p-value qui permet de les définir. Le programme s’initialise avec une p-value élevée (1 par défaut) afin de démarrer l’algorithme avec une validation peu stringente. Il réalise ensuite une suite d’itérations afin de maximiser le nombre de protéines validées pour un FDR souhaité. Les différentes étapes de l’algorithme sont résumées ci-dessous : p-value_départ = 1

1) p-value = 0.9 * ancienne_p_value

2) calcul des seuils peptidiques d’identité et d’homologie

3) calcul des scores protéiques avec la fonction définie précédemment

4) recherche du FDR souhaité en fonction d’un seuil de score protéique (0 initialement) 4.1) calcul du nombre de protéines validées et du FDR associé

4.2) augmentation du seuil de score protéique, réitération de l’étape 4.1 jusqu’au FDR attendu 5) fin lorsque le seuil de score protéique optimal est trouvé (maximum de protéines validées pour le FDR attendu)

Figure 32 : ce graphique en trois dimensions résume les valeurs calculées par le programme sur

l’ensemble des itérations de validation protéique d’un jeu donné choisi à titre d’exemple (protéome total de cellules HUVEC analysé par un LTQ-Orbitrap Velos). Le trait en pointillé et noir correspond au nombre de protéines validées en fonction de différents FDR protéiques pour une même valeur de p- value. Le trait mauve correspond à tous les cas de p-value où un FDR de 1% a été obtenu. L’intersection de ces deux courbes est la valeur recherchée par l’algorithme. Elle est obtenue dans cet exemple pour une p-value de 0.9 et un seuil de score protéique égal à 21 (non visible sur le graphe).

123

Afin d’illustrer cette procédure, la figure 32 montre la représentation en 3D des résultats obtenus à partir d’un fichier résultat Mascot, après validation des peptides avec un FDR de 5%, et application de l’algorithme ci-dessus. Cet exemple montre que l’on obtient des résultats de validation plutôt similaires pour une majorité des p-values utilisées pour calculer les seuils peptidiques (notamment entre 0.9 et 0.1). L’optimisation effectuée permet cependant de «gagner» une vingtaine de protéines supplémentaires : 1162 validées avec une p-value de 0.9 pour un FDR de 1% (correspondant à un seuil de score protéique de 21) contre 1143 pour une valeur plus classique de 0.05 et un FDR de 1% (correspondant à un seuil de score protéique de 9.2).

4.2.2 Comparaison entre les méthodes de validation de MFPaQ et Prosper

Afin de comparer les performances relatives d’une validation protéique basée sur des règles de score de peptides et d’une validation basée sur le calcul d’un score protéique, j’ai appliqué au jeu de donné utilisé dans l’exemple précédent ces deux différentes stratégies. J’ai ensuite calculé une courbe ROC (« Receiver Operator Characteristic ») pour chacune des stratégies (cf figure 33). Ces courbes montrent l’évolution de la sensibilité, i.e. le nombre protéines validées, en fonction de la spécificité, représentée ici par le FDR.

Figure 33 : courbes ROC pour les deux stratégies de validation des protéines. La stratégie S1 en bleu

correspond à celle qui avait été implémentée à l’origine dans MFPaQ (règles basées sur les scores des peptides) mais mise en œuvre ici dans Prosper après validation des peptides avec un FDR de 5%. La stratégie S2 correspond à la nouvelle validation de Prosper basée sur le calcul d’un score protéique. On constate une légère supériorité de la nouvelle stratégie par rapport à l’ancienne : pour un même FDR on valide d’avantage de protéines avec la seconde stratégie.

La courbe en rouge correspond en fait à la courbe en pointillé dans la figure 32, c’est-à-dire la meilleure courbe ROC obtenu pour l’ensemble de l’espace de validation parcouru. Cette étape d’optimisation et le calcul d’un score protéique ont permis, comme on peut le voir dans la figure ci- dessus, d’améliorer le ratio sensibilité/spécificité par rapport à l’ancienne méthode utilisée dans MFPaQ. Je pense néanmoins qu’il est encore possible d’améliorer cette méthodologie de validation des protéines en combinant les deux approches présentées. La fonction de score des protéines

1000 1050 1100 1150 1200 1250 1300 1350 0 1 2 3 4 5 6 7 8 9 10 11 Nb prot. S1 Nb prot. S2 Nb. prot.

validées Courbes ROC des deux stratégies de validation comparées

124

utilisée dans la stratégie 2 est identique pour toutes les protéines quel que soit le nombre de peptides identifiés. Il est possible qu’en définissant plusieurs fonctions de score optimisées pour le nombre de peptides attribués à une protéine donnée on puisse améliorer notre rapport sensibilité/spécificité. On pourrait imaginer par exemple une fonction de score spécifique des « one- hit-wonders » et une autre spécifique des « multi-hit-wonders ». On aurait donc au final une combinaison de règles non plus basées sur des scores de peptides mais des scores de protéines. L’implémentation de cette stratégie sera sûrement réalisée dans une version ultérieure de Prosper. En conclusion, les optimisations apportées dans Prosper, que nous avons détaillées dans les paragraphes précédents (validation peptidique avec E-values ajustées en fonction des seuils d’identité/homologie, calcul du FDR peptidique sur la base de la méthode de Navarro, et validation des protéines sur la base de la fonction de score protéique), ont permis d’améliorer de façon significative l’étape de validation. On observe généralement une augmentation de 15 à 25% le nombre de protéines identifiées par rapport à MFPaQ, pour un même FDR protéique de 1%.

Dans le document Développement de nouveaux outils bioinformatiques pour l'exploitation des données de spectrométrie de masse en protéomique haut-débit (Page 133-138)