Critères d’évaluation - Des spectres MS/MS à l'identification des protéines

Les logiciels d’interprétation des données de spectrométrie de masse doivent relever un double défi. En effet, les appareils disponibles aujourd’hui sont capables de générer des mil- liers de spectres MS/MS en quelques heures. Les logiciels développés doivent donc faire face à cet afflux de données. Par ailleurs, les spectres expérimentaux sont affectés par différentes sources de variabilité qui masquent le signal biologique. L’identification des peptides puis des protéines est donc délicat, et il faut être très attentif à la précision des résultats obtenus. Ce sont donc sur ces deux critères de temps d’exécution et de précision des résultats obtenus que nous avons décidé d’évaluer notre approche, les deux critères étant parfois antagonistes et la recherche du meilleur équilibre difficile à trouver.

5.3.1 Temps d’exécution

L’algorithme PacketSpectralAlignment est un algorithme lent au regard des approches déve- loppées dans des outils basés sur des méthodes de type SPC ne cherchant pas de modifications. Cette approche est compensée par des résultats précis qui vont permettre d’identifier des peptides modifiés. Cependant, il serait déraisonnable d’utiliser cette approche de manière systéma- tique sur l’ensemble des spectres issus d’une analyse. L’utilisation de l’algorithme PacketSpectra- lAlignment doit s’intégrer dans des stratégies d’interprétation des données en plusieurs étapes consécutives associées à plusieurs outils logiciels, l’utilisation de notre méthode se limitant à l’in- terprétation des spectres de qualité correcte qui n’ont pas pu être identifiés par des approches plus rapides.

Différentes heuristiques peuvent cependant améliorer le temps de réponse sans dégrader de manière notable la précision des résultats. Pour chacune des heuristiques que nous avons testées, une mesure précise de son impact sur les temps d’exécution a été effectuée pour retenir les meilleurs compromis.

5.3.2 Qualité des résultats

Nous avons parlé plusieurs fois d’évaluer la qualité des résultats obtenus. Il existe différentes manières de le faire. Nous avons choisi d’évaluer la méthode d’identification comme un classi- fieur qui pour chaque peptide indique si l’identification est attendue ou non.

Définir un résultat attendu n’est cependant pas trivial. Tout d’abord, nous devons dispo- ser d’un jeu de spectres ayant un peptide connu associé à chacun des spectres, comme par exemple le jeux de spectres spectres_ISB. Nous définirons ensuite une identification attendue, comme étant une comparaison attribuant au spectre le même peptide que celui qui était associé au spectre dans le jeu de données. Cependant, cela ne fonctionne que dans le cas où aucune modification n’est attendue. Dans le cas de modifications, nous devons calculer la distance sé- parant les peptides de la banque des peptides associés aux spectres du jeu de données (voir Section 5.2.1.1, page 62). Cette distance est calculée en utilisant l’algorithme d’alignement glo- bal de Needleman-Wunsch [NW70]. Si cette distance, qui caractérise le nombre de modifications séparant les deux peptides, est inférieure à une valeur D, alors nous considérons le peptide de la banque comme un résultat attendu. Cette valeur D sera ajustée ultérieurement de sorte à

s’accorder avec le nombre de modifications recherchées par la méthode.

En opérant de la sorte, nous pouvons aisément utiliser une Receiver Operating Characteristic (ROC) curve, que nous appellerons courbe ROC. Une courbe ROC représente le tracé du taux de faux positifs en fonction du taux de vrais positifs. Le taux de faux positifs représente le nombre d’identifications présumées correctes alors qu’en réalité elles ne sont pas attendues ; tandis que le taux de vrais positifs correspond au nombre d’identifications présumées correctes qui sont effectivement attendues.

Figure 5.3 – Exemple de courbes ROC. (Source :www.medhyg.ch)

La Figure 5.3 présente 3 courbes ROC différentes sur le même tracé. Pour juger rapidement des résultats donnés par des courbes ROC, nous utilisons une seule mesure : l’aire sous la courbe (nommée AUC). L’AUC est une valeur comprise entre 0 et 1, plus elle tend vers 1, plus la méthode est de bonne qualité. Une courbe ROC qui suit la diagonale (AUC = 0,5) correspond à un classifieur aléatoire (même proportion de succès que d’échecs), tandis qu’une AUC inférieure à 0,5 signifiera que le classifieur classe à l’inverse de ce qui lui est demandé.

Le cas d’une protéine attendue, mais sans association spectre-peptide. Tous les jeux de données n’associent pas de manière sûre un peptide à chacun des spectres. Dans certains cas, seule la protéine que la méthode est censée retrouver est connue avec certitude. Dans un tel cas, nous considérerons comme mesure de qualité le nombre de peptides identifiés appartenant à la protéine attendue. Plus ce nombre de peptides est important, meilleure sera la qualité.

CHAPITRE

6

SIFpackets : mettre

PacketSpectralAlignment

en situation réelle

6.1 Introduction

Nous allons décrire, dans ce chapitre, les approches empiriques que nous avons développées pour ajuster les paramètres de l’algorithme PacketSpectralAlignment de manière à exploiter au mieux les potentiels de cet algorithme. Qu’il s’agisse de prétraitements, de filtrage de données ou de l’élaboration des scores d’ordonnancement des résultats, l’objectif est de concentrer les temps de calcul de notre algorithme sur l’information utile, tout en essayant de préserver, voire d’amé- liorer, la précision de notre méthode d’identification. L’intégration de tous ces éléments dans un même framework, appelé SIFpackets, permet d’aboutir à l’identification des protéines. Les ré- sultats expérimentaux obtenus sur plusieurs jeux de données soulignent l’intérêt du framework que nous avons développé.

Une partie de ces travaux, réalisés en collaboration avec Guillaume Fertin, Irena Rusu et Dominique Tessier, ont été publiés dans [CFRT10].

6.2 Amélioration de l’identification des peptides : paramétrage et

Dans le document Des spectres MS/MS à l'identification des protéines - Interprétation des données issues de l'analyse d'un mélange de protéines d'un organisme non séquencé (Page 78-80)