• Aucun résultat trouvé

3.2 Identification des spectres expérimentaux

3.2.2 L’interprétation à l’aide de spectres déjà identifiés

Plutôt que de chercher à retrouver la séquence à partir de l’observation du spectre généré par le spectro- mètre de masse, il est possible de comparer directement le spectre expérimental avec d’autres modèles de spectres, lesquels sont déjà associés à une identification. Les spectres modèles utilisés peuvent provenir d’une collection de spectres expérimentaux préalablement identifiés (les bibliothèques spectrales) ou bien d’une collection de spectres générés à partir de collections de peptides. Pour chaque spectre expérimental, l’objectif de l’interprétation est alors de trouver parmi les spectres modèles celui qui lui ressemble le plus.

Mesure de distance entre spectres

Pour quantifier la ressemblance entre deux spectres, on calcule un score en utilisant une fonction d’évalua- tion. Il existe de nombreuses fonctions d’évaluation différentes qui permettent de mesurer la ressemblance entre deux spectres, et toutes comportent des spécificités en fonction de leur contexte d’utilisation. La conception et l’amélioration de ces fonctions d’évaluation sont des tâches complexes [99,8,65].

La méthode la plus simple et la plus rapide pour calculer le score de similarité entre deux spectres est de compter le nombre de pics en commun (appelé aussi Shared Peak Count). Cette méthode consiste sim- plement à compter le nombre de pics de même masse : plus ce nombre est grand, plus les deux spectres sont supposés similaires. Deux pics sont considérés communs si leur masse est la même, modulo une petite tolérance qui correspond à la prise en compte de l’incertitude de mesure du spectromètre de masse utilisé. Ce score est souvent critiqué en raison de la prise en compte équivalente de tous les pics [90,104]. Le calcul du score peut être enrichi par des informations supplémentaires, telles l’intensité des pics, leur séquentialité (comme par exemple le score calculé par le logiciel XTandem ! [27]), leur complémentarité de fragmenta- tion, etc.

D’autres systèmes de score plus complexes font intervenir des évaluations probabilistes concernant les chances que des fragments présents dans les spectres de masse soient partagés entre deux spectres par hasard, comme c’est par exemple le cas du très connu logiciel Mascot [107], basé sur la fonction de score MOWSE [106]. SCOPE [8] est un autre bon exemple de logiciel qui utilise un modèle de score probabiliste : une étape d’évaluation stochastique en deux passes est effectuée pour chaque paire de spectres à évaluer, qui prend en compte la probabilité d’occurrence des fragments d’ions, le bruit du spectre et l’erreur de mesure de l’appareil. Il est également possible, comme le fait Sequest [43], de complémenter l’utilisation d’un score basé sur le Shared Peak Count en travaillant directement avec le signal produit par le spectromètre de masse pour calculer la corrélation croisée entre les spectres, afin d’estimer la distance entre ces derniers. Cette approche a néanmoins le défaut d’être très coûteuse en temps de calcul, et était initialement réservée aux 500 spectres les plus fréquemment analysés. Toutefois, cette fonction a dû être améliorée à plusieurs reprises pour faire face à l’augmentation du volume de données manipulées en protéomique [42,36].

Comparaison avec les bibliothèques spectrales

L’introduction du concept de bibliothèques spectrales en protéomique est dû à Yates et al. [144] en 1998, et est consécutive à l’observation d’une reproductibilité suffisante des spectres expérimentaux d’une expé- rience de spectrométrie de masse à l’autre. En 2006, Frewen et al. publient Bibliospec [51], une bibliothèque spectrale qui permet d’identifier des spectres produits par différents modèles de spectromètres de masse dans différents laboratoires. C’est également l’année du développement de X !Hunter [28] par Craig et al., un moteur de recherche de spectres pour les bibliothèques spectrales (par analogie à X !Tandem, dédié aux ensembles de spectres théoriques). En 2007, Lam et al. développent SpectraST [88], un outil de recherche de bibliothèque spectrale intégré à TransProteomic Pipeline (TPP) [81], qui permet de réaliser toutes les étapes de l’analyse de données au sein d’un framework unifié. On observe alors un effort pour créer des libraires spectrales, générer et partager les données nécessaires [28,35]. Les bibliothèques spectrales ont de- puis fait l’objet de nombreuses recherches : nouvelles fonctions d’évaluation, amélioration des algorithmes de recherche, validation statistique des identifications, etc.

Le principal avantage des bibliothèques spectrales est de contenir majoritairement des spectres dont on sait qu’ils sont observables par spectrométrie de masse en tandem. Ces spectres possèdent en outre des propriétés reproductibles sur des appareils de même technologie (en particulier l’intensité) mais dont les mécanismes sont encore mal compris et que l’on peut donc difficilement anticiper. Ces bibliothèques spec- trales se prêtent bien à la fouille de données et permettent par exemple à d’autres approches d’identification de tenter de simuler l’intensité des pics [40,77] en se basant sur les données existantes, ou bien de réaliser de la prédiction de fragmentation [7,150,149]. Pour ces raisons, et parce que les spectres présents dans les bibliothèques sont aussi limités à des spectres observables, les bibliothèques spectrales permettent d’effec- tuer des recherches qui produisent moins de résultats dus au hasard [28].

Les bibliothèques spectrales comportent néanmoins des inconvénients significatifs. Tout d’abord, leur construction est relativement complexe, car elles nécessitent l’accès à un nombre important de spectres convenablement identifiés. Elles sont sujettes à la propagation d’erreurs lorsque des spectres erronés ou for- tement contaminés (comme lorsque les fragments de plusieurs ions parents figurent dans le même spectre) sont inclus dans la bibliothèque [119]. De plus, la taille de ces bibliothèques tend à croître rapidement : outre l’augmentation du risque d’inclusion d’identifications erronées, l’accroissement du volume des bi- bliothèques pose d’importantes difficultés de chargement en mémoire (volume et temps d’accès au disque) et restreint l’efficacité des algorithmes de recherche. Enfin, ces bibliothèques ne sont pas bien adaptées à la recherche de peptides qui ne sont pas aisément détectables par spectrométrie de masse (peptides mino- ritaires) ou bien de modifications chimiques rares. De même, elles ne peuvent pas être utilisées sur des organismes très peu étudiés car les données nécessaires à la construction de ces bibliothèques sont alors généralement manquantes.

3.2. IDENTIFICATION DES SPECTRES EXPÉRIMENTAUX 39