• Aucun résultat trouvé

Choix et utilisation des logiciels d’identification

Partie II : Résultats et discussion

Chapitre 3 : Etude par CX-MS de la stœchiométrie et de la topologie du complexe

3.4. Choix et utilisation des logiciels d’identification

Comme détaillé dans le chapitre précédent, il existe une multitude de logiciels dédiés à l’identification des peptides pontés développés dans des laboratoires de recherche. L’équipe de David Goodlett a répertorié les caractéristiques de quelques-uns de ces logiciels dans le Tableau 1. Dans notre étude, nous avons utilisé en parallèle pLink [20] et xQuest [21]. La différence dans leur algorithme de recherche permet d’augmenter la confiance et est très utile pour vérifier leur bon fonctionnement.

Chapitre 3 : Etude par CX-MS de la stœchiométrie et de la topologie du complexe SAGA HAT

100 Tableau 1. Les propriétés et applications de quelques logiciels dédiés à l'identification des peptides pontés. (*) Basé sur la première publication, (**) A l’échelle du protéome. Adapté de [22].

Nom du

logiciel Appli-cation (*)

Type de

données données Base de Calcul de score

Réfé-rence Site web

MS MS² Petite Large (**)

GPMAW Marqué - - [23] http://www.gpmaw.com

xComb

Label-free - - - [24] https://goodlett.umarylan d.edu/xcomb.php X!Link

Label-free - - [25] Contact du développeur

(yjlee@iastate.edu)

XLink-Identifier Label-free - - [26] http://www.du-lab.org StavroX/

MeroX Label-free - [27,28] http://www.stavrox.com BLinks Label-free - [29] http://brucelab.gs.washin gton.edu/BLinks.php pLink Label-free [20] http://pfind.ict.ac.cn/soft ware/pLink xQuest/

xProphet Marqué [21] http://proteomics.ethz.ch/

cgi-bin/xquest2_cgi/index.cgi

XiQ Marqué - - - - [11] http://129.215.14.65/xiq

3.4.1. Logiciel pLink

Le logiciel pLink est développé au sein de l’équipe de Si-Min He, à l’Institute of Computing Technology (Chinese Academy of Sciences, Pékin, Chine). Il fonctionne sous le système d’exploitation Windows, et est téléchargeable à partir du lien suivant : http://pfind.ict.ac.cn/software/pLink. Pour l’utiliser, il faut ouvrir la console sous Windows et entrer les commandes.

Durant ces travaux de thèse, la version 1.15 du logiciel a été utilisée. Il possède l’outil pLabel permettant de visualiser l’interprétation des spectres MS/MS. Son algorithme (Figure 15) permet d’identifier des peptides qui sont pontés par un agent de pontage lourd ou léger. Les données à traiter doivent être sous format MGF.

Le fonctionnement de pLink peut être résumé comme suit : parmi les spectres de masse soumis à l’interrogation (« raw data »), le logiciel commence par faire un tri pour n’en considérer que ceux de qualité susceptibles d’être identifiés (« spectra quality filtering »). S’ensuit une étape de traitement des spectres (« preprocessing of spectra ») où les pics correspondants aux ions précurseurs, aux pertes de H20 et NH3, les pics du bruit de fond, etc. sont mis de côté et ne seront pas considérés dans l’identification. Ensuite, avant la recherche de toutes les combinaisons de peptide ponté α-β (où le peptide α est ponté au peptide β), se trouve l’étape de « prescoring » où pLink regarde les séquences possibles de α séparément en considérant β comme une modification sur la lysine (et vice versa) et attribue un score à chaque identification. Les 500 premiers candidats α et β ayant les meilleurs scores seront considérés pour être appariés en paires de peptides pontés. Puis le logiciel identifie la séquence entière du peptide ponté et attribue le score affiné

Chapitre 3 : Etude par CX-MS de la stœchiométrie et de la topologie du complexe SAGA HAT

101 (« fine scoring »). Dans les étapes de « prescoring » et « fine scoring », les données expérimentales issues du « preprocessing » sont comparées aux données théoriques issues de la base de données (« protein database »). Pour les systèmes peu complexes, l’étape de « prescoring » peut être omise. Ensuite, le score de l’étape « fine scoring » est utilisé pour calculer la valeur de « e-value » pour chaque peptide ponté identifié. Enfin, le logiciel évalue le FDR (« False Discovery Rate »), crée le rapport d’identification et annote les spectres.

Figure 15. Représentation schématique de l'algorithme de pLink [20].

Lors de l’utilisation de pLink, les données nécessaires pour la recherche sont présentes par défaut dans des fichiers .ini (« enzyme.ini » pour les enzymes, « instrument.ini » pour les paramètres instrumentaux, « xlink.ini » pour les acides aminés cibles des agents de pontage etc.). Puis les paramètres de recherche sont entrés par l’utilisateur dans le fichier « pLink.ini ». Enfin, il faut ouvrir la console sous Windows pour lancer l’exécution du « plink.ini ». A la fin de la recherche, le dossier de résultats est généré automatiquement.

Dans le cadre de notre étude, le temps de recherche de pLink est de quelques heures pour environ 20 000 spectres MS/MS avec un ordinateur de bureau fonctionnant sous Windows XP (Windows XP Professional Version 2002 Service Pack 3, 32 bits, Intel Core 2 Duo CPU E6550 @ 2.33GHz, 2.97Go RAM).

3.4.2. Logiciel xQuest

Le logiciel xQuest est développé au sein de l’équipe de Ruedi Aebersold à l’Institute of Molecular Systems Biology (ETH Zürich, Suisse). La version téléchargeable sur http://proteomics.ethz.ch/cgi-bin/xquest2_cgi/index.cgi fonctionne sous système d’exploitation Linux. Dans notre cas avec un ordinateur fonctionnant sous Windows, nous avons téléchargé au préalable une machine virtuelle telle que VMware Player pour ce faire.

Chapitre 3 : Etude par CX-MS de la stœchiométrie et de la topologie du complexe SAGA HAT

102 Son algorithme repose sur l’identification des peptides qui sont pontés à la fois par un agent de pontage léger et un agent de pontage lourd (marqué isotopiquement). Il est donc nécessaire d’utiliser au préalable un mélange d’agents de pontage non marqué et marqué. En présence d’un mélange équimolaire des agents de pontages lourd et léger, un peptide a autant de chance de réagir avec un agent de pontage léger qu’un agent de pontage lourd. Par conséquent, les peptides pontés fourniront des ions dont la différence de masse correspond au marquage. Dans notre cas, nous avons utilisé un mélange de BS3 léger et BS3 lourd où 4 atomes d’hydrogène ont été remplacés par 4 atomes de deutérium, le peptide ponté avec l’agent de pontage lourd aura une différence de masse de 4,0246 Da par rapport au même peptide mais ponté avec l’agent de pontage léger.

Sur la Figure 16 est représenté le fonctionnement de xQuest sur les paires de peptides modifiées avec les agents de pontage lourds et léger. (i) Les spectres MS/MS sont comparés, les ions qui sont présents dans les deux spectres (en vert) sont nommés ions communs (« common ions »), les ions présentant une différence de masse correspondant au marquage (en rouge) sont nommés « cross-link ions ». (ii) Ces deux groupes d’ions sont séparés. (iii) Les « common ions » sont utilisés pour lister les séquences de peptides possibles. (iv) Les peptides candidats issus de l’étape (iii) sont identifiés en considérant l’ensemble des « common ions » et les « cross-link ions ». (v) Seuls les candidats qui « matchent » avec la masse de l’ion précurseur Mr sont retenus et le spectre est annoté en (vi).

Chapitre 3 : Etude par CX-MS de la stœchiométrie et de la topologie du complexe SAGA HAT

103 Figure 16. Représentation schématique de l'algorithme de xQuest [21].

Pour être traitées par xQuest, les données MS doivent être sous format MZXML. Si l’utilisation de pLink est plus aisée car le résultat d’identification est généré automatiquement, l’utilisateur doit intervenir à chaque étape de fonctionnement de xQuest. Brièvement, il faut tout d’abord créer la base de données decoy avec « xdecoy.pl ». Ensuite, dans « xmm.def » et « xquest.def », l’utilisateur modifie des paramètres de recherche comme la tolérance MS et MS/MS, la masse de l’agent de pontage, l’écart de masse entre l’agent de pontage non marqué et marqué etc. Il lance ensuite la recherche dans le terminal de commande. Enfin, les résultats de la recherche dans « xquest.xml » doivent être copiés dans le dossier résultat et son accès autorisé dans le terminal de commande.

Dans le cadre de notre étude, le temps de recherche de xQuest est de 1-2 h (plus rapide que pLink) pour environ 20 000 spectres MS/MS avec un ordinateur de bureau fonctionnant sous Windows XP (Windows XP Professional Version 2002 Service Pack 3, 32 bits, Intel Core 2 Duo CPU E6550 @ 2.33GHz, 2.97Go RAM).

Chapitre 3 : Etude par CX-MS de la stœchiométrie et de la topologie du complexe SAGA HAT

104 La différence principale entre pLink et xQuest est que pLink permet d’identifier des peptides modifiés par un agent de pontage marqué ou non marqué, tandis que xQuest identifie seulement des peptides qui sont pontés à la fois par un agent de pontage non marqué et un agent de pontage marqué (Figure 17).

Figure 17. Comparaison des fonctionnements de pLink et xQuest.