2 Gestion des expériences « shotgun » - Développement de nouveaux outils bioinformatiques pour

Afin de maximiser la couverture d’identification des protéines identifiées pour un échantillon donné la séparation de ce dernier en amont de son analyse par nanoLC-MS/MS s’est avérée être une méthode efficace. Cependant, ce fractionnement engendre une fragmentation des jeux de données produits. En effet, chaque fraction correspond à un run LC-MS/MS, qui est à l’origine d’un ensemble de spectres MS/MS (peaklist), donnant lui-même naissance à un fichier résultat à l’issue de la recherche en banque de données.

Une possibilité pour simplifier l’analyse informatique de multiples peaklists est de produire une peaklist unique pour l’ensemble des acquisitions LC-MS/MS. Cette opération de concaténation est en général intégrée aux outils de gestion des tâches des moteurs de recherche (Mascot Daemon par exemple). La peaklist ainsi générée ne produit plus qu’un seul fichier résultat qui peut ensuite être traité facilement par des outils de validation. Cette approche présente deux principaux inconvénients dans le cas d’un fractionnement par gel SDS-page. Premièrement, il est possible de perdre de l’information liée à la migration de la protéine sur le gel. En effet une protéine donnée peut exister sous plusieurs formes (variants de maturation, avec ou sans glycosylation…) pouvant être séparées sur différentes bandes du gel. Cette information peut être obtenue si l’on analyse les différentes fractions individuellement mais pas dans le cas d’une concaténation des spectres MS/MS. Deuxièmement, l’obtention d’un unique fichier résultat peut compliquer la quantification des données LC-MS, car il est plus difficile dans ce cas de relier un spectre MS/MS donné au fichier d’acquisition dont il est issu. Pour y parvenir, il est impératif que cette information soit présente dans l’en-tête de chacun des spectres de la peaklist unique. Il est aussi nécessaire d’extraire cette information selon le format de cet en-tête, qui peut varier d’un logiciel de génération de peaklist à un autre.

Ainsi, pour ne perdre aucune information le logiciel MFPaQ a été développé pour être capable de gérer la notion de fractionnement de l’échantillon et même d’en tirer parti. Il est par exemple possible de connaître les bandes du gel dans lesquelles une protéine donnée a été identifiée mais également quelle est la bande où elle est le plus représentée (meilleur score). Cette information est aussi accessible au niveau du module de quantification du logiciel (cf partie II-3). L’intégration des résultats d’identification depuis différentes fractions d’un même échantillon a augmenté la complexité de l’architecture des données au sein du logiciel. Il a été nécessaire d’introduire deux structures de données spécifiques à cette problématique :

- Un jeu de données appelé « expérience » qui représente un ensemble de fichiers résultats relatifs au même échantillon (piste de gel, fractions SCX, spots de gel 2D). Chaque expérience peut ensuite être manipulée facilement au sein de l’interface du logiciel pour effectuer des traitements par lot sur l’ensemble des fractions correspondantes (validation des résultats, statistiques, exports…).

- Un jeu de données appelé « liste de protéines » qui correspond au regroupement non- redondant des résultats sur un ensemble de fichiers donnés. Une des fonctions du logiciel est la possibilité de produire une telle liste à partir d’une expérience donnée. Ces listes permettent d’avoir une vision globale du protéome associé à un échantillon donné tout en conservant l’information relative au fractionnement utilisé.

Comme nous l’avons décrit dans la partie I-4.5, plusieurs méthodes sont possibles pour effectuer le regroupement d’un ensemble de protéines identifiées dans différents fichiers. En général, les moteurs de recherche utilisent des algorithmes qui suivent une approche dite « parcimonieuse », celle-ci étant aujourd’hui approuvée par l’ensemble de la communauté protéomique. Cependant si on applique ce type d’algorithme pour regrouper des identifications issues d’une séparation protéique, une information importante ne sera pas prise en compte : le fait qu’une protéine donnée peut exister sous différentes formes distinctes (séquence protéique plus ou moins longue par exemple). Ainsi pour maximiser la conservation de l’ensemble de l’information obtenue lors d’une analyse « shotgun » j’ai décidé de mettre au point un autre algorithme pour le regroupement des protéines identifiées. Cet algorithme se base sur la création de « clusters » de groupes protéines à partir d’une fonction de « clusterisation ». Cette fonction recherche les groupes de protéines provenant des différents fichiers résultats qui présentent au moins une séquence protéique en commun. L’inconvénient lié à cette approche est la possibilité de produire « une clusterisation en chaîne » pouvant aboutir au regroupement de deux groupes distincts (i.e. n’ayant aucune séquence protéique en commun) mais ayant au moins un point commun avec un même troisième groupe. A la fin de l’opération on obtient une liste de « clusters » protéiques faisant référence aux groupes de protéines des fichiers d’identification individuels. L’ensemble des « clusters » constitue ce que nous avons dénommé une liste de protéines non redondante (cf figure 22).

Figure 22 : génération d’une liste non redondante de protéines à partir des résultats d’identification

de plusieurs fractions d’un même échantillon.

Il est possible d’effectuer différentes opérations sur ces listes en utilisant le même algorithme de « clusterisation » que nous venons de décrire. On peut par exemple rassembler deux listes de protéines qui proviennent de deux échantillons différents. Une autre fonctionnalité intéressante est

Bande 1

Bande n

Fractionnement SDS-page

Génération d’une liste non redondante de protéines

Une protéine identifiée dans deux bandes

la possibilité de comparer ces listes. Dans le cas d’une comparaison de deux listes de protéines, le logiciel génère trois nouvelles listes :

- une première pour les protéines communes des deux listes comparées, - une seconde pour les protéines spécifiques de la première liste,

- une troisième pour les protéines spécifiques de la deuxième liste.

Le logiciel supporte la comparaison de 5 listes au maximum. Le nombre de listes générées à l’issu d’une comparaison augmente très rapidement suivant la fonction 2n - 1. Ainsi pour une comparaison de 5 listes, le logiciel peut générer jusqu’à 31 listes de protéines (25 - 1 = 32 - 1 = 31).

Le logiciel MFPaQ nous permet ainsi de valider et d’intégrer l’ensemble des résultats issus de différentes fractions d’un même échantillon, et de comparer efficacement les listes de protéines non redondantes ainsi générées. Cette fonctionnalité a été très utilisée au sein du laboratoire afin d’établir le protéome d’échantillons d’intérêt. Certains travaux réalisés dans le cadre de projets de recherche ont d’ailleurs donné lieu à la publication de protéomes de référence. On peut citer notamment la publication du protéome des globules rouges suite à un traitement d’égalisation du contenu protéique avec les billes ProteoMiner™ (Roux-Dalvai, Gonzalez de Peredo et al. 2008), ou encore celui du protéome des kératinosomes (Raymond, Gonzalez de Peredo et al. 2008), organelles sécrétées au niveau de l’épiderme par les kératinocytes.

II-3. Quantification basée sur l’utilisation d’un marquage

Dans le document Développement de nouveaux outils bioinformatiques pour l'exploitation des données de spectrométrie de masse en protéomique haut-débit (Page 58-60)