• Aucun résultat trouvé

PARTIE 3. ÉTUDE DU MÉTABOLOME SECONDAIRE DE F graminearum

1. ANALYSE CRITIQUE DE LA MÉTHODE

1.2. Les outils bioinformatiques

Le logiciel en ligne CFM-ID est un outil bioinformatique qui permet de simuler des spectres MS/MS à partir de structures de molécules1. Bien qu’il ne constitue en aucun cas une preuve d’identification, ce logiciel a été utilisé dans cette thèse afin de soutenir les hypothèses structurales quant aux métabolites secondaires connus détectés mais dont ni les standards, ni les spectres MS/MS référencés n’étaient disponibles.

CFM-ID permet également la confrontation d’un spectre MS/MS inconnu avec les spectres MS/MS théoriques de toutes les molécules d’une base de donnée. Des tests réalisés dans le cadre du concours du CASMI (Critical Assessment of Small Molecule Identification) ont montré que pour ce type de recherche, CFM-ID identifie correctement une molécule dans seulement 15% des cas2. En revanche, en couplant les prédictions de CFM-ID avec celles de MetFrag, un deuxième outil de simulation de spectres MS/MS, et en utilisant les métadonnées des études métabolomiques pour filtrer les propositions incohérentes (le contexte biologique par exemple), il a été possible d’identifier correctement 93% des spectres testés2. Ces outils peuvent donc être une d’une aide précieuse lors des étapes de déréplication.

Dans le cadre de cette étude, certaines limites de l’utilisation de CFM-ID ont été rencontrées. Il a notamment été remarqué que la qualité de la simulation des spectres pouvait varier en fonction du temps. Alors que le spectre théorique de l’ochratoxine B était tout à fait cohérent avec le spectre MS/MS expérimental du composé standard à un temps donné, il pouvait être modifié considérablement lors d’une nouvelle analyse quelques mois plus tard. Ceci peut être expliqué par l’évolution de l’apprentissage automatique (Machine Learning) sur lequel est fondé ce logiciel. En effet, lors de son développement, CFM-ID est alimenté avec les structures de composés de référence et leurs spectres MS/MS générés à trois niveaux d’énergie différents. Lorsqu’un utilisateur souhaite obtenir le spectre théorique d’une molécule inconnue de CFM-ID, le logiciel génère les spectres MS/MS in silico selon les liens systématiques qu’il a faits lors de son apprentissage entre motifs de fragmentation et

sous-structures. L’apprentissage automatique a néanmoins l’avantage de considérer des mécanismes de fragmentation n’ayant pas été soulignés ni expliqués à l’heure actuelle.

Une autre limite de l’utilisation de CFM-ID en ligne réside dans le fait que le logiciel a réalisé son apprentissage automatique à partir de spectres MS/MS générés sur un spectromètre de masse de type Q-TOF. Or, chaque type de technologie fournit des spectres MS/MS spécifiques et il est important de comparer entre eux des spectres MS/MS provenant d’un même type d’appareils. Les utilisateurs de CFM-ID désirant comparer les spectres théoriques avec des spectres expérimentaux générés sur d’autres types de spectromètres de masse doivent donc considérer avec précaution les résultats du logiciel. Le moyen le plus adéquat d’utiliser les outils de simulation de spectres MS/MS fondés sur un apprentissage automatique est d’enrichir le logiciel en interne avec des spectres MS/MS standards générés sur les mêmes spectromètres de masse que ceux qui sont utilisés dans les analyses métabolomiques. Néanmoins, cette démarche est contraignante puisqu’elle nécessite l’annotation manuelle de tous les spectres MS/MS fournis au logiciel.

Enfin, les outils de simulation de spectres MS/MS n’interviennent que dans l’identification de composés connus présents dans les bases de données. L’enjeux majeur de l’analyse des métabolomes secondaires fongiques réside dans la caractérisation de molécules inconnues.

1.2.2. Les réseaux moléculaires

Le système du GNPS Molecular Networking a été développé notamment dans le but d’assister les analyses métabolomiques lors de la caractérisation de molécules inconnues. Grâce à cet outil, de nouveaux métabolites secondaires ont été identifiés lors de cette thèse. Les avantages du logiciel du GNPS ont été détaillés précédemment, c’est pourquoi ils ne seront pas de nouveaux mentionnés dans cette partie de la discussion consacrée aux difficultés rencontrées dans le cadre de l’utilisation de ce logiciel.

Lors de la génération de réseaux moléculaires, et en particulier lors de l’optimisation des paramètres, certaines difficultés ont été rencontrées en raison du manque d’adaptabilité des paramètres à chacun des spectres. Notamment, la précision de masse doit être spécifiée en dalton. Or, cette unité ne permet pas de considérer la variation de l’écart de masse en fonction du rapport m/z du composé. Afin de respecter les données analytiques, il serait préférable que la précision de masse soit renseignée en partie par million (ppm). De plus, les extraits naturels sont composés de molécules de structures très variables. Le paramètre concernant le nombre d’ions fragments communs à considérer pour établir un lien entre deux spectres MS/MS est donc délicat à établir (voir Travail expérimental, Figure 34). L’une des solutions qui permettrait de s’affranchir de ce problème est de considérer ce paramètre non pas en valeur fixe mais en pourcentage d’ions fragments totaux. Ainsi, le logiciel évaluerait la fragilité des molécules en considérant le nombre d’ions fragments présents dans leurs spectres MS/MS. Puis, il déterminerait le nombre d’ions fragments minimum nécessaires pour lier deux molécules en fonction d’un pourcentage de ce nombre total d’ions fragments.

Une deuxième limite spécifique de l’analyse d’extraits naturels réside dans le fait que les concentrations des différents composés sont extrêmement variables. Comme la sensibilité d’un spectromètre de masse est stable, la qualité des spectres MS/MS peut être médiocre pour certains métabolites. Le paramètre concernant l’abondance minimum des ions fragments pour les différencier du bruit de fond est donc également délicat à établir (voir Travail expérimental, Figure 34). Afin de ne pas prendre en considération les signaux parasites dans la comparaison de deux spectres MS/MS, une

étape d’extraction des ions fragments au sein de chaque spectre MS/MS pourrait être mise en œuvre. La discrimination du bruit de fond pourrait être effectuée en comparant les spectres MS/MS issus de chaque scan sous un même pic chromatographique. Les ions dont le rapport m/z est constant (à une précision de masse donnée) seraient alors considérés comme des ions fragments et les ions d’apparition aléatoire seraient rejetés. Cette étape pourrait intervenir avant l’étape de regroupement des spectres MS/MS moyens évoquée ci-après.

Avant de comparer les données entre elles, le GNPS regroupe en un spectre MS/MS moyen tous les spectres MS/MS similaires issus de précurseurs de mêmes rapports m/z. Cette action est fondée sur une approche d’archives spectrale qui ne prend pas en considération les temps de rétention relatifs aux spectres MS/MS, ni les fichiers distincts dont ont été extraits les spectres (voir Travail expérimental, Partie 2, Section 2.2). Afin de générer des réseaux représentatifs de l’ensemble des molécules analysées et donc de permettre la discrimination des différents isomères, il serait judicieux d’intégrer un processus d’extraction de pics préalablement au regroupement des spectres MS/MS similaires.

Le calcul de similarité entre deux spectres MS/MS est réalisé par le GNPS avec un score cosine donnant autant de poids à l’intensité des ions fragments qu’à leur rapport m/z (voir Travail expérimental, Partie 2, Section 2.2). Or deux molécules très similaires ne différant que par la localisation ou l’ajout d’un groupement fonctionnel peuvent présenter des ions fragments de même rapport m/z mais d’intensité très variables. Afin de surpasser cette limite, la similarité entre deux spectres MS/MS devrait être évaluée par la seule considération des masses des ions fragments et des pertes de neutres entre eux. En revanche, l’intensité des ions fragments devrait être considérée pour la détection de spectres MS/MS identiques provenant d’une même molécule. Le score cosine du GNPS pourrait alors être utile pour la génération des spectres moyens, pour repérer des molécules identiques provenant de différentes analyses (deux échantillons différents, ou un échantillon et un standard), ou pour interroger les bases de données de spectres MS/MS. Enfin, le degré de similarité entre deux molécules est établi par le GNPS sans considération de la spécificité de leurs structures communes. Deux molécules présentant une perte d’eau en commun (représentative de la présence d’un groupement hydroxyle par exemple) seront jugées aussi similaires que deux molécules présentant un fragment à m/z 120,0804 en commun (pouvant représenter la présence d’une phénylalanine). Il pourrait donc être pertinent d’inclure dans le calcul de similarité entre deux spectres MS/MS un score donnant plus de poids aux ions fragments de faible rapport m/z (en fonction d’un pourcentage par rapport à la masse du parent par exemple) ou aux petites pertes de neutres. Il serait appréciable que ce paramètre soit optionnel puisque l’observation de petites pertes de neutre peut également être informative selon les études.

1.2.3. Développement d’un nouvel outil bioinformatique

Suite à ces observations, une collaboration a été établie avec le CEA de Saclay afin de développer un outil informatique qui puisse s’affranchir de ces limites. Cette collaboration a pour objectif de lier les expertises en spectrométrie de masse ainsi que l’expérience des réseaux métaboliques et les connaissances en terme de développement d’outils bioinformatiques.

Alors que les réseaux moléculaires du GNPS fonctionnent via une vectorisation des spectres MS/MS, l’outil en développement dans le cadre de la collaboration avec le CEA est fondé sur la

comparaison de motifs. Dans un premier temps, l’extraction des données consiste en une étape d’extraction des pics MS selon leurs profils chromatographiques. Cela permet à la fois la discrimination du bruit de fond présent dans le signal MS et la discrimination des différents isomères. Puis, les spectres MS/MS présents sous ces pics sont extraits et moyennés (Figure 36A). Dans un deuxième temps, pour chacun des spectres MS/MS moyens, les ions fragments sont extraits et un graphe orienté est généré. Dans celui-ci, les sommets représentent les différents ions fragments et les arrêtes sont annotées avec les différences de rapport m/z qui sont calculées entre tous les ions du spectre MS/MS deux à deux (Figure 36B). Les graphes correspondant à chacun des spectres MS/MS sont ensuite comparés entre eux et des motifs communs sont mis en évidence (Figure 36C). Enfin, les motifs sont annotés chimiquement (Figure 36D). Le logiciel est en cours de développement et des algorithmes sont élaborés afin de surpasser les différentes limites rencontrées lors de la création de réseaux moléculaires. Bien que l’outil actuel ne soit fondé que sur la considération des pertes de neutres, il est envisagé d’intégrer la considération des valeurs m/z des ions fragments.

Figure 36. Protocole d’extraction et de traitement des données de l’outil en développement.

Documents relatifs