• Aucun résultat trouvé

Chapitre 1 : Synthèse bibliographique & Objectifs de thèse

3. Des approches innovantes pour l’étude de la relation de cause à effet

3.1. L’entrée des –omiques en écotoxicologie

3.2.2. Etapes de l’approche métabolomique non ciblée

3.2.2.7. Elucidation structurale

En métabolomique non ciblée, l’un des grands challenges est l’identification des métabolites par LC-MS, étape indispensable pour fournir une interprétation biologique. La difficulté de cette étape se révèle par sa capacité à devoir associer une structure chimique bien définies, et donc le métabolite correspondant, à un rapport m/z détecté lors de l’analyse. En effet, même pour un m/z acquis en haute résolution (i.e. une précision à la 5ème ou 6ème décimale), plusieurs formules brutes peuvent correspondre et pour chacune d’entre elles, plusieurs formules développées sont possibles (ex. isomères de position, isomères de structure, etc.). Cette difficulté est d’autant plus marquée par la présence d’une redondance d’informations (i.e. un composé parent peut générer plusieurs signaux analytiques ; cf. Section 3.2.2.5.) qui ne peut pas être écartée de manière exhaustive malgré l’existence d’outils précédemment cités. Pour rendre compte de cette difficulté, différents niveaux d’annotations ont été définis, selon le nombre et la qualité des indices collectés, afin d’évaluer le degré de confiance de l’identification d’un métabolite (Sumner et al., 2007). La stratégie mise en œuvre pour parvenir au

72 plus haut degré de confiance dans l’identification d’un métabolite est illustrée en Figure 1.18, et détaillée ci-dessous.

Figure 1.18 : Stratégie pour parvenir à l’identification d’un métabolite selon les 4 niveaux d’annotation décrits par Sumner et al. (2007) (modifiée de Rathahao-Paris et al., 2015)

La première étape consiste à comparer les valeurs de m/z mesurées avec celles de composés référencés dans des bases de données internes au laboratoire ou publiques telles que HMDB (Wishart et al., 2013), KEGG (Kanehisa and Goto, 2000), PubChem (Bolton et al., 2008), LipidMaps (Fahy et al., 2009), parmi d’autres référencées dans Go (2010). L’utilisation de bases de données permet ainsi d’associer aux signaux d’intérêt une formule brute correspondant à une structure chimique et donc à un métabolite. En revanche, une valeur de m/z (même obtenue en spectrométrie de masse haute résolution) pouvant être associée à plusieurs formules brutes et une formule brute pouvant correspondre à plusieurs structures chimiques, le nombre de métabolites candidats pour un seul signal est multiple (i.e. une dizaine voire une centaine de candidats). Afin de réduire le nombre de candidats potentiels, d’autres éléments peuvent renseigner la structure chimique du signal observé, notamment en se basant sur les 7 règles d’or (Kind and Fiehn, 2007) dont font parties les règles de valence des atomes ou encore les massifs isotopiques. Certains paramètres physico-chimiques d’un métabolite peuvent également être déduits selon la chimie de la colonne chromatographique et son RT, comme par exemple sa polarité, et ainsi permettre de réduire la liste de candidats. D’autres informations structurales peuvent également être fournies par des techniques de spectrométrie de masse en tandem (MS/MS) capables de fragmenter, selon une énergie de collision plus ou moins forte par

73 exemple, un ion parent en plusieurs ions fils. Ces spectres de fragmentation ainsi générés sont très informatifs sur la structure du signal d’intérêt et peuvent être comparés à d’autres spectres MS/MS de métabolites référencés dans des bases de données (Vinaixa et al., 2016). Il existe des bases de données spectrales référençant des spectres MS/MS expérimentaux tels que METLIN (Guijas et al., 2018), GNPS (Wang et al., 2016), MassBank (Horai et al., 2010) ou encore des spectres de fragmentation générés in silico comme MetFrag (Ruttkies et al., 2016). Si la correspondance entre les spectres MS/MS observés et ceux d’un métabolite référencé est totale, alors l’annotation du composé a atteint un degré de confiance de niveau 2. Dans le cas où cette correspondance est seulement partielle, cela pourrait éventuellement renseigner la classe du métabolite ou une sous-structure de ce dernier, ce qui correspondrait à une annotation de niveau 3. Enfin, l’unique manière de passer d’une annotation (putative, de niveau 2) à une identification formelle (niveau 1), est d’injecter, dans les mêmes conditions analytiques que l’échantillon et sur le même appareil, le standard analytique correspondant, à condition que ce dernier soit disponible dans le commerce. L’injection du standard analytique fourni deux informations orthogonales que sont le spectre MS (ou MS/MS) et le RT, indispensables à l’identification formelle du métabolite. Cependant, l’identification de niveau 1 renseigne seulement sur la structure en 2 dimensions de la molécule mais n’intègre pas la stéréoisomérie (3 dimensions) de cette dernière. Pour cela, la Metabolomics Society a récemment rajouté un niveau 0 pour une identification sans ambiguïté de la stéréoisomérie de la molécule (Blaženović et al., 2018). A l’opposé, le degré de confiance de niveau 4 est réservé aux métabolites inconnus qui ne sont référencés dans aucune base de données.

Lors de la génération d’empreintes métaboliques, moins de 20 % des signaux d’intérêt sont généralement annotés (Blaženović et al., 2018). Par conséquent, l’élucidation structurale du reste des métabolites non-annotés, soit inconnus, est un enjeu majeur pour une meilleure connaissance du métabolome de l’organisme étudié. Des études plus approfondies sont donc essentielles pour identifier de nouveaux métabolites ce qui nécessite l’utilisation, voire la combinaison, de méthodes analytiques plus adaptées (ex. RMN, marquage isotopique, techniques de dérivation chimique, MS/MS ou MSn) et d’outils de calcul et de prédiction pour interpréter les données spectrales expérimentales d’ions fragmentés (Rathahao-Paris et al., 2015). L’une des approches pour l’élucidation structurale de métabolites inconnus est la construction de réseaux moléculaires basés sur les similarités spectrales (spectres de fragmentation issus d’analyses MS/MS). La plateforme en ligne Global Natural Product Social Molecular Networking (GNPS, https://gnps.ucsd.edu/) a été développée pour l’analyse et le partage de données spectrales et ainsi permettre la construction de tels réseaux moléculaires (Wang et al., 2016). Le principe de base sur lequel repose GNPS est l’hypothèse selon laquelle les molécules de structure similaire se fragmenteront de la même manière lors de l’acquisition de données MS/MS.

74 Par conséquent, deux molécules structurellement apparentées auront probablement des spectres d’ions fragmentés similaires. L’algorithme de GNPS compare automatiquement tous les spectres MS/MS en les alignant un par un et leur assigne grâce à une fonction cosinus un score, le cosine score, compris entre 0 (aucune similitude entre les spectres) et 1 (spectres identiques) pour chaque alignement. Un filtre peut ensuite être appliqué pour ne conserver uniquement les molécules ayant un cosine score élevé (génralement > 0,6) et un nombre suffisant de fragments partagés (généralement > 5). Le réseau moléculaire peut ensuite être exporté vers le logiciel Cytoscape pour en améliorer sa visualisation et son exploitation. Ainsi, chaque nœud (node) du réseau correspond à un spectre de fragmentation, soit une molécule, relié entre eux par des lignes (edge) plus ou moins épaisses selon leur degré de similarité. La visualisation du réseau moléculaire permet de cette manière d’observer des groupes de spectres MS/MS correspondant à des familles moléculaires de métabolites structurellement liées. Lorsqu’au sein d’un groupe un ou plusieurs spectres ont été au préalable identifiés, il est possible d’annoter les autres spectres analogues plus rapidement obtenant ainsi une annotation putative de leur structure (annotation de niveau 3), en attendant leur confirmation.

Une fois les métabolites d’intérêt identifiés, il est nécessaire de les replacer dans leur contexte biologique afin de fournir une interprétation en lien avec la question de recherche posée. L’interprétation biologique des données métabolomiques doit si possible intégrer les causes biochimiques des changements métaboliques ainsi que leurs conséquences physiologiques sur le système biologique étudié.