• Aucun résultat trouvé

- Revue Bibliographique -

1 Métabolomique – Métabolites – Biomarqueurs

1.2 Pipeline pour l’identification de biomarqueurs

La caractérisation de la composition métabolique des échantillons biologiques analysés est indispensable. Ainsi, il est nécessaire de mettre en place un protocole allant de la collecte des données métaboliques en passant par leur traitement et analyses permettant d’identifier un ou plusieurs métabolites pouvant être associé(s) à une performance (Fig. R.18) (Zabotina, 2013; Fernandez et al., 2016).

Figure R.17| Représentation des différents niveaux de caractérisation des systèmes biologiques (D’après iPubli-Inserm – Approches « omiques »)

1.2.1 Acquisition des données métaboliques

Les concentrations et les flux métaboliques sont soumis à d’importantes variations en fonction des conditions de culture, des espèces/génotypes/variétés analysés, de leur stade de développement, etc. Ainsi, afin de pourvoir identifier de façon fiable et reproductible des marqueurs métaboliques, une attention particulière doit donc être accordée aux conditions expérimentales (évaluation de l’ensemble des facteurs pouvant avoir un impact sur les métabolites), du design expérimental à la collecte et gestion des échantillons. Le choix de ces conditions va donc être spécifique à chaque étude en fonction de la problématique de travail, des résultats attendus et de l’investissement requis (Fernandez et al., 2016).

Le développement des technologies en métabolomique a rendu possible l’analyse d’un grand nombre de métabolites au sein des échantillons collectés. Le choix des outils utilisés pour le traitement des échantillons est un compromis entre nombre d’échantillons analysés et nombre de métabolites détectés. Ainsi, deux catégories d’approches peuvent être décrites : les approches à haut-débit verticales et horizontales (Fig. R.19) (Gibon et al., 2012). L’approche à haut-débit verticale également appelée approche à haute densité correspond à l’analyse non ciblée d’un grand nombre de métabolites dans un nombre restreint d’échantillons. Il s’agit d’une approche particulièrement intéressante dans le domaine végétal puisque les plantes sont caractérisées par une grande diversité de métabolites (le nombre de métabolites produits est estimé entre 200 000 et 1 000 000). Identifier cette diversité est donc indispensable pour la compréhension des mécanismes biologiques (Gibon et al., 2012). L’extraction des échantillons va dépendre essentiellement des caractéristiques des métabolites analysés et des techniques de détection utilisées. La détection des métabolites peut être effectuée essentiellement à partir de deux techniques : la spectrométrie de masse (MS) et la résonance nucléaire magnétique (RMN). Ces deux méthodes pouvant être couplées à des techniques de séparation par chromatographie gazeuse (GC) ou liquide (LC) ou par électrophorèse capillaire (CE) (Zabotina, 2013). En fonction des différentes combinaisons de technologies utilisées, le nombre de métabolites détectés varie ainsi que la résolution et la

Figure R.18| Pipeline pour l'identification de biomarqueurs (D'après Zabotina, 2013)

L’ensemble des étapes comprennent (a)

l’obtention des données métaboliques qui passe par la production et gestion des échantillons, la détection des métabolites (b) le traitement du jeu de données afin d’obtenir les données (« clean » data) qui serviront aux analyses statistiques qui permettront d’identification de potentiels biomarqueurs (c)

Abréviations: PCA, Principal component analysis; ICA, Independent component analysis; HCA, Hierarchical clustering analysis; PLS, Partial least square

(a)

(b)

précision de la détection. Cette approche présente néanmoins deux limites majeures i)

l’identification des différents métabolites détectés qui peut s’avérer compliquée et couteuse. Si des bases de données existent (FiehnLib, NIST) seulement un nombre réduit de métabolites spécifiques des plantes y sont recensés ; ii) l’obtention de données quantitatives précises qui peuvent être difficiles à obtenir du fait des fluctuations liées à l’ionisation des molécules analysées (Zabotina, 2013).

Dans l’approche à haut-débit horizontale un grand nombre d’échantillons sont analysés pour un nombre réduit et ciblé de métabolites. Une des contraintes majeures de cette approche concerne la gestion des nombreux échantillons analysés. Si les premières étapes de la préparation des échantillons (récolte, broyage, pesée) peuvent difficilement être automatisées, la détection des métabolites dans un grand nombre d’échantillon peut actuellement être gérée par une seule personne. En effet, la quantification des métabolites peut être réalisée en microplaques via des réactions chimiques, enzymatiques qui nécessitent l’utilisation de lecteurs spécifiques. Les moins chers, permettant le dosage d’un large panel de métabolites, sont les lecteurs de microplaques avec spectrophotomètre UV/VIS intégré. L’automatisation des dosages peut être augmentée via l’utilisation de robot de pipetage. Les plateformes donnant accès à toutes ces technologies de dosages se développent (Gibon et al., 2012). C’est le cas de la plateforme métabolome de Bordeaux principalement dédiée à l’étude des plantes et de leurs produits dérivés (https://metabolome.cgfb.u-bordeaux.fr/).

Après détection des différents métabolites des échantillons biologiques, par l’une de ces deux approches, l’objectif est de pouvoir extraire l’information qui sera associée au critère de performance dans le but d’identifier de potentiels biomarqueurs de la réponse. Pour cela, un traitement des données est nécessaire afin de dé-complexifier les données, d’obtenir des données dans un format qui soit facile à manipuler par la suite, d’avoir des données normalisées (correction afin d’éliminer au maximum les biais liés à l’expérimentation, cela passe par l’utilisation de différents témoins tels que des blancs, des contrôles qualité, des standards biologiques) (Fig. R.18b) (Zabotina, 2013).

Figure R.19| Approches à haut-débit verticale et horizontale pour l'établissement d'empreintes ou profils métaboliques (D'après Gibon et al., 2012)

1.2.2 Traitement des données : vers l’identification de marqueurs métaboliques

La détection de marqueurs métaboliques implique l’utilisation de différentes méthodes statistiques afin d’établir des associations entre des profils/empreintes métaboliques et la performance/réponse biologique étudiée (Fig. R.18c). Dans la situation la plus simple où une forte corrélation est mise en évidence entre un métabolite et une performance, l’utilisation de coefficients de corrélations (Pearson/Spearman) est suffisante pour la valider. Cependant, la complexité des situations d’étude est souvent plus importante et implique plusieurs métabolites. Ainsi, l’analyse canonique des corrélations (CCA) basée sur la matrice des corrélations des variables permet de décrire les corrélations linéaires qui existent entre deux ensembles de variables mesurées sur un même échantillon biologique.

Afin d’avoir une vision globale des données obtenues, il est possible de réaliser une analyse en composantes principales (PCA). Il s’agit d’une analyse multivariée qui a pour but de réduire le nombre de variables en composantes principales en perdant le moins d’information possible c’est-à-dire en gardant le maximum de variabilité totale. Les données réparties au sein de l’espace défini par ces composantes principales permettent une visualisation rapide des données entre elles (similitudes et différences) assurant une bonne discrimination de l’échantillon biologique étudié. La PCA est une méthode non supervisée puisqu’elle ne requiert que les données mesurées. En revanche, des méthodes supervisées peuvent aussi être utilisées. Elles sont basées sur le fait que les individus de l’échantillon constituent des groupes par rapport au critère de performance analysé. Des analyses PLS-DA «Partial Least Square - Discriminant Analysis » ainsi que des variantes de cette méthode l’OPLS-DA « Orthogonal Partial Least Square-Discriminant Analysis » ont été développées. Ces deux méthodes permettent notamment de caractériser des variables VIP « Variable importance in projection » parmi lesquelles de potentiels biomarqueurs de la réponse peuvent être sélectionnés. Ces deux méthodes statistiques permettent de construire des modèles permettant d’estimer le pouvoir prédictif des données par rapport au critère de performance. Différentes méthodes doivent ensuite être utilisées pour valider ces modèles (Zabotina, 2013; Worley & Powers, 2016; Fernandez et al., 2016).