• Aucun résultat trouvé

2. CHAPITRE 1 : DEVELOPPEMENT DES METHODES

2.2.3. Traitement des données

Une étude différentielle du métabolome accompli par LC-MS génère une grande quantité de données. Au cours d’une analyse de 15 minutes, si le spectromètre de masse acquiert 3 spectres par seconde, au final 2700 spectres sont enregistrés et chacun d’eux se compose de plusieurs centaines de milliers de points. En multipliant ces données par le nombre d’échantillons, la quantité est telle que seule l’utilisation de logiciels sophistiqués permet de traiter ce flux d’informations. A partir des données brutes collectées par le spectromètre de masse, plusieurs plateformes de traitement des données sont nécessaires afin d’exploiter au mieux l’ensemble des données.

2.2.3.1. Détection des pics chromatographiques et intégration

La première étape du processus consiste à détecter l’ensemble des pics caractérisant les ions issus des métabolites présents dans les différents échantillons. Cependant, plusieurs types de bruits de fond, aléatoires et chimiques, viennent perturber la détection de ces signaux. Le bruit chimique est typiquement causé par des molécules provenant des solvants et des solutions tampons, se manifestant généralement en début et en fin d’élution (Hilario et al., 2006). Par ailleurs, certains métabolites peuvent avoir des interactions chaotiques avec la phase stationnaire de la colonne chromatographique. Ils ne sont alors pas élués sous forme de pics et se diffusent au cours du temps, provoquant un bruit de fond chimique, également nommé effet matrice. Le bruit aléatoire, réparti de manière stochastique sur les spectres de masse est principalement attribué au détecteur. Pour faciliter la détection des vrais ions et limiter les faux positifs, différents traitements du signal permettent de réduire le bruit de fond. Néanmoins, ces processus peuvent altérer les données.

57 Pour la détection de pics, la stratégie la plus courante est basée sur la découpe des données LC-MS en de fines tranches de masse sur charge (entre 1 et 0,1 m/z), appelée « bucketing ». D’un chromatogramme en trois dimensions (masse sur charge, temps de rétention et intensité), processus permettant d’obtenir une multitude de chromatogrammes en deux dimensions (temps de rétention et intensité) plus facile à manipuler. Chacun d’eux est traité de façon indépendante. Un filtre Gaussien d’ordre deux est appliqué ; les points d’inflexion de chaque pic sont définis et permettent leur intégration. Divers filtres peuvent être ajoutés à la détection comme une valeur seuil d’intensité, la résolution chromatographique et / ou spectrale et bien d’autres.

2.2.3.2. Réalignement des pics chromatographiques

La seconde étape du processus a pour but de réaligner les chromatogrammes des différents échantillons analysés les uns par rapport aux autres, dans le but de comparer par la suite tous les ions détectés dans chaque échantillon en fonction de leurs aires chromatographiques et leurs temps d’élution. En chromatographie liquide, le temps d’élution d’une molécule varie légèrement d’une injection à une autre, malgré l’utilisation de paramètres identiques. Cette variation est plus ou moins importante en fonction des caractéristiques de la colonne. Elle demande un réalignement des chromatogrammes de tous les échantillons analysés. Cependant, l’utilisation de l’UPLC permet une bonne répétabilité des temps d’élution entre différentes injections. Dans le cadre de notre étude, sur cinquante injections consécutives, le plus grand écart observé est inférieur à une seconde. De ce fait, le réalignement des chromatogrammes n’est pas nécessaire, cette variation étant faible par rapport à la largeur d’un pic chromatographique d’environ 10 secondes. Dans le cas de l’utilisation de colonne de type HPLC, un réalignement est généralement nécessaire.

58 La troisième étape du processus est la normalisation des données dont le but est de corriger et de minimiser les biais apparus lors de l’extraction, la préparation des échantillons et leurs injections en LC-MS. Les stratégies pour normaliser les données de profil métabolomique peuvent être divisées en deux classes. La première comprend l’utilisation de standards internes ou externe. L’intensité ou l’aire de ces standards doivent être identiques au cours des différentes acquisitions. Dans le cas contraire, un facteur de correction est appliqué à ces standards ainsi qu’à l’ensemble des pics. Une autre stratégie de normalisation consiste à utiliser les données dans leur globalité. L’ensemble des aires ou des intensités est sommé pour chaque acquisition, un facteur de correction est appliqué afin que toutes les sommes soit égales. La méthode de normalisation par l’utilisation de standards (interne ou externe) permet de suivre les biais subis par un seul métabolite (ou quelques métabolites) contrairement à la deuxième méthode qui prend en compte la globalité des données. Cependant, la normalisation selon la méthode « globale » repose sur l’hypothèse que la quantité totale des métabolites détectés est similaire entre tous les échantillons des différentes conditions analysées. Cette hypothèse devra être vérifiée avant de pouvoir utiliser cette méthode de normalisation.

2.2.3.4. Détermination des ions discriminants

La quatrième partie du processus consiste à classifier toute l’information obtenue pour l’ensemble des ions détectés en fonction de leur temps de rétention et leur aire (ou intensité) dans chaque échantillon. Les études de métabolomique génèrent des tableaux de données très complexes pour lesquels des outils statistiques appropriés sont requis afin d’isoler les ions caractéristiques des différentes conditions. Les analyses statistiques multi-variées et non supervisées comme l’analyse en composantes principales (ACP) fournissent des informations qualitatives sur les différents échantillons. Quant aux analyses supervisées de la famille des régressions des moindres carrés partiels comme les PLS (Partial Least Square), OPLS (Orthogonal Partial Least Square) et OPLS-DA (Orthogonal Partial Least Square – Discriminant analysis), elles permettent de distinguer rapidement l’ensemble des ions discriminants (Wiklund et al., 2008).

59

2.2.3.5. Logiciels de traitements des données

De multiples logiciels proposent de traiter les données issues d’analyses différentielles du métabolome, dont ceux proposés par les fabricants de spectromètres de masse comme MarkerLynx (Waters) et Metabolic Profiler (Bruker Daltonic) (Wiklund et al., 2008). Des logiciels libres sont aussi disponibles comme XCMS, fonctionnant en langage R (Smith et al., 2006), MZmine (Katajamaa et al., 2006; Pluskal et al., 2010), MathDAMP (Baran et al., 2006) et metAlign (Lommen, 2009) ; cette liste n’étant pas exhaustive.

Dans le cadre de mon travail de thèse, j’ai testé et comparé plusieurs logiciels, toutefois le plus utilisé a été Markerlynx (Waters). Ce choix se justifie en partie par sa simplicité d’utilisation et d’autre part, ce logiciel est adapté aux types de données générées par l’UPLC et le Q-TOF PremierTM, puisqu’il est fourni par le constructeur de ces appareils.

2.2.3.6. Utilisation de Markerlynx

La détection des pics et leur intégration demeurent des étapes cruciales qui conditionnent la qualité de l’analyse dans sa globalité. La principale difficulté réside dans la définition de la frontière entre « bruit de fond » et « vrai signal ». Il est possible de jouer sur le seuil d’intensité, une valeur élevée abaissant la quantité d’artéfacts intégrée et facilitant le traitement des données. En contrepartie, la couverture du métabolome exploré est plus étroite. Inversement, un seuil d’intensité trop bas, conduit à l’intégration du bruit de fond. Le traitement des données devient alors chaotique et les outils statistiques ne peuvent supporter des données contenant trop d’artefacts. Or le bruit de fond se répartit de façon inégale entre le début et la fin d’un gradient chromatographique, de même sur les spectres, la zone des masses les plus basses contient d’avantage de bruit chimique que celle des masses au-delà de 300 Daltons.

60 Dans ce travail, le seuil d’intensité est fixé à dix fois la valeur moyenne du bruit de fond calculée par le logiciel Markerlynx. Aucun filtre supplémentaire n’est appliqué pour éliminer le bruit de fond. La normalisation s’effectue selon la méthode globale, c'est-à-dire, l’ensemble des aires de chaque échantillon est sommé et un facteur de correction est appliqué afin que toutes les sommes soit égales. Préalablement, nous avons vérifié que la concentration d’une grande partie des analytes restait constantes entre les profils métaboliques de racines colonisées ou non par le champignon MA afin de justifier l’utilisation de la méthode de normalisation « globale ». La caractérisation des ions discriminants s’effectue par l’intermédiaire d’une analyse statistique de type OPLS-DA. Sa représentation graphique sous la forme d’un S-plot ou chaque point est un ion, met en évidence les ions qui caractérisent chaque condition. La variable au niveau des abscisses correspond à la covariance de chaque ion. Elle est égale à zéro si l’ion est indépendant des deux conditions (mycorhizé et non mycorhizé). L’ordonnée indique le niveau de corrélation entre les valeurs des aires de chaque condition. Les zones aux extrémités du « S » représentent les ions les plus discriminants et avec les taux de confiance les plus élevés.