• Aucun résultat trouvé

Traitement des données 81

Dans le document en fr (Page 96-100)

CHAPITRE V : LA METABOLOMIQUE : DE LA CHIMIE A LA BIOLOGIE 66

3. Traitement des données 81

Le besoin croissant d'une extraction efficace de l’information chimique et biologique a donné naissance à diverses plates-formes logicielles pour couvrir les étapes de l’analyse métabolomique. Différents logiciels de traitement de données sont actuellement disponibles [74-76]. Certains sont commerciaux, fournis par les fabricants d’instruments, d’autres sont des logiciels à accès libre. Dans ce dernier cas, il est parfois possible d’accéder aux algorithmes pour en modifier les paramètres et/ou les optimiser ce qui leur offre plus de flexibilité. Ces logiciels diffèrent aussi par les approches mises en jeu. Alors que la soustraction du bruit de fond repose souvent sur des algorithmes de filtrage classiquement utilisés en traitement du signal, de grandes différences son observées au niveau des étapes d’extraction et d’alignement des signaux. Le Tableau 8 présente une liste non exhaustive de quelques logiciels utilisés dans les traitements de données MS.

CHAPITRE V : La Métabolomique : de la Chimie à la Biologie

- 82 - Tableau 8. Exemples de logiciels de traitement des données métabolomiques.*

Logiciels Fournisseur Traitements des données Normalisation Référence Gratuits

XCMS http://metlin.scripps.edu/xcms/

Filtration, détection et alignement des pics Annotation , visualisation

OUI [77-79] MetaboAnalyst http://www.metaboanalyst.ca

Filtration, détection et alignement des pics Visualisation

OUI [80,81] Mzmine http://mzmine.github.io/ Détection par deconvolution

et alignement des pics OUI [82] metaP-server http://metabolomics.helmholtz-muenchen.de/metap2/

Filtration, détection et alignement des pics Visualisation

NON [83] MeltDB http://www.cebitec.uni-

bielefeld.de/groups/brf/software/meltdb_info/

Détection par deconvolution

et alignement des pics NON [84]

MetAlign http://www.wageningenur.nl/en/show/MetAlign-1.htm

Correction de la ligne de base et du bruit de fond, Détection et alignement des pics

OUI [85]

Commerciaux

Bluefuse BlueGnome Filtration, détection et

alignement des pics NON

Progenesis QI Waters®

Correction de la ligne de base et du bruit de fond, Détection et co-alignement des pics

OUI

UNIFI Waters®

Correction de la ligne de base et du bruit de fond, Détection et alignement des pics

OUI

MarkerView Applied Biosystems® Détection par alignement

des pics OUI

Sieve® ThermoFisher Scientific

Détection des pics directement à partir des données brutes et Alignement des pics

NON

MassHunter Agilent Technologies Détection et alignement des

pics OUI

Metabolyzer Metabolon Traitement automatique

Alignement des pics OUI Phenomenome

Profiler Phenomenome Discoveries

Détection et alignement des

pics OUI

* Liste non exhaustive

3.1. Conversion des fichiers

L’acquisition des données brutes est le point de départ pour le prétraitement des données en métabolomique en particulier si des logiciels à libre accès sont utilisés. Les données LC-IM-MS sont un ensemble de vecteurs de points enregistrés au cours d’intervalles de temps successifs. Chaque point se compose d’un rapport m/z, d’un temps de rétention, d’une CCS et d’une intensité. Les formats de fichiers sont souvent fournisseur et instruments dépendants. Cependant, le format du fichier à utiliser dépend du logiciel de prétraitement. Pour pallier ce problème, divers convertisseurs sont disponibles pour convertir les fichiers en format ouvert tel que mzXML, NetCDF ou mzML [86].

CHAPITRE V : La Métabolomique : de la Chimie à la Biologie

- 83 - 3.2. Correction de la ligne de base

Les algorithmes de correction de la ligne de base estiment la fréquence de base, puis soustraient la valeur estimée à partir du signal. Un filtre Savitzky-Golay de faible degré peut être utilisé pour supprimer la ligne de base à partir d'un signal LC-MS [87].

3.3. Filtrage

Le filtre est utilisé pour éliminer le bruit de fond acquis avec les données. Selon les paramètres, ces filtres permettent d’améliorer le rapport signal/bruit. L’exigence majeure pour le filtre consiste à supprimer le bruit tout en conservant l’information pertinente initiale. Différentes méthodes de filtrage sont décrites telles que le filtrage médian ou le filtrage par moyenne mobile. L’application aux données observées une régression locale avec une fonction polynomiale d'ordre supérieur (i. e. Savitzky-Golay) s’avère particulièrement efficace dans la préservation de la forme des pics [87,88]. Plusieurs autres méthodes pour l'élimination du bruit et la détection des pics basés sur les maximas locaux ou la transformée en ondelettes [89-91].

3.4. Détection des pics

La détection des pics est une transformation qui convertit les données brutes continues en forme centroïde donc en données discrètes sous forme de pic de sorte que chaque ion soit représenté par un pic. Cette transformation offre deux avantages : une suppression d’une partie du bruit contenu dans les données brutes et une réduction la dimension des données sans perte notable d'information. La détection des pics est en général effectuée en deux étapes en commençant par le calcul des centroïdes des pics dans la gamme m/z, puis la recherche dans toute la gamme des temps de rétention des pics chromatographiques et/ou du spectre de mobilité ionique. Pour le pic centroïde dans la gamme m/z, de nombreux fabricants d’instruments MS fournissent des logiciels spécifiques qui permettent à l'utilisateur d'acquérir directement les données en centroïde. Actuellement, les principaux efforts des algorithmes de détection de pic se concentrent sur la centroïdisation (centroïding) en fonction du temps de rétention. Compte tenu de la variation discrète des m/z par rapport aux autres dimensions séparatives (temps de rétention, temps de dérive), la détection des pics est généralement réalisée sur des chromatogrammes d'ions extraits (Extracted Ion Chromatograms EIC) [77,92] ou Ion Mobility Spectra pour la mobilité ionique, qui est, en fait, un signal 2-D de l'intensité en fonction du temps de rétention sur un petit intervalle m/z. Dans la majorité des algorithmes, les EIC sont acquis par binning sur la gamme m/z avec un petit intervalle (exemple 10-30 ppm). Cependant, une des limites du binning est qu’un ion peut être subdivisé en deux pics voisins. Après l'extraction des EIC, ils sont analysés pour déterminer la présence de pics ainsi que leurs limites en utilisant un filtre adapté [77]. D'autres algorithmes sont décrits pour améliorer la détection des pics grâce à une meilleure modélisation des pics chromatographiques [92,93].

CHAPITRE V : La Métabolomique : de la Chimie à la Biologie

- 84 - 3.5. Alignement

Le groupement des pics et l'alignement des temps de rétention (tR) et/ou temps de dérive (tD) permettent la comparaison des données LC-IM-MS dans les différents échantillons analysés. En effet, ces dimensions séparatives peuvent présenter des dérives dans les différents échantillons à cause des fluctuations instrumentales au cours de l’analyse. Ainsi, après la détection de pics, un alignement sur tous les profils est nécessaire pour générer un ensemble combiné de caractéristiques interprétables. L'alignement s'effectue par m/z ainsi que les autres dimensions de séparation [94,95]. La plupart des méthodes existantes incluent une étape d'estimation de l'écart de temps non linéaire et fournissent des temps corrigés [94,96]. L'alignement par paires est ensuite complété par référence au profil avec un nombre maximal de caractéristiques détectées et tous les autres profils sont alignés par rapport à la référence par paires en utilisant divers algorithmes [95- 99]. Pour les études métabolomiques, l’alignement du temps de rétention est utilisé pour corriger la dérive des temps de rétention et veiller à ce que le même ion soit comparable entre les différents échantillons. L’une des méthodes proposées pour la correction du temps de rétention est d'ajouter des composés de référence dans les échantillons et les utiliser comme point de repère pour aligner les pics [6]. Toutefois, ces composés de référence doivent être soigneusement choisis pour avoir une couverture suffisante de l'intervalle de temps de rétention et d'éviter, ainsi, un chevauchement lors de l'analyse des métabolites. Cependant, la présence excessive d’étalons internes peut également provoquer une suppression spectrale. À cause de ces limites, les approches d'alignement n’utilisant pas de composés de référence sont préférables. Une de ces approches utilise les résultats de détection de pics et essaie de trouver et de faire correspondre les pics similaires [77]. Par exemple, XCMS utilise d'abord une estimation pour regrouper les pics avec les mêmes valeurs m/z et temps de rétention et à travers l'ensemble de données. Après regroupement des meilleurs pics, des groupes de pics qui n’ont pas été attribués dans très peu d'échantillons sont utilisés comme repères pour l'alignement. Une régression est effectuée entre les écarts entre les temps de rétention de ces pics repères à partir de leurs valeurs médianes au sein des groupes de pointe et le temps de rétention. Les régions sur le chromatogramme sans pics de référence peuvent être interpolées et alignées. Les pics alignés sont regroupés une seconde fois, pour adapter les pics avec les temps derétention corrigés. Cette procédure est habituellement effectuée de manière itérative deux ou trois fois pour s'assurer que la dérive du temps de rétention est suffisamment corrigée. L'autre catégorie d'approches utilise les données LC-MS brutes pour l'alignement de temps de rétention tels que l'ion EIC ou le TIC. Une évaluation critique de plusieurs méthodes d'alignement conclut que XCMS donne la meilleure performance pour l'alignement des données LC-MS [100]. Cependant, il est à souligner que la performance d'une méthode dépend fortement du choix des paramètres appropriés [101,102]. L'optimisation des paramètres de prétraitement est une étape cruciale dans l'extraction des données [101,103-105]. IPO [106] et xMSanalyzer [105] sont des exemples de packages développés sous l’environnement R qui permettent l’optimisation des paramètres XCMS et d'autres logiciels de prétraitement. La limite majeure de ses solutions et le temps de calcul nécessaire pour exécuter les extractions multiples, intégrer des données et évaluer leur qualité.

CHAPITRE V : La Métabolomique : de la Chimie à la Biologie

- 85 - 3.6. Regroupement des ions et leurs adduits

Cette étape groupe les ions qui sont susceptibles de provenir d'un même composé. Lors de l’utilisation des méthodes séparatives couplées à la MS, un métabolite est souvent représenté par des pics multiples et distincts portant des valeurs m/z distinctes, mais avec un même temps de rétention, et ceci en raison de la présence des isotopes, adduits et ions fragments. Quand la vitesse de balayage est correctement ajustée et le nombre de points acquis est suffisant pour définir les pics chromatographiques, les ions du même composé forment des profils d'élution similaires qui peuvent être représentés par leurs EIC. L'annotation d'ions peut être réalisée par regroupement des profils d'élution semblables. Une méthode d’annotation d'ions a été développée dans laquelle les ions sont regroupés sur la base de la corrélation de Pearson de leur EIC [107]. Si la corrélation entre deux ions est supérieure à un seuil prédéfini et la différence m/z entre les deux ions peut s'expliquer par une information connue (adduits, isotopes ou ion fragment), les deux ions sont considérés comme provenant du même métabolite. Toutefois, dans la méthode décrite ci-dessus, le choix du seuil de corrélation de Pearson est largement empirique, sans interprétation statistique. En outre, lorsque les profils d'élution de deux ions ont un grand chevauchement, la corrélation de Pearson est généralement élevée et pas assez sensible pour capter les différences subtiles dans EIC. Une approche statistique rigoureuse a été proposée pour tester si deux ions mesurés par TOF-MS sont originaires de la même entité chimique [108]. Dans cette approche, le signal observé est modélisé comme une distribution de Poisson. Si deux ions sont dérivés du même composé, la distribution de l'intensité observée suit une loi binomiale. Le test Pearson χ2 a été utilisé pour évaluer la qualité de la corrélation de l'observation de la distribution binomiale à laquelle une p-value est associée. Il a été montré que cette approche permet de réduire de 6% le taux de faux positifs dans l’annotation d’ion par rapport aux 50% obtenus par la méthode de corrélation de Pearson en conservant le même niveau de sensibilité [108].

Dans le document en fr (Page 96-100)