• Aucun résultat trouvé

Le prétraitement des données LC-MS

Chapitre I : Généralités

4 De l’analyse des lipides à la lipidomique

4.3 Traitement des données des analyses lipidomiques

4.3.2 Le prétraitement des données LC-MS

Le prétraitement des données de LC-MS peut être divisé en 8 étapes comme représenté sur la Figure 37. De nombreux logiciels sont caractérisés par le type de format pris en charge et les algorithmes utilisés. Ils peuvent être payants et fournis par les constructeurs, ou gratuits. Mzmine 2 est un exemple de logiciel dont il est possible de modifier les algorithmes230–233

.

Figure 37 : Les différentes étapes nécessaires au prétraitement des données LC-MS233

Dans la plupart des cas, lors d’une acquisition, le spectromètre de masse génère un fichier qui est le plus souvent non compatible avec ces logiciels de prétraitement. Une conversion des fichiers est alors indispensable. Les formats universels pris en charge par l’ensemble des logiciels sont notamment le « NetCDF » ou « mZML ».

Entre l’import des données et leur analyse, le prétraitement consiste à obtenir un jeu de données comparables entre les différents échantillons issus des différents groupes permettant en particulier de s’affranchir de la variabilité instrumentale.

53 Après le chargement des données dans le logiciel, la première étape consiste à effectuer la détection des pics. Plusieurs approches sont possibles. En effet, la détection des pics peut être effectuée en fonction d’une fenêtre m/z (logiciel XCMS) ou suivant deux dimensions : temps de rétention et rapport m/z (logiciel Mzmine). Récemment, un nouvel algorithme « Gridmass » a été ajouté dans Mzmine, qui est un algorithme de détection des pics en deux dimensions234

.

Ces logiciels suivent les évolutions technologiques en spectrométrie de masse comme l’utilisation des spectromètres à ultra-haute résolution. Ils permettent de répondre aux différentes caractéristiques du signal résultant des systèmes de couplage : niveau de bruit, résolution

.

Dans un deuxième temps, une étape d’alignement est essentielle pour pouvoir comparer les différents métabolites entre les échantillons. Cet alignement est nécessaire pour s’affranchir de la variabilité de rétention d’une analyse à une autre. Il est réalisé par le calcul d’un indice de vraisemblance entre les pics. Ce calcul est basé sur l’écart de masse et de temps de rétention entre les pics par rapport à une tolérance définie.

Enfin, l’étape de remplissage des données manquantes permet de retrouver les signaux manquants en les recherchant dans les données brutes. Les différents algorithmes utilisables dans le logiciel Mzmine sont représentés dans leTableau 4.

Ces différentes étapes présentées ci-dessus sont incontournables pour effectuer le prétraitement des données LC-MS dans le cadre d’une étude métabolomique. Il existe également des étapes dites « facultatives » comme la normalisation ou le regroupement des variables issues d’un même isotope. L’objectif de la normalisation est d’atténuer les biais expérimentaux tout en conservant les variations dues aux effets biologiques.

En ce qui concerne la normalisation, il existe deux méthodes principales pour normaliser les intensités des ions. La première consiste à utiliser des méthodes statistiques telles que la normalisation en utilisant l’intensité moyenne globale ou en utilisant un maximum de vraisemblance. Une autre approche consiste à utiliser des composés de référence pour normaliser sur l’ensemble du chromatogramme. Cette dernière méthode peut sembler la plus intéressante. Il est cependant difficile de déterminer la nature des composés à utiliser, ces derniers peuvent perturber le processus d’ionisation des composés d’intérêt

.

De plus, l’élimination des différents isotopes permet de simplifier la population de différentes variables contenues dans la matrice de données. Cette étape peut être intéressante lorsque la quantité

54 de données est très importante. Elle ne permet pas de s’affranchir de la redondance du signal en masse. En effet, les différents adduits ou fragments sont formés dans la source. Seule l’étude de la fragmentation des espèces moléculaires et l’identification des composés permet de connaître objectivement ces phénomènes. Il est donc relativement difficile de choisir une méthode de normalisation. La reproductibilité des extractions peut être une première réponse, tant au niveau du protocole qu’au niveau de la quantité de matrice biologique utilisée (volume de plasma recueilli, quantité de tissu, nombre de cellules). En effet, un échantillon plus concentré fera apparaître des tendances dans les échantillons qui se révéleront non pertinentes.

Il est particulièrement important de placer des contrôles dans la séquence d’analyse. Un blanc d’extraction permet d’observer la présence d’impuretés, d’évaluer le niveau de bruit moyen au cours du chromatogramme. De plus, les mélanges de standards sont utilisés pour évaluer les temps de rétention pour chaque classe lipidique mais aussi pour effectuer une quantification dans les échantillons biologiques. Enfin, il est possible d’effectuer un échantillon moyen correspondant à un mélange équivolumétrique des échantillons biologiques et d’en effectuer des dilutions successives. L’analyse de ces échantillons permet de vérifier la relation existant entre le signal obtenu pour une espèce ionisée et son niveau de dilution235.

55

Les étapes fondamentales

Détection du spectre de masse

Centroïde Chaque ion est détecté dans chaque spectre de masse : Donnée centroïde

Masse exacte Pour les données de haute résolution

Maximum local Détecte tous les maximums locaux, à l’exception des signaux en dessous du niveau de bruit donné

Recursive Threshold Adapté pour les données de haute résolution ayant beaucoup trop de bruit pour utiliser la masse exacte

Transformation en ondelettes

Les pics sont décrits en ondelettes. La valeur m/z finale est calculée comme une moyenne des valeurs entourant les données236

Grid mass Détection des pics en considérant les deux dimensions des données LC-MS234

Déconvolution

Baseline cut off Simple d'utilisation

Noise amplitude Similaire au « base line cut off » mais permet de régler l'amplitude du niveau de bruit

Savitsky-Golay Cette méthode utilise l'algorithme de Savitsky-Golay237,238

Local min search Pics reconnus s'ils remplissent les exigences minimales de hauteur et de durée

Alignement

Join Aligner Calcul du score de ressemblance

RANSAC L'alignement de chaque échantillon se fait à partir de la liste des pics principaux du premier échantillon puis il y a une correction de tous les écarts, linéaires ou non, dans une fenêtre de temps de rétention définie

Remplissage des données manquantes

Peak finder Les pics sont alignés en fonction d'une fenêtre de temps de rétention et de masse

Same RT et m/z Cette méthode remplit les lacunes dans chaque ligne de la liste pic en utilisant le même m/z et la même plage de temps de rétention que d'autres sommets de la ligne

Les étapes facultatives

Desisotoping

Il permet d'estimer les pics en fonction de leur distribution isotopique

Normalisation

Normalisation linéaire (intensité moyenne, intensité moyenne au carré, intensité maximale ou la

somme de l'intensité totale). Normalisation par un étalon interne

Tableau 4 : Différentes étapes du prétraitement disponibles sur Mzmine avec les différents algorithmes disponibles

56

Documents relatifs