Prétraitement des données et extraction des signau

Chapitre VI Interprétation et validation des résultats

IV. Traitement des données LC-MS

IV.2 Prétraitement des données et extraction des signau

IV.2.1 Généralités

Les données générées en LC-MS se présentent initialement sous la forme d’un chromatogramme pour chaque échantillon. Sur chaque chromatogramme est représenté l’intensité du courant ionique total (Total Ion Current, TIC) en fonction du temps de rétention (tR). Pour chaque temps de rétention, il existe une série

d’ions détectés ayant des rapports m/z différents. Ainsi, chaque ion détecté possède trois caractéristiques : son rapport m/z, son temps de rétention et l’intensité de son signal (figure 66). La combinaison entre le temps de rétention

d’un ion et sa valeur m/z, notée tR_m/z permet de l’identifier et constitue ce que

l’on appellera une variable.

Figure 66 : représentation tridimensionnelle d’un chromatogramme obtenu par LC-MS.

Le prétraitement des données consiste donc à détecter le maximum de variables à partir des chromatogrammes et à extraire les valeurs de leur intensité pour chacun des chromatogrammes afin de pouvoir les comparer. Le logiciel de prétraitement utilisé doit permettre d’éliminer au maximum le bruit de fond pour n’extraire que les signaux correspondant réellement à des ions. Il doit ensuite réaligner et intégrer ces signaux pour créer une matrice notée X qui présentera pour n individus l’ensemble des variables p détectées et leur abondance (figure 67).

Figure 67 : exemple d’une matrice de données X représentant les p variables extraites pour n individus appartenant à deux classes différentes (rouge et verte). Chaque variable est identifiée par ses valeurs m/z et tR.

Pour générer de type de matrice, il existe de nombreux logiciels disponibles gratuitement ou commercialement. Nous avons choisi d’utiliser la solution la plus courante actuellement pour le traitement des données LC-MS : la bibliothèque de fonctions (package) XCMS qui fonctionne sous l’environnement R. Ce package présente l’immense avantage d’être accompagné d’une documentation très détaillée ainsi que d’une communauté active d’utilisateurs, ce qui facilite la compréhension des différents algorithmes et le choix des paramètres.

IV.2.2 XCMS

IV.2.2.1 Principe de fonctionnement

La bibliothèque de fonctions XCMS est téléchargeable gratuitement sous R via le site du projet Bioconductor (http://www.bioconductor.org). Le prétraitement sous XCMS fonctionne de manière séquentielle et fait appel à différents algorithmes de détection, d’alignement et d’intégration des signaux. Le principe de fonctionnement de XCMS se décompose en quatre étapes majeures résumées figure 68.

Figure 68 : organigramme des différentes étapes constitutives du prétraitement des données LC-MS par XCMS (en gris). Le package XCMS offre également certains outils statistiques et de visualisation des données.

La première étape détection des pics a été réalisée à l’aide de l’algorithme

centWave développé par Tautenhahn et ses collaborateurs235. Il s’agit d’une évolution de l’algorithme matchedFilter236 implémenté initialement dans le package XCMS. L’algorithme centWave a été spécialement conçu pour les données LC-MS à très haute résolution et ne fonctionne qu’avec des données acquises en mode centroïde. Contrairement à l’algorithme matchedFilter, l’algorithme

centWave ne morcèle par les spectres en tranches de rapports m/z (binning). La première étape consiste à localiser les régions dont la déviation des m/z sur des spectres consécutifs est inférieure au paramètre ppm (erreur sur la mesure de masse définie par l’utilisateur selon les performances de l’instrument). Ces régions sont appelées régions d’intérêt (figure 69). Une transformée en ondelettes continues (Continuous Wavelet Transform, CWT) est ensuite appliquée à travers les régions d’intérêt pour détecter les pics chromatographiques. La détection des EIC tient compte de la largeur moyenne des pics prédéfinie (paramètre peakwidth)

Filtre et détection des pics!

xcmsSet(method=”centWave”)

Appariement des pics à travers les échantillons!

group()

Correction des temps de rétention!

retcorr.obiwarp()

Intégration des pics!

ﬁllPeaks()

Analyses statistiques et visualisation Fichiers LC-MS!

Figure 69 : principe de la détection des régions d’intérêt. Les signaux consécutifs détectés pour l’ion m/z 285,075 (haut) dont le rapport m/z dévie de moins de 20 ppm constituent une région d’intérêt. Le pic chromatographique correspondant est détecté à l’aide d’une transformée en ondelettes continues. D’après236_.

Après détection de l’ensemble des pics d’intérêt pour chaque échantillon, tous les pics correspondant à une même espèce à travers les échantillons doivent être appariés. Sous XCMS, l’appariement des pics peut se faire à l’aide de différents algorithmes : group.density, group.mzclust et group.nearest. Nous avons choisi d’utiliser la méthode par défaut group.density. Cet algorithme tient compte des temps de rétention et des valeurs m/z pour apparier les pics. Le paramètre mzwid permet de fixer l’intervalle utilisé pour regrouper les pics à l’intérieur d’une tranche de valeurs m/z (figure 70).

Figure 70 : exemple d’appariement des pics à l’intérieur de la tranche m/z 337,975 – 338,225. La valeur de l’écart-type de la gaussienne (haut : SD = 30 s, bas : SD = 10 s) obtenue lors de la phase de lissage impacte la largeur des pics et influence le regroupement à l’intérieur d’une plage de temps de rétention. D’après236_.

Afin d’éviter de découper un pic chromatographique en deux à l’intérieur d’une tranche de valeurs m/z, il y a 50% de chevauchement entre deux intervalles successifs ce qui entraîne une redondance de 50% de l’information qui sera supprimée lors de la dernière étape du processus. Une fois les groupes de valeurs

m/z constitués, ils sont différenciés selon leur temps de rétention. L’intervalle de temps de rétention entre les groupes de m/z n’est pas fixe mais est déterminé de manière dynamique par l’algorithme qui identifie les régions contenant de nombreux pics de temps de rétention similaires.

Les groupes de pics étant constitués, l’étape de réalignement les utilise pour identifier et corriger une éventuelle dérive des temps de rétention au fil des injections. Il existe là aussi plusieurs méthodes disponibles sous XCMS : retcor.loess, retcor.linear et retcor.obiwarp. La méthode obiwarp237 a été utilisée dans le cadre de notre travail. Cette méthode calcule la corrélation existant entre les spectres pour estimer leur similitude. S’ils sont similaires, la déviation entre leurs temps de rétention sera corrigée. Les pics ainsi réalignés seront groupés une deuxième fois de manière plus précise.

Enfin, après le deuxième groupement des pics, il peut persister des pics qui n’ont pas été retrouvés dans tous les échantillons. Les intensités de ces pics manquants seront intégrées directement à partir des données initiales.

IV.2.2.2 Utilisation pour l’approche histonomique globale

L’utilisateur dispose d’une très grande flexibilité puisque la totalité des paramètres de XCMS est modifiable. Nous sommes partis de la méthode adaptée aux spectres UPLC-QTOF à haute résolution recommandée par les créateurs du package XCMS puis nous avons modifié quelques paramètres pour qu’elle soit en accord avec les caractéristiques des chromatogrammes (largeurs des pics) et des spectres (résolution, erreur sur la mesure de masse) acquis. Les paramètres choisis sont résumés en partie expérimentale.

Une fois les paramètres déterminés et résumés en partie expérimentale, nous avons voulu tester le prétraitement sur un jeu de données simple contenant deux conditions différentes à comparer. Nous avons ainsi injecté en triplicat deux quantités différentes d’histones commerciales extraites de thymus de veau : 1 et 2 µg. Certaines étapes du processus XCMS ont été évaluées, à savoir l’alignement des chromatogrammes qui permet de s’assurer qu’il s’agit bien du même ion qui est comparé à travers les échantillons, et l’extraction des signaux. Le type de représentation graphique présenté figure 71 permet de vérifier la déviation des temps de rétention.

Figure 71 : déviation des temps de rétention (en minutes) pour chacun des échantillons analysés. Chaque trait de couleur représente un échantillon différent.

La très faible valeur des déviations observées confirme la robustesse de notre système chromatographique UPLC. Les chromatogrammes réalignés sont ensuite superposés afin de juger de l’efficacité du prétraitement appliqué (figure 72).

Figure 72 : aperçu de l’ensemble des chromatogrammes (TIC) superposés après réalignement chromatographique réalisé par l’algorithme obiwarp237.

La figure 73 permet de comparer les chromatogrammes reconstitués (Extracted-

Ion Chromatogram, EIC) pour un ion défini. Elle nous permet ainsi de constater la qualité de la détection et de l’intégration du signal ainsi que la différence d’aires sous le pic équivalente à un facteur 2 entre les deux groupes d’échantillons.

Figure 73 : détection et intégration des signaux correspondants au même ion dans les deux groupes d’échantillons à l’aide de l’algorithme centWave235_.

Une fois le prétraitement par XCMS correctement effectué, une recherche de valeurs manquantes a systématiquement été réalisée sous R sur la matrice X des variables. Avant de pouvoir extraire de l’information de cette matrice, elle doit être correctement normalisée afin de limiter au maximum la variabilité indésirable qui risquerait de fausser les résultats des analyses ultérieures.

IV.3 Normalisations

Extraire de l’information biologique pertinente à partir d’un jeu de données complexe représente un véritable défi. En spectrométrie de masse, l’information biologique pertinente est souvent noyée par l’addition d’une variabilité non-induite que l’on appelle du bruit. Cette variabilité non-induite peut être d’origine biologique ou technique (figure 74).

Figure 74 : différents niveaux de variabilité présents dans les données de spectrométrie de masse en biologie. La variabilité totale observée pour une protéine donnée est la somme de la variabilité technique, de la variabilité biologique non induite et de la variabilité biologique induite. La variabilité biologique induite est la seule part de variabilité liée au phénomène biologique étudié. Les autres sources de variabilité sont liées aux conditions expérimentales et sont considérées comme du bruit.

Quelle que soit sa nature ou son origine, cette variabilité indésirable doit être gommée au maximum pour permettre de se focaliser sur la variabilité induite par le phénomène étudié. Pour cela, une normalisation des données à deux niveaux différentes est nécessaire. D’un point de vue statistique, le résultat d’une analyse chimique est considéré comme une variable aléatoire continue. Une démarche probabiliste habituelle doit être employée en vue d’ajuster les résultats expérimentaux à la loi Normale.

Nous présenterons ici les différentes étapes de la stratégie de normalisation des données. Les équations correspondantes sont détaillées en partie expérimentale. Pour illustrer l’effet de chacune de ces étapes, nous les avons appliquées sur le même jeu de données que celui déjà utilisé au chapitre précédent.

IV.3.1 Normalisation inter-échantillons

Dans le cas d’une analyse par spectrométrie de masse, les biais potentiellement introduits au cours de la conception expérimentale ainsi que de l’acquisition des données sont nombreux et difficiles à identifier. Avant de chercher des différences statistiquement significatives entre deux groupes différents d’échantillons biologiques, il faut s’assurer qu’ils sont bien comparables entre eux. En d’autres termes, il faut supprimer au maximum les sources systématiques de variation qui ne sont pas corrélées au phénomène biologique étudié mais aux conditions expérimentales. Ces sources systématiques de variation entre les échantillons sont nombreuses et peuvent être liées à l’échantillon lui-même et/ou à l’instrument. Parmi celles liées à l’échantillon, on rencontre par exemple une variation de la quantité de protéines injectée (dilution) ou une dégradation de certaines protéines au cours du temps. Les sources de variation liées à l’instrument concernent notamment une perte de linéarité de la réponse du détecteur due à une suppression d’ionisation ou un encrassement de la source. Tous ces facteurs introduisent une variabilité indésirable qu’il faut réduire au maximum par une normalisation des données comportant le plus souvent plusieurs étapes. Ces étapes de normalisation doivent cependant préserver la variation biologiquement pertinente que l’on cherche à mettre en évidence.

Il existe classiquement deux stratégies de normalisation inter-échantillons : les approches statistiques et les approches utilisant un ou plusieurs étalons internes238. Dans le cas de l’approche histonomique, l’utilisation d’étalons internes étant impossible, nous n’avons pas eu d’autre alternative que d’utiliser une approche statistique de normalisation globale. Cette approche globale considère que les différentes intensités des ions sont toutes reliées par un facteur constant entre les spectres. Il faut donc remettre toutes les intensités à la même échelle en les divisant une à une par un même coefficient. Pour cela, la normalisation par la médiane part du principe que, en moyenne, le nombre de protéines surexprimées est à peu près identique à celui des protéines sous-exprimées239. Elle considère également que le nombre de protéines dont l’abondance varie est faible par rapport au nombre total de protéines. Chaque spectre a donc été normalisé en divisant l’intensité de chaque ion par la médiane des intensités de tous les ions présents sur le spectre.

IV.3.2 Normalisations intra-échantillons

Une fois les spectres normalisés par la méthode de la médiane, les échantillons deviennent davantage comparables entre eux. Cependant, d’autres étapes sont nécessaires pour réduire l’influence du bruit et faire ressortir l’information biologique pertinente. Ces facteurs sont propres aux données de spectrométrie de masse. En premier lieu, il s’agit de la différence d’ordre de grandeur existant entre les abondances relatives des différentes espèces. Certaines protéines auront une abondance moyenne très faible par rapport à d’autres protéines très abondantes. Cependant, d’un point de vue biologique, les espèces abondantes ne sont pas obligatoirement plus intéressantes que celles très peu abondantes. Il existe également une légère fluctuation de l’abondance de certaines espèces dans des conditions expérimentales identiques (variabilité inter-individuelle). C’est ce que l’on résume sous le terme de variation biologique non-induite. Au final, les données de spectrométrie de masse sont sujettes à un bruit hétéroscédastique, ce qui signifie que l’écart-type des intensités augmente avec la valeur de l’intensité240. Autrement dit, le bruit n’est pas constant mais varie avec l’intensité du signal.

Il est donc nécessaire de réaliser, en plus de la normalisation par la médiane, plusieurs étapes de normalisation intra-échantillons. Elles se répartissent en trois classes : la transformation, le centrage et le redimensionnement des données. Transformation :

La transformation est une étape de conversion non linéaire des données. Dans notre cas, nous avons choisi de remplacer chaque valeur d’intensité par son logarithme décimal (log10) afin de corriger les phénomènes d’hétéroscédasticité et

rendre la distribution des intensités plus symétrique241. Centrage :

Le centrage des données est un des traitements les plus couramment appliqués aux données spectrales. Il vise à répartir symétriquement l’intensité de chaque variable à travers les échantillons non plus autour de leur moyenne mais autour de 0. Cette méthode permet donc de réduire le décalage qui existe entre les protéines peu et très abondantes. Elle permet de se focaliser sur les différences existant entre les échantillons et non pas sur les similitudes242.

Redimensionnement :

Le redimensionnement des données consiste à diviser chaque variable par un facteur unique, ce qui permet de réduire leur magnitude. Nous avons choisi d’utiliser la méthode de Pareto qui utilise la racine carrée de l’écart-type de la variable comme coefficient de redimensionnement243_{. A l’issue de cette}

transformation, les variances sont différentes d’une variable à l’autre mais la gamme de variance dans chaque spectre est largement réduite par rapport aux données initiales. Ainsi, l’importance relative des variables très intenses est-elle diminuée par rapport à celle des peu intenses. Cette méthode présente l’avantage de conserver au maximum la structure initiale des données, contrairement à d’autres méthodes de redimensionnement trouvées dans la littérature244.

L’effet de chacune de ces étapes de normalisation a été exploré en utilisant une représentation en boîtes à moustache (box plot) des caractéristiques des variables. La figure 75 présente ces résultats sur 50 variables choisies aléatoirement parmi les 16 237 variables présentes dans la matrice X.

Figure 75 : boîtes à moustaches ou box plot résumant les caractéristiques à chacune des étapes de normalisation de 50 variables sélectionnées aléatoirement parmi les 16 237 variables de la matrice X. L’intensité des variables est représentée sur l’axe horizontal. A = pas de normalisation, B = normalisation par la médiane, C = transformation logarithmique et D = redimensionnement de Pareto.

Nous pouvons ainsi observer qu’au fil des étapes les variables tendent à se rapprocher d’une distribution centrée réduite. Ceci est confirmé en représentant la densité de probabilité de la distribution de l’intensité des variables au sein d’un échantillon avant et après les étapes de normalisation (figure 76).

Figure 76 : estimation par noyau de la densité de probabilité de l’intensité des variables de la matrice X avant (gauche) et après (droite) les étapes de normalisation.

Au final, la distribution gaussienne des intensités des variables au sein des différents échantillons nous permettra d’utiliser différentes approches chimiométriques d’analyse des données en vue d’explorer les différences entre plusieurs groupes d’échantillons et ainsi en extraire des composés discriminants.

Dans le document Déchiffrer le code histone : épigénétique et toxicologie placentaire (Page 156-169)