• Aucun résultat trouvé

Caractérisation des sources de pollution(s) anthropique(s) par analyse non-ciblée - Correction de la dérive de l'analyse par UHPLC-HRMS

N/A
N/A
Protected

Academic year: 2021

Partager "Caractérisation des sources de pollution(s) anthropique(s) par analyse non-ciblée - Correction de la dérive de l'analyse par UHPLC-HRMS"

Copied!
51
0
0

Texte intégral

(1)

HAL Id: hal-02609673

https://hal.inrae.fr/hal-02609673

Submitted on 16 May 2020

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

anthropique(s) par analyse non-ciblée - Correction de la

dérive de l’analyse par UHPLC-HRMS

M. Vuillermoz Bellod

To cite this version:

M. Vuillermoz Bellod. Caractérisation des sources de pollution(s) anthropique(s) par analyse non-ciblée - Correction de la dérive de l’analyse par UHPLC-HRMS. Sciences de l’environnement. 2019. �hal-02609673�

(2)

Caractérisation des sources de

pollution(s) anthropique(s) par analyse

non-ciblée - Correction de la dérive de

l'analyse par UHPLC-HRMS

Du 1 mars au 30 août 2019

Mélissa VUILLERMOZ-BELLOD

Irstea Lyon-Villeurbanne

5, rue de la Doua 69625 Villeurbanne

Encadrant : Cécile Miège,

Co-encadrants : Matthieu Masson et Bénilde Bonnefille

Institut national de recherche en sciences et technologies pour l’environnement et l’agriculture

Stage de fin d’études ingénieur CPE Lyon et

Master 2 « Analyses Physico-Chimiques » Lyon 1

(3)

Remerciements

Je tiens, tout d’abord, à remercier Cécile MIEGE et Matthieu MASSON pour m’avoir permis de réaliser ce projet de fin d’étude, accueillie et encadrée le temps de celui-ci. Je remercie toute l’équipe du Laboratoire de chimie des Milieux Aquatiques pour son accueil, notamment Bénilde BONNEFILLE pour son aide au quotidien dans la réalisation de ce projet. Je remercie également Pascal BOISTARD, Directeur du centre Irstea de Lyon-Villeurbanne, pour m’avoir autorisée à mener ce projet au sein d’Irstea.

J’adresse mes remerciements à Nicolas MOUTON, Doctorant à l’Institut des Sciences Analytiques (ISA), pour son aide concernant un questionnement sur le sujet.

Enfin, j’adresse mes remerciements aux équipes pédagogiques de CPE Lyon et du Master Analyse et Contrôle de l’université Claude Bernard de Lyon, et en particulier à mon tuteur Richard ROUX.

(4)

Table des matières

TABLE DES FIGURES 2 TABLES DES TABLEAUX 2

NOMENCLATURE ET ABREVIATIONS 3 INTRODUCTION – CONTEXTE – OBJECTIFS 4 I. ETUDE BIBLIOGRAPHIQUE 6

A. SELECTION DES PUBLICATIONS ... 6

B. PRESENTATION DES PROTOCOLES APPLIQUES POUR L’ANALYSE NON-CIBLEE D’ECHANTILLONS ENVIRONNEMENTAUX ... 6

1. Les préparations d’échantillons d’eaux ... 6

2. Les analyses d’échantillons d’eaux ... 7

3. Les traitements des données analytiques... 7

C. L’ASSURANCE QUALITE ... 9

1. Contrôle qualité (CQ), vérificateur de la dérive instrumentale ... 9

2. La stabilité des échantillons ... 11

D. CONCLUSION ET OBJECTIFS DU PROJET ... 11

II. MATERIEL ET METHODES 13 A. LES ECHANTILLONS ... 13

1. Les échantillons d’eaux réels ... 13

2. Les échantillons « contrôle qualité » ... 14

B. PRESENTATION DU WORKFLOW ANALYTIQUE ... 15

1. Analyse par UHPLC-HRMS ... 15

2. Traitement des données ... 15

C. TESTS ET DESIGNS EXPERIMENTAUX ... 16

1. Test de sensibilité instrumentale ... 16

2. Correction de la dérive analytique des intensités des features à l’aide d’échantillons CQ ... 16

3. Test de stabilité des échantillons dans le temps ... 17

III. RESULTATS ET DISCUSSION 18 A. TEST DE LA SENSIBILITE INSTRUMENTALE ... 18

B. CORRECTION DE LA DERIVE ANALYTIQUE A L’AIDE D’ECHANTILLONS CQ ... 20

1. Correction de la dérive intra-séquence ... 20

2. Correction de la dérive inter-séquences ... 23

C. TEST DE STABILITE DES ECHANTILLONS DANS LE TEMPS... 24

D. INITIATIVE D’EXPLORATION DE POTENTIELS MARQUEURS DE SOURCES DE POLLUTION(S) ANTHROPIQUE(S) ... 27

CONCLUSION ET PERSPECTIVES 29 BIBLIOGRAPHIE 30

(5)

Table des figures

FIGURE 1.NOMBRE DE PUBLICATIONS EN FONCTION DES ANNEES (WEB OF SCIENCE©) AVEC LES MOTS-CLEFS « NON TARGET ANALYSIS » ET

DANS LE DOMAINE « CHIMIE ANALYTIQUE ENVIRONNEMENTALE » ET « METABOLOMIQUE » ... 6

FIGURE 2.ARBRE DE DECISION DE METABODRIFT©[17] ... 8

FIGURE 3.ACP DES DONNEES AVANT (A) ET APRES (B) CORRECTION DE METABODRIFT.DEUX SEQUENCES DIFFERENTES SE DISTINGUENT EN (A) ALORS QU’EN (B), IL N’Y A PLUS QU’UNE SEQUENCE UNIQUE [17] ... 9

FIGURE 4.DESIGN EXPERIMENTAL D’UNE SEQUENCE ANALYTIQUE [22] ... 10

FIGURE 5.PRESENTATION DES ZONES DE PRELEVEMENT SUR LE GIER (REFERENCE :MAËLLE LEPOUTRE,2009;MODIFIE) ... 13

FIGURE 6.CHROMATOGRAMME D'UN FEATURE D’UN CQ AVEC UN FAIBLE RAPPORT SIGNAL-SUR-BRUIT S/N=6,67 ... 15

FIGURE 7.EVOLUTION DE L'INTENSITE DE DIFFERENTS FEATURES AU COURS DE LA SEQUENCE ANALYTIQUE ... 18

FIGURE 8.COEFFICIENTS DE VARIATION DES INTENSITES DES FEATURES EN FONCTION DES RAPPORTS M/Z... 19

FIGURE 9.«BOITES A MOUSTACHE » DES CV DES INTENSITES EN FONCTION DES RAPPORTS M/Z ... 20

FIGURE 10.EVOLUTION DE L'INTENSITE, APRES CORRECTION, DE DIFFERENTS FEATURES AU COURS DE LA SEQUENCE ANALYTIQUE ... 21

FIGURE 11.« BOITES A MOUSTACHE » DES CV DES INTENSITES PAR GROUPE DE M/Z EN FONCTION DES DIFFERENTS TYPES DE CORRECTION... 22

FIGURE 12.COEFFICIENTS DE VARIATION DES INTENSITES DES FEATURES EN FONCTION DES RAPPORTS M/Z, APRES CORRECTION PAR DES CQP TOUS LES 5 ECHANTILLONS ... 22

FIGURE 13.ACP PROJETANT LES ECHANTILLONS ET CQ DE LA SEQUENCE ANALYTIQUE, APRES CORRECTION ... 23

FIGURE 14.ACP PROJETANT LES ECHANTILLONS ET CQ D’UNE SECONDE SEQUENCE ANALYTIQUE, APRES CORRECTION ... 24

FIGURE 15.EVOLUTION DE LA NATURE DE LA COMPOSITION DE L'ECHANTILLON D'ENTREE DE STEP EN FONCTION DU NOMBRE DE JOUR DE STOCKAGE ... 25

FIGURE 16.EVOLUTION DE LA NATURE DE LA COMPOSITION DE L'ECHANTILLON DE SORTIE DE STEP, JOUR DE STOCKAGE PAR JOUR DE STOCKAGE ... 26

FIGURE 17.DIAGRAMME DE VENN DES FEATURES DE L'ECHANTILLON D’ENTREE DE STEP(A GAUCHE) ET DE SORTIE DE STEP(A DROITE), APRES CORRECTION INTRA-SEQUENCE ... 26

FIGURE 18.ACP PROJETANT LA SEQUENCE ANALYTIQUE DE TEST APRES CORRECTION, POUR LES ECHANTILLONS SEULS ... 27

FIGURE 19.PROCESSUS D'ALIGNEMENT DES TEMPS DE RETENTION PAR XCMS[28] ... 44

Tables des tableaux

TABLEAU 1.RECHERCHE BIBLIOGRAPHIQUE PAR MOTS-CLEFS AVEC LE NOMBRE DE PUBLICATIONS CORRESPONDANTS ... 6

(6)

Nomenclature et Abréviations

Acronymes Description

ACP Analyse en Composantes Principales

CV Coefficient de variation

DOM « Dissolved Organic Matter » : Matière organique

dissoute

ESI « Electro Spray Ionisation » : Ionisation électrospray

FBSC « Feature-Based Signal Correction »

FTICR

« Fourier-Transform Ion Cyclotron Resonance » : Résonance cyclotronique ionique à transformée de Fourier

HPLC « High-Performance Liquid Chromatography » :

Chromatographie liquide à haute performance

HRMS « High-Resolution Mass Spectroscopy » :

Spectroscopie de masse haute résolution

Irstea Institut national de recherche en sciences et

technologies pour l'environnement et l'agriculture

LAMA Laboratoire de chimie des milieux aquatiques

LOESS « Locally weighted scatterplot smoother » : Lisseur de

nuage de points à régression locale

QC « Quality Control » : Contrôle qualité (CQ)

QTOF « Quadripol-Time Of Flight » : Quadripôle-Temps de

vol

STEP Station d'épuration des eaux usées

UHPLC « Ultra-High-Performance Liquid Chromatography » :

Chromatographie liquide à ultra-haute-performance

uHRMS « ultra-High-Resolution Mass Spectrometry » :

(7)

Introduction – Contexte – Objectifs

Les milieux aquatiques sont impactés par de nombreuses sources de pollution(s) anthropique(s) : rejets industriels, rejets domestiques traités en station d’épuration (STEP) ou parfois non traités, eaux de ruissellement en zone rurale ou urbaine, des déversoirs d’orage… Ces sources de pollution(s) sont composées de constituants organiques dissous spécifiques (e.g. mélange complexe de petites molécules, macromolécules et polymères, c’est-à-dire acides aminés, protéines, lipides, sucres, acides humiques et fulviques, cellulose, et bien d’autres). La matière organique dissoute (MOD)1 désigne les composés dissous

de taille inférieure à 0,45 µm et est la fraction de la matière organique la plus mobile, influençant un large spectre de processus biogéochimiques dans les milieux aquatiques et terrestres. Il est donc important de comprendre les origines et impacts de la MOD afin de mieux comprendre le comportement et le devenir de ses constituants.

En se focalisant sur les groupements fonctionnels les constituants de la MOD, ou à ses composés spécifiques, il est possible de la caractériser sa composition et ses propriétés par différentes approches (e.g. Fluorescence-3D ou la spectroscopie UV-visible2–4…). Ce mode d’analyse est appelée analyse ciblée. L’analyse ciblée permet

de tester des caractéristiques ou des composés bien spécifiques. L’analyse ciblée par spectrométrie de masse haute-résolution (HRMS) recherche les éléments de masse et temps de rétention connus. Cependant, elle ne donne qu’une information partielle de la MOD. L’analyse ciblée par HRMS des constituants organiques dissous ne fournit pas suffisamment d’informations qui permettent de caractériser la MOD : seuls des éléments spécifiques et non la globalité de la MOD sont analysés. Il est important d’avoir des informations plus globales et exhaustives de ses constituants afin de trouver mieux comprendre leur évolution. D’où l’approche proposée de l’analyse non-ciblée en HRMS qui repose sur l’acquisition de l’intégralité de l’information présente dans un échantillon, dans les conditions d’analyse choisies. Cela donne une information jusqu’à un ratio masse-sur-charge de 1700 Dalton, soit une information relativement complète (les constituants de la MOD ayant des masses pouvant aller jusqu’à 10 kDa).

Concernant le domaine de la chimie environnementale, les stratégies d’analyse non-ciblée se développent et comprennent des démarches soit : i) d’analyse suspectée (i.e. identification de micropolluants organiques et/ou leurs produits de dégradation à l’aide de base de données spectrales) ; ii) d’élucidation structurale (i.e. mise en évidence de nouveaux micropolluants ou groupes de micropolluants) ; ou iii) de comparaison d’empreintes HRMS correspondant à un ensemble de marqueurs spécifiques (ici, des couples

masse-sur-charge (m/z) / Temps de rétention (Tr) dont l’intensité sera mesurée dans les échantillons. Ces couples sont appelés features) qui vont être communs/spécifiques à un ou plusieurs types d’échantillon (par exemple

en fonction de leur origine). La comparaison d’empreintes HRMS devrait permettre de faire émerger des marqueurs spécifiques à différentes pollutions afin de remonter à leur nature, voir leur origine. Cependant, chaque instrument d’analyse est soumis à certaines variations de sensibilité dans le temps qui apportent un biais instrumental. En analyse non-ciblée par HRMS, il est difficile de palier à cette dérive. Contrairement à l’analyse ciblée pour laquelle il existe de nombreuses solutions (calibration avec étalons internes, étalons externes, échantillons contrôles qualités (CQ), …), l’analyse non-ciblée génère une multitude de features. La calibration, avec des étalons internes, n’est pas possible puisqu’il n’existe pas d’étalon « type » représentatif de tous les échantillons issus de différents milieux aquatiques5. Ainsi, un premier challenge apparaît : la

difficulté de comparer les données de séries analytiques acquises à différents temps en raison de dérives instrumentales et à l’absence de contrôle qualité approprié. Il est donc nécessaire de développer des « workflows », c’est-à-dire des processus standardisés intégrant la préparation d’échantillon, l’analyse, le traitement et l’interprétation de la grande quantité de features générés par HRMS. Ces workflows doivent permettre de standardiser et fiabiliser tout le processus analytique, notamment la sélection et le traitement

(8)

des données, leur qualité, les outils de différents tests statistiques adéquats pour l’étude des empreintes HRMS.

Les deux objectifs successifs de cette étude ont été de i) mettre en place une stratégie d’analyse qualitative (i.e. un workflow) pour l’analyse non-ciblée de la MOD par HRMS, du prélèvement de l’échantillon au traitement des données d’analyse puis, ii) de permettre l’identification de marqueurs chimiques spécifiques à différents échantillons et sources de pollution(s) anthropique(s), tout en remédiant aux problèmes de stabilité dans le temps de l’instrument et des échantillons.

À terme, l’objectif de l’équipe est de pouvoir comparer différentes séquences analytiques, en proposant l’usage des CQ et de workflows robustes, afin de pouvoir mettre en avant les différences entre les empreintes chimiques de différentes eaux aux origines diverses, dans un deuxième temps. L’étude est réalisée en bi-tutorat au sein des équipes Micropolluants Organiques et Paramètres Majeurs du laboratoire de chimie des Milieux Aquatiques (LAMA). Cette équipe, spécialisée dans l’analyse les échantillons environnementaux, développe des démarches d’analyses suspectées et non-ciblées présentées ci-dessus.

En préambule, une étude bibliographique apporte des informations concernant les études actuelles et passées dans le domaine de la métabolomique (domaine où l’analyse non-ciblée s’est fortement développée depuis 20 ans) qui vont soutenir la stratégie d’analyse qualitative mise en place dans l’étude expérimentale présentée dans ce rapport. Les résultats sont présentés et discutés dans la dernière partie, afin de déterminer et apprécier l’utilité de la stratégie d’assurance qualité proposée (CQ, design expérimental, …) et du workflow associé, mais aussi pour initier l’étude des empreintes HRMS de quelques échantillons.

(9)

I.

Etude bibliographique

A. Sélection des publications

Avec les outils Web of Science© et Scopus©, plus de 50000 publications sont référencées entre 1982 et 2019 pour une recherche en « non target analysis » (1ère ligne du Tableau 1) (i.e. analyse non-ciblée). Afin de

sélectionner les publications les plus pertinentes en rapport avec le sujet de cette étude, les domaines de la chimie analytique environnementale et la métabolomique sont sélectionnés (2ème ligne du Tableau 1). Seules

les publications étudiant la MOD et les micropolluants sont étudiées (3ème ligne du Tableau 1). La sélection

est réduite à la MOD (4ème ligne du Tableau 1). Cependant, les micropolluants sont plus étudiés en analyse

non-ciblée que la MOD, la recherche bibliographique est donc étendue à l’étude de la MOD et des micropolluants, mais restreinte aux études menées depuis 2005, période à laquelle le domaine de l’analyse non-ciblée prends de l’ampleur (Figure 1). Au total 334 publications sont référencées. Seules 42 d’entre elles ont été étudiées car utilisant un spectromètre de masse couplé à une chromatographie liquide et 28 exploitées dans ce rapport qui se focalise sur les études utilisant la HRMS et non la spectrométrie ultra-haute résolution (uHRMS).

Les 42 références sont détaillées dans un tableau en annexe qui recense les différents workflows d’analyse appliqués afin de répondre aux objectifs d’études (i.e. élucider des structures de composés, identifier des sources de pollution(s), caractériser la MOD, …) (Annexe 1). Deux objectifs se distinguent parmi ces études : la caractérisation de la MOD ou la recherche de micropolluants.

B. Présentation des protocoles appliqués pour l’analyse non-ciblée d’échantillons

environnementaux

Ci-après sont présentées les différentes approches trouvées dans la littérature concernant la préparation d’échantillon, leur analyse et le traitement des données analytiques afin de bâtir un workflow pour l’analyse de la MOD en analyse non-ciblée par HRMS. Le protocole conservé sera présenté à la fin de chaque partie et testé par la suite.

1. Les préparations d’échantillons d’eaux

La préparation des échantillons liquides dépend de l’analyse mise en œuvre et des objectifs de recherche. La recherche bibliographique s’intéresse à l’analyse de la MOD afin de caractériser cette dernière. Pour cela, il Figure 1. Nombre de publications en fonction des années (Web of Science©) avec les mots-clefs « non target analysis »

et dans le domaine « chimie analytique environnementale » et « métabolomique » Année de publication

Nombre de

publications Mots clefs Domaine Nombre

« non target analysis » - 58977

« non target analysis » Environnement + Métabolomique 16258

« non target analysis » ET « DOM » ET « contaminants » Environnement + Métabolomique 381

« non target analysis » ET « DOM » Environnement + Métabolomique 20

« non target analysis » ET « DOM » ET « contaminants » Environnement + Métabolomique + >2005 334

« non target analysis » ET « DOM » ET « contaminants » ET « LC/MS » Environnement + Métabolomique + >2005 42

« non target analysis » ET « DOM » ET « contaminants » ET « LC/HRMS »

WITHOUT « LC/uHRMS » Environnement + Métabolomique + >2005 28

(10)

est important de détecter le maximum de features. Pour des eaux de rejets et de rivière, la majorité des publications préparent les échantillons par filtration (8 articles sur 42).

L’étude des micropolluants nécessite de concentrer les échantillons puisque leurs signaux m/z sont masqués par les signaux m/z de la matière organique dissoute. Les auteurs de 19 articles s’intéressant aux micropolluants organiques utilisent l’extraction en phase solide (SPE). La majorité de ces études (16/19) sont conduites par analyse suspectée, seules 3 sont conduites par analyse non-cibée6–8.

En conclusion, dans l’objectif d’identifier des empreintes chimiques spécifiques à la MOD qui soient le plus exhaustives possible, la méthode de préparation des échantillons la plus pertinentes est la filtration des

échantillons à 0,45 µm sur filtre Nylon. 2. Les analyses d’échantillons d’eaux

Tout comme la préparation d’échantillon, les laboratoires utilisent différents instruments en fonction de leurs objectifs : les spectromètres de masse ultra-haute-résolution (FTICR) sont utilisés pour l’étude structurale de molécules ou de groupement fonctionnels (par exemple) alors que les spectromètres de masse haute-résolution (QTOF, Orbitrap) le sont pour des études structurales suspectées de molécules ou pour des études de compositions chimiques plus globales (i.e. étude de tous les features sans a priori)5.

L’étude des composés présents dans des matrices aqueuses liquides utilise ces deux types de spectromètres de masse mais plus généralement, des spectromètres tels que les QTOF ou les Orbitrap (réciproquement, 12 et 10 publications pour ce type de matrice). Afin d’apporter une autre dimension aux analyses, les spectromètres de masse peuvent être couplés à des techniques séparatives tels que la chromatographie liquide (LC) ou gazeuse (GC). Les chromatographies liquides les plus utilisées sont les LC et à ultra-haute-performance (UHPLC) (10 et 15 publications, respectivement). La UHPLC est principalement utilisée pour l’étude en analyse non-ciblée (7 publications contre 3 pour la LC). Gika et al9 utilisent ces deux techniques

séparatives et en concluent qu’il n’existe pas de différence entre elles. Ainsi, afin d’accéder à des pressions plus hautes dans le but d’accélérer les analyses sans perdre en efficacité, il est plus intéressant d’utiliser la UHPLC. Concernant les colonnes de séparation, les colonnes apolaires telles que les colonnes C18 BEH

(Waters©) sont les plus utilisées pour l’étude de la MOD. Elles permettent de séparer les composés de la MOD en fonction de leur affinité avec la phase stationnaire et avec la phase mobile. Ainsi, les composés polaires seront élués en premier alors que les apolaires seront élués les derniers.

Par exemple, Ribeiro et al.10 ont utilisé la chromatographie liquide (HSS T3) couplée à un QTOF analysant en

mode d’ionisation positif afin de caractériser et identifier des constituants de la matière organique naturelle dans les eaux minérales et de rejets de STEP de différents pays (France, Espagne, Norvège et Brésil). Ces constituants sont caractérisés par des groupes de features. Grâce à leur approche, Ribeiro et al. distinguent deux groupes d’échantillons (eaux minérales et rejets de STEP) et trouvent 13 features spécifiques aux eaux de rejets de STEP, 13 features spécifiques aux eaux minérales et 21 features communs aux deux types d’échantillons.

Le choix analytique pour l’étude expérimentale présentée dans ce rapport se porte donc sur un couplage UHPLC-QTOF avec une colonne C18.

3. Les traitements des données analytiques

Les données acquises par LC-HRMS sont retraitées dans l’objectif de sélectionner, sans a priori, des features les plus pertinents possibles pour caractériser l’empreinte de MOD spécifique à différents types d’échantillons. Le logiciel R est un logiciel de traitement couramment utilisé car il est libre d’accès. Le logiciel

(11)

R permet l’utilisation de « packages » utiles au traitement de données de spectrométrie de masse, notamment XCMS11. Ce package permet de déterminer les features présents dans les réplicats des

échantillons d’intérêt.

a. Intégration des features détectés dans l’ensemble des échantillons : utilisation de l’outil XCMS

D’un échantillon à un autre, chaque feature doit satisfaire les critères d’acceptation voulus tel que la tolérance de masse (i.e. la différence de masse acceptée pour que le feature soit considéré comme le même d’un échantillon à un autre); la tolérance en temps de rétention; ou encore le rapport signal-sur-bruit (i.e. le rapport entre les intensités de l’échantillon et du blanc). XCMS permet détecter et intégrer (récupération des informations de masse, de rétention et d’intensité) les features présents dans les réplicats des échantillons qui satisfont les critères présentés ci-après. Ces étapes permettent de corriger les spectres soumis à une dérive du rapport masse-sur-charge (m/z) ou du temps de rétention.

Sur 24 publications utilisant XCMS, 5 groupes d’auteurs appliquent 3 critères récurrents : une tolérance de masse devant être inférieure à 5 ppm12,13, une tolérance en temps de rétention devant être de moins de 15

secondes14 et un rapport signal-sur-bruit devant être supérieur à 315,16.

Ces 5 publications font référence à des études faites sur la MOD, dans le domaine de l’environnement. Elles sont donc une référence concernant les valeurs à appliquer dans le cadre de l’étude présentée dans ce rapport.

b. MetaboDrift© : un outil pour la correction de la déviation analytique

MetaboDrift© est un outil de correction de la dérive analytique en intensité dans une même séquence d’analyse et de normalisation des signaux entre différentes séquences analytiques17. Pour cela, une

régression mathématique est appliquée aux intensités des features détectés dans les CQ (échantillons préparés spécifiquement pour l’analyse non-ciblée et détaillés dans le paragraphe portant sur l’assurance qualité). Différentes régressions peuvent s’appliquer, dépendant de la présence de CQ et de leur nombre : pour un nombre de CQ égal à 4, il est recommandé d’appliquer la régression quadratique17 (i.e. une régression polynomiale) alors que pour un

nombre de CQ supérieur à 4, il est conseillé d’appliquer la régression LOESS17 (de l’anglais « Locally weighted scatterplot smoother », i.e.

une régression locale qui est une méthode de régression non paramétrique qui combine plusieurs modèles de régression multiple). Le workflow proposé permettra de corriger la dérive en intensité sur les différents signaux et ce, feature par feature et séquence par séquence.

Les résultats d’une Analyse en Composante Principale (ACP) effectuée sur les features présents dans des échantillons d’urine humaine, séparés en plusieurs séquences, montrent que la correction des signaux est efficace (Figure 3). La projection des échantillons de différentes séquences, sur les axes principaux 1 et 2,

montre qu’après la correction à l’aide de 4 CQ (donc une correction par régression quadratique), il n’y a plus d’effet inter-séquence17.

(12)

Figure 3. ACP des données avant (A) et après (B) correction de MetaboDrift. Deux séquences différentes se distinguent en (A) alors qu’en (B), il n’y a plus qu’une séquence unique [17]

Les tests de traitement de données de l’étude se basent sur les différents outils précités afin de corriger et de comparer des séquences d’analyses de la MOD présente dans différents échantillons d’eaux. Pour cela, des paramètres sur la tolérance de masse, sur la tolérance en temps de rétention et sur le rapport signal-sur-bruit seront appliqués lors du traitement avec XCMS puis une correction sera effectuée à l’aide de MetaboDrift© et des échantillons CQ, dont la préparation est présentée dans la paragraphe suivant.

C. L’assurance qualité

1. Contrôle qualité (CQ), vérificateur de la dérive instrumentale

En métabolomique, les échantillons contrôles qualités (CQ) permettent de vérifier la qualité des données d’une séquence analytique avant de les utiliser pour corriger la déviation dans cette séquence unique, si nécessaire, ou entre plusieurs séquences pour pouvoir les comparer. Différents types d’échantillons CQ sont présentés ci- après.

a. La définition d’échantillon CQ

D’après la définition de Dunn et al., un CQ est un échantillon qui permet de contrôler et de s’assurer que le procédé analytique est approprié et qu’il satisfait les critères d’acceptation18 : être représentatif des

échantillons de la séquence et avoir un coefficient de variation inférieur à une valeur définie. De manière plus générale, les CQ vont permettre de rendre compte de la qualité des données analytiques afin de produire un jeu de données valide et robuste.

Dans le domaine de la métabolomique, les CQ sont des échantillons qui doivent reproduire au mieux les matrices et les composés présents dans les échantillons. Les CQ sont préparés à l’aide d’aliquotes de l’ensemble des échantillons présents dans la séquence analytique afin qu’ils soient représentatifs de ces derniers14,19–21. Ils doivent permettre de mesurer la reproductibilité de l’instrument, de corriger les dérives

analytiques et de comparer des données provenant de différentes séquences analytiques. Ces CQ sont appelés CQ « pooled » dans la suite de ce rapport (soit CQp). Ils sont injectés tout au long des séquences

analytiques afin de corriger les dérives intra-séquence en intensité.

Ainsi, l’utilisation de CQp semble être un prérequis et sera utilisé dans le développement d’un workflow

analytique. Il s’agit par la suite de déterminer le meilleur design (i.e. la nature, les positions et fréquences d’injection dans la séquence analytique mais aussi le traitement des données) pour ces CQp.

(13)

b. Les corrections intra-séquence d’analyse

En 2012, Kamleh et al. se sont intéressés à l’utilisation des CQp afin d’optimiser leur fréquence d’injection et

d’utiliser l’intensité de leurs features dans le but de proposer une correction de la dérive analytique des signaux en intensité qui surviennent au cours de l’analyse ou entre les séquences d’analyses22. Ils ont étudié

des algorithmes basés sur deux types de facteurs correctifs: les facteurs échantillons-dépendants (i.e. un seul et même facteur est appliqué à tous les échantillons pour un feature, utilisé dans le cas où aucun CQp ne

serait disponible) et les facteurs features-dépendants (i.e. chaque échantillon, pour un même feature, est corrigé avec un facteur différent) (Tableau 2).

Tableau 2. Différents niveaux de facteur correctif

Facteur Échantillon dépendant Feature dépendant

Équation de correction , , ,

, ,

Notations

• , = Intensité corrigée et , = Intensité mesurée

• = Facteur-échantillon correctif

• , = Facteur-feature correctif

• échantillon et feature

Les facteurs échantillons-dépendant ne seront pas présentés dans cette étude bibliographique, n’ayant pas d’intérêt en raison de l’utilisation d’échantillon CQp. Pour le facteur feature-dépendant, il s’agit de calculer la

moyenne des intensités pour chaque feature détectés dans les échantillons CQp injectés (Figure 4) :

1. La première méthode FBSC (i.e. Feature-Based Signal Correction) utilise l’intensité du CQp injecté

après le 5ème échantillon de la séquence analytique (FBSC_A).

2. La deuxième méthode FBSC utilise l’intensité du CQp injecté après le 10ème échantillons de la

séquence analytique (FBSC_B).

3. La troisième méthode FBSC utilise la moyenne des intensités des 2 CQp injectés après le 10ème

échantillon de la séquence analytique (FBSC_C).

4. La quatrième méthode FBSC utilise la moyenne des intensités du CQp injecté après le 5ème échantillon

et des 2 CQp injectés après le 10ème échantillon de la séquence analytique (FBSC_D).

Figure 4. Design expérimental d’une séquence analytique [22]

Les auteurs concluent que la méthode la plus adaptée pour la mise en place d’une correction intra-séquence à l’aide des CQp est un compromis entre FBSC_C et FBSC_D : soit la moyenne des intensités des 2 CQp injectés

(14)

Cette méthode est par la suite optimisée en déterminant le nombre d’injection minimal de CQp et leur

fréquence d’injection afin de corriger la séquence d’analyse de manière optimale. Il est montré que le

nombre d’injection du CQp doit être au minimum de 4 et qu’ils doivent être injectés de façon homogène.

c. Les corrections inter-séquences d’analyse

Kirwan et al.19 caractérisent les variations inter-séquence des analyses et mettent en place un workflow

commun à toutes les séquences d’analyses métabolomiques. Ils ont démontré que l’utilisation d’un échantillon CQp permet de mettre en place 3 filtres qui se basent sur l’intensité des features de cet échantillon

(i.e. une méthode de nettoyage des données de mauvaise qualité en intensité) en vue de corriger les variations analytiques du signal mesuré d’une séquence à l’autre :

1. Les features des CQp qui sont relativement différents d’une séquence à un autre (i.e. ceux qui

présente une détection faible) sont supprimés (1er filtre).

2. Les features des CQp qui ne sont pas représentatifs (i.e. qui ne sont pas la « moyenne ») des

échantillons sont retirés (2ème filtre).

3. Les derniers features des CQp écartés sont ceux dont le coefficient de variation en intensité est

supérieur à 20% en intra-séquence (3ème filtre).

À la suite de ce workflow , Kirwan et al. sont parvenus à réduire les coefficients de variations des intensités des features dans et entre les séquences. Ils en concluent que le meilleur moyen d’utiliser les CQp est d’en utiliser 2 en début et en fin de séquence et un tous les 5 échantillons.

2. La stabilité des échantillons

Les échantillons environnementaux sont sujets à une forte évolution de leur composition (i.e. dégradation de la MOD) en fonction du temps (i.e. de stockage, d’analyse). L’étude de leur stabilité est indispensable. En couplage UHPLC-MS, les évolutions observées sont des variations du rapport m/z, du temps de rétention et de l’intensité. Les composés de la MOD peuvent se dégrader et donner ainsi des résultats différents d’une séquence d’analyse à une autre. Afin de limiter au maximum ces variations des procédures standardisées sont mises en place, notamment au niveau de l’échantillonnage, du transport, des préparations, du stockage et des traitements des échantillons.

En 2007, Gika et al.9 ont testé différentes conditions de stockage d’échantillons d’urine afin de voir si cela

faisaient varier leur composition. Pour cela, ils ont fait étudié différentes grandeurs : la température de stockage (-20°C ou -80°C), le temps de stockage (1 semaine, 1, 3 ou 6 mois) et le nombre de cycles de décongélation (9 cycles de décongélation). Après analyses non-ciblées avec un UHPLC-QTOF, les auteurs montrent que ni la température, ni la durée du stockage, n’influencent significativement la composition des échantillons. Concernant le nombre de cycle de décongélation, cela ne semble pas non plus affecter l’intégrité de l’échantillon. Il est cependant noté que les échantillons évoluent au-delà de 48 heures. Dans le cadre de cette étude, il est intéressant de vérifier que les conditions de stockage et d’analyses n’influencent pas la caractérisation des sources de pollution(s) anthropique(s) par analyse non ciblée.

D. Conclusion et objectifs du projet

Actuellement, il n’existe pas de workflow « universel » pour l’analyse non-ciblée par UHPLC-HRMS de la MOD dans le domaine environnemental. Les problèmes de dérive analytique empêchent de comparer des échantillons ou séquences d’analyses séparées dans le temps. Sur la base des études faites en

(15)

métabolomique, l’objectif de cette étude est de mettre en place un workflow permettant de limiter la dérive analytique et de comparer des séquences d’analyses acquises à des temps différents.

Dans le but de corriger la variation du signal en intensité, la première étape sera de mettre un place un échantillon CQp pour corriger la variabilité intra-séquence. La seconde étape est d’évaluer l’utilisation d’un

CQ synthétique (CQsyn) (i.e. un CQ créé synthétiquement supposé être représentatif des échantillons de

toutes les séquences analytiques) pour corriger la variation inter-séquence. Ce CQsyn est un échantillon CQ

qui est créé afin d’avoir un maximum de features, représentatifs d’un maximum d’échantillons d’origines diverses. Aucune des publications citées dans ce rapport n’y fait référence, il s’agit d’une innovation dans le domaine de l’analyse non-ciblée des échantillons d’eaux. Concernant le traitement des données, les valeurs de la littérature sur les variations du rapport m/z et du temps de rétention seront testées et la correction de la dérive analytique en intensité, basée sur les CQp, sera appliquée avec MetaboDrift©. Des tests parallèles

de la mesure de la stabilité de l’instrument et des échantillons seront également réalisés.

En vue de mettre en place en workflow analytique, les données bibliographiques permettent de mettre en avant que les échantillons doivent être filtrés sur 0,45 µm puis sur 0,22 µm pour supprimer les bactéries de l’échantillon et limiter les phénomènes de dégradation, puis analysés avec un UHPLC-QTOF (Colonne C18). A chaque séquence d’analyse, doivent être ajoutés des contrôles qualités dits CQp et CQsyn. Le

traitement des données doit être fait avec XCMS en appliquant une tolérance de masse inférieure à 0,007 Da, une tolérance en temps de rétention inférieure à 15 secondes et un rapport signal-sur-bruit supérieur à 3. Les CQp et les CQsyn doivent être injectés tous les 5 échantillons, avec un minimum de CQp au cours de

la séquence d’analyse. En conséquence, la correction de la dérive analytique en intensité à l’aide de MetaboDrift©, doit être effectuée par régression locale dite LOESS.

(16)

II.

Matériel et Méthodes

A. Les échantillons

1. Les échantillons d’eaux réels

a. Sites de prélèvements

Lors de la campagne d’échantillonnage 40 échantillons d’origines diverses ont été prélevé (Annexe 2). 19 échantillons proviennent des eaux de deux affluents du Rhône, 19 sont des eaux de rejets de stations d’épurations (STEP) proches de Lyon et 2 échantillons sont des eaux de ruissellements urbains. Concernant les eaux de STEP, trois types d’échantillons sont analysés : les entrées (i.e. eau non-traitée), les étages intermédiaires (i.e. eau prétraitée) et les sorties (i.e. eau traitée). Dans le rapport, 10 échantillons d’eaux de rivières et 7 échantillons d’eaux de rejets de STEP sont présentés : 15 échantillons pour le test de la correction de la dérive analytique en intensité et 2 échantillons (une entrée et une sortie de STEP) pour le test de stabilité d’un échantillon. Pour le reste des échantillons, seules les analyses ont été effectuées.

Figure 5. Présentation des zones de prélèvement sur le Gier (Référence : Maëlle Lepoutre, 2009; Modifié)

Concernant les eaux de rivière, deux campagnes de prélèvement ont été organisées sur deux affluents du Rhône ; le Gier et l’Yzeron. Les prélèvements effectués () suivent un gradient d’urbanisation (Figure 5). Pour le Gier, le gradient se décompose comme suit : zone forestière, zone péri-urbaine, zone industrielle (métallurgie, aciérie, …) puis zone urbaine. Il existe deux STEP d’importance majeur sur ce bassin versant : la première à Saint-Chamond (Rhône-Alpes, France) et la seconde, défectueuse, à Tartaras (Rhône-Alpes, France). Concernant l’Yzeron, le gradient est du même type avec une urbanisation croissante de l’amont vers l’aval.

b. Préparation des échantillons

Les échantillons sont prélevés dans des bouteilles plastiques en polyéthylène de 2L puis stockés à 4°C jusqu’à filtration dans les 24h maximums après prélèvement. Cette dernière est effectuée sur fibre Nylon à 0,45 µm puis sur filtre Nylon à 0,22 µm. Les échantillons sont ensuite stockés à 4°C avant analyse. Pour l’analyse, 1 mL

d’échantillon filtré est introduit dans un vial HPLC et 6 µL d’une solution de traceurs d’injection y sont ajoutés (voir le détail en Annexe 3).

(17)

Chaque séquence analytique commence en injectant 4 blancs solvant traceurs (i.e. un blanc fait de phase mobile avec 6 µL de solution traceurs), un blanc méthode (i.e. un blanc fait d’eau pure avec 6 µL de solution traceurs) avant chaque CQp et se termine en injectant 4 blancs solvant (i.e. un blanc fait de phase mobile).

2. Les échantillons « contrôle qualité »

a. Préparation des échantillons CQ

Le CQp correspond à un mélange de volumes égaux de chaque échantillon à analyser. Cet échantillon est

considéré comme représentatif des analytes présents dans les échantillons qui sont rencontrés au cours de l'analyse. Il est utilisé pour évaluer la qualité analytique des données.

Le CQsyn est une solution d'acide humique (10 mg/L), de tryptophane (50 µg/L) et de tyrosine (20 µg/L)

préparée dans de l'eau. Avant l'analyse, le CQsyn est enrichi de traceurs d’injection (Annexe 3). Ce CQ étant

préparé à partir d’un solide, il est supposé être plus stable que le CQp. Il est réfléchi pour être représentatif

des échantillons puisque les acides humiques présentent de nombreux features, proches des features des échantillons.

b. Position dans la séquence d’analyse

Les CQp sont injectés 5 fois au début de la séquence d'analyse pour équilibrer l’instrument et une fois avant

les échantillons, puis deux fois tous les cinq échantillons afin de contrôler la répétabilité et permettre la correction intra-séquence de la dérive instrumentale en intensité9.

Les CQsyn sont injectés une fois avant les cinq premiers échantillons et deux fois tous les cinq échantillons afin

de surveiller la dérive de l'intensité entre deux séquences d'analyse et pour corriger la dérive instrumentale inter-séquence.

c. Correction des biais intra et inter-séquence d’analyse

Le CQp permet de distinguer les données de bonne et de mauvaise qualité analytique en se basant sur

l'intensité des features et de corriger la dérive du signal18. Ces CQ

p sont analysés régulièrement tout au long

de la séquence d’analyse. Ils fournissent une indication représentative de la variabilité intra-séquence de l'intensité des features. MetaboDrift© permet la correction de la dérive analytique en intensité des features détectés dans les CQp en les ajustant selon l'équation suivante (1) :

, , , , ∗ , ,

(1) Avec :

Xp,b,i = intensité du pic p pour un échantillon i dans le lot b

X'p,b,i = intensité ajustée du pic p pour un échantillon i dans le lot b

Cp,b,i = facteur de correction, déterminé par la méthode de régression par dérive

Rp = facteur de redimensionnement (intensité de crête moyenne pour tous les échantillons et lots)

Le CQsyn a pour objectif de permettre d’évaluer et de corriger la dérive de l'intensité entre deux séquences

analytiques, avec MetaboDrift©. MetaboDrift© applique la correction de la dérive analytique à chaque séquence, puis normalise les séquences entre elles par une correction avec le même facteur de redimensionnement.

(18)

B. Présentation du workflow analytique

1. Analyse par UHPLC-HRMS

Les analyses sont réalisées par UHPLC-QTOF (Xevo G2-S, Waters©, Milford, USA) avec une colonne Acquity UPLC© BEH C18 (2,1x100 mm ; 1,7 µm ; Waters©, Milford, USA). La température de la colonne est réglée à 30°C. Les phases mobiles sont de l'eau ultrapure (A) et de l'acétonitrile UHPLC (B), toutes deux contenant 0,1 % d'acide formique. La séparation a été réalisée en utilisant un débit de 0,5 mL/min et le gradient suivant (A/B, v/v) : 95/5 pendant 2 min, 0/100 à 18 min, et 95/5 à 22 min. Le volume d'injection est de 10 μL avec une injection en boucle partielle.

Le système QTOF-MS est équipé d'une interface d'ionisation par électrospray (ESI) fonctionnant en mode positif. L'analyse est effectuée en balayage complet sur une plage de masse de 100 à 1700 Da avec une vitesse de balayage de 0,25 seconde.

2. Traitement des données

a. La correction des données par XCMS et MetaboDrift©

Les données brutes acquises par MassLynx™ Software (Waters©) ont été converties en format libre grâce à MS CONVERT puis retraitées avec RStudio™ à l'aide du package XCMS11. Pour la détection des features des

échantillons, chaque ion est extrait afin de satisfaire les critères d'acceptation : le rapport signal/bruit (S/N) doit être supérieur à 3 (Figure 6) (donnée issue de l’étude bibliographique) et l'écart m/z maximal toléré doit être de 0.007 Da (spécifique à l'instrument).

Figure 6. Chromatogramme d'un feature d’un CQ avec un faible rapport signal-sur-bruit S/N = 6,67

Après cette étape, une liste de features est créée et une correction non linéaire du temps de rétention pour aligner les features trouvées dans les différents échantillons est effectuée par XCMS. Si la dérive est toujours supérieure à 15 secondes, les features sont supprimées9,14,24. Ces étapes permettent un nettoyage spectral

pour les dérives du rapport m/z et du temps de rétention (Annexe 4).

Pour les études de correction de la dérive analytique en intensité et de stabilité des échantillons, le rapport XCMS est importé dans MetaboDrift©. MetaboDrift© applique une régression locale à chaque intensité des échantillons CQ (CQp ou CQsyn) afin de supprimer la dérive analytique. Cette régression est propre à chaque

(19)

feature. Suite à la régression, les coefficients de variation (CV) des intensités des features des échantillons CQ sont calculés. Les features ayant un CV supérieur à 40% sont supprimés.

b. La visualisation des données à l’aide d’outils statistiques

Afin de visualiser les données corrigées, le logiciel RStudio est utilisé avec l’aide de différents packages :

• Le package « graphics » version 3.5.1. est utilisé pour construire des graphiques « Boite à moustache » de Tukey. Ce type de graphique présente la médiane, les quartiles 25% (Q1) et 75% (Q3), les déciles supérieurs (D9) et inférieurs (D1) ainsi que les points atypiques. Afin de mieux représenter la dispersion des coefficients de variation des intensités, des « Boites à moustache » tracées.

• Le package « ggplot2 » version 3.2.0. est utilisé pour réaliser des Analyses en Composantes Principales (ACP) afin de réduire le nombre de variables en extrayant les composantes de l’études les plus importantes (dites Composantes Principales) et de rendre l'information moins redondante. Les ACP sont effectuées sur la base des intensités des features pour chaque échantillon en centrant par la moyenne et utilisant la normalisation Pareto.

• Le package « MetaXCMS »25 est utilisé afin de construire des diagrammes de Venn (i.e. diagramme qui montre toutes les relations logiques possibles dans une collection finie de différents échantillons) pour visualiser l’évolution de la composition des échantillons pour les différentes durées de stockage.

• Le test statistique de Wilcoxon-Mann-Whitney est utilisé afin de comparer deux groupes indépendants pour déterminer si leur différence est significative. Plus la p-value est faible, plus les différences sont significatives.

C. Tests et designs expérimentaux

1. Test de sensibilité instrumentale

Les instruments d’analyse HRMS sont soumis à des pertes de sensibilité au cours du temps en raison de l’encrassement de la source d’ionisation. Afin de mieux les appréhender, il est nécessaire de déterminer pour l’instrument UHPLC-QTOF l’instant où ce dernier va perdre en sensibilité. Pour effectuer ce test, un même échantillon est injecté de façon répétée afin de déterminer à quel moment se produit le décrochage en sensibilité en fonction du nombre d’injections et en fonction des m/z des features. La séquence d’analyse est réalisée dans les conditions analytiques vues en §II.B.1. Un échantillon d’entrée de STEP (i.e. la Feyssine) a été injecté à 200 reprises pour répondre à cet objectif.

2. Correction de la dérive analytique des intensités des features à l’aide d’échantillons CQ

Le premier objectif de la correction est de réduire la dérive intra-séquence afin d’obtenir des intensités les

plus stables possible en appliquant une régression locale à chaque point de cette séquence à l’aide de la MetaboDrift© et ainsi, déterminer la fréquence d’injection du CQp. La séquence d’analyse de sensibilité

instrumentale est modifiée afin d’avoir des CQp tous les 10 échantillons (i.e. un échantillon est converti CQp,

tous les 10 échantillons), puis tous les 5 échantillons. Le deuxième objectif est de réduire la dérive inter-séquence en injectant un CQsyn tout au long de la séquence, afin d’évaluer sa pertinence pour cette correction

inter-séquence. Ainsi, un CQsyn a été injecté dans les différentes séquences analytiques d’échantillons afin de

mettre en place un « étalon » en analyse non-ciblée de la MOD, suffisamment représentatif des échantillons de la séquence d’analyse.

(20)

Sur les 40 échantillons collectés in situ, seuls 15 échantillons sont utilisés pour le test de correction de la dérive inter-séquence : 10 échantillons sont des eaux de rivière, 2 échantillons sont des eaux d’entrées de STEP, 2 échantillons sont des eaux de sorties de STEP et un échantillon correspond à une eau de traitement intermédiaire de STEP. La séquence d’analyse est réalisée dans les mêmes conditions analytiques vu en §II.B.1. Les CQp sont également injectés, dans les conditions vues précédemment §II.A.2.b. Les échantillons

sont injectés en triplicats, de façon aléatoire le long de la séquence analytique, dans le but de pouvoir estimer l’efficacité de la correction (Annexe 5).

3. Test de stabilité des échantillons dans le temps

Afin d’analyser les variations de la composition des échantillons au cours du temps, l’objectif du test est d’injecter les mêmes échantillons chaque semaine afin de suivre l’évolution de sa composition.

Deux échantillons ont été sélectionnés pour ce test : un échantillon d’entrée et un échantillon de sortie de station d’épuration de la Feyssine (Villeurbanne, France). Ces échantillons ont été choisis car ce sont des échantillons complexes, dont la charge bactérienne est potentiellement plus élevée que dans l’environnement donc susceptible de subir des processus de biotransformation plus important, engendrant une évolution plus rapide de leurs composés. Afin de contrôler la dérive analytique intra-séquence, un CQp

est ajouté tout le long de l’analyse. Il est préparé de la même manière que celle présentée en §II.A.2.a. Les injections sont réalisées dans les conditions analytiques vues en §II.B.1. Les échantillons d’entrée et de sortie de STEP sont injectés aléatoirement 10 fois chacun, tandis que les CQp sont injectés tous les 5

échantillons. Les injections sont effectuées une fois par semaine pendant 3 semaines, puis une fois toutes les deux semaines pendant 6 semaines. Le jour 0 correspond à la première séquence d’injections. La suite du rapport présente les séquences jusqu’au jour 28 (J28).

(21)

III. Résultats et Discussion

A. Test de la sensibilité instrumentale

L’étude de sensibilité de l’instrument est effectuée pour différents features, sans correction. Une baisse en intensité survient tout au long de la séquence analytique (i.e. tout le long des injections), signifiant que l’instrument perd en sensibilité. De façon plus spécifique, chaque feature présente une décroissance différente par rapport aux autres. Les résultats de cette étude permettent de savoir de quelle manière la sensibilité de l’instrument décroit. Les features M281T27, M605T27, M710T354 et M1110T479_1 présentent une décroissance constante dès les premières injections (Figure 7). Leur intensité diminue de 40% dès la 100ème injection pour finir par diminuer de 60% à la 200ème. De manière générale, cette décroissance en

sensibilité entraine une perte des features dont le rapport signal-sur-bruit est faible, et donc une perte d’information. Cette étude met également en évidence que les features présentant des intensités plus faibles présentent des variabilité d’intensité plus élevées.

Figure 7. Evolution de l'intensité de différents features au cours de la séquence analytique

La Figure 8 présente les coefficients de variation des intensités des features des 200 injections en fonction des rapports m/z. Deux groupes de masses se distinguent entre 500 et 800 Da : un groupe présente des CV inférieurs à 20% et le deuxième présente des CV supérieurs à 30%. Un autre groupe de features, de m/z supérieures à 1400 Da, présentent des CV supérieurs (CV>50%) au critère d’acceptation des features (CV<40%). 0 2000 4000 6000 8000 10000 12000 14000 16000 0 50 100 150 200 In te n si té (c p s) Nombre d'injection M281T27 0 10000 20000 30000 40000 50000 60000 0 50 100 150 200 In te n si té (c p s) Nombre d'injection M605T27 0 5000 10000 15000 20000 25000 30000 0 50 100 150 200 In te n si té (c p s) Nombre d'injection M710T354 0 1000 2000 3000 4000 5000 6000 7000 8000 0 50 100 150 200 In te n si té (c p s) Nombre d'injection M1110T479_1

(22)

Figure 8. Coefficients de variation des intensités des features en fonction des rapports m/z

La Figure 9 présente la dispersion des CV dans un graphique « Boite à moustaches » de Tukey : la médiane, les quartiles 25% (Q1) et 75% (Q3), les déciles (D1 et D9) ainsi que les points atypiques sont représentés. La médiane des CV la plus élevée est observée pour des masses inférieures à 500 Da (médiane = 32%) et supérieur à 800 Da (médiane = 30%). Pour les masses comprises entre 500 et 800 Da, le 3ème quartile est très

supérieur (égal à 35%) à la médiane (égale à 22%) ce qui suggère une dispersion importante des CV. Les médianes ont une différence significative (p-value<0,001). Les masses de 100 à 500 Da et supérieures à 800 Da présentent des points atypiques (entourés en rouge sur la figure).

0% 10% 20% 30% 40% 50% 60% 70% 80% 0 200 400 600 800 1000 1200 1400 1600 C o e ff ic ie n t d e v ar ia ti o n d e l' in te ns it é (% ) m/z (Da)

Evolution des coefficients de varation de l'intensité des features (n=200) en fonction des rapports m/z

(23)

Figure 9. « Boites à moustache » des CV des intensités en fonction des rapports m/z

Aucun décrochage net des CV n’est observé pour les 200 injections, les features dérivent de la même manière c’est-à-dire qu’une décroissance de leur intensité est observée dès les premières injections. Ainsi, les features pourront, pour la plupart, être corrigées à l’aide de MetaboDrift© et des CQp (cf. §II.A.2.). Avec l’instrument

disponible au laboratoire et le workflow mis en œuvre, il est possible d’analyser environ 32 échantillons en triplicats (calcul présenté en Annexe 6) dans une même séquence d’analyse.

En conclusion, la dérive instrumentale au cours d’une analyse ne permet pas de comparer de façon juste et robuste les échantillons. Il est nécessaire d’introduire une correction de cette dérive analytique afin de pouvoir comparer ces échantillons, mais aussi des séquences entre elles.

B. Correction de la dérive analytique à l’aide d’échantillons CQ

1. Correction de la dérive intra-séquence

En appliquant une correction à l’aide de MetaboDrift© avec des CQp tous les 10 échantillons, certains

features présentent une forte variation d’intensité (M605T27 et M1110T479_1, Figure 10) ou une correction mal adaptée pour certains signaux car CV>40% (M710T354, Figure 10). En appliquant une correction avec des CQp tous les 5 échantillons, les features sont corrigés pour la décroissance d’intensité et ne présentent

plus de CV très dispersés. De plus, le features M710T354 est finalement corrigé avec les CQp tous les 5

échantillons (les figures représentant les features non corrigés et corrigés selon les deux méthodes susmentionnées sont présentés en Annexe 7).

C o ef fi ci en t d e va ri at io n d e l’i n te n si té ( % ) m/z (Da)

(24)

Figure 10. Evolution de l'intensité, après correction, de différents features au cours de la séquence analytique

Le graphique « Boite à moustache », en Figure 11, illustre aussi cette décroissance des CV entre les tests : sans correction, corrigé avec des CQp tous les 10 échantillons et corrigé avec des CQp tous les 5 échantillons,

dans une gamme de m/z donnée :

• Pour des m/z allant de 100 à 500 Da : Les plus forts CV sont observés pour le test « Sans correction » (médiane = 33%). Le test « Correction avec CQp tous les 10 échantillons » présente une plus faible

dispersion des CV (médiane = 10%) bien que très proche du test « Correction avec CQp tous les 5

échantillons » (médiane = 15%), le premier présente plus de points atypiques que le deuxième. Le Test de Wilcoxon-Mann-Whitney montre que ces médianes sont bien différentes entre elles, deux à deux, puisque leurs p-value<0,001 (résultat significatifs).

• Pour des m/z allant de 500 à 800 Da : Les plus forts CV sont observés pour le test « Sans correction » (médiane = 22%). Le test « Correction avec CQp tous les 5 échantillons » présente une plus faible

dispersion des CV (médiane = 10%) bien que très proche du test « Correction avec CQp tous les 10

échantillons » (médiane = 12%). Le Test de Wilcoxon-Mann-Whitney montre que ces médianes sont bien différentes entre elles, deux à deux, puisque leurs p-value<0,001 (résultat significatifs).

• Pour des m/z allant au-delàs de 800 Da : Les plus forts CV sont observés pour le test « Sans correction » (médiane = 30%). Le test « Correction avec CQp tous les 5 échantillons » présente une

plus faible dispersion des CV (médiane = 10%) bien que très proche du test « Correction avec CQp

tous les 10 échantillons » (médiane = 15%). Le Test de Wilcoxon-Mann-Whitney montre que ces médianes sont bien différentes entre elles, deux à deux, puisque leurs p-value<0,001 (résultat significatifs). 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 0 50 100 150 200 In te ns it é (c ps ) Nombre d'injection M281T27 5CQ 10CQ 0 500 1000 1500 2000 2500 3000 3500 4000 4500 0 5000 10000 15000 20000 25000 30000 35000 40000 0 50 100 150 200 In te n si té (c ps ) Nombre d'injection M605T27 5CQ 10CQ 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 0 50 100 150 200 In te n si té (c ps ) Nombre d'injection M710T354 5CQ 0 200 400 600 800 1000 1200 1400 1600 1800 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 0 50 100 150 200 In te ns it é (c p s) Nombre d'injection M1110T479_1 5CQ 10CQ

(25)

Figure 11. « Boites à moustache » des CV des intensités par groupe de m/z en fonction des différents types de correction

En conclusion, la correction tous les 10 échantillons est plus efficace (i.e. diminue la valeur médiane et la dispersion des CV autour de cette dernière) pour les masses de 100 à 500 Da tandis que la correction, tous les 5 échantillons, l’est pour les masses de 500 à 1600 Da. Au vue de la gamme de masse analysée, il est retenue qu’une injection de CQp sera effectuée tous les 5 échantillons, dont les résultats sont présentés

ci-après.

La figure 12 présente les coefficients de variation des intensités des features des 200 injections en fonction des rapports m/z, après correction à l’aide de MetaboDrift© avec un CQp tous les 5 échantillons. Les CV sont

moins dispersés par rapport au test « Sans correction » (Figure 8), ayant une moyenne égale à 14%.

Figure 12. Coefficients de variation des intensités des features en fonction des rapports m/z, après correction par des CQp tous

les 5 échantillons 0% 10% 20% 30% 40% 50% 60% 70% 80% 0 200 400 600 800 1000 1200 1400 1600 C oe ff ic ie nt d e v ar ia ti on d e l' in te n si té (% ) m/z (Da)

Evolution des coefficients de varation de l'intensité des features (n=200) en fonction des rapports m/z, après correction

RSD Moyenne 100_500 500_800 800_1600 C o ef fi ci en t d e va ri at io n d e l’i n te n si té ( % ) m/z (Da)

(26)

2. Correction de la dérive inter-séquences

Les résultats présentés dans ce paragraphe portent sur l’évaluation de la correction inter-séquence par MetaboDrift© à l’aide des CQp et CQsyn. Dans un premier, il est nécessaire de déterminer si le CQsyn est

représentatif des échantillons. Pour étudier cette représentativité, une Analyse en Composantes Principales sur les intensités des features pour chaque échantillon est effectuée. Dans l’idéal, le CQsyn doit être projeté

proche des échantillons et éloignés des blancs. Dans un second temps, si le CQsyn est représentatif des

échantillons, celui-ci sera utilisé afin de corriger la dérive inter-séquence.

La première séquence analytique étudiée porte sur 10 échantillons d’eaux de rivière (Yzeron et Gier) et sur 5 eaux de rejet de STEP (Entrée, Intermédiaire et Sortie). La figure 13 présente l’Analyse en Composantes Principales (ACP) sur les intensités des features en fonction des axes principaux 1 (qui explique 49,1% de la variance totale) et 2 (qui explique 21% de la variance totale) qui projettent les intensités des features pour les échantillons et les échantillons CQ. La correction intra-séquence est efficace sur les CQp puisque les

réplicats d’injection sont regroupés de manière plus rapprochée (entourés en bleu dans la Figure 13). Après vérification des CV des CQp et des CQsyn, une partie des features est supprimée (e.g. certains des CV sont

supérieurs à 40%, ce qui peut s’expliquer par une dégradation le long de la séquence analytiques pour certains features). Les CQsyn sont bien regroupés (entourés en vert dans la Figure 13), cependant, ils sont

proches des blancs méthode (Bmanip) donc peu représentatifs des échantillons.

(27)

La deuxième séquence analytique étudiée porte sur 9 échantillons d’eaux de rivière (Yzeron) et sur 6 eaux de rejet de STEP (Entrée et Sortie). La figure 14 présente l’Analyse en Composantes Principales (ACP) sur les intensités des features en fonction des axes principaux 1 (qui explique 43,1% de la variance totale) et 2 (qui explique 20,4% de la variance totale) qui projettent les intensités des features pour les échantillons. Le CQsyn

est du même type que celui de la première séquence. L’ACP obtenue est similaire à celle présentée en figure 15 : les CQsyn (de même que les CQp) sont bien regroupés mais non représentatifs des échantillons.

Figure 14. ACP projetant les échantillons et CQ d’une seconde séquence analytique, après correction

C. Test de stabilité des échantillons dans le temps

Dans un premier temps, les échantillons d’entrée et de sortie de la STEP de la Feyssine sont traités en appliquant la correction intra-séquence mais sans correction inter-séquence. Le nombre et la nature des features pour chaque jour de stockage (J0, J7, J14 et J28) est étudié. Il existe deux tendances d’évolution pour

l’échantillon d’entrée : la première est une apparition de nouveaux features entre J0 et J14 alors que la

deuxième est une disparition de features entre J14 et J28.

Plus précisément, les graphiques des m/z en fonction des temps de rétention (Figure 15) montrent que les features, avec des temps de rétention élevés et des rapports m/z inférieures à 1000 Da (entourés en vert), disparaissent et que de nouveaux features, avec des temps de rétention faibles et des rapports m/z supérieures à 1000 Da (entourés en orange), apparaissent. Il y a une forte disparition des features entourés en vert, la première semaine et une forte apparition des features entourés en orange jusqu’à la deuxième semaine. Cela suppose que la composition de l’échantillon se concentre en composés polaires à plus forte

(28)

masse et perd des composés apolaires. Dans l’hypothèse, la dégradation des échantillons va entrainer de plus forts effets matrice.

Figure 15. Evolution de la nature de la composition de l'échantillon d'entrée de STEP en fonction du nombre de jour de stockage Il existe une seule tendance d’évolution pour l’échantillon de sortie : une diminution du nombre de features du jour J0 à J28. Plus précisément, les graphiques des m/z en fonction des temps de rétention (Figure 16)

montrent que de nouveaux features, avec des temps de rétention faibles (<10 minutes) et des rapports m/z inférieures à 650 Da (entourés en orange), apparaissent à J7 et J14.

0 200 400 600 800 1000 1200 1400 1600 1800 0 2 4 6 8 10 12 14 16 18 20 m /z (D a)

Temps de rétention (min) J0 J0 0 200 400 600 800 1000 1200 1400 1600 1800 0 2 4 6 8 10 12 14 16 18 20 m /z (D a)

Temps de rétention (min) J7 0 200 400 600 800 1000 1200 1400 1600 1800 0 2 4 6 8 10 12 14 16 18 20 m /z (D a)

Temps de rétention (min) J14 0 200 400 600 800 1000 1200 1400 1600 1800 0 2 4 6 8 10 12 14 16 18 20 m /z (D a)

Temps de rétention (min) J28

(29)

Figure 16. Evolution de la nature de la composition de l'échantillon de sortie de STEP, jour de stockage par jour de stockage

Afin de déterminer l’évolution de la composition d’un même échantillon, un diagramme de Venn est tracé (Figure 17). L’analyse de l’échantillon d’entrée de la STEP de la Feyssine révèle la détection de 1955 features le premier jour d’analyse (i.e. J0). 812 de ces features sont communs avec les autres jours d’analyse (i.e. J7,

J14 et J28) et 632 features sont spécifiques à J0. L’analyse de l’échantillon de sortie de la STEP de la Feyssine

présente moins de features : 352 features le premier jour d’analyse (i.e. J0), 164 des features détectés à J0

sont communs avec les autres jours d’analyse (i.e. J7, J14 et J28) et 64 features lui sont spécifiques. Les features

communs (colorés en vert) sont donc des features stables. Ce sont donc de potentiels marqueurs des différents types d’échantillons qui serviront comme features de référence.

Figure 17. Diagramme de Venn des features de l'échantillon d’entrée de STEP (à gauche) et de sortie de STEP (à droite), après correction intra-séquence 0 200 400 600 800 1000 1200 1400 1600 0 2 4 6 8 10 12 14 16 18 20 m /z (D a)

Temps de rétention (min) J0 0 200 400 600 800 1000 1200 1400 1600 0 2 4 6 8 10 12 14 16 18 20 m /z (D a)

Temps de rétention (min) J7 0 200 400 600 800 1000 1200 1400 1600 0 2 4 6 8 10 12 14 16 18 20 m /z (D a)

Temps de rétention (min) J14 0 200 400 600 800 1000 1200 1400 1600 0 2 4 6 8 10 12 14 16 18 20 m /z (D a)

Temps de rétention (min) J28 1955 2254 2333 1655 352 351 324 302

(30)

En conclusion, il existe des processus physico-chimiques qui transforment les molécules organiques des échantillons, les rendant instables dans le temps. Il est nécessaire d’analyser les échantillons dans un temps imparti (i.e. court, idéalement inférieur à 14 jours) afin de garder l’information la plus exhaustive et précise (i.e. représentative et juste) possible. Cependant, il serait intéressant de mettre en place un CQsyn (différent

de celui testé dans cette étude) afin de s’affranchir efficacement de la dérive inter-séquence et donc de pouvoir comparer plus précisément les features communs ou spécifiques à chaque durée de conservation. A terme, une autre étude de stabilité doit être menée afin d’analyser les échantillons à des pas de temps plus courts que ceux testés (e.g. J0, J2, J4 etc…) afin de déterminer la durée de stockage maximale avant que les

échantillons ne soient soumis à une évolution des échantillons trop importante qui biaiserait les résultats obtenus.

D. Initiative d’exploration de potentiels marqueurs de sources de pollution(s)

anthropique(s)

Une fois le jeu de donnée corrigé et tiré, l’information est plus pertinente puisque 270 features présentent toujours un CV>40% et sont donc écartés.

La Figure 18 représente une ACP des différents groupes d’échantillons analysés : les eaux de rivière (Gier et Yzeron), entrées, intermédiaires et sorties de STEP. Les différents types d’échantillons sont projetés sur les axes principaux 1 (qui explique 43,8% de la variance totale) et 2 (qui explique 19,9% de la variance totale). Les différents groupes d’échantillons sont bien séparés : les entrées se distinguent des intermédiaires et sorties de STEP, les rivières sont éloignées des échantillons de STEP et l’Yzeron et le Gier sont bien séparés. Cette dissociation va permettre de faire émerger des features spécifiques à chaque type d’échantillon.

Figure 18. ACP projetant la séquence analytique de test après correction, pour les échantillons seuls

De manière plus précise, pour les STEP, des différences sont observables entre les entrées et les sorties. Plus spécifiquement, l’échantillon 049_1 représente l’entrée d’une STEP (traitement Filtre Planté de Roseau - Aération forcée), le 049_2 représente l’étage intermédiaire et le 049_3 la sortie de cette STEP. Les échantillons 049_2 et 049_3 sont très proches sur l’ACP, suggérant que les empreintes de la MOD pour ces

Références

Documents relatifs

Cette recherche a pour objet de dresser un état des lieux de la filière sucre malagasy dans le cadre d’une analyse stratégique de ses éléments constitutifs en vue de la

En Afrique et dans un contexte de petite agri- culture familiale, les difficultés d’adoption de l’agriculture de conservation sont liées à : une forte compétition entre usages

La couche superfi cielle a tendance à se concentrer en phosphore et matière organique et à s’acidifi er plus rapidement... PERSPECTIVES AGRICOLES - N°383 -

La recherche des pathogènes a été réalisée d'une part par culture cellulaire pour la mise en évidence des virus infectieux et d'autre part par biologie

hierarchical cluster analysis of top 25 (concentration) PC molecular species of

— Nombre de synonymes du sens : en alignant les sens identifiés avec ceux présentés dans la ressource extraite de DicoSyn, il nous a été possible d’estimer plus précisément

En permutant les symboles de somme et d’intégration dans l’égalité suivante, du fait

a) Chaque variété est caractérisée par sept variables quantitatives. Chacune de ces variables apporte une information très différente et complémentaire à