• Aucun résultat trouvé

4. Méthodologie

4.5 Fluorescence

4.5.5 Méthode PARAFAC

La méthode PARAFAC est un outil intéressant pour caractériser et suivre les changements de fluorescence de la MON dans un milieu donné. Cette méthode est mise en œuvre grâce aux programmes DOMFluor (v.1.7) et N-way (v.3.00) écrit en langage Matlab qui ont été développés par Stedmon & Bro (2008) et Anderson & Bro (2000) respectivement. Ses programmes sont téléchargeables gratuitement à l’adresse suivante : www.models.life.ku.dk. DOMFluor est le programme Matlab qui permet la déconvolution 3D des MEE en fluorophores unitaires (Parallel

factor analysis - PARAFAC) suite à des analyses de la MOD par fluorescence. Le programme N-

way contient des fonctions additionnelles qui facilitent l’utilisation de PARAFAC.

Avec ces programmes, il est possible de modéliser un ensemble d’échantillons, chaque modèle correspondant à un nombre défini de composantes (les principes de la méthode PARAFAC de Stedmon & Bro (2008) sont détaillés à la section 3.4.3). L’analyse PARAFAC s’est faite jusqu’à maintenant à l’aide du logiciel Matlab parce que les auteurs qu’ils l’ont développé ont utilisé ce langage pour programmer l’algorithme d’analyse de données. Dans le cadre de notre étude, les données (ensemble de spectres) ont été divisées par type d’eau; eau brute, décantée, ozonée et filtrée. Dans le cas d’une eau de surface contenant une MON dissoute de nature très variée, il est préférable d’avoir entre 20 et 100 échantillons (un «échantillon» = un spectre 3D de fluorescence obtenu pour un échantillon d’eau) pour constituer une base de données (ensemble d’échantillons) utilisée pour les analyses (Stedmon et Bro, 2008). Plus le nombre d’échantillons est élevé, plus l’analyse entre deux sous-ensembles («split half analysis») devrait être robuste (Stedmon and Bro, 2008).

La détermination des composantes et de leur nombre, qui constituent un modèle de MON, est faite à l’aide d’outils statistiques. La Figure 4-6 résume les différentes étapes dans le traitement des données réalisé en suivant la méthode PARAFAC. À noter le caractère itératif de la méthode. Les étapes sont décrites de manière plus détaillée dans ce qui suit.

46

Figure 4-6: Sommaire des étapes de l’analyse PARAFAC adapté de Stedmon & Bro, 2008

Analyse exploratoire et élimination des échantillons aberrants

La première étape de l’analyse avec PARAFAC est une analyse exploratoire qui consiste à comparer entre eux des modèles à une, deux, trois composantes et ce jusqu’à x composantes. Le maximum de composantes identifiées dans la littérature est 8 composantes (Stedmon & Markager, 2005). Cette analyse est itérative et a pour but de sélectionner un modèle qui représente le mieux l’ensemble des MEE analysées. Ceci permet de déterminer un nombre de composantes dont la variance dépendante est supérieure à 99%. La variance est calculée au cours de l’analyse et est un bon indicateur de l’ajustement adéquat du modèle puisqu’elle mesure la variation (dispersion) d'un ensemble de données pour un modèle mathématique.

Durant cette étape, les échantillons avec des valeurs extrêmes ou aberrantes sont exclus de l’ensemble des données dans le cas où ils ont un effet significatif sur le modèle. Si aucun effet significatif n’est observé sur les résultats statistiques des étapes de validation subséquentes alors ils sont conservés dans la base de données. Cette étape est itérative, puisqu’il faut procéder par essais et erreurs, en observant l’effet de l’enlèvement d’une composante sur la performance du modèle. Les échantillons écartés peuvent contenir des artéfacts ou tout simplement être très différents du reste des données. Rappelons que l’objectif est de déterminer un modèle qui représente le mieux possible l’ensemble des données qui permettent de le construire. Cette analyse se fait principalement à partir des ratios de levier («leverage») qui sont reliés au degré de

déviation d’un échantillon par rapport à la moyenne de l’ensemble des données. Ce ratio de levier varie entre 0 et 1. La Figure

modèle à trois composantes (chaque composante correspond à une couleur

à gauche). Dans ce cas-ci, l’échantillon n°6, et possiblement le n°1, seraient à priori des valeurs aberrantes du modèle et donc ce

considérés pour la modélisation.

Figure 4-7: Exemple de ratio de levier À noter que, sur cette figure, les

deux vecteurs d’émission et d’excitation excitation ou en émission sont

émission-intensité et excitation concentration relative, et non pas absolue

Validation du modèle

À cette étape, un modèle avec

déterminé et choisi parmi un ensemble de modèles possibles Cela peut se faire de quatre façons

 Analyse des résidus :

spectre de gauche contiennent des déviations systématiques. La figure de droite ressemble plus à du bruit associé à l’instrument, il n’y a pas de pic qui ressort. tion d’un échantillon par rapport à la moyenne de l’ensemble des données. Ce ratio de

Figure 4-7 est un exemple de l’analyse des ratios de levier avec un modèle à trois composantes (chaque composante correspond à une couleur dans les graphiques ci, l’échantillon n°6, et possiblement le n°1, seraient à priori des valeurs et donc ces points devraient être enlevés de l’ensemble des points pour la modélisation.

Exemple de ratio de levier – analyse PARAFAC adapté de Stedmon & Bro (2008) es « loadings » représentent la décomposition d’un spectre 3D en d’émission et d’excitation (B, C) (voir la section 3.4.3). Les «loadings»

approximativement les projections des spectres 3D sur les plans intensité et excitation-intensité. Les « scores » représentent quant à eux

et non pas absolue, de chaque composante pour un échantillon donné

un modèle avec un nombre de composantes présentes et détectables ensemble de modèles possibles. Ce modèle doit alors être validé. de quatre façons :

: La Figure 4-8 présente les résidus d’un spectre. Les résidus du spectre de gauche contiennent des déviations systématiques. La figure de droite ressemble plus à du bruit associé à l’instrument, il n’y a pas de pic qui ressort.

47 tion d’un échantillon par rapport à la moyenne de l’ensemble des données. Ce ratio de lyse des ratios de levier avec un les graphiques ci, l’échantillon n°6, et possiblement le n°1, seraient à priori des valeurs de l’ensemble des points

adapté de Stedmon & Bro (2008) d’un spectre 3D en Les «loadings» en 3D sur les plans quant à eux la pour un échantillon donné.

un nombre de composantes présentes et détectables a été Ce modèle doit alors être validé. les résidus d’un spectre. Les résidus du spectre de gauche contiennent des déviations systématiques. La figure de droite ressemble plus à du bruit associé à l’instrument, il n’y a pas de pic qui ressort. Les

48

résidus ne devraient contenir que le bruit de l’appareil; ils doivent contenir peu de variation et être petits. Lorsque les résidus sont trop prédominants cela peut indiquer que le nombre de composantes du modèle n’est pas adapté. L’erreur doit être relativement uniforme et non concentrée dans une zone du spectre. C’est ce que l’on observe dans le spectre de droite à la Figure 4-8, où les résidus sont relativement uniformes et probablement causés par le bruit de fond de la mesure de fluorescence. Si seulement un ou deux échantillons ont des résidus plus importants alors ceux-ci devraient être enlevés de la base de données (processus itératif).

Figure 4-8: Exemple de résidus d’un spectre de Stedmon & Bro (2008)

 Examen des propriétés spectrales de chaque composante: Les spectres devraient avoir une apparence lisse et régulière. La Figure 4-9 présente un exemple et un contre- exemple de spectres: à gauche un spectre dont le tracé n’est pas lisse et régulier et à droite un spectre avec l’apparence désirée. En regardant le spectre de gauche on peut voir que le tracé de l’excitation diminue rapidement (en quelques nm) jusqu’à zéro. Quant au spectre d’émission, il a un épaulement et a une apparence irrégulière. L’épaulement peut indiquer la présence d’une composante supplémentaire.

49  Analyse de deux sous-ensembles : La base de données est séparée en deux sous-

ensembles. Chaque sous-ensemble est analysé indépendamment et ensuite comparé. S’ils sont identiques le modèle est considéré comme étant robuste. Les deux sous- ensembles sont comparés avec le coefficient de congruence de Tucker qui est un indice de la similitude entre deux groupes. En statistique, le coefficient de congruence de Tucker est utilisé pour les analyses multivariées (Lorenzo-Seva & Berge, 2006).



Initialisation aléatoire

: Une dizaine de modèles ayant le même nombre de composantes sont définis aléatoirement à partir de l’ensemble des échantillons. Les modèles sont comparés à l’aide d’un algorithme utilisant la somme des carrés des résidus et d’autres procédures d’ajustement itératives, par exemple une simple régression non linéaire, et ce pour chaque modèle. La somme des carrés des résidus est une forme quadratique définie positive de la méthode des moindres carrés. L'algorithme utilisé pour l'ajustement du modèle avec PARAFAC est itératif et s'arrête lorsque la différence par rapport à l'ajustement entre deux itérations successives est inférieure à une certaine limite fixée à 10-6 par défaut dans le programme. La Figure 4-10 présente un exemple du résultat obtenu par l’initialisation aléatoire faite avec le programme PARAFAC. Le graphique représentant la somme des carrés des résidus erreurs pour chacun des modèles est tracé. Le modèle avec le meilleur résultat est mis en évidence avec un cercle vert.

50

À noter qu’il n’est pas toujours possible de valider le modèle par ces quatre approches (Stedmon et al., 2008). Lors de l’analyse PARAFAC, les quatre types de validation sont utilisés afin de mesurer les variations de chaque modèle et déterminer le nombre de composantes optimales et représentatives. Dans notre cas, 2 à 3 types de validation étaient habituellement concluantes parmi celles citées dans cette section pour le modèle choisi. Rappelons que l’analyse PARAFAC est itérative et comporte une part de subjectivité.

51