• Aucun résultat trouvé

Les techniques chimiométriques complémentaires

Dans cette annexe, les méthodes couramment appliquées en chimiométrie et exploitées durant cette thèse seront présentées. Nous décriront tout d’abord les techniques de pré-traitement mathématiques des spectres. Les méthodes pour la sélection des échantillons d’étalonnage et de validation seront ensuite exposées. La régression PLS et la validation croisée seront ensuite détaillées. Enfin, les différents critères statistiques pour l’évaluation des performances des modèles sont rappelés.

A.1 Prétraitements mathématiques

Les spectres de vibrations peuvent être affectés par des interférences physico-chimiques qui ne sont pas reliées à la composition du produit analysé : du bruit (une erreur non sys-tématique), de la diffusion, des variations du trajet optique, une non-linéarité du détecteur dans certaines gammes d’absorbance. . .

De ce fait, il est nécessaire d’appliquer des prétraitements mathématiques aux spectres. L’objectif d’un prétraitement de spectres est de réduire les interférences physico-chimiques présentes dans les spectres tout en maintenant la variabilité due à la composition chimique des échantillons dans le but d’améliorer les modèles [88].

A.1.1 Dérivation

Les méthodes de dérivation ont la capacité de corriger à la fois les effets additifs (déplacements verticaux de la ligne de base ou "offset") et multiplicatifs (déplacements

verticaux de la ligne de base en fonction de la longueur d’onde) qui peuvent apparaître dans les spectres [88]. La figure A.1 montre l’effet de la dérivée sur un spectre affecté par un effet additif (vert) et par un effet multiplicatif (rouge). La dérivée 1ère est capable de corriger l’un des effets (additif pour le spectre vert et multiplicatif pour le spectre rouge). Cependant, lorsque les deux phénomènes sont en présence, l’utilisation de la dérivée 2nde

est nécessaire.

FigureA.1 – Effet de la dérivée sur les effets additifs (vert) et additifs plus multiplicatifs (rouge). Le spectre bleu représente le spectre sans effet d’offset et la ligne noire est l’axe des abscisses [88]

La méthode la plus couramment utilisée en chimiométrie pour la dérivation des spectres est l’algorithme de Savitzky-Golay [94]. Les méthodes de dérivation entraînent géné-ralement une diminution du rapport signal sur bruit ce qui affecte la qualité spectrale et donc les performances des modèles. Afin de réduire ce phénomène, l’algorithme de Sa-vitzky-Golay utilise une technique de lissage. En effet, cette méthode calcule la dérivée en chaque point (longueur d’onde) i du spectre en deux étapes. Premièrement, un poly-nôme de degré k (généralement k = 2 ou 3) est ajusté autour du point i sur f points du spectre (avec f ≥ k+1). La dérivée d’ordre m (généralement 1 ou 2) du polynôme en ce point i est ensuite calculée. L’algorithme de Savitzky-Golay peut également être utilisé pour le lissage en fixant l’ordre de la dérivée à zéro.

A.1. PRÉTRAITEMENTS MATHÉMATIQUES

A.1.2 Méthodes de correction de ligne de base

Les méthodes de correction de ligne de base sont généralement utilisées pour corriger les courbures qui peuvent apparaître dans le spectre. Ces courbures correspondent à une augmentation des valeurs d’absorbance, généralement dues aux effets de diffusion.

A.1.2.1 Méthode "Detrend"

La méthode "Detrend" consiste à ajuster un polynôme de degré K au spectre puis à le soustraire au spectre initial [5]. Cette méthode peut donc s’écrire, pour chaque point i du spectre, sous la forme : xi,detrend = xi,initial− di où xdetrend représente le spectre prétraité,

xinitial le spectre initial et d le polynôme ajusté par la méthode "detrend".

A.1.2.2 Méthode Weighted Least Square Baseline (WLSB)

La méthode "Weighted Least Square Baseline" consiste également à ajuster un poly-nôme de degré K au spectre puis à le soustraire au spectre initial [38]. Cependant, cette méthode utilise un algorithme itératif basé sur les moindres carrés et affecte un poids à chaque point du spectre selon le principe suivant :

– Si xi,initial− xwlsb>0 : un poids faible est attribué au point i – Si xi,initial− xwlsb<0 : un poids fort est attribué au point i

En effet, lorsque le résidu (xi,initial−xwlsb) est négatif, le polynôme ajusté se trouve "au dessus" du spectre. Or, l’objectif est d’ajuster un polynôme sur la ligne de base. Un poids fort est alors attribué à ces points afin de "forcer" le polynôme à s’ajuster "au dessous" du spectre. Lorsque les résidus sont positifs, le raisonnement inverse est effectué.

A.1.3 Normalisation

Les méthodes de normalisation ont pour but de réduire les variations entre les échan-tillons dues par exemple à la diffusion et de corriger les déplacements verticaux de la ligne de base. Les corrections Multiplicative Scatter Correction (MSC) et Standard normal

A.1.3.1 La correction "Multiplicative Scatter Correction" (MSC)

Le prétraitement MSC a pour but de corriger les problèmes de diffusion ou de variation du trajet optique [44, 76]. Le principe est de corriger chaque spectre sur la base d’un spectre de référence qui est souvent le spectre moyen. Un modèle linéaire est tout d’abord ajusté entre le spectre xi et le spectre moyen xm selon l’équation A.1.

xi = ai+ bixm+ ei (A.1)

avec a et b, les coefficients de la régression calculés pour chaque spectre xi. Le spectre est ensuite corrigé au moyen de l’équation A.2.

xi,corr = xi− ai bi

(A.2)

où xi,corr est le spectre obtenu par l’application de cette correction MSC.

A.1.3.2 La correction "Standard Normal Variate" (SNV)

La correction SNV [5] a pour but de corriger les effets de déplacements verticaux de la ligne de base. Elle est basée sur le calcul de l’écart type de l’absorbance à chaque longueur d’onde du spectre et s’applique à chaque spectre pris séparément, sans référence à l’ensemble des échantillons. Cette correction se calcule au moyen de l’équation :

SN Vi = yi − y r P (yiy)2 n−1 = yi− y σ (A.3)

où y est la moyenne des absorbances du spectre, yi l’absorbance à corriger, n le nombre de longueurs d’onde du spectre, σ l’écart type à la moyenne des absorbances du spectre et SNVi l’absorbance corrigée. Ce prétraitement est souvent utilisé lors de l’acquisition en réflexion diffuse sur des échantillons en poudre ou comportant des particules.

A.2. MÉTHODES DE SÉLECTION DES ÉCHANTILLONS

A.2 Méthodes de sélection des échantillons

L’un des points importants pour le développement d’une analyse multivariée est la sélection des échantillons des lots d’étalonnage et de validation [27, 57]. En effet, les échantillons du lot d’étalonnage doivent couvrir l’espace de la base initiale et, notamment, les extrémités. Pour garantir une bonne évaluation des performances des modèles, les échantillons du lot de validation doivent couvrir le même espace de variation et se trouver dans l’espace défini par les échantillons d’étalonnage. Nous souhaitons de cette manière éviter les problèmes d’extrapolation.

De nombreuses techniques de sélection d’échantillons peuvent être utilisées. Dans cette partie, nous présenterons trois d’entre elles : la sélection aléatoire, la méthode de "Kennard et Stone" et la méthode SPXY.

A.2.1 La sélection aléatoire

La méthode de sélection aléatoire est une technique rapide et simple pour la sélection d’échantillons. Cette technique peut s’avérer efficace sur les lots importants car le tirage d’un groupe d’échantillons dans une grande population suit la distribution statistique du lot entier. Cependant, la sélection aléatoire n’assure pas la représentativité du lot complet, notamment sur les lots avec peu d’échantillons et n’empêche pas les problèmes d’extrapolation.

A.2.2 Méthode de "Kennard et Stone"

La méthode de Kennard et Stone [60] est basée sur les distances euclidiennes entre les échantillons. La distance euclidienne dx entre deux vecteurs p et q de taille j se calcule selon l’équation A.4.

dx(p, q) = v u u u t j X j=1 [xp(j) − xq(j)]2 (A.4)

Cette méthode est initialisée en sélectionnant, soit les deux échantillons les plus éloi-gnés, soit l’échantillon le plus au centre de la base. Ensuite, à chaque itération, les distances entre les échantillons déjà sélectionnés et les échantillons restants sont calculées.