• Aucun résultat trouvé

Traitement des données

III. C HAPITRE 3 : T RAITEMENT DES DONNEES

III.1. A PPROCHES STATISTIQUES

III.1.2 La régression par moindres carrés partiels (PLSR : Partial Least Squares Régression)

III.1.2.1 Démarche générale 

La démarche générale du développement d’une analyse utilisant la PLSR sur des données spectrométriques consiste à effectuer un étalonnage (ou échantillonnage étalon) qui permet de mettre en relation une valeur y de référence avec des mesures spectrométriques x. Le modèle statistique associé à la régression linéaire est donné par :

y

i

= β

0

+ β

1

x

i1

+ β

2

x

i2

+…+ β

m

x

im

+ ε

i (équation 9)

A yi Valeur observée d’indice i,

xi1, xi2, …, xim Variables explicatives

β0, β1, …, βm Coefficients de régression

εi Terme d’erreur

La première étape de l’analyse consiste à choisir un ensemble d’échantillons représentatifs, ou étalons, de ceux qui seront analysés par la suite. La composition de ces échantillons est soit connue au moyen d’une analyse par une méthode de référence (DRX, analyses chimiques), soit expérimentale dans le cas des mélanges. Ainsi, nous disposons au départ, d’une matrice d’étalonnage X formée de n lignes et de m colonnes avec n le nombre de spectres formant la collection de référence et m le nombre de points de mesures (longueurs d’onde). Elle regroupe ainsi, les variables explicatives (valeur d’absorption à chaque longueur d’onde dans notre cas) et le vecteur y formé par les n valeurs de référence (teneur en smectite de chaque échantillon par exemple). Cette collection de références doit être suffisamment importante pour être représentative de la variabilité du paramètre que l’on cherche à modéliser. A partir de la collection d’étalonnage représentée par la matrice X et le vecteur y, nous cherchons ensuite à estimer les paramètres du modèle défini par l’équation (9).

Cependant, la structure des données spectrométriques est en général particulière. En effet, le nombre d’observations n est souvent largement inférieur au nombre de variables m et les collections de données spectrométriques sont fortement redondantes. La même information dont la variabilité est liée au même phénomène physique, apparaît dans plusieurs régions du spectre (par exemple, plusieurs régions spectrales peuvent souvent être associées à un même groupement chimique). On parle alors de données colinéaires. Dans ces conditions, l’utilisation de la PLSR est intéressante car elle permet tout comme l’ACP, de remplacer la matrice de données prédictives X par une nouvelle matrice T dérivée de X, comprenant le même nombre de ligne que X, mais un nombre de colonnes très inférieur à m. T est donc une nouvelle matrice dont les colonnes forment des variables latentes (artificielles), obtenues par combinaison linéaire des variables d’origine, sur laquelle la régression est appliquée. Contrairement à l’ACP, le calcul des composantes de T se fait dans le cas de la PLSR, en tenant compte de la variable y. Ainsi, les variables latentes (artificielles) sont obtenues par un processus itératif qui maximise la valeur absolue de la covariance entre X et les concentrations y.

A partir de là, il est possible d’établir un modèle prédictif dont on peut faire varier la complexité en changeant le nombre de termes apparaissant dans l’équation de régression. Cependant, il est souvent très difficile de déterminer le meilleur compromis entre la complexité et la fiabilité des modèles. Le nombre k de composantes de la régression est un indicateur de cette complexité. Sur les données ayant servi à l’étalonnage, les erreurs résiduelles diminuent toujours en fonction de cette complexité. Ainsi, si la valeur de k est trop faible, on risque d’omettre des phénomènes d’interactions ou des dépendances de spectres et d’obtenir un modèle avec un faible pouvoir explicatif. En revanche, l’augmentation du nombre de composantes peut amener à inclure dans le modèle des variables latentes faiblement significatives. Cela conduit à un sur apprentissage du modèle (over fit, en anglais) qui ne décrit alors plus un rapport fondamental (la teneur en smectite versus les données spectrales) mais par exemple, le bruit contenu dans les données spectrales. Le risque est d’avoir un bon modèle (très forte corrélation avec les données d’entrée) avec une capacité prédictive faible.

Le nombre k de variables latentes (nombre de facteurs) définit donc la dimension du sous espace dans lequel opère la régression. La validation des modèles prédictifs en facilite la détermination. Elle consiste à appliquer les modèles sur la collection de validations (données indépendantes de l’étalonnage), pour des

valeurs croissantes de k. On peut également utiliser la méthode de la validation croisée si l’on ne

dispose pas d’un jeu de données suffisant pour créer deux ensembles indépendants. Cette dernière consiste à recommencer plusieurs fois l’étape de validation sur un petit nombre, chaque fois différent, de données issues de la collection de la calibration. On peut alors comparer l’évolution de l’erreur résiduelle liée à l’étalonnage avec celle obtenue dans les essais de validation, en fonction du nombre de facteurs utilisés (k). Cette erreur est désignée par le terme anglais Root Mean Square Error (RMSE, racine carrée de l’erreur quadratique moyenne). Il est généralement considéré qu’à la valeur minimale de cette erreur correspond la dimension « idéale » du modèle. Après que l’on a jugé que le modèle de régression était satisfaisant, on peut l’appliquer pour doser les échantillons de sols dont la valeur de référence (teneur en smectite) est inconnue.

Une synthèse non exhaustive des articles récents utilisant l’analyse PLSR dans leurs études est faite dans le tableau III-1. Elle met en évidence que la principale difficulté lors de l’utilisation de la PLSR vient de l’échantillonnage de données. En effet, les données doivent être suffisamment nombreuses et indépendantes pour permettre une validation réellement représentative et ainsi autorise l’utilisation des modèles pour prédire des données « inconnues ». La plupart des modèles sont établies sur des sols ou des échantillons propres à un certain environnement et certains auteurs (Shepherd and Walsh 2002; Brown 2006)montrent l’importance de l’utilisation d’une bibliothèque spectrale globale. Ainsi dans beaucoup d’études, seuls les résultats de la calibration et/ou de la validation croisée sont reportés (Janik 1998; Reeves, McCarty et al. 2001; Reeves, McCarty et al. 2002; Udelhoven 2003) et seulement peu d’études vont jusqu’à utiliser les modèles pour la prédiction sur un ensemble de données inconnues. Dans le cas d’étude géotechnique ce problème de l’échantillonnage est fondamental et compromet l’apport de telles méthodes.

article objectif de l'étude échantillons analysés domaine

IR prétraitement Analyses statistiques

Nanni and Demattê, 2006

estimation des propriétés des sols tropicaux

brésiliens 368 sols tropicaux brésiliens PIR

sélection de bandes spectrales caractéristiques d'après observations et

bibliographie

régression linéaire multiple (SAS système): établissement de corrélation entre données spectrales et caractéristiques des sols Viscarra

Rossel and al., 2006

modélisation des mélanges minéraux / matières organiques

mélanges

illite/kaolinite/smectite/goethite/50-50mix acide humique et fulvique/quartz

UV-vis- PIR

compression des données et données aberrante: ACP; Algorithme de débruitage utilisant les ondelettes; dérivée première.

modèle: PLSR 1 / prédiction: bootstrap aggregation-PLSR/ comparaison mélange/sol: ACP

Viscarra Rossel and al.,

2009

estimation de la couleur et de la composition des sols; prédiction de teneur en argile des sols

10 profils de sol dérivant de matériaux parents différents: 249 échantillons; libraire

de sols d'origine variable: 1361 sols

Vis-PIR

comparaison des spectres par ACP et T-test. utilisation en prétraitement d'un filtre Stavisky-Golay avec les dérivées 1ères

Retrait du Continuum et localisation de figures d'absorption caractéristiques / PLSR avec Bootstrap aggregation pour

prédiction du contenu en argile. Brown and al.,

2006

évaluer la précision des modèles empiriques de caractérisation des sols à partir d'un set de

données indépendante de sols

sols de différents pays, climats, enregistrés

avec différents appareils Vis-PIR boosted regression trees versus PLSR

Savvides et al., 2010

prédiction de la CEC. Mise en évidence de la dépendance à l'échelle

échantillonnage emboité (hiérarchisé): au

total: 288 pts vis-NIR réduction du nombre de variable: ACP

analyse de la covariance emboitée (hiérarchisée): corrélation DRS / CEC à différentes échelles / PLSR: prédiction de la CEC McBratney et

al. 2006

intégration de données issues des statistiques multivariables dans des fonctions de

pedotransferts

116 ech. Provenant d'un champ de 16 ha. MIR PLSR; Bootstrap method+ bootstrat aggregating

Shepherd and Walsh, 2002

développement de librairie pour l'évaluation des sols. test: changement de taille du set de calibration; détection d'outliers lors de la

prédiction de nouveaux échantillons

1000 sols de surface d'Afrique de l'est et du

sud Vis-PIR

modèle linéaire graphique: hypothèse d'indépendance des propriétés des sols.

MARS: calibration des propriétés des sols sur la réflectance; arbre de classification

Reeves et al.,2001

détermination de la composition des sols provenant de différentes profondeur, localisation,

terre cultivé et taux de fertilisation

180 sols MIR statistiques descriptives, PLSR

Haaland et Melgaard, 2002

présentation de famille de calibration venant augmenter les capacités des analyses PLS

classiques Odlare et al.,

2005

variation spatiale de la teneur en argile, du pH et du carbone total dans les sols

99 ech. Prélevés sur une parcelle de

200*160 m NIR PCA Géostatistiques

Janik et al.

2007 détermination du contenu en eau des sols

96 ech. de sols provenant de 36 sites

localisés en Australie MIR PLSR; cross validation

Sørensen et Dalsgaard,

2005

prédiction de la teneur en argile, et en carbone total

plus de 800 ech provenant de tout le

Danemark NIR dérivée première PLSR; cross validation

Goetz et al. 2001

modélisation de la teneur en smectite et du

potentiel de gonflement des sols 178 sols du Colorado NIR dérivée seconde PLSR