• Aucun résultat trouvé

protocoles d’échantillonnage et d’analyse

5.4. La spectroscopie proche-infrarouge qualitative (SPIRqual)

Les spectres SPIR peuvent être considérés comme « l’empreinte digitale » d’un échantillon de sol (Palmborg et Nordgren, 1996). Le spectre mesuré contient des informations qualitatives et quantitatives qui peuvent révélées et interprétées à l’aide de pré-traitements mathématiques et d’analyses statistiques multi-variées. Dans la phase de prétraitement mathématique des spectres, nous utiliserons le logiciel Unscrambler 10.3, puis dans l’analyse statistique le logiciel IBM SPSS 20. L’efficacité des deux logiciels dans les calculs a été vérifiée par Froehlicher (2013).

La SPIR qualitative adaptée aux sols est une méthode récente mise au point par Ertlen (2009). Elle est utilisée pour identifier le type de végétation, forestière ou prairiale, qui a produit les matières organiques du sol (MOS). Cette méthode est fondée sur la comparaison d'un spectre proche infrarouge (1000-2500 nm) d'un échantillon d'origine inconnue avec ceux des échantillons d’une librairie spectrale de référence. Celle-ci est créée sur la base d'échantillons d'horizons superficiels de sols couverts par un type de la végétation bien connu qui garantit l’origine de la matière organique (Ertlen et al., 2010). Des spectres de référence déjà existants ont été utilisés (Ertlen, 2009 ; Froehlicher, 2013) ainsi qu’une nouvelle librairie spectrale de chernozems et de sols formés sur lœss produite dans le cadre de ce travail de thèse. Dans un premier temps, nous présenterons les librairies spectrales, avant de détailler l’acquisition des spectres inconnus et leur exploitation.

5.4.1. La librairie spectrale de référence construite par Ertlen (2009) et Froehlicher (2013) Ertlen (2009) a construit une librairie spectrale de référence de sols sous deux grands types d’écosystèmes : prairies et forêts (fig. 5.1.). Le référentiel est composé de 996 échantillons provenant de 30 sites forestiers (585 échantillons) et 21 sites prairiaux (411 échantillons). Ce référentiel spectral a été établi à partir de types de sols différents. L’échantillonnage a été mené de telle sorte que les propriétés des horizons de surface soient indépendantes du type de couverture végétale. Ertlen (2009) a réussi à distinguer non seulement la MOS provenant de la végétation sous prairie et sous forêt, mais aussi à préciser l’origine de la MOS entre les sols sous les forêts de feuillus, mixtes et de conifères (fig. 5.2.). Il a envisagé la possibilité de distinction des écosystèmes plus spécifiques (chênaies et hêtraies).

153

Figure 5.1. Fonction canonique de l’analyse discriminante entre les sols sous forêts et les sols sous prairies avant (A)°et après (B) l’application des prétraitements mathématiques (d’après Ertlen, 2009).

Figure 5.2. Fonctions canoniques de l’analyse discriminante (AD5) entre les trois grandes classes de forêts (d’après Ertlen, 2009).

154

La faiblesse du référentiel de Ertlen (2009) résidait dans l’absence de milieux cultivés. Cette lacune était principalement due au fait que la généralisation de la monoculture donne un signal fortement marqué par une culture précise et ne permet pas de comparaison avec des signatures d’agricultures traditionnelles, dans lesquelles la rotation des cultures est la règle. Le travail de master de Froehlicher (2013) a permis de combler cette lacune en intégrant dans le référentiel 165 échantillons de colluvions agricoles historiques, dont on a fait l’hypothèse que leur signature spectrale était celle des horizons de surface cultivés érodés. Les analyses discriminantes ont permis de distinguer cette catégorie des deux autres (fig. 5.3) et une validation a été effectuée sur quelques échantillons indépendants.

Ce nouveau référentiel est fondamental. De facto, le référentiel bi-partite forêt – prairie ne peut s’appliquer que dans des milieux dans lesquels le couvert végétal a toujours oscillé entre ces deux pôles. En effet, dans le cas où la MOS de certains horizons du sol aurait une signature de sol cultivé, le traitement statistique effectué sur la base d’un référentiel bi-partite aboutirait automatiquement à ranger ces échantillons dans la classe, « forêt » ou « prairie », dont ils seraient les moins éloignés. Le référentiel tripartite élimine donc un risque de biais tout en donnant une précision supplémentaire sur les couverts végétaux.

Figure 5.3. Scores des deux fonctions canoniques discriminantes. 1 sols sous prairie, 2 sols sous forêt, 3 colluvions agricoles.

155

5.4.2. Construction de la librairie spectrale de référence de chernozems et sols sur lœss La librairie spectrale de référence SPIRqual mise en place dans ce travail est adaptée au type de sol étudié : le chernozem et les autres types de sol formés sur lœss qui sont caractérisés par des teneurs élevées en calcaire. Or les carbonates de calcium ont une influence non négligeable sur les spectres proche infrarouge. Ils peuvent masquer une partie de l’information sur la matière organique en particulier lorsque les pourcentages de matière organique sont faibles (cas des paléosols) Il a donc fallu constituer un référentiel spécifique pour les chernozems et autres sols sur lœss. Pour cette raison, des échantillons d’horizons superficiels de chernozems et d'autres sols sur lœss ont été collectés dans diverses forêts et prairies selon le protocole d’échantillonnage décrit dans le point 5.1.1. sur une profondeur standard de 4 cm. Comme nous l’avons précisé dans le chapitre 4 (§ 4.1), la stabilité de la végétation sur au moins 150 ans garantit la pureté du signal de référence (au moins 95 % de matière organique issue de la végétation qui occupe actuellement le sol). Seules les stations répondant à ce critère ont été retenues pour établir le référentiel de surface.

5.4.3. L’acquisition des spectres

Après séchage et tamisage à 2 mm, les échantillons de sols sont placés dans une coupelle de diamètre 9 cm (figure 5.4.) d'un spectromètre type FT- IR Frontier Spectrometer (PerkinElmer, figure 5.5.) et analysés à l'aide d’une séparatrice CaF2, d’une sphère d'intégration et d’un détecteur InGaas. Chaque spectre a été mesuré sur la moyenne de 99 scans. Grâce à la rotation de la coupelle pendant la mesure, chaque scan d’une surface d’environ 1 cm2 est effectué sur un sous-échantillon différent. Ceci permet une excellente représentativité de la mesure équivalente à une mesure « fixe » répétée de nombreuses fois. Les spectres sont analysés dans la plage de nombre d'onde de 10 000 à 4000 cm-1, soit une longueur d’onde comprise entre 1000 et 2500 nm selon une résolution que l’on peut choisir.

La relation entre le nombre d’onde et la longueur d’onde est définie par l’équation suivante :

156

Figure 5.4. Placement de l’échantillon de sol sur une coupelle avant la mesure. Photo : B. Vysloužilová.

Figure 5.5. Le spectromètre FT- IR Frontier Spectrometer (PerkinElmer). Photo : B. Vysloužilová.

157

La relation inversement proportionnelle entre nombre et longueur d’onde est représentée graphiquement sur la figure 5.6. Elle n’est pas linéaire. De ce fait, la résolution définie en nombre d’onde n’est pas proportionnelle à la résolution en longueur d’onde : la résolution en longueur d’onde augmente quand le nombre d’onde décroît (tableau 5.1).

ν (cm-1) 10000 9992 7000 6992 6000 5992 5000 4992 4008 4000 λ (nm) 1000 1000,80 1428,57 1430,21 1666,67 1668,89 2000 2003,21 2495,01 2500 Résolution en ν (cm-1) 8 8 8 8 8 Résolution λ (nm) 0,801 1,635 2,225 3,205 4,99

Tableau 5.1. Evolution de la résolution en nanomètres pour une résolution fixée à 8 cm-1..

Figure 5.6. Relation entre le nombre d’onde (cm-1) et la longueur d’onde (nm).

Par conséquent, le choix d’une résolution de 8 cm-1 permet d’obtenir une résolution comprise entre 0,8 et 4,99 nanomètres, ce qui est tout a fait comparable avec les résolutions les plus fréquemment rencontrées dans la littérature (i.e Henderson et al., 1992 ; Velasquez

et al., 2005). Ainsi, une matrice de données obtenue avec 3001 colonnes et réduite à un intervalle de 8 cm-1 permet de traiter une matrice réduite à seulement 751 colonnes. Avec un

158

intervalle de 16 cm-1, une matrice de 375 colonnes et pour un intervalle de 32 cm-1, 187 colonnes. Cette réduction a deux objectifs : l'élimination d’une incertitude et la réduction de la matrice de données à un nombre qui est gérable pour l'analyse discriminante dans le logiciel SPSS (Froehlicher, 2013 ; Ertlen et al., 2010). En effet une des conditions de validité de l’analyse discriminante est d’avoir une matrice avec au moins autant d’observations que de variables.

Les données spectrales acquises se présentent sous forme de matrice où les colonnes sont les variables (soit les bandes de longueur d’onde) et les lignes sont les observations (soit les échantillons mesurés). A la résolution 8 cm-1, nous obtenons une matrice de 751 colonnes. Le nombre de lignes dans la matrice correspond au nombre d’échantillons traités.

La réflectance mesurée (R) par le spectromètre (figure 5.7.) est par ailleurs transformée en absorbance (A) (fig. 5.6) à l'aide de l'équation suivante :

A = log10(1/R).

Figure 5.7. Visualisation de données « brutes » de la réflectance mesurée sur un groupe d’échantillons, dans un simple objectif illustratif. Les spectres sont visualisés dans le logiciel

159

Figure 5.8. Visualisation des données « brutes » de l’absorbance du même groupe d’échantillons. Les spectres sont affichés dans le logiciel PerkinElmer Spectrum.

Les bandes spectrales intéressantes dans notre cas se situent entre 7300-4000 cm-1 (voir fig. 5.8.) En effet, entre 10000 et 7300 cm-1, il n’y a pas de pics mais un bruit de fond élevé. L’enlèvement des bandes spectrales entre 10000-7300 cm-1 qui ne montrent aucune information pertinente permet de réduire le nombre de colonnes de la matrice à 412 colonnes.

5.4.4. Le prétraitement des spectres

Dans la littérature, aucun prétraitement standard ne se dégage (Coûteaux et al., 2003). En fonction des applications et des jeux d’échantillons, un traitement s’avère plus efficace qu’un autre. Dans notre cas, nous avons testé plusieurs pré-traitements et combinaisons de pré-traitements dans le but de maximiser les distances entre les groupes définis en fonction du couvert végétal. Parmi ces prétraitements, nous avons testé :

* La standardisation (fonction Standard Normal Variate = SNV dans le logiciel Unscrambler 10.3) est le type de prétraitement correctif, appliqué systématiquement, qui permet la soustraction de l'absorbance moyenne de la plage de spectres à partir de tous les spectres dans la matrice. Cette transformation a pour effet de réduire l'influence de la quantité de la MO et de l'hétérogénéité de taille des particules (Shenk et al., 2001; Barnes et

al., 1989). La transformation est également utile pour mettre en évidence les informations qualitatives contenues dans les spectres. L’effet de ce traitement de spectres est visualisé sur la figure 5.9.

160

Figure 5.9. Les spectres de la même population d’échantillons après standardisation : application de la fonction SNV du logiciel Unscrambler 10.3. sur la bande 7003 – 4000 cm-1.

* La fonction detrend est un prétraitement supplémentaire qui est parfois appliqué pour améliorer le traitement statistique ultérieur. Elle consiste à appliquer une fonction puissance pour rectifier la tendance curvilinéaire du spectre dans les valeurs proches de l’extrémité haute (4000 cm-1) (Ertlen, 2009). L’effet de ce prétraitement est visualisé sur la figure 5.10.

Figure 5.10. La visualisation de spectres du même groupe d’échantillons après l’application de la fonction detrend dans le logiciel Unscrambler 10.3.

161

* L’application des fonctions dérivées (1ère, 2nde) est également un prétraitement courant (Coûteaux et al., 2003). Elle permet d’une part une amplification de l’ensemble des variations observées sur un spectre brut (variation de l’absorbance), mais aussi une mise en valeur des données standardisées (Ertlen, 2009). L’effet de l’application des dérivées sur les spectres est visualisé sur les figures 5.11 et 5.12.

Figure 5.11. Visualisation de l’effet de l’application de la 1ère dérivée sur la même population d’échantillons dans le logiciel Unscrambler 10.3.

162

Figure 5.12. Visualisation de l’effet de l’application de 2nde dérivée sur la même population d’échantillons dans le logiciel Unscrambler 10.3.

5.4.5. L'analyse statistique des spectres

Il existe plusieurs outils de statistique multivariée adaptés aux données qualitatives. L’analyse en composante principale (ACP) est la plus utilisée. Elle permet d’extraire l’information principale d’une matrice de données en remplaçant un grand nombre de variables par quelques composantes qui synthétisent l’information. L’analyse discriminante permet d’extraire à partir d’un grand nombre de variables, celles qui permettent le mieux de séparer plusieurs groupes d’individus. Dans ce second outil, contrairement au premier, les groupes sont connus a priori et les variables discriminantes sont recherchées. Pour l’ACP, ce sont les groupes les plus évidents qui ressortent. Or, dans nos spectres proche-infrarouge l’information sur l’origine végétale de la matière organique, que nous recherchons, n’est pas nécessairement l’information dominante dans la matrice. Ainsi, l’analyse discriminante sera choisie, car elle ne met pas l’accent sur l’information dominante mais sur l’information recherchée, c’est-à-dire l’origine de la matière organique qui pourrait dans une ACP s’exprimer sur des composantes à très faible poids.

Nous allons construire et valider le référentiel bipartite de chernozems et de sols formés sur lœss sous prairie ou forêt. Dans les étapes suivantes, nous allons en plus appliquer les référentiels créés auparavant par Ertlen (2009) et Froehlicher (2013). L’analyse discriminante ou analyse canonique est appliquée comme décrit par Ertlen et al. (2010) et Viscarra Rossel et Webster (2011).

163

Lorsqu’il y a deux classes (sols sous forêts et sol sous prairies par exemple), il y a une seule fonction canonique. A partir des fonctions canoniques, il est possible de mesurer la distance entre les groupes et de prédire l’appartenance à un groupe pour un échantillon inconnu. L’échantillon est classé dans le groupe dont il est le plus proche. Les informations importantes peuvent être tirées de fonctions canoniques. Les fonctions attribuent des coefficients à chacune des variables, ce qui permet de détecter les plus discriminantes.

Par conséquent, pour la construction du référentiel de chernozems et de sols formés sur lœss, nous avons une population de 427 échantillons. Nous obtenons ainsi une matrice de 427 lignes (nombre d’échantillons) et 412 colonnes (bandes de nombres d’onde ; cf. § 5.4.3). Cette matrice est divisée en deux sous-matrices : une pour la prairie avec 292 lignes et une pour la forêt avec 135 lignes. A partir des deux sous-matrices, nous construisons un référentiel bipartite. La différence entre les populations est exprimée par la distance de Mahalanobis. L’objectif des prétraitements préalables consiste à augmenter cette distance. Lorsque cette distance est significative, et le modèle de populations distinctes est validé.

Dans une deuxième étape, l’algorithme calculé pour établir la fonction discriminante à partir des échantillons de référence est appliqué aux échantillons « inconnus ». Ceux-ci se classent en fonction de leurs scores dans une des classes définies dans le référentiel. Ainsi, le classement des données inconnues dans une des catégories du référentiel permet une interprétation de l'origine des MOS : forêt ou prairie dans le référentiel bipartite, forêt, prairie ou culture dans le référentiel tripartite. Le processus de la construction des référentiels et de leur application est schématisé sur la figure 5.13 (Froehlicher, 2013).

164

Figure 5.13. Présentation de la construction de la librairie de spectres de référence SPIR (adapté d’après Froehlicher, 2013) bipartite ou tripartite.