• Aucun résultat trouvé

I.3.1 La paramétrisation Spruce control 94-

B I 3 Analyse des données

B. I.3.1 La paramétrisation Spruce control 94-

Afin de déterminer les redondances au sein du grand nombre de données d’entrée disponibles (31 input: température et humidité de l’air, 5 températures du sol, 5 WFPS du sol et 19 caractéristiques du sol), une étude de corrélation entre ces paramètres est réalisée au préalable (tableau des corrélations en Annexe 1). Compte tenu de leur redondance avec les autres températures du sol, les mesures de température à 5 et 15 cm de profondeur sont supprimées de la base de données. De même, le WFPS à 15 cm de profondeur, redondant avec les autres WFPS, n’est pas pris en compte. Les 19 paramètres de caractéristiques du sol sont constants tout au long de la période de mesure, ils ne sont donc pas pertinents pour rendre compte des variations saisonnières des flux biogéniques de NO, et ne sont pas retenus comme paramètres d’entrée (input).

Cette première sélection permet d’aboutir à une base de données de 9 paramètres d’input : la température de l’air, l’humidité de l’air, les températures du sol en surface, à 10 et 20 cm de profondeur et les WFPS à la surface (humus), 5, 10 et 20 cm de profondeur. Une seconde sélection peut alors être opérée en utilisant le facteur de Gram-Schmidt (GS) qui évalue la pertinence de chaque paramètres d’entrée sur le calcul des émissions de NO par les sols. Cette évaluation est réalisée sur un premier modèle à 3 neurones cachés et permet d’éliminer le paramètre WFPS de surface (humus), considéré comme non influent (facteur de GS = 30%) sur le contrôle des flux de NO (Les autres paramètres présentent des facteurs de Gram- Schmidt supérieurs à 85%).

!

Le contrôle de la qualité des résultats est effectué en comparant les coûts d’apprentissage, de validation de généralisation, ainsi que l’homogénéité de chaque modèle. De la même façon, ces données vont permettre de vérifier l’amélioration des performances de calcul lors de l’augmentation du nombre de neurones cachés. Cette nouvelle étape vise à obtenir le modèle et donc l’équation de paramétrisation la plus performante dans l’estimation des flux biogéniques de NO.

Réseaux d’apprentissage Coût validation Coût de généralisation Homogénéité Coût de

4 HN 8.375 9.809 8.772 0.921 5 HN 8.065 9.614 8.682 0.897 6 HN 8.047 9.639 8.673 0.91 7 HN 7.517 9.657 8.479 0.929 8 HN 7.499 9.141 8.470 0.916 9 HN 7.401 8.684 8.380 0.931 10 HN 6.894 8.773 8.505 0.912 11 HN 6.841 9.334 9.278 0.928

Tableau 2.2: Comparaison des coûts obtenus à partir de réseaux de 4 à 11 neurones cachés sur les

données spruce control (1994-1997).

Le tableau 2.2 présente les résultats obtenus par des modèles de 4 à 11 neurones cachés à partir de la base de données à 8 paramètres d’entrée : la température de l’air, l’humidité de l’air, les températures du sol en surface, à 10 et 20 cm de profondeur et les WFPS à 5, 10 et 20 cm de profondeur. La première remarque est que le coût d’apprentissage augmente avec l’ augmentation du nombre de neurones cachés, en clair, plus il y a de neurones cachés, meilleur sera l’apprentissage. Le coût de validation montre les performances de la paramétrisation obtenue à partie des données d’apprentissage, sur les données de validation. Ce coût de validation est un critère de vérification très important qui doit être le plus faible possible pour que la paramétrisation soit de meilleure qualité. Dans cette étude, ce coût diminue jusqu’à une valeur de 8.684 (en gras dans le tableau 2) pour un modèle à 9 neurones cachés. La ré-augmentation observée pour des modèles à 10 et 11 neurones cachés rend compte du sur-apprentissage du modèle, indiquant la diminution des performances du modèle. Le coût de généralisation montre la capacité de la paramétrisation à être utilisée sur une base de données inconnue. Tout comme pour le coût de validation, celui de généralisation doit être le plus faible possible. Ici encore, le réseau à 9 neurones cachés présente le meilleur résultat de généralisation (8.380, en gras dans le tableau 2). En règle générale, les coûts de validation et de généralisation présentent la même évolution en fonction du nombre de neurones cachés. L’homogénéité est le seul coût qui doit être aussi fort que possible. Il détermine la capacité de la paramétrisation à prendre en compte de façon équilibrée les exemples de la base de donnée d’apprentissage dont elle est issue. De même que pour les coûts de validation et d’apprentissage, le modèle à 9 neurones cachés présente le meilleur résultat. C’est donc ce modèle qui sera retenu comme le plus performant, et dont les résultats de simulation sont présentés en figure 2.3.

Figure 2.3: Variations des flux de NO mesurés et calculés du site spruce control (1994-1997).

Cette figure compare les émissions biogéniques de NO mesurées (ligne pointillée) et calculées (ligne continue) sur le site spruce control. Les variations basse fréquence (cycle saisonnier avec de plus forts flux en hiver et plus faibles en été, voir Chapitre 1 B.II.1. Influence de la température) et haute fréquence (variations journalières des flux de NO en fonction des moyennes journalières de température et de WFPS, voir Chapitre 1 B.II.1 et B.II.2) sont bien représentées par le réseau de neurones sur l’ensemble de la période de mesure. Ces 2 bons résultats permettent d’obtenir un facteur de corrélation R2 de 0.82. En revanche, la paramétrisation semble éprouver des problèmes pour coller au flux les plus forts et une sous- estimation des flux de NO par le réseau de neurones apparaît pour des valeurs dépassant les 50 gN ha-1 j-1. Cependant, la paramétrisation à 9 neurones cachés permet d’obtenir une estimation moyenne de flux de 21, 6 gN ha-1 j-1 sur l’ensemble de la période de mesure 1994-1997, une valeur égale à la moyenne des flux mesurés. Les performance du réseau de neurones sont très encourageantes au regard de la représentation des variations basse et haute fréquences, et sur l’estimation moyenne (erreur < 1%) des flux de NO des sols du site spruce control.

Une seconde étude à partir du réseau de neurone est menée sur les données mesurées entre 1994 et 1997 sur le site spruce lime. Ce site a été chaulé en 1994 de façon à augmenter le pH du sol, le faisant passer de 3.05 à 5.9. Raïner Gasche et Hans Papen (1999) (30), responsables des mesures sur ce site, ont montrés l’immédiate diminution des émissions biogéniques de NO suite à ce chaulage, et donc l’influence du pH du sol sur la production biogénique du NO.