• Aucun résultat trouvé

7.3 La paramétrisation des flux d’isoprène

7.3.1 Élaboration de l’équation

Les processus impliqués dans les émissions biogéniques d’isoprène sont nombreux et pour la plupart peu compris (section 3.2). Cependant certains paramètres environnemen- taux ont été identifiés comme jouant un rôle prépondérant sur les émissions à court terme et à long terme. À court terme, la température des feuilles et le rayonnement (PAR) ont un rôle majeur. À moyen ou plus long terme, la disponibilité en eau et les stress divers

7.3. LA PARAMÉTRISATION DES FLUX D’ISOPRÈNE 129 peuvent modifier les émissions.

Dans le but d’utiliser un réseau de neurones pour établir une modélisation des flux d’isoprène, plusieurs paramètres environnementaux ont été mesurés durant les campagnes de mesures. Ces variables ont été choisies d’après les connaissances sur les flux de COV biogéniques et en fonction de l’instrumentation disponible. Les données utilisées ici pro- viennent de la campagne de mesure effectuée à l’OHP durant l’été 2010. Les données mesurées du 2 au 6 août constituent un total de 127 lignes. Chaque ligne correspond à une moyenne sur une demi-heure des différentes variables et du flux d’isoprène. Ce jeu de données a ensuite été séparé en deux ensembles, un ensemble d’apprentissage de 77 lignes et un ensemble de validation de 50 lignes. Les deux ensembles ont été construits de telle façon que chaque ensemble conserve la même distribution statistique et ce, en calculant la distance de Kullback-Liebler (Kullback and Leibler, 1951). Le type de réseau de neurones utilisé dans cette étude est un perceptron multi couches comme décrit dans la section 7.2, c’est un réseau non bouclé avec une fonction d’activation de type tangente hyper- bolique. Le logiciel utilisé est Neuro One v6.12 de Netral (Issy les Moulineaux France, www.netral.com). L’architecture du réseau de neurones à été choisie selon les critères décrits dans la section précédente.

Parmi les différentes variables mesurées, celles qui ont été considérées a priori pour l’élaboration du modèle sont :

– La température de l’air

– L’ensoleillement (Rayonnement global, PAR) – L’humidité de l’air

– Le flux de chaleur sensible – Le flux de chaleur latente – Le flux de CO2

– L’intensité du vent

Afin de déterminer les variables d’entrée pertinentes pour la modélisation, plusieurs modèles ont été testés avec des combinaisons de variables d’entrée différentes. Un premier modèle a été créé avec comme entrées la température de l’air et le PAR. Ces deux para- mètres ayant un rôle prédominant d’après la littérature, ce premier modèle constitue une référence pour l’évaluation des autres modèles créés avec d’autres combinaisons d’entrées mais toujours le même jeu de données. L’objectif est de trouver le ou les paramètres qui permettront d’obtenir un modèle plus performant que le modèle de référence. Les autres modèles ont été créés en conservant ces deux entrées et en ajoutant une ou plusieurs entrées parmi les variables listées ci-dessus.

Les variables humidité de l’air et intensité du vent n’ont pas été retenues car elles ne présentent pas de corrélation apparente avec les flux d’isoprène et ne permettent pas d’améliorer la performance du modèle. Les flux de chaleur sensible présentent une corré- lation avec les flux d’isoprène mais sont aussi fortement corrélés avec la température et le PAR, c’est pourquoi l’ajout de ce paramètre n’apporte que peu d’information supplémen- taire au modèle et n’est donc pas nécessaire. Les flux de chaleur latente et de CO2 sont

respectivement fortement corrélés et anti-corrélés, pendant la journée, aux flux d’isoprène et l’ajout d’un de ces deux paramètres comme entrée au modèle améliore sensiblement ses performances. L’ajout simultané des deux paramètres n’apporte pas d’amélioration signi- ficative et dans un souci de limitation du nombre d’entrées du modèle pour faciliter son

utilisation, un seul paramètre a été retenu. Les performances du modèle étant augmentées de manière similaire avec l’utilisation du flux de chaleur latente ou du flux de CO2, des

critères physiques et biologiques ont été considérés pour le choix du paramètre à retenir. En effet, bien que le flux de CO2 soit lié à la capture de CO2 pour la photosynthèse ou à la

respiration et donc représentatif de l’activité de la plante, il s’agit d’un flux opposé au flux d’isoprène pendant la journée. Le flux de CO2 ne fait pas intervenir les mêmes processus

physiques puisqu’il s’agit d’une absorption. Il est aussi fortement anti-corrélé avec le PAR ce qui signifie qu’une partie de l’information apportée par l’utilisation du flux de CO2

diurne est redondante si le paramètre PAR est déjà utilisé comme entrée par le modèle. D’autre part, le flux de chaleur latente a pour principale origine l’évapo-transpiration des plantes dans des milieux secs et constitue donc une source de gaz trace (vapeur d’eau) pour l’atmosphère comme pour le flux d’isoprène. Dans le cas du CO2 comme dans le cas de la

chaleur latente, l’ouverture des stomates sur la surface des feuilles intervient de manière quasi-similaire. Le flux de chaleur latente est un paramètre directement disponible dans les modèle de surface tandis que le flux de CO2 fait intervenir un travail supplémentaire

de modélisation ce qui peut rendre l’implémentation de l’algorithme obtenu difficile dans un modèle de l’atmosphère.

Les variables d’entrées retenues pour le réseau de neurones pour ces travaux sont la température de l’air, le PAR et le flux de chaleur latente. Ce choix est lié au jeu de données d’observations utilisé pour l’apprentissage du réseau de neurones. D’autres liens entre le flux d’isoprène et les variables environnementales peuvent apparaître lors de l’utilisation d’un jeu de données plus important et il sera nécessaire d’étudier à nouveau la pertinence des paramètres d’entrée lors d’une nouvelle phase d’apprentissage avec un jeu de données étoffé. Une représentation schématique de l’architecture du réseau de neurones utilisé ici est donnée par la figure 7.2.

v1 :T (K) v2 : PAR (µmol m−2 s−1) v3 : LE (W m−2) Flux d’isoprène (µg m−2 s−1) neurones cachés Entrées neurone de sortie

Figure 7.2 – Schéma du réseau de neurones

Le choix du nombre de neurones cachés est déterminant pour éviter un surappren- tissage (ou overfitting) lorsque le nombre de neurones est trop grand ou à l’inverse une rigidité trop importante lorsque ce nombre est trop petit. Ici les meilleurs résultats ont été obtenus avec une couche comportant 3 neurones cachés. La règle de Vapnik–Chervenenkis (Vapnik, 1995) stipule que la dimension de l’ensemble d’apprentissage doit être 3 à 10 fois plus grande que le nombre de neurones cachés multiplié par le nombre de variables d’entrée. C’est le cas ici puisque le nombre d’entrées est de trois, de même pour le nombre de neurones cachés : 3 × 3 × 10 > 77 > 3 × 3 × 3.

Les données d’entrée sont normalisées selon l’équation 7.2 pour avoir le même ordre de grandeur. Cette étape évite une sous-estimation artificielle des variables exprimées dans

7.3. LA PARAMÉTRISATION DES FLUX D’ISOPRÈNE 131 un ordre de grandeur très petit par rapport aux autres variables.

v1,norm = x1+ x2 × v1

v2,norm = x3+ x4 × v2

v3,norm = x5+ x6 × v3 (7.2)

Le flux de chaleur latente est noté v1, la température de l’air v2 et le PAR v3. Les

coefficients de normalisation xi sont donnés dans le tableau 7.1.

Coefficients de normalisation x1 -1,61310775180151 x2 0,0223965181223205 x3 -76,2194732422344 x4 0,259066263123139 x5 -1,21103470958622 x6 0,00117051373138958

Table 7.1 – Coefficients de normalisation des entrées du réseau de neurones.

Lors de l’apprentissage, le nombre de modifications des valeurs des poids ou nombre d’époques est de 100. Dix initialisations de poids différentes ont été testées pour chaque modèle. Cette configuration (100 époques, 10 initialisations) a été testée plusieurs fois pour éviter une solution locale. Le modèle utilisé est statique puisque les données d’entrées ne sont pas dépendantes les unes des autres.

La sélection du meilleur modèle a été faite selon plusieurs critères. Le coût de générali- sation doit être minimum. La moyenne quadratique de l’erreur sur l’ensemble d’apprentis- sage et celle sur l’ensemble de validation doivent être minimum et identiques ou presque. La solution retenue présente un coefficient de détermination R2 de 0,91 sur l’ensemble

d’apprentissage, un coût d’apprentissage de 0,274, un coût de validation de 0,399, un coût de généralisation de 0,365, une corrélation de 0,956 et une homogénéité de 0,962.

L’algorithme retenu, présenté par l’équation 7.3 permet donc de calculer les flux d’iso- prène en µg m−2 s−1 à partir des données d’entrées.

F luxisoprène = w12+ 15

X

i=13

witanh(HOi−13) (7.3)

avec HOj tel que :

HO0 = w0+ 3 X i=1 wivi,norm HO1 = w4+ 7 X i=5 wivi−4,norm HO2 = w8+ 11 X i=9 wivi−8,norm

Poids w0 -0,339475845170435 w1 -0,17030614931277 w2 0,78774016659239 w3 -0,221062517378467 w4 0,149107679517926 w5 0,127188361453804 w6 -0,679557954940782 w7 0,0375815421865539 w8 -0,277928473684843 w9 -0,887464525551972 w10 0,55161300397208 w11 1,39089113876721 w12 0,107448496119554 w13 -7,06897360511618 w14 -9,24780459505085 w15 -1,29053058451672

Table 7.2 – Tableau des poids du réseau de neurones

Les poids wi sont donnés dans le tableau 7.2.

Une comparaison des flux mesurés par rapport au flux calculés par le réseau de neu- rones est représentée dans la figure 7.3. L’ensemble des 127 lignes du jeu de données sont présentées ici. F lu x d ’is o p r`e n e (µ g m − 2s − 1) Num´ero de donn´ee 0 20 40 60 80 100 120 −0.5 0 0.5 1 1.5 2 2.5 3 3.5 Flux mesur´es Flux calcul´es

Figure 7.3 – Flux d’isoprène mesurés et flux d’isoprène calculés par le réseau de neurones. Données de la campagne de mesure à l’OHP du 2 au 6 août 2010.

Cette figure illustre la capacité du réseau de neurone à reproduire les flux. On peut voir que les tendances sont bien respectées ainsi que les variations locales. D’autre part l’allure des courbes sur les lignes 90 à 110 montre que le modèle reste peu sensible au bruit présent sur les flux mesurés.

Une représentation en diagramme de dispersion est illustrée par la figure 7.4. Le co- efficient de détermination est R2 = 0,88 et souligne la performance du modèle sur les

données d’apprentissage et de validation. La pente de la droite de régression est légère- ment inférieure à 1, ce qui résulte du lissage par le modèle de certains pics observés sur

7.3. LA PARAMÉTRISATION DES FLUX D’ISOPRÈNE 133 les flux mesurés.

Flux d’isopr`ene mesur´es (µg m−2 s−1)

F lu x d ’i so p r`e n e ca lc u l´e s (µ g m − 2 s − 1 ) −0.5 0 0.5 1 1.5 2 2.5 3 3.5 −0.5 0 0.5 1 1.5 2 2.5 3 3.5 y = 0.15 + 0.89x R2 = 0.88

Figure 7.4 – Flux d’isoprène mesurés et flux d’isoprène calculés par le réseau de neurones. Données de la campagne de mesure à l’OHP du 2 au 6 août.

7.3.2 Généralisation de l’équation et comparaison avec l’algo-