Algorithme : recuit simulé - Extrapolation spectrale des centroïdes

3.4 Extrapolation spectrale des centroïdes

3.4.4 Algorithme : recuit simulé

Nous souhaitons estimer au mieux les centroïdes. Une méthode largement utilisée pour l’ajustement numérique est la méthode du « recuit simulé », qui permet d’atteindre la solution en un minimum de temps. Cette méthode consiste, par simulations successives, à minimiser une

fonction objectif (cf. § 3.4.4.1) caractérisant la qualité d’ajustement avec le centroïde. Chaque

simulation est réalisée à partir d’un ensemble de paramètres définis aléatoirement par une loi

de proposition (cf. § 3.4.4.2). Il arrive lors de la convergence de l’algorithme qu’il tende vers

un minimum local de la fonction : la particularité du recuit simulé est la probabilité à échapper à ces minimums locaux sous une certaine condition (cf. § 3.4.4.3), pour atteindre, s’il est convenablement configuré, le minimum global de la fonction. On choisit généralement une configuration permettant une convergence rapide de l’algorithme permettant une bonne approximation du minimum global, même s’il n’est pas forcément atteint.

Afin de couvrir la variété des climats représentés par les centroïdes, nous réalisons trois types d’ajustements avec des modélisations d’éclairement énergétiques spectraux horizontaux sous trois types de vues : globaux, diffus et direct. Pour chaque centroïde, nous gardons la vue fournissant le meilleur ajustement.

3.4.4.1 Fonction objectif

La fonction objectif doit quantifier la qualité d’ajustement du centroïde par le modèle : nous utilisons la variance du résidu 𝑉_𝑟𝑒𝑠(𝐶_𝑞, 𝐶̂) entre le centroïde 𝐶_𝑞 _𝑞(𝜆) et son estimation 𝐶̂(𝜆). _𝑞 Afin de comparer au mieux ces spectres relatifs, nous les normalisons proportionnellement à leur intégrale pondérée :

𝑉_𝑟𝑒𝑠(𝐶_𝑞, 𝐶̂) = ∑ 𝜔_𝑞 _𝑞(𝜆_𝑙) ( ^𝐶^𝑞^(𝜆^𝑙⁾ ∑^𝒩𝜆𝑄𝜔_𝑞(𝜆_𝑙)𝐶_𝑞(𝜆_𝑙) 𝑙=1 − ^𝐶̂(𝜆^𝑞 _𝑙) ∑^𝒩𝜆𝑄𝜔_𝑞(𝜆_𝑙)𝐶̂(𝜆_𝑞 _𝑙) 𝑙=1 ) 2 𝒩_𝜆𝑄 𝑙=1 (3.4) (3.4.1) 𝜔_𝑞(𝜆_𝑙) est la pondération spectrale de la partition 𝑞 ∈ {ℕ; [1; 1175]}, sur le domaine 𝜆_𝑙 ∈ {ℕ; [1; 𝒩_𝜆𝑄]}, tenant compte de la distribution des spectres générateurs au sein de la partition 𝜎_𝐶𝑞(𝜆) (cf. équation (3.3.8)) et de leur incertitude spectrale moyenne 𝜎_𝑠𝑞(𝜆) (cf. équation (3.3.9)) :

163 𝜔_𝑞(𝜆_𝑙) = 1 (𝜎_𝐶𝑞2(𝜆_𝑙) + 𝜎_𝑠𝑞2(𝜆_𝑙)) ∑ ¹ (𝜎_𝐶𝑞2(𝜆_𝑙) + 𝜎_𝑠𝑞2(𝜆_𝑙)) 𝒩_𝜆𝑄 𝑙=1 (3.4.2)

La résolution optique spectrale de l’estimation 𝐶̂(𝜆) est dégradée au niveau des mesures 𝐶_𝑞 _𝑞(𝜆) par convolution du spectre SMARTS2 de 1 𝑛𝑚 de résolution vraie avec une gaussienne d’écart type 0,8 𝑛𝑚. De cette manière, les deux spectres ont la même résolution « optique » lors de leur comparaison.

3.4.4.2 Loi de proposition

L’ensemble des paramètres d’entrée de la 𝑗-ème modélisation est représenté par le vecteur 𝑋_𝑗. Chaque élément du vecteur représente une caractéristique physique pour la modélisation : sous SMARTS, nous utilisons 12 caractéristiques physiques dont les valeurs sont choisies aléatoirement sur des domaines bornées. Les bornes sont celles recommandées dans le guide d’utilisation de SMARTS2 [Gueymard 2005]. Par exemple, pour la colonne d’eau précipitable (quantité d'eau qui pourrait être obtenue si toute la vapeur d'eau contenue dans une colonne d'air était condensée et précipitée), la valeur minimale pour une atmosphère extrêmement sèche est 0 𝑔. 𝑐𝑚−2 et la valeur maximale est 12 𝑔. 𝑐𝑚−2. Le tableau suivant résume ces entrées, leur identifiant SMARTS2 (Card), et leur domaine de variation :

Card Caractéristique physique Domaine de variation

2a ^{SPR : pression atmosphérique au niveau}du site [𝑚𝑏] ^𝑋𝑚𝑖𝑛 = 970 ; 𝑋_𝑚𝑎𝑥 = 1030

3 TAIR : température atmosphérique [°𝐶] ^{Loi normale centrée sur TDAY d’écart}_{type 5°𝐶}

3 ^{RH : humidité relative au niveau du site}[%] ^𝑋𝑚𝑖𝑛 = 0 ; 𝑋_𝑚𝑎𝑥 = 100

3 SEASON : saisons Choix parmi : SUMMER ou WINTER

3 ^{TDAY : température atmosphérique}moyenne sur la journée [°𝐶] ^𝑋𝑚𝑖𝑛 = −15 ; 𝑋_𝑚𝑎𝑥 = 30

4a ^{IH2O : colonne d’eau précipitable}[𝑔. 𝑐𝑚−2] ^𝑋𝑚𝑖𝑛 = 0 ; 𝑋_𝑚𝑎𝑥 = 12

5a ^{IO3 : colonne d’ozone stratosphérique}[𝑎𝑡𝑚 − 𝑐𝑚] ^𝑋𝑚𝑖𝑛 = 0,1 ; 𝑋_𝑚𝑎𝑥 = 0,5

6a ^{ILOAD : importance de la pollution}

troposphérique

Choix parmi : PRISTINE, LIGHT, MODERATE ou SEVERE

8 AEROS : choix du modèle d’aérosol

Choix parmi : 4 S&F (RURAL, URBAN, MARIT, TROPO) et 3 SRA (CONTL, URBAN et MARIT)

9a VISI : visibilité horizontale [km] 𝑋_𝑚𝑖𝑛 = 0,77 ; 𝑋_𝑚𝑎𝑥 = 764

17a IMASS : air mass 𝑋_𝑚𝑖𝑛 = 1,0; 𝑋_𝑚𝑎𝑥 = 38,2

10 IALBDX=0 : albedo utilisateur

Coefficient de pondération de l’albédo de l’herbe.

𝑋_𝑚𝑖𝑛 = 0; 𝑋_𝑚𝑎𝑥 = 1

Table 3.4.1 : Résumé des 12 paramètres physiques d’entrée du modèle de transfert radiatif SMARTS2 2.9.5. La colonne de gauche représente les identifiants SMARTS2 pour la création du fichier « smarts295.inp.txt ». Colonne du milieu le nom du paramètre dans la documentation SMARTS2 [Guyemard 2005] et sa définition. La colonne de droite présente le domaine accessible à la caractéristique considérée.

3.4 Extrapolation spectrale des centroïdes

164

Le douzième paramètre est décrit en détail dans la partie sur l’influence de l’albédo (cf. § 3.4.5), afin de corriger une difficulté d’ajustement récurrente si seuls les 11 premiers paramètres sont utilisés.

La loi de proposition des vecteurs 𝑋_𝑗 suit un processus de Markov, c’est-à-dire que chaque nouvel ensemble 𝑋_𝑗+1 est déterminé à partir de l’état précédent 𝑋_𝑗 avec la probabilité conditionnelle 𝑃(𝑋_𝑗+1|𝑋_𝑗) de choisir 𝑋_𝑗+1 en fonction de 𝑋_𝑗. 𝑃(𝑋_𝑗+1|𝑋_𝑗) suit une loi normale centrée sur 𝑋_𝑗 et d’écart type ^∆𝑋₁₀ , où ∆𝑋 est le domaine de variation accessible aux paramètres physiques. L’écart type ^∆𝑋₁₀, a été choisi car il donnait de bons résultats pour la convergence du modèle. Le fait que 𝑋 soit borné implique que la probabilité conditionnelle n’est pas symétrique : si nous considérons 𝑋_𝑛 et 𝑋_𝑚 tel que 𝑋_𝑛 est plus proche d’une des limites de son domaine que 𝑋_𝑚 alors 𝑃(𝑋_𝑚|𝑋_𝑛) > 𝑃(𝑋_𝑛|𝑋_𝑚).

3.4.4.3 Algorithme et condition de Metropolis

L’algorithme suit le schéma suivant (Fig 3.4.4) : à l’itération 𝑗 + 1 de la boucle de « recuit simulé », la loi de proposition fournit, en fonction de 𝑋_𝑗, un ensemble de paramètres 𝑋_𝑗+1 pour la modélisation avec la probabilité 𝑃(𝑋_𝑗+1|𝑋_𝑗). Ensuite, le RTM SMARTS2 2.9.5 produit une estimation 𝐶̂ du centroide 𝐶_𝑞 _𝑞 à partir de 𝑋_𝑗+1. La fonction objectif calcule la nouvelle variance résiduelle 𝑉_𝑛𝑒𝑤. Cette nouvelle variance est comparée à l’ancienne 𝑉_𝑜𝑙𝑑 grâce à la condition de Metropolis notée ainsi :

𝑝 = 𝑒𝑥𝑝 (−^𝑉^𝑛𝑒𝑤^{− 𝑉}^𝑜𝑙𝑑

𝑇_𝑀 ⁾ ^(3.4.3)

Et autorise le passage de 𝑋_𝑗 à 𝑋_𝑗+1 avec la probabilité 𝑞 :

𝑉_𝑛𝑒𝑤 ≤ 𝑉_𝑜𝑙𝑑⇒ 𝑞 = 1 _(3.4.4)

𝑉_𝑛𝑒𝑤 > 𝑉_𝑜𝑙𝑑⇒ 𝑞 = 𝑝 − 1 _(3.4.5)

Cette condition fait passer systématiquement à la configuration minimisant la variance résiduelle. Elle autorise aussi parfois, de manière aléatoire, le passage à une configuration de plus grande variance. Cette condition permet à l’algorithme d’échapper aux minimums locaux. La probabilité de ce dernier passage dépend de l’écart de variance par rapport au paramètre 𝑇_𝑀 du modèle, appelé température pour des raisons historiques. A la fin de chaque itération la « température » 𝑇_𝑀 est réduite, ce qui fait tendre la probabilité d’acceptation des « mauvaises » configurations vers 0.

Ainsi, si la nouvelle configuration 𝑋_𝑗+1 est acceptée, alors nous affectons la valeur de la nouvelle variance à 𝑉_𝑜𝑙𝑑 et la nouvelle configuration à 𝑋_𝑗, puis nous recommençons une nouvelle itération.

165

Fig 3.4.4 : l’essentiel de l’algorithme de recuit simulé sous Matlab. La fonction retourne le meilleur ensemble de caractéristiques physiques 𝑋𝑗 pour l’ajustement du centroïde.

La limitation du nombre d’itérations de l’algorithme est généralement imposée soit par une température minimale seuil, ce qui est équivalent à un nombre d’itérations maximum, soit par une valeur seuil de la fonction objectif. Dans notre code, nous limitons le nombre d’itérations à 1500. La configuration présentée au début de l’algorithme dans la Fig 3.4.4 fournit des résultats très satisfaisants en un temps raisonnable.

Pour le système informatique suivant (Fig 3.4.5), le lancement de trois instances Matlab permet d’ajuster les 1175 centroïdes en 5 jours. L’ajustement étant itératif, il n’est pas parallèlisable, par contre il est aisément distribuable sur plusieurs instances de Matlab et sur plusieurs ordinateurs, ce qui peut considérablement diminuer le temps de calcul.

Fig 3.4.5 : caractéristiques du système informatique utilisé pour l’ajustement par recuit simulé.

Dans le document Mesure et Analyse Statistique Tout Temps du Spectre du Rayonnement Solaire (Page 163-166)