• Aucun résultat trouvé

Détermination approximative de la fdp de la réponse du modèle (approche bayesienne)bayesienne)

Dans le document UNIVERSITE MONTPELLIER (Page 106-114)

TECHNIQUES STATISTIQUES POUR L'ANALYSE DES INCERTITUDES

IV.6. Détermination approximative de la fdp de la réponse du modèle (approche bayesienne)bayesienne)

L'approche bayesienne est fréquemment employée pour l'analyse les incertitudes liées à la modélisation hydrologique (voir fig. m.3). Quelques-uns de ses avantages et de ses inconvénients ont été décrits aux sections IV.4.2 etm.8.2 respectivement.

Dans l'ensemble des techniques qui utilisent cette approche on remarque la méthode GLUE (Generalised Likelihood Uncertainties Estimation .. Beven et Binley, 1992) et celles basées sur les concepts d'intégration par desméthodes de Monte Carlo par chaînes de Markov, comme celle de Metropolis Monte Carlo.

Les principes de la méthode GLUE ont été présentés dans divers travaux, par exemple, Beven et Binley (1992) et Gineste (1998). Dans ce mémoire quelques commentaires relatifs à cette méthode ont été donnés dans le chapitre

m.

La méthode de Metropolis Monte Carlo, basée sur des concepts fréquemment employés en physique, n'est pas très connue en hydrologie. Au cours des dernières années elle a cependant retenu l'attention de la littérature statistique bayesienne. En hydrologie Kuczera et Parent (1998) ont appliqué cette méthode pour analyser les incertitudes de trois modèles hydrologiques. Ses aspects conceptuels et statistiques sont présentés dans la section suivante.

IV.7. Méthode de Metropolis Monte Carlo IV7.1. Introduction

L'algorithme de Metropolis a été introduit par Metropolis et al. (1953) dans le contexte de la thermodynamique et de la physique statistique. Il est appliqué à différents types de problèmes d'optimisation qui considèrent un nombre assez grand de variables (Press et al., 1992), mais aussi à l'optimisation sur un ensemble continu et à la simulation (Robert, 1996).

Le processus d'optimisation basé sur l'algorithme de Metropolis est connu comme la "méthode du recuit simulé" (Robert, 1996)(annealing method, dans la littérature de langue anglaise). Il est adapté à la résolution des cas où la fonction à optimiser présente des extrêmes globaux (maximums, minimums) mélangés avec des extrêmes locaux.

Press et al. (1992) soulignent que la méthode est aussi employée en électronique, en particulier dans le dessin des circuits intégrés, où il est nécessaire de connecter une grande quantité d'éléments en minimisant les croisements entre les connections. Ce type de problème correspond à l'optimisation "combinatoire" ou stochastique (Robert, 1996), dans laquelle l'espace sur lequel la fonction est optimisée n'est pas simplement]' hyper espace constitué par la variation continue des N paramètres, mais un espace généré par les diverses combinaisons factorielles desN éléments. La configuration de l'espace ainsi généré concerne une très grande quantité de points et, pour cette raison, la fonction ne peut pas être explorée d'une manière exhaustive. La méthode s'applique sous une forme identique à l'optimisation d'espaces continus àN dimensions.

_ _ _ _C_h....;ap~i_te_I_V_:_T_ec_hn_iq~u_es_s_ta_t_is_ti_=qu_e_s~p_ou_r_l_'a_na_l.::....y_se_d_e_s_in_c_ert_i_tu_d_es 92

IV.7.2. Analogie thermodynamique de la méthode

L'algorithme de Metropolis s'appuie sur une analogie avec un procédé thermodynamique selon lequel les liquides en se congelant cristallisent ou, en métallurgie, les métaux en se refroidissant se transforment en recuit. A haute température les molécules d'un liquide se déplacent librement entre elles. Lorsque le liquide refroidit, la mobilité des molécules se perd. Si le processus de refroidissement du liquide est réalisé lentement, les atomes s'alignent entre eux et forment un cristal pur, complètement organisé ourobuste. Les atomes s'organisent dans toutes les directions, sur des distances qui dépassent d'un facteur de plusieurs milliards la taille individuelle de chaque atome. Ce cristal représente l'étatd'énergie minimum du système.

En résumé, si le système est refroidi lentement, la nature est capable d'obtenir la condition du minimum d'énergie. Par contre, si un métal liquide est refroidi rapidement, il n'atteint pas le stade de l'énergie minimum mais il s'arrête à un stade amorphe ou polycristallin, avec un niveau d'énergie supérieur au cas précédent.

C'est-à-dire que la caractéristique du matériau obtenu est liée au refroidissement lent du système, en laissant aux atomes un temps suffisamment long pour qu'ils se redistribuent tout en perdant leur mobilité. Ce processus est connu sous le nom de recuit ou de cristallisation et il permet d'atteindre l'énergie minimum.

Press et al. (1992) soulignent que même si l'analogie n'est pas exacte, la majorité des méthodes d'optimisation des fonctions représenteraient des méthodes de «refroidissement rapide» du système (en suivant une diminution continue de l'énergie, c'est-à-dire qu'elles n'admettent que des diminutions successives de la valeur de la fonction objectif, avec une tendance à chercher des fortes variations. Si la surface de la fonction objectif rencontre des extrêmes locaux et des minimums globaux, le processus classique de minimisation peut s'arrêter aux minimums locaux sans parvenir au minimum absolu. Par contre, l'algorithme d'organisation ou d'optimisation naturelle évite l'attraction trop intense des bassins liés à ses minima locaux.

L'algorithme de minimisation de l'énergie de la nature consiste à opérer avec des gradients positifs et négatifs d'énergie et c'est ainsi qu'il se différencie des méthodes classiques d'optimisation. En termes de probabilité, 1'algorithme d'optimisation naturel est représenté par ladistribution de probabilité de Boltzmann, donnée par

Prob(E) - exp(-E / kT) (IV.50)

Ereprésente un stade d'énergie du système etTsa température. L'équation (IV.50) indique qu'un système en équilibre thermique avec une température T a son énergie distribuée d'une manière probabiliste parmi tous les stades possibles de E. A basse température, il y a une chance, encore petite, que le système se trouve à un niveau d'énergie éloigné du minimum. Par conséquent, il existe une chance pour que le système abandonne le minimum local pour la recherche d'un minimum « plus global ». La quantité k de Boltzmann est une constante de la nature qui lie température et énergie.

_ _ _ _C_ha~p~it_e_IV_:T_e_chni_'q~u_e_s_sta_tl_·s_ti....::que_s~po_ur_l'_a_na....;ly'-s_e_de_s_in_c_e_rt_itu_d_e_s 93

D'après l'équation (IV. 50), le système peut parfois accepter de nouvelles valeurs d'énergie (ou de la fonction objectif) plus élevée que les valeurs antérieures. Cependant, lorsque la température diminue, la probabilité qu'un système parvienne à une valeur d'énergie significativement élevée s'amenuise.

IV7. 3. Optimisation stochastique selon la distribution de probabilité de Boltzmann Metropolis et al. (1953) ont été les premièrs à introduire ces principes dans les calculs numériques d'optimisation. Selon Robert (1996), leur article est à l'origine des méthodes de Monte Carlo par chaînes de Markov.

L'idée initiale a été de considérer le système comme un système thermodynamique qui change successivement de configuration, passant de l'énergie El à l'énergie E2 (El

---+

E2) avec une probabilitéPdonnée par :

P=Prob(El---+ E2)= exp[-(E2 - El)/kT] (IV.51) SiE2 < El, il résulte P > 1 ; donc, le changement de configuration du système est un fait certain, avec probabilitéP = 1. La figure IVA représente l'algorithme de Metropolis pour une valeur donnée de T, en admettantk=1 et en notant M

=

E2 - El. Elle indique la loi de variation de la probabilité de transition en fonction du gradient d'énergie qui détermine les changements successifs de configuration du système. On observe que l'acceptation d'un changement de configuration est proche de 1 lorsque M,positif, tend vers zéro. Inversement, lorsque les valeurs deM augmentent, l'acceptation d'un changement de configuration diminue.

Pour utiliser l'algorithme de Metropolis avec des systèmes non-thermodynamiques, il est nécessaire de définir les éléments suivants:

1) une description de toutes les configurations possibles du système (par exemple, une identification de l'intervalle des valeurs possibles des paramètres du système) ;

2) un générateur des changements aléatoires successifs dans la configuration du système;

3) une fonction objectifE (analogue à l'énergie) à minimiser;

4) une identification du paramètre de contrôle T (analogue à la température) et du degré de

«refroidissement» progressif du système (annealing schedule); c'est-à-dire qu'il faut défmir le nombre de changements de la configuration du système qui permet l'adoption d'une nouvelle valeur deT ainsi que l'incrément de cette valeur de T.

On note que l'algorithme de Metropolis ne spécifie pas comment les changements de la configuration doivent être réalisés; il indique seulement la probabilité avec laquelle un changement proposé doit être accepté en fonction du changement d'énergie. La manière dont les changements sont réalisés dépend de chaque variable et du modèle analysé.

_ _ _C_h_a~pl_'te_I_V_:_T_ec_hn_i~qu_e_s_sta_t_is_ti~qu_e_s~po_u_r_l'_ana----"ly_se_d_e_s_in_ce_rt_itu_de_s 94

\ y

\

\

\

\

\, 1

Probabilité d'échapperà l'attraction d'un minimum local de E donnée par l'expression:

y= p{exp(-6 E)}

6E< 0 6E=O 6E* 6E>O 6E

Figure IVA. Probabilités de changement de la configuration (ouprobabilité de transition)d'un système selon l'algorithme de Metropolis et al (1953).

IV7.4.Aspects statistiques de l'algorithme de Metropolis

Soit un système qui est soumis à des changements successifs de configuration, P(El,k) étant la probabilité de se trouver dans la configuration El au, pas k. Soit, aussi, P(EI ~E2) la probabilité par unité de changement (ouprobabilité de transition) de passer de El àE2. Donc, si les changements suivent un processus dechaîne de Markov il résulte

Prob(El,k+

1)

= P(El,t)+

+

2:

[P(E2 ~ El)· P(E2,k) - P(EI~E2)· P(El,k)]

E2

L'algorithme de Metropolis considère que:

(N.52)

avec

{

-LiE/kT

P(El

~

E2)=

~

M=E2-EI

(lVS3)

(N.54) L'équation (IV. 53) permet d'observer pour un E donné, des valeurs élevées de T générant des conditions d'acceptation proches de 1 (figure VIA), c'est-à-dire que le système accepte la majorité des changements de configuration proposés. Par contre, lorsque T diminue l'acceptation d'un changement est plus rigoureuse parce qu'il a une probabilité d'acceptation plus faible.

La probabilité de transition donnée par (IV. 53) est considérée invariante pendant les changements successifs (le système est considéré indépendant du temps ou «en équilibre»).

_ _ _ _Ch~a2..p_ite_IV_:_T_ec_hn_l~·q,-ue_s_sta_tis_tl--"'q~ue_s2..po_ur_l'_ana----=ly~s_e_de_s_in_c_ert_i_tu_d_es 95

Une condition suffisante pour assurer cela est la vérification de la condition appelée de «bilan détaillé» :

peEl~E2)· P(El,k)= P(E2 ~El)· P(E2,k) (IV. 55) En considérant que le système a une mémoire limitée, après un nombre de pas suffisamment grand on peut considérer que P(El,k)= peEl).

D'après (IV. 53) et (IV.55), il résulte:

1

peEl ~E2) _ P(E2) _ e-E2/kT

=

e-till/kT

P(E2 ~El) - peEl) - e-E1 /kT

Donc, si E2>El, on a :

peEl ~E2) e-(E2-El)/kT -till/kT

----=---'-

= =

e

P(E2 ~El)

et si E2~El :

peEl ~E2) 1 -till/kT

P(E2~ El) = e-(E2-EI)/kT = e

IV7.5. Méthode de Metropolis Monte Carlo

(IV. 56)

(IV. 57)

(IV. 58)

La méthode Metropolis Monte Carlo combine l'algorithme de Metropolis avec un générateur de nombres aléatoires. La méthode est du type d'acceptation et rejet (accept/reject method). Ce type de méthode est utilisé pour générer des nombres aléatoires selon une distribution de probabilités sur un intervalle dans lequel cette distribution ne peut pas être intégrée facilement (ou son expression analytique ne permet pas d'inversion).

La méthode constitue un cas particulier des techniques de simulation de Monte Carlo par Chaînes de Markov (MCMe). Ces techniques permettent de générer une distribution empirique conjointe de paramètres d'un modèle statistique. Les algorithmes d'estimation de Monte Carlo ont été introduits en statistique appliquée pour le traitement d'images par Geman et Geman (1984) et en modélisation par Gelfand et Smith (1990). Les aspects théoriques des techniques MCMC ont été présentés, entre autres, par Robert (1996).

Les algorithmes MCMC s'appuient sur la propriété d'ergodicité des chaînes de Markov. Cette propriété est le fait qu'une chaîne de Markov homogène positive converge vers une distribution spécifique. L'idée essentielle de ces techniques est de construire un algorithme stochastique récursif sur l'espace de paramètres du modèle de telle manière que les N dernières valeurs après d'une itérationm, constituent un échantillon de la distribution limite de

_ _ _ _C_ha~p_it_e_IV_:T_e_chn_iq.=..u_e_s_sta_t_is_ti...:;qu_e_s.=..p_our_l'_a_na_lY,-s_e_d_es_i_nc_e_rtI_°tu_d_e_s 96

la chaîne de Markov. Le fait de sélectionner les N dernières valeurs est associé àla nécessité

«d'équilibrer» ou de «recuire» le processus de génération (cet aspect est ci-après détaillé).

De cette manière on est sûr que les points générés suivent la loi de transition sélectionnée. Les méthodes MCMC sont construites de manière à ce que la distribution limite de la chaîne de Markov soit justement la loi «a posteriori» des paramètres P(~Q) (voir les équations III. 2, IV.14 et IV.28).

En considérant la notation précédente, la méthode de Metropolis Monte Carlo permet de générer une nouvelle configurationE2 à partir d'une configuration antérieureEl de manière à satisfaire la condition de bilan détaillé. En satisfaisant la condition de bilan détaillé la génération possède la propriété d'ergodicité, sauf pour T= O.

Le processus de calcul appliqué à un modèle hydrologique est le suivant:

1) sélection de lafonctionàoptimiser:

On adopte par exemple:

(IV. 59)

y;G représente les valeurs observées et y;C les valeurs calculées par le modèle donné par l'équation (IV .14) (dans le cas classique la variable«y» représente les débits,qt) ;

2) estimation d'une valeur initiale

el

du vecteur

e

des paramètres du modèle:

Ici l'objectif est d'obtenir un nouveau point e 2 =el +~e. Pour cela il faut générer une valeur et selon une loi de probabilité symétrique dite loi instrumentale, représentée en général par l'expression q(el

,et)

° Il existe différentes possibilités pour le choix de cette loi.

Le cas le plus simple consisteàconsidérer une loi uniforme pour chaque paramètre du modèle dans un intervalle qui encercle tout l'espace de variation de ses valeurs, c'est-à-dire que l'on choisit une valeur et uniforme sur l'intervalle donné par :

(IV.60) Cependant, de cette manière on ne prend pas en compte la corrélation entre les paramètres du modèle.

Pour en tenir compte, il faut générer une distribution multivariée. On rappelle ici que pour simuler des VA corrélées une possibilité est d'utiliser le théorème de décomposition spectral ou de Jordan (section IV.5.3). Ce théorème, basé sur le concept des composantes principales, permet d'obtenir un ensemble de variables stochastiques corrélées à partir des variables correspondantes non-corrélées (voir équations IVA3 et IV.45).

_ _ _ _C_h-"aP:....it_e_IV_:T_e_c_M_i....:;qu_e_s_sta_t_is_ti...,:q,-ue_s....:.p_o_ur_l_'a_na_ly:...s_e_d_es_l_·n_ce_rt_it_ud_e_s 97

Il existe deux solutions pratiques élémentaires: un échantillonnage uniforme (uniform sampling) ou un échantillonnage basé sur une distribution multinormale. Kuczera et Parent (1998) ont adopté cette deuxième possibilité, en utilisant une distribution symétrique multinormale donnée par :

N(e.,

S2

L),

e.

représente la valeur moyenne et

L

est la matrice de covariance de 8.

3) détermination du gradient d'énergie: détermination de M =Et - El;

4) analyse de la valeur de M : Il existe deux possibilités:

si: M-:;.O

on accepte 8t et on adopte 82 =8t si: M>0

on réalise une analyse avec la génération d'un nombre r~

U[

0,1] et

SI

p(e

t ) /

p(e] )

<r <1 ~ on refuse

et

et on adopte

e

2

= e]

(IV.61)

(IV.62)

Ce processus permet de générer un ensemble de valeurs du vecteur 8 dans l'intervalle 8] ::; 8 -:;. 82 qui suit une probabilité P(8) donnée par l'équation (IV. 53).

La chaîne de Markov des valeurs de 8 ainsi créée n'est plus homogène (Robert, 1996).

Hàjek (1988) a déterminé des conditions de convergence dans le cas d'espaces finis qui imposent des conditions sur la décroissance de la température. Dans la pratique il existe différents processus adoptés pour la diminution du paramètre d'échelle de l'algorithme, T.

Les autres types d'algorithmes MCMC, comme Metropolis-Hastings (Metropolis et al., 1953 ; Hastings, 1970) et Gibbs (Campbell et al., 1999), présentent quelques différences par rapport au processus cité. Par exemple, dans l'algorithme de Metropolis-Hasting, l'équation (IV.53) est modifiée de manière à ce que le processus accepte systématiquement les simulations qui permettent de trouver un « rapport de vraisemblance» supérieur à la valeur précédente. Ce rapport de vraisemblance est donné par l'expression p(~QYq(8I'8t).Robert

(1996) présente différentes typologies dans l'algorithme de Metropolis-Hastings: (i) échantillonnage indépendant, (ii) à marche aléatoire, qui est considéré dans le processus du recuit simulé présenté dans cette section et (iii) à sauts réversibles.

L'algorithme de Gibbs considère une probabilité d'acceptation égale à l, indépendante de la valeur de M (figure IV. 4).

_ _ _ _C_h_aP:....i_te_I_V_:_T_ec_hni_'q~u_es_s_ta_t_is_ti....:qu_e_s.:..p_our_l_'a_na_l..::..y_se_d_e_s_in_c_ert_l_'tu_d_e_s 98

IV7.6. «Thermalisation » du processus

Pour assurer l'indépendance de la condition initiale choisie, il est nécessaire de

«thermaliser» le processus jusqu'à l'équilibre, c'est-à-dire de vérifier peEl, k)

=

peEl). Le processus de therrnalisation est exponentiel, donné par exp(k /rjJ), rjJ étant le coefficient de corrélation de la simulation. Il existe trois méthodes pour vérifier la therrnalisation de la simulation (Press et al., 1992) :

a) segmentation ou "binning" : elle consiste à segmenter les résultats de la simulation et à vérifier les valeurs moyennes de chaque segment. Les segments initiaux qui présentent des écarts types sont refusés;

b) auto-corrélation : on détermine l'autocorrélation et les résultats initiaux des 10·rjJ premières simulations sont refusés;

c) démarrage avec des valeurs différentes de T (ou "hot and cold starts'') : si les simulations associées à plusieurs valeurs différentes de T convergent vers le même résultat, le système est équilibré.

Pour s'assurer que le processus de sélection de nouvelles configurations possède bien la propriété d'ergodicité, il est conseillé de réaliser une comparaison des résultats produits par des simulations multiples à partir de configurations initiales différentes.

Dans l'application de la méthode de Metropolis à la minimisation de l'itinéraire entreN points d'un plan, Press et al. (1992) conseillent d'adopter une valeur initiale de Tplusieurs fois supérieure aux variations en M estimées, pour réduire postérieurement cette valeur à chaque pas dans l'ordre de 10 % de la valeur initiale. Pour chaque valeur constante de T, les auteurs ont analysé 100· N configurations nouvelles du système. Le calcul s'arrête quand il n'est plus possible de réduire la valeur d'énergie E du système ou quand cette diminution n'est plus significative.

Dans le document UNIVERSITE MONTPELLIER (Page 106-114)