Les chaines de Markov - Analyse de sensibilité globale et polynômes de chaos pour l'estimation

3.5.1 Echantillonnage de type Monte Carlo

Pour déterminer la densité de probabilité conjointe à posteriori des paramètres (et par conséquent leur densité de probabilité marginale conditionnée sur les observations), il faut échantillonner selon (3.8) (ou selon le cas (3.10)). Pour cela, on fait appel à l'échantillonnage Monte Carlo. Le principe consiste à parcourir l'espace des valeurs des paramètres de manière aléatoire et de ne conserver que les jeux de valeurs les plus probables. Le principal inconvénient de cette méthode est que l'échantillonnage se fait de manière équiprobable dans l'espace de variation des paramètres. Aussi, une partie importante de l'effort de calcul est consacrée à l'évaluation des régions peu probables de l'espace des paramètres ce qui n'est pas très efficace. Une autre alternative, proposée par Metropolis et al. (1953) consiste à adapter la recherche dans l'espace des paramètres de façon que les régions qui contiennent les jeux de paramètres les plus probables aient plus de chance d'être échantillonnées. La méthode de Metropolis-Hastings utilise une chaine de Markov pour parcourir l'espace des paramètres de telle sorte que l'échantillon final soit en accord avec la densité de probabilité cible. Dans ce type de simulations Monte Carlo, une séquence de valeurs dépendantes est générée suivant un processus itératif stochastique appelé une chaine de Markov. Parmi les méthodes basées sur les chaines de Markov, on trouve : l'algorithme de Gibbs et l'algorithme classique de Metropolis, introduit historiquement dans l'article de Metropolis (Metropolis et al., 1953) et modifié par (Hastings, 1970).

3.5.2 Algorithme de Gibbs

Le principe de cet algorithme repose sur une décomposition du problème générale (consistant à échantillonner suivant une certaine loi) en une série hiérarchique de problèmes élémentaires (générés suivant des lois conditionnelles). L’algorithme de Gibbs permet de générer T selon la probabilité conditionnelle ( / )p T d indirectement en utilisant, d’une manière hiérarchique les densités de probabilités conditionnelles p_i( /

T T

_i _i_i)) supposées connues. L’algorithme de Gibbs est le suivant :

1. Initialiser 0

0 0

1 ,..., _n

T T T

, i 0 et se donner it_max

2. Itération, poser i i 1 et générer

1 1 1 1 1 1 1 2 1 1 2 2 2 1 3 1 2 1 , ,..., , ,..., , ,..., i i i i n i i i i n i i i i n n m n p p p T T T T T T T T T T T T T T T 1 T T1 1 1 11 1 p 2 T T2 2 22 p n T TTm n m p

3. Tant que la convergence n’est pas atteinte ou que i it _max, retourner à 2

Après un nombre d’itérations suffisamment grand, le vecteur T obtenu peut donc être considéré comme étant une réalisation de la loi à posteriori. L’avantage de la méthode de Gibbs est qu’elle est simple à implémenter. Elle représente le meilleur choix quand on dispose des densités de probabilités conditionnelles. Malheureusement une telle information est très rare.

3.5.3 Algorithme de Metropolis-Hastings

Initialement développé en 1953 pour le traitement de problèmes de physique par Metropolis, et al, (1953), cet algorithme a ensuite été beaucoup utilisé en physique statistique pour simuler des systèmes complexes. Actuellement, dans la littérature statistique, cet algorithme est présenté comme une méthode permettant de fabriquer une chaîne de Markov.

Dans sa formulation initiale, c’est un algorithme facile à expliquer et à mettre en œuvre. L'idée de base repose sur une méthodologie d’acceptation et de rejet d’un jeu de

paramètres (appelé candidat) : un nouveau jeu de paramètres est généré à partir d’une densité de probabilité de proposition q qui dépend du jeu de paramètres retenu dans l’itération précédente. Ce candidat sera accepté ou rejeté selon une certaine probabilité. L'algorithme de Metropolis-Hastings peut être écrit comme suit:

1. Initialisation, 0

0 0

1 ,..., _n

T T T

, i 0 et se donner it_max

2. Itération, poser i i 1 et générer

i 1

T qq T TT Ti

(3.11) 3. Générer aléatoirement et uniformément un nombre

D

> @

0,1

4. Calculer la statistique suivante

1 1 1 ( ) min 1, ( ) i i i i i i p d q p d q T T T D T T T § · ¨ ¸ ¨ ¸ ¨ ¸ © ¹ (3.12) 5. Accepter le candidat

T

ⁱ avec la probabilité

D

D D

t *. Sinon refuser et poser

i i 1

T T

4. Tant que la convergence n’est pas atteinte ou que i it _max, retourner à 2

Si le nombre d’itérations est suffisamment important, la chaîne converge vers une densité de probabilité à posteriori stationnaire. L’algorithme Metropolis-Hastings nécessite le choix d’une densité de probabilité conditionnelle dite de transition ou de proposition. Cette densité de probabilité peut être choisie arbitrairement mais le choix d'une distribution qui ressemble le plus à la vraie distribution cible peut considérablement accélérer la convergence de l’algorithme. L'algorithme original de Metropolis qui a été introduit en 1953 est le cas particulier où la densité de probabilité de transition est symétrique

i i 1

i1 i

q T T q T T .

3.5.4 MCMC adaptatif

Le bon fonctionnement de l’algorithme de MCMC est fortement conditionné par le choix (calage) des différents paramètres de l’algorithme. En particulier, le choix de la densité de probabilité de transition est crucial pour parvenir à un mélange efficace dans les chaînes de Markov. Mais ce choix n'est à première vue pas évident. Différents algorithmes MCMC adaptatifs ont été développés pour résoudre ce problème en déterminant automatiquement

les paramètres de MCMC au cours des itérations (Gilks et al., 1996 ; Haario et al., 2001; Andrieu et Robert, 2001; Andrieu et Moulines, 2005 ; Atchade et Rosenthal, 2005).

Haario et al. (2001) ont proposé un algorithme adaptatif où la densité de probabilité de proposition est une gaussienne dont la matrice de covariance est mise à jour au cours des itérations. Une chaine de Markov est générée de telle sorte que

T

i NN

T

iii111,C

où :

0 0 0 1 0 , ,..., i , n n C C i i C s Cov T T HI i i d ° ® ! °¯ ^(3.13)

et i₀ l’itération à partir de laquelle l’adaptation commence. Lorsque i id ₀, une matrice de covariance initiale fixe C₀ est utilisée. s_n est un facteur d’échelle qui dépend de la dimension du problème. En pratique, Il a été démontré dans Gelman et al. (1996) que

2.4 n

n ^{assure un taux d’acceptation raisonnable si la densité de probabilité à posteriori}

est une gaussienne. Le facteur de régularisation

H

est utilisé pour empêcher la matrice de covariance de devenir singulière. Le processus d’adaptation de la matrice de covariance peut également s’effectuer après un certain nombre d’itérations sur des intervalles fixes ou aléatoires. Notons aussi que la densité de probabilité de proposition gaussienne q est symétrique ce qui simplifie l’équation (3.12).

D'autres améliorations de l'algorithme MCMC ont été proposées par d'autres auteurs. Afin d’augmentter le taux d’acceptation de l’étape 5 de l’algorithme de Metropolis-Hastings (adaptatif), Mira (2001) propose une étape supplémentaire appelée delayed rejection (DR). Le taux d’acceptation étant conditionné par le choix de la densité de transition, l’idée de DR est de se donner plusieurs densités de transition. Ensuite, lorsqu’un candidat est rejeté par la densité de transition principale, il est soumis à l’épreuve des autres densités avec un test approprié différent de (3.12). Si le candidat échoue aux différents tests alors il est rejeté. Notons que l’algorithme de Metropolis-Hastings adaptatif peut être employée pour mettre à jour les différentes densités de probabilité de transition (Haario et al., 2006 ; Laine, 2008). Une autre idée pour accélérer l’algorithme de MCMC est d’utiliser un émulateur à la place (ou en complément) du modèle original (Kennedy et O’Hagan2001 ; Bayarri et al., 2007 ; Higdon et al., 2008 ; Ma et Zabaras, Cui et al.,2011).

3.5.5 Diagnostics de convergence d’une chaine de Markov

Différentes méthodes ont été développées dans la littérature pour vérifier la convergence des MCMC vers une distribution à posteriori stationnaire. Les tests de convergence de Gelman et Rubin (1992) et de Raftery et Lewis (1992) sont les plus couramment utilisés

parmi les nombreux tests existants dans la littérature. Certains auteurs préconisent que la convergence peut être atteinte si la chaîne est suffisamment longue. Cependant, Gelman et Rubin, (1992) ont démontré qu’il est généralement impossible de contrôler la convergence en utilisant une seule séquence. La génération de plusieurs chaînes indépendantes en parallèle et démarrant de points initiaux différents permet de mieux explorer l’espace des paramètres et de vérifier la convergence.

Dans le document Analyse de sensibilité globale et polynômes de chaos pour l'estimation des paramètres : application aux transferts en milieu poreux (Page 94-98)