• Aucun résultat trouvé

L’algorithme Metropolis-Hastings

Dans le document MCMC adaptatifs à essais multiples (Page 48-53)

2.3 Monte Carlo par chaînes de Markov

2.3.1 L’algorithme Metropolis-Hastings

Un des algorithmes MCMC les plus utilisés et dont les propriétés sont le mieux connues est l’algorithme Metropolis-Hastings (MH). Il s’agit d’un algorithme basé sur le principe d’acceptation/rejet de candidats, à l’image de l’échantillonnage par rejet (algorithme2.3), mais en utilisant une chaîne de Markov. Comme pour toute chaîne de Markov, un nouvel état de la chaîne est généré à partir de l’état actuel. Pour ce faire, un candidat généré conditionnellement à l’état actuel est proposé comme nouvel état de la chaîne ; ensuite, le nouvel état de la chaîne est choisi selon une certaine probabilité entre cette proposition et l’état actuel. La procédure exacte est décrite à l’algorithme2.5. Pour un certain choix de probabilité d’acceptation et pour certaines conditions sur la distribution instrumentale générant les candidats, la chaîne de Markov produite sera ergodique à la distribution cible.

Définition 2.24 (Noyau Metropolis-Hastings) Soit Π, une distribution cible qui admet une

densité π par rapport à une mesure σ-finie µ et soit Q un noyau de transition de Markov admettant une densité q par rapport à µ, appelée la densité instrumentale, c.-à-d.,

On définit la probabilité d’acceptation Metropolis-Hastings selon l’expression α(y|x) = min  1,π(y)q(x|y) π(x)q(y|x)  . (2.20)

Un noyau Metropolis-Hastings prend alors la forme suivante P (B|x) =

Z

B

α(y|x)Q( dy|x) + r(x) ✶(x ∈ B),

et admet la (pseudo-) densité suivante

p(y|x) = α(y|x)q(y|x) + r(x)δx(y),

où δx(·) est la fonction de masse delta de Dirac en x et où r(x) est la probabilité de la chaîne de

demeurer en x, donnée par

r(x) = 1

Z X

α(y|x)Q( dy|x).

Algorithme 2.5 Algorithme Metropolis-Hastings (MH)

Données Densité cible π, densité instrumentale q et taille de l’échantillon Monte Carlo N.

Procédure 1. Initialisation. Valeur initiale de la chaîne x0. 2. Pour n = 0, . . . ,N − 1,

(a) Proposition. Générer la proposition

Y|Xn= xn∼ q(·|xn);

(b) Acceptation. Avec probabilité

α(y|xn) = min  1, π(y)q(xn|y) π(xn)q(y|xn)  ,

accepter la proposition (xn+1= y) ; sinon rejeter la

proposition (xn+1= xn.)

Sortie L’échantillon x0:N.

Dans l’étude des propriétés des chaînes de Markov, une des conditions qui est souvent utilisée afin de vérifier l’ergodicité est la condition d’équilibre (définition2.13.) En choisissant la probabilité d’acceptation Metropolis-Hastings (2.20), une condition suffisante à la condition d’équilibre est que la densité instrumentale soit positive sur le support de π.

Proposition 2.24 Soit P un noyau Metropolis-Hastings pour une densité π à support X = {x : π(x) > 0}. Alors, le noyau P satisfait la condition d’équilibre2.13dès que la densité instrumentale q est positive pour toute paire de points du support de π, c.-à-d.,

q(y|x) > 0, ∀ x,y ∈ X .

Démonstration. La preuve utilise la proposition 2.6 où la condition d’équilibre de la densité est suffisante. Soient x,y ∈ X , alors π(x),π(y) > 0 et, par hypothèse, q(y|x), q(x|y) > 0. La division par ces quantités est donc permise. Ainsi, pour x 6= y, on a δx(y) = 0 et on trouve directement

p(y|x)π(x) = [α(y|x)q(y|x) + r(x)δx(y)] π(x)

= α(y|x)q(y|x)π(x) = min  1,π(y)q(x|y) π(x)q(y|x)  q(y|x)π(x) = min {π(y)q(x|y), π(x)q(y|x)} ,

qui est exactement symétrique en (x,y), ce qui montre la condition d’équilibre. Puis, pour x = y, la condition d’équilibre est triviale,

p(y|x)π(x) = p(x|x)π(x) = p(x|y)π(y).

Afin de vérifier l’ergodicité d’une chaîne de Markov, la condition d’équilibre n’est pas suffisante à elle seule : le théorème2.7montre seulement que la chaîne de Markov admet π comme distribution stationnaire. En effet, la π-irréductibilité et l’apériodicité de la chaîne doivent également être démontrées (théorème2.10). En supposant que la densité instrumentale soit bornée par le bas pour des pas bornés, il est possible de vérifier ces propriétés pour un algorithme Metropolis-Hastings.

Proposition 2.25 (Robert et Casella, 2004, lemme 6.2.7) Soit P un noyau Metropolis-

Hastings pour une densité π à support X qui soit connecté. Supposons que π soit bornée par le haut et par le bas sur tout sous-ensemble compact de X et qu’il existe δ, ε > 0 tels que

q(y|x) > ε, ∀ ||x − y||2< δ,

alors le noyau P est π-irréductible et apériodique. De plus, tout ensemble compact non-nul est un petit ensemble.

La proposition suivante énonce un ensemble de conditions suffisantes à l’apériodicité d’une chaîne de Markov provenant d’un algorithme Metropolis-Hastings. On requiert la π-irréductibilité et une probabilité de rejet soit non-nulle sur le support de π.

Proposition 2.26 Soit P un noyau Metropolis-Hastings pour une distribution Π à support X

satisfaisant la condition deΠ-irréductilibité et tel que r(x) > 0 pour tout x ∈ X . Alors, le noyau P

est apériodique.

Démonstration. Supposons le contraire : il existe un m-cycle pour m > 2. On a donc (S0,S1, . . . , Sm) tous disjoints excepté S0 = Sm tel que, pour tout i, Π(Si) > 0 et P (Si+1|x) = 1, x ∈ Si. Par

hypothèse, on a

P(X1= X0) = r(X0) > 0.

Cependant, puisque les ensembles sont disjoints, le passage de X0 à S1 doit s’effectuer par une acceptation M.-H. vu que X06∈ S1. On trouve alors

P (S1|x) = P(X1 ∈ S1|X0= x) 6 1 − r(x) < 1, ce qui contredit P (S1|x) = 1.

Enfin, la proposition suivante établit un lien direct entre la récurrence et l’Harris-récurrence des noyaux Metropolis-Hastings. Ainsi, par le théorème2.11, on trouve que ces noyaux seront ergodiques pour toute distribution initiale dès que la condition d’équilibre, la π-irréductibilité et l’apériodicité sont vérifiées.

Proposition 2.27 (Tierney, 1994, corollaire 2) Soit P un noyau de transition Metropolis-

Hastings pour une certaine distribution stationnaire cible π. Si P est π-irréductible, alors P est Harris-récurrent.

2.3.1.1 L’algorithme Metropolis-Hastings indépendant

Lorsque la densité instrumentale est indépendante de l’état actuel de la chaîne, l’algorithme M.- H. est alors dit indépendant (IMH : Independent Metropolis-Hastings), parfois appelé l’algorithme Hastings. Dans ce cas, l’algorithme ressemble à la méthode Monte Carlo par acceptation/rejet où des propositions i.i.d. sont successivement ajoutées avec une certaine probabilité à l’échantillon. La

différence est dans le calcul de la probabilité d’acceptation et dans le fait qu’un rejet correspond plutôt à répéter l’état actuel dans l’échantillon.

Définition 2.25 (Noyau Metropolis-Hastings indépendant) Soit P un noyau Metropolis-

Hastings de densité instrumentale q. Si la densité instrumentale est indépendante de l’état actuel de la chaîne, c.-à-d., q(y|x) ≡ q(y), alors l’algorithme est dit indépendant. La probabilité d’acceptation M.-H. prend alors la forme suivante :

α(y|x) = min  1,π(y)q(x) π(x)q(y)  . (2.21)

Tout comme l’échantillonneur par rejet (algorithme2.3), le rapport des densités est au cœur de la validité de l’algorithme. En effet, lorsque la densité instrumentale peut envelopper la densité cible, alors l’algorithme sera uniformément ergodique.

Théorème 2.28 (Robert et Casella,2004, théorème 6.3.1 et lemme 6.3.2) Soit P un noyau

M.-H. indépendant de densité instrumentale q indépendante et de densité cible π ayant X comme support. S’il existe M < ∞ tel que

π(x) 6 M q(x), alors l’algorithme est uniformément ergodique avec

||Pn(·|x) − π||TV62 

1 −M1 n.

De plus, la probabilité d’acceptation M.-H.(2.21) sera supérieure ou égale à 1

M dès que la chaîne est stationnaire.

2.3.1.2 L’algorithme Metropolis-Hastings marche aléatoire

Un second cas particulier de l’algorithme Metropolis-Hastings est le cas marche aléatoire. Dans ce cas, la proposition est générée en perturbant l’état actuel x, c’est-à-dire en y ajoutant un pas ε venant d’une densité q indépendante de l’état actuel. Il est alors possible d’écrire y = x + ε, où ε ∼ q, et la distribution de y sachant x prend alors la forme suivante :

q(y|x) = q(ε) = q(y − x).

Le nouvel état, choisi entre y et x selon la probabilité d’acceptation M.-H., suit donc la densité suivante :

p(y|x) = q(y − x)α(y|x) + r(x)δx(y),

qui définit une marche aléatoire homogène.

Définition 2.26 (Noyau Metropolis-Hastings marche aléatoire) Soit P un noyau Metropolis-

Hastings de densité instrumentale q. Si la densité instrumentale est une marche aléatoire, c.-à-d., q(y|x) = q(y − x),

alors l’algorithme est dit du type marche aléatoire.

La proposition2.25peut s’appliquer d’une manière triviale aux algorithme M.-H. marche aléatoire. Si la densité instrumentale de la marche aléatoire est bornée par le bas dans une boule centrée à l’origine, c.-à-d., si

||z||2< δq(z) > ε

alors le noyau M.-H. résultant est π-irréductible et apériodique. En général ce type de condition est facilement vérifiée en choisissant une densité instrumentale relativement régulière. Par la condition

d’équilibre de l’algorithme, le noyau admet également π comme distribution stationnaire et le théorème2.10

implique l’ergodicité de la chaîne pour π-presque toute valeur initiale. 2.3.1.3 L’algorithme Metropolis

Un cas particulier de l’algorithme M.-H. marche aléatoire est l’algorithme Metropolis (RWM :

Random Walk Metropolis) (Metropolis et collab., 1953) où la densité instrumentale est supposée

symétrique, c.-à-d., q(y − x) = q(x − y). L’avantage de cette condition est la simplification de la probabilité d’acceptation au rapport des densités :

α(y|x) = min  1,π(y)q(x|y) π(x)q(y|x)  = min  1,π(y)q(x− y) π(x)q(y− x)  = min  1,π(y) π(x)  .

Contrairement à l’algorithme M.-H. indépendant, l’algorithme M.-H. marche aléatoire ne satisfait généralement pas à l’ergodicité uniforme. En effet,Mengersen et Tweedie(1996, théorème 3.1) montrent qu’un noyau Metropolis sur Rd n’est jamais uniformément ergodique, et ce, pour n’importe quelle

densité cible π. Par contre, la propriété d’ergodicité géométrique peut être vérifiée sous certaines conditions. Par exemple, ceci peut être fait en dimension d = 1 en supposant la log-concavité des ailes de la densité cible.

Définition 2.27 (Log-concavité des ailes) Soit π une densité à support X ⊆ Rd. S’il existe

0 < α < ∞ et 0 < M < ∞ tels que

log π(x) − log π(y) > α||y − x||2, ∀ ||x||2,||y||2 >M,

alors on dit que π a des ailes log-concaves.

Théorème 2.29 (Mengersen et Tweedie,1996, théorème 3.1) Soit π une densité symétrique

à support X ⊆ R et aux ailes log-concaves de constante α et soit un noyau Metropolis de densité instrumentale q symétrique et positive. Alors, la chaîne produite par le noyau Metropolis est V - géométriquement ergodique pour la fonction V (x) = exp(s|x|), où 0 < s < α.

Si π n’est pas symétrique, alors la même conclusion tient en supposant de plus que la densité instrumentale satisfait

q(z) 6 b· exp (−α|x|) ,

pour un certain0 < b < ∞.

La log-concavité des ailes de la densité cible assure des ailes à décroissance au moins exponentielle. Pour le cas général (en dimension d arbitraire), en plus d’une condition sur le rythme de décroissance des ailes, une ergodicité géométrique pourra être assurée en supposant la condition supplémentaire de contours réguliers qui exige, intuitivement, que la densité cible soit décroissante vers les grands ||x||2.

Théorème 2.30 (Jarner et Hansen, 2000, lemme 3.5) Soit P un noyau Metropolis pour une

densité cible π positive et continue et soit q une densité instrumentale telle que

q(y|x) = q(||y − x||2), (2.22)

|z| 6 δq(z) > ε. (2.23)

Supposons qu’il existe un petit ensemble C pour lequel P satisfait la dérive géométrique pour une certaine fonction V > 1 continue et que les conditions suivantes sont satisfaites ,

lim sup ||x||2→∞ P V (x) V (x) < 1, x∈Xsup P V (x) V (x) <∞. Alors, la chaîne est V -géométriquement ergodique à π.

Définition 2.28 (Ailes super-exponentielles) On dit qu’une densité π à support dans Rdadmet des ailes super-exponentielles si elle est positive et si elle admet des premières dérivées continues telles que lim ||x||2→∞ x ||x||2 · ∇ log π(x) = −∞.

Théorème 2.31 (Jarner et Hansen, 2000, théorème 4.1) Soit P un noyau Metropolis pour

une densité cible π aux ailes super-exponentielles et soit q une densité instrumentale satisfaisant

(2.22) et (2.23). Alors, la chaîne est V -géométriquement ergodique à π si et seulement si lim inf

||x||2→∞

Q(A(x)|x) > 0,

où A(x) = {y | π(y) > π(x)} est la région d’acceptation automatique. En particulier, une condition de dérive géométrique est satisfaite avec V ∝ π−1/2.

Définition 2.29 (Contours réguliers) On dit qu’une densité π à support dans Rd admet des

contours régulierssi elle est positive et si elle admet des premières dérivées continues telles que

lim sup ||x||2→∞ x ||x||2 · ∇π(x) ||∇π(x)||2 < 0.

Théorème 2.32 (Jarner et Hansen, 2000, théorème 4.3) Soit P un noyau Metropolis pour

une densité cible π aux ailes super-exponentielles et aux contours réguliers et soit q une densité instrumentale satisfaisant (2.22) et (2.23). Alors, la chaîne est V -géométriquement ergodique à π.

2.3.1.4 L’algorithme MALA

L’échantillonneur MALA (pour Metropolis-Adjusted Langevin Algorithm,Roberts et Tweedie,

1996a) est une version de l’algorithme Metropolis-Hastings de type marche aléatoire où l’incrément est biaisé dans la direction du gradient de π. Spécifiquement, la proposition est donnée par

Y|X = x ∼ Nd  x +σ 2 2 ∇ log π(x), σ 2I d  .

Une justification théorique de ce choix d’incrément est possible, mais elle requiert certains concepts théoriques hors de l’étendue de cette exposition. Intuitivement, modifier la marche aléatoire de sorte à favoriser des pas vers une densité cible plus élevée fait en sorte que les candidats proposés risquent d’être de meilleure qualité. Ainsi, l’exploration de l’espace X sera généralement plus efficace.

Il sera question à la section2.5de l’efficacité des algorithmes MCMC et on y verra que l’algorithme MALA est théoriquement plus efficace qu’un algorithme Metropolis.

Dans le document MCMC adaptatifs à essais multiples (Page 48-53)