Étude d’algorithmes de simulation par chaînes de Markov non réversibles

(1)

(2)

(3)

Université de Montréal

Étude d’algorithmes de simulation par chaînes de

Markov non réversibles

par

Guillaume Huguet

Département de mathématiques et de statistique Faculté des arts et des sciences

Mémoire présenté à la Faculté des études supérieures et postdoctorales en vue de l’obtention du grade de

Maître ès sciences (M.Sc.) en statistique

octobre 2020

c

(4)

(5)

Sommaire

Les méthodes de Monte Carlo par chaînes de Markov (MCMC) utilisent généralement des chaînes de Markov réversibles. Jusqu’à récemment, une grande partie de la recherche théo-rique sur les chaînes de Markov concernait ce type de chaînes, notamment les théorèmes de Peskun (1973) et de Tierney (1998) qui permettent d’ordonner les variances asymptotiques de deux estimateurs issus de chaînes réversibles différentes.

Dans ce mémoire nous analysons des algorithmes simulants des chaînes qui ne respectent pas cette condition. Nous parlons alors de chaînes non réversibles. Expérimentalement, ces chaînes produisent souvent des estimateurs avec une variance asymptotique plus faible et/ou une convergence plus rapide. Nous présentons deux algorithmes, soit l’algorithme de marche aléatoire guidée (GRW) par Gustafson (1998) et l’algorithme de discrete bouncy particle sampler (DBPS) par Sherlock et Thiery (2017). Pour ces deux algorithmes, nous comparons expérimentalement la variance asymptotique d’un estimateur avec la variance asymptotique en utilisant l’algorithme de Metropolis-Hastings.

Récemment, un cadre théorique a été introduit par Andrieu et Livingstone (2019) pour ordonner les variances asymptotiques d’une certaine classe de chaînes non réversibles. Nous présentons leur analyse de GRW. De plus, nous montrons que le DBPS est inclus dans ce cadre théorique. Nous démontrons que la variance asymptotique d’un estimateur peut théoriquement diminuer en ajoutant des propositions à cet algorithme. Finalement, nous proposons deux modifications au DBPS.

Tout au long du mémoire, nous serons intéressés par des chaînes issues de propositions déterministes. Nous montrons comment construire l’algorithme du delayed rejection avec des fonctions déterministes et son équivalent dans le cadre de Andrieu et Livingstone (2019). Mots-clés : MCMC, non réversible, variance asymptotique, Peskun, processus déterministes par morceaux

(6)

(7)

Summary

Markov chain Monte Carlo (MCMC) methods commonly use chains that respect the detailed balance condition. These chains are called reversible. Most of the theory developed for MCMC evolves around those particular chains. Peskun (1973) and Tierney (1998) provided useful theorems on the ordering of the asymptotic variances for two estimators produced by two different reversible chains.

In this thesis, we are interested in non-reversible chains, which are chains that don’t respect the detailed balance condition. We present algorithms that simulate non-reversible chains, mainly the Guided Random Walk (GRW) by Gustafson (1998) and the Discrete Bouncy Particle Sampler (DBPS) by Sherlock and Thiery (2017). For both algorithms, we compare the asymptotic variance of estimators with the ones produced by the Metropolis-Hastings algorithm.

We present a recent theoretical framework introduced by Andrieu and Livingstone (2019) and their analysis of the GRW. We then show that the DBPS is part of this framework and present an analysis on the asymptotic variance of estimators. Their main theorem can provide an ordering of the asymptotic variances of two estimators resulting from non-reversible chains. We show that an estimator could have a lower asymptotic variance by adding propositions to the DBPS. We then present empirical results of a modified DBPS.

Through the thesis we will mostly be interested in chains that are produced by deter-ministic proposals. We show a general construction of the delayed rejection algorithm using deterministic proposals and one possible equivalent for non-reversible chains.

Keywords : MCMC, non-reversible, asymptotic variance, Peskun ordering, piecewise-deterministic Markov process

(8)

(9)

Table des matières

Sommaire . . . i

Summary . . . iii

Liste des tableaux . . . vii

Liste des figures . . . ix

Liste des abréviations . . . xi

Remerciements . . . xiii

Introduction . . . 1

Chapitre 1. Notions préliminaires . . . 5

1.1. Méthode de Monte Carlo . . . 5

1.2. Méthode de Monte Carlo par chaînes de Markov . . . 7

1.3. Définitions et notations . . . 12

Chapitre 2. Construction de chaînes de Markov réversibles . . . 15

2.1. Introduction aux chaînes réversibles . . . 15

2.2. Algorithme de Metropolis-Hastings . . . 17

2.3. Delayed rejection . . . 24

2.4. Dynamique de Langevin ajustée par Metropolis . . . 34

2.5. Le MALA comme un cas particulier de HMC . . . 35

(10)

3.1. Introduction à la méthode lifted . . . 40

3.2. Marche guidée . . . 41

3.3. Discrete bouncy particle sampler . . . 52

3.4. MALA non réversible . . . 69

3.5. Discussion . . . 71

Chapitre 4. Ordonner les variances asymptotiques . . . 73

Contributions . . . 74

4.1. Ordonner les variances asymptotiques : le cas réversible . . . 74

4.2. Ordonner les variances asymptotiques : le cas non réversible . . . 78

4.3. Construction de noyaux (µ,Q)-réversibles . . . 82

4.4. Noyau issu d’un algorithme lifted . . . 85

Chapitre 5. Modifications de DBPS . . . 93 5.1. Première modification . . . 94 5.2. Seconde modification . . . 96 5.3. Discussion . . . 100 Conclusion . . . 105 Annexe A. . . A-i

A.1. Implémentation en R . . . .A-iii

(11)

Liste des tableaux

1.1 Les mesures pour chaque algorithme . . . 14

3.1 Estimation de la variance asymptotique V (f,P ) pour S = 3 et = 0,05 . . . 42

3.2 Taux d’acceptation et rapport des variances asymptotiques V (f,PRW)/V (f,PDBP S) pour la première loi . . . 66

3.3 Taux d’acceptation et rapport des variances asymptotiques V (f,PRW_{)/V (f,P}DBP S₎

pour la seconde loi . . . 67

3.4 Taux d’acceptation et rapport des variances asymptotiques V (f,PRW)/V (f,PDBP S) pour la troisième loi . . . 68

5.1 Paramétrisation du DBPS pour Rρ. . . 99

5.2 Taux d’acceptation pour le DBPS et la quatrième loi . . . 99

5.3 Rapport des variances asymptotiques V (f,PRW)/V (f,PDBP S) pour la quatrième loi . . . 100

5.4 Rapport des variances asymptotiques V (f,Pψ,2Rρ)/V (f,Pψ,3Rρ) pour la quatrième

loi . . . 101

5.5 Paramétrisation du DBPS pour Pρ. . . 102

5.6 Rapport des variances asymptotiques V (f,PRW_{)/V (f,P}DBP S_{) pour la quatrième}

loi . . . 102

5.7 Rapport des variances asymptotiques V (f,Pψ,2Rρ)/V (f,Pψ,2Pρ) pour les

paramètres δ optimaux . . . 103

(12)

(13)

Liste des figures

1.1 Estimation de π/4 . . . 6

3.1 Méthode lifted sur le cercle . . . 40

3.2 Transitions sur le cercle avec S = 3 et = 0,05 . . . 42

3.3 lifted dans le cas de GRW. . . 43

3.4 500 itérations avec GRW et MH (44%), σins= 4,825 et la densité cible . . . 45

3.5 500 itérations avec GRW et MH (90%), σins= 0,5 et la densité cible . . . 46

3.6 Variances asymptotiques pour différents σ2 de la loi instrumentale . . . 47

3.7 Décomposition de l’algorithme GRW . . . 49

3.8 Illustration de 15 itérations avec DBPS (δ = 0,4 et κ = 0,2) et RW (acceptation de 44%) . . . 57

3.9 Décomposition en trois étapes de l’algorithme DBPS . . . 60

3.10 Paramétrisation de κ pour le DBPS (pour δ = 0,4) . . . 64

3.11 Actualisation (κ) optimal en fonction du pas de discrétisation (δ) . . . 65

5.1 Illustration de la première modification de DBPS . . . 95

5.2 Illustration de la seconde modification de DBPS . . . 97

A.1 Comparaison entre GRW et RW pour une impulsion u = −1 et zGRW = zRW ∼

(14)

(15)

Liste des abréviations

MCMC Monte Carlo par chaînes de Markov, de l’anglais Markov Chain Monte Carlo

HMC

Monte Carlo avec dynamique hamiltonienne, de l’anglais Hamiltonian

Monte Carlo

TCL Théorème Central Limite

LGN Loi des Grands Nombres

p.s. Presque sûr

i.i.d. Indépendantes et identiquement distribuées (variables aléatoires)

MH Metropolis-Hastings (algorithme)

RW Marche aléatoire, de l’anglais Random Walk (algorithme)

DR De l’anglais Delayed Rejection (algorithme)

GRW Marche aléatoire guidée, de l’anglais Guided Random Walk (algorithme)

PDMP

Processus de Markov déterministes par morceaux, de l’anglais

Piecewise-Deterministic Markov Processes

DBPS De l’anglais Discrete Bouncy Particle Sampler (algorithme)

(16)

(17)

Remerciements

Je souhaite remercier mes deux superviseurs, Florian Maire et François Perron, qui ont su me conseiller tout au long de la recherche et de la rédaction du mémoire. Ils m’ont accordé une grande confiance dès le début de notre travail. La recherche avec eux a été un vrai plaisir ; ils étaient toujours très curieux et prêts à partager sur des articles. Ils m’ont beaucoup poussé à lire sur des sujets différents pour pouvoir orienter la recherche de manière autonome. Je les remercie pour tout le temps qu’ils m’ont accordé, que ce soit lors des discussions théoriques ou lors de la relecture du mémoire. Je les remercie aussi pour leur financement. Finalement, une grande partie de la rédaction a eu lieu lors de la pandémie du coronavirus et je les remercie d’avoir su s’adapter à cette situation si particulière.

Je tiens aussi à remercier les professeurs et tous mes collègues du département qui ont rendu les deux années de maîtrise très agréables. J’aimerais aussi remercier le travail du personnel administratif et de l’équipe informatique qui m’ont grandement aidé dans mon cheminement.

Je tiens à souligner l’importance de ma famille tout au long de ma scolarité. Ma sœur et mon frère sont devenus mes modèles de persévérance. Je remercie mon père qui m’encourage constamment lors de mes études. Je souligne aussi l’importance de ma mère et de mon beau-père pour leur motivation, mais surtout pour les week-ends de camping passés avec eux. Ma mère, Cécilia, qui ne s’intéresse pas du tout aux mathématiques, a même corrigé mon mémoire ; elle me parle maintenant de Markov et des chaînes lifted. Je veux aussi tous les remercier pour la motivation qu’ils m’apportent pour continuer mes activités artistiques. Je souhaite remercier mes amis pour tous les bons moments passés ensemble soit à Magog ou à Montréal. Je veux particulièrement remercier Gabrielle, qui en plus d’être une superbe amie, a aidé à corriger le mémoire. Finalement, je remercie mes colocataires et amis qui ont rendu les mois de confinement beaucoup plus agréables!

(18)

(19)

Introduction

Dans plusieurs domaines comme la statistique bayésienne, la physique ou la recherche opéra-tionnelle, nous devons calculer une espérance (plus généralement une intégrale) qui n’admet pas forcément de solution analytique ou qui est trop coûteuse à calculer. Les méthodes de Monte Carlo par chaînes de Markov (MCMC) sont une famille d’algorithmes de simulation permettant d’estimer une espérance. L’idée générale de ces méthodes est de construire une chaîne de Markov, simulable par un ordinateur, qui converge vers la loi de la variable aléatoire dont nous voulons déterminer l’espérance. Finalement, l’intégrale est estimée en simulant cette chaîne et en prenant la moyenne échantillonnale des observations.

Les méthodes MCMC ont été développées au début des années 1950 et sont introduites dans l’article de Metropolis en 1953 [18]. Basé au Nouveau-Mexique, c’est ce même groupe de chercheurs qui avait auparavant introduit les méthodes de Monte Carlo. Ce groupe était principalement composé de physiciens qui travaillaient, entre autres, sur le développement de la bombe atomique. Dans les année 1970, Hastings va généraliser l’algorithme introduit par Metropolis et le répandre dans le domaine des statistiques. L’algorithme porte ensuite le nom des deux principaux contributeurs, soit l’algorithme de Metropolis-Hastings (MH). Peskun, l’élève de Hastings, fera plusieurs travaux théoriques au courant des années 1970. C’est seulement autour des années 1990 que cet algorithme est devenu plus populaire, notamment avec la parution de l’article de Gelfand et Smith [13]. L’engouement grandissant de cet algorithme vers la fin du vingtième siècle s’explique aussi par la venue d’ordinateurs plus performants. À titre d’exemple, en 1953, les simulations de Metropolis incluaient moins de 100 itérations pour un temps de calcul d’environ cinq heures. Nous suggérons le chapitre 2 du livre [8] pour de plus amples informations sur l’histoire des méthodes MCMC.

Pendant longtemps, les chaînes de Markov simulées en MCMC respectaient la condition de réversibilité. La plupart des MCMC (MALA, HMC, etc.) sont des variations de MH, qui

(20)

produit lui-même une chaîne réversible. Intuitivement, la réversibilité, qui est une propriété locale, garantie à la chaîne une certaine stabilité globale et en particulier l’existence d’une mesure invariante. Bien que l’idée d’utiliser des chaînes qui ne respectent pas cette condition ait été introduite en 1991 par Horowitz [17], celle-ci n’était pas très répandue. Depuis peu de temps, cette idée a gagné en popularité, notamment par l’introduction de processus déterministes par morceaux (PDMP) pour simuler des chaînes de Markov. Les PDMP ont été introduits par Davis en 1984 [11] dans le but d’optimiser des systèmes de files d’attente. L’utilisation des PDMP pour des méthodes MCMC est toutefois très récente, comme par exemple le bouncy particle sampler en 2018 [7] et l’algorithme du Zig-Zag en 2019 [5]. De façon expérimentale, ces chaînes, dites non réversibles, permettent souvent de réduire la variance asymptotique d’un estimateur et d’accélérer la convergence de la chaîne. La principale difficulté est l’aspect théorique ; il est généralement facile de montrer que ces chaînes admettent la bonne loi invariante, par contre l’analyse de la convergence et de la variance asymptotique est beaucoup plus difficile. Dans ce mémoire, nous présenterons un travail récent concernant la variance asymptotique avec l’utilisation d’une certaine classe de chaînes non réversibles.

Nous commençons le mémoire en introduisant l’idée générale de Monte Carlo et en fai-sant un bref rappel sur les chaînes de Markov, pour ensuite présenter les méthodes MCMC. L’objectif du deuxième chapitre est d’introduire les principaux algorithmes qui simulent des chaînes de Markov réversibles. Nous allons présenter, entre autres, l’algorithme de Metropolis-Hastings, l’échantillonnage de Gibbs et le delayed rejection. Dans ce chapitre, nous présentons aussi une façon très générale de construire un algorithme de delayed re-jection basé sur des fonctions déterministes. Au troisième chapitre, nous introduisons la méthode lifted qui peut être vue comme une méthode pour simuler un PDMP en doublant le support d’une variable aléatoire. Ensuite, nous présentons deux algorithmes qui simulent des chaînes non réversibles, soit la marche aléatoire guidée et le discrete bouncy particle sampler. Nous faisons la démonstration de l’invariance de ces chaînes, puis des comparai-sons expérimentales avec l’algorithme de Metropolis-Hastings. Au quatrième chapitre, nous présentons principalement le travail de Andrieu et Livingstone [2]. L’objectif de ce chapitre est d’énoncer des théorèmes permettant d’ordonner les variances asymptotiques de deux es-timateurs provenant de chaînes non réversibles. Nous présentons aussi un cadre particulier

(21)

de chaînes non réversibles et une façon générale de construire ce type de chaînes. Finale-ment, au cinquième chapitre, nous proposons deux modifications de l’algorithme du discrete bouncy particle sampler. Ces modifications sont justifiées de façon théorique et nous compa-rons ces nouveaux algorithmes avec la version originale. Nous justifions pourquoi l’une des modifications devrait être préférée à l’autre. Dans ce chapitre nous notons aussi que, par construction, ce type d’algorithmes restent dans un cadre proche du cadre réversible. Ces algorithmes utilisent des propositions déterministes, ils nécessitent donc une étape d’actua-lisation pour rendre la chaîne irréductible. Nous concluons en notant l’importance du type d’actualisation.

(22)

(23)

Chapitre 1

Notions préliminaires

Dans ce chapitre, nous introduisons la méthode de Monte Carlo dans sa forme la plus géné-rale. Nous présentons ensuite des résultats classiques sur les chaînes de Markov, puis nous présentons la méthode de Monte Carlo par chaînes de Markov (MCMC). Nous terminons ce chapitre par des définitions qui seront utiles pour la suite du mémoire.

1.1. Méthode de Monte Carlo

La méthode de Monte Carlo réfère à une famille de techniques qui utilisent la simulation d’un système aléatoire pour estimer une valeur numérique. Nous pouvons, par exemple, l’utiliser pour estimer la durée moyenne de service dans un problème de file d’attente en construisant un algorithme qui simule ce système. Dans le domaine des mathématiques et de la statistique (mais aussi en physique, chimie ou génie), nous rencontrons souvent des intégrales que nous devons résoudre de façon numérique. En général, ces intégrales peuvent s’exprimer sous forme d’espérance et être estimées par la méthode de Monte Carlo. C’est une méthode probabiliste, puisqu’elle nécessite de générer des variables aléatoires. Regardons un exemple classique pour expliquer cette méthode.

Exemple 1.1.1. Une façon d’estimer le nombre π/4 est d’estimer la probabilité qu’une variable aléatoire X ∼ U nif ([0,1] × [0,1]) soit de norme inférieure ou égale à un

PkXk ≤ 1 = EI(kXk ≤ 1) = Z Z

[0,1]×[0,1]

I(kxk ≤ 1)dx.

Par la méthode de Monte Carlo, nous pouvons estimer cette intégrale en deux étapes : (i) générer n variables indépendantes Xi ∼ U nif ([0,1] × [0,1]) pour i = 0, . . . , n − 1,

(24)

Fig. 1.1. Estimation de π/4

Pour n = 100 (gauche) et n = 2000 (droite) nous notons d’un point quand la variable X est de norme inférieure ou égale à un, sinon nous notons X par une croix.

(ii) l’estimateur de l’intégrale ˆIn est

ˆ In:= n−1 X i=0 I(kXik ≤ 1) n .

À la figure 1.1, nous illustrons cette estimation pour n = 100 ( ˆIn = 3/4) et n = 2000

( ˆIn= 3,11/4).

De façon générale, pour une variable aléatoire X ∈ X de mesure de probabilité π et une fonction f définie sur X à valeur dans R, le problème serait de calculer l’intégrale

Eπf (X) =

Z

X

f (x)π(dx), (1.1)

en supposant qu’elle existe. Comme pour l’exemple précédent, l’estimation de cette intégrale par Monte Carlo est en deux étapes :

(i) générer n variables indépendantes Xi selon la mesure de probabilité π ;

(ii) l’estimateur de l’intégrale est

¯ fn := n−1 X i=0 f (Xi) n .

(25)

L’estimateur de Monte Carlo est simplement la moyenne échantillonnale. Il est sans biais, comme les variables aléatoires Xi sont générées selon π. De plus, l’estimateur converge

vers l’espérance avec probabilité un. En effet, comme les variables sont indépendantes et identiquement distribuées (i.i.d.), par la loi des grands nombres nous savons que :

¯ fn

p.s.

−−−→

n→∞ Eπf (X)

où p.s. fait référence à la convergence presque sûre. Le point crucial pour pouvoir utiliser la méthode de Monte Carlo afin d’estimer _Eπf (X) est de pouvoir générer des variables

i.i.d. . Pour des problèmes en grandes dimensions et/ou en statistique bayésienne, il n’est pas toujours possible de générer un échantillon de variables i.i.d. selon π. La méthode de Monte Carlo par chaînes de Markov est une façon de contourner ce problème. Avant de la présenter, nous faisons un bref rappel sur les chaînes de Markov. La variable aléatoire X de mesure π sur (X, X ) sera toujours la variable d’intérêt dans le calcul de l’intégrale (1.1). Nous utilisons la variable Z et la mesure µ sur (E, E ) pour des définitions plus générales.

1.2. Méthode de Monte Carlo par chaînes de Markov

Nous commençons cette section par un rappel sur les chaînes de Markov et en énonçant trois théorèmes asymptotiques importants. Nous terminons la section en définissant la mé-thode MCMC. Les définitions de cette section sont tirées principalement de [19], [24] et [29].

Une chaîne de Markov {Zn, n ∈ N} est une suite de variables aléatoires définies sur un

même espace mesurable (E, E ). L’ensemble E est appelé l’espace des états d’une variable de la chaîne, cet ensemble peut être dénombrable (Z est une variable aléatoire discrète) ou non dénombrable (Z peut être une variable aléatoire continue). Cette chaîne respecte la propriété de Markov ; la distribution de la variable aléatoire Zn+1, conditionnellement aux

variables passées, dépend seulement de Zn :

PZn+1∈ A|Z1 = z1, . . . ,ZN = zn = PZn+1∈ A|Zn = zn

pour tout A ∈ E . (1.2)

Utiliser la notation z0 = Z0, . . . ,zn= Zn pour la loi conditionnelle est un léger abus de

nota-tion, il s’agit plutôt d’un élément de la tribu engendrée par les variables aléatoires Z0, . . . ,Zn.

Nous disons de la chaîne {Zn, n ∈ N} qu’elle est homogène si PZn+1 ∈ A|Zn = zn ne

(26)

Nous utilisons aussi un espace des états non dénombrable, mais tout ce que nous présentons se transpose aisément pour un espace dénombrable.

Nous parlons d’une transition quand la chaîne passe de l’état Znà l’état Zn+1. En utilisant

la probabilité (1.2), nous pouvons définir un noyau de transition P (zn, A) := PZn+1∈ A|zn

pour A ∈ E , ainsi Zn+1 ∼ P (zn, dzn+1). D’une façon similaire nous pouvons définir un noyau

de transition de m pas avec Pm_(z

n,A) := PZn+m∈ A|zn, alors la mesure de probabilité de

Zn+m est Pm(zn,dzm+n). Nous notons aussi Ez[Zn] comme étant l’espérance de la variable

aléatoire Zn sachant que la chaîne commence en z ; si Z0 ∼ $ (la distribution initiale),

nous notons _E$[Zn]. Nous suivons la même logique pour les opérateurs de variance et de

covariance.

Définition 1.2.1 (Noyau de transition). Un noyau de transition P défini sur un espace mesurable (E, E ) est une opération P : E × E → [0,1] telle que les trois conditions suivantes sont satisfaites :

(i) pour tout A ∈ E la fonction z 7→ P (z,A) est mesurable ;

(ii) pour tout z ∈ E, B 7→ P (z,B) est une mesure de probabilité sur (E, E ) ; (iii) P (z,E) = 1 pour tout z ∈ E.

De plus, le noyau de transition est dit sous-stochastique si P (z,E) ≤ 1 pour tout z ∈ E. La définition de chaîne de Markov étant assez générale, il est utile de les classer selon différentes caractéristiques. Pour l’usage de MCMC, nous sommes intéressés par des chaînes qui admettent une certaine mesure de probabilité invariante qu’il est possible de choisir arbitrairement. De plus, nous considérons des chaînes apériodiques, λ-irréductibles et Harris-récurrentes.

Définition 1.2.2 (Mesure invariante). Soit une chaîne de Markov {Zn, n ∈ N} sur l’espace

mesurable (E, E ) et P le noyau de transition qui lui est associé. Nous considérons la mesure de probabilité µ sur (E, E ). Si pour tout A ∈ E l’égalité

Z

E

µ(dz)P (z,A) = µ(A)

est respectée, alors {Zn, n ∈ N} admet µ comme mesure invariante. Par un léger abus de

langage, nous disons aussi que le noyau P est µ-invariant.

Intuitivement, lorsqu’un évènement est de mesure µ, alors les prochains évènements issus du noyau de transition P seront encore de mesure µ. Notons seulement qu’une chaîne

(27)

pourrait avoir plus d’une mesure de probabilité invariante. Pour la suite du mémoire, quand nous utilisons le terme « loi » ou « mesure », nous référons à une mesure de probabilité.

Définition 1.2.3 (Période d’une chaîne de Markov). Soit une chaîne de Markov {Zn, n ∈ N}

sur (E, E ) et P le noyau de transition qui lui est associé. S’il existe des sous-ensembles mesurables, disjoints et non-vides E0, . . . , Ed−1 ⊆ E tels que pour i = 0, . . . , d − 1 et pour

tout z ∈ Ei :

P (z,Ej) = 1 pour j = i + 1 mod d,

où d est le plus petit nombre naturel tel que cette condition soit respectée, alors (i) si d = 1 la chaîne est apériodique ;

(ii) si d ≥ 2 la chaîne est périodique de période d.

De façons intuitive, nous comptons le nombre de sous-ensembles à traverser avant de retourner dans le sous-ensemble initial, et ainsi compléter un cycle. Nous remarquons que s’il existe z ∈ E tel que P (z,{z}) > 0, alors la chaîne est apériodique.

Définition 1.2.4 (Chaîne de Markov λ-irréductible). Soit une chaîne de Markov {Zn, n ∈

N} sur (E, E ) et P le noyau de transition qui lui est associé. La chaîne est λ-irréductible s’il existe une mesure positive λ qui est σ-finie sur (E, E )(ici λ peut ne pas être une mesure de probabilité, par exemple la mesure de Lebesgue) telle que pour tout A ∈ E tel que λ(A) > 0 et pour tout z ∈ E, alors il existe un n ∈ N tel que Pn_{(z,A) > 0.}

Intuitivement, une chaîne est λ-irréductible si l’ensemble A ∈ E de mesure λ non nulle peut être atteint en un nombre fini de transitions à partir d’un point z ∈ E. De plus, si la chaîne est λ-irréductible et µ-invariante, alors µ est l’unique mesure invariante.

Définition 1.2.5 (Harris-récurrent). Un ensemble mesurable A ∈ E est Harris-récurrent si, pour ηA le nombre de fois où la chaîne visite A, nous avons PηA = ∞|Z0 = z = 1, pour

tout z ∈ A.

La chaîne est Harris-récurrente si elle est λ-irréductible et si tous les A ∈ E tels que λ(A) > 0 sont Harris-récurrents.

Dans ce mémoire, les algorithmes que nous présentons simulent généralement des chaînes Harris-récurrentes. La notion de Harris-récurrence est plus forte que la notion de récurrence. Un ensemble mesurable A ⊂ E est récurrent si_Ez[ηA] = ∞ pour tout z ∈ A. Une chaîne est

λ-récurrente si tous les sous-ensembles mesurables A ⊂ E tels que λ(A) > 0 sont récurrents. Nous remarquons aussi qu’une chaîne λ-irréductible est telle que _P[ηA= ∞] > 0 pour tous

(28)

les sous-ensembles A ⊂ E, tels que λ(A) > 0. C’est donc une notion plus faible que la notion de Harris-récurrence.

Définition 1.2.6 (Norme de variation totale). Pour deux mesures de probabilité µ1 et µ2

sur (E, E ), nous définissons la norme de variation totale comme

kµ1− µ2k := sup A∈E µ1(A) − µ2(A) .

Ayant introduit ces définitions, nous pouvons présenter trois théorèmes, soit le théorème ergodique, la loi des grands nombres (LGN) pour une chaîne de Markov et le théorème central limite (TCL) pour une chaîne de Markov. Les démonstrations détaillées sont présentées dans [19] (respectivement : 13.3.3, 17.1.7 et 17.3.6).

Théorème 1.2.7 (Théorème ergodique). Soit une chaîne de Markov {Zn, n ∈ N} sur (E, E)

apériodique, Harris-récurrente et admettant µ comme mesure invariante, alors pour n’importe quelle mesure initiale $(dz) sur (E, E )

Z $(dz)Pn(z,·) − µ −−−→ n→∞ 0.

Intuitivement, quand n tend vers l’infini, la mesure de Znsera très proche de la mesure µ.

Dans ce mémoire, la norme entre deux mesures est toujours la norme en variation totale. De plus, quand nous écrivons qu’une chaîne converge vers sa loi µ, nous référons à la convergence en variation totale.

Théorème 1.2.8 (LGN). Soit une chaîne de Markov {Zn, n ∈ N} sur (E, E)

Harris-récurrente et admettant µ comme mesure invariante, alors pour toute fonction mesurable f : E → R telle que Eµ|f | < ∞, 1 n n−1 X i=0 f (Zi) p.s. −−−→ n→∞ Z E f (z)µ(dz).

Théorème 1.2.9 (TCL). Soit une chaîne de Markov {Zn, n ∈ N} sur (E, E)

Harris-récurrente admettant µ comme mesure invariante et une fonction mesurable f : E → R. S’il existe une constante positive

V (f,P ) := lim

n→∞n Var

_¯ fn ,

alors, sous certaines conditions sur la fonction f et la convergence de la chaîne : 1 √ n ¯ fn− Eµ f (Z) D −−−→ n→∞ N 0, V (f,P )

(29)

où ¯fn correspond à ¯ fn:= 1 n n−1 X i=0 f (Zi).

La constante V (f,P ) est la variance asymptotique de l’estimateur.

Pour le théorème précédent, les conditions sur la fonction f et sur la convergence de la chaîne peuvent varier. Sans présenter les détails, nous en notons deux :

(i) ergodicité uniforme de la chaîne et _Eµ f2 < ∞ (théorème 23 de [29] et théorème

17.0.1 de [19]) ;

(ii) ergodicité géométrique de la chaîne et _Eµ

h

|f |2+δi < ∞ pour un δ > 0 (théorème 24 de [29]).

Dans l’optique de comparer les variances asymptotiques de deux estimateurs produits par deux chaînes différentes, nous utilisons la notation V (f,P ), où P est le noyau associé à une des chaînes. Les variables Xi n’étant pas indépendantes, la variance asymptotique dépend de

l’autocorrélation. En effet, sous certaines conditions (théorème 17.0.1 de [19]), nous pouvons écrire la variance asymptotique comme

V (f,P ) = Varµf (Z0) + 2 ∞

X

i=1

Covµf (Z0), f (Zi) .

À la suite de ces théorèmes, nous pouvons introduire l’idée générale des méthodes de Monte Carlo par chaînes de Markov. Rappelons que la première étape de la méthode de Monte Carlo est de générer un échantillon i.i.d. d’une certaine mesure π. Dépendamment de π, cette étape n’est pas toujours réalisable. Les méthodes MCMC offrent une alternative à cette première étape ; elles consistent en la simulation d’une chaîne de Markov ergodique admettant π comme mesure invariante et en l’utilisation de la LGN pour estimer une inté-grale. Dans ce mémoire, nous écrivons {X0, . . . ,Xn−1} comme étant les n premières variables

aléatoires produites par un algorithme qui simule une chaîne de Markov {Xn, n ∈ N}. Soit

une chaîne de Markov ergodique {Xn, n ∈ N} qui admet π comme mesure invariante ; nous

pouvons estimer_Eπf (X) en deux étapes :

(i) générer n variables {X0, . . . ,Xn−1} ;

(ii) l’estimateur de l’intégrale est

¯ fn= n−1 X i=0 f (Xi) n .

(30)

Par le théorème 1.2.8, l’estimateur ¯fn est convergent comme limn→∞f¯n = Eπf (X) avec

probabilité un. Par contre, c’est un estimateur biaisé ; effectivement, les variables de la chaîne ne sont pas de mesure π. Nous savons seulement qu’asymptotiquement, la mesure P (xn,dxn+1) est très proche de la mesure π.

Grâce à cette méthode, il y a moins de restrictions sur la mesure π qu’avec la méthode de Monte Carlo. En effet, il est généralement possible de simuler une chaîne de Markov qui respecte les hypothèses des trois théorèmes précédents, tandis qu’il n’est pas toujours possible de simuler des variables i.i.d. selon π. De plus, les algorithmes de simulation que nous présentons nécessitent seulement de connaître π à une constante près.

Une grande partie de la recherche en MCMC consiste à créer des algorithmes de simu-lation pour accélérer la convergence de la chaîne et/ou diminuer la variance asymptotique d’un estimateur. Pour diminuer la variance asymptotique, le but est en général de diminuer l’autocorrélation de la chaîne (théorème 1.2.9). Dans ce mémoire, nous présentons des al-gorithmes pour simuler une chaîne de Markov ayant une certaine mesure invariante. Nous analysons surtout la variance asymptotique d’un estimateur.

1.3. Définitions et notations

Dans cette courte section, nous notons qu’un noyau de Markov P peut aussi être vu comme un opérateur sur un espace de fonctions. Nous énonçons trois définitions pour des fonctions et nous définissons le terme « actualisation ». À la fin de cette section, nous pré-sentons un tableau récapitulant les différentes mesures invariantes associées aux algorithmes étudiés dans ce travail.

1.3.1. Noyau et opérateur

Soit un noyau de transition P et une mesure µ sur (E, E ) ; quand le noyau opère sur une mesure nous notons

µP (A) := Z

E

µ(dz)P (z,A), pour tout A ∈ E .

Nous notons l’ensemble des fonctions mesurables f : E → R par RE _{:= {f |f : (E, E) →}

(R, B(R))}, nous notons l’ensemble des fonctions dans RE absolument intégrables par L1_{(µ) := {f ∈ R}E _: R

f (z)µ(dz) < ∞} et L2(µ) := {f ∈ RE : R f2(z)µ(dz) < ∞} comme l’ensemble des fonctions dans RE _{dont le carré est intégrable. Nous notons aussi le}

(31)

produit scalaire hf,giµ = R f (z)g(z)µ(dz) et la norme kf k2_µ = R f (z)2µ(dz). Le noyau P

peut aussi opérer sur une fonction f ∈ L2_{(µ), il est alors un opérateur P : L}2_{(µ) → L}2_(µ)

sur l’espace de Hilbert (L2_(µ),h·,·i

µ) et nous notons

P f (z) := Z

f (z0)P (z,dz0). Nous notons P∗ l’opérateur adjoint de P dans (L2_(µ),h·,·i

µ). Il respecte hP f,giµ= hf,P∗giµ

pour f,g ∈ L2_{(µ). Si P = P}∗_{, l’opérateur P est un opérateur µ-auto-adjoint. En résumé,}

nous référons à P comme un noyau s’il agit sur l’espace mesurable (E, E ) (il caractérise une chaîne de Markov et peut agir sur une mesure) et comme un opérateur s’il agit sur l’espace de Hilbert (L2(µ),h·,·iµ) (il agit sur des fonctions dans L2(µ)).

1.3.2. Involution, isométrie et invariance

Nous exposons ensuite quelques définitions pour des fonctions. Soit une fonction bijective ϕ : E → E ; nous disons qu’elle est une involution si ϕ ◦ ϕ(z) = z pour tout z ∈ E. Nous disons qu’une bijection ϕ : E → E est une isométrie sur (L2(µ),h·,·iµ) si R f (z)g(z)µ(dz) =

R ϕ(f (z))ϕ(g(z))µ(dz), c’est-à-dire qu’elle conserve la métrique de l’espace. Soit µ une mesure sur (E, E ) et une fonction mesurable ϕ : E → E ; cette fonction est µ-invariante si µ(ϕ−1(A)) = µ(A) pour tout A ∈ E .

1.3.3. Actualisation

Considérons la chaîne {(Zn,Wn), n ∈ N} sur un espace augmenté. Nous référons à la

va-riable aléatoire Wncomme une variable auxiliaire. Nous allons utiliser le verbe « actualiser »

pour décrire l’action d’ajouter un effet aléatoire uniquement sur la variable auxiliaire. Par exemple, pour un état (Zn,Wn), nous pouvons actualiser l’état en lui ajoutant du bruit. Le

nouvel état pourrait être (Zn+1,Wn+1) = (Zn,Wn+ V ) où V ∼ N (0, Id) et d est la dimension

de Wn.

Finalement, au tableau 1.1, pour chaque algorithme, nous notons la mesure invariante qui lui est associée, le support de cette mesure et si elle est dominée par la mesure de Lebesgue. Évidemment, nous énoncerons clairement les hypothèses sur ces mesures quand nous présenterons un algorithme, mais ce tableau peut servir de référence pendant la lecture du mémoire. Notons tout de même que la mesure µ est la plus générale ; nous ne supposons jamais qu’elle soit dominée par la mesure de Lebesgue.

(32)

Tab. 1.1. Les mesures pour chaque algorithme

Algorithme Mesure Support Dominée

MH π(dx) X Lebesgue DR (involution) µ(dx) E MALA η(d(x,w)) = π(dx)ρ(dw) X × S Lebesgue GRW µ(d(x,u)) = (1/2)π(dx)δ{-1,1}(du) X × {−1,1} DBPS η(d(x,w)) = π(dx)ρ(dw) µ(d(x,w,u)) = (1/2)π(dx)ρ(dw)δ{-1,1}(dx) X × S X × S × {−1,1} Lebesgue

(33)

Chapitre 2

Construction de chaînes de Markov réversibles

Dans ce chapitre, nous présentons le principe de l’algorithme de Metropolis-Hastings, ainsi que deux cas particuliers. Ensuite, nous introduisons l’algorithme du delayed rejection dans le but de construire son équivalent déterministe. Finalement, nous présentons deux algorithmes basés sur une dynamique déterministe. Les chaînes traitées dans ce chapitre sont réversibles.

2.1. Introduction aux chaînes réversibles

Nous commençons cette section en définissant la notion de chaîne réversible.

Définition 2.1.1. Soit une chaîne de Markov {Xn, n ∈ N} sur un espace des états X, P

son noyau de transition sur (X, X ) et une mesure π(dx) sur (X, X ). La chaîne est dite π-réversible si pour tout x,y ∈ X

π(dx)P (x,dy) = π(dy)P (y,dx), (2.1)

qui est une égalité entre deux mesures sur l’espace produit (X × X, X ⊗ X ).

Remarque 2.1.2. Notons (L2(π),h·,·iπ) l’espace de Hilbert des fonctions dans L2(π) muni

du produit scalaire hf,giπ = R f (x)g(x)π(dx). Au noyau P qui est π-réversible (définition

2.1.1), correspond un opérateur auto-adjoint sur (L2_(π),h·,·i

π), c’est-à-dire que

(34)

Remarque 2.1.3. Une chaîne {Xn, n ∈ N} π-réversible admet π comme mesure invariante.

Remarquons que, pour A ∈ X , en intégrant (2.1) pour x ∈ A et y ∈ X

Z X Z A π(dx)P (x,dy) = Z X Z A π(dy)P (y,dx) Z A π(dx) Z X P (x,dy) = Z X π(dy) Z A P (y,dx) π(A) = Z X π(dy)P (y,A).

Ainsi, la définition précédente peut être très utile pour montrer que la chaîne {Xn, n ∈ N}

admet π comme mesure invariante.

Trouver un tel noyau peut sembler très difficile. Une façon de simplifier le problème est de lui supposer la forme suivante :

P (x,dy) = p(x,y)dy + r(x)δx(dy) (2.2)

= 1 − r(x)Rp(x,y)dy

Xp(x,y)dy

+ r(x)δx(dy),

où la fonction p(x,y) correspond à la dérivée de Radon-Nikodym de P (x,dy) par rapport à la mesure de Lebesgue et r(x) = 1 −R_Xp(x,y)dy à la probabilité que la chaîne reste en x. Cette forme correspond en fait à la décomposition de Lebesgue ; la mesure P (x,dy) est la somme d’une mesure absolument continue par rapport à la mesure de Lebesgue et d’une mesure discrète. Par la possibilité que r(x) > 0, alors l’intégrale de p(x,y) par rapport à y n’est pas forcément égale à un. Nous pouvons penser à p(x,dy) comme étant le mécanisme de transition de la chaîne. Pour qu’un tel noyau soit π-réversible, une condition suffisante est :

π(x)p(x,y) = π(y)p(y,x). (2.3)

Vérifions-le par la remarque 2.1.2. Soit f,g des fonctions mesurables et bornées :

hP f, giπ = Z Z f (y)g(x)P (x,dy)π(dx) = Z Z f (y)g(x)p(x,dy)π(dx) + Z f (x)g(x)r(x)π(dx) = Z Z f (y)g(x)p(y,dx)π(dy) + Z f (y)g(y)r(y)π(dy) = hf, P giπ,

(35)

où la deuxième égalité est obtenue en intégrant la mesure de Dirac et la troisième égalité est obtenue par la condition (2.3). Construire un algorithme tel que (2.3) soit respectée est plus simple que de construire un algorithme tel que la condition (2.1) soit respectée.

Les algorithmes présentés dans ce chapitre créent des chaînes de Markov réversibles par rapport à une loi cible (la loi selon laquelle nous désirons échantillonner). Les chaînes ont ainsi la bonne mesure invariante. Les noyaux associés à ces chaînes sont de la forme (2.2). Ces algorithmes sont composés de façon similaire et nécessitent :

(i) une loi cible (que nous pouvons connaître à une constante de normalisation près) ; (ii) un noyau instrumental Q pour générer un candidat à une transition de la chaîne ; (iii) une probabilité d’accepter ou non ce candidat.

Dans ce chapitre, nous supposons que la mesure cible π(dx) soit dominée par la mesure de Lebesgue sur (X, X ) et nous référons à π(x) comme sa densité. Dans les cas sans ambiguïté, nous référons à π comme étant la mesure ou la densité. Nous supposons aussi que le noyau instrumental Q : X × X → [0,1], défini pour tout x ∈ X, soit de la forme

Q(x,dy) = q(x,y)dy,

où q(x,·) est la densité de Q(x,·) par rapport à la mesure de Lebesgue. Nous référons à q(x,·) comme étant la loi instrumentale. En pratique, il faut être capable de simuler des variables aléatoires indépendantes de loi q(x,·) pour tout x ∈ X.

2.2. Algorithme de Metropolis-Hastings

Cette section est fortement basée sur les lectures de [8] et [10], mais aussi sur les articles [16], [29], [32] et [33]. Nous présentons une description non exhaustive de cette famille d’algorithmes.

Pour générer une chaîne de Markov qui a comme distribution invariante π, Metropolis propose en 1953 un algorithme qui sera généralisé par Hastings en 1970 [16]. Cet algorithme se base sur la condition de réversibilité (2.1), en trouvant un mécanisme de transition p(x,y) qui respecte (2.3). Supposons que nous voulions produire un échantillon qui ait comme mesure invariante une mesure cible π(dx). Nous connaissons aussi un noyau instrumental de transition Q : X × X → [0,1] de la forme

Q(x,dy) = q(x,y)dy , tel que Z

X

(36)

L’idée de l’algorithme de Metropolis-Hastings (MH, algorithme 1) est de construire une chaîne réversible par rapport à la loi cible. Nous commençons par choisir un point initial X0 ∈ {x : π(x) > 0}, soit de façon déterministe ou aléatoire. Pour respecter la condition

(2.3), l’objectif est qu’à l’équilibre la probabilité de générer et d’accepter une transition de X0 vers X1 soit la même que la probabilité d’une transition de X1 vers X0. Pour y parvenir,

un candidat Y est généré selon Q(X0, ·). Notons que Q pourrait très bien ne pas dépendre de

l’état actuel. Ce candidat est accepté avec probabilité α(X0,Y ) ; dans un tel cas nous posons

X1 = Y , sinon nous posons X1 = X0 et la chaîne reste sur place. Ainsi, pour l’algorithme de

Metropolis-Hastings, la mesure p(x,y)dy dans (2.2) (le mécanisme de transition) est définie par pM H(x,dy) = α(x,y)Q(x,dy).

Algorithme 1 : Metropolis-Hastings Résultat : {x0, x1, ..., xN −1}

Initialiser définir un point initial x0

pour i ← 0 à N − 2 faire générer y ∼ q(xi,·) et u ∼ Unif(0,1) si u ≤ α(xi,y) alors poser xi+1= y sinon poser xi+1= xi

Définir la fonction α est donc crucial pour que la condition de réversibilité (2.3) soit respectée. Supposons que nous acceptions tous les candidats proposés par Q. En général, Q ne respecte pas la condition de réversibilité (2.1). Par exemple, pour x0,y0 ∈ X et x0 6= y0,

nous pourrions observer :

π(x0)q(x0,y0) > π(y0)q(y0,x0). (2.4)

Par un léger abus de langage, dans ce cas il y aurait trop de transitions de x0 vers y0. Pour

avoir l’égalité entre les deux termes, l’objectif serait de diminuer les transitions de x0 vers

y0 et de favoriser les transitions de y0 vers x0. Pour ce faire, la probabilité α(x0,y0) < 1

est introduite. Elle correspond à la probabilité d’accepter une transition de x0 vers y0 et

(37)

α(x0,y0). La relation (2.4) devient

π(x0)α(x0,y0)q(x0,y0) = π(y0)α(y0,x0)q(y0,x0).

Nous voulons favoriser les transitions de y0 vers x0, comme α(y0,x0) est une probabilité, nous

posons α(y0,x0) = 1. La relation est alors

α(x0,y0)π(x0)q(x0,y0) = π(y0)q(y0,x0),

ainsi α(x0,y0) = π(y0)q(y0,x0)/π(x0)q(x0,y0). Si l’inégalité de la relation (2.4) était inversée,

alors α(x0,y0) = 1 et α(y0,x0) = π(x0)q(x0,y0)/π(y0)q(y0,x0). Nous avons donc trouvé α(x,y)

telle que pM H(x,y) respecte la condition (2.3). Le noyau associé à la chaîne produite par

l’algorithme de MH peut s’écrire comme

PM H(x,dy) = α(x,y)Q(x,dy) + r(x)δx(dy), (2.5)

où r(x) = 1 −R_Xα(x,y)Q(x,dy).

Proposition 2.2.1. Soit π(dx) une mesure dominée pas la mesure de Lebesgue sur (X, X ). En définissant α(x,y) =       

min1,π(y)q(y,x)_π(x)q(x,y) , si π(x)q(x,y) > 0

1 , si π(x)q(x,y) = 0,

alors la chaîne générée par le noyau PM H : X × X → [0,1] (2.5) admet π comme mesure invariante.

Démonstration. Notre démonstration est similaire à celle faite dans [10]. Il suffit de montrer qu’en définissant α de la sorte, alors pM H respecte la condition (2.3). Soit x,y ∈ X

tels que x 6= y et π(x)q(x,y) > 0. Si π(y)q(y,x) < π(x)q(x,y), alors α(y,x) = 1 et

π(x)pM H(x,y) = π(x)α(x,y)q(x,y) = π(x)q(x,y)

π(y)q(y,x)

π(x)q(x,y) = π(y)pM H(y,x). Pour π(y)q(y,x) > π(x)q(x,y) > 0, alors α(x,y) = 1 et

π(x)pM H(x,y) = π(x)q(x,y) = π(y)q(y,x)

π(x)q(x,y)

π(y)q(y,x) = π(y)pM H(y,x).

Si π(y)q(y,x) = 0 ou π(x)q(x,y) = 0, la condition est trivialement respectée. Comme pM H

respecte la condition (2.3), le noyau PM H _{est π-réversible, donc la chaîne formée par ce}

(38)

Remarque 2.2.2. Nous notons que le choix de la fonction α : X × X → [0,1] est arbitraire. En faisant la démonstration précédente, nous utilisons le fait que si 0 < α(x,y) < 1, alors α(y,x) = 1. Soit une fonction β : R+ → [0,1] telle que β(1/r) = (1/r)β(r) pour r > 0 et β(0) = 0 et

r(x,y) = π(y)q(y,x) π(x)q(x,y).

Nous remarquons que la fonction α(x,y) = β ◦ r(x,y), pour β(r) = min(1,r). D’autres choix de fonction β sont possibles, notamment la fonction β(r) = r/(1 + r), qui correspond à la probabilité d’acceptation de Barker (exemple 3.7, [2]).

Remarque 2.2.3. Le calcul de cette probabilité d’acceptation est l’un des plus grands avan-tages des méthodes MCMC. Comme il s’agit d’un rapport entre les deux densités, la constante de normalisation

Z = Z

X

π(dx)

n’a pas à être calculée. C’est un grand avantage, car pour plusieurs problèmes en grandes dimensions, cette constante n’est pas toujours calculable de façon analytique. Ou encore, en statistique bayésienne, pour un paramètre d’intérêt θ ∈ Rd _{ayant comme densité a priori}

π(θ) et une fonction de vraisemblance L(θ|x) étant donné des observations x, nous voulons échantillonner selon

π(θ|x) ∝ π(θ)L(θ|x).

La constante de normalisation ne peut pas forcément être calculée.

Nous présentons ensuite deux cas particuliers de cet algorithme, soit l’algorithme du Random Walk (RW) ou marche aléatoire et l’échantillonnage de Gibbs.

2.2.1. Algorithme RW

Cet algorithme est la façon la plus simple d’implémenter MH. Sa particularité est dans le choix du noyau instrumental Q. Le candidat est généré en ajoutant un bruit symétrique en zéro à l’état actuel de l’algorithme Xn, par exemple Y ∼ N (Xn,σ2Id). Lors des simulations,

c’est la proposition que nous choisirons. Bien sûr il en existe d’autres, notamment la ma-trice de variance-covariance pourrait être d’une autre forme. Ce type de proposition est dit symétrique, car q(x,y) = q(y,x) et la probabilité d’acceptation peut être simplifiée comme

α(x,y) = min 1,π(y) π(x) .

(39)

Dans ce cas, les propositions avec une plus grande masse de probabilité sont toujours ac-ceptées. Le choix de la loi instrumentale étant fait, il faut choisir le paramètre σ2_{. Notons}

que pour une valeur de σ2 trop petite, les propositions seront toujours très proches de l’état actuel et π(y)/π(xn) sera près de un, alors la chaîne aura l’allure typique d’une marche

aléatoire. La chaîne explore donc lentement l’espace des états. Imaginons une loi cible avec deux modes ; il pourrait être très rare de passer d’un mode à l’autre. De plus, la variance asymptotique d’un certain estimateur pourrait être grande, comme l’autocorrelation de la chaîne serait grande. Pour un σ2 trop grand, les candidats proposés peuvent avoir une masse de probabilité très différente de π(xn) et π(y)/π(xn) sera plus souvent près de zéro. Les

candidats seront éloignés de l’état actuel, mais moins souvent acceptés. Comme la chaîne reste souvent sur place, l’autocorrelation augmente, tout comme la variance asymptotique d’un estimateur. Un critère d’optimalité pour σ2 _{est trouvé dans l’article [28]. Ce critère}

est trouvé pour une loi cible en d dimensions où les d composantes sont indépendantes et identiquement distribuées et où les propositions sont de la forme Y ∼ N (Xn,σ2Id). En

fai-sant tendre d vers l’infini et en considérant le processus de diffusion de chaque coordonnée, les auteurs trouvent que le σ2 optimal est celui tel que le taux d’acceptation asymptotique est de 0,234. En une dimension, le taux optimal est de 0,44 ([30]). Ce critère est optimal en termes de convergence et de variance asymptotique (section 4.2.2 [8]). En pratique, les hypothèses faites pour trouver le critère optimal ne sont pas respectées, mais ce critère est tout de même un point de référence pour choisir le paramètre σ2_.

2.2.2. Échantillonnage de Gibbs

Nous présentons la méthode de Gibbs dans la section des chaînes réversibles, bien qu’en général la chaîne produite par cet algorithme ne soit pas réversible. Le noyau associé à cette chaîne est la composition de noyaux réversibles. Cet algorithme est devenu populaire en 1990 après la parution d’un article de Gelfand et Smith ([13]). Comme pour le RW, la particularité de cet algorithme est dans le choix de la loi instrumentale. Pour une loi cible en d dimensions, la proposition est de rééchantillonner une ou un bloc de coordonnées suivant la loi cible conditionnelle et de laisser les autres coordonnées fixes. Comme nous allons le voir, une des spécificités de cette loi instrumentale est que les propositions qu’elle génère sont toujours acceptées. Nous devons séparer l’état de la chaîne en deux parties x = (xa,xs). Soit

(40)

xala partie qui est rééchantillonnée conditionnellement à xs. La proposition est Y = (Xa∗,xs)

où X_a∗ ∼ π(·|xs). Vérifions que cette proposition est toujours acceptée :

α(x,y) = π(y)q(y,x) π(x)q(x,y) = π(x∗_a,xs)π(xa|xs) π(xa,xs)π(x∗a|xs) = π(x ∗ a,xs)π(xs)π(xa,xs) π(xa,xs)π(xs)π(x∗a,xs) = 1.

Le noyau Pjcorrespond à l’opération de rééchantillonner la coordonnée ou le bloc j. Ce noyau

à la forme (2.5). Il est donc π-réversible et garde la mesure π invariante. Pour échantillonner la variable X, il faut alors combiner les noyaux P1P2· · · PB, pour B coordonnées ou B blocs.

Cette combinaison est invariante pour la mesure cible π, par contre elle n’est généralement pas π-réversible. La chaîne, dont le noyau de transition est P1P2· · · PB, est π-réversible si la

probabilité de transition associée à P1P2· · · PB est la même que PBPB−1· · · P1, auquel cas

la combinaison est dite palindromique (section 1.12.7.2 , [8]). Les noyaux peuvent aussi être choisis de façon aléatoire. Par exemple, ils peuvent être choisis de manière uniforme ; ce qui crée le mélange de noyaux

B

X

i=1

1 BPi. Il est facile de montrer que ce mélange est π-réversible.

L’algorithme peut paraître encore plus simple que Metropolis-Hastings, puisqu’il n’y a pas de choix de générateur de proposition à faire. Cependant, il faut être capable de simuler une variable aléatoire selon la loi conditionnelle π(·|xs). De plus, il faut décider si nous

procédons par bloc ou une variable à la fois. Il faut aussi choisir l’ordre dans lequel les coordonnées ou les blocs sont échantillonnés, soit de façon séquentielle ou aléatoire. Notons que ces choix ne reposent sur aucun fondement théorique ([8], [1]). De plus, la convergence peut être très lente. Cette méthode est particulièrement populaire en statistique bayésienne pour échantillonner une densité a posteriori. Elle est à la base des logiciels BUGS et JAGS et, dans les deux cas, les lettres GS sont l’acronyme de Gibbs Sampler.

Nous terminons cette section par des remarques générales concernant l’algorithme de Metropolis-Hastings.

Remarque 2.2.4. En pratique, le point initial de l’algorithme peut être choisi de façon aléatoire ou déterministe. Par exemple, si le mode de la densité est connu, il constituerait un bon point initial. En statistique bayésienne, pour simuler selon π(θ|x), le point initial est généralement simulé selon la loi a priori, θ0 ∼ π(θ). Concernant la loi instrumentale,

(41)

avec probabilité 1 − α(x,y) = 1. Il n’est donc pas nécessaire de restreindre les propositions au support de la loi invariante.

Remarque 2.2.5. Ces algorithmes nous assurent que la chaîne {Xn; n ∈ N} ait π comme

mesure invariante. Par contre, il faut vérifier les conditions d’ergodicité pour utiliser le théo-rème de convergence de la chaîne 1.2.7. Pour que la chaîne soit apériodique, une condition suffisante est que pour A ∈ X tel quel π(A) > 0

Px,{x} > 0 pour tout x ∈ A.

Cette condition est généralement respectée, puisqu’à chaque étape la chaîne reste à l’état x avec probabilité 1 −R α(x,y)Q(x,dy) (pour RW, si R α(x,y)Q(x,dy) = 1 presque partout, alors π(y) > π(x) presque partout, ce qui est absurde). Il faut ensuite vérifier que la chaîne soit λ-irréductible, c’est le cas si

q(x,y) > 0 , pour tous (x,y) ∈ X × X.

Alors n’importe quel élément de A tel que λ(A) > 0 (par nos suppositions λ pourrait être la mesure de Lebesgue) peut être atteint en une transition. La chaîne de MH est Harris récurrente si elle est irréductible (lemme 7.3 [27]). Pour davantage d’informations sur la convergence de cet algorithme, nous référons le lecteur à la section 7.3.2 de [27] et à l’article [29].

Remarque 2.2.6. L’heuristique du burn-in consiste à supprimer les n1 premières

obser-vations de la chaîne produite par l’algorithme. Ces n1 observations servent de période de

« réchauffement ». Comme les résultats de convergence sont des résultats asymptotiques, les estimateurs par MCMC sont biaisés. L’idée est que la norme de variation totale

Pn(x,A) − π(A) = sup

A

Pn(x,A) − π(A)

est non croissante en n (proposition 13.3.2 [19]), alors le fait de supprimer les n1 premières

observations devrait diminuer le biais. Notons que cette technique ne fait pas l’unanimité. En effet, plusieurs auteurs, comme ceux de [8], déconseillent cette technique comme le TLC et la LGN tiennent pour toutes distributions initiales dans le cas d’un noyau Harris récurrent (proposition 17.1.6 [19]).

Notons aussi que la variance et la convergence sont fortement influencées par le choix du générateur de candidats. Avec cet algorithme, le générateur ne tient pas compte de la

(42)

géométrie de la loi. Nous verrons une méthode qui essaie de l’utiliser. Une fois le générateur de candidats choisi, il faut aussi déterminer les paramètres de cette loi, qui sont encore des choix d’une grande importance. Par exemple comme pour le RW, si la proposition est trop éloignée de l’état courant, alors α(xn,y) sera plus souvent faible, donc la proposition sera

peu souvent acceptée. Dans un cas où la proposition est très près de Xn, alors α(xn,y) sera

plus élevée, mais les états seront similaires.

2.3. Delayed rejection

Dans cette section, nous présentons l’algorithme du Delayed Rejection (DR) introduit par Tierney et Mira [34] et la construction de DR avec des propositions déterministes.

Avec l’algorithme de MH, quand une proposition est rejetée, la chaîne reste sur place, alors l’état suivant est le même que l’état actuel. L’objectif de DR est de diminuer la fréquence des évènements où la chaîne reste fixe. Intuitivement, plus la chaîne reste en place, moins nous explorons l’espace des états. De plus, l’autocorrélation de la chaîne augmente, ce qui fait aussi augmenter la variance asymptotique. Nous verrons dans un prochain chapitre que cette intuition est confirmée par les théorèmes de Peskun (4.1.1) et Tierney (4.1.2). Pour pallier à ce problème, l’idée derrière le DR est de faire plus d’une proposition par itération. Par exemple, si la première proposition est rejetée, alors une nouvelle transition est proposée. Si celle-ci est aussi rejetée, soit une nouvelle transition est proposée, soit la chaîne reste sur place (et ainsi de suite). Une façon de faire pour que la chaîne ait la bonne mesure invariante est qu’à chaque étape, la probabilité d’acceptation soit telle que la condition de réversibilité (2.3) est respectée. Nous présentons l’algorithme du DR (algorithme 2) pour n propositions par itération.

Soit une loi cible π sur (X, X ) où X ⊆ Rd _{et q}

k une loi de probabilité dominée par

Lebesque qui est utilisée comme loi instrumentale de la proposition k. Notons que qk peut

être définie conditionnellement aux k − 1 propositions précédentes (pour k ≥ 2). Pour un état courant x ∈ X, la première proposition y1 est générée selon q1(x,dy1) et elle est acceptée

avec probabilité α1 comme pour la probabilité d’acceptation de MH. Si cette proposition est

refusée, une seconde proposition y2 est générée selon q2(x,y1,dy2) et elle est acceptée avec

probabilité

α2(x,y1,y2) = min

1,π(y2)q1(y2,y1)q2(y2,y1,x)(1 − α1(y2,y1)) π(x)q1(x,y1)q2(x,y1,y2)(1 − α1(x,y1))

.

(43)

Algorithme 2 : Delayed Rejection Résultat : {x0, x1, ..., xN}

Initialiser définir un point initial x0

pour i ← 1 à N faire générer y1 ∼ q1(xi,·) et u1 ∼ Unif(0,1) si u1 ≤ α1(xi,y1) alors poser xi+1= y1 sinon générer y2 ∼ q2(xi,y1,·) si u2 ≤ α2(xi,y1,y2) alors poser xi+1= y2 sinon . . . générer yn∼ qn(xi,y1, . . . ,yn−1,·) et un ∼ Unif(0,1) si un ≤ αn(xi,y1, . . . ,yn) alors poser xi+1= yn sinon xi+1= xi

Pour k ≥ 2, la k-ième étape à lieu si la proposition yk−1 a été refusée, alors une proposition

yk est générée selon qk(x, . . . ,dyk) et est acceptée avec probabilité

αk(x,y1, . . . ,yk)

= min 1,π(yk)q1(yk,yk−1)q2(yk,yk−1,yk−2) · · · qk(yk,yk−1, . . . ,x) π(x)q1(x,y1)q2(x,y1,y2) · · · qk(x,y1, . . . yk)

(1 − α1(yk,yk−1))(1 − α2(yk,yk−1,yk−2)) · · · (1 − αk−1(yk,yk−1, . . . ,y1))

(1 − α1(x,y1))(1 − α2(x,y1,y2)) · · · (1 − αk−1(x,y1, . . . ,yk−1))

! .

Notons que le dénominateur correspond à évaluer π(x) et à la probabilité d’avoir généré les k − 1 premières propositions, de les avoir refusées et de proposer yk ∼ qk(x,y1, . . . ,dyk). Si

l’algorithme atteint la k-ième étape, alors le dénominateur de αk est strictement positif. Le

numérateur correspond à la même chose, mais dans le sens inverse : évaluer π(yk), proposer

et refuser des transitions de yk à yk−1, · · · ,y1, jusqu’à proposer une transition de y1 vers x.

(44)

la condition de réversibilité (2.3). Le noyau de cet algorithme est

PDR(x,dx0) = α1(x,x0)q1(x,dx0)+ n

X

k=2

αk(x,y1, . . . ,x0)q1(x,dy1) · · · qk(x,y1, . . . , dx0)+r(x)δx(dx0),

où la probabilité que la chaîne reste sur place est

r(x) = 1 − Z X α1(x,y1)q1(x,dy1) . . . 1 − Z · · · Z X

αn(x,y1, . . . ,yn) q1(x,dy1) · · · qn(x, . . . ,dyn)

. Proposition 2.3.1. Soit une loi π sur (X, X ) où X ⊆ Rd avec les fonctions α1, . . . , αn et r

ainsi définies, le noyau de l’algorithme du delayed rejection à n propositions est π-réversible.

Démonstration. Nous référons le lecteur à l’article [34], dans lequel il est montré que la condition de réversibilité est respectée pour chaque proposition. Nous allons présenter une démonstration similaire pour le DR avec des propositions déterministes. La remarque 2.2.5 concernant la convergence vers la loi invariante pour MH s’applique aussi pour l’algorithme du DR.

2.3.1. Propositions déterministes

Nous présentons une version du DR quand les propositions sont des fonctions détermi-nistes. Avant de la présenter, nous précisons le type de fonctions déterministes et nous devons introduire une proposition pour trouver la dérivée de Radon-Nikodym entre deux mesures, dont l’une est la mesure image de l’autre.

Considérons une mesure µ sur (E, E ), T : E → E une fonction mesurable et la mesure image µT := µ ◦ T−1. Le noyau intrumental sur (E, E ) est alors Q(x,A) = δT (x)(A) pour tout

(x,A) ∈ (E, E ) et l’opérateur associé à ce noyau est QTf = f ◦ T pour tout f ∈ L2(µ). Nous

voulons trouver une condition supplémentaire sur la fonction T pour qu’un noyau P , de la forme (2.5), soit µ-réversible. Rappelons que le fait que P soit µ-réversible est équivalent à ce que l’opérateur P sur (L2_(µ),h·,·i

µ) soit auto-adjoint. La condition de réversibilité est

respectée si et seulement si, pour toute fonction f : E × E → R mesurable et bornée, la relation suivante est vérifiée :

Z

f (x,T (x))α(x)µ(dx) = Z

f (T (x),x)α(x)µ(dx). (2.6)

Dans le cas où la fonction T est une bijection, la condition (2.6) peut s’écrire comme Z

f (x,T (x))α(x)µ(dx) = Z

(45)

Comme cette condition doit être respectée pour toute fonction f , une condition supplémen-taire pour que P soit µ-réversible est que la fonction T soit une involution. Nous notons φ : E → E une involution mesurable sur (E, E ).

Intuitivement, le fait d’utiliser une involution nous garantit que le processus de transition déterministe Qφ possède une mesure invariante. Par contre, il ne s’agit généralement pas de

la mesure cible (la mesure invariante pourrait même ne pas être une mesure de probabilité). Le fait d’accepter ou de refuser une transition va permettre de « corriger » cet écart et qu’ainsi le processus ait la bonne mesure invariante.

Nous présentons ensuite une proposition qui sera utile dans la construction du DR avec des involutions. Introduisons la mesure m, une mesure σ-finie définie sur (E, E ). Cette mesure a deux principales caractéristiques :

(i) elle domine µ ;

(ii) elle est invariante par l’involution φ.

L’existence d’une telle mesure m est garantie par le fait que φ soit une involution. Nous pouvons par exemple utiliser m = µ + µφ _{et vérifier que, pour tout A ∈ E , m(A) = 0 =⇒}

µ(A) = 0 et m ◦ φ = m. Pour certains espaces (E, E ), d’autres choix peuvent exister pour m, quelle que soit µ. Pour la suite, la mesure m est n’importe quelle mesure qui respecte ces deux conditions.

Proposition 2.3.2. Considérons une mesure µ sur (E, E ) définie ci-dessus et une involution φ : E → E. Nous définissons, sur le même espace, µφ_{(A) := µ(φ}−1_{(A)) pour tout A ∈ E .}

Alors, la dérivée de Radon-Nikodym de µφ _{par rapport à m, pour x ∈ E tel que m(x) > 0,}

est

dµφ

dm(x) = dµ

(46)

Démonstration. Soit h une fonction mesurable et bornée, alors Z h(x)µφ(dx) = Z h(φ(x))µ(dx) = Z h(φ(x))dµ dm(x)m(dx) = Z h(φ(x))dµ dm(φ ◦ φ(x))m(dx) = Z h(x)dµ dm(φ(x))m(φ −1 (dx)) = Z h(x)dµ dm(φ(x))m(dx),

où la première égalité vient d’un changement de variable (théorème 16.3, [6]), la troisième du fait que φ soit une involution, la quatrième en utilisant à nouveau le même changement de variable et la dernière est obtenue comme m ◦ φ = m.

Une démonstration différente est présentée au corollaire 3.14 de [14]. Exemple 2.3.3. Supposons que la mesure µ sur (E, E ) soit dominée par la mesure produit entre la mesure de Lebesgue sur Rd _{et la mesure de comptage sur un ensemble dénombrable.}

Dans ce cas, si φ est une involution isométrique, alors la mesure m peut être cette mesure produit. Il suffit de remarquer que comme φ est une isométrie, la condition m ◦ φ = m est vérifiée. De plus, pour µ(x) la densité de µ(dx) par rapport à la mesure m, alors pour x ∈ E m presque partout

dµφ_/dm(x)

dµ/dm(x) =

µ(φ(x)) µ(x) .

Remarque 2.3.4. Si dµφ_{/dm(x) > 0 et dµ/dm(x) > 0, alors comme φ est une involution}

dµφ/dm dµ/dm (x) !−1 = dµ φ_/dm dµ/dm (φ(x)).

Nous pouvons maintenant présenter notre construction du DR avec des propositions déterministes, ces propositions sont issues d’involutions.

Proposition 2.3.5. Soit µ une mesure de probabilité sur (E, E ), (i) φi : E → E des involutions mesurables pour i = 1, . . . ,n ;

(ii) β : R+→ [0,1] telle que β(1/r) = (1/r)β(r) pour r > 0 et β(0) = 0 ; (iii) nous définissons les fonctions pour i = 1, . . . ,n

ri(x) :=      dµφi/dmi_(x) dµi_/dmi_(x) dµi/dmi(x) > 0 et dµφi/dmi(x) > 0 0 sinon, (2.7)

(47)

et β(rn+1(x)) :=

Qn

i=1(1 − β(ri(x))) ;

(iv) avec les mesures µφ1_{(A) := µ(φ}−1

1 (A)) pour tout A ∈ E , pour ` = 2, . . . , n

µ`(A) := Z A [1 − β(r1(x))] . . . [1 − β(r`−1(x))]µ(dx) µφ`_{(A) :=} Z A [1 − β(r1(φ−1` (x)))] . . . [1 − β(r`−1(φ−1` (x)))]µ(φ −1 ` (dx)), et mi _{:= µ}i _{+ µ}φi_, alors le noyau Pφ,n(x,dx0) = n X i=1 β(ri(x))δφi(x)(dx 0 ) + β(rn+1(x))δx(dx0) (2.8) est µ-réversible.

Démonstration. Nous allons montrer comment construire ce noyau de sorte qu’il soit µ-réversible. Nous allons procéder de la même façon que pour la construction du DR, c’est-à-dire d’imposer que la condition de réversibilité soit respectée pour les n propositions. Résumons l’algorithme dans le cas de propositions déterministes :

• soit un état initial x0 ∈ E ;

• proposer x1 = φ1(x0) qui est accepté avec probabilité β(r1(x0)) ;

.. .

• sinon proposer x1 = φn(x0) qui est accepté avec probabilité β(rn(x0)) ;

• sinon x1 = x0.

Nous commençons par vérifier que les probabilités de ce mécanisme de transition sont valides. Par construction, pour tout x ∈ E nous avons que β(r1(x)), . . . ,β(rn+1(x)) ∈ [0,1] et la somme

des probabilités associées à chaque évènement est de un :

β(r1(x)) + (1 − β(r1(x)))β(r2(x)) + · · · + n

Y

i=1

(1 − β(ri(x))) = 1.

Alors, Pφ,n est bien un noyau de transition. Ensuite, pour montrer que Pφ,n est µ-réversible,

il suffit de montrer que chaque noyau sous-stochastique β(ri(x))δφi(x)(dx

0_{) dans (2.8) est}

µ-réversible. Nous voulons montrer qu’en définissant les fonctions r1, . . . , rn par (2.7), chaque

étape est bien µ-réversible. Avant de continuer, notons certains faits : (i) nous supposons que les fonctions ri sont de la forme ri = [ri◦ φi]−1 ;

(ii) µi _mi_{, µ}φi mi _{et m est telle que m}i◦ φ

(48)

Voyons la première proposition. Soit f une fonction mesurable sur (E×E, E ⊗E ), la condition à respecter est

Z Z

f (x,y)β(r1(x))µ(dx)δφ1(x)(dy) =

Z Z

f (x,y)β(r1(y))µ(dy)δφ1(y)(dx).

Pour les prochaines propositions, la condition à respecter est

Z Z

f (x,y)[1 − β(r1(x))] . . . [1 − β(r`−1(x))]β(r`(x))µ(dx)δφ`(x)(dy)

= Z Z

f (x,y)[1 − β(r1(y))] . . . [1 − β(r`−1(y))]β(r`(y))µ(dy)δφ`(y)(dx),

pour ` = 2, . . . n. Dans les deux cas, en intégrant les deux termes par rapport à la mesure de Dirac, nous obtenons la condition

Z

f (x,φi(x))β(ri(x))µi(dx) =

Z

f (φi(y),y)β(ri(y))µi(dy)

et comme mi _{domine µ}i_, Z f (x,φi(x))β(ri(x)) dµi dmi(x) m i_{(dx) =} Z f (φi(y),y)β(ri(y)) dµi dmi(y) m i_(dy) _(2.9)

pour i = 1, . . . ,n. Regardons le terme de gauche de l’équation (2.9) :

Z f (x,φi(x))β(ri(x)) dµi dmi(x) m i_(dx) = Z f (φ−1_i (y),y)β(ri(φ−1i (y))) dµi dmi(φ −1 i (y)) m i (φ−1_i (dy)) = Z f (φi(y),y)β(ri(φi(y))) dµi dmi(φi(y)) m i_(dy) = Z f (φi(y),y)β(r−1i (y)) dµφi dmi(y) m i (dy) = Z f (φi(y),y) 1 ri(y) β(ri(y)) dµφi dmi(y) m i_{(dy) pour r} i(y) > 0

où la première égalité vient du changement de variable y = φi(x) (théorème 16.3 [6]), la

deuxième vient du fait que φi soit une involution et que mi◦ φi = mi et les deux dernières

par la supposition de la forme de la fonction ri et en utilisant la proposition 2.3.2. Nous

remarquons qu’en définissant

ri(x) :=      dµφi/dmi_(x) dµi_/dmi_(x) dµi/dmi(x) > 0 et dµφi/dmi(x) > 0 0 sinon,

(49)

la condition (2.9) est respectée. De plus, par la remarque 2.3.4, nous vérifions qu’en définis-sant la fonction ri par (2.7), l’hypothèse ri = [ri◦ φi]−1 est bien respectée. Par conséquent,

chaque terme du noyau (2.8) est µ-réversible, donc le noyau l’est aussi. Remarque 2.3.6. Pour la fonction β, il suffit de trouver une fonction qui respecte β(r−1) = (1/r)β(r) pour r > 0 et β(0) = 0. Par exemple, β(r) = min(1,r) ou β(r) = r/1 + r qui est connu sous le nom de probabilité de Barker (exemple 3.7 , [2]).

Exemple 2.3.7. (suite de l’exemple 2.3.3) Dans le cas où les n involutions φi sont des

involutions isométriques et que µ et m sont les mêmes que dans l’exemple 2.3.3, alors les probabilités de la proposition précédente peuvent se simplifier. La première probabilité est β(r1(x)) avec r1(x) =      µ(φ(x)) µ(x) si µ(x) > 0 0 sinon et pour ` = 2, . . . ,n, β(r`(x)) avec r`(x) =      [1−β(r1(φ`(x)))]···[1−β(r`−1(φ`(x)))]µ(φ`(x)) [1−β(r1(x))]···[1−β(r`−1(x))]µ(x) [1 − β(r1(x))] · · · [1 − β(r`−1(x))]µ(x) > 0 0 sinon.

Par cette proposition, nous pouvons construire un noyau invariant pour une certaine loi cible, seulement avec des propositions déterministes. Les propositions doivent provenir de fonctions involutives. Par contre, ce noyau ne produit habituellement pas une chaîne de Markov ergodique. En effet, la chaîne n’est généralement pas irréductible, puisque les propositions sont déterministes. Ce type de noyau doit être combiné à un second noyau qui a pour objectif d’actualiser la dynamique et donc de rendre la chaîne irréductible (briser l’aspect déterministe de la dynamique).

Nous présentons un exemple pour comprendre une façon de mettre en pratique la pro-position 2.3.5.

Exemple 2.3.8. Il est possible de voir l’algorithme RW comme un cas particulier de la proposition 2.3.5. Pour l’algorithme RW, un candidat Y est généré selon N (Xn,σ2Id). La

proposition est donc de la forme Y = Xn+ W , où W ∼ N (0,σ2Id). Or, la fonction Xn+ W

n’est pas une involution. Par contre, la fonction