Algorithme MCMC

(1)

Algorithme MCMC

11 novembre 2015

(2)

I. Introduction

(3)

definition

Un algorithmeMarkov Chain Monte Carlo(MCMC) est un algorithme stochastique qui permet de simuler une distribution `a l’aide d’une chaˆıne de Markov.

(4)

definition

Un algorithmeMarkov Chain Monte Carlo(MCMC) est un algorithme stochastique qui permet de simuler une distribution `a l’aide d’une chaˆıne de Markov.

1. Pourquoi et comment simuler ? Premiers algorithmes stochastiques.

2. Chaˆınes de Markov

3. MCMC par l’approche de Metropolis-Hastings 4. MCMC par ´echantillonneur de Gibbs

(5)

I. Pourquoi et comment simuler ? Premiers algorithmes stochastiques

(6)

I.1 Calculs d’int´egrales

(7)

M´ethodes d´eterministes

Probl`eme D´eterminer

I = Z b

a

h(t)dt

I Calcul d’int´egrale

I M´ethode des trap`ezes Iˆ=

n−1

X

i=1

(xi+1−xi)h(xi) +h(xi+1) 2

I M´ethode des splines

I . . .

(8)

M´ethode de Monte-Carlo

On reécrit le problème sous la forme suivante : Problème

D´eterminer

I = Z

Omega

h(t)f(t)dt oùf désigne une densité sur l’espaceΩ.

I Ω = [a,b]

I La nouvelle fonctionh es l’ancienne fonctionhdivis´ee parf

I Le choix def est libre sous la conditionΩ⊂supp(f) Id´ee cl´e

On a re´ecritI sous la forme

I =Ef(h(X))

(9)

Rappel

Loi forte des grands nombres

SoientX1,X2,· · ·,Xn des variables aléatoires de même loi qu’une variable aléatoireX.

Alors, presque sûrement (c’est-à-dire avec probabilité1),

n→+∞lim

X1+. . .+Xn

n =EX

TCL

SoientX1,· · ·,Xn des variables aléatoires indépendantes et identiquement distribuées d’espéranceµet de varianceσ². On noteXn=n⁻¹Pn

i=1Xi. Alors la loi de ^X_σ/ⁿ^√^−µ_n tend vers la loi normale centr´ee r´eduite.

En d’autre termes, pour tousa etbr´eels, limn→∞P

a≤√

n

Yn−µ σ

≤b

=P(a≤Z ≤b)

oùZ est une variable gaussienne centrée réduite,Z ∼ N(0,1).

Remarque :Ce r´esultat reste vrai quandσest remplac´e parbσ, un estimateur consistant deσ.

(10)

M´ethode de Monte-Carlo pour le calcul d’int´egrale

Id´ee cl´e

On a re´ecritI sous la forme

I =Ef(h(X))

Soit(xi)1≤i≤n un ´echantillon simul´ees suivant la distributionf et hn= 1

n

X

i=1

h(xj)

I La loi forte des grands nombres certifie alors que, presque sˆurement, limn→∞hn=Ef(h(X)) =I.

(11)

M´ethode de Monte-Carlo pour le calcul d’int´egrale

I Le TCL permet d’estimer l’erreur commise : Var(hn) = 1

nVar(h(X)) = 1 n

Z

Ω

(h(t)−E^f(h(X)))²f(t)dt

Cette variance peut ˆetre estim´ee de fa¸con consistante par vn = 1

n²

n

X

i=1

(h(xj)−hn)² .

Remarque :La méthode se généralise au cas des distributions discrètes (en rempla¸cant les intégrales par des sommes) et au cas des distributions à plusieurs dimensions (en considérant des intégrales multiples).

(12)

Echantillonnage pr´ef´erentiel

Soitg une densit´e d´efinie surΩtelle quesupp(h×f)⊂supp(g).

Ef(h(X)) = Z

Ω

h(t)f(t)

g(t) g(t)dt=Eg(h(X)f(X)

g(X) ) (1)

La méthode de Monte-Carlo peut alors être appliquée en échantillonant suivant g plutôt que suivantf et en approchant l’intégrale par

1 n

n

X

i=1

h(xj)f(xj) g(xj)

La convergence versE^f(h(X))quandntend vers l’infini reste vraie, la diff´erence ´etant que la variance de l’estimateur est alors

1 n

Z

Ω

(h(t)f(t)

g(t) −Ef(h(X)))²g(t)dt (2)

Un choix judicieux deg peut r´eduire cette variance et donc l’amplitude des intervalles de confiance.

(13)

Choix deg

Prendre une fonction qui échantillonne préférentiellement dans les régions oùfh est élevé et telle queR

Ω

f²(t)h²(t)

g(t) dt converge (ce qui revient `a dire que la variance de l’estimateur existe).

Exemple :On cherche à déterminer la p-valeurP(Z >4)quandZ suit une loi normale centrée réduite.

I f la densité d’une loi normale centrée réduite eth(t) =It>4. La méthode de Monte-Carlo appliquée àh etf va dans ce cas se révéler très lente puisque l’énorme majorité des valeurs échantillonnées suivantN(0,1)vont ˆ

etre inférieures à4(la vraie valeur recherchée étant de3.2 10⁻⁵, à peu près1valeur sur30000sera non nulle).

I Echantillonnage préférentiel avecg la densité d’une loi exponentielle de paramètre ¹₄. La proportion de valeurs échantillonées non nulle passe alors

`

a plus d’un tiers, acc´elerant la convergence de l’algorithme.

(14)

Choix deg

Prendre une fonction qui échantillonne préférentiellement dans les régions oùfh est élevé et telle queR

Ω

f²(t)h²(t)

g(t) dt converge (ce qui revient `a dire que la variance de l’estimateur existe).

Exemple :On cherche à déterminer la p-valeurP(Z >4)quandZ suit une loi normale centrée réduite.

I f la densité d’une loi normale centrée réduite eth(t) =It>4. La méthode de Monte-Carlo appliquée àh etf va dans ce cas se révéler très lente puisque l’énorme majorité des valeurs échantillonnées suivantN(0,1)vont ˆ

etre inférieures à4(la vraie valeur recherchée étant de3.2 10⁻⁵, à peu près1valeur sur30000sera non nulle).

I Echantillonnage préférentiel avecg la densité d’une loi exponentielle de paramètre ¹₄. La proportion de valeurs échantillonées non nulle passe alors

`

a plus d’un tiers, acc´elerant la convergence de l’algorithme.

(15)

Pour et contre

Avantages des méthodes numériques Î Elles tiennent en compte la forme de la fonctionh;

I Elles sont plus rapides pour les fonctions r´eguli`eres et en petite dimension.

Avantage de l’approche stochastique ^I Elle ne passe pas beaucoup de temps

`

a gérer les difficultés de régularité dans les zones de faible probabilités ;

(16)

I.2 Optimisation - Estimation

(17)

Estimation param´etrique fr´equentiste

On dispose d’un ´echantillonx= (x1, . . . ,xn)de donn´ees.

I on fait l’hypothèse que les observations suivent une loi connue qui dépend d’un vecteur de paramètresθ= (θ1, . . . , θp).

I on fait l’hypothèse que les observations sont indépedantes et on en déduit la vraisemblanceLde l’observation.

I on estime les param`etres en maximisant la vraisemblance.

Remarque :Quitte à remplacer le fonction à optimiser par son opposé, maximiser et minimiser une fonction sont le même problème.

(18)

M´ethode 1 : R´esolution analytique

I La vraisemblance est une fonction qu’on sait maximiser en plusieurs variables et on obtient des formules closes d’estimation.

Exemple :On suppose que les tiragesXi suivent une loi normaleN(µ, σ²). La log-vraisemblance de l’´echantillonx= (x1, . . . ,xn)vaut alors

logL=−n

2log(2πσ) +

n

X

i=1

(xi−µ)² σ²

et les valeurs maximisant cette fonction `a deux variables sontµˆ=xet ˆ

σ²=_n−1¹ Pn

i=1(xi−x)².

(19)

Donn´ees censur´ees

La vraisemblance peut cependant être trop compliquée pour être optimisée analytiquement.

I Si la variable qu’on mesure est le minimum entre plusieurs variables. Par exemple dans des ´etudes de survie, o`u plusieurs raisons peuvent faire sortir le patient de la cohorte.

ExempleX =min(X1,X2)avecX1∼µ∞, σ^∈∞etX2∼µ∈, σ_∈^∈.

fY(x) = 1−Φ(x−µ1

σ1

) 1 σ2

φ(x−µ2

σ2

) + 1−Φ(x−µ1

σ1

) 1 σ2

φ(x−µ2

σ2

)

(20)

M´ethode 2 : Descente de gradient

On choisit un point de d´epartx0et on construit une suite de pointsθi suivant la relation de r´ecurrence

xi+1=xi−αi∇h(xi) o`u(αi)est une suite positive tendant vers0.

I Converge vers un minimum local

I Converge vers le minimum global si la fonction est convexe

(21)

Distributions multimodales

I La vraisemblance peut avoir un grand nombre de maxima locaux, et il faut tous les d´eterminer pour trouver le maximum global.

Exemple :Une alternative `a la loi normale est la loi de Student de loiT(p, µ, σ).

Sa densit´e estt(x) = _σ¹ 1 +^(x−µ)_pσ2²

−^p+1₂

. Pourp connu et(µ, σ)inconnus, la vraisemblance

L= 1 σⁿ

n

Y

i=1

1 +(xi−µ)² pσ²

−^p+1₂

anmaxima locaux.

(22)

Mod`eles de m´elanges

I Si le mod`ele comprend des variables cach´ees, la vraisemblance contient un nombre exponentiel de termes

I La vraisemblance est possiblement multimodale

I Dans ce cas, l’algorithme EM est une alternative (cf algo stat) ExempleModèle de mélange àK classes : chaque individu appartient à la classei avec probabilitéαi. La distribution deX dans la classeαi estfi.

L(x) =

n

Y

j=1 K

X

i=1

αifi(xj)

Développer cette vraisemblance amènerait àKⁿ termes.

(23)

M´ethode 3 : Monte-Carlo pour l’optimisation

Soith la fonction `a maximiser.

I On simule une suite de valeurs(xi)1≤i≤n suivant une loif et on renvoie maxh(xi).

I Choisirf indépendamment dehrisque d’entraˆıner une convergence très lente car on risque de devoir simuler très longtemps avoir de tirer des points suffisamment proches des endroits oùh prend son maximum.

I Une famille de loi couramment utilisée dans ce but est de de choisir H(θ)∝exp(h(θ)/T)pourT>0(le paramètreT est appelé température).

Une distribution de ce type prend son maximum au mˆeme endroit queh.

De plus, quand la temp´erature tend vers0, la distributionH se concentre autour des points o`u le maximum est atteint.

Remarque :Nécessite de pouvoir simuler suivant une loi qu’on ne connaˆıt qu’à une constante multiplicative près.

(24)

I.3 Statistiques bay´esiennes

(25)

Statistiques bayésiennes : Idée générale

I Approche différente de l’approche fréquentiste : les paramètresθ sont considérées des variables aléatoires.

I On munitθd’uneloià prioriP(θ), ne dépendant pas des données.

On peut la choisir non-informative ou au contraire y injecter des connaissances `a priori sur le probl`eme.

I On définit une loi des observations étant donné les paramètresP(x|θ), comme dans le cas fréquentiste.

I On utilise la formule de Bayes

P(θ|x) =P(x|θ)P(θ)

P(x) (3)

I On en déduit la loiloià posterioriP(θ|x). Elle correspond à la vision de la loi deθaprès qu’on ait vu les données.

(26)

Statistiques bay´esiennes

Avantages

I Il est possible d’int´egrer des connaissances autres que celles de l’observationxdans la loi `a priori.

I Le résultat pourθétant une loi et non pas une valeur, on obtient aisément des intervalles de confiance en considérant les quantiles adéquats.

(27)

Statistiques bay´esiennes : exemple (inspir´e de Dobson et Barnett)

On considère qu’un village est touché de fa¸con endémique par un ver parasitaire (Schistosoma japanicum) si plus de la moitié du village est infecté.

Soitθla proportion de villageois touch´es.

On examine10personnes, dont7sont touch´ees. On a alors la vraisemblance P(x|θ) = ¹⁰₇

θ⁷(1−θ)³. Cas 1 : pas d’`a priori

Si on a aucun `a-priori sur la valeur deθ, on choisit le distribution uniforme U[0,1].

On obtient la loi `a post´eriori

P(θ|x)∝θ⁷(1−θ)³

Le résultat en terme d’interprétation et d’intervalle de confiance est très proche du l’intervalle de confiance fréquentiste.

(28)

θ⁷(1−θ)³.

(29)

θ⁷(1−θ)³. Cas 2 : un `a-priori d´efavorable

Des données autres (salubrité, accès à l’eau, aux sons...) nous font penser qu’il y a une plus grande chance qu’il y ait beaucoup d’infectés. On choisit par exemple une loi à-priori de densité2θ.

On obtient alors la loi `a post´eriori

P(θ|x)∝θ⁸(1−θ)³

Le résultat en terme d’interprétation diffère maintenant du cas fréquentiste puisque la valeurθde plus grande probabilité à posteriori est maintenant

8

11 >₁₀⁷. Cette différence s’accroit évidemment si la distribution à priori penche encore plus fortement vers les grandes valeurs.

(30)

Hyperparam`etres

Remarques

I Si les lois à priori et à postériori dépendent de paramètres, on les appellent deshyperparamètres.

I Pour une forme vraisemblance donn´ee, il existe parfois une forme

fonctionnelle pour la loi à priori telle que la loi à postériori est de la même famille fonctionnelle. On parle alors deloi conjuguée. Par exemple, pour une vraisemblance binomiale, une à priori en loi Beta donnera une postérieure en loi Beta.

Inférer la loi à posteriori revient alors à déterminer les hyperparamètres.

Exemple :Dans l’exemple précédent, oùp(x|θ)suit une loi binomiale, on sait que si la loi à priori est une loi Beta, la loi à posteriori sera également une loi Beta. On peut par exemple mettre en place une procédure du type :

I partir d’une distribution non-informativeBeta(1,1).

I faire des premi`eres mesures et obtenir une distributionBeta(a1,b1).

I Si de nouvelles mesures sont disponibles, partir de l’`a-prioriBeta(a1,b1)et obtenir une nouvelle distributionBeta(a2,b2)

I ...

(31)

Statistique bay´esienne

Pourquoi simuler en bay´esien ?

P(θ|x) =P(x|θ)P(θ)

P(x) (4)

Le dénominateur ne peut en général pas se déterminer autrement que par P(x) =

Z

P(x|θ)P(θ)dθ (en rempla¸cantR

dθparP

θ le cas ´ech´eant).

Cette quantité ne peut pas être calculée dans la plupart des cas.

(32)

Intervalle de confiance

I Savoir simuler sous la loi à postériori permet de déterminer des intervalles de confiance pourθ.

Exemple :Considérons une régression logistique où la variable observée vérifie P(Y = 1) = exp(x^tθ)

1 +exp(x^tθ)

Obtenir un intervalle de confiance pourθne peut ˆetre fait de fa¸con th´eorique.

Considérer l’approche bayésienne puis simuler sous la loi à posteriorip(θ|x,y) est une manière d’y arriver.

I Il faut être capable de simuler sous une loi connue à une constante près.

(33)

I.4 Premiers algorithmes de simulation

(34)

Distribution uniforme U[0,1]

I Il n’est pas possible de produire une liste de nombre complètement aléatoire. On produit forcément une suite(un)n∈N

I Algorithmes de congruence :xn+1=Axn+B[M]etun=^x_Mⁿ

I Algorithmes de déplacement de registre :xn∈[0,2^k−1]est représenté par le vecteurXn ∈ {0,1}de sa séquence de bits.XN+1=AXN oùAest une matrice binaire fixée etun+1= ^xⁿ⁺¹₂_k

I Ces deux méthodes donnent des suites périodiques. L’algorithme KISS qui alterne les deux permet d’obtenir une période de2⁹⁵.

I Toute une batterie de tests (Kolmogorov-Smirnov, DieHard, ...) ne permettent pas d’invalider que la suite obtenue est distribu´ee uniform´ement.

(35)

Distribution quelconque de fonction de r´epartition connue

Propri´et´e

SoitF la fonction de répartition deX. On considère l’inverse généralisé deF F⁻(u) =inf{x;F(x)≥u}

Alors, siU suit une loi uniforme sur[0,1],F⁻(U)suit la loi deX.

Exemple :SiX ∼ E(1), on aF(x) = 1−e^−x. Son inverse est F⁻(u) =−log(1−u).

Par cons´equent, siU suit une loi uniforme sur[0,1],−logU suit une loiE(1)

(36)

Transformation d’une loi simulable

Theoreme de Box-Muller

SoitRetΘdes variables al´eatoires telles queR∼ E(¹₂ etΘ∼ U[0,1]. Alors X =√

Rcos(2πΘ)etY =√

Rsin(2πΘ)sont ind´ependantes et de loiN(0,1).

I Problème : manque de généralité, il faut déterminer une méthode par distribution

(37)

M´ethode d’acceptation-rejet

Soitf la densité sous laquelle on cherche à simuler, appeléedensité cible. On considère une autre densitég, appelédensité instrumentale, telle que :

I il est ais´e de simuler suivantg

I supp(f)⊂supp(g)

I il existe une constanteM telle quef(x)≤Mg(x)pour toutx.

Algorithme d’acceptation-rejet 1. GénérerY suivant la loig. 2. GénérerU suivant une loiU[0,1]

3. Accepter (c’est-à-dire ajouter à l’échantillon) la valeurY siU < _Mg(Y)^f^(Y⁾

(38)

M´ethode d’acceptation-rejet

Propri´et´e

L’échantillon généré par la méthode précédente suit la loi deX.

I Le choix deM est important. SiM est choisi trop grand, l’algorithme prend plus de temps `a converger.

I Dans certaines situations (stat bayésiennes par exemple),f n’est connue qu’à une constante près : comment choisirM?

(39)

Simulation vs M´ethode d´eterministes

Avantages de la simulation ^I pas besoin de connaitre la forme de la distribution

I s’adapte aux distributions mutimodales

I on passe peu de temps sur les zones de faible probabilit´e, qui impacte peu le r´esultat

Avantages du d´eterminisme I on tire parti de la forme de la distribution

I plus pr´ecis et efficace sur les distributions lisses/

unimodales/ en faible dimension

(40)

II. Chaˆınes de Markov

(41)

D´efinition

Chaˆıne de Markov

Une suite(Xi)i≥0 de v.a. discrètes est appeléechaˆıne de Markovsi elle vérifie lapropriété de Markov, qui caractérise les processus sans mémoire :

P(Xi+1=xi+1|Xi =xi,Xi−1=xi−1, . . . ,X0=x0) =P(Xi+1=xi+1|Xi =xi)

On noteπi la distribution deXi. La chaˆıne est alors caractérisée de fa¸con unique par la distributionπ0 et par sesprobabilités de transition((pqr))_q,r∈S²

entre ´etats

pqr =P(Xi+1=r|Xi =q)

La matriceP (éventuellement infinie siS est un ensemble dénombrable) regroupant les((pqr))_q,r∈S² est appeléematrice de transition de la chaˆıne de Markov.

(42)

Probabilit´e d’une trajectoire

Soit(x0, . . . ,xn)une trajectoire. Sa vraisemblance est

P(Xn =xn,Xn−1=xn−1, . . . ,X0=x0) =

n−1

Y

i=0

pxixi+1π0(x0) =π0(x0)Y

q,r

pqrⁿ^qr

On peut alors estimer les probabilit´es de transition parpˆqr =ⁿ^ST_n .

(43)

Mesure invariante

Pour toutn≥1,

π_n^t =π^tn−1P (5)

Par cons´equent,

π^t_n=π^t₀Pⁿ (6)

La deuxième égalité implique que la suite des distributions converge si et seulement la suite des puissances de la matrice de transition converge. La première implique que si une limiteµexiste pour les distributionsπi, elle vérifie

µ^t=µ^tP

Une mesure vérifiant cette égalité est appeléemesure invariantede la chaˆıne de Markov.

(44)

Classification : chaˆıne p´eriodique

D´efinition

Une chaˆıne est périodique si il existek ≥2tel que sa matrice de transition vérifieP^k=I. Si ce n’est pas le cas, elle est dite apériodique.

Remarque :En pratique, on construit toujours les chaˆınes de fa¸con `a ce qu’elles soient non p´eriodiques.

(45)

Classification : ´etat r´ecurrent/transient

Soitv un état etp la probabilité, étant donné que le point de départ de la chaˆıne estv, de revenir env.

I Sip= 1,v est un ´etatr´ecurrent.

I En particulier, sipvv= 1, l’´etat est ditabsorbant.

I Sip<1, l’´etat est dittransientoutransitoire.

Dans ce cas, le nombre de passages env de la marche est presque sûrement fini et suit une loi géométrique de paramètrep.

(46)

Classification : état récurrent/état transient

I Une chaˆıne de Markov peut etre représentée par un graphe orientéG: (u,v)est une arête ssipuv6= 0.

I Unecomposante fortement connexedu graphe est un ensemble maximalS de sommets vérifiant la propriété suivante : pour toute paire de sommetsu etv deS, il existe un chemin dirigé deu versv et un chemin dirigé dev versu.

I SoitH un graphe ayant un sommet pour chaque composante fortement connexe deG et tel que(u,v)∈E(H)s’il existe une arête deGallant de la composante correspondant àu à la composante correspondant àv. Alors le grapheH est acyclique. De plus, les états récurrents sont les états situés dans les composantes connexes dont le degré sortant dansH est nul.

Definition

Une chaˆıne de Markov estirréductiblesi le graphe associé est fortement connexe, ou autrement dit s’il existe un chemin entre toute paire d’états.

(47)

Classification : Etat r´ecurrent positif

I On considère une marche aléatoire symétrique surZ, pour laquelle à chapque étape on fait un pas vers la gauche ou vers la droite avec probabilité ¹₂. On peut démontrer que dans ce cas la probabilité de retour en0est de1mais que l’espérance du temps de retour en0est infinie.

D´efinition

Un état estrécurrent positifs’il est récurrent et que l’espérance du temps de retour en cet état, partant de cet état, est fini. En d’autres termes, si la chaˆıne passe en fois par cet état, elle y passera infiniment souvent.

I Si la chaˆıne est finie et irréductible, tout état est récurrent positif ;

I On considère une marche aléatoire non symétrique surZ, telle qu’on fait un pas vers0avec probabilitép>¹₂ et un pas opposé avec probabilité q = 1−p. On peut alors montrer que0est récurrent positif.

(48)

Th´eor`eme de convergence

Th´eor`eme

On considère une chaˆıne de Markov irréductible et apériodique, admettant un

état récurrent positif. Alors tous les états sont récurrent positifs et il existe une unique mesure invariantepi.

De plus,quel que soit la mesure initialeπ0, la suite des loisπndesXnconverge versπ.

La d´emonstrationse fait en deux ´etapes

1. unicité de la mesure invariante : théorème de Perron-Frobenius 2. convergence vers la mesure invariante

(49)

Th´eor`eme de Perron-Frobenius

Th´eor`eme

SoitP la matrice d’une chaˆıne de Markov irr´eductible. Alors : 1. 1est une valeur propre simple.

2. tout vecteur propre à gauche associé à1a toutes ses coordonnées de même signe. En particulier, celui de somme1correspond bien à une distribution de probabilités.

3. si la chaˆıne est ap´eriodique, toute autre valeur propreλv´erifie|λ|<1.

En d’autres termes, toute chaˆıne de Markov irr´eductible admet une unique mesure de probabilit´e invariante.

(50)

Convergence

Th´eor`eme

SoitP la matrice d’une chaˆıne de Markov irréductible et apériodique etµ l’unique mesure invariante associée. Alors, pour toutX0,lim^tn→+∞π0Pⁿ =^tµ.

De plus, la vitesse de convergence est en|λ2|ⁿ, o`uλ2 est la valeur propre de valeur absolue maximale parmi les valeurs propres diff´erentes de1.

Idée de la démonstration : Ecrire^tπ0 dans une base de vecteurs propres à gauche deP.

(51)

Th´eor`eme ergodique

Th´eor`eme

On considère une chaˆıne de Markov irréductible apériodique de mesure invarianteP

q∈Sπq|f(q)|<+∞.

Alors,

n→+∞lim 1 n

n

X

i=0

f(Xi) =X

q∈S

πqf(q)

Pour simuler un ´echantillon suivant la loiπ, il n’est pas n´ecessaire de faire converger un grand nombre de chaˆınes : il suffit de mener une chaˆıne suffisamment longue.

(52)

D´efinition

Une suite de variables aléatoires(Xi)i≥0 définies sur un ensembleX est une chaˆıne de MarkovsiXi+1|X0, . . . ,Xi suit la même loi queXi+1|Xi . La fonctionK telle que

Xi+1|X0, . . . ,Xi ∼K(Xi,Xi+1)

est appelénoyau markovien. Sifi désigne la densité deXi, on a alors fi+1(y) =

Z

X

K(x,y)fi(x)dx

Exemple :La marche al´eatoire surRd´efinie parXi+1=Xi+i avec

i ∼ N(0,1)est une chaˆıne de Markov dont le noyauK(Xi,Xi+1)correspond

`a la densit´e deN(Xi,1).

(53)

Chaˆıne irr´eductible

D´efinition

La chaˆıne estirr´eductiblesi pour tout choix de la valeur initiale et tout ensembleAde mesurre non nulle, la probabilit´e que la chaˆıne atteigneAest non nulle.

E¯xemple :

I Marche al´eatoireXi+1=Xi+i,i ∼ N(0,1).

I Marche al´eatoireXi+1=Xi+i,i ∼ U[0,1].

I Mod`ele AR(1)Xi+1=aXi+i,i ∼ N(0,1).

(54)

Convergence

Loi limite

Si la chaˆıne est irr´eductible, il existe une unique loi stationnairef qui est presque surement la loi limite de la chaˆıne de Markov.

Th´eor`eme ergodique

On consid`ere une chaˆıne de Markov de distribution limitef. Pout toute fonction int´egrableh,

n→+∞lim 1 n

n−1

X

i=0

h(Xi) = Z

X

h(x)f(x)dx

En particulier, en prenant pourh la fonction indicatrice d’un sous-ensembleA deX, on obtient que la mesure deAsuivantf est ´egale `a la proportion des

éléments de la chaˆıne appartenant àAquand la chaˆıne devient infinie.

En d’autres termes,générer une chaˆıne suffisamment longue de noyau K revient à simuler suivantf.

(55)

III. Algorithmes de Metropolis-Hastings

(56)

III.1 Algorithme g´en´eral

(57)

Principe

Points communs avec la m´ethode d’acceptation-rejet

I f unedistribution cible, suivant laquelle on cherche `a simuler.

I q une distribution de proposition, selon laquelle on va échantillonner, en acceptant la proposition avec une probabilité donnée

Diff´erence

I q dépend de la valeur précédente de l’échantillon :q() =q(.|x)

I Si la proposition à partir dexn est refusée, on posexn+1=xn : l’échantillon contiendra des valeurs répétées

I L’´echantillon correspond `a une trajectoire d’une chaˆıne de Markov.

(58)

Algorithme de Metropolis-Hastings

Etant donn´exn,

1. G´en´ereryn∼q(y|xn) 2. Choisir

xn+1=

yn avec probabilité ρ(xn,yn) xn avec probabilité 1−ρ(xn,yn) où

ρ(x,y) = minf(y) f(x)

q(x|y) q(y|x),1

(59)

Algorithme de Metropolis-Hastings

Th´eor`eme

Les(xn)forment une chaˆıne de Markov. Siq est tel que cette chaˆıne est irr´eductible, sa distribution limite estf.

I Toute loi de propositionq rendant la chaˆıne irr´eductible convient

I Contrairement `a l’algorithme d’acceptation-rejet, on a plus besoin d’´evaluermax^f_q.

Le choix deq n’influe pas sur le fait qu’il y a convergence, mais il influe sur la vitesse de celle-ci. Certains choix sont privil´egi´es.

(60)

III.2 Algorithme ind´ependant

(61)

Algorithme de Metropolis-Hastings ind´ependant

I la proposition ne d´epend pas de la valeur courante.

Etant donnéxn, 1. Généreryn∼g(y) 2. Choisir

xn+1=

yn avec probabilité ρ(xn,yn) xn avec probabilité 1−ρ(xn,yn) où

ρ(x,y) = minf(y) f(x)

g(x) g(y),1

(62)

Algorithme de Metropolis-Hastings ind´ependant

I tr`es ressemblant `a l’acceptation-rejet

I pas besoin d’évaluermax_g^f, mais on perd l’indépendance entre les valeurs de l’échantillon

I la convergence sera d’autant plus rapide que la distributiong est proche def