Algorithme MCMC
11 novembre 2015
I. Introduction
definition
Un algorithmeMarkov Chain Monte Carlo(MCMC) est un algorithme stochastique qui permet de simuler une distribution `a l’aide d’une chaˆıne de Markov.
definition
Un algorithmeMarkov Chain Monte Carlo(MCMC) est un algorithme stochastique qui permet de simuler une distribution `a l’aide d’une chaˆıne de Markov.
1. Pourquoi et comment simuler ? Premiers algorithmes stochastiques.
2. Chaˆınes de Markov
3. MCMC par l’approche de Metropolis-Hastings 4. MCMC par ´echantillonneur de Gibbs
I. Pourquoi et comment simuler ? Premiers algorithmes stochastiques
I.1 Calculs d’int´egrales
M´ethodes d´eterministes
Probl`eme D´eterminer
I = Z b
a
h(t)dt
I Calcul d’int´egrale
I M´ethode des trap`ezes Iˆ=
n−1
X
i=1
(xi+1−xi)h(xi) +h(xi+1) 2
I M´ethode des splines
I . . .
M´ethode de Monte-Carlo
On re´ecrit le probl`eme sous la forme suivante : Probl`eme
D´eterminer
I = Z
Omega
h(t)f(t)dt o`uf d´esigne une densit´e sur l’espaceΩ.
I Ω = [a,b]
I La nouvelle fonctionh es l’ancienne fonctionhdivis´ee parf
I Le choix def est libre sous la conditionΩ⊂supp(f) Id´ee cl´e
On a re´ecritI sous la forme
I =Ef(h(X))
Rappel
Loi forte des grands nombres
SoientX1,X2,· · ·,Xn des variables al´eatoires de mˆeme loi qu’une variable al´eatoireX.
Alors, presque sˆurement (c’est-`a-dire avec probabilit´e1),
n→+∞lim
X1+. . .+Xn
n =EX
TCL
SoientX1,· · ·,Xn des variables al´eatoires ind´ependantes et identiquement distribu´ees d’esp´eranceµet de varianceσ2. On noteXn=n−1Pn
i=1Xi. Alors la loi de Xσ/n√−µn tend vers la loi normale centr´ee r´eduite.
En d’autre termes, pour tousa etbr´eels, limn→∞P
a≤√
n
Yn−µ σ
≤b
=P(a≤Z ≤b)
o`uZ est une variable gaussienne centr´ee r´eduite,Z ∼ N(0,1).
Remarque :Ce r´esultat reste vrai quandσest remplac´e parbσ, un estimateur consistant deσ.
M´ethode de Monte-Carlo pour le calcul d’int´egrale
Id´ee cl´e
On a re´ecritI sous la forme
I =Ef(h(X))
Soit(xi)1≤i≤n un ´echantillon simul´ees suivant la distributionf et hn= 1
n
n
X
i=1
h(xj)
I La loi forte des grands nombres certifie alors que, presque sˆurement, limn→∞hn=Ef(h(X)) =I.
M´ethode de Monte-Carlo pour le calcul d’int´egrale
I Le TCL permet d’estimer l’erreur commise : Var(hn) = 1
nVar(h(X)) = 1 n
Z
Ω
(h(t)−Ef(h(X)))2f(t)dt
Cette variance peut ˆetre estim´ee de fa¸con consistante par vn = 1
n2
n
X
i=1
(h(xj)−hn)2 .
Remarque :La m´ethode se g´en´eralise au cas des distributions discr`etes (en rempla¸cant les int´egrales par des sommes) et au cas des distributions `a plusieurs dimensions (en consid´erant des int´egrales multiples).
Echantillonnage pr´ef´erentiel
Soitg une densit´e d´efinie surΩtelle quesupp(h×f)⊂supp(g).
Ef(h(X)) = Z
Ω
h(t)f(t)
g(t) g(t)dt=Eg(h(X)f(X)
g(X) ) (1)
La m´ethode de Monte-Carlo peut alors ˆetre appliqu´ee en ´echantillonant suivant g plutˆot que suivantf et en approchant l’int´egrale par
1 n
n
X
i=1
h(xj)f(xj) g(xj)
La convergence versEf(h(X))quandntend vers l’infini reste vraie, la diff´erence ´etant que la variance de l’estimateur est alors
1 n
Z
Ω
(h(t)f(t)
g(t) −Ef(h(X)))2g(t)dt (2)
Un choix judicieux deg peut r´eduire cette variance et donc l’amplitude des intervalles de confiance.
Echantillonnage pr´ef´erentiel
Choix deg
Prendre une fonction qui ´echantillonne pr´ef´erentiellement dans les r´egions o`ufh est ´elev´e et telle queR
Ω
f2(t)h2(t)
g(t) dt converge (ce qui revient `a dire que la variance de l’estimateur existe).
Exemple :On cherche `a d´eterminer la p-valeurP(Z >4)quandZ suit une loi normale centr´ee r´eduite.
I f la densit´e d’une loi normale centr´ee r´eduite eth(t) =It>4. La m´ethode de Monte-Carlo appliqu´ee `ah etf va dans ce cas se r´ev´eler tr`es lente puisque l’´enorme majorit´e des valeurs ´echantillonn´ees suivantN(0,1)vont ˆ
etre inf´erieures `a4(la vraie valeur recherch´ee ´etant de3.2 10−5, `a peu pr`es1valeur sur30000sera non nulle).
I Echantillonnage pr´ef´erentiel avecg la densit´e d’une loi exponentielle de param`etre 14. La proportion de valeurs ´echantillon´ees non nulle passe alors
`
a plus d’un tiers, acc´elerant la convergence de l’algorithme.
Echantillonnage pr´ef´erentiel
Choix deg
Prendre une fonction qui ´echantillonne pr´ef´erentiellement dans les r´egions o`ufh est ´elev´e et telle queR
Ω
f2(t)h2(t)
g(t) dt converge (ce qui revient `a dire que la variance de l’estimateur existe).
Exemple :On cherche `a d´eterminer la p-valeurP(Z >4)quandZ suit une loi normale centr´ee r´eduite.
I f la densit´e d’une loi normale centr´ee r´eduite eth(t) =It>4. La m´ethode de Monte-Carlo appliqu´ee `ah etf va dans ce cas se r´ev´eler tr`es lente puisque l’´enorme majorit´e des valeurs ´echantillonn´ees suivantN(0,1)vont ˆ
etre inf´erieures `a4(la vraie valeur recherch´ee ´etant de3.2 10−5, `a peu pr`es1valeur sur30000sera non nulle).
I Echantillonnage pr´ef´erentiel avecg la densit´e d’une loi exponentielle de param`etre 14. La proportion de valeurs ´echantillon´ees non nulle passe alors
`
a plus d’un tiers, acc´elerant la convergence de l’algorithme.
Pour et contre
Avantages des m´ethodes num´eriques I Elles tiennent en compte la forme de la fonctionh;
I Elles sont plus rapides pour les fonctions r´eguli`eres et en petite dimension.
Avantage de l’approche stochastique I Elle ne passe pas beaucoup de temps
`
a g´erer les difficult´es de r´egularit´e dans les zones de faible probabilit´es ;
I.2 Optimisation - Estimation
Estimation param´etrique fr´equentiste
On dispose d’un ´echantillonx= (x1, . . . ,xn)de donn´ees.
I on fait l’hypoth`ese que les observations suivent une loi connue qui d´epend d’un vecteur de param`etresθ= (θ1, . . . , θp).
I on fait l’hypoth`ese que les observations sont ind´epedantes et on en d´eduit la vraisemblanceLde l’observation.
I on estime les param`etres en maximisant la vraisemblance.
Remarque :Quitte `a remplacer le fonction `a optimiser par son oppos´e, maximiser et minimiser une fonction sont le mˆeme probl`eme.
M´ethode 1 : R´esolution analytique
I La vraisemblance est une fonction qu’on sait maximiser en plusieurs variables et on obtient des formules closes d’estimation.
Exemple :On suppose que les tiragesXi suivent une loi normaleN(µ, σ2). La log-vraisemblance de l’´echantillonx= (x1, . . . ,xn)vaut alors
logL=−n
2log(2πσ) +
n
X
i=1
(xi−µ)2 σ2
et les valeurs maximisant cette fonction `a deux variables sontµˆ=xet ˆ
σ2=n−11 Pn
i=1(xi−x)2.
Donn´ees censur´ees
La vraisemblance peut cependant ˆetre trop compliqu´ee pour ˆetre optimis´ee analytiquement.
I Si la variable qu’on mesure est le minimum entre plusieurs variables. Par exemple dans des ´etudes de survie, o`u plusieurs raisons peuvent faire sortir le patient de la cohorte.
ExempleX =min(X1,X2)avecX1∼µ∞, σ∈∞etX2∼µ∈, σ∈∈.
fY(x) = 1−Φ(x−µ1
σ1
) 1 σ2
φ(x−µ2
σ2
) + 1−Φ(x−µ1
σ1
) 1 σ2
φ(x−µ2
σ2
)
M´ethode 2 : Descente de gradient
On choisit un point de d´epartx0et on construit une suite de pointsθi suivant la relation de r´ecurrence
xi+1=xi−αi∇h(xi) o`u(αi)est une suite positive tendant vers0.
I Converge vers un minimum local
I Converge vers le minimum global si la fonction est convexe
Distributions multimodales
I La vraisemblance peut avoir un grand nombre de maxima locaux, et il faut tous les d´eterminer pour trouver le maximum global.
Exemple :Une alternative `a la loi normale est la loi de Student de loiT(p, µ, σ).
Sa densit´e estt(x) = σ1 1 +(x−µ)pσ22
−p+12
. Pourp connu et(µ, σ)inconnus, la vraisemblance
L= 1 σn
n
Y
i=1
1 +(xi−µ)2 pσ2
−p+12
anmaxima locaux.
Mod`eles de m´elanges
I Si le mod`ele comprend des variables cach´ees, la vraisemblance contient un nombre exponentiel de termes
I La vraisemblance est possiblement multimodale
I Dans ce cas, l’algorithme EM est une alternative (cf algo stat) ExempleMod`ele de m´elange `aK classes : chaque individu appartient `a la classei avec probabilit´eαi. La distribution deX dans la classeαi estfi.
L(x) =
n
Y
j=1 K
X
i=1
αifi(xj)
D´evelopper cette vraisemblance am`enerait `aKn termes.
M´ethode 3 : Monte-Carlo pour l’optimisation
Soith la fonction `a maximiser.
I On simule une suite de valeurs(xi)1≤i≤n suivant une loif et on renvoie maxh(xi).
I Choisirf ind´ependamment dehrisque d’entraˆıner une convergence tr`es lente car on risque de devoir simuler tr`es longtemps avoir de tirer des points suffisamment proches des endroits o`uh prend son maximum.
I Une famille de loi couramment utilis´ee dans ce but est de de choisir H(θ)∝exp(h(θ)/T)pourT>0(le param`etreT est appel´e temp´erature).
Une distribution de ce type prend son maximum au mˆeme endroit queh.
De plus, quand la temp´erature tend vers0, la distributionH se concentre autour des points o`u le maximum est atteint.
Remarque :N´ecessite de pouvoir simuler suivant une loi qu’on ne connaˆıt qu’`a une constante multiplicative pr`es.
I.3 Statistiques bay´esiennes
Statistiques bay´esiennes : Id´ee g´en´erale
I Approche diff´erente de l’approche fr´equentiste : les param`etresθ sont consid´er´ees des variables al´eatoires.
I On munitθd’uneloi`a prioriP(θ), ne d´ependant pas des donn´ees.
On peut la choisir non-informative ou au contraire y injecter des connaissances `a priori sur le probl`eme.
I On d´efinit une loi des observations ´etant donn´e les param`etresP(x|θ), comme dans le cas fr´equentiste.
I On utilise la formule de Bayes
P(θ|x) =P(x|θ)P(θ)
P(x) (3)
I On en d´eduit la loiloi`a posterioriP(θ|x). Elle correspond `a la vision de la loi deθapr`es qu’on ait vu les donn´ees.
Statistiques bay´esiennes
Avantages
I Il est possible d’int´egrer des connaissances autres que celles de l’observationxdans la loi `a priori.
I Le r´esultat pourθ´etant une loi et non pas une valeur, on obtient ais´ement des intervalles de confiance en consid´erant les quantiles ad´equats.
Statistiques bay´esiennes : exemple (inspir´e de Dobson et Barnett)
On consid`ere qu’un village est touch´e de fa¸con end´emique par un ver parasitaire (Schistosoma japanicum) si plus de la moiti´e du village est infect´e.
Soitθla proportion de villageois touch´es.
On examine10personnes, dont7sont touch´ees. On a alors la vraisemblance P(x|θ) = 107
θ7(1−θ)3. Cas 1 : pas d’`a priori
Si on a aucun `a-priori sur la valeur deθ, on choisit le distribution uniforme U[0,1].
On obtient la loi `a post´eriori
P(θ|x)∝θ7(1−θ)3
Le r´esultat en terme d’interpr´etation et d’intervalle de confiance est tr`es proche du l’intervalle de confiance fr´equentiste.
Statistiques bay´esiennes : exemple (inspir´e de Dobson et Barnett)
On consid`ere qu’un village est touch´e de fa¸con end´emique par un ver parasitaire (Schistosoma japanicum) si plus de la moiti´e du village est infect´e.
Soitθla proportion de villageois touch´es.
On examine10personnes, dont7sont touch´ees. On a alors la vraisemblance P(x|θ) = 107
θ7(1−θ)3.
Statistiques bay´esiennes : exemple (inspir´e de Dobson et Barnett)
On consid`ere qu’un village est touch´e de fa¸con end´emique par un ver parasitaire (Schistosoma japanicum) si plus de la moiti´e du village est infect´e.
Soitθla proportion de villageois touch´es.
On examine10personnes, dont7sont touch´ees. On a alors la vraisemblance P(x|θ) = 107
θ7(1−θ)3. Cas 2 : un `a-priori d´efavorable
Des donn´ees autres (salubrit´e, acc`es `a l’eau, aux sons...) nous font penser qu’il y a une plus grande chance qu’il y ait beaucoup d’infect´es. On choisit par exemple une loi `a-priori de densit´e2θ.
On obtient alors la loi `a post´eriori
P(θ|x)∝θ8(1−θ)3
Le r´esultat en terme d’interpr´etation diff`ere maintenant du cas fr´equentiste puisque la valeurθde plus grande probabilit´e `a posteriori est maintenant
8
11 >107. Cette diff´erence s’accroit ´evidemment si la distribution `a priori penche encore plus fortement vers les grandes valeurs.
Hyperparam`etres
Remarques
I Si les lois `a priori et `a post´eriori d´ependent de param`etres, on les appellent deshyperparam`etres.
I Pour une forme vraisemblance donn´ee, il existe parfois une forme
fonctionnelle pour la loi `a priori telle que la loi `a post´eriori est de la mˆeme famille fonctionnelle. On parle alors deloi conjugu´ee. Par exemple, pour une vraisemblance binomiale, une `a priori en loi Beta donnera une post´erieure en loi Beta.
Inf´erer la loi `a posteriori revient alors `a d´eterminer les hyperparam`etres.
Exemple :Dans l’exemple pr´ec´edent, o`up(x|θ)suit une loi binomiale, on sait que si la loi `a priori est une loi Beta, la loi `a posteriori sera ´egalement une loi Beta. On peut par exemple mettre en place une proc´edure du type :
I partir d’une distribution non-informativeBeta(1,1).
I faire des premi`eres mesures et obtenir une distributionBeta(a1,b1).
I Si de nouvelles mesures sont disponibles, partir de l’`a-prioriBeta(a1,b1)et obtenir une nouvelle distributionBeta(a2,b2)
I ...
Statistique bay´esienne
Pourquoi simuler en bay´esien ?
P(θ|x) =P(x|θ)P(θ)
P(x) (4)
Le d´enominateur ne peut en g´en´eral pas se d´eterminer autrement que par P(x) =
Z
P(x|θ)P(θ)dθ (en rempla¸cantR
dθparP
θ le cas ´ech´eant).
Cette quantit´e ne peut pas ˆetre calcul´ee dans la plupart des cas.
Intervalle de confiance
I Savoir simuler sous la loi `a post´eriori permet de d´eterminer des intervalles de confiance pourθ.
Exemple :Consid´erons une r´egression logistique o`u la variable observ´ee v´erifie P(Y = 1) = exp(xtθ)
1 +exp(xtθ)
Obtenir un intervalle de confiance pourθne peut ˆetre fait de fa¸con th´eorique.
Consid´erer l’approche bay´esienne puis simuler sous la loi `a posteriorip(θ|x,y) est une mani`ere d’y arriver.
I Il faut ˆetre capable de simuler sous une loi connue `a une constante pr`es.
I.4 Premiers algorithmes de simulation
Distribution uniforme U[0,1]
I Il n’est pas possible de produire une liste de nombre compl`etement al´eatoire. On produit forc´ement une suite(un)n∈N
I Algorithmes de congruence :xn+1=Axn+B[M]etun=xMn
I Algorithmes de d´eplacement de registre :xn∈[0,2k−1]est repr´esent´e par le vecteurXn ∈ {0,1}de sa s´equence de bits.XN+1=AXN o`uAest une matrice binaire fix´ee etun+1= xn+12k
I Ces deux m´ethodes donnent des suites p´eriodiques. L’algorithme KISS qui alterne les deux permet d’obtenir une p´eriode de295.
I Toute une batterie de tests (Kolmogorov-Smirnov, DieHard, ...) ne permettent pas d’invalider que la suite obtenue est distribu´ee uniform´ement.
Distribution quelconque de fonction de r´epartition connue
Propri´et´e
SoitF la fonction de r´epartition deX. On consid`ere l’inverse g´en´eralis´e deF F−(u) =inf{x;F(x)≥u}
Alors, siU suit une loi uniforme sur[0,1],F−(U)suit la loi deX.
Exemple :SiX ∼ E(1), on aF(x) = 1−e−x. Son inverse est F−(u) =−log(1−u).
Par cons´equent, siU suit une loi uniforme sur[0,1],−logU suit une loiE(1)
Transformation d’une loi simulable
Theoreme de Box-Muller
SoitRetΘdes variables al´eatoires telles queR∼ E(12 etΘ∼ U[0,1]. Alors X =√
Rcos(2πΘ)etY =√
Rsin(2πΘ)sont ind´ependantes et de loiN(0,1).
I Probl`eme : manque de g´en´eralit´e, il faut d´eterminer une m´ethode par distribution
M´ethode d’acceptation-rejet
Soitf la densit´e sous laquelle on cherche `a simuler, appel´eedensit´e cible. On consid`ere une autre densit´eg, appel´edensit´e instrumentale, telle que :
I il est ais´e de simuler suivantg
I supp(f)⊂supp(g)
I il existe une constanteM telle quef(x)≤Mg(x)pour toutx.
Algorithme d’acceptation-rejet 1. G´en´ererY suivant la loig. 2. G´en´ererU suivant une loiU[0,1]
3. Accepter (c’est-`a-dire ajouter `a l’´echantillon) la valeurY siU < Mg(Y)f(Y)
M´ethode d’acceptation-rejet
Propri´et´e
L’´echantillon g´en´er´e par la m´ethode pr´ec´edente suit la loi deX.
I Le choix deM est important. SiM est choisi trop grand, l’algorithme prend plus de temps `a converger.
I Dans certaines situations (stat bay´esiennes par exemple),f n’est connue qu’`a une constante pr`es : comment choisirM?
Simulation vs M´ethode d´eterministes
Avantages de la simulation I pas besoin de connaitre la forme de la distribution
I s’adapte aux distributions mutimodales
I on passe peu de temps sur les zones de faible probabilit´e, qui impacte peu le r´esultat
Avantages du d´eterminisme I on tire parti de la forme de la distribution
I plus pr´ecis et efficace sur les distributions lisses/
unimodales/ en faible dimension
II. Chaˆınes de Markov
D´efinition
Chaˆıne de Markov
Une suite(Xi)i≥0 de v.a. discr`etes est appel´eechaˆıne de Markovsi elle v´erifie lapropri´et´e de Markov, qui caract´erise les processus sans m´emoire :
P(Xi+1=xi+1|Xi =xi,Xi−1=xi−1, . . . ,X0=x0) =P(Xi+1=xi+1|Xi =xi)
On noteπi la distribution deXi. La chaˆıne est alors caract´eris´ee de fa¸con unique par la distributionπ0 et par sesprobabilit´es de transition((pqr))q,r∈S2
entre ´etats
pqr =P(Xi+1=r|Xi =q)
La matriceP (´eventuellement infinie siS est un ensemble d´enombrable) regroupant les((pqr))q,r∈S2 est appel´eematrice de transition de la chaˆıne de Markov.
Probabilit´e d’une trajectoire
Soit(x0, . . . ,xn)une trajectoire. Sa vraisemblance est
P(Xn =xn,Xn−1=xn−1, . . . ,X0=x0) =
n−1
Y
i=0
pxixi+1π0(x0) =π0(x0)Y
q,r
pqrnqr
On peut alors estimer les probabilit´es de transition parpˆqr =nSTn .
Mesure invariante
Pour toutn≥1,
πnt =πtn−1P (5)
Par cons´equent,
πtn=πt0Pn (6)
La deuxi`eme ´egalit´e implique que la suite des distributions converge si et seulement la suite des puissances de la matrice de transition converge. La premi`ere implique que si une limiteµexiste pour les distributionsπi, elle v´erifie
µt=µtP
Une mesure v´erifiant cette ´egalit´e est appel´eemesure invariantede la chaˆıne de Markov.
Classification : chaˆıne p´eriodique
D´efinition
Une chaˆıne est p´eriodique si il existek ≥2tel que sa matrice de transition v´erifiePk=I. Si ce n’est pas le cas, elle est dite ap´eriodique.
Remarque :En pratique, on construit toujours les chaˆınes de fa¸con `a ce qu’elles soient non p´eriodiques.
Classification : ´etat r´ecurrent/transient
Soitv un ´etat etp la probabilit´e, ´etant donn´e que le point de d´epart de la chaˆıne estv, de revenir env.
I Sip= 1,v est un ´etatr´ecurrent.
I En particulier, sipvv= 1, l’´etat est ditabsorbant.
I Sip<1, l’´etat est dittransientoutransitoire.
Dans ce cas, le nombre de passages env de la marche est presque sˆurement fini et suit une loi g´eom´etrique de param`etrep.
Classification : ´etat r´ecurrent/´etat transient
I Une chaˆıne de Markov peut etre repr´esent´ee par un graphe orient´eG: (u,v)est une arˆete ssipuv6= 0.
I Unecomposante fortement connexedu graphe est un ensemble maximalS de sommets v´erifiant la propri´et´e suivante : pour toute paire de sommetsu etv deS, il existe un chemin dirig´e deu versv et un chemin dirig´e dev versu.
I SoitH un graphe ayant un sommet pour chaque composante fortement connexe deG et tel que(u,v)∈E(H)s’il existe une arˆete deGallant de la composante correspondant `au `a la composante correspondant `av. Alors le grapheH est acyclique. De plus, les ´etats r´ecurrents sont les ´etats situ´es dans les composantes connexes dont le degr´e sortant dansH est nul.
Definition
Une chaˆıne de Markov estirr´eductiblesi le graphe associ´e est fortement connexe, ou autrement dit s’il existe un chemin entre toute paire d’´etats.
Classification : Etat r´ecurrent positif
I On consid`ere une marche al´eatoire sym´etrique surZ, pour laquelle `a chapque ´etape on fait un pas vers la gauche ou vers la droite avec probabilit´e 12. On peut d´emontrer que dans ce cas la probabilit´e de retour en0est de1mais que l’esp´erance du temps de retour en0est infinie.
D´efinition
Un ´etat estr´ecurrent positifs’il est r´ecurrent et que l’esp´erance du temps de retour en cet ´etat, partant de cet ´etat, est fini. En d’autres termes, si la chaˆıne passe en fois par cet ´etat, elle y passera infiniment souvent.
I Si la chaˆıne est finie et irr´eductible, tout ´etat est r´ecurrent positif ;
I On consid`ere une marche al´eatoire non sym´etrique surZ, telle qu’on fait un pas vers0avec probabilit´ep>12 et un pas oppos´e avec probabilit´e q = 1−p. On peut alors montrer que0est r´ecurrent positif.
Th´eor`eme de convergence
Th´eor`eme
On consid`ere une chaˆıne de Markov irr´eductible et ap´eriodique, admettant un
´etat r´ecurrent positif. Alors tous les ´etats sont r´ecurrent positifs et il existe une unique mesure invariantepi.
De plus,quel que soit la mesure initialeπ0, la suite des loisπndesXnconverge versπ.
La d´emonstrationse fait en deux ´etapes
1. unicit´e de la mesure invariante : th´eor`eme de Perron-Frobenius 2. convergence vers la mesure invariante
Th´eor`eme de Perron-Frobenius
Th´eor`eme
SoitP la matrice d’une chaˆıne de Markov irr´eductible. Alors : 1. 1est une valeur propre simple.
2. tout vecteur propre `a gauche associ´e `a1a toutes ses coordonn´ees de mˆeme signe. En particulier, celui de somme1correspond bien `a une distribution de probabilit´es.
3. si la chaˆıne est ap´eriodique, toute autre valeur propreλv´erifie|λ|<1.
En d’autres termes, toute chaˆıne de Markov irr´eductible admet une unique mesure de probabilit´e invariante.
Convergence
Th´eor`eme
SoitP la matrice d’une chaˆıne de Markov irr´eductible et ap´eriodique etµ l’unique mesure invariante associ´ee. Alors, pour toutX0,limtn→+∞π0Pn =tµ.
De plus, la vitesse de convergence est en|λ2|n, o`uλ2 est la valeur propre de valeur absolue maximale parmi les valeurs propres diff´erentes de1.
Id´ee de la d´emonstration : Ecriretπ0 dans une base de vecteurs propres `a gauche deP.
Th´eor`eme ergodique
Th´eor`eme
On consid`ere une chaˆıne de Markov irr´eductible ap´eriodique de mesure invarianteP
q∈Sπq|f(q)|<+∞.
Alors,
n→+∞lim 1 n
n
X
i=0
f(Xi) =X
q∈S
πqf(q)
Pour simuler un ´echantillon suivant la loiπ, il n’est pas n´ecessaire de faire converger un grand nombre de chaˆınes : il suffit de mener une chaˆıne suffisamment longue.
D´efinition
Une suite de variables al´eatoires(Xi)i≥0 d´efinies sur un ensembleX est une chaˆıne de MarkovsiXi+1|X0, . . . ,Xi suit la mˆeme loi queXi+1|Xi . La fonctionK telle que
Xi+1|X0, . . . ,Xi ∼K(Xi,Xi+1)
est appel´enoyau markovien. Sifi d´esigne la densit´e deXi, on a alors fi+1(y) =
Z
X
K(x,y)fi(x)dx
Exemple :La marche al´eatoire surRd´efinie parXi+1=Xi+i avec
i ∼ N(0,1)est une chaˆıne de Markov dont le noyauK(Xi,Xi+1)correspond
`a la densit´e deN(Xi,1).
Chaˆıne irr´eductible
D´efinition
La chaˆıne estirr´eductiblesi pour tout choix de la valeur initiale et tout ensembleAde mesurre non nulle, la probabilit´e que la chaˆıne atteigneAest non nulle.
E¯xemple :
I Marche al´eatoireXi+1=Xi+i,i ∼ N(0,1).
I Marche al´eatoireXi+1=Xi+i,i ∼ U[0,1].
I Mod`ele AR(1)Xi+1=aXi+i,i ∼ N(0,1).
Convergence
Loi limite
Si la chaˆıne est irr´eductible, il existe une unique loi stationnairef qui est presque surement la loi limite de la chaˆıne de Markov.
Th´eor`eme ergodique
On consid`ere une chaˆıne de Markov de distribution limitef. Pout toute fonction int´egrableh,
n→+∞lim 1 n
n−1
X
i=0
h(Xi) = Z
X
h(x)f(x)dx
En particulier, en prenant pourh la fonction indicatrice d’un sous-ensembleA deX, on obtient que la mesure deAsuivantf est ´egale `a la proportion des
´el´ements de la chaˆıne appartenant `aAquand la chaˆıne devient infinie.
En d’autres termes,g´en´erer une chaˆıne suffisamment longue de noyau K revient `a simuler suivantf.
III. Algorithmes de Metropolis-Hastings
III.1 Algorithme g´en´eral
Principe
Points communs avec la m´ethode d’acceptation-rejet
I f unedistribution cible, suivant laquelle on cherche `a simuler.
I q une distribution de proposition, selon laquelle on va ´echantillonner, en acceptant la proposition avec une probabilit´e donn´ee
Diff´erence
I q d´epend de la valeur pr´ec´edente de l’´echantillon :q() =q(.|x)
I Si la proposition `a partir dexn est refus´ee, on posexn+1=xn : l’´echantillon contiendra des valeurs r´ep´et´ees
I L’´echantillon correspond `a une trajectoire d’une chaˆıne de Markov.
Algorithme de Metropolis-Hastings
Etant donn´exn,
1. G´en´ereryn∼q(y|xn) 2. Choisir
xn+1=
yn avec probabilit´e ρ(xn,yn) xn avec probabilit´e 1−ρ(xn,yn) o`u
ρ(x,y) = minf(y) f(x)
q(x|y) q(y|x),1
Algorithme de Metropolis-Hastings
Th´eor`eme
Les(xn)forment une chaˆıne de Markov. Siq est tel que cette chaˆıne est irr´eductible, sa distribution limite estf.
I Toute loi de propositionq rendant la chaˆıne irr´eductible convient
I Contrairement `a l’algorithme d’acceptation-rejet, on a plus besoin d’´evaluermaxfq.
Le choix deq n’influe pas sur le fait qu’il y a convergence, mais il influe sur la vitesse de celle-ci. Certains choix sont privil´egi´es.
III.2 Algorithme ind´ependant
Algorithme de Metropolis-Hastings ind´ependant
I la proposition ne d´epend pas de la valeur courante.
Etant donn´exn, 1. G´en´ereryn∼g(y) 2. Choisir
xn+1=
yn avec probabilit´e ρ(xn,yn) xn avec probabilit´e 1−ρ(xn,yn) o`u
ρ(x,y) = minf(y) f(x)
g(x) g(y),1
Algorithme de Metropolis-Hastings ind´ependant
I tr`es ressemblant `a l’acceptation-rejet
I pas besoin d’´evaluermaxgf, mais on perd l’ind´ependance entre les valeurs de l’´echantillon
I la convergence sera d’autant plus rapide que la distributiong est proche def