• Aucun résultat trouvé

Algorithme MCMC

N/A
N/A
Protected

Academic year: 2022

Partager "Algorithme MCMC"

Copied!
114
0
0

Texte intégral

(1)

Algorithme MCMC

11 novembre 2015

(2)

I. Introduction

(3)

definition

Un algorithmeMarkov Chain Monte Carlo(MCMC) est un algorithme stochastique qui permet de simuler une distribution `a l’aide d’une chaˆıne de Markov.

(4)

definition

Un algorithmeMarkov Chain Monte Carlo(MCMC) est un algorithme stochastique qui permet de simuler une distribution `a l’aide d’une chaˆıne de Markov.

1. Pourquoi et comment simuler ? Premiers algorithmes stochastiques.

2. Chaˆınes de Markov

3. MCMC par l’approche de Metropolis-Hastings 4. MCMC par ´echantillonneur de Gibbs

(5)

I. Pourquoi et comment simuler ? Premiers algorithmes stochastiques

(6)

I.1 Calculs d’int´egrales

(7)

M´ethodes d´eterministes

Probl`eme eterminer

I = Z b

a

h(t)dt

I Calcul d’int´egrale

I ethode des trap`ezes Iˆ=

n−1

X

i=1

(xi+1xi)h(xi) +h(xi+1) 2

I ethode des splines

I . . .

(8)

M´ethode de Monte-Carlo

On re´ecrit le probl`eme sous la forme suivante : Probl`eme

eterminer

I = Z

Omega

h(t)f(t)dt o`uf esigne une densit´e sur l’espaceΩ.

I Ω = [a,b]

I La nouvelle fonctionh es l’ancienne fonctionhdivis´ee parf

I Le choix def est libre sous la conditionsupp(f) Id´ee cl´e

On a re´ecritI sous la forme

I =Ef(h(X))

(9)

Rappel

Loi forte des grands nombres

SoientX1,X2,· · ·,Xn des variables al´eatoires de mˆeme loi qu’une variable al´eatoireX.

Alors, presque sˆurement (c’est-`a-dire avec probabilit´e1),

n→+∞lim

X1+. . .+Xn

n =EX

TCL

SoientX1,· · ·,Xn des variables al´eatoires ind´ependantes et identiquement distribu´ees d’esp´eranceµet de varianceσ2. On noteXn=n−1Pn

i=1Xi. Alors la loi de Xσ/n−µn tend vers la loi normale centr´ee r´eduite.

En d’autre termes, pour tousa etbeels, limn→∞P

a

n

Ynµ σ

b

=P(aZ b)

o`uZ est une variable gaussienne centr´ee r´eduite,Z ∼ N(0,1).

Remarque :Ce r´esultat reste vrai quandσest remplac´e parbσ, un estimateur consistant deσ.

(10)

M´ethode de Monte-Carlo pour le calcul d’int´egrale

Id´ee cl´e

On a re´ecritI sous la forme

I =Ef(h(X))

Soit(xi)1≤i≤n un ´echantillon simul´ees suivant la distributionf et hn= 1

n

n

X

i=1

h(xj)

I La loi forte des grands nombres certifie alors que, presque sˆurement, limn→∞hn=Ef(h(X)) =I.

(11)

M´ethode de Monte-Carlo pour le calcul d’int´egrale

I Le TCL permet d’estimer l’erreur commise : Var(hn) = 1

nVar(h(X)) = 1 n

Z

(h(t)Ef(h(X)))2f(t)dt

Cette variance peut ˆetre estim´ee de fa¸con consistante par vn = 1

n2

n

X

i=1

(h(xj)hn)2 .

Remarque :La m´ethode se g´en´eralise au cas des distributions discr`etes (en rempla¸cant les int´egrales par des sommes) et au cas des distributions `a plusieurs dimensions (en consid´erant des int´egrales multiples).

(12)

Echantillonnage pr´ef´erentiel

Soitg une densit´e d´efinie surtelle quesupp(h×f)supp(g).

Ef(h(X)) = Z

h(t)f(t)

g(t) g(t)dt=Eg(h(X)f(X)

g(X) ) (1)

La m´ethode de Monte-Carlo peut alors ˆetre appliqu´ee en ´echantillonant suivant g plutˆot que suivantf et en approchant l’int´egrale par

1 n

n

X

i=1

h(xj)f(xj) g(xj)

La convergence versEf(h(X))quandntend vers l’infini reste vraie, la diff´erence ´etant que la variance de l’estimateur est alors

1 n

Z

(h(t)f(t)

g(t) −Ef(h(X)))2g(t)dt (2)

Un choix judicieux deg peut r´eduire cette variance et donc l’amplitude des intervalles de confiance.

(13)

Echantillonnage pr´ef´erentiel

Choix deg

Prendre une fonction qui ´echantillonne pr´ef´erentiellement dans les r´egions o`ufh est ´elev´e et telle queR

f2(t)h2(t)

g(t) dt converge (ce qui revient `a dire que la variance de l’estimateur existe).

Exemple :On cherche `a d´eterminer la p-valeurP(Z >4)quandZ suit une loi normale centr´ee r´eduite.

I f la densit´e d’une loi normale centr´ee r´eduite eth(t) =It>4. La m´ethode de Monte-Carlo appliqu´ee `ah etf va dans ce cas se r´ev´eler tr`es lente puisque l’´enorme majorit´e des valeurs ´echantillonn´ees suivantN(0,1)vont ˆ

etre inf´erieures `a4(la vraie valeur recherch´ee ´etant de3.2 10−5, `a peu pr`es1valeur sur30000sera non nulle).

I Echantillonnage pr´ef´erentiel avecg la densit´e d’une loi exponentielle de param`etre 14. La proportion de valeurs ´echantillon´ees non nulle passe alors

`

a plus d’un tiers, acc´elerant la convergence de l’algorithme.

(14)

Echantillonnage pr´ef´erentiel

Choix deg

Prendre une fonction qui ´echantillonne pr´ef´erentiellement dans les r´egions o`ufh est ´elev´e et telle queR

f2(t)h2(t)

g(t) dt converge (ce qui revient `a dire que la variance de l’estimateur existe).

Exemple :On cherche `a d´eterminer la p-valeurP(Z >4)quandZ suit une loi normale centr´ee r´eduite.

I f la densit´e d’une loi normale centr´ee r´eduite eth(t) =It>4. La m´ethode de Monte-Carlo appliqu´ee `ah etf va dans ce cas se r´ev´eler tr`es lente puisque l’´enorme majorit´e des valeurs ´echantillonn´ees suivantN(0,1)vont ˆ

etre inf´erieures `a4(la vraie valeur recherch´ee ´etant de3.2 10−5, `a peu pr`es1valeur sur30000sera non nulle).

I Echantillonnage pr´ef´erentiel avecg la densit´e d’une loi exponentielle de param`etre 14. La proportion de valeurs ´echantillon´ees non nulle passe alors

`

a plus d’un tiers, acc´elerant la convergence de l’algorithme.

(15)

Pour et contre

Avantages des m´ethodes num´eriques I Elles tiennent en compte la forme de la fonctionh;

I Elles sont plus rapides pour les fonctions r´eguli`eres et en petite dimension.

Avantage de l’approche stochastique I Elle ne passe pas beaucoup de temps

`

a g´erer les difficult´es de r´egularit´e dans les zones de faible probabilit´es ;

(16)

I.2 Optimisation - Estimation

(17)

Estimation param´etrique fr´equentiste

On dispose d’un ´echantillonx= (x1, . . . ,xn)de donn´ees.

I on fait l’hypoth`ese que les observations suivent une loi connue qui d´epend d’un vecteur de param`etresθ= (θ1, . . . , θp).

I on fait l’hypoth`ese que les observations sont ind´epedantes et on en d´eduit la vraisemblanceLde l’observation.

I on estime les param`etres en maximisant la vraisemblance.

Remarque :Quitte `a remplacer le fonction `a optimiser par son oppos´e, maximiser et minimiser une fonction sont le mˆeme probl`eme.

(18)

M´ethode 1 : R´esolution analytique

I La vraisemblance est une fonction qu’on sait maximiser en plusieurs variables et on obtient des formules closes d’estimation.

Exemple :On suppose que les tiragesXi suivent une loi normaleN(µ, σ2). La log-vraisemblance de l’´echantillonx= (x1, . . . ,xn)vaut alors

logL=n

2log(2πσ) +

n

X

i=1

(xiµ)2 σ2

et les valeurs maximisant cette fonction `a deux variables sontµˆ=xet ˆ

σ2=n−11 Pn

i=1(xix)2.

(19)

Donn´ees censur´ees

La vraisemblance peut cependant ˆetre trop compliqu´ee pour ˆetre optimis´ee analytiquement.

I Si la variable qu’on mesure est le minimum entre plusieurs variables. Par exemple dans des ´etudes de survie, o`u plusieurs raisons peuvent faire sortir le patient de la cohorte.

ExempleX =min(X1,X2)avecX1µ, σetX2µ, σ.

fY(x) = 1Φ(xµ1

σ1

) 1 σ2

φ(xµ2

σ2

) + 1Φ(xµ1

σ1

) 1 σ2

φ(xµ2

σ2

)

(20)

M´ethode 2 : Descente de gradient

On choisit un point de d´epartx0et on construit une suite de pointsθi suivant la relation de r´ecurrence

xi+1=xiαi∇h(xi) o`ui)est une suite positive tendant vers0.

I Converge vers un minimum local

I Converge vers le minimum global si la fonction est convexe

(21)

Distributions multimodales

I La vraisemblance peut avoir un grand nombre de maxima locaux, et il faut tous les d´eterminer pour trouver le maximum global.

Exemple :Une alternative `a la loi normale est la loi de Student de loiT(p, µ, σ).

Sa densit´e estt(x) = σ1 1 +(x−µ)22

p+12

. Pourp connu et(µ, σ)inconnus, la vraisemblance

L= 1 σn

n

Y

i=1

1 +(xiµ)2 2

p+12

anmaxima locaux.

(22)

Mod`eles de m´elanges

I Si le mod`ele comprend des variables cach´ees, la vraisemblance contient un nombre exponentiel de termes

I La vraisemblance est possiblement multimodale

I Dans ce cas, l’algorithme EM est une alternative (cf algo stat) ExempleMod`ele de m´elange `aK classes : chaque individu appartient `a la classei avec probabilit´eαi. La distribution deX dans la classeαi estfi.

L(x) =

n

Y

j=1 K

X

i=1

αifi(xj)

evelopper cette vraisemblance am`enerait `aKn termes.

(23)

M´ethode 3 : Monte-Carlo pour l’optimisation

Soith la fonction `a maximiser.

I On simule une suite de valeurs(xi)1≤i≤n suivant une loif et on renvoie maxh(xi).

I Choisirf ind´ependamment dehrisque d’entraˆıner une convergence tr`es lente car on risque de devoir simuler tr`es longtemps avoir de tirer des points suffisamment proches des endroits o`uh prend son maximum.

I Une famille de loi couramment utilis´ee dans ce but est de de choisir H(θ)exp(h(θ)/T)pourT>0(le param`etreT est appel´e temp´erature).

Une distribution de ce type prend son maximum au mˆeme endroit queh.

De plus, quand la temp´erature tend vers0, la distributionH se concentre autour des points o`u le maximum est atteint.

Remarque :ecessite de pouvoir simuler suivant une loi qu’on ne connaˆıt qu’`a une constante multiplicative pr`es.

(24)

I.3 Statistiques bay´esiennes

(25)

Statistiques bay´esiennes : Id´ee g´en´erale

I Approche diff´erente de l’approche fr´equentiste : les param`etresθ sont consid´er´ees des variables al´eatoires.

I On munitθd’uneloi`a prioriP(θ), ne d´ependant pas des donn´ees.

On peut la choisir non-informative ou au contraire y injecter des connaissances `a priori sur le probl`eme.

I On d´efinit une loi des observations ´etant donn´e les param`etresP(x|θ), comme dans le cas fr´equentiste.

I On utilise la formule de Bayes

P(θ|x) =P(x|θ)P(θ)

P(x) (3)

I On en d´eduit la loiloi`a posterioriP(θ|x). Elle correspond `a la vision de la loi deθapr`es qu’on ait vu les donn´ees.

(26)

Statistiques bay´esiennes

Avantages

I Il est possible d’int´egrer des connaissances autres que celles de l’observationxdans la loi `a priori.

I Le r´esultat pourθ´etant une loi et non pas une valeur, on obtient ais´ement des intervalles de confiance en consid´erant les quantiles ad´equats.

(27)

Statistiques bay´esiennes : exemple (inspir´e de Dobson et Barnett)

On consid`ere qu’un village est touch´e de fa¸con end´emique par un ver parasitaire (Schistosoma japanicum) si plus de la moiti´e du village est infect´e.

Soitθla proportion de villageois touch´es.

On examine10personnes, dont7sont touch´ees. On a alors la vraisemblance P(x|θ) = 107

θ7(1θ)3. Cas 1 : pas d’`a priori

Si on a aucun `a-priori sur la valeur deθ, on choisit le distribution uniforme U[0,1].

On obtient la loi `a post´eriori

P(θ|x)θ7(1θ)3

Le r´esultat en terme d’interpr´etation et d’intervalle de confiance est tr`es proche du l’intervalle de confiance fr´equentiste.

(28)

Statistiques bay´esiennes : exemple (inspir´e de Dobson et Barnett)

On consid`ere qu’un village est touch´e de fa¸con end´emique par un ver parasitaire (Schistosoma japanicum) si plus de la moiti´e du village est infect´e.

Soitθla proportion de villageois touch´es.

On examine10personnes, dont7sont touch´ees. On a alors la vraisemblance P(x|θ) = 107

θ7(1θ)3.

(29)

Statistiques bay´esiennes : exemple (inspir´e de Dobson et Barnett)

On consid`ere qu’un village est touch´e de fa¸con end´emique par un ver parasitaire (Schistosoma japanicum) si plus de la moiti´e du village est infect´e.

Soitθla proportion de villageois touch´es.

On examine10personnes, dont7sont touch´ees. On a alors la vraisemblance P(x|θ) = 107

θ7(1θ)3. Cas 2 : un `a-priori d´efavorable

Des donn´ees autres (salubrit´e, acc`es `a l’eau, aux sons...) nous font penser qu’il y a une plus grande chance qu’il y ait beaucoup d’infect´es. On choisit par exemple une loi `a-priori de densit´e2θ.

On obtient alors la loi `a post´eriori

P(θ|x)θ8(1θ)3

Le r´esultat en terme d’interpr´etation diff`ere maintenant du cas fr´equentiste puisque la valeurθde plus grande probabilit´e `a posteriori est maintenant

8

11 >107. Cette diff´erence s’accroit ´evidemment si la distribution `a priori penche encore plus fortement vers les grandes valeurs.

(30)

Hyperparam`etres

Remarques

I Si les lois `a priori et `a post´eriori d´ependent de param`etres, on les appellent deshyperparam`etres.

I Pour une forme vraisemblance donn´ee, il existe parfois une forme

fonctionnelle pour la loi `a priori telle que la loi `a post´eriori est de la mˆeme famille fonctionnelle. On parle alors deloi conjugu´ee. Par exemple, pour une vraisemblance binomiale, une `a priori en loi Beta donnera une post´erieure en loi Beta.

Inf´erer la loi `a posteriori revient alors `a d´eterminer les hyperparam`etres.

Exemple :Dans l’exemple pr´ec´edent, o`up(x|θ)suit une loi binomiale, on sait que si la loi `a priori est une loi Beta, la loi `a posteriori sera ´egalement une loi Beta. On peut par exemple mettre en place une proc´edure du type :

I partir d’une distribution non-informativeBeta(1,1).

I faire des premi`eres mesures et obtenir une distributionBeta(a1,b1).

I Si de nouvelles mesures sont disponibles, partir de l’`a-prioriBeta(a1,b1)et obtenir une nouvelle distributionBeta(a2,b2)

I ...

(31)

Statistique bay´esienne

Pourquoi simuler en bay´esien ?

P(θ|x) =P(x|θ)P(θ)

P(x) (4)

Le d´enominateur ne peut en g´en´eral pas se d´eterminer autrement que par P(x) =

Z

P(x|θ)P(θ)dθ (en rempla¸cantR

dθparP

θ le cas ´ech´eant).

Cette quantit´e ne peut pas ˆetre calcul´ee dans la plupart des cas.

(32)

Intervalle de confiance

I Savoir simuler sous la loi `a post´eriori permet de d´eterminer des intervalles de confiance pourθ.

Exemple :Consid´erons une r´egression logistique o`u la variable observ´ee v´erifie P(Y = 1) = exp(xtθ)

1 +exp(xtθ)

Obtenir un intervalle de confiance pourθne peut ˆetre fait de fa¸con th´eorique.

Consid´erer l’approche bay´esienne puis simuler sous la loi `a posteriorip(θ|x,y) est une mani`ere d’y arriver.

I Il faut ˆetre capable de simuler sous une loi connue `a une constante pr`es.

(33)

I.4 Premiers algorithmes de simulation

(34)

Distribution uniforme U[0,1]

I Il n’est pas possible de produire une liste de nombre compl`etement al´eatoire. On produit forc´ement une suite(un)n∈N

I Algorithmes de congruence :xn+1=Axn+B[M]etun=xMn

I Algorithmes de d´eplacement de registre :xn[0,2k−1]est repr´esent´e par le vecteurXn ∈ {0,1}de sa s´equence de bits.XN+1=AXN o`uAest une matrice binaire fix´ee etun+1= xn+12k

I Ces deux m´ethodes donnent des suites p´eriodiques. L’algorithme KISS qui alterne les deux permet d’obtenir une p´eriode de295.

I Toute une batterie de tests (Kolmogorov-Smirnov, DieHard, ...) ne permettent pas d’invalider que la suite obtenue est distribu´ee uniform´ement.

(35)

Distribution quelconque de fonction de r´epartition connue

Propri´et´e

SoitF la fonction de r´epartition deX. On consid`ere l’inverse g´en´eralis´e deF F(u) =inf{x;F(x)u}

Alors, siU suit une loi uniforme sur[0,1],F(U)suit la loi deX.

Exemple :SiX ∼ E(1), on aF(x) = 1e−x. Son inverse est F(u) =−log(1u).

Par cons´equent, siU suit une loi uniforme sur[0,1],−logU suit une loiE(1)

(36)

Transformation d’une loi simulable

Theoreme de Box-Muller

SoitRetΘdes variables al´eatoires telles queR∼ E(12 etΘ∼ U[0,1]. Alors X =

Rcos(2πΘ)etY =

Rsin(2πΘ)sont ind´ependantes et de loiN(0,1).

I Probl`eme : manque de g´en´eralit´e, il faut d´eterminer une m´ethode par distribution

(37)

M´ethode d’acceptation-rejet

Soitf la densit´e sous laquelle on cherche `a simuler, appel´eedensit´e cible. On consid`ere une autre densit´eg, appel´edensit´e instrumentale, telle que :

I il est ais´e de simuler suivantg

I supp(f)supp(g)

I il existe une constanteM telle quef(x)Mg(x)pour toutx.

Algorithme d’acceptation-rejet 1. en´ererY suivant la loig. 2. en´ererU suivant une loiU[0,1]

3. Accepter (c’est-`a-dire ajouter `a l’´echantillon) la valeurY siU < Mg(Y)f(Y)

(38)

M´ethode d’acceptation-rejet

Propri´et´e

L’´echantillon g´en´er´e par la m´ethode pr´ec´edente suit la loi deX.

I Le choix deM est important. SiM est choisi trop grand, l’algorithme prend plus de temps `a converger.

I Dans certaines situations (stat bay´esiennes par exemple),f n’est connue qu’`a une constante pr`es : comment choisirM?

(39)

Simulation vs M´ethode d´eterministes

Avantages de la simulation I pas besoin de connaitre la forme de la distribution

I s’adapte aux distributions mutimodales

I on passe peu de temps sur les zones de faible probabilit´e, qui impacte peu le r´esultat

Avantages du d´eterminisme I on tire parti de la forme de la distribution

I plus pr´ecis et efficace sur les distributions lisses/

unimodales/ en faible dimension

(40)

II. Chaˆınes de Markov

(41)

D´efinition

Chaˆıne de Markov

Une suite(Xi)i≥0 de v.a. discr`etes est appel´eechaˆıne de Markovsi elle v´erifie lapropri´et´e de Markov, qui caract´erise les processus sans m´emoire :

P(Xi+1=xi+1|Xi =xi,Xi−1=xi−1, . . . ,X0=x0) =P(Xi+1=xi+1|Xi =xi)

On noteπi la distribution deXi. La chaˆıne est alors caract´eris´ee de fa¸con unique par la distributionπ0 et par sesprobabilit´es de transition((pqr))q,r∈S2

entre ´etats

pqr =P(Xi+1=r|Xi =q)

La matriceP eventuellement infinie siS est un ensemble d´enombrable) regroupant les((pqr))q,r∈S2 est appel´eematrice de transition de la chaˆıne de Markov.

(42)

Probabilit´e d’une trajectoire

Soit(x0, . . . ,xn)une trajectoire. Sa vraisemblance est

P(Xn =xn,Xn−1=xn−1, . . . ,X0=x0) =

n−1

Y

i=0

pxixi+1π0(x0) =π0(x0)Y

q,r

pqrnqr

On peut alors estimer les probabilit´es de transition parpˆqr =nSTn .

(43)

Mesure invariante

Pour toutn1,

πnt =πtn−1P (5)

Par cons´equent,

πtn=πt0Pn (6)

La deuxi`eme ´egalit´e implique que la suite des distributions converge si et seulement la suite des puissances de la matrice de transition converge. La premi`ere implique que si une limiteµexiste pour les distributionsπi, elle v´erifie

µt=µtP

Une mesure v´erifiant cette ´egalit´e est appel´eemesure invariantede la chaˆıne de Markov.

(44)

Classification : chaˆıne p´eriodique

efinition

Une chaˆıne est p´eriodique si il existek 2tel que sa matrice de transition erifiePk=I. Si ce n’est pas le cas, elle est dite ap´eriodique.

Remarque :En pratique, on construit toujours les chaˆınes de fa¸con `a ce qu’elles soient non p´eriodiques.

(45)

Classification : ´etat r´ecurrent/transient

Soitv un ´etat etp la probabilit´e, ´etant donn´e que le point de d´epart de la chaˆıne estv, de revenir env.

I Sip= 1,v est un ´etatecurrent.

I En particulier, sipvv= 1, l’´etat est ditabsorbant.

I Sip<1, l’´etat est dittransientoutransitoire.

Dans ce cas, le nombre de passages env de la marche est presque urement fini et suit une loi g´eom´etrique de param`etrep.

(46)

Classification : ´etat r´ecurrent/´etat transient

I Une chaˆıne de Markov peut etre repr´esent´ee par un graphe orient´eG: (u,v)est une arˆete ssipuv6= 0.

I Unecomposante fortement connexedu graphe est un ensemble maximalS de sommets v´erifiant la propri´et´e suivante : pour toute paire de sommetsu etv deS, il existe un chemin dirig´e deu versv et un chemin dirig´e dev versu.

I SoitH un graphe ayant un sommet pour chaque composante fortement connexe deG et tel que(u,v)E(H)s’il existe une arˆete deGallant de la composante correspondant `au `a la composante correspondant `av. Alors le grapheH est acyclique. De plus, les ´etats r´ecurrents sont les ´etats situ´es dans les composantes connexes dont le degr´e sortant dansH est nul.

Definition

Une chaˆıne de Markov estirr´eductiblesi le graphe associ´e est fortement connexe, ou autrement dit s’il existe un chemin entre toute paire d’´etats.

(47)

Classification : Etat r´ecurrent positif

I On consid`ere une marche al´eatoire sym´etrique surZ, pour laquelle `a chapque ´etape on fait un pas vers la gauche ou vers la droite avec probabilit´e 12. On peut d´emontrer que dans ce cas la probabilit´e de retour en0est de1mais que l’esp´erance du temps de retour en0est infinie.

efinition

Un ´etat estecurrent positifs’il est r´ecurrent et que l’esp´erance du temps de retour en cet ´etat, partant de cet ´etat, est fini. En d’autres termes, si la chaˆıne passe en fois par cet ´etat, elle y passera infiniment souvent.

I Si la chaˆıne est finie et irr´eductible, tout ´etat est r´ecurrent positif ;

I On consid`ere une marche al´eatoire non sym´etrique surZ, telle qu’on fait un pas vers0avec probabilit´ep>12 et un pas oppos´e avec probabilit´e q = 1p. On peut alors montrer que0est r´ecurrent positif.

(48)

Th´eor`eme de convergence

Th´eor`eme

On consid`ere une chaˆıne de Markov irr´eductible et ap´eriodique, admettant un

´etat r´ecurrent positif. Alors tous les ´etats sont r´ecurrent positifs et il existe une unique mesure invariantepi.

De plus,quel que soit la mesure initialeπ0, la suite des loisπndesXnconverge versπ.

La d´emonstrationse fait en deux ´etapes

1. unicit´e de la mesure invariante : th´eor`eme de Perron-Frobenius 2. convergence vers la mesure invariante

(49)

Th´eor`eme de Perron-Frobenius

Th´eor`eme

SoitP la matrice d’une chaˆıne de Markov irr´eductible. Alors : 1. 1est une valeur propre simple.

2. tout vecteur propre `a gauche associ´e `a1a toutes ses coordonn´ees de eme signe. En particulier, celui de somme1correspond bien `a une distribution de probabilit´es.

3. si la chaˆıne est ap´eriodique, toute autre valeur propreλerifie|λ|<1.

En d’autres termes, toute chaˆıne de Markov irr´eductible admet une unique mesure de probabilit´e invariante.

(50)

Convergence

Th´eor`eme

SoitP la matrice d’une chaˆıne de Markov irr´eductible et ap´eriodique etµ l’unique mesure invariante associ´ee. Alors, pour toutX0,limtn→+∞π0Pn =tµ.

De plus, la vitesse de convergence est en2|n, o`uλ2 est la valeur propre de valeur absolue maximale parmi les valeurs propres diff´erentes de1.

Id´ee de la d´emonstration : Ecriretπ0 dans une base de vecteurs propres `a gauche deP.

(51)

Th´eor`eme ergodique

Th´eor`eme

On consid`ere une chaˆıne de Markov irr´eductible ap´eriodique de mesure invarianteP

q∈Sπq|f(q)|<+∞.

Alors,

n→+∞lim 1 n

n

X

i=0

f(Xi) =X

q∈S

πqf(q)

Pour simuler un ´echantillon suivant la loiπ, il n’est pas n´ecessaire de faire converger un grand nombre de chaˆınes : il suffit de mener une chaˆıne suffisamment longue.

(52)

D´efinition

Une suite de variables al´eatoires(Xi)i≥0 efinies sur un ensembleX est une chaˆıne de MarkovsiXi+1|X0, . . . ,Xi suit la mˆeme loi queXi+1|Xi . La fonctionK telle que

Xi+1|X0, . . . ,Xi K(Xi,Xi+1)

est appel´enoyau markovien. Sifi esigne la densit´e deXi, on a alors fi+1(y) =

Z

X

K(x,y)fi(x)dx

Exemple :La marche al´eatoire surRefinie parXi+1=Xi+i avec

i ∼ N(0,1)est une chaˆıne de Markov dont le noyauK(Xi,Xi+1)correspond

`a la densit´e deN(Xi,1).

(53)

Chaˆıne irr´eductible

efinition

La chaˆıne estirr´eductiblesi pour tout choix de la valeur initiale et tout ensembleAde mesurre non nulle, la probabilit´e que la chaˆıne atteigneAest non nulle.

E¯xemple :

I Marche al´eatoireXi+1=Xi+i,i ∼ N(0,1).

I Marche al´eatoireXi+1=Xi+i,i ∼ U[0,1].

I Mod`ele AR(1)Xi+1=aXi+i,i ∼ N(0,1).

(54)

Convergence

Loi limite

Si la chaˆıne est irr´eductible, il existe une unique loi stationnairef qui est presque surement la loi limite de la chaˆıne de Markov.

Th´eor`eme ergodique

On consid`ere une chaˆıne de Markov de distribution limitef. Pout toute fonction int´egrableh,

n→+∞lim 1 n

n−1

X

i=0

h(Xi) = Z

X

h(x)f(x)dx

En particulier, en prenant pourh la fonction indicatrice d’un sous-ensembleA deX, on obtient que la mesure deAsuivantf est ´egale `a la proportion des

´el´ements de la chaˆıne appartenant `aAquand la chaˆıne devient infinie.

En d’autres termes,en´erer une chaˆıne suffisamment longue de noyau K revient `a simuler suivantf.

(55)

III. Algorithmes de Metropolis-Hastings

(56)

III.1 Algorithme g´en´eral

(57)

Principe

Points communs avec la m´ethode d’acceptation-rejet

I f unedistribution cible, suivant laquelle on cherche `a simuler.

I q une distribution de proposition, selon laquelle on va ´echantillonner, en acceptant la proposition avec une probabilit´e donn´ee

Diff´erence

I q epend de la valeur pr´ec´edente de l’´echantillon :q() =q(.|x)

I Si la proposition `a partir dexn est refus´ee, on posexn+1=xn : l’´echantillon contiendra des valeurs r´ep´et´ees

I L’´echantillon correspond `a une trajectoire d’une chaˆıne de Markov.

(58)

Algorithme de Metropolis-Hastings

Etant donn´exn,

1. en´ererynq(y|xn) 2. Choisir

xn+1=

yn avec probabilit´e ρ(xn,yn) xn avec probabilit´e 1ρ(xn,yn) o`u

ρ(x,y) = minf(y) f(x)

q(x|y) q(y|x),1

(59)

Algorithme de Metropolis-Hastings

Th´eor`eme

Les(xn)forment une chaˆıne de Markov. Siq est tel que cette chaˆıne est irr´eductible, sa distribution limite estf.

I Toute loi de propositionq rendant la chaˆıne irr´eductible convient

I Contrairement `a l’algorithme d’acceptation-rejet, on a plus besoin d’´evaluermaxfq.

Le choix deq n’influe pas sur le fait qu’il y a convergence, mais il influe sur la vitesse de celle-ci. Certains choix sont privil´egi´es.

(60)

III.2 Algorithme ind´ependant

(61)

Algorithme de Metropolis-Hastings ind´ependant

I la proposition ne d´epend pas de la valeur courante.

Etant donn´exn, 1. en´ereryng(y) 2. Choisir

xn+1=

yn avec probabilit´e ρ(xn,yn) xn avec probabilit´e 1ρ(xn,yn) o`u

ρ(x,y) = minf(y) f(x)

g(x) g(y),1

(62)

Algorithme de Metropolis-Hastings ind´ependant

I tr`es ressemblant `a l’acceptation-rejet

I pas besoin d’´evaluermaxgf, mais on perd l’ind´ependance entre les valeurs de l’´echantillon

I la convergence sera d’autant plus rapide que la distributiong est proche def

Références

Documents relatifs

Je cherche le plus grand nombre entier pair s’écrivant avec 4 chiffres différents qui respecte les conditions suivantes : La somme des 4 chiffres est 6... Je cherche le plus

Dans la Région du Pacifique occidental, les langues officielles sont l’anglais, le chinois et le français, et l’interprétation dans ces trois langues est assurée aux séances

De plus, dans ces séances de calcul mental on peut introduire progressivement le produit de deux décimaux comme ci-dessous avant d’en arriver au chapitre..

Mill partage avec les utilitaristes le même refus de penser l’être humain à partir d’une morale transcendante ou a priori (intuitionniste). Il n’y a pas de phénomènes moraux en

 Si les parties entières et les chiffres des dixièmes sont égaux, le plus grand nombre est celui qui a le plus grand chiffre

Enfin en partie 3, nous montrons que chacune de ces deux approches fournit un algorithme polynômial (O(n 2 )) pour la recherche du nombre de sauts, lorsque le graphe

Il faut souligner le fait que, pour les usagers de drogues particulièrement précarisés, dont les conditions de vie à l’extérieur n’ont rien à envier à celles

En  1984,  Chantal  Richard  et  Thierry  Lanfant,  avaient  réalisé,  sous  la  direction  de  Claude  Leneveu  †  et  de  moi‐même,  un  mémoire  de