North-Western European Journal of Mathematics
E J
Cours Simulation Stochastique
NicolasWicker
Avant-propos
Ce polycopié est une version de travail d’un polycopié à destination du master de mathématiques et finance de Lille 1. Il n’a aucun prétention à l’originalité mais re- groupe des résultats disséminés dans plusieurs ouvrages dont les plus notables sont Aldous(1983),BenaïmetEl Karoui(2004),CometsetMeyre(2015),Nummelin (1984),Levin,PeresetWilmer(2008) etMeynetTweedie(2009).
1 Introduction
Motivation : intégration numérique : par exempleR
Rdf(x)dx=R
R2
f(x) g(x)g(x)dx avecg(x) une densité de probabilité. Ainsi,
Z
R2f(x)dx=Ef(x) g(x)
p.s.←
n→+∞
1 n
Xn i=1
f(xi) g(xi)
Simulation de systèmes dynamiques stochastique. Simulation de variables aléatoires pour les statistiques bayésiennes. Optimisation d’une fonction complexe, ex :f(x) à minimiser, on simulecexp{−f(x)
T }avecT facteur de température etcconstante de normalisation.
1.1 Génération de nombres pseudo-aléatoires
Avant toutes choses, un générateur de nombres uniformes entre dans [0,1] est néccessaire. Un générateur usuel est le générateur congruentiel :
xn=axn−1+b modL
avec typiquementa= 27,L= 231−1 etb= 0.
Un générateur proche, un poil plus sophistiqué mais plus performant est le générateur congruentiel inverse qui réalise :
xn=axn−−11+b modp
iciLest remplacé parppour travailler sur le corps finiFp. L’inverse est obtenu de la manière suivante :xx−1= 1 modp, soitxx−1−qp= 1. Commex∧p= 1, on trouve x−1etqpar l’algorithme étendu d’Euclide donné par :
Require: Étant donnésa > b
Ensure: Donnesetttels quesa+tb=pgcd(a, b) (s0, t0, r0)←(1,0, a)
(s1, t1, r1)←(0,1, b) whiler2,1do
q←r0/r1 s2←s0−qs1 t2←t0−qt1
(s0, t0, r0)←(s1, t1, r1) (s1, t1, r1)←(s2, t2, r2) end while
return sett
1.2 Méthode d’inversion de la fonction de répartition
Cette méthode est simple et efficace mais ne s’applique pas toujours, elle est basée sur l’utilisation de la fonction de répartition :F(x) =P(X6x). On définit l’inverse généralisée F−1(u) = inf{t, F(t)> u}. On utilise la propriété suivante : F−1(u)6x⇔ u6F(x) de telle sorte que :P(F−1(U)6x) =P(U 6F(x)) avec U uniforme sur [0,1). Ainsi,P(F−1(U)6x) =F(x). F−1(U) a la même fonction de répartition queX.
Proposition 1 – F−1(u)6x⇔u6F(x) Preuve. (⇐)
u6F(x)
⇒F−1(u)6F−1(F(x))6xcarF−1donne l’inf dettel queF(t)>F(x) etF(x)>F(x)
⇒F−1(u)6x (⇒)
F−1(u)6x
⇒F(F−1(u))6F(x)
⇒F(inf{t|F(t)>u}6F(x) par continuité à droite de la fonction de répartition
⇒u6F(x)
Application à la loi exponentielle : SoitX{E(λ),f(x) =λe−λx. Sa fonction de répartition est donnée par
F(x) = Zx
0
λe−λudu= [−e−λu]x0= 1−e−λx
Algorithme : on génèreU de manière uniforme sur ]0,1[, nous donne : U= 1−e−λ
⇒e−λx= 1−U
−λx= ln(1−U)
⇒x=−ln(1−U) λ
oùx=−lnUλ carU et 1−U ont même loi.
Application à la loi de Cauchy : Sa densité est donnée parf(x) =π(1+x1 2). F(x) =
Zx
−∞
du
π(1 +u2)= [Arctan(u)
π ]x−∞=Arctan(x)
π +1
2
⇒U=Arctan(x)
π +1
2
⇒x= tan[π(u−1 2)]
(mettre une figure)
application à la loi de Weibull : Sa fonction de survie est donnée parG(x) = 1−F(x) =e−xa, plus généralement elle s’écrit :e−(x−cb)a.
u= 1−G(x) = 1−e−xa
⇒e−xa = 1−u
⇒ −xa= ln(1−u)
⇒x= ln( 1 1−U)1/a ou bienx= (−lnu)1/a.
1.3 Algorithme de Box-Muller
On considère une loi de GaussX{N(0, I2). Sa densité est donnée parf(x, y) =
1 2πe−x2+y
2
2 . On fait le changement de variables suivant :x=rcosθ,y=rsinθ,r∈R+ etθ∈[0,2π[. Le jacobien est donné par :
cosθ −rsinθ sinθ rcosθ
=r
La densité devient2πr e−r22. On effectue un nouveau changement de variablesr2=R, la densité suivantR est alors : 12e−R2,R suit une loi exponentielle de paramètre 1/2, ainsi R est généré par −2 lnU, r =
√
−2 lnU, x =
√
−2 lnUcos(2πV) et y =
√
−2 lnUsin(2πV) avecU etV lois uniformes sur ]0,1[.
Simulation de gaussienneN(0,Σ). On la simule à partir deX {N(0, I). On utilise pour cela la décomposition de Cholesky deΣenLL0, possible siΣ>0. On prend alorsY =LX. En effet,E(Y Y0) =E(LXX0L0) =LL0=Σ.
Cholesky s’obtient sur une matriceMen observant successivement :
— M11=L211ainsiL11=√ M11.
— ∀k∈2, . . . , n,Mk1=Lk1L11et doncLk1=Mk1/√ M11
— ∀k∈2, . . . , n,Mkk=Pk
i=1L2ki et doncLkk= q
Mkk−Pk−1 i=1L2ki
— ∀k∈2, . . . , netj > kon aPk
i=1LjiLkiainsiLjk=Mjk−
Pk−1 i=1LjiLki
Lkk .
1.4 Copules
Une copule est une fonction C : [0,1]p →[0,1] permettant d’introduire une dépendance entrepvariables univariées. Il en existe beaucoup, une copule fréquente est la copule gaussienne donnée par :
C(u1, . . . , up) =φR(φ−1(u1), . . . , φ−1(up)) avecRindiquant une matrice de corrélation.
Comment simuler une loi définie par une copule ? Soit une loi quelconqu de lois de répartition marginalesF1(x1), . . . , Fp(xp). Sa fonction de répartition est alors donnée par :
F(x1, . . . , xp) =C(F1(x1), . . . , Fp(xp))
pour simuler une telle loi, on simule des uniformesU1, . . . , Up de copuleC et on récupère :F1−1(U1), . . . , Fp−1(Up). Pourquoi cela fonctionne-t-il ?
P(F−11(U1)6x1, . . . , Fp−1(Up)6xp) =P(U16F1(x1), . . . , Up6Fp(xp))
=C(FU(F1(x1)), . . . , FU(Fp(xp)))
=C(F1(x1), . . . , Fp(xp)) Comment y arriver ?
On simuleY = (Y1, . . . , Yp) de copuleCet on prendφ1(Y1), . . . , φp(Yp) oùφ1, . . . , φp sont les fonctions de répartition marginales deY. Ainsi,
P(φ(Y1)6u1, . . . , φ(Yp)6up) =P(Y16φ−1(u1), . . . , φ−1(up))
(Cont. page suiv.)
=C(φ(φ−1(u1)), . . . , φ(φ−1(up)))
=C(u1, . . . , up)
=C(FU(u1), . . . , FU(up))
1.5 Méthode du rejet
Simulation d’une loi conditionnelle
On s’intéresse àP(Z∈B|A),Zv.a. etAun évènement. Pour cela, on simule une suite (Zn, An), les couples (Zn, An) sont indépendants. avecAn=Aou ¯A. On note τ= inf{t|At=A}. Alors
P(Zτ∈B) =
+∞
X
t=1
P(A1= ¯A, . . . , At−1= ¯A, At=A, Zt∈B)
=
+∞
X
t=1
P( ¯A)t−1P(At=A, Zt∈B)
=
+∞
X
t=1
(1−P(A))t−1P(Zt∈B|At=A)P(A)
= 1. 1
1−(1−P(A))P(A)P(Z∈B|A)
=P(Z∈B|A)
Simulation d’une loi non-conditionnelle
Objectif : on veut simuler une variable aléatoire de densitéf(x) et dontF−1est difficile à calculer car l’algorithme du rejet implique un certain nombre de rejets et donc de calculs « inutiles ». Pour cela, on utilise une variable aléatoireY facile à simuler de densitég(x) telle quecg(x)>f(x) avecc∈R+. SiU est une loi uniforme sur [0,1],c>f(x)
g(x). On noteA={CU g(x)< f(x)}. (figure)
P(Yτ) =P(Y ∈B|A) par l’algorithme du rejet pour une loi conditionnelle
=P(Y∈B, A) P(A)
= 1
P(A) Z
B
Z
Cug(x)<f(x)g(x)1[0,1]dudx
= 1
P(A) Z
B
f(x) cg(x)g(x)dx
(Cont. page suiv.)
=P(X∈B)
CP(A) (1)
En particulier, siB=R2,P(Y ∈Rd|A) = 1 = cP1(A), ainsicP(A) = 1 etP(Y ∈B|A) = P(X∈B).
On remarque au passage queP(A) = 1c,P(A) est la probabilité d’acceptation, il faut donc quecsoit le plus petit possible. Si on considère maintenant une loi géométrique de paramètrep=P(A), alorsc=1p =P(A)1 est son espérance, soit ici le nombre moyen d’itérations avant qu’un nombre soit produit.
Application à la loi gamma : SoitX{Γ(a) de densitéf(x) =xΓa(a)−1e−xaveca∈]0,1[.
SoitY {W(a),G(x) = 1−F(x) =e−xa,F(x) = 1−e−xa, doncg(x) =axa−1e−xa. Quel coefficientcfaut-il prendre ? On considère pour cela la fraction :
f(x)
g(x)= xa−1e−x Γ(x)axa−1e−xa
=e−x+xa Γ(a)a
Soith(x) =−x+xaainsih(x)0=−1 +axa−1= 0 etxa−1=1a etx∗= (1a)a1−1. La dérivée secondeh00(x∗) =a(a−1)<0 cara∈]0,1[. Ainsi,
f(x) g(x)6e−(1a)
a−11+(1a)a−a1
Γ(a)a =c
Pour simuler une loiΓ(n+a), on simuleX1{E(1), . . . , Xn{E(n), Y {Γ(a) et on effectueX1+· · ·+Xn+Y.
2 Réduction de la variance
2.1 Variables de contrôle
On veut estimerE(X) alors que l’on arrive à calculer de manière expliciteE(h(x)).
On écrit alorsX=X−Y+Y. On a ainsi une première estimation deE(X) donnée par :
e1=1 n
Xn
i=1
Xi
de varianceVar(e1) =VarnX.Une seconde estimation, faisant usage d’une variable de contrôleY est donnée par :
e2=1 n
Xn i=1
Xi−aYi+aE(Y)
où on a toute latitude de choisira∈Rau mieux. La variance dee2est donnée par : Var(e2) =1
nVar(X−aY)
=1 n
VarX+a2VarY−2aCov(X, Y)
Si bien qu’on peut déterminerade la manière suivante,
∂Vare2
∂a =1 n
2aVarY−2 Cov(X, Y)
= 0
⇒a=Cov(X, Y) VarY Et obtenir comme variance,
Vare2=1 n
VarX+Cov(X, Y)2
VarY −2Cov(X, Y)2 VarY
=1 nVarX
1−Cor(X, Y)2
si bien que l’on voit que l’on peut toujours en théorie réduire la variance pour peu queY ne soit pas indépendante deX.
Exemple 1 – X{U(0,1), estimation deE(exp(X)) à l’aide de la variable de contrôle 1 +X.
2.2 Variables antithétiques
Un petit lemme est nécessaire d’abord.
Lemme 1 – SiY est une variable aléatoire réelle,f une fonction décroissante etg une fonction croissante, on a alors :C= Cov(f(Y), g(Y))60.
Preuve. SoitY etY0 deux variables aléatoires indépendantes de même loi. On a alors :E
(f(Y)−f(Y0))(g(Y)−g(Y0))
60. Par ailleurs, E
(f(Y)−f(Y0))(g(Y)−g(Y0))
= E
f(Y)g(Y) +E
f(Y0)g(Y0)
−E
f(Y)g(Y0)
−E
f(Y0)g(Y)
= 2E
f(Y)g(Y)
−2E f(Y)
E g(Y)
= 2 Cov
f(Y), g(Y) si bien que Cov
f(Y), g(Y)
60. Ce qui conclut la preuve.
En particulier, sif est monotone etφdécroissante on a : Cov(f(Y), f(φ(Y)))
Cela peut être exploité siφ(Y) suit la même loi queY comme par exemple pour
— loi uniformeY sur [0,1] alorsφ(Y) = 1−Y suit la même loi.
— loi de GaussY alorsφ(Y) suit la même loi.
Supposons maintenant que l’on veuille estimerE(f(Y)), l’estimateur classique est :
e1=1 n
Xn i=1
f(Yi)
Le nouvel estimateur est : e2=1
n Xn i=1
f(Yi) +f(φ(Yi)) 2
alorsVare2=2n1 (Varf(Y) + Cov(f(Y), f(φ(Y)))) ainsi : Vare1
Vare2 = 2Varf(Y)
Varf(Y) + Cov(f(Y), f(φ(Y)))>2 Exemple 2 – E
1 1+X
avecX{U(0,1). On peut prendreY= 2−X.
2.3 Echantillonnage préférentiel
I =R
f(x)g(x)dxavec f(x) une densité à laquelle on va préférerf∗(x). Ainsi : I=R f(x)g(x)
f∗(x) f∗(x)dx.
Exemple 3 – E
[X−3]+
avecX{N(0,1). On peut prendreY{N(3,1).
2.4 Stratification
On suppose que l’on a plusieurs stratesS1, . . . , Skdans lesquelles on va échan- tillonner suivant des proportions à définir. D’une manière générale, on veut estimer Xau moyen de :
e2= Xk j=1
pj 1 nj
nj
X
i=1
Xij
oùnjreprésente le nombre de points échantillonnés dansSj. Ainsi :
Var(e2) =
k
X
j=1
p2j nj
Var(Xj)
=1 n
Xk j=1
pjVar(Xj) en supposantnj=npj
=1 n
k
X
j=1
pjVar(X|Z∈Sj)P(Z∈Sj)
=E(Var(X|Z)) n orE(Var(X|Z))6Var(X).
Exemple 4 – On veut calculerE(exp(X)) avecX{U(−1,1). On peut utiliser comme strates (−1,0) et (0,1).
3 Chaînes de Markov à temps discret
3.1 Introduction aux chaînes de Markov
Dans la suite, on considèreraX= (Xn)n>1une suite de variables aléatoires avec Xn: (Ω,F)→(En,Tn). On note queXest mesurable surTla tribu engendrée par les cylindresC=A1× · · · ×Ak×Q
i>k+1Ei, avecAj∈Tj. En effet, pour un cylindreB, on aX−1(B) =∩k
i=1Xi−1(Ai)∈FasXi−1(Aj)∈Fjfor allj.
Définition 1 – Une chaîne de Markov de matrice de transition P est une suite variables aléatoires (Xn) définie sur un espace probabilisé (Ω,T, P) à valeurs dansE telle queP(Xn+1=xn+1|Xn=xn, . . . , X1=x1) =P(xn, xn+1).
3.2 Chaînes de Markov à nombre d’états fini
On considère une chaîne de Markov surΩavec|Ω|fini.
La matrice de transitionP indique en position (i, j) parPij la probabilité d’aller de l’étatià l’étatj.
Remarque 1 – La valeur propre de M 1 est maximale. En est, d’après le théo- rème 1 page suivante chaque valeur propre est comprise dans un des disques D(Pii,P
j,i|Pij|).Ainsi, comme la somme d’une ligne est égale à 1, en valeur absolue on ne peut excéder 1.
Théorème 1 – Toute valeur propre d’une matriceMcomplexe est comprise dans un des disquesD(Mii,P
j,i|Mij|).(Gershgorin)
Preuve. Soit un vecteur proprevpour la valeur propreλ. Définissonsm= argmaxi|vi|. Ainsi,
λvm=X
j
Mmjvj=Miivm+X
j,m
Mmjvj
⇒(λ−Mmm)vm=X
j,m
Mmjvj
⇒ |λ−Mmm||vm|=|X
j,m
vj|6X
j,m
|Mmj||vj|
⇒ |λ−Mmm|6X
j,m
|Mmj| vj
|vm|6X
j,m
|Mmj|
Lemme 2 – Il existe toujours au moins une loi stationnaire.
Preuve. On commence par remarquer queP a toujours 1 comme valeur propre associée au vecteur propre1, ainsi 1 est également valeur propre deP0 carP etP0 ont même polynôme caractéristique.
Il faut prouver maintenant qu’il existe un vecteur propre non-négatif associée à la plus grande valeur propre deA=P0ne contenant que des valeurs non-négatives.
Soit u vecteur propre de A, montrons que prendre la valeur absolue de ses éléments ne change pas sa qualité de vecteur propre, considérons ainsi le vecteurv tel quevi =|ui|. On a :
X
j
Aijvj−λvi =X
j
Aij|uj| −λ|ui|
>|X
j
Aijuj| −λ|ui|
>λ|ui| −λ|ui|= 0 (2)
Supposons par l’absurde que∃i,(Av−λv)i>0. Si on somme suivanti, on obtient : X
i
X
j
Aijvj−λvi
=X
i
X
j
Pjivj−λvi
= 0 On en déduit que∀i,P
jAijvj−λvi = 0,v est donc bien vecteur propre pour la
valeur propre 1.
En utilisant le théorème de Brouwer, on aurait pu conclure immédiatement.
Remarque 2 – Attention, il peut y avoir plusieurs lois stationnaires pour une chaîne de Markov. Considérons par exemple :
P = 1 0 0 1
!
ici, (1,0) et (0,1) sont des lois stationnaires et il en existe une infinité (à vous de les trouver).
Remarque 3 – Attention, d’une manière générale les valeurs propres deP peuvent être imaginaires. Considérons par exemple :
P =
1 2
1
2 0
0 12 12
1 2 0 12
En effet, si on calcule le polynôme caractéristique on obtient :
1
2−λ 12 0
0 12−λ 12
1
2 0 12−λ
=1 2−λ3
+1
8=−λ3+3 2λ2−3
4λ+1 4 On obtient :−λ3+32λ2−3
4λ+14 = (λ−1)(−λ2+λ2−1
4). Or, le discriminant de−λ2+λ2−1
4
est∆=−3
4<0 impliquant donc l’existence de deux valeurs propres imaginaires.
Remarque 4 – Attention, d’une manière généraleP peut ne pas être diagonalisable.
Considérons par exemple :
P =
1
2 1
2 0
0 12 12
0 0 1
En effet, si on considère la valeur propre 12 de multiplicité algébrique 2, on a par contre :
P−1 2I3=
0 12 0 0 0 12 0 0 12
qui est de rang 2, de telle sorte que dim(E1
2) = 1.
Lemme 3 – Si une chaîne de Markov est réversible pour la loiπ alorsπ est une loi stationnaire.
Preuve. On a l’égalitéπ(x)q(x, y) =π(y)q(y, x). Si on somme suivantx, on obtient : X
x
π(x)q(x, y) =X
x
π(y)q(y, x)
X
x
π(x)q(x, y) =π(y)
Lemme 4 – L’irréductibilité implique l’unicité de la loi stationnaire.
Preuve. Soit une chaîne irréductible, ainsi∀i, j ∃ntel que Pijn>0. Par l’absurde, supposons l’existence deuun vecteur propre deP non collinéaire à1pour la valeur propre 1. Soitm = argmaxi|ui|, on a par définition :um =Pn
i=1Pmjn uj. On a par conséquent :
|um|=
X
j
Pmjn uj
6X
j
Pmjn |uj|
6Pmmn |um|+X
j,m
Pmjn |uj|en s’arrangeant pour quePmjn >0 et|uj|<|um|
< Pmmn |um|+X
j,m
Pmjn |um|car par construction|uj|<|um|
<|um|
Nous aboutissons ainsi à une contradiction et pouvons conclure.
Une fois que nous avons déterminer s’il y a une ou plusieurs lois stationnaires, nous voulons savoir s’il y a convergence vers cette loi stationnaire. En effet, l’exis- tence d’un point fixe dans un système dynamique n’implique par pour autant la convergence du système vers ce point fixe.
Le théorème suivant fournit un critère simple de convergence mais pour cela nous avons besoin de la notion d’apériodicité.
Définition 2 – Un étatxest apériodique si le pgcd deNx={n|Pn(x, x)>0}est égal à 1. Une chaîne de Markov est apériodique si tous ses états sont apériodiques.
Théorème 2 – Si une chaîne de Markov dans un espace à nombre d’états fini est irré- ductible et apériodique alors elle converge vers son unique loi stationnaire.
Preuve. SoitNi ={n|Pi,in >0}. Par Bezout,∃a1, . . . , ak ∈Zetn1, . . . , nk ∈Ni tels que Pk
i=1aini = 1. Notons A+ et A− l’ensemble des coefficients positifs et négatifs
respectivement. On a ainsiP
ai∈A+aini =−P
ai∈A−aini+ 1. On obtient ainsimi =
−P
ai∈A−aini∈Ni avecmi+ 1∈Ni également.
Soit∀n > m2i, si on divisende manière euclidienne parmi, on obtient :n=qmi+r avecr < mi etq>mi. Ainsi,n=qmi+r(mi+1−mi) =mi(q−r) +rmi+1ormi(q−r) est un multiple positif demi etrmi+1 demi+1. Ainsi,n∈Ni et plus généralement si nous prenonsn > m= maxim2i, alorsn∈ ∩iNi.
Soitn >maxijnij+m, alorsPijn>Piin−nijPijnij, ce produit est positif carPijnij >0 par définition etn−nij> mdoncPiin−nij >0.
On vient de montrer que pournsuffisamment grand la matrice de transition Pnn’a que des entrées positives. Le théorème de Frobenius nous dit alors qu’il y a une valeur propre maximale (au sens de la valeur absolue) unique. En utilisant la décomposition de Jordan, on a alors :
Pn=Q
1 0 . . . 0 0 B2 . .. ...
... . .. ... 0 0 . . . 0 Bk
Q−1
avecBi =
λi 1 0 . . . 0 0 . .. ... ... ...
... . . . . .. ... 1 0 . . . . . . 0 λi
.Le nombre de blocs pour une valeur propre
correspond à sa multiplicité géométrique alors que la somme des tailles des blocs donne sa multiplicité algébrique. Ainsi, si on metPnà la puissance on obtient la convergence vers :
Q
1 0 . . . 0 0 0 . .. ...
... . .. ... 0 0 . . . 0 0
Q−1
Remarque 5 – A propos deBni, pour voir qu’il y a convergence vers la matrice nulle, on écrit :
Bni =
λiIli+
0 1 0 0
... . .. ... 0 0 . . . 0 1 0 . . . . . . 0
n
= Xn k=0
n k
! λni−kIli
0 1 0 0
... . .. ... 0 0 . . . 0 1 0 . . . . . . 0
k
(Cont. page suiv.)
=
li−1
X
k=0
n k
! λni−kIli
0 1 0 0
... . .. ... 0 0 . . . 0 1 0 . . . . . . 0
k
(3)
La convergence vers 0 est alors immédiate.
Vitesse de convergence
Nous ne détaillons ici que quelques méthodes de base.
Théorème 3 – Si une chaîne de Markov àdétats est irréductible, apériodique et rever- sible on a alors :
∀i, j|Pijn−π(j)|6 pπ(j)
pπ(i)max(|λ2|n,|λd|n) oùλ1= 1> λ2>. . .>. . . λd
Preuve. SoitD,Dij=δijp
π(i), alors la matriceDP D−1est symétrique donc diago- nalisable dans une base orthornormée. Par ailleurs, sivest un vecteur propre pour P et la valeur propreλ,Dvest un vecteur propre pourDP D−1pour la même valeur propre. On a la symétrie car :
(DP D−1)ij=p
π(i)Pijp π(j)−1
=p
π(i)−1π(i)Pijp π(j)−1
=p
π(i)−1π(j)Pji
pπ(j)−1par réversibilité de la chaîne
=(DP D−1)ji On peut donc écrire :
DP D−1=X
k=1
λkvkvk0
et par orthonormalité de la base :DPnD−1=P
k=1λnkvkv0k. ainsi : Pijn=
pπ(j)
pπ(i)v1(i)v1(j) +X
k>1
pπ(j)
pπ(i)λnkvk(i)vk(j)
= pπ(j) pπ(i)
pπ(i)p
π(j) +X
k>1
pπ(j)
pπ(i)λnkvk(i)vk(j) (Cont. page suiv.)
=π(j) +X
k>1
pπ(j)
pπ(i)λnkvk(i)vk(j) Par conséquent,
|Pijn−π(j)|6 pπ(j) pπ(i)
sX
k>1
λ2nk vk(i)2 sX
k>1
vk(i)2par Cauchy-Schwarz
6 pπ(j)
pπ(i)max(|λ2|n,|λd|n) On définit un produit scalaire sur les fonctions réelles définies sur l’espace d’états finiM:
hf , gi:=X
x∈M
π(x)f(x)g(x)
On note aussiπf =hf ,1i,Varπ(f) =Eπ
f −πf
2=hf −πf , f −πfiπetP f(x) = P
yP(x, y)f(y) ce qui nous permet de définir les formes de Dirichlet et inégalités de Poincaré comme suit.
Définition 3 – On appelle forme de Dirichlet l’expression : (f , f) =h(I−P)f , fiπ
Définition 4 – Une inégalité de Poincaré est inégalité de la forme suivante : Varπ(f)6C(f , f)
Théorème 4 – SiP est réversible, la seconde valeur propre deP,λ2est bornée par : 1−λ2= min
f⊥π1,f,0
(f , f) Varf
Preuve. Ainsi, on a∀i, jhfi, fjiπ=δij avecf1, . . . , fn vecteurs propres deP tels que Df1, . . . , Dfnsoient des vecteurs propres orthonormés deDP D−1. Ainsi, sihf , f1iπ= 0, on a :f =Pd
i=2aifi et par conséquent : h(I−P)f , fiπ=
Xd i=2
a2i(1−λi)>(1−λ2) Xd
i=2
a2n
>(1−λ2)Varf
Ainsi, on a l’inégalité suivante pour toutf orthogonal àf1: 1−λ26(f , f)
Varf
avec égalité pourf =f2, d’où la conclusion.
Remarque 6 – X
x,y
1
2π(x)π(y)|f(x)−f(y)|2=X
x,y
1
2π(x)π(y)f(x)2+1
2π(x)π(y)f(y)2−π(x)π(y)f(x)f(y)
=E(f(X)2)−(Ef(X))2
Lemme 5 – Si une chaîne de Markov vérifie pour toutx,P(x, x)>1
2 alors|λ2|>|λd|. Preuve. Soit un vecteur propref associé à la valeur propreλetm= argmaxi|vi|. Alors, on a par définition :
λvm=X
j
Pmjvj
⇒vm(λ−Pmm) =X
j,m
Pmjvj
⇒ |λ−Pmm|=X
j,m
Pmj
|vj|
|vm|
⇒ |λ−Pmm|6X
j,m
Pmj
⇒ |λ−Pmm|61−Pmm
⇒ |λ| −Pmm>1−Pmm
⇒ |λ|>2Pmm−1
⇒ |λ| >0
Ainsi, si toutes les valeurs propres sont positives, on a bien :λ2>λd. L’implication de ce lemme est que pour une chaîne de Markov paresseuse, seule la seconde valeur propre compte pour l’estimation de la vitesse de convergence. On peut en particulier tirer alors profit de théorème 4 page précédente.
Théorème 5 – Pour une chaîne de Markov apériodique, irréductible et réversible on a l’inégalité suivante :
Varπf 6sup
e
Q(e)−1 X
x,y:e∈γ(x,y)
|γ(x, y)|π(x)π(y)
(f , f)
Preuve. Commençons à observer que pour deux étatsxety, on a :
|f(y)−f(x)|2=
X
e∈γ(x,y)
df(e)
2
6|γ(x, y)| X
e∈γ(x,y)
df(e)2 avec df(e) =f(e+)−f(e−) oùereprésente l’arêtee−, e+. Ainsi,
X
x,y
1
2π(x)π(y)|f(y)−f(x)|261 2
X
x,y
|γ(x, y)| X
e∈γ(x,y)
df(e)2π(x)π(y)
61 2
X
x,y
|γ(x, y)|π(x)π(y) X
e∈γ(x,y)
Q(e)−1df(e)2Q(e)
61 2
X
e
X
x,y:e∈γ(x,y)
|γ(x, y)|Q(e)−1π(x)π(y)df(e)2Q(e)
61 2sup
e
Q(e)−1 X
x,y:e∈γ(x,y)
|γ(x, y)|π(x)π(y)
X
e
df(e)2Q(e)
Or,
(f , f) =h(I−P)f , fiπ
=X
x
π(x)
f(x)−X
y
P(x, y)f(y)
f(x)
=X
x
X
y
π(x)P(x, y) (f(x)−f(y))f(x)
=1 2
X
x
X
y
π(x)P(x, y) (f(x)−f(y))2 par réversibilité
=X
e
df(e)2Q(e) ainsi :
X
x,y
1
2π(x)π(y)|f(y)−f(x)|26sup
e
Q(e)−1 X
x,y:e∈γ(x,y)
|γ(x, y)|π(x)π(y)
(f , f) soit :
Varf 6sup
e
Q(e)−1 X
x,y:e∈γ(x,y)
|γ(x, y)|π(x)π(y)
(f , f)
Exemple 5 – L’urne d’Ehrenfest. L’espace d’états est donné parM={0,1}Navec les transitions suivantes :P(x, y) = 2N1 pourx,y etP(x, x) =12 sinon, où lorqu’il y a un changement une particule est choisie de manière uniforme et change d’urne.
On construit un ensemble de cheminsΓ entre tous les couples (x, y) en modifiant itérativementx1, puisx2et ainsi de suite jusqu’àxN. La loi stationnaire est donnée parπ(x) =21N, en effet on aP reversible :
π(x)P(x, y) = 1 2N
1
2N =π(y)P(y, x).
La longueur d’un chemin est bornée par|γ(x, y)|6N. Enfin, si on considère une arêtee= (e−, e+)∈γ(x, y), il y a un seul indiceitel quee−i ,e+i donc∀j < i,yj=e−j et
∀j>i,xj=e+j. On a ainsi, pour une arête 2N−1couples (x, y) possibles. Comme on peut choisiryjpourj > ietxjquelconques pourj < iet conserver la même arêtee, on en déduit grâce au théorème 5 p. 16 :
Varf 6(f , f) π(e−)π(e+)
π(e−)P(e−, e+)N2N−1 6(f , f) 1
2N2N N2N−1 6(f , f)N2
Ainsi,λ261− 1
N2.
Exemple 6 – Un petit graphe presque biparti. On considère une marche aléatoire sur un graphe presque biparti avec deux partitionsV1={1,2}etV2={3, . . . , N}. Pour toutx,P(x, x) = 12, pourx∈V1ety∈V2,P(x, y) = 2(N1−2) et pourx∈V2ety∈V1, P(x, y) =14. Le graphe est représenté sur la figure 1
On a ainsi :
P =
1
2 1
2(N−1) 1
2(N−1) . . . 2(N1−1)
1 2(N−1)
1
2 1
2(N−1) . . . 2(N1−1)
1
4 1
4 1
2 0 0
... ... . .. 0
1
4 1
4 0 12
La loi stationnaire est donnée par :π= 4N1−6(N−1, N−1,2, . . . ,2)0.Détaillons les différents chemins :
— entre 1 et 2 : 132, de même pour 2 et 1 : 231
— entre 1 eti >2 : 1i, de même pour 2 eti >2 : 2i
— entrei >2 et 1 :i1, de même pouri >2 et 2 :i2
— entrei,j >2 :i1j
1
2
3
N 4
Figure1 – Graphe presque biparti 2 contreN−2 sommets.
On distingue les arêtes (1,3), (3,1) et (1,2). Pour (1,3), on a : C136 1
π(1)P13
X
γ(x,y)3(1,3)
π(x)π(y)|γ(x, y)|
64N−6
N−1 2(N−1)
2 N−1
(4N−6)2+ (N−3)2 2×2 (4N−6)(4N−6)
∼5 Pour (3,1), on a :
C316 1 π(1)P12
X
γ(x,y)3(1,2)
π(x)π(y)|γ(x, y)|
64N−6
2 4
1 2
4N−6 N−1
4N−6+ 2(N−3) 2 4N−6
2 4N−6
∼5 Pour (1,2), on a :
C12= 2(N−1)N−1 4N−6∼N
2 On conclut donc queC∼N
2.
Exemple 7 – Mélange deN= 52 cartes. On considère le processus suivant où une carte est prise au hasard parminet placée ensuite au sommet du mélange de cartes.
On appelle cela en anglaisrandom-to-top shuffling. Ensuite, on rend réversible et paresseux ce processus en considérant également l’opération contraire où la carte du dessus prend une place aléatoire dans la pile de cartes. On considère le chemin suivant entre deux sommets (x1, . . . , xN) et (y1, . . . , yN) :
x1
x2
. . . xN
→
yN
x12
. . . x1N
→ · · · →
y1
y2
. . . yN
Si on considère une arête sur un tel chemin et que l’on a déjà placé correctement icartes parmi lesN cartes alors on a : (N−i−1)!
N i
possibilités, en sommant suivanti∈0, . . . , N−1 on obtient :
C6 1
1/(2N)1/N! 1 N!
1 N!N
N−1
X
i=0
(N−i−1)!
N i
6N2 N!
N−1
X
i=0
(N−i−1)!N! (N−i)!i!
6N2
N−1
X
i=0
1 N−i 6N2(1 + lnN)
Exemple 8 – Loi de Gibbs. Soit une loi de Gibbs donnée parπT(x) = Z1
T exp{−V(x)
T } avecV :M→R,d=|M|etZT =P
y∈Mexp{−V(y)
T }. On fait l’hypothèse que six,y alorsV(x),V(y) et que infx∈MV(x) = 0, on noteVmin ={x|V(x) = 0}etN(x) les voisins d’un étatx. On définit l’élévation d’un chemin comme Elev(γ) = supiV(xi), avecγ= (x1, . . . , xk).On définit aussi la hauteur de communication comme :C(V) = supx∈Minfy∈Vmin(Elev(γ(x, y))−V(x)).On choisit parmi les chemins existants entre deux pointsxetyun de ceux qui minimisent Elev(Γ). On a :
Q(e) =π(e−)P(e−, e+)
= exp
−1 TV(e−)
1
|N(e−)|
|N(e−)|
|N(e+)|exp 1
T(V(e−)−V(e+)) 1
ZT ∧1
= exp
−1 TV(e+)
1 ZT
1
|N(e+)|∧exp
−1 TV(e−)
1 ZT
1
|N(e−)|