1.2 Méthode d’inversion de la fonction de répartition

(1)

North-Western European Journal of Mathematics

E J

Cours Simulation Stochastique

NicolasWicker

Avant-propos

Ce polycopié est une version de travail d’un polycopié à destination du master de mathématiques et finance de Lille 1. Il n’a aucun prétention à l’originalité mais re- groupe des résultats disséminés dans plusieurs ouvrages dont les plus notables sont Aldous(1983),BenaïmetEl Karoui(2004),CometsetMeyre(2015),Nummelin (1984),Levin,PeresetWilmer(2008) etMeynetTweedie(2009).

1 Introduction

Motivation : intégration numérique : par exempleR

Rdf(x)dx=R

R2

f(x) g(x)g(x)dx avecg(x) une densité de probabilité. Ainsi,

Z

R2f(x)dx=Ef(x) g(x)

p.s.←

n→+∞

1 n

Xn i=1

f(xi) g(x_i)

Simulation de systèmes dynamiques stochastique. Simulation de variables aléatoires pour les statistiques bayésiennes. Optimisation d’une fonction complexe, ex :f(x) à minimiser, on simulecexp{−^f^(x)

T }avecT facteur de température etcconstante de normalisation.

1.1 Génération de nombres pseudo-aléatoires

Avant toutes choses, un générateur de nombres uniformes entre dans [0,1] est néccessaire. Un générateur usuel est le générateur congruentiel :

x_n=ax_n−1+b modL

avec typiquementa= 2⁷,L= 2³¹−1 etb= 0.

Un générateur proche, un poil plus sophistiqué mais plus performant est le générateur congruentiel inverse qui réalise :

xn=ax_n⁻−¹1+b modp

iciLest remplacé parppour travailler sur le corps finiF_p. L’inverse est obtenu de la manière suivante :xx⁻¹= 1 modp, soitxx⁻¹−qp= 1. Commex∧p= 1, on trouve x⁻¹etqpar l’algorithme étendu d’Euclide donné par :

(2)

Require: Étant donnésa > b

Ensure: Donnesetttels quesa+tb=pgcd(a, b) (s0, t0, r0)←(1,0, a)

(s1, t1, r1)←(0,1, b) whiler2,1do

q←r₀/r₁ s₂←s₀−qs₁ t₂←t₀−qt₁

(s₀, t₀, r₀)←(s₁, t₁, r₁) (s₁, t₁, r₁)←(s₂, t₂, r₂) end while

return sett

1.2 Méthode d’inversion de la fonction de répartition

Cette méthode est simple et efficace mais ne s’applique pas toujours, elle est basée sur l’utilisation de la fonction de répartition :F(x) =P(X6x). On définit l’inverse généralisée F⁻¹(u) = inf{t, F(t)> u}. On utilise la propriété suivante : F⁻¹(u)6x⇔ u6F(x) de telle sorte que :P(F⁻¹(U)6x) =P(U 6F(x)) avec U uniforme sur [0,1). Ainsi,P(F⁻¹(U)6x) =F(x). F⁻¹(U) a la même fonction de répartition queX.

Proposition 1 – F⁻¹(u)6x⇔u6F(x) Preuve. (⇐)

u6F(x)

⇒F⁻¹(u)6F⁻¹(F(x))6xcarF⁻¹donne l’inf dettel queF(t)>F(x) etF(x)>F(x)

⇒F⁻¹(u)6x (⇒)

F⁻¹(u)6x

⇒F(F⁻¹(u))6F(x)

⇒F(inf{t|F(t)>u}6F(x) par continuité à droite de la fonction de répartition

⇒u6F(x)

Application à la loi exponentielle : SoitX{E(λ),f(x) =λe⁻^λx. Sa fonction de répartition est donnée par

F(x) = Zx

0

λe⁻^λudu= [−e⁻^λu]^x₀= 1−e⁻^λx

(3)

Algorithme : on génèreU de manière uniforme sur ]0,1[, nous donne : U= 1−e⁻^λ

⇒e⁻^λx= 1−U

−λx= ln(1−U)

⇒x=−ln(1−U) λ

oùx=⁻^lnU_λ carU et 1−U ont même loi.

Application à la loi de Cauchy : Sa densité est donnée parf(x) =_π(1+x¹ ₂₎. F(x) =

Zx

−∞

du

π(1 +u²)= [Arctan(u)

π ]^x−∞=Arctan(x)

π +1

2

⇒U=Arctan(x)

π +1

2

⇒x= tan[π(u−1 2)]

(mettre une figure)

application à la loi de Weibull : Sa fonction de survie est donnée parG(x) = 1−F(x) =e⁻^x^a, plus généralement elle s’écrit :e⁻⁽^x⁻^c^b⁾^a.

u= 1−G(x) = 1−e⁻^x^a

⇒e⁻^x^a = 1−u

⇒ −x^a= ln(1−u)

⇒x= ln( 1 1−U)^1/a ou bienx= (−lnu)^1/a.

1.3 Algorithme de Box-Muller

On considère une loi de GaussX{N(0, I2). Sa densité est donnée parf(x, y) =

1 2πe⁻^x2+y

2

2 . On fait le changement de variables suivant :x=rcosθ,y=rsinθ,r∈R⁺ etθ∈[0,2π[. Le jacobien est donné par :

cosθ −rsinθ sinθ rcosθ

=r

(4)

La densité devient_2π^r e⁻^r²². On effectue un nouveau changement de variablesr²=R, la densité suivantR est alors : ¹₂e⁻^R²,R suit une loi exponentielle de paramètre 1/2, ainsi R est généré par −2 lnU, r =

√

−2 lnU, x =

√

−2 lnUcos(2πV) et y =

√

−2 lnUsin(2πV) avecU etV lois uniformes sur ]0,1[.

Simulation de gaussienneN(0,Σ). On la simule à partir deX {N(0, I). On utilise pour cela la décomposition de Cholesky deΣenLL⁰, possible siΣ>0. On prend alorsY =LX. En effet,E(Y Y⁰) =E(LXX⁰L⁰) =LL⁰=Σ.

Cholesky s’obtient sur une matriceMen observant successivement :

— M₁₁=L²₁₁ainsiL₁₁=√ M₁₁.

— ∀k∈2, . . . , n,M_k1=L_k1L₁₁et doncL_k1=M_k1/√ M₁₁

— ∀k∈2, . . . , n,M_kk=Pk

i=1L²_ki et doncL_kk= q

M_kk−Pk−1 i=1L²_ki

— ∀k∈2, . . . , netj > kon aPk

i=1L_jiL_kiainsiL_jk=^M^jk⁻

Pk−1 i=1L_jiL_ki

L_kk .

1.4 Copules

Une copule est une fonction C : [0,1]^p →[0,1] permettant d’introduire une dépendance entrepvariables univariées. Il en existe beaucoup, une copule fréquente est la copule gaussienne donnée par :

C(u₁, . . . , u_p) =φ_R(φ⁻¹(u₁), . . . , φ⁻¹(u_p)) avecRindiquant une matrice de corrélation.

Comment simuler une loi définie par une copule ? Soit une loi quelconqu de lois de répartition marginalesF₁(x₁), . . . , F_p(x_p). Sa fonction de répartition est alors donnée par :

F(x₁, . . . , x_p) =C(F₁(x₁), . . . , F_p(x_p))

pour simuler une telle loi, on simule des uniformesU₁, . . . , U_p de copuleC et on récupère :F₁⁻¹(U1), . . . , F_p⁻¹(Up). Pourquoi cela fonctionne-t-il ?

P(F⁻₁¹(U₁)6x1, . . . , F_p⁻¹(U_p)6xp) =P(U₁6F1(x₁), . . . , U_p6Fp(x_p))

=C(FU(F1(x1)), . . . , FU(Fp(xp)))

=C(F₁(x₁), . . . , F_p(x_p)) Comment y arriver ?

On simuleY = (Y₁, . . . , Y_p) de copuleCet on prendφ₁(Y₁), . . . , φ_p(Y_p) oùφ₁, . . . , φ_p sont les fonctions de répartition marginales deY. Ainsi,

P(φ(Y1)6u1, . . . , φ(Yp)6up) =P(Y16φ⁻¹(u1), . . . , φ⁻¹(up))

(Cont. page suiv.)

(5)

=C(φ(φ⁻¹(u₁)), . . . , φ(φ⁻¹(u_p)))

=C(u1, . . . , up)

=C(F_U(u₁), . . . , F_U(u_p))

1.5 Méthode du rejet

Simulation d’une loi conditionnelle

On s’intéresse àP(Z∈B|A),Zv.a. etAun évènement. Pour cela, on simule une suite (Zn, An), les couples (Zn, An) sont indépendants. avecAn=Aou ¯A. On note τ= inf{t|At=A}. Alors

P(Z_τ∈B) =

+∞

X

t=1

P(A₁= ¯A, . . . , A_t−1= ¯A, A_t=A, Z_t∈B)

=

+∞

X

t=1

P( ¯A)^t⁻¹P(A_t=A, Z_t∈B)

=

+∞

X

t=1

(1−P(A))^t⁻¹P(Z_t∈B|A_t=A)P(A)

= 1. 1

1−(1−P(A))P(A)P(Z∈B|A)

=P(Z∈B|A)

Simulation d’une loi non-conditionnelle

Objectif : on veut simuler une variable aléatoire de densitéf(x) et dontF⁻¹est difficile à calculer car l’algorithme du rejet implique un certain nombre de rejets et donc de calculs « inutiles ». Pour cela, on utilise une variable aléatoireY facile à simuler de densitég(x) telle quecg(x)>f(x) avecc∈R⁺. SiU est une loi uniforme sur [0,1],c>^f^(x)

g(x). On noteA={CU g(x)< f(x)}. (figure)

P(Y_τ) =P(Y ∈B|A) par l’algorithme du rejet pour une loi conditionnelle

=P(Y∈B, A) P(A)

= 1

P(A) Z

B

Z

Cug(x)<f(x)g(x)1[0,1]dudx

= 1

P(A) Z

B

f(x) cg(x)g(x)dx

(Cont. page suiv.)

(6)

=P(X∈B)

CP(A) (1)

En particulier, siB=R²,P(Y ∈R^d|A) = 1 = _cP¹_(A), ainsicP(A) = 1 etP(Y ∈B|A) = P(X∈B).

On remarque au passage queP(A) = ¹_c,P(A) est la probabilité d’acceptation, il faut donc quecsoit le plus petit possible. Si on considère maintenant une loi géométrique de paramètrep=P(A), alorsc=¹_p =_P_(A)¹ est son espérance, soit ici le nombre moyen d’itérations avant qu’un nombre soit produit.

Application à la loi gamma : SoitX{Γ(a) de densitéf(x) =^x_Γ^a_(a)⁻¹e⁻^xaveca∈]0,1[.

SoitY {W(a),G(x) = 1−F(x) =e⁻^xâ,F(x) = 1−e⁻^xâ, doncg(x) =axâ⁻¹e⁻^xâ. Quel coefficientcfaut-il prendre ? On considère pour cela la fraction :

f(x)

g(x)= xâ⁻¹e⁻^x Γ(x)axâ⁻¹e⁻^xâ

=e⁻^x+x^a Γ(a)a

Soith(x) =−x+xâainsih(x)⁰=−1 +axâ⁻¹= 0 etxâ⁻¹=¹_a etx^∗= (¹_a)â¹⁻¹. La dérivée secondeh⁰⁰(x^∗) =a(a−1)<0 cara∈]0,1[. Ainsi,

f(x) g(x)6e⁻⁽¹^a⁾

a−11+(¹_a)a−^a1

Γ(a)a =c

Pour simuler une loiΓ(n+a), on simuleX1{E(1), . . . , Xn{E(n), Y {Γ(a) et on effectueX1+· · ·+Xn+Y.

2 Réduction de la variance

2.1 Variables de contrôle

On veut estimerE(X) alors que l’on arrive à calculer de manière expliciteE(h(x)).

On écrit alorsX=X−Y+Y. On a ainsi une première estimation deE(X) donnée par :

e₁=1 n

Xn

i=1

X_i

de varianceVar(e₁) =^V^ar_n^X.Une seconde estimation, faisant usage d’une variable de contrôleY est donnée par :

e2=1 n

Xn i=1

X_i−aY_i+aE(Y)

(7)

où on a toute latitude de choisira∈Rau mieux. La variance dee₂est donnée par : Var(e₂) =1

nVar(X−aY)

=1 n

VarX+a²VarY−2aCov(X, Y)

Si bien qu’on peut déterminerade la manière suivante,

∂Vare₂

∂a =1 n

2aVarY−2 Cov(X, Y)

= 0

⇒a=Cov(X, Y) VarY Et obtenir comme variance,

Vare₂=1 n

VarX+Cov(X, Y)²

VarY −2Cov(X, Y)² VarY

=1 nVarX

1−Cor(X, Y)²

si bien que l’on voit que l’on peut toujours en théorie réduire la variance pour peu queY ne soit pas indépendante deX.

Exemple 1 – X{U(0,1), estimation deE(exp(X)) à l’aide de la variable de contrôle 1 +X.

2.2 Variables antithétiques

Un petit lemme est nécessaire d’abord.

Lemme 1 – SiY est une variable aléatoire réelle,f une fonction décroissante etg une fonction croissante, on a alors :C= Cov(f(Y), g(Y))60.

Preuve. SoitY etY⁰ deux variables aléatoires indépendantes de même loi. On a alors :E

(f(Y)−f(Y⁰))(g(Y)−g(Y⁰))

60. Par ailleurs, E

(f(Y)−f(Y⁰))(g(Y)−g(Y⁰))

= E

f(Y)g(Y) +E

f(Y⁰)g(Y⁰)

−E

f(Y)g(Y⁰)

−E

f(Y⁰)g(Y)

= 2E

f(Y)g(Y)

−2E f(Y)

E g(Y)

= 2 Cov

f(Y), g(Y) si bien que Cov

f(Y), g(Y)

60. Ce qui conclut la preuve.

(8)

En particulier, sif est monotone etφdécroissante on a : Cov(f(Y), f(φ(Y)))

Cela peut être exploité siφ(Y) suit la même loi queY comme par exemple pour

— loi uniformeY sur [0,1] alorsφ(Y) = 1−Y suit la même loi.

— loi de GaussY alorsφ(Y) suit la même loi.

Supposons maintenant que l’on veuille estimerE(f(Y)), l’estimateur classique est :

e1=1 n

Xn i=1

f(Y_i)

Le nouvel estimateur est : e2=1

n Xn i=1

f(Y_i) +f(φ(Y_i)) 2

alorsVare2=_2n¹ (Varf(Y) + Cov(f(Y), f(φ(Y)))) ainsi : Vare₁

Vare2 = 2Varf(Y)

Varf(Y) + Cov(f(Y), f(φ(Y)))>2 Exemple 2 – E

1 1+X

avecX{U(0,1). On peut prendreY= 2−X.

2.3 Echantillonnage préférentiel

I =R

f(x)g(x)dxavec f(x) une densité à laquelle on va préférerf^∗(x). Ainsi : I=R _f_(x)g(x)

f^∗(x) f^∗(x)dx.

Exemple 3 – E

[X−3]₊

avecX{N(0,1). On peut prendreY{N(3,1).

2.4 Stratification

On suppose que l’on a plusieurs stratesS₁, . . . , S_kdans lesquelles on va échan- tillonner suivant des proportions à définir. D’une manière générale, on veut estimer Xau moyen de :

e₂= Xk j=1

p_j 1 n_j

n_j

X

i=1

X_ij

(9)

oùn_jreprésente le nombre de points échantillonnés dansS_j. Ainsi :

Var(e₂) =

k

X

j=1

p²_j nj

Var(X_j)

=1 n

Xk j=1

p_jVar(X_j) en supposantn_j=np_j

=1 n

k

X

j=1

pjVar(X|Z∈Sj)P(Z∈Sj)

=E(Var(X|Z)) n orE(Var(X|Z))6Var(X).

Exemple 4 – On veut calculerE(exp(X)) avecX{U(−1,1). On peut utiliser comme strates (−1,0) et (0,1).

3 Chaînes de Markov à temps discret

3.1 Introduction aux chaînes de Markov

Dans la suite, on considèreraX= (X_n)_n>1une suite de variables aléatoires avec X_n: (Ω,F)→(E_n,Tn). On note queXest mesurable surTla tribu engendrée par les cylindresC=A₁× · · · ×A_k×Q

i>k+1E_i, avecA_j∈Tj. En effet, pour un cylindreB, on aX⁻¹(B) =∩^k

i=1X_i⁻¹(Ai)∈FasX_i⁻¹(Aj)∈Fjfor allj.

Définition 1 – Une chaîne de Markov de matrice de transition P est une suite variables aléatoires (X_n) définie sur un espace probabilisé (Ω,T, P) à valeurs dansE telle queP(X_n+1=x_n+1|X_n=x_n, . . . , X₁=x₁) =P(x_n, x_n+1).

3.2 Chaînes de Markov à nombre d’états fini

On considère une chaîne de Markov surΩavec|Ω|fini.

La matrice de transitionP indique en position (i, j) parPij la probabilité d’aller de l’étatià l’étatj.

Remarque 1 – La valeur propre de M 1 est maximale. En est, d’après le théo- rème 1 page suivante chaque valeur propre est comprise dans un des disques D(Pii,P

j,i|Pij|).Ainsi, comme la somme d’une ligne est égale à 1, en valeur absolue on ne peut excéder 1.

(10)

Théorème 1 – Toute valeur propre d’une matriceMcomplexe est comprise dans un des disquesD(M_ii,P

j,i|M_ij|).(Gershgorin)

Preuve. Soit un vecteur proprevpour la valeur propreλ. Définissonsm= argmax_i|v_i|. Ainsi,

λvm=X

j

Mmjvj=Miivm+X

j,m

Mmjvj

⇒(λ−Mmm)vm=X

j,m

Mmjvj

⇒ |λ−Mmm||vm|=|X

j,m

vj|6X

j,m

|Mmj||vj|

⇒ |λ−M_mm|6X

j,m

|M_mj| vj

|v_m|6X

j,m

|M_mj|

Lemme 2 – Il existe toujours au moins une loi stationnaire.

Preuve. On commence par remarquer queP a toujours 1 comme valeur propre associée au vecteur propre1, ainsi 1 est également valeur propre deP⁰ carP etP⁰ ont même polynôme caractéristique.

Il faut prouver maintenant qu’il existe un vecteur propre non-négatif associée à la plus grande valeur propre deA=P⁰ne contenant que des valeurs non-négatives.

Soit u vecteur propre de A, montrons que prendre la valeur absolue de ses éléments ne change pas sa qualité de vecteur propre, considérons ainsi le vecteurv tel quev_i =|u_i|. On a :

X

j

A_ijv_j−λv_i =X

j

A_ij|u_j| −λ|u_i|

>|X

j

A_iju_j| −λ|u_i|

>λ|u_i| −λ|u_i|= 0 (2)

Supposons par l’absurde que∃i,(Av−λv)_i>0. Si on somme suivanti, on obtient : X

i

X

j

A_ijv_j−λv_i

=X

i

X

j

P_jiv_j−λv_i

= 0 On en déduit que∀i,P

jAijvj−λvi = 0,v est donc bien vecteur propre pour la

valeur propre 1.

En utilisant le théorème de Brouwer, on aurait pu conclure immédiatement.

(11)

Remarque 2 – Attention, il peut y avoir plusieurs lois stationnaires pour une chaîne de Markov. Considérons par exemple :

P = 1 0 0 1

!

ici, (1,0) et (0,1) sont des lois stationnaires et il en existe une infinité (à vous de les trouver).

Remarque 3 – Attention, d’une manière générale les valeurs propres deP peuvent être imaginaires. Considérons par exemple :

P =







1 2

1

2 0

0 ¹₂ ¹₂

1 2 0 ¹₂







En effet, si on calcule le polynôme caractéristique on obtient :

1

2−λ ¹₂ 0

0 ¹₂−λ ¹₂

1

2 0 ¹₂−λ

=1 2−λ3

+1

8=−λ³+3 2λ²−3

4λ+1 4 On obtient :−λ³+³₂λ²−³

4λ+¹₄ = (λ−1)(−λ²+^λ₂−¹

4). Or, le discriminant de−λ²+^λ₂−¹

4

est∆=−³

4<0 impliquant donc l’existence de deux valeurs propres imaginaires.

Remarque 4 – Attention, d’une manière généraleP peut ne pas être diagonalisable.

Considérons par exemple :

P =







1

2 1

2 0

0 ¹₂ ¹₂

0 0 1







En effet, si on considère la valeur propre ¹₂ de multiplicité algébrique 2, on a par contre :

P−1 2I3=







0 ¹₂ 0 0 0 ¹₂ 0 0 ¹₂







qui est de rang 2, de telle sorte que dim(E¹

2) = 1.

Lemme 3 – Si une chaîne de Markov est réversible pour la loiπ alorsπ est une loi stationnaire.

(12)

Preuve. On a l’égalitéπ(x)q(x, y) =π(y)q(y, x). Si on somme suivantx, on obtient : X

x

π(x)q(x, y) =X

x

π(y)q(y, x)

X

x

π(x)q(x, y) =π(y)

Lemme 4 – L’irréductibilité implique l’unicité de la loi stationnaire.

Preuve. Soit une chaîne irréductible, ainsi∀i, j ∃ntel que P_ijⁿ>0. Par l’absurde, supposons l’existence deuun vecteur propre deP non collinéaire à1pour la valeur propre 1. Soitm = argmax_i|u_i|, on a par définition :u_m =P_n

i=1P_mjⁿ u_j. On a par conséquent :

|u_m|=

X

j

P_mjⁿ u_j

6X

j

P_mjⁿ |uj|

6P_mmⁿ |um|+X

j,m

P_mjⁿ |uj|en s’arrangeant pour queP_mjⁿ >0 et|uj|<|um|

< P_mmⁿ |um|+X

j,m

P_mjⁿ |um|car par construction|uj|<|um|

<|u_m|

Nous aboutissons ainsi à une contradiction et pouvons conclure.

Une fois que nous avons déterminer s’il y a une ou plusieurs lois stationnaires, nous voulons savoir s’il y a convergence vers cette loi stationnaire. En effet, l’existence d’un point fixe dans un système dynamique n’implique par pour autant la convergence du système vers ce point fixe.

Le théorème suivant fournit un critère simple de convergence mais pour cela nous avons besoin de la notion d’apériodicité.

Définition 2 – Un étatxest apériodique si le pgcd deN_x={n|Pⁿ(x, x)>0}est égal à 1. Une chaîne de Markov est apériodique si tous ses états sont apériodiques.

Théorème 2 – Si une chaîne de Markov dans un espace à nombre d’états fini est irré- ductible et apériodique alors elle converge vers son unique loi stationnaire.

Preuve. SoitN_i ={n|P_i,iⁿ >0}. Par Bezout,∃a₁, . . . , a_k ∈Zetn₁, . . . , n_k ∈N_i tels que Pk

i=1aini = 1. Notons A⁺ et A⁻ l’ensemble des coefficients positifs et négatifs

(13)

respectivement. On a ainsiP

a_i∈A⁺a_in_i =−P

a_i∈A⁻a_in_i+ 1. On obtient ainsim_i =

−P

a_i∈A⁻a_in_i∈N_i avecm_i+ 1∈N_i également.

Soit∀n > m²_i, si on divisende manière euclidienne parm_i, on obtient :n=qm_i+r avecr < m_i etq>m_i. Ainsi,n=qm_i+r(m_i₊₁−m_i) =m_i(q−r) +rm_i+1orm_i(q−r) est un multiple positif dem_i etrmi+1 demi+1. Ainsi,n∈N_i et plus généralement si nous prenonsn > m= maxim²_i, alorsn∈ ∩_iNi.

Soitn >maxijnij+m, alorsP_ijⁿ>P_iiⁿ⁻ⁿîjP_ijⁿîj, ce produit est positif carP_ijⁿîj >0 par définition etn−n_ij> mdoncP_iiⁿ⁻ⁿîj >0.

On vient de montrer que pournsuffisamment grand la matrice de transition Pⁿn’a que des entrées positives. Le théorème de Frobenius nous dit alors qu’il y a une valeur propre maximale (au sens de la valeur absolue) unique. En utilisant la décomposition de Jordan, on a alors :

Pⁿ=Q







1 0 . . . 0 0 B₂ . .. ...

... . .. ... 0 0 . . . 0 B_k





 Q⁻¹

avecBi =







λ_i 1 0 . . . 0 0 . .. ... ... ...

... . . . . .. ... 1 0 . . . . . . 0 λi







.Le nombre de blocs pour une valeur propre

correspond à sa multiplicité géométrique alors que la somme des tailles des blocs donne sa multiplicité algébrique. Ainsi, si on metPⁿà la puissance on obtient la convergence vers :

Q







1 0 . . . 0 0 0 . .. ...

... . .. ... 0 0 . . . 0 0





 Q⁻¹

Remarque 5 – A propos deBⁿ_i, pour voir qu’il y a convergence vers la matrice nulle, on écrit :

Bⁿ_i =





 λ_iI_l_i+







0 1 0 0

... . .. ... 0 0 . . . 0 1 0 . . . . . . 0













n

(14)

= Xn k=0

n k

! λⁿ_i⁻^kIl_i







0 1 0 0

... . .. ... 0 0 . . . 0 1 0 . . . . . . 0







k

(Cont. page suiv.)

=

l_i−1

X

k=0

n k

! λⁿ_i⁻^kI_l_i







0 1 0 0

... . .. ... 0 0 . . . 0 1 0 . . . . . . 0







k

(3)

La convergence vers 0 est alors immédiate.

Vitesse de convergence

Nous ne détaillons ici que quelques méthodes de base.

Théorème 3 – Si une chaîne de Markov àdétats est irréductible, apériodique et rever- sible on a alors :

∀i, j|P_ijⁿ−π(j)|6 pπ(j)

pπ(i)max(|λ2|ⁿ,|λd|ⁿ) oùλ₁= 1> λ₂>. . .>. . . λ_d

Preuve. SoitD,D_ij=δ_ijp

π(i), alors la matriceDP D⁻¹est symétrique donc diagonalisable dans une base orthornormée. Par ailleurs, sivest un vecteur propre pour P et la valeur propreλ,Dvest un vecteur propre pourDP D⁻¹pour la même valeur propre. On a la symétrie car :

(DP D⁻¹)_ij=p

π(i)P_ijp π(j)⁻¹

=p

π(i)⁻¹π(i)P_ijp π(j)⁻¹

=p

π(i)⁻¹π(j)Pji

pπ(j)⁻¹par réversibilité de la chaîne

=(DP D⁻¹)_ji On peut donc écrire :

DP D⁻¹=X

k=1

λkvkv_k⁰

et par orthonormalité de la base :DPⁿD⁻¹=P

k=1λⁿ_kvkv⁰_k. ainsi : P_ijⁿ=

pπ(j)

pπ(i)v1(i)v₁(j) +X

k>1

pπ(j)

pπ(i)λⁿ_kvk(i)v_k(j)

(15)

= pπ(j) pπ(i)

pπ(i)p

π(j) +X

k>1

pπ(j)

pπ(i)λⁿ_kvk(i)vk(j) (Cont. page suiv.)

=π(j) +X

k>1

pπ(j)

pπ(i)λⁿ_kv_k(i)v_k(j) Par conséquent,

|P_ijⁿ−π(j)|6 pπ(j) pπ(i)

sX

k>1

λ²ⁿ_k v_k(i)² sX

k>1

v_k(i)²par Cauchy-Schwarz

6 pπ(j)

pπ(i)max(|λ2|ⁿ,|λ_d|ⁿ) On définit un produit scalaire sur les fonctions réelles définies sur l’espace d’états finiM:

hf , gi:=X

x∈M

π(x)f(x)g(x)

On note aussiπf =hf ,1i,Var_π(f) =E_π

f −πf

2=hf −πf , f −πfi_πetP f(x) = P

yP(x, y)f(y) ce qui nous permet de définir les formes de Dirichlet et inégalités de Poincaré comme suit.

Définition 3 – On appelle forme de Dirichlet l’expression : (f , f) =h(I−P)f , fi_π

Définition 4 – Une inégalité de Poincaré est inégalité de la forme suivante : Varπ(f)6C(f , f)

Théorème 4 – SiP est réversible, la seconde valeur propre deP,λ₂est bornée par : 1−λ₂= min

f⊥_π1,f,0

(f , f) Varf

Preuve. Ainsi, on a∀i, jhf_i, f_ji_π=δ_ij avecf₁, . . . , f_n vecteurs propres deP tels que Df1, . . . , Dfnsoient des vecteurs propres orthonormés deDP D⁻¹. Ainsi, sihf , f1i_π= 0, on a :f =Pd

i=2aifi et par conséquent : h(I−P)f , fi_π=

Xd i=2

a²_i(1−λ_i)>(1−λ2) Xd

i=2

a²_n

>(1−λ2)Varf

(16)

Ainsi, on a l’inégalité suivante pour toutf orthogonal àf₁: 1−λ₂6(f , f)

Varf

avec égalité pourf =f2, d’où la conclusion.

Remarque 6 – X

x,y

1

2π(x)π(y)|f(x)−f(y)|²=X

x,y

1

2π(x)π(y)f(x)²+1

2π(x)π(y)f(y)²−π(x)π(y)f(x)f(y)

=E(f(X)²)−(Ef(X))²

Lemme 5 – Si une chaîne de Markov vérifie pour toutx,P(x, x)>¹

2 alors|λ₂|>|λ_d|. Preuve. Soit un vecteur propref associé à la valeur propreλetm= argmax_i|vi|. Alors, on a par définition :

λv_m=X

j

P_mjv_j

⇒v_m(λ−P_mm) =X

j,m

P_mjv_j

⇒ |λ−Pmm|=X

j,m

Pmj

|v_j|

|vm|

⇒ |λ−P_mm|6X

j,m

P_mj

⇒ |λ−P_mm|61−P_mm

⇒ |λ| −Pmm>1−Pmm

⇒ |λ|>2P_mm−1

⇒ |λ| >0

Ainsi, si toutes les valeurs propres sont positives, on a bien :λ2>λd. L’implication de ce lemme est que pour une chaîne de Markov paresseuse, seule la seconde valeur propre compte pour l’estimation de la vitesse de convergence. On peut en particulier tirer alors profit de théorème 4 page précédente.

Théorème 5 – Pour une chaîne de Markov apériodique, irréductible et réversible on a l’inégalité suivante :

Var_πf 6sup

e







Q(e)⁻¹ X

x,y:e∈γ(x,y)

|γ(x, y)|π(x)π(y)





 (f , f)

(17)

Preuve. Commençons à observer que pour deux étatsxety, on a :

|f(y)−f(x)|²=

X

e∈γ(x,y)

df(e)

2

6|γ(x, y)| X

e∈γ(x,y)

df(e)² avec df(e) =f(e⁺)−f(e⁻) oùereprésente l’arêtee⁻, e⁺. Ainsi,

X

x,y

1

2π(x)π(y)|f(y)−f(x)|²61 2

X

x,y

|γ(x, y)| X

e∈γ(x,y)

df(e)²π(x)π(y)

61 2

X

x,y

|γ(x, y)|π(x)π(y) X

e∈γ(x,y)

Q(e)⁻¹df(e)²Q(e)

61 2

X

e

X

x,y:e∈γ(x,y)

|γ(x, y)|Q(e)⁻¹π(x)π(y)df(e)²Q(e)

61 2sup

e







Q(e)⁻¹ X

x,y:e∈γ(x,y)

|γ(x, y)|π(x)π(y)





 X

e

df(e)²Q(e)

Or,

(f , f) =h(I−P)f , fi_π

=X

x

π(x)







f(x)−X

y

P(x, y)f(y)





 f(x)

=X

x

X

y

π(x)P(x, y) (f(x)−f(y))f(x)

=1 2

X

x

X

y

π(x)P(x, y) (f(x)−f(y))² par réversibilité

=X

e

df(e)²Q(e) ainsi :

X

x,y

1

2π(x)π(y)|f(y)−f(x)|²6sup

e







Q(e)⁻¹ X

x,y:e∈γ(x,y)

|γ(x, y)|π(x)π(y)





 (f , f) soit :

Varf 6sup

e







Q(e)⁻¹ X

x,y:e∈γ(x,y)

|γ(x, y)|π(x)π(y)





 (f , f)

(18)

Exemple 5 – L’urne d’Ehrenfest. L’espace d’états est donné parM={0,1}^Navec les transitions suivantes :P(x, y) = _2N¹ pourx,y etP(x, x) =¹₂ sinon, où lorqu’il y a un changement une particule est choisie de manière uniforme et change d’urne.

On construit un ensemble de cheminsΓ entre tous les couples (x, y) en modifiant itérativementx₁, puisx₂et ainsi de suite jusqu’àx_N. La loi stationnaire est donnée parπ(x) =₂¹_N, en effet on aP reversible :

π(x)P(x, y) = 1 2^N

1

2N =π(y)P(y, x).

La longueur d’un chemin est bornée par|γ(x, y)|6N. Enfin, si on considère une arêtee= (e⁻, e⁺)∈γ(x, y), il y a un seul indiceitel quee⁻_i ,e⁺_i donc∀j < i,y_j=e⁻_j et

∀j>i,xj=e⁺_j. On a ainsi, pour une arête 2^N⁻¹couples (x, y) possibles. Comme on peut choisiryjpourj > ietxjquelconques pourj < iet conserver la même arêtee, on en déduit grâce au théorème 5 p. 16 :

Varf 6(f , f) π(e⁻)π(e⁺)

π(e⁻)P(e⁻, e⁺)N2^N⁻¹ 6(f , f) 1

2^N2N N2^N⁻¹ 6(f , f)N²

Ainsi,λ261− ¹

N².

Exemple 6 – Un petit graphe presque biparti. On considère une marche aléatoire sur un graphe presque biparti avec deux partitionsV₁={1,2}etV₂={3, . . . , N}. Pour toutx,P(x, x) = ¹₂, pourx∈V₁ety∈V₂,P(x, y) = _2(N¹−2) et pourx∈V₂ety∈V₁, P(x, y) =¹₄. Le graphe est représenté sur la figure 1

On a ainsi :

P =







1

2 1

2(N−1) 1

2(N−1) . . . _2(N¹₋₁₎

1 2(N−1)

1

2 1

2(N−1) . . . _2(N¹₋₁₎

1

4 1

2 0 0

... ... . .. 0

1

4 1

4 0 ¹₂







La loi stationnaire est donnée par :π= _4N¹−6(N−1, N−1,2, . . . ,2)⁰.Détaillons les différents chemins :

— entre 1 et 2 : 132, de même pour 2 et 1 : 231

— entre 1 eti >2 : 1i, de même pour 2 eti >2 : 2i

— entrei >2 et 1 :i1, de même pouri >2 et 2 :i2

— entrei,j >2 :i1j

(19)

1

2

3

N 4

Figure1 – Graphe presque biparti 2 contreN−2 sommets.

On distingue les arêtes (1,3), (3,1) et (1,2). Pour (1,3), on a : C₁₃6 1

π(1)P13

X

γ(x,y)3(1,3)

π(x)π(y)|γ(x, y)|

64N−6

N−1 2(N−1)

2 N−1

(4N−6)²+ (N−3)2 2×2 (4N−6)(4N−6)

∼5 Pour (3,1), on a :

C316 1 π(1)P₁₂

X

γ(x,y)3(1,2)

π(x)π(y)|γ(x, y)|

64N−6

2 4

1 2

4N−6 N−1

4N−6+ 2(N−3) 2 4N−6

2 4N−6

∼5 Pour (1,2), on a :

C12= 2(N−1)N−1 4N−6∼N

2 On conclut donc queC∼^N

2.

(20)

Exemple 7 – Mélange deN= 52 cartes. On considère le processus suivant où une carte est prise au hasard parminet placée ensuite au sommet du mélange de cartes.

On appelle cela en anglaisrandom-to-top shuffling. Ensuite, on rend réversible et paresseux ce processus en considérant également l’opération contraire où la carte du dessus prend une place aléatoire dans la pile de cartes. On considère le chemin suivant entre deux sommets (x₁, . . . , x_N) et (y₁, . . . , y_N) :





 x1

x2

. . . x_N







→





 yN

x12

. . . x_1N







→ · · · →





 y1

y2

. . . y_N







Si on considère une arête sur un tel chemin et que l’on a déjà placé correctement icartes parmi lesN cartes alors on a : (N−i−1)!

N i

possibilités, en sommant suivanti∈0, . . . , N−1 on obtient :

C6 1

1/(2N)1/N! 1 N!

1 N!N

N−1

X

i=0

(N−i−1)!

N i

6N² N!

N−1

X

i=0

(N−i−1)!N! (N−i)!i!

6N²

N−1

X

i=0

1 N−i 6N²(1 + lnN)

Exemple 8 – Loi de Gibbs. Soit une loi de Gibbs donnée parπ_T(x) = _Z¹

T exp{−^V^(x)

T } avecV :M→R,d=|M|etZ_T =P

y∈Mexp{−^V^(y)

T }. On fait l’hypothèse que six,y alorsV(x),V(y) et que infx∈MV(x) = 0, on noteVmin ={x|V(x) = 0}etN(x) les voisins d’un étatx. On définit l’élévation d’un chemin comme Elev(γ) = sup_iV(xi), avecγ= (x1, . . . , xk).On définit aussi la hauteur de communication comme :C(V) = sup_x∈Minfy∈V_min(Elev(γ(x, y))−V(x)).On choisit parmi les chemins existants entre deux pointsxetyun de ceux qui minimisent Elev(Γ). On a :

Q(e) =π(e⁻)P(e⁻, e⁺)

= exp

−1 TV(e⁻)

1

|N(e⁻)|







|N(e⁻)|

|N(e⁺)|exp 1

T(V(e⁻)−V(e⁺)) 1

Z_T ∧1







= exp

−1 TV(e⁺)

1 Z_T

1

|N(e⁺)|∧exp

−1 TV(e⁻)

1 Z_T

1

|N(e⁻)|