• Aucun résultat trouvé

Sur quelques algorithmes récursifs pour les probabilités numériques

N/A
N/A
Protected

Academic year: 2022

Partager "Sur quelques algorithmes récursifs pour les probabilités numériques"

Copied!
30
0
0

Texte intégral

(1)

URL:http://www.emath.fr/ps/

SUR QUELQUES ALGORITHMES R´ECURSIFS POUR LES PROBABILIT´ES NUM´ERIQUES

Gilles Pag` es

1

Abstract. The aim of this paper is to take an in-depth look at the long time behaviour of some continuous time Markovian dynamical systems and at its numerical analysis. We first propose a short overview of the main ergodicity properties of time continuous homogeneous Markov processes (stability, positive recurrence). The basic tool is a Lyapunov function. Then, we investigate if these properties still hold for the time discretization of these processes, either with constant or decreasing step (ODE method in stochastic approximation, Euler scheme for diffusions). We point out several advantages of the weighted empirical random measures associated to these procedures, especially with decreasing step, in terms of convergence and of rate of convergence. Several simulations illustrate these results.

AMS Subject Classification. 65C30, 62L20.

Re¸cu le 26 f´evrier 2001. R´evis´e le 17 septembre 2001.

1. Introduction

Le but de ce m´emoire est de faire le point sur les m´ethodes permettantl’analyse num´erique du comportement en temps long des algorithmes stochastiques et des diffusions. L’essentiel de cette introduction est consacr´e

`

a des rappels et `a des commentaires sur ces processus dans le cadre des probablit´es num´eriques. Il nous est paru ensuite utile de brosser une rapide synth`ese des m´ethodes permettant l’´etude des propri´et´es d’ergodicit´e (r´ecurrence positive, stabilit´e) des processus de Markov `a temps continu en pr´esence d’une fonction de Lyapunov.

C’est l’objet des sections 2 et 3. Nous avons volontairement privil´egi´e les diffusions et les ´equations diff´erentielles ordinaires (ces derni`eres ´etant l’objet `a temps continu sous-jacent aux algorithmes stochastiques). Has’minskii a jou´e dans ce domaine un rˆole majeur et son ouvrage [25] reste une r´ef´erence essentielle (voir aussi, plus r´ecemment [10]). Les diff´erentes approches num´eriques sont abord´ees `a la section 4, accompagn´ees de quelques premiers ´el´ements de comparaison.

1.1. Algorithmes stochastiques (markoviens) sur Rd

On consid`ere (Xn)n0 une suite de vecteurs al´eatoires deRd d´efinie r´ecursivement par

∀n∈N, Xn+1=Xn+γn+1H(Xn, εn+1). (1)

Mots-cl´es et phrases :Ergodicity, stability, Markov process, diffusion, stochastic algorithm, ODE method, Euler scheme, empi- rical measure.

Journ´ees MAS 2000, 8–11 septembre 2000, Rennes.

1Laboratoire de Probabilit´es et Mod`eles Al´eatoires, UMR 7599, Universit´e Pierre et Marie Curie, Universit´e Paris 6, Case 188, 4 place Jussieu, 75252 Paris Cedex 05, France ; e-mail: gpa@ccr.jussieu.fr

c EDP Sciences, SMAI 2000

(2)

La suite (γn)n1, appel´eepasde l’algorithme stochastique, v´erifieγn>0,X

n1

γn= +;

la suite (εn)n1 est une suite de variables al´eatoires i.i.d., de loi µ, ind´ependante de la variable initiale X0 ;

la fonctionH est l’observationde l’algorithme stochastique. Elle est d´efinie par H : Rd×RqRd

(x, u)7→H(x, u)

et v´erifie, pour toutx∈Rd,H(x, .)∈ L1(µ) et µ(du)-p.s.,H(., u) est continue enx.

Le terme observation indique ici que l’utilisateur est capable, disposant de Xn de “fabriquer” H(Xn, εn+1), soit exp´erimentalementvia un dispositif physique, soit par simulation. Dans ce dernier cas, cela signifie que la fonctionH est num´eriquement calculable et que la loiµdesεk estsimulable(`a un coˆut raisonnable s’entend).

On appellefonction moyenne de l’algorithme la fonctionhd´efinie par h(x) :=E(H(x, ε1)) =

Z

RqH(x, u)µ(du).

La fonctionh, elle, n’est g´en´eralement pas calculable num´eriquement (toujours `a un coˆut raisonnable). En effet, lorsqu’elle l’est, il n’y a g´en´eralement pas de raison de mettre en œuvre l’algorithme (1) puisqu’il peut alors ˆetre remplac´e – souvent avantageusement – par son pendant d´eterministe

xn+1 =xn+γn+1h(xn). (2)

Ainsi on a typiquement recours `a un algorithme stochastique de type (1) lorsque le calcul num´erique deH et la simulation d’´echantillons de la loiµont un coˆut faible compar´e `a l’int´egration num´erique d’une fonction par rapport `aµ, sachant que, precis´ement, l’int´egration num´erique a un coˆut prohibitif sur Rd lorsquedaugmente.

D’autres consid´erations peuvent motiver le choix d’une proc´edure r´ecursive stochastique, notamment l’usage du

“bruit” pour ´eviter des convergences vers des point “ind´esirables”. Mais, `a nouveau, si hest num´eriquement

´evaluable, on privil´egie alors une perturbation lin´eaire de (2) par un bruit convenablement choisi. De telles proc´edures ne se ram`enent pas toujours `a (1) (recuit simul´e).

Revenons `a l’algorithme (1) dans sa forme originelle. On peut formellement le r´e´ecrire sous la forme

∀n∈N, Xn+1=Xn+γn+1h(Xn) +γn+1(H(Xn, εn+1)−h(Xn)).

Les termes H(Xn, εn+1) −h(Xn), n 0, ont une esp´erance conditionnelle nulle par rapport `a Fnε :=

σ(X0, ε1, . . . , εn), filtration propre deε(etX0), not´eeFn dans la suite. Ils sont par ailleursFn+1-mesurables.

Ce sont donc les accroissements d’une Fn-martingale (Mn)n1. Finalement, l’algorithme stochastique (1) se r´e´ecrit

Xn+1=Xn+γn+1h(Xn) +γn+1∆Mn+1. (3) Les outils sur lesquels repose l’´etude de cet algorithme stochastique diff`erent selon que le pas (γn)n1est constant ou tend vers 0.

γn=γ >0 :

L’algorithme stochastique (1) est alors uneFn-chaˆıne de Markov homog`ene de semi-groupe de tran- sition fell´erien donn´e par

Qγ(f)(x) :=

Z

Rqf(x+γH(x, u))µ(du).

(3)

On peut ´egalement le voir, via (3), comme le sch´ema d’Euler de pas γ, perturb´e par γ∆Mn+1, de l’´Equation Diff´erentielle Ordinaire associ´ee `ah(en abr´eg´eEDOh), `a savoir

EDOh x˙ =h(x).

γn0 :

On a alors `a faire `a uneFn-chaˆıne de Markov inhomog`ene, dont la transition `a la datenest donn´ee par E(f(Xn+1)/Fn) =Qγn+1f(Xn).

L’´equation (3) est alors celle du sch´ema d’Euler`a pas “d´ecroissant”(et perturb´e) de l’EDOh. Le fait d’assimiler l’´equation (3) `a un sch´ema d’Euler perturb´e d’EDOh est connu sous le nom de m´ethode(s) de l’EDO. On peut alors interpr´eter une proc´edure stochastique r´ecursive comme un moyen d’analyser le comportement en temps long de l’EDOh x˙ = h(x) lorsque la fonction h – suppos´ee continue – n’est pas num´eriquement connue. Sur un plan math´ematique, ces diff´erentes m´ethodes de l’EDOconsistent `a d´eterminer dans quelle mesure ceci est possible et jusqu’`a quel point.

Pr´ecisons `a ce stade qu’il n’est pas dans nos objectifs de proposer un expos´e g´en´eral sur les m´ethodes d’approximation stochastique, notamment concernant le comportement trajectoriel p.s. de ces algorithmes (convergence, r´ecurrence par chaˆıne, vitesse en loi, etc.) qui ne sera ´evoqu´e ici qu’`a titre de comparaison, de fa¸con tout `a fait anecdotique. Pour se familiariser (en fran¸cais) avec les principaux aspects math´ematiques de l’approximation stochastique, on se reportera par exemple `a des trait´es g´en´eraux comme [9] et [17] ou `a des synth`eses plus sp´ecialis´ees comme [7] (notamment pour les liens avec les syst`emes dynamiques).

1.2. Diffusions (browniennes) sur Rd

On consid`ere le processus (Xt)t0 d´efini par l’´Equation Diff´erentielle Stochastique (EDSb,σ) suivante dXt=b(Xt)dt+σ(Xt)dWt,

o`u

b : RdRd est une fonction continue ;

σ : Rd→ M(d×q) est ´egalement continue,b etσv´erifiant|b(x)|+kσ(x)k=O(|x|) ;

(Wt)t0 est un mouvement brownien standard surRq.

On s’int´eresse ici au probl`eme deprobabilit´es num´eriquessuivant : les fonctionsb etσ´etant connues, comment d´eterminer num´eriquement la mesure invariante de cette diffusion, autrement dit d´eterminer son comportement en temps long.

Pour ce faire on discr´etise le probl`eme, en utilisant par exemple le sch´ema d’Euler de pasγ constant : Xn+1γ =Xnγ+γ b(Xnγ) +

γ σ(Xnγ)Un+1, (4)

o`u (Un)n1 est une suite de variables al´eatoires i.i.d., centr´ees, normalis´ees, de loi µ v´erifiant R

Rq|u|2µ(du)

<+. Il s’ensuit que (Xnγ)n0est une chaˆıne de Markov homog`ene, de transition fell´erienne donn´ee par Qγ(f)(x) =

Z

Rqf(x+γ b(x) +√

γ σ(x)u)µ(du).

Constatant que les algorithmes stochastiques comme les diffusions font intervenir des processus de Markov homog`enes, nous allons commencer par quelques rappels, notamment concernant l’existence d’un ´eventuel r´egime stationnaire et les liens de ce r´egime avec le g´en´erateur infinit´esimal du processus.

(4)

2. Processus de Markov homog` enes

Un processus (Xt)t0 est un processus de Markov homog`ene si

∀s, t≥0, E(f(Xt+s)/Fs) =E(f(Xt+s)/Xs) =Ptf(Xs) o`uPtf(x) :=Ex(f(Xt)) v´erifie

Pt11=11 et Pt◦Ps=Pt+s

((Pt)t0 est le semi-groupe de transition du processus de Markov). Nous allons donner quelques exemples de processus de Markov homog`enes.

1. La solution de l’EDOx˙ =h(x), avechfonction localement lipschitzienne v´erifiant|h(x)|=O(|x|), est un processus de Markov homog`ene (bien ´evidemment d´eterministe !), dont le semi-groupe de transition est donn´e par

Ptf(x) =ft(x)) o`u (Φt(x))t∈R+ d´esigne le flot de l’EDO.

2. On consid`ere l’EDOx˙ = 2

xsurR+. Dans ce cas le flot n’existe pas, mais on peut trouver des solutions qui forment un processus de Markov homog`ene, `a savoir siXx0 d´esigne une solution issue de x0 :

Xtx0 = (

x0+t)2 six06= 0

((t−T0)+)2 six0= 0, o`uT0suit une loi exponentielle de param`etre 1.

Le semi-groupe de transition de ce processus de Markov s’´ecrit Ptf(x) =f(x+ 2x

t+t2)11{x>0}+

f(0)et+ Z t

0

f((t−θ)2)eθ

11{x=0}.

3. Toute solution de l’EDS

dXt=b(Xt)dt+σ(Xt)dWt,

o`u b et σsont toutes deux localement lipschitziennes et v´erifient de plus (|b|+kσk)(x) =O(|x|), est un processus de Markov homog`ene (cf.[19, 40]).

Les semi-groupes apparaissant dans les trois exemples ci-dessus sont tous troisfell´eriens, `a savoir

(a) ∀t >0, Pt(C0)⊂ C0, o`uC0:=C0(Rd,R) (fonctions continues deRddansR, qui tendent vers 0 `a l’infini) ; (b) ∀f ∈ C0, Ptf →f quand t→0.

Par extension un processus de Markov dont le semi-groupe de transition est fell´erien sera lui-mˆeme appel´e fell´e- rien. Dans la suite, les processus de Markov consid´er´es seront, sauf mention explicite, tous suppos´es fell´eriens.

On montre classiquement qu’un tel processus admetune version continue `a droite, limit´ee `a gauche(“c`adl`ag”, cf. [40], Th. 2.7, p. 86).

2.1. R´egime stationnaire

Lorsque l’on simule un processus de Markov homog`ene (ou plutˆot une chaˆıne de Markov), on constate g´en´eralement que, soit le processus atteint syst´ematiquement des valeurs num´eriques de plus en plus grandes en valeur absolue au fil du temps, soit il tend `a se stabiliser, sans pour autant converger en g´en´eral. Dans le second cas de figure, si l’on simule un grand nombre de trajectoires du processus, on constate en tra¸cant les histogrammes de fr´equence `a plusieurs instants successifs que la loi deXtne d´epend plus detlorsquetdevient grand : le processus tend vers un r´egime stationnaire.

(5)

Nous allons commencer par pr´eciser dans le cadre markovien homog`ene cette notion de r´egime stationnaire.

Dans un second temps nous allons explorer les situations dans lesquelles il est envisageable d’identifier ce r´egime stationnaire par l’observation suffisamment prolong´ee d’une seule trajectoire (propri´et´e d’ergodicit´e).

Les m´ethodes num´eriques pour y parvenir seront d´evelopp´ees dans le cas des diffusions et des algorithmes stochastiques `a la section 4.

On consid`ere un processus de Markov homog`ene fell´erien (Xt)t0, et l’on appelleµla loi deX0,i.e. X0 Loi µ.

On a alorsXt

Loi µPt, ∀t≥0. Plus g´en´eralement la loi initialeµet le semigroupe de transition (Pt(x,dy))t0

caract´erisent enti`erement la loi d’un processus de Markov homog`ene. (cf.,e.g.[40], Th. 1.5, p. 77). On notePµ

la loi du processus de loi initialeµ(et de transition Pt(x, dy)). Lorsque µ=δx, on pose Pδx =Px. On v´erifie ainsi quePt(f)(x) :=Ex(f(Xt)) (d`es que ces expressions ont un sens).

D´efinition 1. On appelle mesure invariantepour le processusX toute probabilit´eν surRd v´erifiant

∀t≥0, νPt=ν.

Siνest invariante, d`es queX0

Loi ν, pour toutt≥0, Xt

Loi ν. On v´erifie dans ce cas que, sousPν, le processus (Xt)t0est un processus stationnaire.

On d´efinit alors l’ensemble

IP := probabilit´e surRd, νPt=ν ∀t≥0} ·

L’ensemble IP est un convexe, ferm´e pour la topologie de la convergence ´etroite via la propri´et´e de Feller,

´eventuellement vide. SiIP est non vide et compact (toujours pour la topologie de la convergence ´etroite), il existe d’apr`es le th´eor`eme de Krein–Millman au moins une probabilit´eνextr´emaledansIP (cf.[18]). Par extr´emale, on entend qu’il est impossible d’´ecrireνcomme combinaison convexe de deux probabilit´es deIP distinctes deν. On montre alors que la probabilit´eν est n´ecessairementergodique(abus de langage pour signifier l’ergodicit´e du processus de Markov lui-mˆeme). Soyons plus pr´ecis sur ce que l’on entend par l`a. Tout d’abord, on se place sur l’espace canonique des trajectoires (c`adl`ag) du processus, soit Ω := ID(R+,Rd) :=:R+Rd, c`adl`ag} et l’on noteX le processus canonique d´efini sur Ω parXt(ω) :=ω(t), ω∈Ω. Soit (FtX)t0la filtration naturelle deX (rendue continue `a droite) et FX :=σ(Xt, t∈R+). L’espace Ω est muni canoniquement de l’op´erateur de d´ecalage d´efini par (θt(X))s =Xt+s. Sous la probabilit´ePν d´efinie sur (Ω,FX), on v´erifie ais´ement que le processus canonique X est stationnaire : en d’autres termes θt1(Pν) = Pν pour tout t∈ R+. Enfin, le caract`ere extr´emal deν entraˆıne l’ergodicit´e deX sur (Ω,FX,Pν) : pour tout ´el´ementA∈ FX invariant par l’op´erateur de d´ecalage (θt)t∈R+, Pν(A) = 0 ou 1 (voir l’annexe A pour une d´emonstration, ou encore [43], Th.7.4.8, Chap. 7, p. 420).

Leth´eor`eme ergodique ponctuel de Birkhoff (cf., e.g., Ref. [29]) permet alors de relier le comportement en temps long du processus de Markov `a cette mesure invariante extr´emale : en effet, (Xt)t0´etant ergodique sous Pν, pour toute fonctionnelle F∈L1(Pν),

Pν-p.s. 1 t

Z t 0

F(Xs+.)dsEPν(F).

Si l’on se restreint `a des fonctionnelles ´el´ementairesF(X.) :=f(X0), la convergence ci-dessus s’´ecrit

∀f ∈L1) ν(dx)-p.s. Px-p.s. 1 t

Z t 0

f(Xsx)ds Z

f.

Exemple. On consid`ere uneEDOhx˙ =h(x), o`uhest une fonction v´erifiant{h= 0}={0}. On fait l’hypoth`ese queODEhadmet un flot (Φt(x))(t,x)∈R×Rdv´erifiant lim

t+Φt(x) = 0 (le flot converge vers son unique ´equilibre).

En d’autres termes 0 est un attracteur d’ODEh. Il est alors imm´ediat de v´erifier queIP =0}, et donc, au

(6)

vu de ce qui pr´ec`ede, la solution de l’EDOh est ergodique sous P0. Le th´eor`eme de Birkhoff conduit dans ce contexte au r´esultat suivant : pour toute fonctionf :RdR,

1 t

Z t 0

f(0)ds→f(0) quand t→+ . . . L’information fournie par une telle convergence est ´evidemment nulle.

Le th´eor`eme ergodique ponctuel seul est donc insuffisant pour rendre compte du fait que le processus tend vers son r´egime stationnaire.

Dans le but de caract´eriser de fa¸con pratique les mesures invariantes d’un processus de Markov, on va introduire la notion de g´en´erateur infinit´esimal d’un processus de Markov.

2.2. G´en´erateur infinit´esimal et stationnarit´e

Soit (Xt)t0 un processus de Markov homog`ene, de semi-groupe de transition (Pt)t0 fell´erien. On appelle g´en´erateur infinit´esimalde (Pt)t0un couple (A,D(A)) o`uD(A)⊂ C0etAd´esigne un op´erateurA:D(A)→ C0 v´erifiant

∀f ∈ D(A), ∀t≥0 Ptf(x) =f(x) + Z t

0

Ps(Af)(x)ds. (5)

En particulier dtdPt(f)(x)|t:=0:= limt0 Pt(f)(x)f(x)

t =Af(x). Par abus de langage on appelle courammentA seul le g´en´erateur infinit´esimal.

Exemples.

Dans le cas d’un processus de Markov d´efini par une EDSb,σ, on poseD(A) := CK2. La formule d’Itˆo entraˆıne imm´ediatement que le g´en´erateur est donn´e par la formule suivante

Af(x) = (∇f|b)(x) +1

2Tr(σD2f(x)σ).

Dans le cas d’uneEDOh, on pose naturellementD(A) :=CK1 etAf(x) = (∇f|h)(x).

Le lien entre mesure invariante et g´en´erateur infinit´esimal est le suivant

∈ IP) ⇐⇒ (∀f ∈ D(A) ν(Af) = 0). (6) Esquissons une preuve (formelle mais incompl`ete) de cette caract´erisation :

=: On r´e´ecrit la d´efinition (5) du g´en´erateur infinit´esimal `a laquelle on applique le th´eor`eme de Fubini.

= : Partant de (5), il vient quet7→Pt(f)(x) est d´erivable et

dPs

ds|s:=tf(x) = Pt(Af)(x) donc, formellement, A(Ptf)(x) = Pt(Af)(x)

d’o`u Ptf(x) = f(x) +Rt

0A(Psf)(x)ds.

Le th´eor`eme de Fubini ach`eve la preuve.

Le termeformellementcache deux difficult´es. La premi`ere est d’ordre technique : le raisonnement ci-dessus tient pour acquis quePt(f)∈ D(A) ce qui n’est g´en´eralement pas le cas avec notre d´efinition ´el´ementaire du domaine du g´en´erateur (par exemple si b et σ ne sont pas C2 pour les EDS ou lorsque h n’est pasC1). La seconde est plus profonde et apparaˆıt lorsque (A,D(A)) ne caract´erisent pas le semi-groupe (Pt)t0. Un exemple

´el´ementaire d’une telle situation “mal pos´ee” est fournie par lesEDOhadmettant plusieurs solutions issues d’un mˆeme point (d’´equilibre). Ceci peut arriver lorsque la fonctionhest simplement continue sans ˆetre localement lipschitzienne (cf. Ex. 2, Sect. 2).

(7)

Pour une d´emonstration rigoureuse et compl`ete de la caract´erisation (6), on pourra consulter [19] (Chap. 4).

En cas de probl`eme “mal pos´e”, on fait appel au th´eor`eme de Echeverria–Weiss (1982) qui construit “`a la main”

un processus de Markov de semi-groupePt, stationnaire de loi initialeν (cf.[19], Th. 9.17, p. 248).

3. Vers le r´ egime stationnaire

On travaille avec (Xt)t0 processus de Markov homog`ene, de semi-groupe de transition fell´erien (Pt)t0. Pour toutt≥0, on d´efinit la mesure al´eatoireνt(ω, y) par

νt(ω,dy) :=1 t

Z t 0

δXs(ω)(dy)ds, ce qui correspond, en termes d’int´egrale par rapport `a cette mesure, `a

νt(ω, f) =1 t

Z t 0

f(Xs)ds.

Ces moyennes empiriques convergent-elles quand t tend vers + vers une probabilit´e invariante pour X ? Autrement dit

∀x∈Rd, Px-p.s. νt(ω,dy)−→ IP 6=?

On va ´enoncer deux s´eries d’hypoth`eses sous lesquelles on sait r´epondre `a cette question.

3.1. Positive r´ecurrence et th´eor`eme ergodique

C’est le premier cadre dans lequel on peut ´etablir, sous des hypoth`eses raisonnables, la convergencep.s.de la famille des νt vers une unique mesure invariante. La m´ethode s’appuie sur le th´eor`eme ergodique et permet d’obtenir une propri´et´e de positive r´ecurrence.

La premi`ere hypoth`ese est l’irr´eductibilit´e. Il n’est pas dans notre propos d’explorer ici la notion d’irr´eductibilit´e (cf. par exemple [35] dans un cadre `a temps discret). Pour les processus de Markov `a temps continu, on s’appuie g´en´eralement sur le crit`ere suivant : un processus de Markov est irr´eductibled`es que, `a un instantt0>0 donn´e, le semi-groupe de transition admet une densit´e strictement positive,i.e.

∃t0>0 tel que

Pt0(x,dy) = pt0(x, y)dy

dy-p.p., ∀x∈Rd, pt0(x, y)>0. (7) Cette condition sert `a ´etablir l’unicit´e de l’(´eventuelle) probabilit´e invariante.

Une famille de processus de Markov classiquement connue pour v´erifier cette condition est la classe des diffusions uniform´ement elliptiques `a coefficients dans Cb. Par uniform´ement elliptique, on entend σσ ε0Id, ε0>0. Une fonction a la r´egularit´eCb, si elle est born´ee, ind´efiniment diff´erentiable, `a d´eriv´ees partielles successives toutes born´ees. On touvera dans [2] les in´egalit´es de minoration surpt(x, y) permettant d’´etablir ce r´esultat. Ces conditions peuvent cependant ˆetre affaiblies en troquant la bornitude pour la `a croissance lin´eaire et l’uniforme ellipticit´e pour l’hypo-ellipticit´e sous condition de H¨ormander forte. Pour des r´esultats dans cette direction, consulter notamment [1] et [8].

En revanche, lesEDOh ne v´erifientjamais d’hypoth`ese de cette nature.

L’autre hypoth`ese, classique dans le domaine des algorithmes stochastiques, a pour fonction d’assurer l’exis- tence d’une probabilit´e invariante. Elle consiste `a supposer l’existence d’une fonction de Lyapunov pour le processus de Markov :

(8)

Crit`ere de Has’minskii

On suppose qu’il existe une fonctionV :Rd −→R+ telle que (i) lim

|x|→+V(x) = +; (ii) AV ≤Cte et lim sup

|x|→+AV(x)<0 (cette condition traduit une force de rappel) ; (iii) PtV(x) =V(x) +

Z t 0

PsAV(x) ds.

Exemple de fonction de Lyapunov

La fonctionV(x) := 12|x|2+ 1 v´erifie la condition (ii) de Lyapunov pour l’EDSb,σ si et seulement si

∀x∈Rd (x|b(x)) +1

2T r(σσ)(x)≤Cte et lim sup

|x|→+

(x|b(x)) +1

2T r(σσ)(x)

<0

(on rappelle que, par ailleurskb(x)k+kσ(x)k=O(|x|).) La condition (iii) s’obtientviaun proc´ed´e d’approxima- tion de la fonction V : on ´etablit d’abord (iii) pour les fonctions x 7→ ϕK(|x|2) o`u ϕK : R+ R+ est C2, croissante et v´erifie ϕK(v) = v siv∈ [0, K], ϕK(v) =ϕK(K+ 1) si v ≥K+ 1 (pour plus d´etails on peut se reporter `a l’annexe B).

Ainsi, la fonctionV ci-dessus est une fonction de Lyapunov pour le processus d’Ornstein–Uhlenbeck dXt=1

2Xtdt+σdWt, avecσ∈ S+(d,R).

Nous sommes maintenant en mesure d’´enoncer un r´esultat d’existence et d’unicit´e de la mesure invariante pour (Xt)t0. La notation L1bloc(ν) dans le th´eor`eme ci-apr`es d´esignel’ensemble des fonctions ν-int´egrables, born´ees sur les compact deRd.

Th´eor`eme 1. Soit (Xt)t0 un processus de Markov fell´erien. S’il v´erifie le crit`ere de Has’minskii ci-avant (fonction de Lyapunov) et l’hypoth`ese d’irr´eductibilit´e (7), alors

(a) IP ={ν};

(b) ∀f∈ L1bloc(ν), ∀x∈Rd, Px-p.s. 1 t

Z t 0

f(Xs)ds−→Z

fdν (propri´et´e dite de r´ecurrence positive).

D´emonstration. Pour simplifier on se place dans le cas o`u AV(x) → −∞ ; pour le cas g´en´eral, on pourra s’appuyer sur [19] (Th. 9.9, p. 243 et Ex. 47, p. 272).

(a) On commence par montrer que IP 6= : soit x0 Rd fix´e. On raisonne sur la mesure moyenne du semi-groupe de transition.

1 t

Z t 0

Ps(Cte−AV)(x0)ds=V(x0)−PtV(x0)

t +Cte V(x0) t +Cte. Par suite

sup

t1

1 t

Z t 0

Ps(Cte−AV)(x0)ds <+∞, d’o`u = 1

t Z t

0

Ps(x0,dy)

t1

est tendue.

Soit alorsν une valeur d’adh´erence faible lorsquet→+, autrement dit 1

tp

Z tp 0

Ps(x0,dy)(R

d)

=⇒ν quandtp+∞.

(9)

Soitf∈ C0. Alors 1 tp

Z tp

0

Ps(f)(x0)ds 1 tp

Z tp

0

Ps(Ptf)(x0)ds=O

2kfk

tp

p+

−→ 0.

Maisf ∈ C0entraˆıne quePtf ∈ C0, donc chacun des deux termes du membre de gauche converge – respectivement versν(f) et ν(Pt(f)) – ce qui conduit `a l’´egalit´e

ν(f) =ν(Ptf), et donc l’ensembleIP des mesures invariantes n’est pas vide.

Il s’agit maintenant de montrer que IP est r´eduit `a un singleton. Soit ν ∈ IP. D’apr`es l’hypoth`ese d’irr´eductibilit´e (7) surX, on a ent0,

ν(f) =ν(Pt0(f)) = Z Z

pt0(x, y)f(y)dy

ν(dx) = Z

f(y) Z

pt0(x, y)ν(dx)

| {z }

>0

dy.

Par suite, ν(dy) ∼λd(dy), o`u λd d´esigne la mesure de Lebesgue sur Rd. Or, on montre classiquement que si un semi-groupe de transition v´erifie que ses probabilit´es invariantes sont ´equivalentes deux `a deux, alors celui-ci admet en fait au plus uneprobabilit´e invariante (cf. par exemple [17], Prop. 6.1.9, p. 188). L’unicit´e deν est donc ´etablie.

(b) On se place sur l’espace canonique (i.e. Xt(ω) :=ω(t), ω∈ ID(R+,Rd)). Soit f∈ L1bloc(ν) ; la fonction t7→f(Xt(ω)) est localement born´ee comme compos´ee de fonctions localement born´ees, donc localement int´e- grable sur R+. On pose

Bf :=

ω∈/1 t

Z t 0

f(Xs(ω)) ds−→Z f

·

La probabilit´eν ´etant ergodique, le th´eor`eme ergodique ponctuel entraˆıne quePν(Bf) = 1, autrement dit ν(dx)-p.s. Px(Bf) = 1.

D’autre part, on v´erifie que l’´ev´enementBf est invariant par l’op´erateur de d´ecalage car la convergence au sens de C´esaro ne d´epend pas du comportement d’une fonction `a horizon fini. En d’autres termes Bf =θt1(Bf) d’o`u il d´ecouleviala propri´et´e de Markov que

Px0(Bf) =Ex0 1Bf ◦θt0

=Ex0 PXt0(Bf)

= Z

RdPx(Bf)Pt0(x0,dx).

Or Pt0(x0,dy) ν puisque toutes deux sont ´equivalentes `a la mesure de Lebesgue λd. En cons´equence Z

RdPx(Bf)Pt0(x0,dx) = 1.

Cette d´emarche – ainsi que celle qui suit dans laquelle des th´eor`emes de convergence de martingales se substitueront au th´eor`eme ergodique – peut ´egalement ˆetre mise en œuvre dans des cadres “moins” fell´eriens.

Signalons, dans cette direction, les travaux r´ecents d’Attali (cf.[3]) sur des mod`eles markoviens quasi-fell´eriens.

Grosso modo, il est possible, lorsque le bruit n’est pas d´eg´en´er´e, de consid´erer des mod`eles mettant en jeu des fonctions localement Riemann int´egrables en lieu et place de fonctions continues.

(10)

3.2. Stabilit´e et m´ethodes de martingales

Ce paragraphe va permettre de traiter le cas desEDO, inaccessible `a la m´ethode pr´ec´edente pour cause de d´efaut syst´ematique d’irr´eductibilit´e, ainsi que celui des diffusions ´eventuellement d´eg´en´er´ees. On va tra- vailler dans le cadre d’une hypoth`ese de Lyapunov “renforc´ee”: on suppose qu’il existe une fonction deux fois continˆument diff´erentiablesV :RdR+ v´erifiant



(i) lim|x|→+V(x) = +

(ii) AV ≤β−αVa, α >0, β R, a∈]12,1]

(iii) |b|2+kσk2+|∇V|2a=O(Va).

(8)

( `A noter que v := minV > 0 sous ces hypoth`eses.) Pour illustrer cette condition de Lyapunov renforc´ee, signalons que siV(x) =|x|2+ 1, la condition (iii) se traduit sur le coefficient de d´erivebparb(x) −|x|r x

|x|, avec 2a1< r≤a.

Th´eor`eme 2. Soit(Xt)t0 un processus de Markov fell´erien. Sous l’hypoth`ese de Lyapunov renforc´ee (8), on a

(a) ∀x∈Rd, Px-p.s.,







 sup

t1

1 t

Z t 0

√V(Xs)ds <+ et sup

t∈RE(V(Xt))<+ sia= 1 sup

t1

1 t

Z t 0

Va12ε(Xs)ds <+∞pour toutε∈]0, a1/2] si1/2< a <1.

En particulier,∀x∈Rd, Px(dω)-p.s.,(νt(ω, dy))t1 est tendue.

(b) ∀x∈Rd, Px-p.s., ∀f ∈ CK2

1 t

Z t 0

Af(Xs)dst−→+0.

La caract´erisation (6) du paragraphe 2.2 des probabilit´es invariantes entraˆıne alors (pour les EDO et les EDS) que,

∀x∈Rd, Px-p.s. dist´etroite νt(ω,dx),IEDO/EDSt+

−→ 0. (9)

En outre l’ensembleIEDO/EDS est un convexe faiblement compact.

La propri´et´e (9) est appel´eestabilit´e.

D´emonstration. Pour simplifier, on se contente ici de traiter le cas (plus simple)a= 1 (pour le cas 1/2< a <1 voir annexe C).

Etape 1.´ On applique la formule d’Itˆo `a la fonctionV et `a la diffusion issue dex∈Rd V(Xt) =V(x) +

Z t 0

AV(Xs)ds+ Z t

0

(∇Vσ) (Xs)dW s

| {z }

martingale locale

(o`u∇Vd´esigne le transpos´e de∇V). On v´erifie en localisant la martingale locale et en s’appuyant sur (ii) que V(Xt)∈L1(Px)i.e. PtV(x) est fini. Par un proc´ed´e d’approximation deV (cf. annexe B), on obtient ensuite la propri´et´e de repr´esentation dePtV attendue :

PtV(x) =V(x) + Z t

0

PsAV(x)ds d’o`u d

dtPtV =PtAV ≤β−αPtV.

(11)

Le lemme de Gronwall fournit finalement

∀t≥0, PtV(x)eαt

V(x) +β

α(eαt1)

max

V(x),β α

(10) si bien que, d’une part, pour toutt≥0, suptEx(V(Xt))<+.

Etape 2.´ D’autre part, l’´equation (10) et l’in´egalit´e de convexit´e

1 +u≤1 +u/2, u≥ −1 entraˆınent Pt

√V(x)p

PtV(x)

V(x)(1eαt)

V −β α

12

≤√ V(x)

11eαt 2

1 β αV(x)

≤√

V(x)1 + eαt

2 +β

α

1eαt 2√v d’o`u l’on d´eduit imm´ediatement queA√

V = lim

t0

Pt

√V −√ V

t ≤β˜−α˜

V avec ˜α:=α/2 et ˜β :=β/(2√v).

Etape 3´ (Tensionp.s.). Il vient 0≤√

V(Xt) = V(x) +

Z t 0

A√

V(Xs)ds+ Z t

0

∇√ Vσ

(Xs)

| {z }

=:O( V(Xs))

dWs

d’o`u

1 t

Z t 0

−A√

V(Xs)ds

pV(x) t +1

t Z t

0

O(√

V(Xs))dWs.

Si l’on pose Mt:=

Z t 1

O(√ V(Xs))

s dWs, alorshMi= Z t

1

O(V(Xs))

s2 ds∈L1. Ceci entraˆıne que Mtconverge presque sˆurement vers M ´el´ement de L2. Le lemme de Kronecker (cf. [24]) permet alors d’´ecrire que 1

t Z t

0

O(√

V(Xs))dWs

−→p.s. 0. Il en d´ecoule imm´ediatement que

lim sup

t

1 t

Z t 0

−A√

V(Xs)ds

p.s. 0 i.e. lim sup

t

1 t

Z t 0

√V(Xs)ds β˜

˜ α·

Etape 4´ (Identification). Soitf ∈ CK2; on v´erifie que 1

t Z t

0

Af(Xs)ds= f(Xt)−f(x)

t 1

t Z t

0

f0(Xs).σ(Xs)dWs

−→p.s. 0.

En effet, le premier terme `a droite de l’´egalit´e est born´e par 2kfk/tet le second terme est une (vraie) martingale de carr´e int´egrable qui se traite comme son analogue de l’´etape 3 (en plus simple).

Etape 5´ (Compacit´e deIP). La convexit´e de IP est ´evidente, sa fermeture d´ecoule du caract`ere fell´erien du semi-groupe de transition. Soit maintenant ν∈ IP. D’apr`es (10), pour toutK >0,

ν(V ∧K) =ν(Pt(V ∧K))≤Z

Pt(V)(x)∧Kν(dx)≤ν

eαtV +β α

∧K

.

(12)

On en d´eduit en faisant tendre successivementt puisKvers +que sup

ν∈IP

ν(V)≤β/α.

Pour un expos´e d´etaill´e sur les m´ethodes de stabilit´e dans le cadre des chaˆınes de Markov homog`enes `a valeurs Rd, on peut se reporter `a [17] (voir aussi [3] dans un cadre quasi-fell´erien).

La question naturelle non r´esolue par le th´eor`eme pr´ec´edent est celle de l’unicit´e (hors hypoth`ese d’irr´eductibi- lit´e ´evidemment).

Dans le cas des EDO, si Card({x/h(x) = 0}) 2, il n’y a jamais unicit´e. La non-unicit´e est donc la situation g´en´erique. Nous verrons dans la section 4.1 comment utiliser un r´esultat de type (9) dans un tel cadre.

Dans le cas desEDS, si∀x, y∈Rd, Xtx−Xty−→P 0, alors il y a unicit´e (y compris donc dans des situa- tions non uniform´ement elliptiques). On parle parfois pour de tels processus dediffusion asymptotiquement plate. Un exemple de telle EDS est

dXt=b(Xt)dt+σ(Xt) dWt,

o`ub etσsont “fortement d´ecroissante” au sens suivant : il existe une constante r´eellec >0 telle que 1

2Tr ((σ(x)−σ(y))(σ(x)−σ(y))) + (b(x)−b(y)|x−y)≤ −c|x−y|2.

Le processus d’Ornstein–Uhlenbeck v´erifie une telle propri´et´e ind´ependamment de la structure de son coefficient de diffusion. Voir par exemple [4] pour de plus amples d´eveloppements sur cette propri´et´e.

4. M´ ethodes num´ eriques

Dans la section pr´ec´edente, nous avons ´etabli l’existence d’une mesure invariante pour ce processus de Markov, et, dans certains cas, son unicit´e. Nous allons revenir maintenant `a notre objectif initial : les m´ethodes num´eriques permettant de simuler cette mesure invariante. Pour ce faire, commen¸cons par d´eterminer ceux des objets que nous avons rencontr´es qui sont simulables et ceux qui ne le sont pas.

On se donne dans tout ce paragraphe un processus de Markov homog`ene fell´erienX.

Le semi-groupe de transition du processus de Markov,Pt(x,dy), t0, est le plus souvent non “directe- ment” simulable (ceci est ´equivalent `a la simulation exacte de trajectoires du processus de Markov X `a des instants arbitraires, voire `a tout instant).

Pour le g´en´erateur infinit´esimalA, la question n’a pas de sens en tant que telle.

On a associ´e `aX dans la premi`ere partie, une famille param´etr´ee (Qγ(x,dy))γ>0 de transitions marko- viennes fell´eriennes, dans les deux cadres qui sont les nˆotres ; plus pr´ecis´ement :

Qγ(f)(x) :=



 Z

Rqf(x+γH(x, u))µ(du) (Algorithme stochastique etEDO) Z

Rqf(x+γb(x) +√

γσ(x)u)µ(du) (Sch´ema d’Euler (γ) d’uneEDS).

Pour toutγ >0, la chaˆıne de Markov homog`ene (Xnγ)n0 associ´ee `aQγ est simulable par construction mˆeme.

Parall`element, les transitionsQγ(x,dy) jouissent d’une propri´et´e d’approximation `a travers leur pseudo-g´en´erateur infinit´esimalAγ. Plus pr´ecis´ement,

∀f ∈ D(A), Aγ(f) :=Qγ(f)−f γ

γ0

−→A(f).

(13)

En revanche, et ce un point est essentiel,lesQγ n’ont aucune propri´et´e de semi-groupe enγ i.e.

Qγ1◦Qγ2 6=Qγ12.

Ce qui se transfert g´en´eralement du semi-groupePt`a temps continu aux transitionsQγ, au moins pourγassez petit, ce sont les propri´et´es d’irr´eductibilit´e et l’existence de fonctions de Lyapunov.

4.1. Approximation par des chaˆınes de Markov homog`enes

Pour toutγ >0, (Xnγ)n0 est une chaˆıne de Markov homog`ene fell´erienne (simulable). Il s’agit d’´etablir le lien entre les mesures invariantes associ´ees `a la chaˆıne (Xnγ)n0, et celles du processus de Markov (Xt)t0. Th´eor`eme 3. S’il existe V :Rd−→R+0>0et(α, β)(R+)2 tels que

∀γ∈]0, γ0], Aγ(V)≤β−αV, et si

∀f∈ D(A), Aγ(f)γ−→0A(f) alors, pourγ assez petit, il vient :

(a) (Xnγ)n0 est stable, c’est-`a-dire,

∀x∈Rd, Px(dω)-p.s. dist´etroite

1 n

nX1 k=0

δXkγ(ω),Iγ

!

n−→+0,

o`u Iγ :=γγQγ =νγ} 6=∅, convexe compact.

(b) lim

γ0+dist´etroite(Iγ,IA) = 0, autrement dit si γn 0, alors νγn

(Rd)

=⇒ IA

o`u IA={ν / ν(A.) = 0}d´esigne l’ensemble des probabilit´es invariantes du processusX.

Applications.

EDS uniform´ement elliptiques : alorsIEDS ={ν},Iγ =γ}(au moins pour γassez petit) et νγ

(Rd)

=⇒ν quand γ→0 (Talay 90 [44]).

Dans cet article originel [44],V(x) =x2,b etσ sont infiniment d´erivables `a d´eriv´ees toutes born´ees etσ est born´ee et uniform´ement elliptique. On peut alors pr´eciser l’ordre des vitesses de convergence le long de fonctions-testf∈ C`a d´eriv´ees sous-polynomiales :

dist´etroiteγ, ν) =

O(γ) sch´ema d’Euler

O(γ2) sch´ema du second ordre (non d´evelopp´e ici).

Algorithmes stochastiques : (Bena¨ım 96 [6], Fort–Pag`es 96 [20], mais aussi, dans le cadre proche des syst`emes dynamiques perturb´es, Kifer [28], etc.). La difficult´e propre `a ce cadre est que g´en´eralement IEDO est infini. Ouvrons une br`eve parenth`ese pour expliquer comment utiliser sur un plan pratique ce type de r´esultat dans le cadre de l’approximation stochastique.

(14)

-3 -2 -1 0 1 2 3 -3

-2 -1 0 1 2 3

phase portrait of the Ornstein ring system

Figure 1. Flot de l’anneau d’Ornstein.

Th´eor`eme de r´ecurrence de Poincar´e(cf., e.g.[29]) :

Siν ∈ IEDO, alors suppν BEDOh o`u BEDOh d´esigne lenoyau de Birkhoff d’EDOh,i.e.

BEDOh :={x0Rd/ x0 est valeur d’adh´erence d’une trajectoire d’EDOh issue dex0} · (11) En particulier, pour tout voisinage (ici compact)Kε:={x∈Rd/ d(x,BEDOh)≤ε}deBEDOh,

νγ(Kε)γ−→01.

Ceci illustre le fait que, l’algorithme `a pas constant “petit” passe asymptotiquement l’essentiel de son temps dans un voisinage arbitrairement petit du noyau de Birkhoff. Cet ensemble apparaˆıt donc comme l’ensemble (ou comme contenant l’ensemble) descibles v´eritablesde l’algorithme.

Illustration (l’anneau d’Ornstein) :

On consid`ere un algorithme lin´eairement perturb´e

Xn+1=Xn+γn+1(h(Xn) +εn+1), εn i.i.d., E(ε1) = 0, Var(ε1) =I2, (12) γn>0, X

n

γn= +

construit `a partir du syst`eme diff´erentiel de l’anneau d’Ornstein (dont le flot est repr´esent´e dans la Fig. 1 ; une expression analytique dehest disponible dans [20]). Nous allons comparer sur cet exemple le com- portement p.s. de l’algorithme (item (a) de la proposition ci-apr`es) et celui des limites faibles de ses probabilit´es invariantesνγ `a pasγn=γ >0 constant (item (b)). Le point (a) s’appuie sur des techniques non d´evelopp´ees ici.

Proposition 1(Fort–Pag`es 99 [20]).

(a) Pas d´ecroissant (γn 0, P

nγn2 <+) : l’ensemble X des valeurs d’adh´erence d’une trajectoire de l’algorithme `a pas d´ecroissant est (p.s.) donn´e par

X=L ou X=L+ ou X=L

o`u L(resp. L±) d´esigne la lemniscate (resp. ses boucles gauches et droites).

Références

Documents relatifs

D´ eterminer la bonne valeur de seuil pour arrˆ eter la r´ ecursion au profit d’un tri par selection.. 7

[r]

Définition : Une chaîne de Markov est régulière s’il existe une puissance de la matrice des probabilités de transition dont tous les éléments sont strictement positifs.

Si on suppose que l’on a que deux états (beau temps et mauvais temps), déterminer la matrice de transition de la nouvelle chaîne ainsi obtenue.. Exercice 11 — Trajectoire sur un

allons commencer par des préliminaires valables pour tous les processus de Harris.. Le résultat suivant était dans [5]; nous le reproduirons pour la commodité du

Nous allons généraliser une construction de Hajian, Ito et Kakutani qui nous sera utile dans la suite : soit (M, é3, m ; 0) un système dynamique séparable discret

- Dans tout cet article, nous étudierons un processus de Markov que, pour fixer les idées, nous supposerons de Hunt, c’est-à-dire un terme :.. à valeur dans un espace

a-finie portée par D invariante par le semi-groupe Pt associé au processus ; cette mesure est la seule mesure excessive pour Pt concentrée sur D.. Nous allons dans