• Aucun résultat trouvé

Entropie relative

Dans le document Chaînes de Markov Jean Bérard (Page 125-135)

Il s'agit de l'approche sur laquelle nous en dirons le moins, notre but ici étant essentiellement de mentionner la possibilité d'utiliser d'autres distances entre me-sures de probabilité que les distancesLp, et pour lesquelles d'autres outils que ceux que nous avons décrits peuvent être employés. En fait, il existe un vaste ensemble de techniques permettant d'étudier la convergence telle que mesurée par l'entropie relative, utilisant par exemple des inégalités fonctionnelles diérentes de l'inégalité de Poincaré présentée ci-dessus (voir par exemple [48, 37] pour des exemples).

Dénition 13 Etant données deux mesures de probabilité µ et ν sur S, ν étant propre, on appelle entropie relative deµ par rapport à ν la quantité dénie par

H(µ|ν) :=X

avecφ(0) := 0. La dénition de l'entropie relative se réécrit donc sous la forme H(µ|ν) =X

Commeφest bornée inférieurement, on voit queH(µ|ν)est toujours bien dénie.

Commeφest convexe, l'inégalité de Jensen permet de voir que H(µ|ν)≥φ X

De plus,φ étant strictement convexe, l'égalité H(µ|ν) = 0 entraîne donc automati-quement que µ(y)ν(y) = µ(z)ν(z) pour tous y, z ∈S, d'où le fait queµ=ν.

On note que H(µ|ν) ne dénit pas une distance, car elle n'est pas symétrique vis-à-vis deµetν. L'entropie relative peut être comparée à la distance en variation totale grâce à l'inégalité importante suivante (dite de Csiszár-Kullback-Pinsker) : Proposition 67

2dV T(µ, ν)≤(H(µ|ν))1/2.

Preuve : On retrouve en particulier le fait que H(µ|ν)≥0, avec égalité si et seulement si µ=ν. Donnons-nous à présent un noyau ergodiquepsurS. Par convexité, on a que, pour toute loi initiale µ,

H(µpn|ν)≤sup

x∈S

H(pn(x·)|ν).

Une propriété fondamentale de l'entropie dans le contexte des chaînes de Markov est la suivante :

Proposition 68 Etant donné un noyau ergodique p, soitν sa loi invariante. Alors, pour toute loi de probabilité µ sur S,

H(µp|ν)≤H(µ|ν),

On voit réapparaître le noyau renversé dans le temps p, qui permet d'obtenir que,ˆ par convexité deφ,

Par stricte convexité, on déduit que l'égalité dans l'inégalité ci-dessus entraîne que, pour tout x, µ(y)ν(y) = µ(z)ν(z) pour tous y, z ∈S tels que p(y, x) >0 et p(z, x) > 0. Le fait que µ=ν s'en déduit par irréductibilité et apériodicité.

Dans le cas où S est ni, on peut redémontrer a minima le théorème 11 de la manière suivante. On note d'abord que l'ensemble des lois de probabilités sur S est

compact (pour la topologie héritée de celle de RS). En vertu de la proposition ci-dessus, la suite(H(µpn|ν))n≥0 est décroissante, et minorée par zéro. Appelonsh sa limite. Considérons maintenant une sous-suite convergente de (µpn)n≥0, et notons µ1 sa limite. On vérie facilement queH(µ1|ν) =h. De plus, on a également le fait que(µpn+1)n≥0 converge versµ1p. Mais on doit également avoir que H(µ1p|ν) =h. Conclusion :µ1p=µ1, et doncµ1 =ν.

Exercice 166 Peut-on utiliser un tel argument basé sur la stricte convexité avec les distances précédemment introduites ?

Exercice 167 Dans tout cet exercice,S désigne un ensemble ni, etp un noyau de transition sur S supposé irréductible et apériodique. La loi invariante dep est notée ν. Pour tout x∈S, on note T(x) := inf{n≥0; Xn=x} en se plaçant sur l'espace canonique des trajectoires, et avec la conventioninf∅= +∞.

L'objectif principal de cet exercice est d'établir les deux identités suivantes, va-lables pour tousx, y∈S :

ν(x)Eν(T(x)) =Z(x, x), (5.8) ν(y)Ex(T(y)) =Z(y, y)−Z(x, y), (5.9) où

Z(x, y) :=

+∞

X

n=0

(pn(x, y)−ν(y)).

1) Expliquer pourquoi la série dénissant Z(x, y) est absolument convergente pour tousx, y∈S. Montrer que, pour toutx∈S,

X

y∈S

Z(x, y) = 0. (5.10)

2)

Considéronsx∈S, un entiern0 ≥0 xé, et dénissons S0:= inf{n≥n0; Xn=x},

avec la convention inf∅ = +∞. Montrer que S0 est presque sûrement ni sous Px, et que Ex(S0)<+∞. Montrer ensuite que

Ex(card {0≤j ≤S0−1; Xj =x}) =ν(x)Ex(S0).

(Indication : utiliser par exemple une décomposition de renouvellement basée surS0.) 3) Déduire de la question précédente que

n0−1

X

n=0

pn(x, x) =ν(x)(n0+Eµ(T(x))),

où µ(·) =Px(Xn0 =·). 4) En déduire l'identité (5.8).

5) Pour x6=y, et un entier n0 ≥0 xé, dénissons

S00 := inf{n≥T(x) +n0; Xn=y},

avec la convention inf∅ = +∞. Montrer que S00 est presque sûrement ni sous Py, et que Ey(S00)<+∞. Montrer ensuite que

Ey(card {0≤j≤S00 −1; Xj =y}) =ν(y)Ey(S00).

(Indication : utiliser par exemple une décomposition de renouvellement basée surS00.) 6) En déduire que

Ey(card {0≤j≤T(x)−1; Xj =y}) +

n0−1

X

n=0

pn(x, y) est égal à

ν(y) (Ey(T(x)) +n0+Eµ(T(y))), où µ(·) =Px(Xn0 =·).

7) En déduire l'identité

Ey(card {0≤j≤T(x)−1; Xj =y}) =ν(y)(Ey(T(x)) +Ex(T(y))). (5.11) 8) Déduire (5.9) de ce qui précède.

9) Soit N la matrice indexée parS×S dénie par N(x, y) :=ν(y), soitI la matrice identité indexée par S×S. En voyantp comme la matrice indexée parS×S dénie par p(x, y), montrer queI−(p−N) est inversible et que

Z+N = (I −(p−N))−1.

En déduire comment calculer numériquement les valeursZ(x, y)à partir de la connais-sance du noyau p.

10) Peut-on généraliser ce qui précède au cas d'une chaîne ergodique sur un ensemble S dénombrable ? Quelles sont les obstructions éventuelles ?

Une première approche

quantitative de l'ergodicité pour la distance en variation totale

Dans ce chapitre, nous discutons d'une première famille d'approches pour quanti-er plus précisément l'quanti-ergodicité d'une chaîne de Markov pour la distance en variation totale. Cette approche est "quantitative" au sens où elle s'intéresse à la vitesse de convergence d'une chaîne vers sa loi stationnaire, mais elle ne donne de cette vitesse qu'une caractérisation plutôt qualitative, étant davantage destinée à délimiter des grandes classes de comportement asymptotique, plutôt qu'à fournir des bornes non-asymptotiques explicites sur l'écart à la stationnarité. Des exemples de telles bornes non-asymptotiques seront donnés dans un chapitre ultérieur.

Dans tout ce chapitre, p désigne un noyau ergodique sur un ensemble ni ou dénombrableS,ν étant la loi invariante.

6.1 Ergodicité de degré 2

Une première manière de quantier la vitesse de convergence de la loi d'une chaîne vers sa loi stationnaire en utilisant la distance en variation totale, consiste à considérer la série

X

n≥0

dV Txpn, νpn), et à étudier quand la somme de celle-ci est nie.

Le théorème suivant fournit plusieurs caractérisations de cette propriété, et, lorsque l'une des conditions équivalentes ci-dessus est vériée, on dit quepest ergo-dique de degré 2.

Théorème 17 Il y a équivalence entre les conditions suivantes : (i) Il existe x∈S tel que Ex(T1(x)2)<+∞;

(ii) Il existe x∈S tel que Eν(T1(x))<+∞; (iii) Il existe x∈S tel que Eν(T1(x))<+∞; (iv) Pour tout x∈S tel que Ex(T1(x)2)<+∞; (v) Pour un x∈S,

X

n≥0

dV Txpn, ν)<+∞;

(vi) Pour tout x∈S,

X

n≥0

dV Txpn, ν)<+∞;

(vii) On a

X

x∈S

ν(x)

+∞

X

n=0

dV Txpn, ν)

!

<+∞.

Une conséquence immédiate de (vii) est qu'il existe une suite cn de nombres positifs satisfaisant P+∞

n=0cn<+∞et telle que, pour tout x∈S, et tout n≥0, dV Txpn, ν)≤ cn

ν(x).

On dispose donc en quelque sorte d'une borne uniforme sur la vitesse de conver-gence dedV Txpn, ν)vers zéro lorsquentend vers l'inni, modulée par la valeur de ν(x).

L'équivalence de (i)-(ii)-(iii)-(iv) fait l'objet de l'exercice 126, et résulte assez facilement de l'identité établie par l'exercice 125.

Preuve de (v) ⇒ (ii):

Introduisons, comme dans l'exercice 167, le temps d'arrêt S0:= inf{n≥n0; Xn=x},

avec la convention inf∅ = +∞, n0 étant un entier xé. On montre comme dans l'exercice (qui est formulé dans le cas où l'espace est ni, mais l'adaptation au cas positivement récurrent sur un espace dénombrable ne pose pas de problème), queS0 est presque sûrement ni sous Px, que Ex(S0)<+∞, et que

n0−1

X

n=0

(pn(x, x)−ν(x)) =ν(x)Eµ(T(x)).

où µ(·) =Px(Xn0 =·). Réécrivons Eµ(T(x)) =X

y∈S

Px(Xn0 =y)Ey(T(x)).

Par ergodicité dep, on a, pour touty∈S, la convergencelimn0→+∞Px(Xn0 =y) = ν(x).Le lemme de Fatou entraîne donc que

lim inf

n0→+∞

X

y∈S

Px(Xn0 =y)Ey(T(x))≥X

y∈S

ν(y)Ey(T(x)) =Eν(T(x)),

d'où l'on déduit que

lim inf

n0→+∞

n0−1

X

n=0

(pn(x, x)−ν(x))≥Eν(T(x)).

Cette inégalité prouve automatiquement que (v)⇒ (ii).

On note que la preuve ci-dessus montre en fait que l'existence d'un x tel que Pn0−1

n=0 |pn(x, x)−ν(x)]<+∞, qui est moins forte que (v), sut à entraîner (ii), et se trouve donc en fait équivalente aux autres propriétés mentionnées dans le théorème.

La preuve ci-dessus sut également à montrer, (voir la première question de l'exercice 126), qu'il existe bel et bien des exemples de chaînes ergodiques pour lesquels (v) n'est pas vériée.

Nous allons maintenant prouver que l'une quelconque des propriétés équivalentes (i)-(ii)-(iii)-(iv) entraîne (vii), en utilisant l'approche par couplage pour contrôler la vitesse de convergence en variation totale.

Nous commençons par introduire et étudier un objet qui nous sera utile dans l'analyse du temps de couplage correspondant. Considérons une suiteS1, S2, . . . de variables aléatoires i.i.d. à valeurs dans{1,2, . . .}. Pour tout n≥1, notons

Zn:=S1+· · ·+Sn,

posons égalementZ0 := 0, et, étant donné un entiert≥0, soit Ht:= inf{Zn−t; Zn≥t, n≥0}.

Il est clair que Ht est une variable aléatoire presque sûrement nie. On dénit le noyau de transitionq surN par

q(t, s) :=P(Ht=s).

Pour expliquer l'utilité de q, considérons deux suites de variables aléatoires i.i.d.

indépendantes et de même loi que S1, soit S10, S20, . . . et S100, S200, . . ., et dénissons récursivement une suite de variables aléatoires(Wn)n≥0 parW0 := 0,W1 :=t, puis, récursivement, pour toutn≥0,

W2n+2 := inf{S10, S10 +S20, . . .} ∩[W2n+1,+∞[

,

et tout n≥1,

W2n+1 := inf{t+S100, t+S100+S200, . . .} ∩[W2n,+∞[

.

A présent, posons, pour tout n ≥ 1, Ln := Wn−Wn−1. On a alors la proposition suivante :

Proposition 69 La suite (Ln)n≥1 est une chaîne de Markov de noyau de transition q.

Exercice 168 Prouver la proposition ci-dessus.

Proposition 70 Sous l'hypothèse que E(S1) < +∞ et que pgcd({i ∈ N;P(S1 = i)>0}) = 1, il existe β1, β2>0 tel que, pour tout n≥0,

sup

t≥0Pt,q(T1(0)≥n)≤β1exp(−β2n).

Preuve :

En notant que q(t,0) = P(s∈ (inf{S1, S1+S2, . . .}), et en appliquant le théo-rème du renouvellement, nous en déduisons que

t→+∞lim q(t,0) = 1/E(S1)>0. (6.1) Par ailleurs, pour tout t∈Ndonné, grâce à notre hypothèse sur le support de la loi de S1, nous pouvons prouver qu'il existed1, . . . , da ete1, . . . , eb tous dans le support deS1et tels quet+d1+· · ·+da =e1+· · ·+eb. On en déduit, au vu de la proposition 69, qu'il existe m≥1 tel que

qm(t,0)>0.

En combinant cette dernière propriété avec (6.1), on en déduit la conclusion.

Proposition 71 Sous l'hypothèse que E(S12)<+∞, on a sup

t≥1

E(Ht)<+∞.

Preuve :

En décomposant selon la valeur du plus grand Zi strictement inférieur à t, on voit facilement que

P(Ht≥u) = X

0≤a≤t−1 +∞

X

`=0

P(Z` =a, S`+1≥t−a+u).

En notantα(x) :=P(S1 ≥x), le caractère i.i.d. des (Si) entraîne que

du fait que la suite(Zi) est strictement croissante, on a l'inégalité P(Ht≥u)≤ X

avec la convention inf∅ = +∞. Au vu de la proposition 70, on déduit facilement que, sous les hypothèses de la proposition, K est presque sûrement ni, et même qu'il existe une constantec ne dépendant pas dettelle que

E(K)≤c <+∞.

A présent, observons que, d'après sa dénition, l'événement K > k est mesurable par rapport àσ(W0, . . . , Wk), tandis que, conditonnellement àσ(W0, . . . , Wk), la loi de Wk+1−Wk n'est autre que q(Ln−1,·). On en déduit que

E(WK−W1)≤

sup

s≥1

E(Hs) +∞

X

k=1

P(K > k))≤

sup

s≥1

E(Hs)

×c.

La proposition 71 montre ensuite quesups≥1E(Hs)<+∞. Preuve de (i)-(ii)-(iii)-(iv) ⇒ (vii) :

Considérons le couplage employé dans 5.3, dont la loi du temps de couplage est celle du premier temps d'atteinteT de la diagonale par la chaîne(Xn1, Xn3)n≥0lorsque la loi initiale est la loi produit ν⊗ν. Considéronsx∈S, et dénissons

B01:= inf{n≥0; Xn1=x}, B02 := inf{n≥0; Xn3 =x}.

Par récurrence, défnissons également, pour touti≥1,

Bi1 := inf{n≥Bi−11 + 1; Xn1=x}, Bi2 := inf{n≥Bi−1+ 1; Xn3 =x}.

A présent, siB01 ≤B02, on pose, pour tout i≥1,

Si0 :=Bi1−Bi−11 , Si00:=B2i −Bi−12 . Inversement, si B01 > B20, on pose, pour touti≥1,

Si0 :=Bi2−Bi−12 , Si00:=B1i −Bi−11 .

La propriété de Markov entraîne bien que, conditionnellement àB10, B02, les suites (Si0)et(Si00)sont bien indépendantes, et i.i.d. ayant pour loi commune celle deT1(x) sous Px,p. Posons maintenant t:= max(B02−B01, B01−B20), et notons que, avec les dénitions précédentes, XW1

K =XW3

K = x et donc que T ≤max(B01, B02) + (WK− W1), d'où

E(T)≤E(max(B01, B02)) +E(WK−W1).

L'hypothèse (ii) montre que E(B01) <+∞ et E(B02) <+∞, tandis l'hypothèse (i) permet d'appliquer la proposition 72 qui montre que E(WK)≤C.

On note que les implications restantes formulées dans le théorème 17 sont soit triviales, soit résultent de celles déjà prouvées ci-dessus.

Nous renvoyons par exemple à [40, 9, 36] pour plus d'informations ainsi que des références sur la notion d'ergodicité de degré 2.

Dans le document Chaînes de Markov Jean Bérard (Page 125-135)