• Aucun résultat trouvé

Rappels de probabilités

N/A
N/A
Protected

Academic year: 2022

Partager "Rappels de probabilités"

Copied!
43
0
0

Texte intégral

(1)

Rappels de probabilités

Ce document est un complément au livre [CM15]. Il regroupe des éléments sur l’intégration, les martingales, les chaînes de Markov, et le calcul stochastique.

Le contenu est inspiré en partie du livre [BC07]. Les démonstrations sont omises.

A.1 Propriétés élémentaires

Si (An)nN est une suite d’événements alors

limn An:=∩nm>nAm={ω:ωAn pour une infinité de valeurs de n}, et

lim

n

An:=∪nm>nAm={ω:ωAn à partir d’un certain rang surn}. On a

limn Acn = (lim

n

An)c et lim

n

Acn= (lim

n An)c, et

1limnAn = lim

n 1An et 1limnAn = lim

n 1An.

Lemme A.1 (Borel-Cantelli). Soit(An)nNest une famille d’événements.

— (Cantelli) Si P

nNP(An)<alorsP(limnAn) = 0;

— (Loi du zéro-un de Borel) Si les (An)n∈N sont indépendants alors P(limnAn)∈ {0,1} etP(limnAn) = 0ssiP

nNP(An)<.

Lemme A.2 (Loi du zéro-un de Kolmogorov). Si (Fn)n>1 est une suite de tribus indépendantes alors

P(A)∈ {0,1} pour toutA∈lim

n Fn :=∩n>1σ(m>nFm).

(2)

On dit que limnFn est la tribuaymptotiqueou tribu terminale1.

Théorème A.3 (Inégalités de Markov et de Tchebychev). Si X est une variable aléatoire positive et si Y est une v.a. dans L2, alors pour tout réel r >0, l’inégalité de Markov et l’inégalité de Tchebychev s’écrivent

P(X>r)6 E(X)

r et P(|Y −E(Y)|>r)6 Var(Y) r2 . Il est temps d’introduire les deux notions de convergence suivantes :

— On dit qu’une suite (Xn)nNde variables aléatoires convergepresque sûrement («p.s.») vers une variable aléatoire X lorsque

P( lim

n→∞Xn=X) = 1, et on note

Xn

−→p.s.

n→∞X.

— On dit qu’une suite (Xn)nNde variables aléatoires convergeen proba- bilité vers une variable aléatoireX lorsque

ε >0, lim

n→∞P(|XnX|>ε) = 0, et on note

Xn

−→P n→∞X.

Lemme A.4 (Lemme de Fatou). Si(Xn)n∈N est une suite de variables aléa- toires positives alorsE(limn→∞Xn)6limn→∞E(Xn).

Théorème A.5 (Convergence monotone). Si (Xn)nN est une suite crois- sante de v.a. positives alors limn→∞E(Xn) = E(limn→∞Xn) dans R+. En particulierlimn→∞XnL1 ssilimn→∞E(Xn) = supn∈NE(Xn)<. Théorème A.6 (Convergence dominée). Si (Xn)nN et X sont des v.a.

avec Xn

−→P

n→∞X etsupnN|Xn| ∈L1 alorsXL1 etXn L1 n→∞−→ X. En pratique, le théorème de convergence dominée est utilisé quand on a XnX presque sûrement, et on recherche une variable aléatoire YL1 telle que|Xn|6Y pour toutn∈Npour assurer que supnN|Xn| ∈L1. Théorème A.7 (Intégrabilité uniforme). Pour toute famille de variables aléatoires intégrables(Xi)iIL1, les propriétés suivantes sont équivalentes :

1. Intégrabilité uniforme :limx→∞supiIE(|Xi|1{|Xi|>x}) = 0;

2. Critère epsilon-delta : la famille est bornée dans L1, c’est-à-dire que supiIE(|Xi|)<, et de plus, pour toutε >0, il existe unδ >0tel que pour tout événementA, siP(A)6δalorssupiIE(|Xi|1A)6ε; 1. «Tail sigma field» en anglais.

(3)

3. Critère de de la Vallée Poussin : il existeϕ:R+→R+ convexe avec

x→∞lim ϕ(x)

x =∞ et sup

iI

E(ϕ(|Xi|))<∞;

4. Critère de Dunford-Pettis : l’ensemble (Xi)iI est (aussi séquentielle- ment) relativement compact dans L1 pour la topologie faibleσ(L1, L).

Les parties finies deL1 sont toutes uniformément intégrables. SiXL1 alors le critère de de la Vallée Poussin pour le singleton {X} ⊂ L1 donne ϕ(X)L1 pourϕconvexe et sur-linéaire qui dépend deX. Pour comprendre ce phénomène, au cœur de la notion d’intégrabilité uniforme, on peut penser à la condition de sommabilité des séries de Riemman, qui est ouverte.

Le critère de de la Vallée Poussin entraîne que si (Xi)i∈I est bornée dansLp avec p > 1, c’est-à-dire que supi∈IE(|Xi|p)<∞, alors (Xi)i∈I est uniformément intégrable. On prendra garde à ne pas confondre la bornitude dansLp avec la condition de domination supi∈I|Xi| ∈Lp, qui est plus forte.

L’intégrabilité uniforme remplace avantageusement la condition de domi- nation du théorème de convergence dominée. Si (Xn)nN et X sont des variables aléatoires dansL1 alors limn→∞Xn=X dansL1 si et seulement si limn→∞Xn=X en probabilité et (Xn)nNest uniformément intégrable.

Convergence en loi

SoitLune loi de probabilité de fonction de répartitionF, et soitXune variable aléatoire de loiL. On dit qu’une suite (Xn)nNde variables aléatoires convergeen loi versL, et on note

Xn

−→loi n→∞L

lorsque limn→∞E(f(Xn)) =E(f(X)) pour toutf ∈ F pour une classe de fonctionsF parmi les classes suivantes :

— (fonctions continues et bornées)F=Cb;

— (fonction caractéristique)F={x7→eitx:t∈R};

— (fonction de répartition)F={1]−∞,x]:xpoint de continuité deF}. Théorème A.8(Lien entre les notions de convergence).

CVLp>1

CVL1

3

CV p.s.2 CV en P ⇒1CV en loi

La réciproque dans 1a lieu lorsque la limite est constante, dans2le long de sous-suites, et dans3 si la suite est uniformément intégrable.

(4)

Lafonction caractéristique d’une variable aléatoireX est définie parϕX: t∈R7→ϕX(t) :=E(eitx)∈C. Elle ne dépend que de la loi deX.

Théorème A.9(Fonctions caractéristique).

— (Caractérisation) Pour toutes v.a.X etY on aϕX=ϕY ssiX loi=Y ;

— (Paul Lévy) Si(Xn)nN sont des v.a. telles quelimn→∞ϕXn(t) =ϕ(t) pour tout t ∈ R, avec t ∈R 7→ ϕ(t) ∈C continue en 0, alors ϕ est continue sur R, il existe une variable aléatoire X telle queϕX =ϕ, et(Xn)nNconverge en loi vers la loi deX;

— (Bochner) Une fonction continue ϕ:R→Cest la fonction caractéris- tique d’une v.a. ssi ϕ(0) = 1 et ϕest définie positive c’est-à-dire que pour toutn>1, toust1, . . . , tn∈R, et toutc∈Cn,

Xn j=1

Xn k=1

cjϕ(tjtk)ck>0.

Lemme A.10 (Slutsky). Si(Xn)n∈Net(Yn)n∈N sont des suites de v.a. avec Xn

−→loi

n→∞X et Yn

−→loi n→∞c oùc est une constante, alors

(Xn, Yn)n→∞−→loi Loi(X, c).

et en particulier, pour toute fonction continuef :R×R→R, on a f(Xn, Yn) −→loi

n→∞Loi(f(X, c)).

A.2 Théorèmes limites classiques

Théorème A.11(Loi des grands nombres (LGN)). Si(Xn)nN sont des v.a.

i.i.d. intégrables de moyennem, alors X1+· · ·+Xn

n

−→p.s.

n→∞m.

Théorème A.12 (Loi du logarithme itéré de Strassen (LLI)). Si (Xn)n∈N

sont i.i.d. de carré intégrable, de moyenne met de variance σ2, alors p.s.

lim

n→∞

X1+· · ·+Xnnm

p2nlog(log(n)) =−σ et lim

n→∞

X1+· · ·+Xnnm p2nlog(log(n)) = +σ.

La loi du logarithme itéré se situe entre LGN et TLC.

(5)

Théorème A.13(Théorème limite central (TLC)). Si(Xn)n∈N sont des v.a.

i.i.d. de carré intégrable, de moyennem et de variance σ2 alors

n

X1+· · ·+Xn

nm

=X1m+· · ·+Xnm

n

−→loi

n→∞N(0, σ2).

Le TLC entraîne la LGN faible (convergence enP) par le lemme de Slutsky.

Théorème A.14 (Berry-Esseen (vitesse dans TLC)). Si (Xn)n∈N est une suite de v.a. i.i.d. dans L3 de moyenne met de varianceσ2, alors, en notant τ3:=E(|Xm|3), on a, pour toutn>1,

sup

tR

P

X1m+· · ·+Xnm

6t

− Z t

−∞

ex22

√2π dx 6 τ3

3. Le théorème A.14 de Berry-Esseen donne une majoration de la vitesse de convergence en loi du TLC, au niveau des fonctions de répartition.

LGN et TLC uniformes

Théorème A.15(Glivenko-Cantelli (LGN uniforme)). Si(Xn)nNsont des v.a. i.i.d. de fonction de répartition commune F, et si, pour tout n>1, Fn

est la fonction de répartition de la mesure empirique 1nPn

k=1δXk, alors kFnFk −→p.s.

n→∞0.

Théorème A.16(Kolmogorov-Smirnov (TLC uniforme)). Si (Xn)nN sont des v.a. i.i.d. de fonction de répartitionF continue, et si pour toutn>1,Fn

désigne la fonction de répartition de la mesure empirique n1Pn

k=1δXk, alors pour toutn>1, la loi dekFnFk est libre (elle ne dépend pas de F), et

nkFnFk −→loi

n→∞KS

KS est la loi de Kolmogorov-Smirnov, qui est la loi de supt[0,1]|Pt| (Pt)t[0,1] est le pont brownien(Pt)t[0,1]:= (BttB1)t[0,1] (Bt)tR+ est un mouvement brownien standard. EnfinKSa pour fonction de répartition

KS(]− ∞, t]) = 1 + 2 X k=1

(−1)ke2k2t2, t >0.

Le théorème A.16 de Kolmogorov-Smirnov est au théorème A.15 de Glivenko-Cantelli ce que le TLC est à la LGN.

(6)

Principes de grandes déviations

Les principes de grandes déviations (PGD)2 sont des raffinements asymp- totiques de la LGN, qui ne sont pas de même nature que le TLC.

Théorème A.17(Principe de grandes déviations de Cramér). Soit(Xn)nN

une suite de v.a. i.i.d. de moyennem, telles que la transformée de Laplace de leur loi communet∈R7→L(t) :=E(etX1)∈[0,∞] est finie sur un voisinage de l’origine. SoitΨ la transformée de Legendre delog(L), donnée par

Ψ(θ) := sup

t∈R

(tθ−log(L(t))), θ∈R.

AlorsΨ prend ses valeurs dansR+, est semi-continue inférieurement, convexe, décroissante sur ]− ∞, m], nulle enm, croissante sur [m,∞[. De plus, si

Sn:= X1+· · ·+Xn

n alors pour tout borélienB⊂R, quandn≫1,

P(SnB)≈exp(−ninf

B Ψ),

au sens où en notant int(B)etadh(B)l’intérieur et l’adhérence deB,

− inf

int(B)Ψ 6 lim

n→∞

logP(SnB)

n 6 lim

n→∞

logP(SnB)

n 6− inf

adh(B)Ψ.

Il est possible de retrouver la LGN à partir du théorème A.17 de Cramér en utilisant le lemme de Borel-Cantelli. La fonction Ψ qui intervient dans le théorème A.17 est appelée transformées de Cramér. En voici quelques exemples :

Loi(Xn) Ψ {θ∈R:Ψ(θ)<∞}

Ber(p) θlog θp

+ (1−θ) log 11θp

[0, p]

Poi(λ) λθ+θlog θλ

[0,∞[

Exp(λ) λθ−1−log(λθ) ]0,∞[

N(m, σ2) m)2 2 R

SoitM1l’ensemble des mesures de probabilités surRéquipé de la topologie de la convergence étroite, qui est la convergence faible par rapport aux fonctions test continues et bornées. Cette topologie est métrisable par la distance de Fortet-Mourier3définie pour tousµ, ν ∈ M1par

dFM(µ, ν) := sup

f

Z

f dµ− Z

f dν 2. «Large Deviations Principles (LDP)» en anglais.

3. «Bounded-Lipschitz distance» en anglais.

(7)

où le supremum porte sur l’ensemble des fonctions testf continues telles que kfk:= supx|f(x)|61 etkfkLip := supx6=y|f(x)−f(y)|/|xy|61.

Pour tousµ, ν∈ F on définit l’entropie relativede ν par rapport àν, ou divergence de Kullback-Leibler, par

Ent(ν|µ) :=



 Z

log

dµdµ siνµ,

+∞ siν 6≪µ.

L’inégalité de Jensen pour la fonction strictement convexex∈R+ 7→xlog(x) indique que Ent(ν|µ)>0 avec égalité si et seulement si µ=ν.

Théorème A.18(Principe de grandes déviations de Sanov). Soit(Xn)n∈N

une suite de v.a. i.i.d. de loi µ, etΨ := Ent(· |µ). Alors la mesure empirique µn:= 1

n Xn k=1

δXk

vérifie, pour tout borélienB deM1, quandn≫1, P(µnB)≈exp(−ninf

B Ψ) au sens où

− inf

int(B)Ψ 6 lim

n→∞

logP(µnB)

n 6 lim

n→∞

logP(µnB)

n 6− inf

adh(B)Ψ int(B)etadh(B)sont l’intérieur et l’adhérence de B.

On peut retrouver la LGN exprimée sur les mesures empiriques à partir du théorème A.18 de Sanov en utilisant le lemme de Borel-Cantelli en prenant par exempleAn={ν ∈ M1:dFM(µ, ν)> ε} pourε >0 arbitraire.

Extrêmes

Que devient le TLC si n1(x1+· · ·+xn) est remplacée par max(x1, . . . , xn) ? Théorème A.19 (des extrêmes de Gnedenko-Fréchet-Fisher-Tippet). Si (Xn)n∈N sont des v.a. i.i.d. et s’il existe une suite (an)n∈N dans ]0,∞[ et(bn)n∈N dansRet une loiL telles que

max(X1, . . . , Xn)−bn

an

−→loi n→∞L,

alors soitLest une masse de Dirac, soitLs’obtient par translation et dilation à partir de l’un des trois types de lois dont les fonctions de répartition sont de la forme

1. (Fréchet)F(t) =eta1t∈R+, c >0;

(8)

2. (Gumbel)F(t) =eet;

3. (Weibul)F(t) =1tR++e(−t)a1t6∈R+, c >0.

SiF est la fonction de répartition deX1 alors pour toutx∈R, Fn(anx+bn)n−→

→∞L(]− ∞, x]).

Le bassin d’attraction de chacune des trois lois des extrêmes dépend du comportement au bord droit du support de la loi des (Xn)n∈N. Exemples :

Loi(Xn) Queue L an bn

Cauchy lourde Fréchetc= 1 n/π 0

Exp(1) légère Gumbel 1 log(n)

Unif([0,1]) nulle Weibullc= 1 1/n 1

Les suites (an)n∈N et (bn)n∈N ne sont pas toujours simples, comme le montre l’exemple de la loi N(0,1) pour lequelLest la loi de Gumbel et

an= 1

p2 log(n) et bn=p

2 log(n)−log(log(n)) + log(4π) 2p

2 log(n) . Espérance conditionnelle

Théorème A.20(Espérance conditionnelle). SiXL1 et G est une sous- tribu deF alors il existe une unique v.a.Y, notéeE(X| G), telle que

YL1(G);

E(Y Z) =E(XZ) pour toute v.a.Z mesurable pour G.

Si de plus XL2 alorsY est la projection orthogonale deX sur L2(G).

On noteE(X|Y) :=E(X| G) oùG est la tribu engendrée parY. Théorème A.21(Propriétés de l’espérance conditionnelle).

X 7→E(X| G) a les propriétés d’une espérance : linéarité, positivité, normalisation, convergence monotone, inégalité de Jensen ;

E(X| G) =E(X)siX est indépendante de G;

E(XZ| G) =ZE(X| G)siZ est mesurable pourG;

E(f(X, Z)| G) =g(Z)oùg(z) :=E(f(X, z)| G)siX est indépendante deG etZ est mesurable pourG;

E(E(X| G)) =E(X), et plus généralement, siG ⊂ H alors4 E(E(X| G)| H) =E(E(X| H)| G) =E(X| G).

Théorème A.22(Loi conditionnelle). SiX, YL1 alors pour touty∈R il existe une mesure de probabilitéµy notée égalementLoi(X|Y =y), mesurable en y, telle que pour toute fonction f :R→Rvérifiant f(X)∈L1,

4. La «plus petite gagne», comme pour les projections orthogonales imbriquées.

(9)

E(f(X)|Y) = Z

f(x)µY(dx).

Ainsi E(X|Y) =m(Y)oùm(y)est la moyenne deµy, notéeE(X|Y =y).

Soit (Xi)i∈I une famille de variables aléatoires etI1, I2I. On dit que les familles de variables aléatoires XI1 := (Xi)i∈I

1 et XI2 := (Xi)i∈I

2 sont conditionnellement indépendantespar rapport à une tribu Glorsque

E(f1(XI1)f2(XI2)| G) =E(f(XI1)| G)E(f2(XI2)| G)

pour toutes fonctionsf1:RI1→Ret f2:RI2 →Rmesurables et bornées.

Échangeabilité et théorèmes à la de Finetti

Une mesure de probabilité sur un espace produit estéchangeablelorsqu’elle est invariante par toute permutation d’un nombre fini de coordonnées. On dit qu’une suite de variables aléatoires est échangeable lorsque sa loi est échan- geable. L’échangeabilité est un affaiblissement de la notion d’indépendance.

Toute mesure de probabilité produit est échangeable. Tout mélange de mesures de probabilités produit est échangeable. Le théorème de Diaconis- Freedman (respectivement de Hewitt-Savage) fournit une réciproque : si une suite finie (respectivement infinie) est échangeable alors sa loi est proche (respectivement égale) à un mélange de mesures de probabilités produit.

Théorème A.23(Diaconis-Freedman). Si(X1, . . . , Xn)est un vecteur aléa- toire de loiLn échangeable, alors il existe une mesure de probabilitéPn, mélange de mesures de probabilité produit, telle que pour toutk∈ {1, . . . , n}, les lois marginalesLn,k etPn,k de dimension k deLn etPn vérifient

dVT(Ln,k, Pn,k) := sup

A∈F|Ln,k(A)−Pn,k(A)|6 k(k−1) n .

CommedVT,·) ∈ [0,1], le théorème A.23 de Diaconis-Freedman n’est utile que lorsquek6√n. D’autre part, pourk= 1, il donneLn,1=Pn,1. Théorème A.24(Hewitt-Savage). Si(Xn)nN est une suite de v.a. telle que la loi du vecteur (X0, . . . , Xn)est échangeable pour tout n∈N, alors il existe une tribu G telle que les v.a. (Xn)n∈N sont indépendantes conditionnellement à G : la loi de(Xn)n∈Nest donc un mélange de mesures de probabilité produit.

SiFn est la tribu engendrée par les fonctions mesurables symétriques des variables aléatoiresX0, . . . , Xn, alorsG= limnFn:=∩n>1σ(m>nFm).

Le théorème A.24 est attribué à de Finetti lorsque les v.a. sont de Bernoulli.

Théorème A.25 (Loi du zéro-un de Hewitt-Savage). Si (Xn)nN est une suite de v.a. i.i.d. et si Aσ(X0, X1, . . .) est un événement invariant par toute permutation des indices à support fini, alorsP(A)∈ {0,1}.

(10)

A.3 Martingales

Cette section est consacrée aux martingales à temps discret.

Sous-martingales, martingales, et sur-martingales

Unefiltration(Fn)nNest une famille croissante de sous-tribus deF, c’est- à-dire queFn est une tribu sur etFn ⊂ Fn+1⊂ F pour tout n∈N. Un processus à temps discret (suite de variables aléatoires) (Xn)n∈N estadapté à une filtration (Fn)n∈NlorsqueXn est mesurable pourFn pour toutn∈N. La filtration naturelled’un processus (Xn)n∈Nest la plus petite filtration adaptée, donnée parFn=σ(X0, . . . , Xn) pour toutn∈N.

Si (Mn)n∈N est un processus adapté à une filtration (Fn)n∈N et vérifie MnL1 pour toutn∈N, alors on dit que (Mn)nNest une. . .

martingale lorsque toutn∈N

E(Mn+1Mn| Fn) = 0,

et ceci implique une constance en moyenne :E(Mn) =E(M0) pour tout n∈N(à comprendre comme une loi de conservation) ;

sous-martingalesi pour toutn∈N

E(Mn+1Mn| Fn)>0,

et ceci implique une croissance en moyenne :E(Mn+1)>E(Mn) pour toutn∈N(resteen-dessous de la limite possible) ;

sur-martingale si pour toutn∈N

E(Mn+1Mn| Fn)60,

et ceci implique une décroissance en moyenne :E(Mn+1)6E(Mn) pour toutn∈N(resteau-dessusde la limite possible).

Notons queM est une sous-martingale ssi−M est une sur-martingale, et queM est une martingale ssiM est une sous-martingale et une sur-martingale.

SiΦ:R→Rest convexe et siM = (Mn)nN est une martingale pour la filtration (Fn)nN, telle queΦ(Mn)∈L1pour toutn∈N, alors (Φ(Mn))nN

est une sous-martingale pour (Fn)nN(inégalité de Jensen !). En particulier (|Mn|)n∈N est une sous-martingale, ainsi que (Mn2)n∈NlorsqueM estde carré intégrablec’est-à-dire lorsqueMnL2 pour toutn∈N.

Par définition, une martingale de carré intégrable est une somme de v.a.r.

conditionnellement orthogonales. Cette structure, inspirée par les sommes de v.a.r. indépendantes, est généralisée par les martingales au cadreL1.

(11)

Temps d’arrêt et théorème d’arrêt

Une variable aléatoireT à valeurs dans{0,1,2, . . .} ∪ {∞} est untemps d’arrêt pour une filtration (Fn)nN lorsque pour tout n ∈ N, l’événement {T 6n} ∈ Fn, ou de manière équivalente, pour toutn∈N,{T =n} ∈ Fn. Un exemple typique de temps d’arrêt est le temps d’atteinte

τA:= inf{n∈N:XnA}

d’un borélienAdeRpar un processus (Xn)nNadapté pour (Fn)nN. Un événementA∈ F estantérieur àT lorsqueA∩ {T =n} ∈ Fn pour tout n ∈ N. La tribu FT engendrée par les événements antérieurs à T est appeléetribu d’arrêt associée àT. Le temps d’arrêtT est mesurable pour sa tribu d’arrêtFT. Si S etT sont des temps d’arrêt avecS6T alors FS ⊂ FT. Théorème A.26(d’arrêt de Doob). Si(Mn)nN etT sont une martingale et un temps d’arrêt pour (Fn)nN, alors leprocessus arrêté (MTn)nN est une martingale pour(Fn)nN. En particulier, pour tout n∈N,

E(MTn) =E(M0).

En outreE(MT) =E(M0)dès que l’une des propriétés suivantes est vérifiée :

T est borné c’est-à-dire que T 6cpour une constante c>0;

P(T <∞) = 1etM est uniformément intégrable ;

E(T)<etM est à accroissements bornés : sup

nNkMn+1Mnk<.

Dans la pratique, on invoque souvent directement le théorème de conver- gence monotone ou le théorème de convergence dominée pour obtenir que E(MT) =E(M0) à partir deE(Mn∧T) =E(M0). Par ailleurs, des propriétés analogues ont lieu pour les sous-martingales (appliquer le lemme de Fatou !).

Inégalité maximale pour les sous-martingales

Un processusX = (Xn)n∈N estpositif lorsqueXn >0 pour toutn∈N. Théorème A.27 (Inégalité maximale de Doob). Si M = (Mn)n∈N est une sous-martingale positive bornée dans Lp avec p > 1, alors pour tout n>0, la norme Lp du maximum deM sur[0, n]∩Nest majorée, à une constante universelle près qui ne dépend que dep, par la normeLp au temps terminal :

Emax

06k6nMk

p 6

p p−1

p

E(|Mn|p).

En particulier, pour tout réel r >0, P

max

06k6nMk

>r

6

p p−1

pE(|Mn|p) rp .

Dans le très courant cas hilbertienp= 2, on trouve (p/(p−1))p= 4.

(12)

Théorèmes de convergence des martingales

En analyse, une suite croissante et majorée, ou décroissante et minorée, est convergente. Un analogue de ce phénomène a lieu pour les martingales.

Théorème A.28(de Doob sur les sous-martingales bornées dansL1). Si une sous-martingaleM = (Mn)nN a sa partie positive bornée dansL1 :

sup

nN

E(max(0, Mn))<,

alors il existe une variable aléatoire notéeML1telle que presque sûrement

nlim→∞Mn=M.

En particulier, toute martingale positive, toute sous-martingale majorée par une constante, ainsi que toute sur-martingale minorée par une constante, converge presque sûrement vers une variable aléatoire intégrable.

Notons queP(M<∞) = 1 carML1. Attention, la convergence de M versM n’a pas forcément lieu dansL1. Le lemme de Scheffé affirme que la convergence a lieu dansL1si et seulement si limn→∞E(|M0|) =E(|M|), condition qui se réduit à E(M0) = E(M) lorsque M est une martingale positive ! Plus généralement, une martingale bornée dansL1converge dans L1 si et seulement si elle est uniformément intégrable.

Théorème A.29(Convergence des martingales bornées dansLp,p >1). Si M = (Mn)nN est une martingale bornée dansLp avecp >1, alors il existe une variable aléatoire MLp telle que presque sûrement et dansLp

nlim→∞Mn=M.

De plus, si(Fn)nN est la filtration deM alors, pour toutn∈N, Mn=E(M| Fn).

Le théorème A.29 est souvent utilisé dans le cas hilbertienp= 2. D’autre part, la convergenceMnM dansLp entraîne queE(Mn) =E(M) pour tout n∈Net que limn→∞E(|Mn|r) =E(|M|r) pour toutq∈[1, p].

Corollaire A.30. Soit(Xn)n∈N des v.a.r. indépendantes et centrées.

1. SiP

n∈NE(Xn2)<alorsP

n∈NXn converge presque sûrement ; 2. SiP

n∈N

1

n2E(Xn2)<alors n1Pn k=1Xk

−→p.s.

n→∞0.

Le second résultat du corollaire peut se déduire du premier grâce au lemme de Kronecker : si (bn)nN est une suite de ]0,∞[ croissante qui tend vers +∞ et si P

n∈Nxn est une série convergente, alors

(13)

nlim→∞

1 bn

Xn k=1

bkxk = 0.

Par une transformation d’Abel, le lemme de Kronecker se déduit du lemme de Toeplitz : si (an)n∈N est une suite de ]0,∞[ avec P

n∈Nan =∞ et si (xn)n∈N est une suite de réels telle que limn→∞xn=∈Ralors

nlim→∞

Pn k=1akxk

Pn k=1ak

=ℓ.

On retrouve le lemme de Cesàro lorsque (an)nN est constante.

Décomposition de Doob, LGN, TLC

Cette section est consacrée aux martingales de carré intégrable, ainsi qu’à des théorèmes limite (loi des grands nombres et théorème limite central).

On dit qu’une martingale (Mn)nNest unemartingale de carré intégrable lorsqueMnL2 pour toutn∈N. Dans ce cas, l’inégalité de Jensen indique que (Mn2)n∈Nest une sous-martingale.

Théorème A.31(Décomposition de Doob). Si M = (Mn)n∈N est une mar- tingale pour la filtration (Fn)n∈N, de carré intégrable, alors

— le processus (hMin)nNdéfini par hMi0:= 0 puis pour tout n∈Npar hMin+1:=hMin+E((Mn+1Mn)2| Fn),

est positif, croissant, et prévisible5;

— le processus (Mn2− hMin)nNest une martingale pour (Fn)n∈N;

— la martingale(Mn)nN est bornée dansL2 ssihMiL1 hMi:= lim

n→∞hMin =X

nN

E((Mn+1Mn)2| Fn).

Le processus (hMin)nN est appelé compensateur de la sous-martingale (Mn2)nNouprocessuss croissantde la martingale de carré intégrable (Mn)nN.

La formuleMn2= (Mn2−hMin)+hMinpour toutn∈Nest ladécomposition de Doob de la sous-martingale (Mn2)n∈Nen somme d’une martingale et d’un processus positif, croissant, et prévisible. Ce type de décomposition reste valable en général pour les sous-martingales. Cette décomposition est remarquablement explicite dans le cas des carrés de martingales de carré intégrable.

Théorème A.32 (Loi des grands nombres pour les martingales L2). Si (Mn)nN est une martingale de carré intégrable alors

1. sur {hMi<∞}, lim

n→∞Mn=M presque sûrement, oùML2; 5. C’est-à-dire quehMin+1est mesurable pourFnpour toutn∈N.

(14)

2. sur {hMi=∞}, lim

n→∞

Mn

hMin

= 0 presque sûrement.

Théorème A.33 (Théorème limite central pour les martingales L2). Si (Mn)n∈N est une martingale de carré intégrable, et si(an)n∈N est une suite de de réels strictement positifs, croissante et tendant vers, vérifiant :

1. (convergence du crochet) il existe un réel >0 tel que hMin

an

−→P n→∞ℓ; 2. (condition de Lindeberg) pour tout ε >0

1 an

Xn k=1

E((MkMk−1)21{|MkMk1|an}| Fk−1)n−→P

→∞0; alors6

Mn

an

−→loi

n→∞N(0, ℓ), etan

Mn

hMin

−→loi

n→∞N(0, ℓ1) (siℓ >0).

A.4 Chaînes de Markov

Cette section est consacrée aux chaînes de Markov à temps discret et à espace d’états fini ou infini dénombrable.

Dans toute cette sectionE désigne un ensemble fini ou infini dénombrable.

Noyau de transition et récurrence aléatoire

Unnoyau de transition7 surE est une applicationP:E×E→[0,1] telle que P

yEP(x, y) = 1 pour tout xE. Unechaîne de Markov de noyaux de transition (Pn)nN et deloi initiale µ0 est un processus X = (Xn)nN à valeurs dansE tel queX0µ0 et, pour toutn∈Net tousx0, . . . , xnE,

P(X0=x0, . . . , Xn=xn) =µ0(x0)

n−Y1 k=0

Pk(xk, xk+1).

La formule précédente montre que la loi de la chaîne (sur les trajectoires) est entièrement caractérisée par la loi initiale et les noyaux de transition. En identifiant les mesures à des vecteurs lignes et les noyaux à des matrices, la formule s’écrit de manière condenséeXnµ0P1· · ·Pn pour toutn∈N. On dit queE est l’espace d’étatsde la chaîne. La chaîne esthomogène siPn ne dépend pas den, etinhomogènedans le cas contraire. Sauf mention explicite du contraire, les chaînes considérées par la suite sont toutes homogènes.

À un noyau de transition Psur E on peut associer un graphe complet orienté dont l’ensemble des arêtes estE et dans lequel l’arête (x, y) porte le poidsP(x, y) pour tousx, yE. On parle degraphe des transitions.

6. La seconde convergence se déduit de la première et du lemme de Slutsky.

7. Ou encorematrice de transition,matrice markovienne, oumatrice stochastique.

(15)

Théorème A.34(Chaîne de Markov⇔Suite récurrente aléatoire). Soitµ0

une loi sur E et(Un)n∈N une suite de v.a.r. i.i.d. de loi uniforme sur[0,1].

— Soit X0µ0 et soitf :E×[0,1]→E une fonction quelconque. Alors la suite récurrente aléatoire8 9 (Xn)n∈Ndéfinie par

Xn+1=f(Xn, Un+1), n∈N,

est une chaîne de Markov d’espace d’étatsE, de loi initiale µ0, et de noyau de transitionP(x, y) :=P(f(x, U1) =y);

— Réciproquement, soitPun noyau de transition surE. Pour toutxE, considérons une partition[0,1] =∪yEIx,y de l’intervalle [0,1]telle que

P(U1Ix,y) =|Ix,y|=P(x, y), x, yE.

Soitf :E×[0,1]7→E définie pour tous x, yE etuIx,y par f(x, u) :=y.

Alors la suite récurrente aléatoire(Xn)nN définie parX0µ0 et Xn+1=f(Xn, Un+1), n∈N,

est une chaîne de Markov de loi initialeµ0 et de noyauP.

La structure de récurrence aléatoire est facile à repérer en général dans les modèles stochastiques, et indique donc la présence d’une chaîne de Markov.

Formulation matricielle et équation d’évolution

Un noyau de transition est une matrice qui opère à gauche sur les mesures vues comme des vecteurs ligne, et à droite sur les fonctions vues comme des vecteurs colonne. SiX = (Xn)n∈N est une chaîne de Markov surEde noyau Pet de loi initialeµ0, alors, pour toute fonctionf :E→R, on a

E(f(X1)) =E(E(f(X1)|X0))

=X

xE

µ0(x)X

yE

P(x, y)f(y)

= X

x,yE

µ0(x)P(x, y)f(y)

=µ0Pf.

PosonsP0 :=IIest la matrice identité définie par I(x, y) =1x=y pour tousx, yE. Pour toutn∈N, on notePn le noyau de transition obtenu par produit matriciel, défini parP0=Iet pour tout n∈Net tousx, yEpar

8. C’est aussi un processus autorégressif non-linéaire d’ordre 1.

9. C’est aussi un système dynamique avec bruit.

(16)

Pn(x, y) :=X

x

P(x1, x2)· · ·P(xn, xn+1),

où la somme porte sur les chemins (x1, . . . , xn+1) dansEd’extrémitésx1:=x etxn+1:=y. La suite de noyaux (Pn)nN est un semi-groupe pour le produit matriciel. On dit qu’il s’agit d’un semi-groupe de Markov à temps discret.

De plus, pour toutn∈N, siµn désigne la loi deXn, alors :

— la suite (µn)nNvérifie la relation de récurrence linéaire, appelée équa- tion d’évolution de Chapman-Kolmogorov, suivante :

µn+1=µnP=µ0Pn+1, n∈N;

— pour tousx, yE et toutn∈N,

P(Xn=y|X0=x) =Pn(x, y) ;

— pour toute fonctionf :E→Ret toutn∈N, E(f(Xn)|X0=x) = (Pnf)(x) ;

— pour toute fonctionf :E→Ret toutn∈N, E(f(Xn) =µnf =µ0Pnf =µ0Pnf.

Propriété de Markov

Conditionnellement au présent, passé et futur sont indépendants : Théorème A.35(Propriété de Markov). Soit X = (Xn)nN une chaîne de Markov de noyauP, et soit (Fn)n∈N la filtration naturelle deX. SoitxE.

Propriété de Markov faible.Pour toutm∈N, et conditionnellement à {Xm=x}, la suite(Xm+n)n∈Nest une chaîne de Markov de loi initiale δxet de noyau P, indépendante deFm;

Propriété de Markov forte. Pour tout temps d’arrêtτ pourF, et condi- tionnellement à{τ <, Xτ=x}, la suite (Xτ+n)n∈N est une chaîne de Markov de loi initialeδx et de noyau P, indépendante de Fτ. La propriété de Markov faible se déduit de la forte en prenantτ=m.

Récurrence, transience, et irréductibilité

SoitX= (Xn)nNune chaîne de Markov surE de noyauP, etFE. Le temps de premier passageenF et letemps d’atteintedeF sont définis par

TF = inf{n∈N:XnF} et τF = inf{n∈N:XnF}.

Ces variables prennent leurs valeurs dans{1,2, . . .}∪{∞}et{0,1,2, . . .}∪{∞}

respectivement. Ce sont des temps d’arrêt pour la filtration naturelle deX.

(17)

Elles sont égales sur{X06∈F}. Sur{X0F}, la variableTF est également le temps de retour enF. Lenombre de passages enF est défini par

NF :=X

nN

1{Xn=x}.

Pour tout xE, on notePx :=P(· |X0=x) etEx :=E(· |X0 =x), et on abrège T{x}, τ{x}, N{x}enTx, τx, Nx.

Théorème A.36(Dichotomie). Pour toutxE, deux cas sont possibles :

xrécurrent xtransitoire

Px(Tx<∞) = 1 Px(Tx<∞)<1 Px(Nx=∞) = 1 Px(Nx=∞) = 0 Ex(Nx) =P

n=0Pn(x, x) =∞ Ex(Nx) =P

n=0Pn(x, x)<∞ SiPest un noyau de transition surE alors :

Communication.Pour tous x, yE, on dit que xconduit ày, et on notexy s’il existe n∈N tel quePn(x, y)>0 ; on dit que xety communiquent, et on notexy six=y ou si à la foisxy etyx.

La relation binaire↔est une relation d’équivalence qui partitionneE en classes d’équivalence appeléesclasses de communication.

Irréductibilité.On dit quePou par extensionX estirréductiblelorsqu’il existe une unique classe de communication, qui couvre donc E tout entier (tous les états communiquent entre eux).

Ensemble clos.Un ensembleFE estcloslorsque la chaîne ne s’en échappe pas : P(x, F) = 1 pour tout xF. Un état xE est ditabsorbant lorsque {x} est clos, c’est-à-dire queP(x, x) = 1. Tout ensemble clos est réunion de classes de communication closes.

Théorème A.37(Communication). Le caractère transitoire ou récurrent est constant sur les classes de communication : on parle de classes de récurrence (ou classes récurrentes) et de classes transitoires. Toute classe de récurrence est close, et toute classe close finie est une classe de récurrence.

Les ensembles clos comme par exemple les classes de récurrence sont absorbants. Presque sûrement, une chaîne partant d’un état récurrent repasse une infinité de fois par son état initial, ne s’échappe jamais de sa classe de récurrence, et visite une infinité de fois tous les états qui constituent cette classe de récurrence. Le cas des états absorbants est singulier puisque leur classe de récurrence est réduite à eux-mêmes. Presque sûrement, une chaîne partant d’un état transitoire ne peut repasser qu’un nombre fini de fois par son état initial, et peut être capturée par une classe de récurrence ou visiter d’autres états transitoires (un nombre fini de fois pour chacun). L’ensemble des états transitoires peut être infini, et la chaîne peut ne jamais être capturée par une classe de récurrence (c’est toujours le cas lorsqu’il n’y a pas d’état récurrent). Contrairement aux classes de récurrence, les classes transitoires peuvent ne pas être closes. Des passages (à sens unique) peuvent exister entre

Références

Documents relatifs

Christian Poslaniec : On dirait que tu as abandonné Pierrot et Colombine, ainsi que l'encre, en même temps que fermait l'atelier du vieux Mans.. On commence par

[r]

Laquelle des deux classes est la plus représentative de l'ensemble des 110

Regrouper les valeurs dans le tableau ci-dessous ; les résultats donnés précédemment correspondent à la classe A, les valeurs déjà inscrites correspondent

premier ni aucun autre de la chaîne, sauf l‘avant dernier. L’ensemble des élèves forme donc un ensemble de chaînes dont un élément est toujours au sec, si la chaîne comporte

• On peut imaginer que le projet permette à Sofiane de s’approprier les notions en lien avec sa question de grand oral :. o Critères de choix

Pour terminer ce très bref exposé sur la pensée de Jésus, il me semble intéressant d’insister sur un fait  : Jésus comme le Bouddha Gautama n’a rien écrit On peut se demander

Noix de Saint-Jacques aux épinards et aux herbes 175 Épinards et noix de cajou au curry rouge 29 Poulet au gingembre et aux épinards 52 Poulet à la crème et aux épinards 115