Rappels de probabilités
Ce document est un complément au livre [CM15]. Il regroupe des éléments sur l’intégration, les martingales, les chaînes de Markov, et le calcul stochastique.
Le contenu est inspiré en partie du livre [BC07]. Les démonstrations sont omises.
A.1 Propriétés élémentaires
Si (An)n∈N est une suite d’événements alors
limn An:=∩n∪m>nAm={ω∈Ω:ω∈An pour une infinité de valeurs de n}, et
lim
n
An:=∪n∩m>nAm={ω∈Ω:ω∈An à partir d’un certain rang surn}. On a
limn Acn = (lim
n
An)c et lim
n
Acn= (lim
n An)c, et
1limnAn = lim
n 1An et 1limnAn = lim
n 1An.
Lemme A.1 (Borel-Cantelli). Soit(An)n∈Nest une famille d’événements.
— (Cantelli) Si P
n∈NP(An)<∞alorsP(limnAn) = 0;
— (Loi du zéro-un de Borel) Si les (An)n∈N sont indépendants alors P(limnAn)∈ {0,1} etP(limnAn) = 0ssiP
n∈NP(An)<∞.
Lemme A.2 (Loi du zéro-un de Kolmogorov). Si (Fn)n>1 est une suite de tribus indépendantes alors
P(A)∈ {0,1} pour toutA∈lim
n Fn :=∩n>1σ(∪m>nFm).
On dit que limnFn est la tribuaymptotiqueou tribu terminale1.
Théorème A.3 (Inégalités de Markov et de Tchebychev). Si X est une variable aléatoire positive et si Y est une v.a. dans L2, alors pour tout réel r >0, l’inégalité de Markov et l’inégalité de Tchebychev s’écrivent
P(X>r)6 E(X)
r et P(|Y −E(Y)|>r)6 Var(Y) r2 . Il est temps d’introduire les deux notions de convergence suivantes :
— On dit qu’une suite (Xn)n∈Nde variables aléatoires convergepresque sûrement («p.s.») vers une variable aléatoire X∞ lorsque
P( lim
n→∞Xn=X∞) = 1, et on note
Xn
−→p.s.
n→∞X∞.
— On dit qu’une suite (Xn)n∈Nde variables aléatoires convergeen proba- bilité vers une variable aléatoireX∞ lorsque
∀ε >0, lim
n→∞P(|Xn−X∞|>ε) = 0, et on note
Xn
−→P n→∞X∞.
Lemme A.4 (Lemme de Fatou). Si(Xn)n∈N est une suite de variables aléa- toires positives alorsE(limn→∞Xn)6limn→∞E(Xn).
Théorème A.5 (Convergence monotone). Si (Xn)n∈N est une suite crois- sante de v.a. positives alors limn→∞E(Xn) = E(limn→∞Xn) dans R+. En particulierlimn→∞Xn∈L1 ssilimn→∞E(Xn) = supn∈NE(Xn)<∞. Théorème A.6 (Convergence dominée). Si (Xn)n∈N et X∞ sont des v.a.
avec Xn
−→P
n→∞X∞ etsupn∈N|Xn| ∈L1 alorsX∞∈L1 etXn L1 n→∞−→ X∞. En pratique, le théorème de convergence dominée est utilisé quand on a Xn→X∞ presque sûrement, et on recherche une variable aléatoire Y ∈L1 telle que|Xn|6Y pour toutn∈Npour assurer que supn∈N|Xn| ∈L1. Théorème A.7 (Intégrabilité uniforme). Pour toute famille de variables aléatoires intégrables(Xi)i∈I ⊂L1, les propriétés suivantes sont équivalentes :
1. Intégrabilité uniforme :limx→∞supi∈IE(|Xi|1{|Xi|>x}) = 0;
2. Critère epsilon-delta : la famille est bornée dans L1, c’est-à-dire que supi∈IE(|Xi|)<∞, et de plus, pour toutε >0, il existe unδ >0tel que pour tout événementA, siP(A)6δalorssupi∈IE(|Xi|1A)6ε; 1. «Tail sigma field» en anglais.
3. Critère de de la Vallée Poussin : il existeϕ:R+→R+ convexe avec
x→∞lim ϕ(x)
x =∞ et sup
i∈I
E(ϕ(|Xi|))<∞;
4. Critère de Dunford-Pettis : l’ensemble (Xi)i∈I est (aussi séquentielle- ment) relativement compact dans L1 pour la topologie faibleσ(L1, L∞).
Les parties finies deL1 sont toutes uniformément intégrables. SiX∈L1 alors le critère de de la Vallée Poussin pour le singleton {X} ⊂ L1 donne ϕ(X)∈L1 pourϕconvexe et sur-linéaire qui dépend deX. Pour comprendre ce phénomène, au cœur de la notion d’intégrabilité uniforme, on peut penser à la condition de sommabilité des séries de Riemman, qui est ouverte.
Le critère de de la Vallée Poussin entraîne que si (Xi)i∈I est bornée dansLp avec p > 1, c’est-à-dire que supi∈IE(|Xi|p)<∞, alors (Xi)i∈I est uniformément intégrable. On prendra garde à ne pas confondre la bornitude dansLp avec la condition de domination supi∈I|Xi| ∈Lp, qui est plus forte.
L’intégrabilité uniforme remplace avantageusement la condition de domi- nation du théorème de convergence dominée. Si (Xn)n∈N et X∞ sont des variables aléatoires dansL1 alors limn→∞Xn=X∞ dansL1 si et seulement si limn→∞Xn=X en probabilité et (Xn)n∈Nest uniformément intégrable.
Convergence en loi
SoitLune loi de probabilité de fonction de répartitionF∞, et soitX∞une variable aléatoire de loiL. On dit qu’une suite (Xn)n∈Nde variables aléatoires convergeen loi versL, et on note
Xn
−→loi n→∞L
lorsque limn→∞E(f(Xn)) =E(f(X∞)) pour toutf ∈ F pour une classe de fonctionsF parmi les classes suivantes :
— (fonctions continues et bornées)F=Cb;
— (fonction caractéristique)F={x7→eitx:t∈R};
— (fonction de répartition)F={1]−∞,x]:xpoint de continuité deF∞}. Théorème A.8(Lien entre les notions de convergence).
CVLp>1
⇓ CVL1
⇓3
CV p.s.⇒2 CV en P ⇒1CV en loi
La réciproque dans 1a lieu lorsque la limite est constante, dans2le long de sous-suites, et dans3 si la suite est uniformément intégrable.
Lafonction caractéristique d’une variable aléatoireX est définie parϕX: t∈R7→ϕX(t) :=E(eitx)∈C. Elle ne dépend que de la loi deX.
Théorème A.9(Fonctions caractéristique).
— (Caractérisation) Pour toutes v.a.X etY on aϕX=ϕY ssiX loi=Y ;
— (Paul Lévy) Si(Xn)n∈N sont des v.a. telles quelimn→∞ϕXn(t) =ϕ(t) pour tout t ∈ R, avec t ∈R 7→ ϕ(t) ∈C continue en 0, alors ϕ est continue sur R, il existe une variable aléatoire X∞ telle queϕX =ϕ, et(Xn)n∈Nconverge en loi vers la loi deX∞;
— (Bochner) Une fonction continue ϕ:R→Cest la fonction caractéris- tique d’une v.a. ssi ϕ(0) = 1 et ϕest définie positive c’est-à-dire que pour toutn>1, toust1, . . . , tn∈R, et toutc∈Cn,
Xn j=1
Xn k=1
cjϕ(tj−tk)ck>0.
Lemme A.10 (Slutsky). Si(Xn)n∈Net(Yn)n∈N sont des suites de v.a. avec Xn
−→loi
n→∞X∞ et Yn
−→loi n→∞c oùc est une constante, alors
(Xn, Yn)n→∞−→loi Loi(X∞, c).
et en particulier, pour toute fonction continuef :R×R→R, on a f(Xn, Yn) −→loi
n→∞Loi(f(X∞, c)).
A.2 Théorèmes limites classiques
Théorème A.11(Loi des grands nombres (LGN)). Si(Xn)n∈N sont des v.a.
i.i.d. intégrables de moyennem, alors X1+· · ·+Xn
n
−→p.s.
n→∞m.
Théorème A.12 (Loi du logarithme itéré de Strassen (LLI)). Si (Xn)n∈N
sont i.i.d. de carré intégrable, de moyenne met de variance σ2, alors p.s.
lim
n→∞
X1+· · ·+Xn−nm
p2nlog(log(n)) =−σ et lim
n→∞
X1+· · ·+Xn−nm p2nlog(log(n)) = +σ.
La loi du logarithme itéré se situe entre LGN et TLC.
Théorème A.13(Théorème limite central (TLC)). Si(Xn)n∈N sont des v.a.
i.i.d. de carré intégrable, de moyennem et de variance σ2 alors
√n
X1+· · ·+Xn
n −m
=X1−m+· · ·+Xn−m
√n
−→loi
n→∞N(0, σ2).
Le TLC entraîne la LGN faible (convergence enP) par le lemme de Slutsky.
Théorème A.14 (Berry-Esseen (vitesse dans TLC)). Si (Xn)n∈N∗ est une suite de v.a. i.i.d. dans L3 de moyenne met de varianceσ2, alors, en notant τ3:=E(|X−m|3), on a, pour toutn>1,
sup
t∈R
P
X1−m+· · ·+Xn−m
√nσ 6t
− Z t
−∞
e−x22
√2π dx 6 τ3
√nσ3. Le théorème A.14 de Berry-Esseen donne une majoration de la vitesse de convergence en loi du TLC, au niveau des fonctions de répartition.
LGN et TLC uniformes
Théorème A.15(Glivenko-Cantelli (LGN uniforme)). Si(Xn)n∈Nsont des v.a. i.i.d. de fonction de répartition commune F, et si, pour tout n>1, Fn
est la fonction de répartition de la mesure empirique 1nPn
k=1δXk, alors kFn−Fk∞ −→p.s.
n→∞0.
Théorème A.16(Kolmogorov-Smirnov (TLC uniforme)). Si (Xn)n∈N sont des v.a. i.i.d. de fonction de répartitionF continue, et si pour toutn>1,Fn
désigne la fonction de répartition de la mesure empirique n1Pn
k=1δXk, alors pour toutn>1, la loi dekFn−Fk∞ est libre (elle ne dépend pas de F), et
√nkFn−Fk∞ −→loi
n→∞KS
où KS est la loi de Kolmogorov-Smirnov, qui est la loi de supt∈[0,1]|Pt| où (Pt)t∈[0,1] est le pont brownien(Pt)t∈[0,1]:= (Bt−tB1)t∈[0,1] où(Bt)t∈R+ est un mouvement brownien standard. EnfinKSa pour fonction de répartition
KS(]− ∞, t]) = 1 + 2 X∞ k=1
(−1)ke−2k2t2, t >0.
Le théorème A.16 de Kolmogorov-Smirnov est au théorème A.15 de Glivenko-Cantelli ce que le TLC est à la LGN.
Principes de grandes déviations
Les principes de grandes déviations (PGD)2 sont des raffinements asymp- totiques de la LGN, qui ne sont pas de même nature que le TLC.
Théorème A.17(Principe de grandes déviations de Cramér). Soit(Xn)n∈N
une suite de v.a. i.i.d. de moyennem, telles que la transformée de Laplace de leur loi communet∈R7→L(t) :=E(etX1)∈[0,∞] est finie sur un voisinage de l’origine. SoitΨ la transformée de Legendre delog(L), donnée par
Ψ(θ) := sup
t∈R
(tθ−log(L(t))), θ∈R.
AlorsΨ prend ses valeurs dansR+, est semi-continue inférieurement, convexe, décroissante sur ]− ∞, m], nulle enm, croissante sur [m,∞[. De plus, si
Sn:= X1+· · ·+Xn
n alors pour tout borélienB⊂R, quandn≫1,
P(Sn∈B)≈exp(−ninf
B Ψ),
au sens où en notant int(B)etadh(B)l’intérieur et l’adhérence deB,
− inf
int(B)Ψ 6 lim
n→∞
logP(Sn∈B)
n 6 lim
n→∞
logP(Sn ∈B)
n 6− inf
adh(B)Ψ.
Il est possible de retrouver la LGN à partir du théorème A.17 de Cramér en utilisant le lemme de Borel-Cantelli. La fonction Ψ qui intervient dans le théorème A.17 est appelée transformées de Cramér. En voici quelques exemples :
Loi(Xn) Ψ {θ∈R:Ψ(θ)<∞}
Ber(p) θlog θp
+ (1−θ) log 11−−θp
[0, p]
Poi(λ) λ−θ+θlog θλ
[0,∞[
Exp(λ) λθ−1−log(λθ) ]0,∞[
N(m, σ2) (θ−2σm)2 2 R
SoitM1l’ensemble des mesures de probabilités surRéquipé de la topologie de la convergence étroite, qui est la convergence faible par rapport aux fonctions test continues et bornées. Cette topologie est métrisable par la distance de Fortet-Mourier3définie pour tousµ, ν ∈ M1par
dFM(µ, ν) := sup
f
Z
f dµ− Z
f dν 2. «Large Deviations Principles (LDP)» en anglais.
3. «Bounded-Lipschitz distance» en anglais.
où le supremum porte sur l’ensemble des fonctions testf continues telles que kfk∞:= supx|f(x)|61 etkfkLip := supx6=y|f(x)−f(y)|/|x−y|61.
Pour tousµ, ν∈ F on définit l’entropie relativede ν par rapport àν, ou divergence de Kullback-Leibler, par
Ent(ν|µ) :=
Z dν
dµlogdν
dµdµ siν ≪µ,
+∞ siν 6≪µ.
L’inégalité de Jensen pour la fonction strictement convexex∈R+ 7→xlog(x) indique que Ent(ν|µ)>0 avec égalité si et seulement si µ=ν.
Théorème A.18(Principe de grandes déviations de Sanov). Soit(Xn)n∈N∗
une suite de v.a. i.i.d. de loi µ, etΨ := Ent(· |µ). Alors la mesure empirique µn:= 1
n Xn k=1
δXk
vérifie, pour tout borélienB deM1, quandn≫1, P(µn∈B)≈exp(−ninf
B Ψ) au sens où
− inf
int(B)Ψ 6 lim
n→∞
logP(µn∈B)
n 6 lim
n→∞
logP(µn∈B)
n 6− inf
adh(B)Ψ oùint(B)etadh(B)sont l’intérieur et l’adhérence de B.
On peut retrouver la LGN exprimée sur les mesures empiriques à partir du théorème A.18 de Sanov en utilisant le lemme de Borel-Cantelli en prenant par exempleAn={ν ∈ M1:dFM(µ, ν)> ε} pourε >0 arbitraire.
Extrêmes
Que devient le TLC si n1(x1+· · ·+xn) est remplacée par max(x1, . . . , xn) ? Théorème A.19 (des extrêmes de Gnedenko-Fréchet-Fisher-Tippet). Si (Xn)n∈N∗ sont des v.a. i.i.d. et s’il existe une suite (an)n∈N∗ dans ]0,∞[ et(bn)n∈N∗ dansRet une loiL telles que
max(X1, . . . , Xn)−bn
an
−→loi n→∞L,
alors soitLest une masse de Dirac, soitLs’obtient par translation et dilation à partir de l’un des trois types de lois dont les fonctions de répartition sont de la forme
1. (Fréchet)F(t) =e−t−a1t∈R+, c >0;
2. (Gumbel)F(t) =e−e−t;
3. (Weibul)F(t) =1t∈R++e−(−t)a1t6∈R+, c >0.
SiF est la fonction de répartition deX1 alors pour toutx∈R, Fn(anx+bn)n−→
→∞L(]− ∞, x]).
Le bassin d’attraction de chacune des trois lois des extrêmes dépend du comportement au bord droit du support de la loi des (Xn)n∈N∗. Exemples :
Loi(Xn) Queue L an bn
Cauchy lourde Fréchetc= 1 n/π 0
Exp(1) légère Gumbel 1 log(n)
Unif([0,1]) nulle Weibullc= 1 1/n 1
Les suites (an)n∈N∗ et (bn)n∈N∗ ne sont pas toujours simples, comme le montre l’exemple de la loi N(0,1) pour lequelLest la loi de Gumbel et
an= 1
p2 log(n) et bn=p
2 log(n)−log(log(n)) + log(4π) 2p
2 log(n) . Espérance conditionnelle
Théorème A.20(Espérance conditionnelle). SiX ∈L1 et G est une sous- tribu deF alors il existe une unique v.a.Y, notéeE(X| G), telle que
— Y ∈L1(G);
— E(Y Z) =E(XZ) pour toute v.a.Z mesurable pour G.
Si de plus X∈L2 alorsY est la projection orthogonale deX sur L2(G).
On noteE(X|Y) :=E(X| G) oùG est la tribu engendrée parY. Théorème A.21(Propriétés de l’espérance conditionnelle).
— X 7→E(X| G) a les propriétés d’une espérance : linéarité, positivité, normalisation, convergence monotone, inégalité de Jensen ;
— E(X| G) =E(X)siX est indépendante de G;
— E(XZ| G) =ZE(X| G)siZ est mesurable pourG;
— E(f(X, Z)| G) =g(Z)oùg(z) :=E(f(X, z)| G)siX est indépendante deG etZ est mesurable pourG;
— E(E(X| G)) =E(X), et plus généralement, siG ⊂ H alors4 E(E(X| G)| H) =E(E(X| H)| G) =E(X| G).
Théorème A.22(Loi conditionnelle). SiX, Y ∈L1 alors pour touty∈R il existe une mesure de probabilitéµy notée égalementLoi(X|Y =y), mesurable en y, telle que pour toute fonction f :R→Rvérifiant f(X)∈L1,
4. La «plus petite gagne», comme pour les projections orthogonales imbriquées.
E(f(X)|Y) = Z
f(x)µY(dx).
Ainsi E(X|Y) =m(Y)oùm(y)est la moyenne deµy, notéeE(X|Y =y).
Soit (Xi)i∈I une famille de variables aléatoires etI1, I2⊂I. On dit que les familles de variables aléatoires XI1 := (Xi)i∈I
1 et XI2 := (Xi)i∈I
2 sont conditionnellement indépendantespar rapport à une tribu Glorsque
E(f1(XI1)f2(XI2)| G) =E(f(XI1)| G)E(f2(XI2)| G)
pour toutes fonctionsf1:RI1→Ret f2:RI2 →Rmesurables et bornées.
Échangeabilité et théorèmes à la de Finetti
Une mesure de probabilité sur un espace produit estéchangeablelorsqu’elle est invariante par toute permutation d’un nombre fini de coordonnées. On dit qu’une suite de variables aléatoires est échangeable lorsque sa loi est échan- geable. L’échangeabilité est un affaiblissement de la notion d’indépendance.
Toute mesure de probabilité produit est échangeable. Tout mélange de mesures de probabilités produit est échangeable. Le théorème de Diaconis- Freedman (respectivement de Hewitt-Savage) fournit une réciproque : si une suite finie (respectivement infinie) est échangeable alors sa loi est proche (respectivement égale) à un mélange de mesures de probabilités produit.
Théorème A.23(Diaconis-Freedman). Si(X1, . . . , Xn)est un vecteur aléa- toire de loiLn échangeable, alors il existe une mesure de probabilitéPn, mélange de mesures de probabilité produit, telle que pour toutk∈ {1, . . . , n}, les lois marginalesLn,k etPn,k de dimension k deLn etPn vérifient
dVT(Ln,k, Pn,k) := sup
A∈F|Ln,k(A)−Pn,k(A)|6 k(k−1) n .
CommedVT(·,·) ∈ [0,1], le théorème A.23 de Diaconis-Freedman n’est utile que lorsquek6√n. D’autre part, pourk= 1, il donneLn,1=Pn,1. Théorème A.24(Hewitt-Savage). Si(Xn)n∈N est une suite de v.a. telle que la loi du vecteur (X0, . . . , Xn)est échangeable pour tout n∈N, alors il existe une tribu G telle que les v.a. (Xn)n∈N sont indépendantes conditionnellement à G : la loi de(Xn)n∈Nest donc un mélange de mesures de probabilité produit.
SiFn est la tribu engendrée par les fonctions mesurables symétriques des variables aléatoiresX0, . . . , Xn, alorsG= limnFn:=∩n>1σ(∪m>nFm).
Le théorème A.24 est attribué à de Finetti lorsque les v.a. sont de Bernoulli.
Théorème A.25 (Loi du zéro-un de Hewitt-Savage). Si (Xn)n∈N est une suite de v.a. i.i.d. et si A ∈ σ(X0, X1, . . .) est un événement invariant par toute permutation des indices à support fini, alorsP(A)∈ {0,1}.
A.3 Martingales
Cette section est consacrée aux martingales à temps discret.
Sous-martingales, martingales, et sur-martingales
Unefiltration(Fn)n∈Nest une famille croissante de sous-tribus deF, c’est- à-dire queFn est une tribu surΩ etFn ⊂ Fn+1⊂ F pour tout n∈N. Un processus à temps discret (suite de variables aléatoires) (Xn)n∈N estadapté à une filtration (Fn)n∈NlorsqueXn est mesurable pourFn pour toutn∈N. La filtration naturelled’un processus (Xn)n∈Nest la plus petite filtration adaptée, donnée parFn=σ(X0, . . . , Xn) pour toutn∈N.
Si (Mn)n∈N est un processus adapté à une filtration (Fn)n∈N et vérifie Mn∈L1 pour toutn∈N, alors on dit que (Mn)n∈Nest une. . .
— martingale lorsque toutn∈N
E(Mn+1−Mn| Fn) = 0,
et ceci implique une constance en moyenne :E(Mn) =E(M0) pour tout n∈N(à comprendre comme une loi de conservation) ;
— sous-martingalesi pour toutn∈N
E(Mn+1−Mn| Fn)>0,
et ceci implique une croissance en moyenne :E(Mn+1)>E(Mn) pour toutn∈N(resteen-dessous de la limite possible) ;
— sur-martingale si pour toutn∈N
E(Mn+1−Mn| Fn)60,
et ceci implique une décroissance en moyenne :E(Mn+1)6E(Mn) pour toutn∈N(resteau-dessusde la limite possible).
Notons queM est une sous-martingale ssi−M est une sur-martingale, et queM est une martingale ssiM est une sous-martingale et une sur-martingale.
SiΦ:R→Rest convexe et siM = (Mn)n∈N est une martingale pour la filtration (Fn)n∈N, telle queΦ(Mn)∈L1pour toutn∈N, alors (Φ(Mn))n∈N
est une sous-martingale pour (Fn)n∈N(inégalité de Jensen !). En particulier (|Mn|)n∈N est une sous-martingale, ainsi que (Mn2)n∈NlorsqueM estde carré intégrablec’est-à-dire lorsqueMn∈L2 pour toutn∈N.
Par définition, une martingale de carré intégrable est une somme de v.a.r.
conditionnellement orthogonales. Cette structure, inspirée par les sommes de v.a.r. indépendantes, est généralisée par les martingales au cadreL1.
Temps d’arrêt et théorème d’arrêt
Une variable aléatoireT à valeurs dans{0,1,2, . . .} ∪ {∞} est untemps d’arrêt pour une filtration (Fn)n∈N lorsque pour tout n ∈ N, l’événement {T 6n} ∈ Fn, ou de manière équivalente, pour toutn∈N,{T =n} ∈ Fn. Un exemple typique de temps d’arrêt est le temps d’atteinte
τA:= inf{n∈N:Xn∈A}
d’un borélienAdeRpar un processus (Xn)n∈Nadapté pour (Fn)n∈N. Un événementA∈ F estantérieur àT lorsqueA∩ {T =n} ∈ Fn pour tout n ∈ N. La tribu FT engendrée par les événements antérieurs à T est appeléetribu d’arrêt associée àT. Le temps d’arrêtT est mesurable pour sa tribu d’arrêtFT. Si S etT sont des temps d’arrêt avecS6T alors FS ⊂ FT. Théorème A.26(d’arrêt de Doob). Si(Mn)n∈N etT sont une martingale et un temps d’arrêt pour (Fn)n∈N, alors leprocessus arrêté (MT∧n)n∈N est une martingale pour(Fn)n∈N. En particulier, pour tout n∈N,
E(MT∧n) =E(M0).
En outreE(MT) =E(M0)dès que l’une des propriétés suivantes est vérifiée :
— T est borné c’est-à-dire que T 6cpour une constante c>0;
— P(T <∞) = 1etM est uniformément intégrable ;
— E(T)<∞ etM est à accroissements bornés : sup
n∈NkMn+1−Mnk∞<∞.
Dans la pratique, on invoque souvent directement le théorème de conver- gence monotone ou le théorème de convergence dominée pour obtenir que E(MT) =E(M0) à partir deE(Mn∧T) =E(M0). Par ailleurs, des propriétés analogues ont lieu pour les sous-martingales (appliquer le lemme de Fatou !).
Inégalité maximale pour les sous-martingales
Un processusX = (Xn)n∈N estpositif lorsqueXn >0 pour toutn∈N. Théorème A.27 (Inégalité maximale de Doob). Si M = (Mn)n∈N est une sous-martingale positive bornée dans Lp avec p > 1, alors pour tout n>0, la norme Lp du maximum deM sur[0, n]∩Nest majorée, à une constante universelle près qui ne dépend que dep, par la normeLp au temps terminal :
Emax
06k6nMk
p 6
p p−1
p
E(|Mn|p).
En particulier, pour tout réel r >0, P
max
06k6nMk
>r
6
p p−1
pE(|Mn|p) rp .
Dans le très courant cas hilbertienp= 2, on trouve (p/(p−1))p= 4.
Théorèmes de convergence des martingales
En analyse, une suite croissante et majorée, ou décroissante et minorée, est convergente. Un analogue de ce phénomène a lieu pour les martingales.
Théorème A.28(de Doob sur les sous-martingales bornées dansL1). Si une sous-martingaleM = (Mn)n∈N a sa partie positive bornée dansL1 :
sup
n∈N
E(max(0, Mn))<∞,
alors il existe une variable aléatoire notéeM∞∈L1telle que presque sûrement
nlim→∞Mn=M∞.
En particulier, toute martingale positive, toute sous-martingale majorée par une constante, ainsi que toute sur-martingale minorée par une constante, converge presque sûrement vers une variable aléatoire intégrable.
Notons queP(M∞<∞) = 1 carM∞∈L1. Attention, la convergence de M versM∞ n’a pas forcément lieu dansL1. Le lemme de Scheffé affirme que la convergence a lieu dansL1si et seulement si limn→∞E(|M0|) =E(|M∞|), condition qui se réduit à E(M0) = E(M∞) lorsque M est une martingale positive ! Plus généralement, une martingale bornée dansL1converge dans L1 si et seulement si elle est uniformément intégrable.
Théorème A.29(Convergence des martingales bornées dansLp,p >1). Si M = (Mn)n∈N est une martingale bornée dansLp avecp >1, alors il existe une variable aléatoire M∞∈Lp telle que presque sûrement et dansLp
nlim→∞Mn=M∞.
De plus, si(Fn)n∈N est la filtration deM alors, pour toutn∈N, Mn=E(M∞| Fn).
Le théorème A.29 est souvent utilisé dans le cas hilbertienp= 2. D’autre part, la convergenceMn→M∞ dansLp entraîne queE(Mn) =E(M∞) pour tout n∈Net que limn→∞E(|Mn|r) =E(|M∞|r) pour toutq∈[1, p].
Corollaire A.30. Soit(Xn)n∈N∗ des v.a.r. indépendantes et centrées.
1. SiP
n∈N∗E(Xn2)<∞alorsP
n∈N∗Xn converge presque sûrement ; 2. SiP
n∈N∗
1
n2E(Xn2)<∞ alors n1Pn k=1Xk
−→p.s.
n→∞0.
Le second résultat du corollaire peut se déduire du premier grâce au lemme de Kronecker : si (bn)n∈N∗ est une suite de ]0,∞[ croissante qui tend vers +∞ et si P
n∈N∗xn est une série convergente, alors
nlim→∞
1 bn
Xn k=1
bkxk = 0.
Par une transformation d’Abel, le lemme de Kronecker se déduit du lemme de Toeplitz : si (an)n∈N∗ est une suite de ]0,∞[ avec P
n∈N∗an =∞ et si (xn)n∈N∗ est une suite de réels telle que limn→∞xn=ℓ∈Ralors
nlim→∞
Pn k=1akxk
Pn k=1ak
=ℓ.
On retrouve le lemme de Cesàro lorsque (an)n∈N∗ est constante.
Décomposition de Doob, LGN, TLC
Cette section est consacrée aux martingales de carré intégrable, ainsi qu’à des théorèmes limite (loi des grands nombres et théorème limite central).
On dit qu’une martingale (Mn)n∈Nest unemartingale de carré intégrable lorsqueMn ∈L2 pour toutn∈N. Dans ce cas, l’inégalité de Jensen indique que (Mn2)n∈Nest une sous-martingale.
Théorème A.31(Décomposition de Doob). Si M = (Mn)n∈N est une mar- tingale pour la filtration (Fn)n∈N, de carré intégrable, alors
— le processus (hMin)n∈Ndéfini par hMi0:= 0 puis pour tout n∈Npar hMin+1:=hMin+E((Mn+1−Mn)2| Fn),
est positif, croissant, et prévisible5;
— le processus (Mn2− hMin)n∈Nest une martingale pour (Fn)n∈N;
— la martingale(Mn)n∈N est bornée dansL2 ssihMi∞∈L1 où hMi∞:= lim
n→∞hMin =X
n∈N
E((Mn+1−Mn)2| Fn).
Le processus (hMin)n∈N est appelé compensateur de la sous-martingale (Mn2)n∈Nouprocessuss croissantde la martingale de carré intégrable (Mn)n∈N.
La formuleMn2= (Mn2−hMin)+hMinpour toutn∈Nest ladécomposition de Doob de la sous-martingale (Mn2)n∈Nen somme d’une martingale et d’un processus positif, croissant, et prévisible. Ce type de décomposition reste valable en général pour les sous-martingales. Cette décomposition est remarquablement explicite dans le cas des carrés de martingales de carré intégrable.
Théorème A.32 (Loi des grands nombres pour les martingales L2). Si (Mn)n∈N est une martingale de carré intégrable alors
1. sur {hMi∞<∞}, lim
n→∞Mn=M∞ presque sûrement, oùM∞∈L2; 5. C’est-à-dire quehMin+1est mesurable pourFnpour toutn∈N.
2. sur {hMi∞=∞}, lim
n→∞
Mn
hMin
= 0 presque sûrement.
Théorème A.33 (Théorème limite central pour les martingales L2). Si (Mn)n∈N est une martingale de carré intégrable, et si(an)n∈N est une suite de de réels strictement positifs, croissante et tendant vers ∞, vérifiant :
1. (convergence du crochet) il existe un réel ℓ>0 tel que hMin
an
−→P n→∞ℓ; 2. (condition de Lindeberg) pour tout ε >0
1 an
Xn k=1
E((Mk−Mk−1)21{|Mk−Mk−1|>ε√an}| Fk−1)n−→P
→∞0; alors6
Mn
√an
−→loi
n→∞N(0, ℓ), et √an
Mn
hMin
−→loi
n→∞N(0, ℓ−1) (siℓ >0).
A.4 Chaînes de Markov
Cette section est consacrée aux chaînes de Markov à temps discret et à espace d’états fini ou infini dénombrable.
Dans toute cette sectionE désigne un ensemble fini ou infini dénombrable.
Noyau de transition et récurrence aléatoire
Unnoyau de transition7 surE est une applicationP:E×E→[0,1] telle que P
y∈EP(x, y) = 1 pour tout x∈E. Unechaîne de Markov de noyaux de transition (Pn)n∈N et deloi initiale µ0 est un processus X = (Xn)n∈N à valeurs dansE tel queX0∼µ0 et, pour toutn∈Net tousx0, . . . , xn ∈E,
P(X0=x0, . . . , Xn=xn) =µ0(x0)
n−Y1 k=0
Pk(xk, xk+1).
La formule précédente montre que la loi de la chaîne (sur les trajectoires) est entièrement caractérisée par la loi initiale et les noyaux de transition. En identifiant les mesures à des vecteurs lignes et les noyaux à des matrices, la formule s’écrit de manière condenséeXn∼µ0P1· · ·Pn pour toutn∈N. On dit queE est l’espace d’étatsde la chaîne. La chaîne esthomogène siPn ne dépend pas den, etinhomogènedans le cas contraire. Sauf mention explicite du contraire, les chaînes considérées par la suite sont toutes homogènes.
À un noyau de transition Psur E on peut associer un graphe complet orienté dont l’ensemble des arêtes estE et dans lequel l’arête (x, y) porte le poidsP(x, y) pour tousx, y∈E. On parle degraphe des transitions.
6. La seconde convergence se déduit de la première et du lemme de Slutsky.
7. Ou encorematrice de transition,matrice markovienne, oumatrice stochastique.
Théorème A.34(Chaîne de Markov⇔Suite récurrente aléatoire). Soitµ0
une loi sur E et(Un)n∈N∗ une suite de v.a.r. i.i.d. de loi uniforme sur[0,1].
— Soit X0∼µ0 et soitf :E×[0,1]→E une fonction quelconque. Alors la suite récurrente aléatoire8 9 (Xn)n∈Ndéfinie par
Xn+1=f(Xn, Un+1), n∈N,
est une chaîne de Markov d’espace d’étatsE, de loi initiale µ0, et de noyau de transitionP(x, y) :=P(f(x, U1) =y);
— Réciproquement, soitPun noyau de transition surE. Pour toutx∈E, considérons une partition[0,1] =∪y∈EIx,y de l’intervalle [0,1]telle que
P(U1∈Ix,y) =|Ix,y|=P(x, y), x, y∈E.
Soitf :E×[0,1]7→E définie pour tous x, y∈E etu∈Ix,y par f(x, u) :=y.
Alors la suite récurrente aléatoire(Xn)n∈N définie parX0∼µ0 et Xn+1=f(Xn, Un+1), n∈N,
est une chaîne de Markov de loi initialeµ0 et de noyauP.
La structure de récurrence aléatoire est facile à repérer en général dans les modèles stochastiques, et indique donc la présence d’une chaîne de Markov.
Formulation matricielle et équation d’évolution
Un noyau de transition est une matrice qui opère à gauche sur les mesures vues comme des vecteurs ligne, et à droite sur les fonctions vues comme des vecteurs colonne. SiX = (Xn)n∈N est une chaîne de Markov surEde noyau Pet de loi initialeµ0, alors, pour toute fonctionf :E→R, on a
E(f(X1)) =E(E(f(X1)|X0))
=X
x∈E
µ0(x)X
y∈E
P(x, y)f(y)
= X
x,y∈E
µ0(x)P(x, y)f(y)
=µ0Pf.
PosonsP0 :=IoùIest la matrice identité définie par I(x, y) =1x=y pour tousx, y∈E. Pour toutn∈N, on notePn le noyau de transition obtenu par produit matriciel, défini parP0=Iet pour tout n∈N∗et tousx, y∈Epar
8. C’est aussi un processus autorégressif non-linéaire d’ordre 1.
9. C’est aussi un système dynamique avec bruit.
Pn(x, y) :=X
x
P(x1, x2)· · ·P(xn, xn+1),
où la somme porte sur les chemins (x1, . . . , xn+1) dansEd’extrémitésx1:=x etxn+1:=y. La suite de noyaux (Pn)n∈N est un semi-groupe pour le produit matriciel. On dit qu’il s’agit d’un semi-groupe de Markov à temps discret.
De plus, pour toutn∈N, siµn désigne la loi deXn, alors :
— la suite (µn)n∈Nvérifie la relation de récurrence linéaire, appelée équa- tion d’évolution de Chapman-Kolmogorov, suivante :
µn+1=µnP=µ0Pn+1, n∈N;
— pour tousx, y∈E et toutn∈N,
P(Xn=y|X0=x) =Pn(x, y) ;
— pour toute fonctionf :E→Ret toutn∈N, E(f(Xn)|X0=x) = (Pnf)(x) ;
— pour toute fonctionf :E→Ret toutn∈N, E(f(Xn) =µnf =µ0Pnf =µ0Pnf.
Propriété de Markov
Conditionnellement au présent, passé et futur sont indépendants : Théorème A.35(Propriété de Markov). Soit X = (Xn)n∈N une chaîne de Markov de noyauP, et soit (Fn)n∈N la filtration naturelle deX. Soitx∈E.
— Propriété de Markov faible.Pour toutm∈N, et conditionnellement à {Xm=x}, la suite(Xm+n)n∈Nest une chaîne de Markov de loi initiale δxet de noyau P, indépendante deFm;
— Propriété de Markov forte. Pour tout temps d’arrêtτ pourF, et condi- tionnellement à{τ <∞, Xτ=x}, la suite (Xτ+n)n∈N est une chaîne de Markov de loi initialeδx et de noyau P, indépendante de Fτ. La propriété de Markov faible se déduit de la forte en prenantτ=m.
Récurrence, transience, et irréductibilité
SoitX= (Xn)n∈Nune chaîne de Markov surE de noyauP, etF ⊂E. Le temps de premier passageenF et letemps d’atteintedeF sont définis par
TF = inf{n∈N∗:Xn∈F} et τF = inf{n∈N:Xn ∈F}.
Ces variables prennent leurs valeurs dans{1,2, . . .}∪{∞}et{0,1,2, . . .}∪{∞}
respectivement. Ce sont des temps d’arrêt pour la filtration naturelle deX.
Elles sont égales sur{X06∈F}. Sur{X0∈F}, la variableTF est également le temps de retour enF. Lenombre de passages enF est défini par
NF :=X
n∈N
1{Xn=x}.
Pour tout x∈E, on notePx :=P(· |X0=x) etEx :=E(· |X0 =x), et on abrège T{x}, τ{x}, N{x}enTx, τx, Nx.
Théorème A.36(Dichotomie). Pour toutx∈E, deux cas sont possibles :
xrécurrent xtransitoire
Px(Tx<∞) = 1 Px(Tx<∞)<1 Px(Nx=∞) = 1 Px(Nx=∞) = 0 Ex(Nx) =P∞
n=0Pn(x, x) =∞ Ex(Nx) =P∞
n=0Pn(x, x)<∞ SiPest un noyau de transition surE alors :
— Communication.Pour tous x, y∈E, on dit que xconduit ày, et on notex→y s’il existe n∈N tel quePn(x, y)>0 ; on dit que xety communiquent, et on notex↔y six=y ou si à la foisx→y ety→x.
La relation binaire↔est une relation d’équivalence qui partitionneE en classes d’équivalence appeléesclasses de communication.
— Irréductibilité.On dit quePou par extensionX estirréductiblelorsqu’il existe une unique classe de communication, qui couvre donc E tout entier (tous les états communiquent entre eux).
— Ensemble clos.Un ensembleF ⊂E estcloslorsque la chaîne ne s’en échappe pas : P(x, F) = 1 pour tout x ∈ F. Un état x ∈ E est ditabsorbant lorsque {x} est clos, c’est-à-dire queP(x, x) = 1. Tout ensemble clos est réunion de classes de communication closes.
Théorème A.37(Communication). Le caractère transitoire ou récurrent est constant sur les classes de communication : on parle de classes de récurrence (ou classes récurrentes) et de classes transitoires. Toute classe de récurrence est close, et toute classe close finie est une classe de récurrence.
Les ensembles clos comme par exemple les classes de récurrence sont absorbants. Presque sûrement, une chaîne partant d’un état récurrent repasse une infinité de fois par son état initial, ne s’échappe jamais de sa classe de récurrence, et visite une infinité de fois tous les états qui constituent cette classe de récurrence. Le cas des états absorbants est singulier puisque leur classe de récurrence est réduite à eux-mêmes. Presque sûrement, une chaîne partant d’un état transitoire ne peut repasser qu’un nombre fini de fois par son état initial, et peut être capturée par une classe de récurrence ou visiter d’autres états transitoires (un nombre fini de fois pour chacun). L’ensemble des états transitoires peut être infini, et la chaîne peut ne jamais être capturée par une classe de récurrence (c’est toujours le cas lorsqu’il n’y a pas d’état récurrent). Contrairement aux classes de récurrence, les classes transitoires peuvent ne pas être closes. Des passages (à sens unique) peuvent exister entre