Rappels de probabilités

(1)

Rappels de probabilités

Ce document est un complément au livre [CM15]. Il regroupe des éléments sur l’intégration, les martingales, les chaînes de Markov, et le calcul stochastique.

Le contenu est inspiré en partie du livre [BC07]. Les démonstrations sont omises.

A.1 Propriétés élémentaires

Si (An)_n_∈N est une suite d’événements alors

limn An:=∩ⁿ∪^m>nAm={ω∈Ω:ω∈An pour une inﬁnité de valeurs de n}, et

lim

n

An:=∪ⁿ∩^m>nAm={ω∈Ω:ω∈An à partir d’un certain rang surn}. On a

limn A^c_n = (lim

n

An)^c et lim

n

A^c_n= (lim

n An)^c, et

1_lim_n_A_n = lim

n 1An et 1lim_nAn = lim

n 1An.

Lemme A.1 (Borel-Cantelli). Soit(A_n)_n_∈Nest une famille d’événements.

— (Cantelli) Si P

n∈NP(A_n)<∞alorsP(lim_nAn) = 0;

— (Loi du zéro-un de Borel) Si les (A_n)_n∈N sont indépendants alors P(lim_nAn)∈ {0,1} etP(lim_nAn) = 0ssiP

n∈NP(A_n)<∞.

Lemme A.2 (Loi du zéro-un de Kolmogorov). Si (Fn)_n>1 est une suite de tribus indépendantes alors

P(A)∈ {0,1} pour toutA∈lim

n Fⁿ :=∩^n>1σ(∪^m>nF^m).

(2)

On dit que lim_nFn est la tribuaymptotiqueou tribu terminale¹.

Théorème A.3 (Inégalités de Markov et de Tchebychev). Si X est une variable aléatoire positive et si Y est une v.a. dans L², alors pour tout réel r >0, l’inégalité de Markov et l’inégalité de Tchebychev s’écrivent

P(X>r)6 E(X)

r et P(|Y −E(Y)|>r)6 Var(Y) r² . Il est temps d’introduire les deux notions de convergence suivantes :

— On dit qu’une suite (Xn)_n_∈Nde variables aléatoires convergepresque sûrement («p.s.») vers une variable aléatoire X_∞ lorsque

P( lim

n→∞Xn=X_∞) = 1, et on note

Xn

−→p.s.

n→∞X_∞.

— On dit qu’une suite (Xn)_n_∈Nde variables aléatoires convergeen proba- bilité vers une variable aléatoireX_∞ lorsque

∀ε >0, lim

n→∞P(|Xn−X_∞|>ε) = 0, et on note

Xn

−→P n→∞X_∞.

Lemme A.4 (Lemme de Fatou). Si(Xn)_n∈N est une suite de variables aléa- toires positives alorsE(lim_n_→∞Xn)6lim_n_→∞E(Xn).

Théorème A.5 (Convergence monotone). Si (Xn)_n_∈N est une suite crois- sante de v.a. positives alors limn→∞E(Xn) = E(limn→∞Xn) dans R₊. En particulierlimn→∞Xn∈L¹ ssilimn→∞E(Xn) = sup_n∈NE(Xn)<∞. Théorème A.6 (Convergence dominée). Si (Xn)_n_∈N et X_∞ sont des v.a.

avec Xn

−→P

n→∞X_∞ etsup_n_∈N|Xn| ∈L¹ alorsX_∞∈L¹ etXn L¹ n→∞−→ X_∞. En pratique, le théorème de convergence dominée est utilisé quand on a Xn→X_∞ presque sûrement, et on recherche une variable aléatoire Y ∈L¹ telle que|Xn|6Y pour toutn∈Npour assurer que sup_n_∈N|Xn| ∈L¹. Théorème A.7 (Intégrabilité uniforme). Pour toute famille de variables aléatoires intégrables(Xi)_i_∈_I ⊂L¹, les propriétés suivantes sont équivalentes :

1. Intégrabilité uniforme :limx→∞sup_i_∈_IE(|Xi|1_{|Xi|>x}) = 0;

2. Critère epsilon-delta : la famille est bornée dans L¹, c’est-à-dire que sup_i_∈_IE(|Xi|)<∞, et de plus, pour toutε >0, il existe unδ >0tel que pour tout événementA, siP(A)6δalorssup_i_∈_IE(|Xi|1A)6ε; 1. «Tail sigma field» en anglais.

(3)

3. Critère de de la Vallée Poussin : il existeϕ:R₊→R₊ convexe avec

x→∞lim ϕ(x)

x =∞ et sup

i∈I

E(ϕ(|Xi|))<∞;

4. Critère de Dunford-Pettis : l’ensemble (Xi)_i_∈_I est (aussi séquentielle- ment) relativement compact dans L¹ pour la topologie faibleσ(L¹, L^∞).

Les parties ﬁnies deL¹ sont toutes uniformément intégrables. SiX∈L¹ alors le critère de de la Vallée Poussin pour le singleton {X} ⊂ L¹ donne ϕ(X)∈L¹ pourϕconvexe et sur-linéaire qui dépend deX. Pour comprendre ce phénomène, au cœur de la notion d’intégrabilité uniforme, on peut penser à la condition de sommabilité des séries de Riemman, qui est ouverte.

Le critère de de la Vallée Poussin entraîne que si (Xi)_i∈I est bornée dansL^p avec p > 1, c’est-à-dire que sup_i∈IE(|Xi|^p)<∞, alors (Xi)_i∈I est uniformément intégrable. On prendra garde à ne pas confondre la bornitude dansL^p avec la condition de domination sup_i∈I|Xi| ∈L^p, qui est plus forte.

L’intégrabilité uniforme remplace avantageusement la condition de domination du théorème de convergence dominée. Si (Xn)_n_∈N et X_∞ sont des variables aléatoires dansL¹ alors limn→∞Xn=X_∞ dansL¹ si et seulement si limn→∞Xn=X en probabilité et (Xn)_n_∈Nest uniformément intégrable.

Convergence en loi

SoitLune loi de probabilité de fonction de répartitionF_∞, et soitX_∞une variable aléatoire de loiL. On dit qu’une suite (Xn)_n_∈Nde variables aléatoires convergeen loi versL, et on note

Xn

−→loi n→∞L

lorsque lim_n→∞E(f(X_n)) =E(f(X_∞)) pour toutf ∈ F pour une classe de fonctionsF parmi les classes suivantes :

— (fonctions continues et bornées)F=C^b;

— (fonction caractéristique)F={x7→e^itx:t∈R};

— (fonction de répartition)F={1^]−∞,x]:xpoint de continuité deF_∞}. Théorème A.8(Lien entre les notions de convergence).

CVL^p>1

⇓ CVL¹

⇓³

CV p.s.⇒² CV en P ⇒¹CV en loi

La réciproque dans 1a lieu lorsque la limite est constante, dans2le long de sous-suites, et dans3 si la suite est uniformément intégrable.

(4)

Lafonction caractéristique d’une variable aléatoireX est déﬁnie parϕX: t∈R7→ϕX(t) :=E(e^itx)∈C. Elle ne dépend que de la loi deX.

Théorème A.9(Fonctions caractéristique).

— (Caractérisation) Pour toutes v.a.X etY on aϕX=ϕY ssiX ^loi=Y ;

— (Paul Lévy) Si(Xn)_n_∈N sont des v.a. telles quelimn→∞ϕXn(t) =ϕ(t) pour tout t ∈ R, avec t ∈R 7→ ϕ(t) ∈C continue en 0, alors ϕ est continue sur R, il existe une variable aléatoire X_∞ telle queϕX =ϕ, et(X_n)_n_∈Nconverge en loi vers la loi deX_∞;

— (Bochner) Une fonction continue ϕ:R→Cest la fonction caractéris- tique d’une v.a. ssi ϕ(0) = 1 et ϕest déﬁnie positive c’est-à-dire que pour toutn>1, toust1, . . . , tn∈R, et toutc∈Cⁿ,

Xn j=1

Xn k=1

cjϕ(t_j−tk)c_k>0.

Lemme A.10 (Slutsky). Si(Xn)_n∈Net(Yn)_n∈N sont des suites de v.a. avec Xn

−→loi

n→∞X_∞ et Yn

−→loi n→∞c oùc est une constante, alors

(Xn, Yn)_n→∞−→^loi Loi(X_∞, c).

et en particulier, pour toute fonction continuef :R×R→R, on a f(X_n, Yn) −→^loi

n→∞Loi(f(X_∞, c)).

A.2 Théorèmes limites classiques

Théorème A.11(Loi des grands nombres (LGN)). Si(X_n)_n_∈N sont des v.a.

i.i.d. intégrables de moyennem, alors X1+· · ·+Xn

n

−→p.s.

n→∞m.

Théorème A.12 (Loi du logarithme itéré de Strassen (LLI)). Si (Xn)_n∈N

sont i.i.d. de carré intégrable, de moyenne met de variance σ², alors p.s.

lim

n→∞

X1+· · ·+Xn−nm

p2nlog(log(n)) =−σ et lim

n→∞

X1+· · ·+Xn−nm p2nlog(log(n)) = +σ.

La loi du logarithme itéré se situe entre LGN et TLC.

(5)

Théorème A.13(Théorème limite central (TLC)). Si(X_n)_n∈N sont des v.a.

i.i.d. de carré intégrable, de moyennem et de variance σ² alors

√n

X1+· · ·+Xn

n −m

=X1−m+· · ·+Xn−m

√n

−→loi

n→∞N(0, σ²).

Le TLC entraîne la LGN faible (convergence enP) par le lemme de Slutsky.

Théorème A.14 (Berry-Esseen (vitesse dans TLC)). Si (Xn)_n∈N∗ est une suite de v.a. i.i.d. dans L³ de moyenne met de varianceσ², alors, en notant τ³:=E(|X−m|³), on a, pour toutn>1,

sup

t∈R

P

X1−m+· · ·+Xn−m

√nσ 6t

− Z t

−∞

e⁻^x²²

√2π dx 6 τ³

√nσ³. Le théorème A.14 de Berry-Esseen donne une majoration de la vitesse de convergence en loi du TLC, au niveau des fonctions de répartition.

LGN et TLC uniformes

Théorème A.15(Glivenko-Cantelli (LGN uniforme)). Si(Xn)_n_∈Nsont des v.a. i.i.d. de fonction de répartition commune F, et si, pour tout n>1, Fn

est la fonction de répartition de la mesure empirique ¹_nPn

k=1δXk, alors kFn−Fk_∞ −→^p.s.

n→∞0.

Théorème A.16(Kolmogorov-Smirnov (TLC uniforme)). Si (Xn)_n_∈N sont des v.a. i.i.d. de fonction de répartitionF continue, et si pour toutn>1,Fn

désigne la fonction de répartition de la mesure empirique _n¹Pn

k=1δXk, alors pour toutn>1, la loi dekFn−Fk_∞ est libre (elle ne dépend pas de F), et

√nkFn−Fk_∞ −→^loi

n→∞KS

où KS est la loi de Kolmogorov-Smirnov, qui est la loi de sup_t_∈_[0,1]|Pt| où (P_t)_t_∈_[0,1] est le pont brownien(P_t)_t_∈_[0,1]:= (B_t−tB1)_t_∈_[0,1] où(B_t)_t_∈R₊ est un mouvement brownien standard. EnﬁnKSa pour fonction de répartition

KS(]− ∞, t]) = 1 + 2 X∞ k=1

(−1)^ke⁻^2k²^t², t >0.

Le théorème A.16 de Kolmogorov-Smirnov est au théorème A.15 de Glivenko-Cantelli ce que le TLC est à la LGN.

(6)

Principes de grandes déviations

Les principes de grandes déviations (PGD)² sont des raﬃnements asymp- totiques de la LGN, qui ne sont pas de même nature que le TLC.

Théorème A.17(Principe de grandes déviations de Cramér). Soit(Xn)_n_∈N

une suite de v.a. i.i.d. de moyennem, telles que la transformée de Laplace de leur loi communet∈R7→L(t) :=E(e^tX¹)∈[0,∞] est ﬁnie sur un voisinage de l’origine. SoitΨ la transformée de Legendre delog(L), donnée par

Ψ(θ) := sup

t∈R

(tθ−log(L(t))), θ∈R.

AlorsΨ prend ses valeurs dansR₊, est semi-continue inférieurement, convexe, décroissante sur ]− ∞, m], nulle enm, croissante sur [m,∞[. De plus, si

Sn:= X1+· · ·+Xn

n alors pour tout borélienB⊂R, quandn≫1,

P(S_n∈B)≈exp(−ninf

B Ψ),

au sens où en notant int(B)etadh(B)l’intérieur et l’adhérence deB,

− inf

int(B)Ψ 6 lim

n→∞

logP(S_n∈B)

n 6 lim

n→∞

logP(S_n ∈B)

n 6− inf

adh(B)Ψ.

Il est possible de retrouver la LGN à partir du théorème A.17 de Cramér en utilisant le lemme de Borel-Cantelli. La fonction Ψ qui intervient dans le théorème A.17 est appelée transformées de Cramér. En voici quelques exemples :

Loi(Xn) Ψ {θ∈R:Ψ(θ)<∞}

Ber(p) θlog ^θ_p

+ (1−θ) log ¹₁⁻₋^θ_p

[0, p]

Poi(λ) λ−θ+θlog ^θ_λ

[0,∞[

Exp(λ) λθ−1−log(λθ) ]0,∞[

N(m, σ²) ^(θ⁻_2σ^m)2 ² R

SoitM¹l’ensemble des mesures de probabilités surRéquipé de la topologie de la convergence étroite, qui est la convergence faible par rapport aux fonctions test continues et bornées. Cette topologie est métrisable par la distance de Fortet-Mourier³déﬁnie pour tousµ, ν ∈ M¹par

dFM(µ, ν) := sup

f

Z

f dµ− Z

f dν 2. «Large Deviations Principles (LDP)» en anglais.

3. «Bounded-Lipschitz distance» en anglais.

(7)

où le supremum porte sur l’ensemble des fonctions testf continues telles que kfk_∞:= sup_x|f(x)|61 etkfk^Lip := sup_x₆_=y|f(x)−f(y)|/|x−y|61.

Pour tousµ, ν∈ F on déﬁnit l’entropie relativede ν par rapport àν, ou divergence de Kullback-Leibler, par

Ent(ν|µ) :=



 Z dν

dµlogdν

dµdµ siν ≪µ,

+∞ siν 6≪µ.

L’inégalité de Jensen pour la fonction strictement convexex∈R₊ 7→xlog(x) indique que Ent(ν|µ)>0 avec égalité si et seulement si µ=ν.

Théorème A.18(Principe de grandes déviations de Sanov). Soit(Xn)_n∈N∗

une suite de v.a. i.i.d. de loi µ, etΨ := Ent(· |µ). Alors la mesure empirique µn:= 1

n Xn k=1

δXk

vériﬁe, pour tout borélienB deM¹, quandn≫1, P(µ_n∈B)≈exp(−ninf

B Ψ) au sens où

− inf

int(B)Ψ 6 lim

n→∞

logP(µn∈B)

n 6 lim

n→∞

logP(µn∈B)

n 6− inf

adh(B)Ψ oùint(B)etadh(B)sont l’intérieur et l’adhérence de B.

On peut retrouver la LGN exprimée sur les mesures empiriques à partir du théorème A.18 de Sanov en utilisant le lemme de Borel-Cantelli en prenant par exempleAn={ν ∈ M¹:dFM(µ, ν)> ε} pourε >0 arbitraire.

Extrêmes

Que devient le TLC si _n¹(x1+· · ·+xn) est remplacée par max(x1, . . . , xn) ? Théorème A.19 (des extrêmes de Gnedenko-Fréchet-Fisher-Tippet). Si (Xn)_n∈N∗ sont des v.a. i.i.d. et s’il existe une suite (an)_n∈N∗ dans ]0,∞[ et(bn)_n∈N∗ dansRet une loiL telles que

max(X1, . . . , Xn)−bn

an

−→loi n→∞L,

alors soitLest une masse de Dirac, soitLs’obtient par translation et dilation à partir de l’un des trois types de lois dont les fonctions de répartition sont de la forme

1. (Fréchet)F(t) =e⁻^t⁻^a1t∈R₊, c >0;

(8)

2. (Gumbel)F(t) =e⁻^e⁻^t;

3. (Weibul)F(t) =1t∈R₊+e⁻⁽^−t)^a1t6∈R₊, c >0.

SiF est la fonction de répartition deX1 alors pour toutx∈R, Fⁿ(anx+bn)_n−→

→∞L(]− ∞, x]).

Le bassin d’attraction de chacune des trois lois des extrêmes dépend du comportement au bord droit du support de la loi des (Xn)_n∈N∗. Exemples :

Loi(X_n) Queue L an bn

Cauchy lourde Fréchetc= 1 n/π 0

Exp(1) légère Gumbel 1 log(n)

Unif([0,1]) nulle Weibullc= 1 1/n 1

Les suites (an)_n∈N∗ et (bn)_n∈N∗ ne sont pas toujours simples, comme le montre l’exemple de la loi N(0,1) pour lequelLest la loi de Gumbel et

an= 1

p2 log(n) et bn=p

2 log(n)−log(log(n)) + log(4π) 2p

2 log(n) . Espérance conditionnelle

Théorème A.20(Espérance conditionnelle). SiX ∈L¹ et G est une sous- tribu deF alors il existe une unique v.a.Y, notéeE(X| G), telle que

— Y ∈L¹(G);

— E(Y Z) =E(XZ) pour toute v.a.Z mesurable pour G.

Si de plus X∈L² alorsY est la projection orthogonale deX sur L²(G).

On noteE(X|Y) :=E(X| G) oùG est la tribu engendrée parY. Théorème A.21(Propriétés de l’espérance conditionnelle).

— X 7→E(X| G) a les propriétés d’une espérance : linéarité, positivité, normalisation, convergence monotone, inégalité de Jensen ;

— E(X| G) =E(X)siX est indépendante de G;

— E(XZ| G) =ZE(X| G)siZ est mesurable pourG;

— E(f(X, Z)| G) =g(Z)oùg(z) :=E(f(X, z)| G)siX est indépendante deG etZ est mesurable pourG;

— E(E(X| G)) =E(X), et plus généralement, siG ⊂ H alors⁴ E(E(X| G)| H) =E(E(X| H)| G) =E(X| G).

Théorème A.22(Loi conditionnelle). SiX, Y ∈L¹ alors pour touty∈R il existe une mesure de probabilitéµy notée égalementLoi(X|Y =y), mesurable en y, telle que pour toute fonction f :R→Rvériﬁant f(X)∈L¹,

4. La «plus petite gagne», comme pour les projections orthogonales imbriquées.

(9)

E(f(X)|Y) = Z

f(x)µY(dx).

Ainsi E(X|Y) =m(Y)oùm(y)est la moyenne deµy, notéeE(X|Y =y).

Soit (Xi)_i∈I une famille de variables aléatoires etI1, I2⊂I. On dit que les familles de variables aléatoires XI1 := (Xi)_i∈I

1 et XI2 := (Xi)_i∈I

2 sont conditionnellement indépendantespar rapport à une tribu Glorsque

E(f1(XI1)f2(XI2)| G) =E(f(XI1)| G)E(f2(XI2)| G)

pour toutes fonctionsf1:R^I¹→Ret f2:R^I² →Rmesurables et bornées.

Échangeabilité et théorèmes à la de Finetti

Une mesure de probabilité sur un espace produit estéchangeablelorsqu’elle est invariante par toute permutation d’un nombre ﬁni de coordonnées. On dit qu’une suite de variables aléatoires est échangeable lorsque sa loi est échan- geable. L’échangeabilité est un aﬀaiblissement de la notion d’indépendance.

Toute mesure de probabilité produit est échangeable. Tout mélange de mesures de probabilités produit est échangeable. Le théorème de Diaconis- Freedman (respectivement de Hewitt-Savage) fournit une réciproque : si une suite ﬁnie (respectivement inﬁnie) est échangeable alors sa loi est proche (respectivement égale) à un mélange de mesures de probabilités produit.

Théorème A.23(Diaconis-Freedman). Si(X1, . . . , Xn)est un vecteur aléa- toire de loiLn échangeable, alors il existe une mesure de probabilitéPn, mélange de mesures de probabilité produit, telle que pour toutk∈ {1, . . . , n}, les lois marginalesLn,k etPn,k de dimension k deLn etPn vériﬁent

dVT(Ln,k, Pn,k) := sup

A∈F|Ln,k(A)−Pn,k(A)|6 k(k−1) n .

CommedVT(·,·) ∈ [0,1], le théorème A.23 de Diaconis-Freedman n’est utile que lorsquek6√n. D’autre part, pourk= 1, il donneLn,1=Pn,1. Théorème A.24(Hewitt-Savage). Si(X_n)_n_∈N est une suite de v.a. telle que la loi du vecteur (X0, . . . , Xn)est échangeable pour tout n∈N, alors il existe une tribu G telle que les v.a. (X_n)_n∈N sont indépendantes conditionnellement à G : la loi de(X_n)_n∈Nest donc un mélange de mesures de probabilité produit.

SiFⁿ est la tribu engendrée par les fonctions mesurables symétriques des variables aléatoiresX0, . . . , Xn, alorsG= limnFⁿ:=∩^n>1σ(∪^m>nF^m).

Le théorème A.24 est attribué à de Finetti lorsque les v.a. sont de Bernoulli.

Théorème A.25 (Loi du zéro-un de Hewitt-Savage). Si (Xn)_n_∈N est une suite de v.a. i.i.d. et si A ∈ σ(X0, X1, . . .) est un événement invariant par toute permutation des indices à support ﬁni, alorsP(A)∈ {0,1}.

(10)

A.3 Martingales

Cette section est consacrée aux martingales à temps discret.

Sous-martingales, martingales, et sur-martingales

Unefiltration(Fn)_n_∈Nest une famille croissante de sous-tribus deF, c’est- à-dire queFn est une tribu surΩ etFn ⊂ Fⁿ⁺¹⊂ F pour tout n∈N. Un processus à temps discret (suite de variables aléatoires) (X_n)_n∈N estadapté à une filtration (Fⁿ)_n∈NlorsqueXn est mesurable pourFⁿ pour toutn∈N. La filtration naturelled’un processus (Xn)_n∈Nest la plus petite filtration adaptée, donnée parFⁿ=σ(X0, . . . , Xn) pour toutn∈N.

Si (Mn)_n∈N est un processus adapté à une ﬁltration (Fⁿ)_n∈N et vériﬁe Mn∈L¹ pour toutn∈N, alors on dit que (Mn)_n_∈Nest une. . .

— martingale lorsque toutn∈N

E(Mn+1−Mn| Fⁿ) = 0,

et ceci implique une constance en moyenne :E(Mn) =E(M0) pour tout n∈N(à comprendre comme une loi de conservation) ;

— sous-martingalesi pour toutn∈N

E(Mn+1−Mn| Fn)>0,

et ceci implique une croissance en moyenne :E(Mn+1)>E(M_n) pour toutn∈N(resteen-dessous de la limite possible) ;

— sur-martingale si pour toutn∈N

E(Mn+1−Mn| Fⁿ)60,

et ceci implique une décroissance en moyenne :E(Mn+1)6E(Mn) pour toutn∈N(resteau-dessusde la limite possible).

Notons queM est une sous-martingale ssi−M est une sur-martingale, et queM est une martingale ssiM est une sous-martingale et une sur-martingale.

SiΦ:R→Rest convexe et siM = (M_n)_n_∈N est une martingale pour la ﬁltration (Fn)_n_∈N, telle queΦ(M_n)∈L¹pour toutn∈N, alors (Φ(M_n))_n_∈N

est une sous-martingale pour (Fn)_n_∈N(inégalité de Jensen !). En particulier (|Mn|)_n∈N est une sous-martingale, ainsi que (M_n²)_n∈NlorsqueM estde carré intégrablec’est-à-dire lorsqueMn∈L² pour toutn∈N.

Par déﬁnition, une martingale de carré intégrable est une somme de v.a.r.

conditionnellement orthogonales. Cette structure, inspirée par les sommes de v.a.r. indépendantes, est généralisée par les martingales au cadreL¹.

(11)

Temps d’arrêt et théorème d’arrêt

Une variable aléatoireT à valeurs dans{0,1,2, . . .} ∪ {∞} est untemps d’arrêt pour une ﬁltration (Fn)_n_∈N lorsque pour tout n ∈ N, l’événement {T 6n} ∈ Fn, ou de manière équivalente, pour toutn∈N,{T =n} ∈ Fn. Un exemple typique de temps d’arrêt est le temps d’atteinte

τA:= inf{n∈N:Xn∈A}

d’un borélienAdeRpar un processus (Xn)_n_∈Nadapté pour (Fⁿ)_n_∈N. Un événementA∈ F estantérieur àT lorsqueA∩ {T =n} ∈ Fⁿ pour tout n ∈ N. La tribu F^T engendrée par les événements antérieurs à T est appeléetribu d’arrêt associée àT. Le temps d’arrêtT est mesurable pour sa tribu d’arrêtF^T. Si S etT sont des temps d’arrêt avecS6T alors F^S ⊂ F^T. Théorème A.26(d’arrêt de Doob). Si(Mn)_n_∈N etT sont une martingale et un temps d’arrêt pour (Fⁿ)_n_∈N, alors leprocessus arrêté (MT∧n)_n_∈N est une martingale pour(Fⁿ)_n_∈N. En particulier, pour tout n∈N,

E(MT∧n) =E(M0).

En outreE(M_T) =E(M0)dès que l’une des propriétés suivantes est vériﬁée :

— T est borné c’est-à-dire que T 6cpour une constante c>0;

— P(T <∞) = 1etM est uniformément intégrable ;

— E(T)<∞ etM est à accroissements bornés : sup

n∈NkMn+1−Mnk∞<∞.

Dans la pratique, on invoque souvent directement le théorème de convergence monotone ou le théorème de convergence dominée pour obtenir que E(M_T) =E(M0) à partir deE(M_n∧T) =E(M0). Par ailleurs, des propriétés analogues ont lieu pour les sous-martingales (appliquer le lemme de Fatou !).

Inégalité maximale pour les sous-martingales

Un processusX = (Xn)_n∈N estpositif lorsqueXn >0 pour toutn∈N. Théorème A.27 (Inégalité maximale de Doob). Si M = (Mn)_n∈N est une sous-martingale positive bornée dans L^p avec p > 1, alors pour tout n>0, la norme L^p du maximum deM sur[0, n]∩Nest majorée, à une constante universelle près qui ne dépend que dep, par la normeL^p au temps terminal :

Emax

06k6nMk

p 6

p p−1

p

E(|Mn|^p).

En particulier, pour tout réel r >0, P

max

06k6nMk

>r

6

p p−1

pE(|Mn|^p) r^p .

Dans le très courant cas hilbertienp= 2, on trouve (p/(p−1))^p= 4.

(12)

Théorèmes de convergence des martingales

En analyse, une suite croissante et majorée, ou décroissante et minorée, est convergente. Un analogue de ce phénomène a lieu pour les martingales.

Théorème A.28(de Doob sur les sous-martingales bornées dansL¹). Si une sous-martingaleM = (Mn)_n_∈N a sa partie positive bornée dansL¹ :

sup

n∈N

E(max(0, Mn))<∞,

alors il existe une variable aléatoire notéeM_∞∈L¹telle que presque sûrement

nlim→∞Mn=M_∞.

En particulier, toute martingale positive, toute sous-martingale majorée par une constante, ainsi que toute sur-martingale minorée par une constante, converge presque sûrement vers une variable aléatoire intégrable.

Notons queP(M_∞<∞) = 1 carM_∞∈L¹. Attention, la convergence de M versM_∞ n’a pas forcément lieu dansL¹. Le lemme de Scheﬀé aﬃrme que la convergence a lieu dansL¹si et seulement si limn→∞E(|M0|) =E(|M_∞|), condition qui se réduit à E(M0) = E(M_∞) lorsque M est une martingale positive ! Plus généralement, une martingale bornée dansL¹converge dans L¹ si et seulement si elle est uniformément intégrable.

Théorème A.29(Convergence des martingales bornées dansL^p,p >1). Si M = (Mn)_n_∈N est une martingale bornée dansL^p avecp >1, alors il existe une variable aléatoire M_∞∈L^p telle que presque sûrement et dansL^p

nlim→∞Mn=M_∞.

De plus, si(Fn)_n_∈N est la ﬁltration deM alors, pour toutn∈N, Mn=E(M_∞| Fn).

Le théorème A.29 est souvent utilisé dans le cas hilbertienp= 2. D’autre part, la convergenceMn→M_∞ dansL^p entraîne queE(M_n) =E(M_∞) pour tout n∈Net que limn→∞E(|Mn|^r) =E(|M_∞|^r) pour toutq∈[1, p].

Corollaire A.30. Soit(Xn)_n∈N∗ des v.a.r. indépendantes et centrées.

1. SiP

n∈N∗E(X_n²)<∞alorsP

n∈N∗Xn converge presque sûrement ; 2. SiP

n∈N∗

1

n²E(X_n²)<∞ alors _n¹Pn k=1Xk

−→p.s.

n→∞0.

Le second résultat du corollaire peut se déduire du premier grâce au lemme de Kronecker : si (b_n)_n_∈N∗ est une suite de ]0,∞[ croissante qui tend vers +∞ et si P

n∈N∗xn est une série convergente, alors

(13)

nlim→∞

1 bn

Xn k=1

bkxk = 0.

Par une transformation d’Abel, le lemme de Kronecker se déduit du lemme de Toeplitz : si (an)_n∈N∗ est une suite de ]0,∞[ avec P

n∈N∗an =∞ et si (xn)_n∈N∗ est une suite de réels telle que limn→∞xn=ℓ∈Ralors

nlim→∞

Pn k=1akxk

Pn k=1ak

=ℓ.

On retrouve le lemme de Cesàro lorsque (a_n)_n_∈N∗ est constante.

Décomposition de Doob, LGN, TLC

Cette section est consacrée aux martingales de carré intégrable, ainsi qu’à des théorèmes limite (loi des grands nombres et théorème limite central).

On dit qu’une martingale (M_n)_n_∈Nest unemartingale de carré intégrable lorsqueMn ∈L² pour toutn∈N. Dans ce cas, l’inégalité de Jensen indique que (M_n²)_n∈Nest une sous-martingale.

Théorème A.31(Décomposition de Doob). Si M = (Mn)_n∈N est une mar- tingale pour la ﬁltration (Fⁿ)_n∈N, de carré intégrable, alors

— le processus (hMin)_n_∈_Ndéﬁni par hMi0:= 0 puis pour tout n∈Npar hMin+1:=hMin+E((Mn+1−Mn)²| Fn),

est positif, croissant, et prévisible⁵;

— le processus (M_n²− hMin)_n_∈_Nest une martingale pour (Fⁿ)_n∈N;

— la martingale(Mn)_n_∈N est bornée dansL² ssihMi_∞∈L¹ où hMi_∞:= lim

n→∞hMin =X

n∈N

E((Mn+1−Mn)²| Fⁿ).

Le processus (hMin)_n_∈N est appelé compensateur de la sous-martingale (M_n²)_n_∈Nouprocessuss croissantde la martingale de carré intégrable (M_n)_n_∈N.

La formuleM_n²= (M_n²−hMin)+hMinpour toutn∈Nest ladécomposition de Doob de la sous-martingale (M_n²)_n∈Nen somme d’une martingale et d’un processus positif, croissant, et prévisible. Ce type de décomposition reste valable en général pour les sous-martingales. Cette décomposition est remarquablement explicite dans le cas des carrés de martingales de carré intégrable.

Théorème A.32 (Loi des grands nombres pour les martingales L²). Si (Mn)_n_∈N est une martingale de carré intégrable alors

1. sur {hMi_∞<∞}, lim

n→∞Mn=M_∞ presque sûrement, oùM_∞∈L²; 5. C’est-à-dire quehMin+1est mesurable pourFnpour toutn∈N.

(14)

2. sur {hMi_∞=∞}, lim

n→∞

Mn

hMin

= 0 presque sûrement.

Théorème A.33 (Théorème limite central pour les martingales L²). Si (Mn)_n∈N est une martingale de carré intégrable, et si(an)_n∈N est une suite de de réels strictement positifs, croissante et tendant vers ∞, vériﬁant :

1. (convergence du crochet) il existe un réel ℓ>0 tel que hMin

an

−→P n→∞ℓ; 2. (condition de Lindeberg) pour tout ε >0

1 an

Xn k=1

E((M_k−M_k−1)²1_{|Mk−Mk−1|>ε√an}| Fk−1)_n−→^P

→∞0; alors⁶

Mn

√an

−→loi

n→∞N(0, ℓ), et √an

Mn

hMin

−→loi

n→∞N(0, ℓ⁻¹) (siℓ >0).

A.4 Chaînes de Markov

Cette section est consacrée aux chaînes de Markov à temps discret et à espace d’états ﬁni ou inﬁni dénombrable.

Dans toute cette sectionE désigne un ensemble ﬁni ou inﬁni dénombrable.

Noyau de transition et récurrence aléatoire

Unnoyau de transition⁷ surE est une applicationP:E×E→[0,1] telle que P

y∈EP(x, y) = 1 pour tout x∈E. Unechaîne de Markov de noyaux de transition (Pn)_n_∈N et deloi initiale µ0 est un processus X = (Xn)_n_∈N à valeurs dansE tel queX0∼µ0 et, pour toutn∈Net tousx0, . . . , xn ∈E,

P(X0=x0, . . . , Xn=xn) =µ0(x0)

n−Y1 k=0

P_k(x_k, xk+1).

La formule précédente montre que la loi de la chaîne (sur les trajectoires) est entièrement caractérisée par la loi initiale et les noyaux de transition. En identiﬁant les mesures à des vecteurs lignes et les noyaux à des matrices, la formule s’écrit de manière condenséeXn∼µ0P1· · ·P_n pour toutn∈N. On dit queE est l’espace d’étatsde la chaîne. La chaîne esthomogène siP_n ne dépend pas den, etinhomogènedans le cas contraire. Sauf mention explicite du contraire, les chaînes considérées par la suite sont toutes homogènes.

À un noyau de transition Psur E on peut associer un graphe complet orienté dont l’ensemble des arêtes estE et dans lequel l’arête (x, y) porte le poidsP(x, y) pour tousx, y∈E. On parle degraphe des transitions.

6. La seconde convergence se déduit de la première et du lemme de Slutsky.

7. Ou encorematrice de transition,matrice markovienne, oumatrice stochastique.

(15)

Théorème A.34(Chaîne de Markov⇔Suite récurrente aléatoire). Soitµ0

une loi sur E et(U_n)_n∈N∗ une suite de v.a.r. i.i.d. de loi uniforme sur[0,1].

— Soit X0∼µ0 et soitf :E×[0,1]→E une fonction quelconque. Alors la suite récurrente aléatoire^{8 9} (Xn)_n∈Ndéﬁnie par

Xn+1=f(X_n, Un+1), n∈N,

est une chaîne de Markov d’espace d’étatsE, de loi initiale µ0, et de noyau de transitionP(x, y) :=P(f(x, U1) =y);

— Réciproquement, soitPun noyau de transition surE. Pour toutx∈E, considérons une partition[0,1] =∪^y∈EIx,y de l’intervalle [0,1]telle que

P(U1∈Ix,y) =|Ix,y|=P(x, y), x, y∈E.

Soitf :E×[0,1]7→E déﬁnie pour tous x, y∈E etu∈Ix,y par f(x, u) :=y.

Alors la suite récurrente aléatoire(Xn)_n_∈N déﬁnie parX0∼µ0 et Xn+1=f(Xn, Un+1), n∈N,

est une chaîne de Markov de loi initialeµ0 et de noyauP.

La structure de récurrence aléatoire est facile à repérer en général dans les modèles stochastiques, et indique donc la présence d’une chaîne de Markov.

Formulation matricielle et équation d’évolution

Un noyau de transition est une matrice qui opère à gauche sur les mesures vues comme des vecteurs ligne, et à droite sur les fonctions vues comme des vecteurs colonne. SiX = (X_n)_n∈N est une chaîne de Markov surEde noyau Pet de loi initialeµ0, alors, pour toute fonctionf :E→R, on a

E(f(X1)) =E(E(f(X1)|X0))

=X

x∈E

µ0(x)X

y∈E

P(x, y)f(y)

= X

x,y∈E

µ0(x)P(x, y)f(y)

=µ0Pf.

PosonsP⁰ :=IoùIest la matrice identité déﬁnie par I(x, y) =1x=y pour tousx, y∈E. Pour toutn∈N, on notePⁿ le noyau de transition obtenu par produit matriciel, déﬁni parP⁰=Iet pour tout n∈N∗et tousx, y∈Epar

8. C’est aussi un processus autorégressif non-linéaire d’ordre 1.

9. C’est aussi un système dynamique avec bruit.

(16)

Pⁿ(x, y) :=X

x

P(x1, x2)· · ·P(xn, xn+1),

où la somme porte sur les chemins (x1, . . . , xn+1) dansEd’extrémitésx1:=x etxn+1:=y. La suite de noyaux (Pⁿ)_n_∈N est un semi-groupe pour le produit matriciel. On dit qu’il s’agit d’un semi-groupe de Markov à temps discret.

De plus, pour toutn∈N, siµn désigne la loi deXn, alors :

— la suite (µ_n)_n_∈Nvériﬁe la relation de récurrence linéaire, appelée équa- tion d’évolution de Chapman-Kolmogorov, suivante :

µn+1=µnP=µ0Pⁿ⁺¹, n∈N;

— pour tousx, y∈E et toutn∈N,

P(X_n=y|X0=x) =Pⁿ(x, y) ;

— pour toute fonctionf :E→Ret toutn∈N, E(f(Xn)|X0=x) = (Pⁿf)(x) ;

— pour toute fonctionf :E→Ret toutn∈N, E(f(X_n) =µnf =µ0Pⁿf =µ0Pⁿf.

Propriété de Markov

Conditionnellement au présent, passé et futur sont indépendants : Théorème A.35(Propriété de Markov). Soit X = (X_n)_n_∈N une chaîne de Markov de noyauP, et soit (Fn)_n∈N la ﬁltration naturelle deX. Soitx∈E.

— Propriété de Markov faible.Pour toutm∈N, et conditionnellement à {Xm=x}, la suite(Xm+n)_n∈Nest une chaîne de Markov de loi initiale δxet de noyau P, indépendante deF^m;

— Propriété de Markov forte. Pour tout temps d’arrêtτ pourF, et condi- tionnellement à{τ <∞, Xτ=x}, la suite (Xτ+n)_n∈N est une chaîne de Markov de loi initialeδx et de noyau P, indépendante de F^τ. La propriété de Markov faible se déduit de la forte en prenantτ=m.

Récurrence, transience, et irréductibilité

SoitX= (Xn)_n_∈Nune chaîne de Markov surE de noyauP, etF ⊂E. Le temps de premier passageenF et letemps d’atteintedeF sont déﬁnis par

TF = inf{n∈N^∗:Xn∈F} et τF = inf{n∈N:Xn ∈F}.

Ces variables prennent leurs valeurs dans{1,2, . . .}∪{∞}et{0,1,2, . . .}∪{∞}

respectivement. Ce sont des temps d’arrêt pour la ﬁltration naturelle deX.

(17)

Elles sont égales sur{X06∈F}. Sur{X0∈F}, la variableTF est également le temps de retour enF. Lenombre de passages enF est déﬁni par

NF :=X

n∈N

1_{Xn=x}.

Pour tout x∈E, on noteP_x :=P(· |X0=x) etE_x :=E(· |X0 =x), et on abrège T_{x}, τ_{x}, N_{x}enTx, τx, Nx.

Théorème A.36(Dichotomie). Pour toutx∈E, deux cas sont possibles :

xrécurrent xtransitoire

P_x(T_x<∞) = 1 P_x(T_x<∞)<1 P_x(Nx=∞) = 1 P_x(Nx=∞) = 0 E_x(Nx) =P_∞

n=0Pⁿ(x, x) =∞ E_x(Nx) =P_∞

n=0Pⁿ(x, x)<∞ SiPest un noyau de transition surE alors :

— Communication.Pour tous x, y∈E, on dit que xconduit ày, et on notex→y s’il existe n∈N tel quePⁿ(x, y)>0 ; on dit que xety communiquent, et on notex↔y six=y ou si à la foisx→y ety→x.

La relation binaire↔est une relation d’équivalence qui partitionneE en classes d’équivalence appeléesclasses de communication.

— Irréductibilité.On dit quePou par extensionX estirréductiblelorsqu’il existe une unique classe de communication, qui couvre donc E tout entier (tous les états communiquent entre eux).

— Ensemble clos.Un ensembleF ⊂E estcloslorsque la chaîne ne s’en échappe pas : P(x, F) = 1 pour tout x ∈ F. Un état x ∈ E est ditabsorbant lorsque {x} est clos, c’est-à-dire queP(x, x) = 1. Tout ensemble clos est réunion de classes de communication closes.

Théorème A.37(Communication). Le caractère transitoire ou récurrent est constant sur les classes de communication : on parle de classes de récurrence (ou classes récurrentes) et de classes transitoires. Toute classe de récurrence est close, et toute classe close ﬁnie est une classe de récurrence.

Les ensembles clos comme par exemple les classes de récurrence sont absorbants. Presque sûrement, une chaîne partant d’un état récurrent repasse une infinité de fois par son état initial, ne s’échappe jamais de sa classe de récurrence, et visite une infinité de fois tous les états qui constituent cette classe de récurrence. Le cas des états absorbants est singulier puisque leur classe de récurrence est réduite à eux-mêmes. Presque sûrement, une chaîne partant d’un état transitoire ne peut repasser qu’un nombre fini de fois par son état initial, et peut être capturée par une classe de récurrence ou visiter d’autres états transitoires (un nombre fini de fois pour chacun). L’ensemble des états transitoires peut être infini, et la chaîne peut ne jamais être capturée par une classe de récurrence (c’est toujours le cas lorsqu’il n’y a pas d’état récurrent). Contrairement aux classes de récurrence, les classes transitoires peuvent ne pas être closes. Des passages (à sens unique) peuvent exister entre