• Aucun résultat trouvé

Rappels de probabilités

N/A
N/A
Protected

Academic year: 2022

Partager "Rappels de probabilités"

Copied!
20
0
0

Texte intégral

(1)

Rappels de probabilités

Raphaël Deswarte

deswarte@cmap.polytechnique.fr

Raphaël Forien

raphael.forien@cmap.polytechnique.fr

22-23 septembre 2016

(2)

Chapitre 1

Rappels de Probabilités

1.1 Définitions, exemples

Espace de probabilité

On modélise une expérience aléatoire par un triplet (Ω,A,P), où Ω est l’ensemble des "issues" possibles,A ⊂ P(Ω) est l’ensemble des événements et P : A → [0,1] donne la probabilité de chaque événement. Pour que les opération mathématiques correspondant au calcul des probabilités soient bien définies, on demande queΩ,AetPvérifient certaines hypothèses.

Définition 1.1.1. On dit queA ⊂ P(Ω) est unetribu(σ-field en anglais) si

— Ω∈ A,

— pour toutA∈ A,Ac∈ A(stabilité par passage au complémentaire),

— pour toute suite dénombrable(An)n∈

N d’éléments deA,∪nAn ∈ A.

La tribu correspond à l’information que l’on a sur l’expérience. Par exemple si Ω = {1,2,3,4,5,6} (comme c’est le cas pour un lancer de dé), on peut vérifier queA={∅,Ω,{1,3,5},{2,4,6}}est une tribu. Dans ce cas, la seule information que l’on "retient" est la parité du résultat.

EXERCICE 1- Montrer qu’une tribu est stable par intersection dénombrable.

Définition 1.1.2. Soit (Ω,A) un espace muni d’une tribu. On dit que P : A →R+∪ {+∞}est unemesure si

— P(∅) = 0,

— pour toute suite dénombrable(An)n∈N d’éléments deux à deux disjoints, P(∪nAn) =P

nP(An).

Si de plusP(Ω) = 1, on dit quePest uneprobabilité.

EXERCICE 2 - Soit P une mesure de probabilité sur (Ω,A). Montrer les propriétés suivantes.

1. SiA⊂B,P(B\A) =P(B)−P(A)≥0.

2. SiAn∈ Apour toutn∈N,P(∪nAn)≤P

nP(An).

3. Si(An)n∈

N est une suite croissante d’éléments deA,P(∪nAn) = lim↑P(An).

Montrer la propriété analogue pour une suite décroissante.

Définition 1.1.3. Unespace de probabilitéest un triplet(Ω,A,P), oùA est une tribu surΩ etPest une probabilité sur (Ω,A).

Exemple. — SiΩ est fini ou dénombrable, on peut toujours prendreA= P(Ω), et, pour tout A∈ A,

P(A) = X

ω∈A

pω,

où0≤pω≤1et P

ω∈Ωpω= 1.

— Ω =R,A=B(R) (Définition 1.1.4 ci-dessous) et P(]a, b[) =

Z b a

p(x) dx, où0≤p(x)≤1 etR+∞

−∞ p(x) dx= 1.

On vérifie aisément (exercice !) qu’une instersection quelconque (i.e.même infinie non dénombrable) de tribus est encore une tribu. Cela justifie la définition suivante.

Définition 1.1.4 (Tribu des boréliens). Notons O l’ensemble des ouverts deR. Latribu des boréliens est la plus petite tribu sur Rqui contient les ouverts,

B(R) =σ(O) := \

O⊂Atribu

A.

(3)

On dit aussi que la tribu des boréliens est la tribu engendrée par les ouverts.

Remarque. Pour définir une probabilité sur la tribu des boréliens, il suffit de la définir sur la classe des ouverts de R. C’est la conséquence d’un résultat de théorie de la mesure que l’on ne détaille pas ici. Ainsi la définition dePdans le deuxième exemple ci-dessus est suffisante pour caractériser P.

Théorème 3. Il existe une unique mesureλsur(R,B(R))telle que, pour tout a≤b∈R,

λ(]a, b[) =b−a. (1.1)

On appelle λla mesure de Lebesgue.

Définition 1.1.5 (Tribu produit). Soient (Ω1,A1,P1) et (Ω2,A2,P2) deux espaces de probabilité, alors (Ω1×Ω2,A1⊗ A2,P1⊗P2) est un espace de probabilité, où

— A1⊗ A2=σ({A×B, A∈ A1, B∈ A2}),

— pourA∈ A1,B ∈ A2,P1⊗P2(A×B) =P1(A)P2(B).

La tribuA1⊗ A2 s’appelle la tribu produit, etP1⊗P2 est la mesure produit sur Ω1×Ω2.

On note qu’ici également, la donnée deP1⊗P2 sur la classe des rectangles A×B suffit à définir la mesure produit.

Lemme 1.1.6. B(R2) =B(R)⊗ B(R).

Variables aléatoires

Dans la pratique, on ne s’occupe pas vraiment de l’espace(Ω,A,P). On lui demande simplement d’être assez "riche" pour pouvoir y définir les variables aléatoires qui nous intéressent.

Définition 1.1.7. Une applicationf : (E,A)→(F,B)est dite mesurable (par rapport à la tribu A) si

∀B∈ B, f−1(B) :={x∈E:f(x)∈B} ∈ A.

Lemme 1.1.8. Pour qu’une applicationf : (E,A)→(F,B)soit mesurable, il suffit que f−1(B)∈ A pourB∈C⊂ Bsi σ(C) =B. (Indication : montrer que

B⊂F :f−1(B)∈ A est une tribu.)

Proposition 1.1.9. Si E et F sont des espaces métriques munis de leurs tribus boréliennes respectives, alors toute fonction continue deE versF est mesurable (dans ce cas on utilise aussi l’adjectif borélienne).

On vérifie que le fait d’être mesurable est stable par addition, multiplica- tion, composition, passage à la limite, et (pour un ensemble dénombrable de fonctions) passage à la borne sup/inf.

Définition 1.1.10. Unevariable aléatoire (v.a. en abrégé) sur(Ω,A,P)à valeurs dans(E,E)est une application mesurable X: (Ω,A)→(E,E).

Exemple. Somme de deux dés, somme des gains d’un joueur, etc.

Définition 1.1.11. Laloide la v.a.X est la mesure imagePX dePpar X, i.e.

∀B ∈ E, PX(B) =P X−1(B)

=P({ω∈Ω :X(ω)∈B}) =:P(X ∈B). (1.2)

Exemple. — Variable aléatoire discrète :PX =P

x∈EP(X =x)δx, au- trement dit,

PX(B) =X

x∈B

P(X=x).

— Variable aléatoire réelle à densité :PX(B) =R

Bp(x) dx.

EXERCICE 4- Vérifier que (1.2) définit une probabilité sur(E,E).

Définition 1.1.12 (Espérance). Soit X une v.a. à valeurs dans (E,E) et f :E→R une application mesurable. On suppose quef est soit positive, soit intégrable par rapport à la loi deX (i.e.R

|f|dPX <∞). On pose

E[f(X)] = Z

E

f(x)PX(dx).

Exemple. — Cas discret :E[f(x)] =P

x∈Ef(x)P(X =x).

— Cas réel à densité :E[f(X)] =R+∞

−∞ f(x)p(x) dx.

On a les propriétés usuelles de l’intégrale qui restent vraies pour l’espérance : linéarité, positivité, inégalité triangulaire, etc.

Identification des lois

Le résultat suivant est très utile dans la pratique. Il permet de calculer la loi d’une v.a.X en connaissant l’espérance deh(X)pour un nombre suffisant de fonctionsh.

(4)

Théorème 5 (Théorème d’identification). i) Si µ est une probabilité sur (E,E) telle que, pour toute fonctionh:E→R continue bornée,

E[h(X)] = Z

E

h(x)µ(dx),

alorsPX=µ.

ii) Si f : R → R+ est telle que, pour toute fonction h : R → R continue bornée,

E[h(X)] = Z

R

h(x)f(x) dx,

alorsX admet la fonctionf pour densité.

Dans la pratique, on connaît la loi deX et on cherche celle def(X)pour une fonctionf :E→F mesurable. On écrit alors

E[h(f(X))] = Z

E

h(f(x))PX(dx)

et on change de variable d’intégration (attention f n’est pas forcément un difféomorphisme surE).

1.2 Indépendance

Définition

Définition 1.2.1. — Deux événements A, B∈ Asont ditsindépendants siP(A∩B) =P(A)P(B).

— Les événementsA1, . . . , An sont indépendants si

∀1≤i1< . . . < ik ≤n, P(Ai1∩. . .∩Aik) =P(Ai1). . .P(Aik).

— Les v.a.X1, . . . , Xn sont indépendantes si

∀B1∈ E1, . . . , Bn∈ En, P(X1∈B1, . . . , Xn∈Bn) =P(X1∈B1). . .P(Xn ∈Bn).

— La suite de v.a. (Xn)n∈

N est indépendante si, pour tout n ∈ N, X1, . . . , Xn sont indépendantes.

Théorème 6. Les variablesX1, . . . , Xn sont indépendantes si et seulement si P(X1,...,Xn)=PX1⊗. . .⊗PXn.

Le Théorème 8 permet de caractériser les v.a. indépendantes de différentes façons.

Corollaire 1.2.2. — Si X1, . . . , Xn sont des v.a. réelles, elles sont in- dépendantes si et seulement si, pour toutes fonctions f1, . . . , fn

continues à support compact deRdansR, E[Πifi(Xi)] = ΠiE[f(Xi)].

Si de plus lesXi admettent des densités pi, alors (X1, . . . , Xn) admet Πipi(xi)pour densité.

— Réciproquement, si(X1, . . . , Xn)a une densité de la forme p(x1, . . . , xn) = Πni=1qi(xi),

où lesqi sont boréliennes positives, alors X1, . . . , Xn sont indépendantes etXi admet une densité de la forme pi=Ciqi,Ci>0.

— SiX1, . . . , Xn sont des v.a. discrètes, alors elles sont indépendantes si et seulement si, pour toutx1∈E1, . . . , xn∈En,

P(X1=x1, . . . , Xn =xn) =P(X1=x1). . .P(Xn=xn). Démonstration. Utiliser le Théorème 7 et le Théorème de Fubini.

Remarque. Attention ! Pour que X1, . . . , Xn soient indépendantes, il ne suffit pas que Xi et Xj soient indépendantes pour tout i 6= j. En effet, supposons que Y1, Y2, Y3 soient trois v.a. de Bernoulli indépendantes et de paramètre 1/2. Alors les événements{Y1=Y2},{Y2=Y3} et{Y1=Y3} sont indépendants deux à deux, mais pas indépendants.

Proposition 1.2.3. SoientX etY deux v.a. réelles indépendantes, de lois respectives PX etPY. Alors la loi deX+Y est la convolution des loisPX et PY, i.e.

PX∗PY(B) = Z

PY(B−x)PX(dx).

Si de plusX etY admettent chacun une densité, notéespX etpY, alorsX+Y admetpX∗pY pour densité.

Lemme de Borel-Cantelli

Si(An)n∈Nest une suite d’événements, on note

lim sup

n

An=

\

n=0

[

k=n

Ak

! ,

(5)

et

lim inf

n An=

[

n=0

\

k=n

Ak

! .

Lemme 1.2.4 (Borel-Cantelli). Soit(An)n∈N une suite d’événements.

i) Si P

n≥0P(An)<∞, alors P

lim sup

n

An

= 0,

ou, de manière équivalente, avec probabilité 1 {n∈N:ω∈An} est fini.

ii) SiP

n≥0P(An) =∞et si les événements (An)n sont indépendants, alors P

lim sup

n

An

= 1,

ou, de manière équivalente, avec probabilité 1 {n∈N:ω∈An} est infini.

Ce résultat est très utile pour montrer que quelque chose arrive "presque sûrement" (i.e.avec probabilité 1), comme par exemple la convergence d’une variable aléatoire. L’écriture équivalente donnée dans l’énoncé du Lemme 1.2.3 s’obtient en notant que

lim sup

n

An ={ω∈Ω :∀n∈N,∃k≥n:ω∈Ak}.

1.3 Convergence de variables aléatoires

Loi faible des grands nombres

Théorème 7 (Loi faible des grands nombres). Soit (Xn)n une suite de v.a.

i.i.d. telles que E X12

<∞, alors

1

n(X1+. . .+Xn) L

2

n→∞−→ E[X1], c’est-à-direE

h 1

nSn−µ2i

n→∞−→ 0, oùSn=X1+. . .+Xn etµ=E[X1].

Démonstration. On écrit

E

"

1

n(X1−µ+. . .+Xn−µ) 2#

= 1

n2V[X1+. . .+Xn]

= 1

nV[X1] −→

n→∞0.

(On a utilisé l’indépendance des Xi pour passer à la deuxième ligne.)

Définition 1.3.1. Une suite de v.a.(Xn)n converge enprobabilitévers X si

∀ε >0, P(|Xn−X|> ε) −→

n→∞0.

Proposition 1.3.2. La convergence Lp (i.e. E[|Xn−X|p]→0) pourp≥1 implique la convergence en probabilité.

Démonstration. Par l’inégalité de Chebyshev (A.1), P(|Xn−X|> ε)≤ε−pE[|Xn−X|p] −→

n→∞0.

Loi forte des grands nombres

On a en réalité un résultat beaucoup plus fort que celui du Théorème 10. La convergence de la moyenne empirique desXi a en fait lieu pour presque toute issueω∈Ω, dans un sens que l’on précise à l’aide de la définition suivante.

Définition 1.3.3. Une suite de v.a.(Xn)n convergepresque sûrementvers X s’il existe un événementN ∈ A de probabilité nulle tel que

∀ω /∈N, Xn(ω) −→

n→∞X(ω).

Théorème 8 (Loi forte des grands nombres). Soit (Xn)n une suite de v.a.

i.i.d. telle que E[|X1|]<∞, alors 1

n(X1+. . .+Xn) −→ps

n→∞E[X1]. La preuve utilise le Lemme de Borel-Cantelli.

Le résultat suivant montre que la convergence presque sûre est plus forte que la convergence en probabilité.

(6)

Proposition 1.3.4. Si la suite (Xn)n converge p.s., alors elle converge en probabilité (vers la même v.a.). Si(Xn)n converge en probabilité versX, alors il existe une sous-suite(Xnk)k qui converge p.s. versX.

La première assertion se prouve par convergence dominée, la seconde par le Lemme de Borel-Cantelli.

Voici un exemple de v.a. convergeant en probabilité mais pas presque sûrement.

Exemple. On munit l’espaceΩ = [0,1] de la tribu borélienne et de la mesure de Lebesgue (cf (1.1)). PosonsXn(ω) =1An(ω),n≥1oùλ(An) = 1n et les An sont mis bout à bout le long de l’intervalle[0,1], en repartant de zéro dès que le bord est atteint. Alors Xn

L1

n→∞−→ 0mais, comme la série des 1n diverge, Xn

ps

90.

EXERCICE 9- Exhiber une sous-suite qui converge ps vers zéro.

Convergence en loi

Présentons maintenant un mode de convergence pour les variables aléatoires beaucoup plus faible que ceux vus précédemment.

Définition 1.3.5. Une suite de v.a.(Xn)n à valeurs dansE convergeen loi vers X si pour toute fonction f :E→Rcontinue bornée,

E[f(Xn)] −→

n→∞E[f(X)].

On note alors indifféremment Xn⇒X, Xn −→L

n→∞X etXn −→d

n→∞X en anglais.

Proposition 1.3.6. — SiXn etX sont à valeurs dans un espace dénom- brable E, alors Xn⇒X si et seulement si,

∀x∈E, P(Xn=x) −→

n→∞P(X =x).

— SiXn admetpn pour densité surR, alors sipn→p λ-presque partout et s’il existeq∈L1(R)positive telle que, pour toutn∈N, pn≤q λ-p.p., alorspest une densité etXn ⇒X, oùX admet ppour densité.

Proposition 1.3.7. Si (Xn)n converge en probabilité vers X, alors (Xn)n converge en loi versX.

Le résultat suivant est utile pour caractériser la convergence en loi.

Théorème 10. Soient(Xn)netX des v.a. à valeurs dansRd. Les propositions suivantes sont équivalentes.

i) Xn⇒X,

ii) pour tout ouvertG⊂Rd,lim infn→∞P(Xn ∈G)≥P(X ∈G), iii) pour tout fermé F⊂Rd,lim supn→∞P(Xn∈F)≤P(X ∈F),

iv) pour tout borélienA⊂Rd tel queP(X ∈∂A) = 0, limn→∞P(Xn∈A) = P(X ∈A).

(Pour se rappeler du sens des inégalités dans (ii), il suffit de considérer le cas oùXn=xn ∈Gpresque sûrement etxn −→

n→∞x∈∂G. Pour (iii), il suffit de considérerF=Gc.)

Fonction de répartition On rappelle que la fonction de répartition d’une v.a. réelleX est donnée parFX(x) =P(X ≤x). Le résultat suivant découle du Théorème 13.

Proposition 1.3.8. Soient(Xn)n etX des v.a. réelles. Xn converge en loi versX si et seulement siFXn(x) −→

n→∞FX(x)pour tout xoù FX est continue.

Fonction caractéristique

Définition 1.3.9. Soit X une v.a. à valeurs dans Rd. Safonction carac- téristiqueΦX:Rd →Cest définie par

ΦX(ξ) =E eiξ·X

.

Remarque. Cette définition coïncide avec celle de la transformée de Fourier de la loi deX. Le résultat suivant est donc une conséquence de la formule d’inversion de Fourier.

Proposition 1.3.10. La fonction caractéristique caractérise la loi deX. Exemple. SiX ∼ N(0, σ2),ΦX(ξ) = exp

σ22ξ2 .

Comme corollaire de la proposition précédente, on a le résultat suivant.

Proposition 1.3.11. Les v.a. X1, . . . , Xn sont indépendantes si et seulement siΦ(X1,...,Xn)= ΦX1. . .ΦXn.

La fonction caractéristique nous donne un moyen très utile de caractériser la convergence en loi. Il suffit en effet de vérifier que la suite des fonctions caractéristiques converge simplement vers la fonction caractéristique d’une v.a.

(7)

Théorème 11 (Lévy). Soient(Xn)n une suite de v.a. et X une v.a. à valeurs dans Rd. Alors Xn ⇒X si et seulement si, pour tout ξ ∈Rd, ΦXn(ξ) −→

n→∞

ΦX(ξ).

Théorème de la limite centrale

Théorème 12 (Théorème de la limite centrale). Soit (Xn)n une suite de v.a.

réelles i.i.d. dansL2. On noteµ=E[X1]et σ2=V[X1]. Alors

√1

n(X1+. . .+Xn−nµ) −→L

n→∞N(0, σ2).

Démonstration. Le résultat s’obtient en faisant un développement limité au deuxième ordre de la fonction caractéristique du membre de gauche.

Une application importante de ce théorème est la définition d’intervalles de confiance (cf. cours de statistiques).

1.4 Vecteurs Gaussiens

Définition 1.4.1. Une v.a. X = (X1, . . . , Xd) à valeurs dans Rd est un vecteur gaussien si, pour tout a ∈ Rd, ha, Xi suit une loi normale (en considérant queδx=N(x,0)).

Exemple. Si les Xi sont des v.a. gaussiennes indépendantes, alors (X1, . . . , Xd)est un vecteur gaussien.

Théorème 13. Un vecteur aléatoireX est gaussien si et seulement s’il existe m∈Rd,C∈ Sd+(R)tels que

ΦX(ξ) = exp

ihξ, mi −1 2hξ, Cξi

.

On note m=E[X]et C est la matrice de covariance deX.

Théorème 14. Soit X un vecteur aléatoire gaussien, d’espérance m et de matrice de convarianceC.

Si le rang de C est d (autrement dit, si Det(C) > 0), alors X admet une densité fX par rapport à la mesure de Lebesgue surRd avec :

fX(x) = 1

(2π)d/2p

Det(C)exp

−1

2(t−m)TC−1(t−m)

∀ x∈Rd

Si le rang deC estk < d (et doncDet(C) = 0, alors la loi deX n’admet pas de densité par rapport à la mesure de Lebesgue surRd et concentre toute sa masse sur un sous-espace affine de Rd de dimensionk.

Un corollaire direct du Théorème 16 est le résultat suivant.

Proposition 1.4.2. Si X est un vecteur gaussien, ses composantes sont indépendantes si et seulement si sa matrice de covariance est diagonale.

Remarque. Attention !Ce n’est pas vrai en général, même pour des va- riables gaussiennes. Avant d’appliquer ce résultat, il faut bien vérifier que toute combinaison linéaire desXi est gaussienne, comme le montre l’exercice suivant.

EXERCICE 15- SoitXune v.a. réelle de loiN(0,1)etεune v.a. indépendante deX de loi12δ−1+12δ1. On poseY =εX. Montrer queY suit une loi normaleN(0,1) et calculerCov (X, Y). Les variablesX etY sont-elles indépendantes ? Le vecteur (X, Y)est-il gaussien ?

Le TCL se généralise sans peine au cas vectoriel.

Théorème 16 (TCL vectoriel). Soit (Xn)n une suite de v.a. i.i.d. à valeurs dansRd, de covarianceK∈ Sd+(R), de carré intégrable. Alors

√1

n(X1+. . .+Xn−nE[X1]) −→L

n→∞N(0, K).

(8)

Chapitre 2

Conditionnement

Dans tout ce chapitre,(Ω,A,P)désigne un espace de probabilité.

2.1 Conditionnement discret

Définition 2.1.1. Soit B ∈ A tel queP(B)>0. On définit une probabilité P(· | B)sur (Ω,A)par

∀A∈ A, P(A| B) = P(A∩B) P(B) .

EXERCICE 17- Vérifier queP(· |B)vérifie les axiomes de la Définition 1.1.2 d’une probabilité.

SiX : Ω→E est un v.a. dansL1, on peut calculer l’espérance de X par rapport à cette nouvelle probabilité :

E[X| B] = E[X1B] P(B) .

Remarque. C’est un nombre. Il s’interprète comme l’espérance de la variable X sachant que l’événement B est réalisé.

On voudrait maintenant donner un sens àE[X| Y], oùY est une variable aléatoire, qui s’interpréterait comme l’espérance de la variableX sachant la valeur prise par la variable Y. Dans toute la suite, Y est une v.a. à valeurs dans un espaceE au plus dénombrable. Soit

E0={y∈E:P(Y =y)>0}.

Pour y ∈ E0, on peut prendreB ={Y =y} dans la définition ci-dessus et, pourX ∈L1, on a

E[X| Y =y] = E[X1Y=y] P(Y =y).

Définition 2.1.2. Soit X ∈ L1, l’espérance conditionnelle de X sa- chant Y est la variable aléatoire réelle définie par

E[X| Y] =φ(Y), oùφ:E→Rest donnée par

φ(y) = (

E[X| Y =y] siy∈E0,

0 sinon.

Exemple. Si X est le résultat d’un lancer de dé, X =k avec probabilité 16 pourk∈ {1, . . . ,6}. Posons

Y =

(1 siX est pair,

0 sinon.

Alors,

E[X| Y] =

(4 siY = 1, 3 siY = 0,

= 3 +Y.

EXERCICE 18- Vérifier queE[Y |Y] =Y et que, siX etY sont indépen- dants,E[X|Y] =E[X].

(9)

Proposition 2.1.3. SiX ∈L1, alors E[X| Y]∈L1 et E[E[X| Y]] =E[X]

E[|E[X| Y]|]≤E[|X|].

De plus, pour toute fonctionf :E→Rmesurable bornée,

E[f(Y)X] =E[f(Y)E[X| Y]] (2.1) Démonstration. Exercice !

Remarque. Le cas particulier f = 1 permet de retrouver la formule bien connue des probabilités totales,

E[X] = X

y∈E0

E[X| Y =y]P(Y =y).

2.2 Conditionnement par une tribu

Commençons par l’exercice suivant.

EXERCICE 19- SoientY1 etY2deux variables aléatoires discrètes et soitX une variable aléatoire dansL1. On suppose qu’il existe une application injectivef telle queY2=f(Y1). Montrer queE[X| Y1] =E[X|Y2].

Dans l’exercice ci-dessus, les variables aléatoiresY1etY2apportent la même information sur Ω, et donc les deux espérances conditionnelles sont égales.

Pour éclaircir ce point, on définit la notion de tribu engendrée par une variable aléatoire.

Définition 2.2.1. Soit X une variable aléatoire à valeurs dans un espace mesurable(E,E).La tribu engendrée par X, notée σ(X), est la plus petite tribu qui rendeX mesurable,

σ(X) :=

X−1(B) :B∈ E .

Cette tribu correspond à l’information apportée par la connaissance deX. (On peut notamment montrer qu’une variable aléatoireXestF-mesurable si et seulement siσ(X)⊂ F.) On va voir par la suite que la « bonne » notion pour l’espérance conditionnelle est le conditionnement par une tribu. On verra alors que l’espérance conditionnelle sachantX est l’espérance conditionnellement à la tribu engendrée parX. La propriété (2.1) sert de définition de l’espérance conditionnelle dans le cas général.

Proposition 2.2.2. SoitX ∈L1(Ω,A,P)etF une sous-tribu de A. Il existe une unique variable aléatoire (à égalité p.s. près), notée E[X| F], telle que

i) E[X| F] estF-mesurable,

ii) pour toutA∈ F,E[X1A] =E[E[X| F]1A].

On insiste sur le fait que E[X| F] est une variable aléatoire. En fait, si pour chaqueA∈ F on sait siAest réalisé ou non,E[X| F]est la meilleure estimation deX que l’on peut donner avec cette information. L’exercice suivant justifie cette interprétation.

EXERCICE 20-

— SiX est mesurable par rapport à F, alorsE[X| F] =X.

— SiZ est mesurable par rapport àFet bornée, alorsE[ZX| F] =ZE[X| F].

— SiX est indépendant de F, alorsE[X| F] =E[X].

— SiF2est une sous-tribu deF1, alorsE[E[X| F1]| F2] =E[E[X| F2]| F1] = E[X| F2].

L’espérance conditionnelle hérite de toutes les propriétes de base de l’es- pérance : linéarité, positivité, inégalité triangulaire. Elle conserve également l’inégalité de Jensen.

Exemple. SoitA1, A2, . . .∈ A une partition (finie ou infinie) deΩtelle que P(Ai)>0 pour tout i ≥1. Supposons que F =σ(A1, A2, . . .). Alors, pour X ∈L1,

E[X| F] =X

i≥1

E[X1Ai] P(Ai) 1Ai.

Avec cette définition, on vérifie que pour toute variable aléatoire discrèteY, E[X| Y] =E[X| σ(Y)]. Cela permet d’étendre la définition de l’espérance conditionnelle sachant une variable aléatoire à valeurs dans un espace général (pas forcément dénombrable).

Définition 2.2.3. Soit X ∈L1(Ω,A,P) et Y une variable aléatoire sur Ω.

On définit :

E[X| Y] :=E[X|σ(Y)].

2.3 Conditionnement dans L

2

et vecteurs Gaussiens

LorsqueX est de carré intégrable, on peut utiliser le produit scalaire dans L2(Ω,A,P)pour donner une autre interprétation de l’espérance conditionnelle.

(10)

SoitF une sous-tribu deAet soitX une variable aléatoire dansL2(Ω,A,P).

D’après l’inégalité de Jensen, on a E[X| F]2≤E X2

F

, et donc E

h

E[X| F]2i

≤E E

X2 F

=E X2

<∞.

Donc E[X| F] est dans L2(Ω,F,P), vu comme sous-espace fermé de L2(Ω,A,P). De plus, pour toute variable aléatoireZ bornée etF-mesurable,

E[Z(X−E[X| F])] = 0.

DoncX−E[X| F]est orthogonal à toutes les variables aléatoires bornéesF- mesurables. Par densité, on en déduit queX−E[X| F]est orthogonal à toutes les variables aléatoires deL2(Ω,F,P). L’espérance conditionnelleE[X| F]est donc le projeté orthognal deX surL2(Ω,F,P). En d’autres termes, E[X| Y] est la meilleure approximation deX, au sens de la normeL2, par une variable aléatoire de la formef(Y). Cette observation a une conséquence remarquable dans le cadre des vecteurs Gaussiens.

Théorème 21. Soit (Y1, . . . , Yn, X) un vecteur Gaussien centré. Alors E[X| Y1, . . . , Yn] coïncide avec la projection orthogonale de X (dans L2(Ω,A,P)) sur l’espace vectoriel engendré par Y1, . . . , Yn. Il existe donc des réelsλ1, . . . , λn tels que

E[X| Y1, . . . , Yn] =

n

X

k=1

λkYk.

De plus, la loi conditionnelle de X sachantY1, . . . , Yn est une loi Gaussienne de moyenne m=Pn

k=1λkYk et de variance

σ2=E

 X−

n

X

k=1

λkYk

!2

.

C’est-à-dire que pour toute fonction borélienne h:R→R+,

E[h(X)| Y1, . . . , Yn] = Z

R

h(x) 1

2πσ2exp

−(x−m)22

dx.

En d’autres termes, si(Y1, . . . , Yn, X)est un vecteur Gaussien, la meilleurs manière d’approximerX (dansL2) par une fonction mesurable deY1, . . . , Yn est de le faire par une combinaison linéaire desYi.

(11)

Chapitre 3

Martingales à temps discret

Les martingales sont un outils fondamental dans l’étude des processus aléatoires. Une martingale correspond à l’évolution de la somme des gains d’un joueur dans un jeu équitable. Dans ce chapitre nous rappelons un certain nombre de propriétés fondamentales liées aux martingales.

3.1 Définitions

Soit(Ω,A,P)un espace de probabilité.

Définition 3.1.1. Une filtration (Fn)n de(Ω,A,P)est une suite croissante de sous-tribus deA, c’est-à-dire telle que

F0⊂ F1⊂. . .⊂ A.

Un processus aléatoire est une suite(Xn)nde variable aléatoire (ici à valeurs réelles) définies sur(Ω,A,P).

Exemple. La filtration canonique associée à(Xn)n est définie par Fn =σ(X0, . . . , Xn).

La tribuFn correspond dans ce cas à l’information acquise par l’observation du processus jusqu’au tempsn. De manière générale, une filtration représente l’évolution de l’information acquise au cours du temps.

Définition 3.1.2. Soit(Xn)n∈

N un processus aléatoire. On dit que le proces- sus (Xn)n∈

N est unemartingale si

i) (Xn)n est adapté, c’est-à-dire que pour tout n∈N,Xn est mesurable par rapport àFn,

ii) E[|Xn|]<∞pour toutn∈N, iii) pour toutn∈N,E[Xn+1| Fn] =Xn.

En d’autres termes, une martingale est un processus dont les accroissements sont équilibrés (Xn+1−Xn est une variable centrée étant donnée toute l’infor- mation disponible jusqu’au tempsn). C’est par exemple le cas de la somme des gains d’un joueur dans un jeu équitable. On note que la filtration canonique est la plus petite filtration qui rende le processus(Xn)n adapté. Si l’on remplace= dans (iii) par≤ou bien≥,(Xn)nest appelé respectivement une sur-martingale ou une sous-martingale.

Exemple. 1. Marche aléatoire surR. Soit (ξn)n∈

N une suite de variables aléatoires indépendantes et identiquement distribuées à valeurs réelles telles que E[ξn] = 0 et E[|ξn|] < ∞. On pose Xn = ξ0 +. . .+ξn et Fn = σ(ξ0, . . . , ξn) pour n ≥0. Alors (Xn)n∈

N est une martingale par rapport à(Fn)n.

2. SoitX ∈L1(Ω,A,P)et (Fn)n une filtration. On poseXn=E[X| Fn].

Alors(Xn)n∈

Nest une martingale. Une telle martingale est dite fermée.

EXERCICE 22- Démontrer les deux assertions ci-dessus.

3.2 Temps d’arrêt

Le temps d’arrêt est une notion naturelle d’un instant aléatoire lié à une filtration. Elle intervient dans le Théorème d’arrêt (voir le Théorème 26 ci- dessous) qui dit qu’on ne peut pas espérer gagner d’argent à un jeu équilibré en un temps borné.

(12)

Définition 3.2.1. Soit(Fn)n une filtration. Une variable aléatoireT à valeurs dansN∪ {∞} est untemps d’arrêtsi pour toutn∈N,{T =n} ∈ Fn.

Si on imagine queT est l’instant auquel notre joueur s’arrête de jouer, la définition ci-dessus dit que la décision de s’arrêter doit pouvoir être prise à partir de l’information disponible à ce moment. Par exemple, le jour de l’année ou une action donnée est à son maximum n’est a priori pas un temps d’arrêt, car il n’est pas possible de savoir le jour même si l’action ne redépassera pas son cours actuel d’ici la fin de l’année. En particulier, toute variable aléatoire déterministe à valeurs dansNest un temps d’arrêt.

Exemple. Un exemple important de temps d’arrêt est le temps d’atteinte d’un ensemble. Si (Xn)n est un processus adapté à valeurs dans un espace mesurable(E,E),

TA:= inf{n∈N:Xn∈A}

est un temps d’arrêt (avec la convention inf∅= +∞). En revanche, le temps de sortie deA,

LA:= sup{n∈N:Xn∈A}

n’est en général pas un temps d’arrêt.

On rappelle la notationa∧b=min(a, b).

Théorème 23 (Théorème d’arrêt). Soit (Xn)n une martingale (resp. une surmartingale) et soitT un temps d’arrêt. Alors (Xn∧T)n est aussi une mar- tingale (resp. une surmartingale). En particulier, si le temps d’arrêt T est borné, on aXT ∈L1 et

E[XT] =E[X0], (resp.E[XT]≤E[X0] ).

Exemple. Soit (ξn)n∈N une suite de variables aléatoires indépendantes et identiquement distribuées telles que P(ξ1= 1) =P(ξ1=−1) = 1/2. On pose X0 = x0 et Xn = x01+. . .+ξn. Le processus (Xn)n∈N est alors une martingale par rapport à sa filtration canonique. Pour N≥1fixé, soit T la variable aléatoire définie par

T := inf{n≥1 :Xn= 0 ouXn =N}.

C’est un temps d’arrêt. On souhaite utiliser le théorème ci-dessus pour déter- miner la probabilité que Xn atteigne le niveauN avant de passer par 0. On suppose au passage que0≤x0≤N. D’après le Théorème 26, pour toutn≥1,

E[Xn∧T] =E[X0] =x0.

Le temps d’arrêt T n’est pas borné, mais T < ∞ p.s. donc, pour n → ∞, Xn∧T →XT presque sûrement. De plus, |Xn∧T| ≤N pour tout n≥1. Par convergence dominée, on peut donc conclure que

E[XT] =x0.

D’autre part,

E[XT] =N×P(XT =N) + 0×P(XT = 0). On en déduit donc queP(XT =N) =xN0.

3.3 Convergence presque sûre des martingales

En plus du Théorème d’arrêt, on dispose de résultats très puissants sur la convergence des martingales. Ce résultat peut être vu comme un analogue stochastique de la convergence des suites monotones bornées.

Théorème 24. Soit(Xn)n∈

N une martingale telle que sup

n∈N

E[|Xn|]<∞,

alors il existe une variable aléatoireX telle queE[|X|]<∞etXnconverge p.s. vers X quandn→ ∞.

De manière équivalente, si (Xn)n est une sous-martingale et que supn∈NE[(Xn)+] < ∞, alors la conclusion du théorème reste vraie (et in- versement si(Xn)n est une surmartingale en remplacant la partie positive par une partie négative). En particulier, toute surmartingale positive converge p.s.

vers une variable aléatoire dansL1.

Exemple. On reprend la martingale (Xn)n∈

N de l’exemple précédent, avec x0= 1. On pose cette fois

T = inf{n≥1 :Xn= 0}.

D’après le Théorème 26, Yn = Xn∧T est une martingale, qui de plus est positive. Elle converge donc p.s. vers une variable aléatoire X∈L1. Cela n’est possible que sur{T <∞} car |Xn−Xn+1|= 1 (on a donc montré au passage queT <∞p.s.). On a doncX= 0 p.s. On remarque qu’il ne peut y avoir convergence dansL1 puisque E[Xn] = 1>E[X] = 0.

(13)

3.4 Convergence L

p

des martingales

Comme le montre le dernier exemple, le fait pour une martingale d’être bornée dansL1 n’assure pas que cette dernière converge dans L1. Nous allons voir que le fait d’être bornée dans Lp pour p > 1 permet en revanche de conclure qu’une martingale converge dansLp. Au passage nous présentons une séries d’inégalités très utiles dans l’étude des martingales.

Théorème 25 (Inégalité maximale de Doob). Soit(Xn)n une martingale (ou une sous-martingale). Pour tout a >0 et pour toutn∈N,

P

sup

0≤k≤n

Xk > a

≤ 1 aE

(Xn)+ .

Si(Xn)n est un processus aléatoire, on note Xn = sup

0≤k≤n

|Xk|, X = sup

n∈N

|Xn|.

La proposition suivante est alors une conséquence de l’inégalité maximale de Doob.

Proposition 3.4.1. Soitp >1et soit(Xn)n une martingale. Alors, pour tout n∈N,

E[(Xn)p]≤ p

1−p p

E[|Xn|p].

Enfin, le résultat suivant donne la convergence dansLp des martingales.

Théorème 26. Soit(Xn)n une martingale. Supposons qu’il existep >1tel que

sup

n∈N

E[|Xn|p]<∞.

Alors Xn converge p.s. et dansLp vers une variable aléatoire X∈Lp telle que

E[|X|p] = sup

n∈NE[|Xn|p] et

E[(X)p]≤ p

1−p p

E[|X|p].

3.5 Convergence L

1

des martingales

Comme on l’a vu, être bornée dansL1 n’assure pas la convergence dansL1 d’une martingale. Il existe cependant une condition nécessaire et suffisante pour la convergenceL1 des martingales, l’uniforme intégrabilité.

Définition 3.5.1. Une famille(Xi)i∈I de variables aléatoires dansL1 est dite uniformément intégrable si

a→∞lim sup

i∈I E

|Xi|1|Xi|>a

= 0.

Exemple. — Soit Z une variable aléatoire dans L1. Alors si |Xi| ≤ Z pour touti∈I,(Xi)i∈I est uniformément intégrable.

— SoitΦ :R+ →R+ une fonction telle quex−1Φ(x) −→

x→∞0. Alors, pour toutC >0,

X∈L1:E[Φ(|X|)]≤C est uniformément intégrable. En effet, il suffit d’écrire

E

|X|1|X|>a

sup

x>a

x Φ(x)

E[Φ(|X|)].

— Tout sous ensemble borné dansLp est uniformément intégrable.

Le nom "uniformément intégrable " est justifié par la proposition suivante.

Proposition 3.5.2. Soit(Xi)i∈I une famille de variable aléatoire bornée dans L1. Les propositions suivantes sont équivalentes.

i) La famille (Xi)i∈I est uniformément intégrable.

ii) Pour toutε >0, il existeδ >0tel que, pour toutA∈ Atel queP(A)< δ, on a

∀i∈I, E[|Xi|1A]≤ε.

On remarque que le premier exemple ci-dessus correspond à l’hypothèse principale du théorème de convergence dominée. En fait, l’uniforme intégrabilité est une condition nécessaire et suffisante pour pouvoir appliquer ce résultat (voir le Théorème 12.5.3 dans [10]). Le théorème suivant applique ce résultat

aux martingales.

Théorème 27. Soit (Xn)n∈

N une martingale par rapport à une filtration (Fn)n∈

N. Les trois propositions suivantes sont équivalentes.

i) Xn converge p.s. et dans L1 vers une variable aléatoire X.

(14)

ii) La suite(Xn)n est uniformément intégrable.

iii) Il existe une variable aléatoireZ ∈L1telle queXn =E[Z| Fn]pour tout n∈N. On dit dans ce cas que(Xn)n∈

N est une martingale fermée.

Dans ce cas, X=E[Z| F], oùF=σ(∪n∈NFn).

(15)

Chapitre 4

Chaînes de Markov

4.1 Définitions

Dans toute la suite,E est un espace fini ou dénombrable muni de la tribu P(E).

Définition 4.1.1. Q={Q(x, y), x, y∈E} est une matrice de transition sur E (également matrice stochastique ou markovienne) si

i) pour tout x, y∈E,0≤Q(x, y)≤1, ii) pour tout x∈E,P

y∈EQ(x, y) = 1.

On remarque queQdéfinit une famille de lois surE, indexées parE, via la formule

Q(x, A) =X

y∈A

Q(x, y), A∈ P(E).

Une chaîne de Markov est alors un processus dont l’état au tempsn+ 1est tiré suivant la loiQ(x,·), oùxest l’état du processus au tempsn.

Définition 4.1.2(Chaîne de Markov). Soit Qune matrice de transition sur E et soit(Xn)n une suite de v.a. à valeurs dansE.(Xn)n est une chaîne de Markov de matrice de transition Qsi, pour toutn∈N,

P(Xn+1=y| X0=x0, . . . , Xn =xn) =Q(xn, y), pour toutx0, . . . , xn, y∈E tels queP(X0=x0, . . . , Xn=xn)>0.

La propriété essentielle ici est que le futur du processus ne dépend du passé qu’à travers l’état présent.

Comme exemple, une suite de v.a. i.i.d. est une chaîne de Markov, dans ce casQ(x, y)ne dépend pas dex. Les processus de branchement sont un autre exemple de chaîne de Markov.

Exemple. Soit(ξn)n une suite de v.a. i.i.d. uniformes sur{−1,1}. On pose S0= 0,Sn1+. . .+ξn, etXn = max{Sm: 0≤m≤n}. Alors(Xn)nn’est pasune chaîne de Markov.

EXERCICE 28- Soit(ξi)i∈

N une suite de v.a. iid à valeurs dans un espaceF etf:E×F →Eune application mesurable. On suppose que la suite(Xn)nvérifie

Xn+1=f(Xn, ξn+1).

Montrer que c’est une chaîne de Markov.

Un exercice du TD montrera que toute chaîne de Markov peut se construire de cette façon. Un autre exemple important de chaîne de Markov est la marche aléatoire sur un graphe. En fait, n’importe quelle chaîne de Markov peut se définir via un graphe orienté, dont les sommets sont les éléments deE et où l’arrêtex→y est présente siQ(x, y)>0(il est également d’usage d’indiquer la valeur deQ(x, y)à côté de l’arrête).

Notation Si Q est une matrice de transition, on pose, comme pour un produit matriciel,

Q2(x, y) =X

z∈E

Q(x, z)Q(z, y),

qui est encore une matrice de transition, et on définitQn par récurrence.

Proposition 4.1.3. (Xn)nest une chaîne de Markov de matrice de transition Qsi et seulement si, pour toutx0, . . . , xn ∈E,

P(X0=x0, . . . , Xn =xn) =P(X0=x0)Q(x0, x1). . . Q(xn−1, xn).

Démonstration. Immédiate par récurrence à partir de la définition.

(16)

La proposition permet d’obtenir les résultats suivants.

Proposition 4.1.4. Soit(Xn)n une chaîne de Markov de matrice de transition Q.

i) Si P(X0=x0)>0,P(Xn =xn| X0=x0) =Qn(x0, xn).

ii) Sif :E→R est mesurable et intégrable,

E[f(Xn+1)| X0, . . . , Xn] =Qf(Xn) =X

y∈E

Q(Xn, y)f(y).

iii) Pour p≥1,

E[f(Xn+p)| Xn] =Qpf(Xn).

Démonstration. Exercice !

Dans la suite, on notera souvent Px(·) = P(· |X0=x), et Pµ la loi de (Xn)n lorsqueX0∼µ. Ainsi,

Eµ[f(Xn)] =µQnf = X

x∈E

µ(x)Qnf(x).

4.2 Propriété de Markov

Propriété de Markov simple

Définition 4.2.1. Si X = (X1, X2, . . .)∈ EN, on définit un opérateur de translationθn:EN→EN par

θnX = (Xn+1, Xn+2, . . .) = (Xn+k)k≥1.

Théorème 29(Propriété de Markov simple). Soitf :EN→R+ une fonction mesurable positive, alors

E[f(θnX)| X0, . . . , Xn] =EXn[f(X)].

Autrement dit, la loi de la chaîne de Markov à partir de l’instant n+ 1 sachant le passé est la loi de la chaîne de valeur initiale Xn.

Propriété de Markov forte Ce résultat s’étend également au cas où l’ins- tantnest aléatoire, sous certaines hypothèses. NotonsFn=σ(X0, . . . , Xn) = σ({{X0=x0, . . . , Xn=xn}, x0, . . . , xn∈E})la filtration canonique associée à(Xn)n.

Définition 4.2.2. SoitT un temps d’arrêt, on définit la tribuFT par FT ={A∈σ(∪nFn) :A∩ {T =n} ∈ Fn}.

La tribu FT contient l’information disponible sur le processus (Xn)n au temps T. On a alors la généralisation suivante de la propriété de Markov simple.

Théorème 30 (Propriété de Markov forte). Soit X= (Xn)n une chaîne de Markov de matrice de transition Qet soit T un temps d’arrêt pour(Fn)n. Soientf et g deux fonctions mesurables positives surEN. Supposons que la variable aléatoire f◦X est mesurable par rapport à la tribuFT. Alors,

E[1T <∞f(X)g(θTX)] =E[1T <∞f(X)EXT [g(X)]],

où la v.a.EXT[g(X)], définie sur l’événement {T <∞}, est la composée des applicationsω7→XT(ω)(ω) etx7→Ex[g(X)].

Remarque. En comparant cet énoncé à la Proposition 2.2.1, on peut réécrire le Théorème ci-dessus de la manière suivante,

E[1T <∞g(θTX)| FT] =1T <∞EXT [g(X)].

4.3 Irréductibilité, mesure invariante

Définition 4.3.1. Soit Q une matrice de transition sur E. Une mesure µ= (µ(x))x∈E sur E est dite invariante si

∀y∈E, X

x∈E

µ(x)Q(x, y) =µ(y).

Ce qui s’écrit égalementµQ=µ.

Exemple. Si (Xn)n est une marche aléatoire symétrique sur Zd, alors la mesure de comptage µ(x) = 1 est invariante.

Remarque. Si µ est une probabilité invariante (i.e. P

xµ(x) = 1) et si X0∼µ, alors Xn∼µ pour toutn∈N.

(17)

On dit qu’une mesureµsurE est réversiblesi, pour tousx, y∈E, µ(x)Q(x, y) =µ(y)Q(y, x).

On vérifie aisément que toute mesure réversible est invariante.

La première question qu’il est naturel de se poser est celle de l’existence de mesures invariantes.

Définition 4.3.2. Soitx∈E. On note Tx le premier instant de retour enx de la chaîne de Markov :

Tx= inf{n≥1 :Xn =x}.

L’état x est dit récurrent si Px(Tx<∞) = 1, il est dit transitoire (ou transient) si Px(Tx<∞)<1.

On montre (cf. TD) que sixest récurrent, alors, Px-presque sûrement,Xn

passe une infinité de fois par l’étatx, et que, sixest transitoire, la chaîne ne passe qu’un nombre fini de fois enx.

L’existence d’un état récurrent permet de construire une mesure invariante en sommant sur toutes les excursions possibles entre deux passages enx.

Théorème 31. Soitx∈E un état récurrent, alors µx(y) =Ex

"Tx−1 X

n=0

1Xn=y

#

définit une mesure invariante.

La deuxième question naturelle est celle de l’unicité de la mesure inva- riante. Le premier cas à évacuer est celui où plusieurs états récurrents ne

"communiquent" pas.

Définition 4.3.3. Une matrice de transitionQest diteirréductiblesi, pour tousx, y∈E, il existe n≥1 tel queQn(x, y)>0.

Exemple. Une marche aléatoire simple sur un graphe connexe est irréductible.

Proposition 4.3.4. Soit(Xn)n une chaîne de Markov irréductible, alors soit tous les états sont récurrents, soit ils sont tous transitoires. SiE est fini, seul le premier cas peut se produire.

L’idée de la preuve consiste à dire que si Xn visite l’état x une infinité de fois, et queP(Xn+p=y| Xn =x)>0, alors, en utilisant la propriété de Markov forte, on montre queXn visite l’étaty une infinité de fois.

Le résultat suivant montre que l’unicité est automatique dans le cas irréduc- tible récurrent.

Théorème 32. Soit (Xn)n une chaîne de Markov irréductible récurrente, alors la mesure invariante est unique à une constante multiplicative près.

Une preuve dans un cas particulier est donnée dans le TD.

La dernière question à laquelle on souhaite répondre est celle de l’existence d’une probabilité invariante,i.e.d’une mesure invariante de masse totale finie (si c’est le cas on peut toujours renormaliser pour obtenir une probabilité).

Proposition 4.3.5. Soit(Xn)nune chaîne de Markov irréductible récurrente.

i) Soit il existe une probabilité invarianteπ, et alors, pour tout x∈E, Ex[Tx] = 1

π(x).

Ce cas est appelé cas récurrent positif, c’est toujours le cas qui se produit siE est fini.

ii) Soit toute mesure invariante a une masse totale infinie, et, pour tout x∈E,

Ex[Tx] =∞.

Ce cas est appelé cas récurrent nul.

SiEest fini, seul le premier cas peut se produire. Comme corollaire de ce résultat, on montre que, pour une chaîne de Markov irréductible, l’existence d’une probabilité invariante suffit à assurer que tous les états sont récurrents.

Proposition 4.3.6. Soit (Xn)n une chaîne de Markov irréductible. Les trois propositions suivantes sont équivalentes.

i) Il existe x∈E tel queEx[Tx]<∞.

ii) Il existe une probabilité invarianteπ.

iii) la chaîne (Xn)n est récurrente positive.

4.4 Comportement asymptotique

On conclut avec un résultat d’ergodicité dans le cas récurrent positif.

Théorème 33. Soit (Xn)n une chaîne de Markov irréductible récurrente positive, de probabilité invariante π. Alors,

1 n

n

X

k=0

f(Xk) −→

n→∞hπ, fi, Px−p.s.

oùhπ, fi=πf =P

x∈Eπ(x)f(x).

(18)

Ainsi, dans ce cas, la chaîne de Markov "oublie" son état initial et "converge"

vers sa loi stationnaire.

Proposition 4.4.1. Soit(Xn)nune chaîne de Markov irréductible récurrente, alors, pour toutx∈E,

i) dans le cas récurrent positif, 1 n

n

X

k=0

1Xn=x

−→p.s.

n→∞π(x)>0,

ii) dans le cas récurrent nul, 1 n

n

X

k=0

1Xn=x

−→p.s.

n→∞0.

Ce résultat est à l’origine de la terminologie "récurrent positif/nul".

(19)

Annexe A

Inégalités usuelles

Bienaymé-Chebyshev Pour toutp≥1 et touta >0, P(|X| ≥a)≤ E[|X|p]

ap . (A.1)

Cauchy-Schwarz PourX, Y ∈L2,

|E[XY]| ≤E X21/2

E Y21/2

.

Jensen Soitφ:R→Rmesurable convexe, alors E[φ(X)]≥φ(E[X]), si le membre de gauche est bien défini.

Hölder Si 1p+1q = 1,p, q∈[1,∞], pour X∈Lp, Y ∈Lq, E[|XY|]≤E[|X|p]1/pE[|Y|q]1/q. Minkowski Sip∈[1,∞], pourX, Y ∈Lp,

E[|X+Y|p]1/p≤E[|X|p]1/p+E[|Y|p]1/p.

(20)

Bibliographie

[1] Paolo Baldi, LaurentMazliaket Pierre Priouret. Martingales et chaînes de Markov : théorie élémentaire et exercices corrigés. Hermann, 2000.

[2] PhilippeBarbeet MichelLedoux.Probabilités. Belin, 1998.

[3] Michel Benaïmet NicoleEl Karoui.Promenade aléatoire : chaînes de Markov et simulations : martingales et stratégies. Editions Ecole Polytechnique, 2005.

[4] Patrick Billingsley. Probability and measure. John Wiley & Sons, 2008.

[5] Kai LaiChung.Markov chains. Springer, 1967.

[6] RickDurrett.Probability : theory and examples. Cambridge university press, 2010. url: https://www.math.duke.edu/~rtd/PTE/PTE4_1.

pdf.

[7] WillliamFeller.An introduction to probability theory and its applica- tions. John Wiley & Sons, 2008.

[8] CarlGraham.Chaînes de Markov : cours, exercices et corrigés détaillés.

Dunod, 2008.

[9] OlavKallenberg. Foundations of modern probability. springer, 2002.

[10] Jean-François Le Gall. “Intégration, probabilités et processus aléa- toires”. In : Ecole Normale Supérieure de Paris (2006). url : http:

//www.math.u-psud.fr/~stafav/IMG/pdf/Legall.pdf.

[11] SylvieMéléard.Aléatoire : Introduction à la théorie et au calcul des probabilités. Editions Ecole Polytechnique, 2010.

[12] James R.Norris.Markov chains. Cambridge university press, 1998.

[13] DanielRevuz.Probabilités. Hermann, 1997.

[14] Daniel W. Stroock. An introduction to Markov processes. T. 230.

Springer Science & Business Media, 2005.

Références

Documents relatifs

Bien qu'on ait mauvaise grâce à parler de soi, je crois pouvoir rappeler que j'avais remis au mois de septembre 1870 à Gerono l'Article qui a paru au mois de décembre dé la même

Il faut se rappeler que, dans la géométrie algorithmique, un point est donne dans un plan par ses trois distances aux côtés d'un triangle fixe dit de référence, et dans Vespace

Soit r u^i nombre entier quelconque} si a et h dé- signent deux nombres composants de N, il faut, d'après ce qui précède, pour obtenir un produit maximum, que ces deux nombres

Mais l'intersection de ces tangentes est la même que celle des droites M, N 5 donc ce point d'intersection est le pôle de la droite L ; on démontre que l'intersection de N et de L

Lemme, Si l'on divise en parties égales les angles d'un triangle, ainsi que les suppléments de ces angles, pour avoir le centre du cercle inscrit et ceux des cercles ex- inscrits,

et, par suite, a et (3 exprimés rationnellement en fonc- tion des autres racines : ces racines y entreront par l'in- termédiaire des trois fonctions p, 9, r, dont les deux pre-

(voir t. Soient ABC le triangle, O le point commun d'intersection.. Stubbs peut aussi se démontrer d'une manière très-simple : en faisant passer par le point commun d'intersection

En outre, le dernier membre n'est pas l'unité, mais une fonction des côtés du triangle, fonction qui sera trouvée sans doute par ceux qui voudront bien prendre la peine de démontrer