Ind´ependance, esp´erance conditionnelle - ELEMENTS DE CALCUL STOCHASTIQUE

D´efinition 1.15 SoitX une v.a.r. telle que Z

On d´efinit alors l’esp´erance deX par E[X] =

Il existe des variables aléatoires qui n’ont pas d’espérance, c’est-à-dire pour lesquelles l’intégrale R

et doncE[X] n’a pas de sens. On dit queXestintégrablequand on peut définir son espérance, autrement dit si|X|a une espérance finie. On noteL¹(Ω,F,P) (ouL¹(Ω) quand il n’y a pas d’ambigu¨ıté) l’ensemble des v.a. intégrables. De la même fa¸con, on définit

L^p(Ω,F,P) =

1.2. IND ÉPENDANCE, ESP ÉRANCE CONDITIONNELLE 9 L²(Ω,F) des v.a. de carré intégrable joue un rôle essentiel : c’est un espace de Hilbert, muni du produit scalaire < X, Y >=E(XY).

Si Φ :R→Rest une fonction borélienne telle que Φ(X) soit intégrable (ce qui a lieu par exemple si Φ est bornée, puisqueL^∞(Ω)⊂L¹(Ω)), on note

E[Φ(X)] = Z

Ω

Φ(X)dP = Z

Φ(x)dP_X(x).

Dans cette formule, on a vu la loi de Φ(X) comme l’image par Φ de la loi dePX. On peut aussi utiliser la formule directe

E[Φ(X)] = Z

xdPΦ(X)(x),

mais alors il faut calculer la mesure PΦ(X), ce qui est parfois difficile. La fonction caract´eristique ou transform´ee de Fourierd’une v.a.r.X, est la fonction

ψX(t) = E[e^itX] = Z

e^itxPX(dx).

Elle est toujours définie puisqueeîtX∈L^∞,et caractérise la loi deX au sens suivant : Théorème 1.16 SoientX etY deux v.a.r. On a l’équivalence

X =^d Y ⇐⇒ ψX(t) =ψY(t)pour toutt∈R.

Si la transformée de Fourier ψX(t) appartient à L¹(dt), c’est-à-dire si son module est intégrable par rapport à la mesure de Lebesgue dt, alors X a une densité fX donnée par la formule d’inversion de Fourier :

fX(x) = 1 2π

Z _∞

−∞

e^−itxψX(t)dt QuandX est positive, on peut d´efinir satransform´ee de Laplace:

ϕX(λ) = E[e^−λX] pour toutλ >0, qui caract´erise aussi la loi deX :

Théorème 1.17 SoientX etY deux v.a.r. positives. On a l’équivalence X =^d Y ⇐⇒ ϕX(λ) =ϕY(λ)pour tout λ >0.

Cependant, il n’y a pas de formule d’inversion simple pour les transformées de Laplace comme pour les transformées de Fourier. Dans certains cas, on peut définir les transformées de Laplace de variables non nécessairement positives :

Exemple 1.18 Transformée de Laplace d’une v.a. gaussienne :SoitX une variable gaussienne de loiN(m, σ²), i.e. une v.a.r. de densité donnée par

fX(x) = 1

√2πσe^−(x−m)²^/2σ².

On a alors E[e^λX] = e^(λm+λ²^σ²^/2) pour tout λ ∈ R. R´eciproquement, si X une v.a.r. ayant cette transform´ee de Laplace, alorsX ∼N(m, σ²).

Quand ϕX(λ) est d´efinie sur un voisinage ouvert contenant 0, leprincipe du prolongement analytique permet d’´ecrire ψX(t) =ϕX(it).Ainsi, pourX ∼N(m, σ²),on aψX(t) = e^(itm−t²^σ²^/2).

Propriétés de l’espérance.(a) Linéarité : siX, Y sont des v.a.r. intégrables, alors pour touta, b∈R aX+bY est intégrable etE[aX+bY] =aE[X] +bE[Y].

(b) Positivit´e : siX ≤Y p.s. alors E[X]≤E[Y]. En particulier, siX ≥0 p.s. alorsE[X]≥0. De plus, siX ≥0 p.s. et siE[X] = 0, alorsX = 0 p.s.

10 CHAPITRE 1. NOTIONS G ÉN ÉRALES DE PROBABILIT ÉS (c) Inégalité de Jensen : si Φ est une fonction convexe et X une v.a.r. telle que Φ(X) est intégrable, alors

E[Φ(X)]≥Φ(E[X]).

En particulier, x7→x^p, p ≥1 etx7→ e^x sont des fonctions convexes et on aE[X^p] ≥(E[X])^p, p ≥1 et E[e^X] ≥eÊ[X]. En revanche, x7→x^p, p∈ [0,1] et x7→logx sont des fonctions concaves (soit l’op-posé d’une fonction convexe), et on a les inégalités en sens inverse : E[X^p] ≤ (E[X])^p, p ∈ [0,1] et E[logX]≤log(E[X]).

SoitX ∈L¹; considérons Xn = X11_|X|>n → 0 p.s. quand n ↑ +∞. Comme|Xn| ≤ |X| ∈ L¹, le théorème de convergence dominée de Lebesgue assure que

E[|Xn|] → 0 quand n↑+∞. Ceci motive la d´efinition suivante :

Définition 1.19 Une famille{Xi, i∈I} de v.a.r. dansL¹(Ω)est dite uniformément intégrable (U.I.) si

sup

i∈I E[|Xi|11_|X_i_|>n] → 0 quandn↑+∞.

On vient de voir queE[|Xi|11_|X_i_|>n]→0 quandn↑+∞pour chaquei∈I. La subtilité de l’uniforme intégrabilité vient de ce que l’on demande à cette convergence d’être uniforme sur I. Remarquons cependant que s’il existeY ∈L¹(Ω) telle que|Xi| ≤Y pour touti∈I, alors la famille {Xi, i∈I}est U.I. La notion d’uniforme intégrabilité joue un rôle primordial en théorie des martingales. Venons-en maintenant à une définition bien connue :

Définition 1.20 Soit(Ω,F,P) un espace de probabilité. On dit que deux sous-tribus F1 et F2 sont indépendantes si P[A∩B] = P[A]P[B] pour toutA∈C₁ etB∈F₂. On notera alorsF₁⊥F₂. Par classe monotone, remarquons que pour que F1 et F2 soient indépendantes, il faut et il suffit que P[A∩B] =P[A]P[B] pour toutA∈C1et B∈C2,oùCi est une famille stable par intersection finie et telle queσ(Ci) =Fi, i= 1,2.

Définition 1.21 Une variable aléatoire X est indépendante d’une sous-tribu G si les tribus σ(X) et G sont indépendantes. En particulier, deux variables X et Y sont indépendantes si les tribus σ(X) et σ(Y)sont indépendantes.

Par théorème de classe monotone, on voit qu’une v.a. X est indépendante de la sous-tribu G si et seulement siP[A∩ {X≤x}] =P[A]P[X ≤x] pour toutx∈Ret A∈G.Ainsi, deux v.a.r.X etY sont indépendantes si et seulement si P[X ≤x, Y ≤y] =P[X ≤x]P[Y ≤y] pour toutx, y ∈R. Un autre critère utile est le suivant :

X⊥Y ⇐⇒ E[eîtXeîsY] =E[eîtX]E[eîsY] pour touts, t∈R.

SiXetY sont à valeurs positives, on peut considérer les transformées de Laplace au lieu des transformées de Fourier. Enfin, si X et Y sont des variables indépendantes ayant une densité surR, alors le couple (X, Y) a une densité sur R² donnée par laformule du produit:

fX,Y(x, y) = fX(x)fY(y).

Définition 1.22 Une famille de sous-tribus {Fi, i∈I} est indépendante si toutes les sous-familles finies le sont, c’est-à-dire si

P[Ai1∩. . .∩Ain] = Yn

k=1

P[Aik] pour toutn≥2 et pour toutAik∈Fik avecik1 6=ik2 sik16=k2.

La d´efinition est identique pour une famille de variables al´eatoires. L’exercice suivant (lemme de Borel-Cantelli) est classique :

1.2. IND ÉPENDANCE, ESP ÉRANCE CONDITIONNELLE 11 Exercice 1.23 Soit{An, n≥1}une famille d’événements de (Ω,F,P). On pose

E = \

n≥1



[

k≥n



.

(a) Montrer que si la série de terme généralP[An] est convergente, alorsP[E] = 0.

(b) Montrer que si la série de terme général P[An] est divergente et que si lesAn sont mutuellements indépendants, alors P[E] = 1.

La notion suivante jouera un rˆole fondamental dans la suite :

Théorème 1.24 Soit (Ω,F,P) un espace de probabilité, G une sous-tribu de F et X une v.a.r.

int´egrable. Il existe une unique v.a.r. Z G-mesurable telle que E[X11A] = E[Z11A]

pour tout A ∈G. On appelle Z l’espérance conditionnelle deX sachant G et on note Z =E[X |G] Elle est caractérisée par

E(XG) =E(ZG),∀G,v.a. born´eeG-mesurable.

Quand X ∈L²(Ω),il existe une importante interprétation hilbertienne de l’espérance conditionnelle : E[X|G] est la projection deXsur l’espace des v.a.G-mesurables de carré intégrable, c’est-à-dire l’unique v.a.G mesurable qui minimiseE[(X−Y)²] parmi les v.a.Y qui sontG- mesurables. QuandG =σ(Y) pour une certaine v.a. Y, on note parfois E[X|G] = E[X|Y] (espérance conditionnelle sachant Y).

Le point important est qu’il s’agit d’une variable mesurable par rapport à σ(Y) et donc une fonction déterministe deY : il existeψ:R→Rborélienne telle queE[X|Y] =ψ(Y). En général il est cependant difficile de calculer ψexplicitement. La caractérisation de E[X|Y] est la suivante : c’est l’unique v.a.

de la formeψ(Y) oùψ est une fonction borélienne (définiePY p.s.) telle que E[Xϕ(Y)] = E[ψ(Y)ϕ(Y)]

pour toute fonction ϕborélienne bornée. En plus de la linéarité et de la positivité (analogues à celles de l’espérance classique), l’espérance conditionnelle possède les propriétés suivantes (les égalités entre v.a. sont p.s.) :

(a)E[E[X|G]] = E[X].

(b) SiX estG-mesurable,E[X|G] =X.

(d) SiG est la tribu triviale,E[X|G] =E[X].

SiY estG-mesurable etXY in´egrable,E[XY |G] =YE[X|G]

(g) SiX ⊥Y et siϕ:R²→Rest une fonction bor´elienne born´ee, alorsE[ϕ(X, Y)|Y] =E[ϕ(X, y)]y=Y : pour calculerE[φ(X, Y)|Y], on explicite la fonction Ψ telle que Ψ(y) =E[φ(X, y)], puis on rem-placey parY pour obtenir la v.a. Ψ(Y).

Exercice 1.25 SoitX une variable positive sur (Ω,F,P) etG une sous-tribu deF. Montrer que p.s.

(a){E[X|G] = 0} ⊂ {X= 0}. (b){X= +∞} ⊂ {E[X|G] = +∞}. Exercice 1.26 * SoitZ ∈L¹(Ω,F,P).

(a) Montrer que pour toutε >0 il existeδ >0 tel queP[A]< δ =⇒E[|X|11A]< ε.

(b) SoitG={G ⊂F}une famille de sous-tribus deF. D´eduire du (a) que la famille{E[X|G], G ∈G}

est U.I.

12 CHAPITRE 1. NOTIONS G ÉN ÉRALES DE PROBABILIT ÉS Densité conditionnelle : soit (X, Y) un couple de v.a.r. ayant une densité f(x, y). Les densités marginales deX etY sont données par

fX(x) = Z

f(x, y)dy et fY(y) = Z

f(x, y)dx.

Quand X ⊥ Y on a la formule du produit : f(x, y) = fX(x)fY(y). Quand X et Y ne sont plus indépendantes, la formule du produit est remplacée par une formule dedésintégration: on pose

fX/Y=y(x) =f(x, y) fY(y)

sifY(y)6= 0 etfX/Y=y(x) = 0 sifY(y)6= 0, et on remarque que nécessairementf(x, y) =fX/Y=y(x)fY(y) p.s. en (x, y). En effet, sifY(y) = 0, alorsf(x, y) = 0 p.s. enxvu quef(x, y)≥0. La fonctionfX/Y=y(x) peut être vue comme ladensité conditionnelledeX sachantY =y. En effet pour toute fonctionψ me-surable bornée on a

R²

ψ(x, y)fY(y)fX/Y=y(x)dxdy = E[ψ(X, Y)] = E[E[ψ(X, Y)|Y]]

= Z

fY(y)E[ψ(X, y)|Y]Y=ydy d’o`u l’on d´eduit Z

ψ(x, y)f_X/Y_=y(x)dy = E[ψ(X, y)|Y]Y=y

par identification, ce qui signifie bien quefX/Y=y(x) est la densit´e conditionnelle deX sachantY =y.

On peut définirf_{Y /X}_=x(y), densité conditionnelle deY sachantX =x, de manière analogue.

Dans le document ELEMENTS DE CALCUL STOCHASTIQUE (Page 8-12)