• Aucun résultat trouvé

1 Variable aléatoire, loi d’une variable aléatoire, espérance

N/A
N/A
Protected

Academic year: 2022

Partager "1 Variable aléatoire, loi d’une variable aléatoire, espérance"

Copied!
12
0
0

Texte intégral

(1)

Université Paris-Dauphine 2018-2019 Cours de “Intégrale de Lebesgue et probabilités" Novembre 2018

Chapitre 7 - Fondement des probabilités

Table des matières

1 Variable aléatoire, loi d’une variable aléatoire, espérance 1

2 Indépendance 5

3 Convergence en loi et applications 7

4 Vecteurs Gaussiens 9

5 Lexique 12

Dans ce chapitre on désigne par(Ω,A, P)un espace probabilisé, c’est-à-dire, un espace mesurable (Ω,A)muni d’une probabilité P. Sont écrites en rougeles parties hors programme, en violetles parties traitées en TD (résultats à connaitre pour sa culture) et enbleu les parties modifiées par rapport au cours en amphi.

1 Variable aléatoire, loi d’une variable aléatoire, espérance

Une variable aléatoireX est une application mesurable définie sur un espace probabilisé(Ω,A, P) et à valeurs dans un espace mesurable(E,E). Sans précision supplémentaire, on utilisera le terme variable aléatoire pour désigné habituellement une variable aléatoire réelle, c’est-à-dire, à valeurs dans(R,B(R)). On utilisera également l’acronyme “var”. On dira que X est un vecteur aléatoire lorsque(E,E) = (Rd,B(Rd)),d≥2.

Dans ce cours, l’espace probabilisé(Ω,A, P)sera fixé et on considérera diverses variables aléatoires définies sur cet espace (dont on étudiera des propriétés). Au moment de “construire” les objets (Ω,A, P)etX, il est parfois utile de procéder dans le sens inverse. On fixe(Ω,A),(E,E) = (Ω,A), X =l’identité, soit doncX(ω) =ω pour toutω∈Ω, et on construitP.

Le vocabulaire en théorie des probabilités est sensiblement différent de celui de la théorie de la mesure et de l’intégration vue jusqu’à maintenant. On le gardera pour des objets “probabilistes”

qui sont par essence connus “sans certitude”. Un petit lexique de correspondances est donné à la fin du chapitre.

Définition 1.1 On appelle loi de X la mesure image X]P de P par X sur (E,E). On notera L(X) =PX =X]P(=X(P))etX ∼ L(X). On a donc par définition

∀B∈ E, PX(B) :=P(X ∈B).

En particulier, PX est une mesure de probabilité.

(2)

Exemples 1.2 (de mesures/lois de probabilité)

(i) DansΩ :={a, b}, on appelle loi de Bernouilli de paramètrep∈[0,1]la mesure de probabilité P :=pδb+ (1−p)δa.

C’est la loi de probabilité d’un lancé d’une pièce (éventuellement truquée) dont la réalisation est a (disons pile) avec probabilité 1−pet b(disons face) avec probabilitép.

(ii) Dans Ω :={1, . . . , n}, on appelle loi uniforme la mesure de probabilité P :=

n

X

i=1

1 nδi.

(iii) DansΩ :={0, . . . , n}, on appelle binomiale de paramètresn≥1etp∈[0,1], on noteB(n, p), la mesure de probabilité

P:=

n

X

k=0

Cnkpk(1−p)n−kδk.

La loiB(1, p)est une loi de Bernouilli sur {0,1}.

(iv) Dans Ω := N, on appelle loi de Poisson de paramètre λ > 0, on note P(λ), la mesure de probabilité

P :=e−λ

X

k=0

λk k!δk.

(v) DansΩ := [a, b], on appelle loi uniforme, on note U(a, b), la mesure de probabilité

P:= 1 b−adx

(vi) DansΩ :=R+, on appelle loi exponentielle de paramètreλ >0, on noteExp(λ), la mesure de probabilité

P :=λe−λxdx.

Définition 1.3 DansΩ :=R, on appelle loi gaussienne unidimensionnelleN(µ, σ2)de paramètres σ >0 etµ∈R, la mesure de probabilité

P =gλ,σ(x)dx, gλ,σ:= 1

√2πσexp

−(x−µ)22

.

Par extension, on appelle loi gaussienne unidimensionnelleN(µ,0)de paramètresσ= 0 etµ∈R, la mesure de Diracδµ. On dit que la loi gaussienne est

— (centrée) réduite siµ= 0et σ= 1;

— centréesiµ= 0;

— dégénéréesiσ= 0(elle n’a alors pas de densité par rapport à la mesure de Lebesgue).

Définition 1.4 SoitX une variable aléatoire à valeurs positives ou intégrable à valeurs dansRd. On appelle espérance deX, on note E(X), la quantité

E(X) = Z

XdP ∈[0,∞] ouRd.

Lemme 1.5 (de transport) Soit X une variable aléatoire à valeurs dans(E,E), φ: (E;E) → (R,B(R))une fonction mesurable avecφ≥0 ouφ∈L1, alors

E(φ(X)) = Z

φ◦XdP = Z

E

φ(x)dPX(x), et ces quantités sont bien définies.

(3)

L’inégalité de Tchebychev s’écrit également

Proposition 1.6 (Inégalité de Markov) SiX ≥0 eta >0, alors P(X ≥a)≤1

aE(X).

Définition 1.7 SoitX une variable aléatoire réelle de carrée intégrable, noteX ∈ L2. On appelle variance de X, on note Var(X), la quantité

Var(X) :=E((X−E(X))2) =E(X2)−(E(X))2.

Plus généralement, si X une variable aléatoire L2 à valeurs dans Rd, on définit la matrice de covariance comme étant la matrice de coefficients

cov(Xj, Xk) =E[(Xj−EXj)(Xk−EXk)] =E(XjXk)−E(Xj)E(Xk).

Exemples 1.8 - SiX ∼ B(n, p), alors E(X) =np et Var(X) =np(1−p).

- SiX ∼ N(µ, σ2), alors E(X) =µ et Var(X) =σ2. - SiX ∼ P(λ), alorsE(X) =λet Var(X) =λ.

- SiX ∼ Exp(λ), alors E(X) = 1/λet Var(X) = 1/λ2.

Proposition 1.9 Si X∈ L2 alors

E[(X−a)2] =Var(X) + (E(X)−a)2, ∀a∈R, et en particulier

Var(X) = min

a∈R

E[(X−a)2].

Preuve de la Proposition 1.9. Il suffit de développer

E[(X−a)2] =E[X2]−2aE[X] +a2=E[X2]−(E(X))2+ (E(X)−a)2,

et de prendre éventuellementa:=E(X). tu

Proposition 1.10 (inégalité de Bienaymé-Tchebychev) Si X∈ L2 eta >0, alors P(|X−EX| ≥a)≤ 1

a2Var(X).

Preuve de la Proposition 1.10. Il suffit d’appliquer l’inégalité de Markov à la var(X−EX)2. tu Il existe différentes façons de caractériser la loi d’une variable aléatoire.

Définition 1.11 Pour un vecteur aléatoire X, on appelle fonction caractéristique de X, on note ϕX, la transformée de Fourier de la loiPX qui est désormais définie par

ϕX(ξ) :=

Z

Rd

eiξ·xdPX(x) =E(eiξ·X), ∀ξ∈Rd.

Attention à la convention de signe qui a changée par rapport au chapitre précédent. La fonction caractéristiqueϕX caractérise la loi deX, puisque la transformation de Fourier caractérisant une mesure de probabilité : si ϕX est la transformation de Fourier d’une mesure de probabilitéµ, alors X ∼µ.

Exemples 1.12 (i) ϕ(t) := (1−it/λ)−1 est fonction caractéristique de X∼ Exp(λ).

(ii) ϕ(t) := exp(λ(eit−1))est fonction caractéristique de X ∼ P(λ).

(iii)ϕ(t) := exp(µit−σ2t2/2) est fonction caractéristique de X∼ N(µ, σ).

(4)

Définition 1.13 Pour une va réelle X, on appelle fonction de répartition deX, on note FX, la fonction de répartition de la loiPX. On a donc

∀t∈R, FX(t) =PX(]− ∞, t]) =P(X≤t) =E(1X≤t).

Plus généralement, pour un vecteur aléatoireX, on appelle fonction de répartition de X, on note FX, la fonction de répartition de la loiPX. On a donc

∀(t1, . . . , td)∈Rd, FX(t1, . . . , td) = PX(]− ∞, t1]× · · · ×]− ∞, td])

= P(X1≤t1, . . . , Xd≤td).

= E(1X1≤t1,...,Xd≤td).

La fonction de répartitionFX caractérise la loi deX puisque la fonction de répartition caratctérise une mesure de probabilité : siFX est la fonction de répartition d’une mesure de probabilitéµ, alors X ∼µ.

Exemples 1.14 (i) F(t) := 1−e−λt est fonction de répartition de la loi exponentielleExp(λ).

(ii) F := 1[x,∞[ est la fonction de répartition de la masse de Dirac δx, x ∈ R, donc d’une var X =aps.

(iii)F(t) :=P

0≤k≤nCnkpk(1−p)n−k1[k,∞[(t)est fonction de répartition de la loi binomialeB(n, p).

(iii)F(t) :=t est la fonction de répartition de la loi uniformeU[0,1].

Définition 1.15 Pour un vecteur aléatoire X à valeurs dans Rd, on appelle fonction génératrice de moments, on noteMX, la transformée de Laplace de la loiPX si celle-ci est définie. Plus pré- cisément, en supposant qu’il exister >0 tel queer|X|∈ L1 et en notantr∈(0,∞]le suppremum de ces nombres, on définit

MX(z) :=

Z

Rd

ez·xdPX(x) =E(ez·X), ∀z∈Cd,|z|< r.

Lemme 1.16 Lorsque celle-ci est définie, la fonction génératrice de momentsMX caractérise la loi deX puisque la fonction génératrice de moments caratctérise une mesure de probabilité : siMX est la fgénératrice de moments d’une mesure de probabilitéµ, alors X∼µ. De plus, en dimension d= 1 (pour simpifier), on a

GX(z) =X

n≥0

zn

n!E(Xn), ∀z∈C,|z|< r.

Afin de voir que la fonction génératrice de momentsMX caractérise la loi deX, on peut remarque que dzdnnMX(0) =E(Xn), et que ceux-ci caractérisent la loi deX d’après le corollaire VI.2.9. du théorème de Weierstrass.

Définition 1.17 Pour une vaX à valeurs dansN, la fonction génératrice deX est la série entière

GX(t) :=E(tX) =

X

k=0

tkP(X=k) =

X

k=0

tkPX(k), ∀t∈R,|t| ≤1.

Exemples 1.18 Pour la loi de Poisson P(λ), on calcule la fonction génératrice des moments MX(t) =E(etX) = exp(λ(et−1)), fonction génératrice GX(t) =E(tX) =eλ(t−1).

Pour la loi exponentielleExp(λ), on calcule la fonction de répartitionFX= 1−e−λt et la fonction génératrice des momentsMX(t) = (1−t/λ)−1.

(5)

2 Indépendance

Le concept probablement le plus central de la théorie des probabilités est celui d’indépendance, dont nous rappelons la définition la plus simple.

Définition 2.1 Deux évenementsA etB sont indépendants (on noteA⊥⊥B?) si P(A∩B) =P(A)P(B).

Une famille d’évenements (Ai)i∈I est mutuellement indépendante si pour toutJ ⊂I fini P \

j∈J

Aj

=Y

j∈J

P(Aj).

Définition 2.2 Une famille(Ci)i∈I d’ensembles d’événements (sous-tribus, algèbres) est mutuelle- ment indépendante si toute famille d’évènements(Ai)i∈I,Ai∈Ci, est mutuellement indépendante.

Lemme 2.3 Deux algèbresC1 etC2 sont indépendantes si, et seulement si, les deux tribus σ(C1) et σ(C2) sont indépendantes. De la même manière, n algèbres C1, . . . ,Cn sont indépendantes si, et seulement si, les n tribus σ(C1), . . . , σ(Cn)sont indépendantes, une famille d’algèbres (Ci)i∈I est mutuellement indépendante si, et seulement si, la famille de tribus(σ(Ci))i∈I est mutuellement indépendante. En particulier, des événementsAi, i∈I, sont indépendants si, et seulement si, les tribusσ(Ai),i∈I, sont indépendantes.

Preuve du Lemme 2.3. C’est un argument de classe monotone. On ne traite que le cas n= 2. On noteBi:=σ(Ci). PourC1∈C1fixé, on définit

M1:={B1∈B1, P(B1∩C2) =P(B1)P(C2)}.

On aC1⊂ M1⊂B1 par hypothèse etM1est clairement une classe monotone. Par le lemme des classes monotones, on obtientM1=B1. On fixe maintenantB1∈B1 et on définit

M2:={B2∈B2, P(B1∩B2) =P(B1)P(B2)}.

De la même manière, on montreM2=B2, ce qui suffit pour conclure. tu Corollaire 2.4 Soit(Ai)i∈I une famille de sous-tribus,(J`)`∈L une partition de l’ensemble d’in- dices I etB`:=σ(Ai, i∈J`). Si la famille(Ai)i∈I est indépendante alors la famille (B`)`∈L est indépendante.

Définition 2.5 Une famille de variables aléatoires (Xi)i∈I est mutuellement indépendante si la famille des tribus engendrées (σ(Xi))i∈I est mutuellement indépendante.

Théorème 2.6 Une famille finie de variables aléatoires X = (Xj)j∈J,J :={1, . . . , n}, à valeurs dans (E,B) est mutuellement indépendante si, et seulement si, l’une des conditions équivalentes suivantes est réalisée

(1) pour tous les ensembles mesurables Bj ∈ B,

P(Xj ∈Bj,∀j∈J) =Y

j∈J

P(Xj∈Bj);

(2) la loi conjointe desXj,j∈J, est le produit des lois marginales, soit donc

PX=P(X1,...,Xn)=PX1⊗ · · · ⊗PXn;

(6)

(3) pour toute famille (φj)j∈J de fonctions boréliennes telles queφj ≥ 0 pour tout j ∈J ou φj(Xj)est intégrable pour toutj∈J, on a

E Y

j∈J

φj(Xj)

=Y

j∈J

E φj(Xj) .

Si les Xi sont réelles (ou à valeurs dansRd), ces conditions sont également équivalentes à (4) la fonction caractéristique du vecteur aléatoire X est le produit (tensoriel) des fonctions

caractéristiques desXj :

ϕX(ξ) =

n

Y

j=1

ϕXjj), ∀ξ= (ξj1, . . . , ξjn).

En particulier, si (X1, . . . , Xn) ∈ L2 est une famille de var indépendantes alors la matrice de covariance associée est diagonale (mais la réciproque est fausse en général !).

Preuve du Théorème 2.6. On procède en plusieurs étapes.

Etape 1. En rapelant que σ(Xj) = σ({Xj ∈ Bj,∀Bj ∈ B}et en utilisant le Lemme 2.3, on a clairement que les(Xj)sont mutuellement indépendants si, et seulement si (1).

Etape 2. Par définition, on a

PX(B1× · · · ×Bn) =P(Xj∈Bj,∀j∈J) et

PX1⊗ · · · ⊗PXn(B1× · · · ×Bn) =PX1(B1). . .PXn(Bn) =Y

j∈J

P(Xj∈Bj).

On en déduit que (1) est équivalent à l’identité (2) sur les pavés deEJ, et donc (1) est équivalent à (2) d’après le théorème de Fubini.

Etape 3. L’identité (2) sur les pavés de EJ est équivalente à l’identité (3) pour des fonctions φj qui sont des fonctions caractéristiques d’ensemble. L’équivalence entre (2) et (3) s’en déduit immédiatement (en utilisant la construction de l’intégrale de Lebesgue).

Etape 4. LorsqueE=Rd, il est clair que (3) implique (4) en prenantφj(xj) :=e−iξj·xj. L’impli- cation réciproque provient de la densité de l’espace vectoriel engendré par les fonctions circulaires, résultat démontré au cours de la preuve du Théorème de Lévy. tu Remarque 2.7 Lorsque l’on considère une famille (quelconque, par exemple une suite) de va- riables aléatoires (Xi)i∈I, le résultat précédent est vrai en remplaçant partout (X1, . . . , Xn) par XJ:= (Xj1, . . . , Xjn)pour toute famille finie J:={j1, . . . , jn} ⊂I.

Lemme 2.8 SoitX etY deux variables aléatoires indépendantes. Alors PX+Y =PX∗PY

et en particulier

φX+YXφY. Preuve du Lemme 2.8. On fixeφ:R→R+, et on calcule

Z

R

φ(z)PX+Y(dz) = E(φ(X+Y))

= Z

R2

φ(x+y)P(X,Y)(dx, dy)

= Z

R2

φ(x+y)PX(dx)PY(dy).

(7)

On suppose maintenant de plus que les loisPX etPY sont à densité et plus précisémentPX(dx) = f(x)dx,PY(dy) =g(y)dy, de sorte que

Z

R

φ(z)PX+Y(dz) = Z

R2

φ(x+y)f(x)g(y)dxdy

= Z

R

φ(z)Z

R

f(z−y)g(y)dy dz.

Ce la implique

PX+Y(dz) =Z

R

f(z−y)g(y)dy dz.

Le résultat en termes de fonctions caractéristiques en découle (voir chapitre précédent). tu On observe que siX ⊥⊥Y sont deux var de même loi centrée alors

Var(X+Y) =E(X+Y)2= 2VarX.

De même, siXi est une suite de varL2indépendantes, centrées et de même variance, alors Var( ¯Xn) = 1

nVar(X1), X¯n :=Sn

n.

Exercice 2.9 SoientX∼P(λ)etY ∼P(µ) indépendantes, montrer queX+Y ∼P(λ+µ).

SoientX1∼ N(µ, σ21)etX2∼ N(µ, σ22)indépendantes, montrer que X1+X2∼ N(µ, σ2122).

(Ind. Pour le premier cas, preuve à la main, en calculant P(X +Y =n), ou en passant par la fonction caractéristique.)

3 Convergence en loi et applications

On retiendra du catalogue de résultats de convergence démontrés au chapitre 2, les implications suivantes :

- Si Xn→X dansL1, alorsXn→X en probabilité.

- Si Xn→X en probabilité, alorsXnk→X p.s. pour une sous-suite.

Définition 3.1 On dit qu’une suite de variables aléatoires(Xn)converge en loi vers une variable aléatoireX, on noteXn⇒X, siPXn * PX faiblement, soit donc également

E(ϕ(Xn))→E(ϕ(X)), ∀ϕ∈Cb(E).

Nous avons vu que lorsqueE=Rd, la famille des fonctions tests utilisée dans cette définition peut être modifiée. Au lieu deF =Cb(Rd), on peut prendre F =C0(Rd),F=Cc(Rd)ou en fait même F ={ϕ;ϕ(x) = exp(−ix·ξ), ξ∈Rd} (version faible du Théorème de Lévy).

Lemme 3.2 SiXn→X p.s., en probabilité ouL1, alors Xn⇒X.

Preuve du Lemme 3.2. Si Xn → X p.s. alors pour tout ϕ ∈ Cb, on a ϕ(Xn) → ϕ(X) p.s. et

|ϕ(Xn)| ≤ kϕk∈ L1 de sorte que

E(ϕ(Xn))→E(ϕ(X)),

d’après le Théorème de convergence dominée. Cela signifie bienXn⇒X.

Si Xn → X en probabilité alors pour une sous-suite (Xnk) on a Xnk → X et donc Xnk ⇒ X d’après l’étape précédente. Par unicité de la limite, c’est toute la suite qui converge.

Si Xn→X au sensL1alorsXn→X en probabilité, et on utilise la deuxième étape. tu

(8)

Lemme 3.3 SiXn⇒a,a∈R, alors Xn→a en probabilité.

Preuve du Lemme 3.3. Pour ε >0, on définit la fonctionϕ(x) =|x−a| ∧ε. On estime P{|Xn−a|> ε} = P{|Xn−a| ∧ε > ε}

≤ 1

εE(|Xn−a| ∧ε)

= 1

ε Z

E

ϕ(x)dPXn(x)→ 1 ε Z

E

ϕ(x)δa(dx) = 0,

puisque ϕ(x)∈Cb(R). tu

Théorème 3.4 (Loi faible des grands nombres) Soit(Xn)une suite de var iid L1. On a X¯n:= Sn

n ⇒ E(X1).

Preuve du Théorème 3.4. Preuve dans le casL2. Pour une suite (Xn)de var iid etL2, on a vu au paragraphe précédent que

Var( ¯Xn) = 1

nVar(X1).

Pour toutδ >0et n∈N, on a donc (ce n’est rien d’autre que l’inégalité de BT) P({|X¯n−µ|> δ}) = P({|X¯n−µ|2> δ2})

≤ 1

δ2E(( ¯Xn−µ)2)

= 1

δ2 1

nVar(X1).

Cela prouveX¯n→µen probabilité, et donc en loi d’après le Lemme 3.2.

Preuve dans le cas généralL1. Quitte à remplacerXiparXi−E(Xi), on peut supposer la moyenne nulle (les var centrées), soit doncE(X1) = 0. On calcule

φX¯n(ξ) =E(eiX¯nξ) =

n

Y

i=1

E(eiXiξ/n) =φX1(ξ/n)n. La fonction φX1 est de classeC1puisque X1∈ L1, et on a donc

φX1(s) = φX1(0) +sφ0X1(0) +sε(s)

= 1 +siE(X1) +sε(s) = 1 +sε(s), avecε(s)→0lorsques→0. Pour z∈C, on majore facilement

(1 +z)n−1 =

n

X

k=1

Cnkzk

n

X

k=1

Cnk|z|k =enlog(1+|z|)−1≤en|z|−1.

On en déduit

X¯n(ξ)−1| ≤e|ξ|ε(|ξ|/n)−1 −→

n→∞0, ∀ξ∈R.

Cela prouve queF(PX¯n)(ξ)→ F(δ0)(ξ)ponctuellement, doncPX¯n→δ0d’après le Théorème de

Lévy, et doncX¯n ⇒0en loi. tu

Théorème 3.5 (central limite) Soit(Xn)une suite de var iid L2 et soit σ2:=Var(X1). On a

√1

n(X1+· · ·+Xn−nE[X1]) ⇒ N(0, σ2).

(9)

Preuve du Théorème 3.5. Quite à remplacer Xn parXn−E[Xn], on peut supposerE[X1] = 0, et on pose

Zn:= 1

√n(X1+· · ·+Xn).

On calcule

φZn(ξ) =E(eiZnξ) =

n

Y

i=1

E(eiXiξ/

n) =φX1(ξ/√ n)n.

La fonction φX1 est de classeC2puisque X1∈ L2, et on a donc φX1(s) = φX1(0) +sφ0X1(0) +s2

2 φ00X1(0) +s2ε(s)

= 1 +siE(X1)−s2

2E(X12) +s2ε(s)

= 1−1

2s2+s2ε(s), avecε(s)→0lorsques→0. Pour ξ∈Rfixé, on en déduit

φX1

√ξ n

n

=

1−1 2σ2ξ2

n +1

ξ(n)n

= exp

n ln 1−1 2σ2ξ2

n + 1

ξ(n)

= exp

−1

2ξ2+ ˜εξ(n) ,

avecεξ(n),ε˜ξ(n)→0lorsque n→ ∞. Finalement, on a

∀ξ∈R, φZn(ξ)−→

n→∞exp −1 2σ2ξ2

=:ϕ(ξ). (3.1)

Une façon de justifier ce calcul avec des nombres complexes est la suivante. Pour α ∈ [0,1[ et β ∈C, α+|β| ≤1, on écrit

(1−α+β)n−(1−α)n =

n−1

X

k=0

Cnk(1−α)kβn−k

n−1

X

k=0

Cnk(1−α)k|β|n−k

= (1−α+|β|)n−(1−α)n, et on applique le raisonnement précédent avec α:= 12σ2ξn2 etβ :=εξn(n). Cela donne

φX1 ξ

√n n

− 1−1

2ξ2 n

n

1−1 2σ2ξ2

n + 1

n|εξ(n)|n

− 1−1

2ξ2 n

n

.

Comme les trois derniers termes convergent versϕ(ξ), on en déduit (3.1).En observant queϕest la fonction caractéristique d’une loiN(0, σ2), on conclut grâce au théorème de Lévy. tu

4 Vecteurs Gaussiens

Définition 4.1 On dit qu’un vecteur aléatoire X à valeurs dans Rd est gaussien si, pour tout η∈Rd, la variable aléatoire réelleη·X=P

iηiXi suit une loi gaussienne.

(10)

Remarque 4.2

(i) En choisissant η:=ei, où (e1, . . . , ed) est la base canonique deRd, on voit que les compo- santes d’un vecteur gaussien sont des var gaussiennes. En général, la réciproque est fausse ! (ii) Si X est une var gaussienne et a ∈ R, alors X +a est une var gaussienne, ce que l’on voit à partir de la caractérisation des lois gaussiennes et des propriétés élementaires de la transformation de Fourier.

(iii) Plus généralement, siX est un vecteur gaussien, tout vecteur de la formeY =M X+aoù M ∈Md,k(R)eta∈Rk est aussi un vecteur gaussien, puisqu’alorsη·Y = (tM η)·X+η·a est une var gaussienne pour toutη∈Rk.

(iv) Si X est un vecteur aléatoire,a∈RetM ∈Md(R), alors

ϕM X+a(ξ) =e−ia·ξϕX(tM ξ). (4.1) (v) On rappelle que siX ∼ N(µ, σ2),σ≥0, alors

ϕX(ξ) = exp

iµξ−σ2 2 ξ2

.

Exercice 4.3 Donner un exemple de vecteur aléatoire(X, Y)tel que X etY sont gaussien mais pasX+Y.

Définition 4.4 Soientµ∈RdetK∈Md(R)symétrique. La loi gaussienneNd(µ, K)est l’unique loi surRd dont la transformée de Fourier est la fonction

gµ,K(ξ) := exp

iµ·ξ−1 2

tξKξ

.

Théorème 4.5 Un vecteur aléatoireX à valeurs dans Rd est gaussien si, et seulement si, sa loi est gaussienne, c’est-à-dire, s’il existe un vecteur µ∈Rd et une matrice symétrique K ∈Md(R) tels que

ΦX =gµ,K (4.2)

De plus,µet K sont l’espérance et la matrice de covariance deX.

Preuve du Théorème 4.5. Etape 1. Montrons queX gaussien implique (4.2). SoitX un vecteur gaussien. Notonsµ˜son espérance etK˜ sa matrice de covariance. Pourη∈Rdfixé, nous définissons Y =η·X et nous calculons

E(Y) =η·µ,˜ Var(Y) =E(ηi(Xi−µ˜ij(Xj−µ˜j)] =tηKη.˜

Comme par ailleur, on sait queY suit une loi gaussienne, on a nécessairementY ∼ N(η·µ,˜ tηKη).˜ D’après le calcul de la fonction caractéristique rappelé en remarque, on a donc

ΦY(ξ) = exp

i(η·µ)ξ˜ −1

2(tηKη)ξ˜ 2

. On en déduit

ΦX(η) =E eiX·η

= Φη·X(1) = ΦY(1), ce qui donne bien l’expression annoncée.

Etape 2. Montrons que (4.2) implique X gaussien. Soient η ∈ Rd et Y := η·X. D’après la formule (4.1), pour toutξ∈R, on a

ϕY(ξ) = ϕtηX(ξ) =ϕX(ξη)

= exp

−i(η·µ)ξ−

tηKη 2 ξ2

.

(11)

On reconnaît la transformée de Fourier de la loi gaussienne N(η·µ,tηKη). Par injectivité de la transformation de Fourier,Y est gaussienne, de loiN(η·µ,tηKη). DoncX est gaussien.

D’après l’étape 1, on sait également que ΦX vérifie l’identité (4.2) associée à µ˜ l’espérance de X et K˜ la matrice de covariance de X. On en déduit imméditament que DϕX(0) = µ = ˜µ et D2ϕX(0) = K = ˜K. Cela prouve bien que dans (4.2), µ et K correspondent à l’espérance et la

matrice de covariance deX. tu

Proposition 4.6 Si X est un vecteur gaussien, ses composantes sont indépendantes si et seule- ment si sa matrice de covarianceKX est diagonale.

Preuve de la Proposition 4.6. LorsqueX1, ..., Xdsont indépendantes, c’est un fait général que les covariances

cov(Xj, Xk) =E(XjXk)−E(Xj)E(Xk) = 0 sont nulles sij6=k.

Réciproquement, siK est diagonale :

K=

 σ21

. .. σ2d

,

la fonction caractéristique de X vérifie

ΦX(ξ) =Y

j

ΦXjj).

Donc les Xj sont indépendantes. tu

Exercice 4.7 Donner un exemple de vecteur aléatoire (X, Y) non indépendant, non gaussien et tel que la matrice de covariance associée est diagonale.

Théorème 4.8 SoitX un vecteur gaussien de loi Nd(µ, K). Il existe des réels λ1, ..., λd ≥0, des variables gaussiennes Y1, ..., Yd indépendantes de lois respectives N1(0, λ1), ..., N1(0, λd) et une matrice orthogonaleA∈Od(R)tels que

X =AY +µ.

Preuve du Théorème 4.8. La matriceKétant une matrice de covariance, elle est symétrique positive (rappelons que ceci se voit par exemple en remarquant que tξKXξ =KtξX = var (tξ·X)≥0).

Donc, il existe une matrice orthogonaleAet une matrice diagonaleΛ telles que

K=AΛtA.

Le vecteur

Y =tA(X−µ) est gaussien, centré, et de covariance

KY =tAKA=A−1KA= Λ

(rappelons en effet queKM X+a =M KXtM). CommeΛest diagonale, lesYj sont indépendantes.

De plus,X =AY +µ. tu

Corollaire 4.9 Un vecteur gaussien de covariance KX admet une densité si et seulement si detKX 6= 0. Sa densité est alors

fX(x) = 1 (2π)d/2

detKX

exp

−1 2

t(x−µ)KX−1(x−µX)

.

(12)

Preuve du Corollaire 4.9. Supposons d’abord detKX 6= 0. Reprenons les notations du théorème précédent : il existe un vecteur aléatoire gaussienY de composantes indépendantesYj ∼N1(0, λj) et une matrice orthogonaleAtels que X=AY +µ.

Comme Y = A−1(X −µ), KY = A−1KXA donc detKY = detKX 6= 0 et, puisque KY = Diag(λ1, ..., λd),λj >0pour toutj. Donc, pour toutj, la loi deYj est

PYj = 1

p2πλjexp − yj2j

! dyj.

Comme les Yj sont indépendantes, la loi conjointe deY est le produit tensoriel de ses lois :

PY = O

j

PYj =Y

j

1

p2πλjexp − yj2j

! dyj

= 1

(2π)d/2√ detKY

exp −tyKY−1y

dy=fY(y)dy,

où l’on a utilisé KY = Diag(λ−11 , ..., λ−1d ) et detKY = Q

jλj. La loi de Y étant connue, celle de X = AY +µ s’en déduit par un simple changement de variable : pour toute fonction réelle borélienne positivehsurRd,

Z

h(X)dP = Z

h(AY +µ)dP

= Z

h(Ay+µ)dPY(y) = Z

h(Ay+µ)fY(y)dy

= Z

h(x)fY(A−1(x−µ))dx,

où on a effectué le changement de variables y = ϕ(x) = A−1(x−µ) de sorte que |J ϕ(x)| =

|detA−1|= 1. On en déduit queX possède une densité, qui vautfX(x) =fY(A−1(X−µ)), d’où la formule voulue.

Réciproquement, supposons detKX = 0. Il existea∈Rd tel que KXa= 0. La variable aléatoire Z = a·X a pour espérance a·µX et variance σ2Z = taKXa = 0. Donc Z = a·µ p.p. Donc a·(X−µ) = 0 p.p. SoitH l’hyperplan

H=µ+a ={x∈Rd, (x−µ)·a= 0}.

Presque sûrement,X ∈H alors queλd(H) = 0. SiX avait une densité, on aurait 1 =P(X ∈H) =

Z

H

fX(x)dx= 0,

ce qui est absurde. tu

Dans le cas dégénéré, la démonstration précédente montre que, si l’on suppose par exemple que σ1, ..., σr>0 tandis que σr+1 =...=σd = 0, et si V est le sous-espace vectoriel de dimension r image parA desrpremiers vecteurs de la base canonique de Rn, la loi de X est portée parV et X possède une densité relativement à la mesure de Lebesgue associée aux coordonnées d’une base orthogonale quelconque deV.

5 Lexique

Petit lexique de correspondances :

- une partie mesurableA∈ Aest unévénement;

- une fonction mesurableX: (Ω,A)→(E,E)est unevariable aléatoire;

- une propriété presque partout (p.p.) vraie devient une propriétépresque sûrement (p.s.)vraie.

Références

Documents relatifs

Lorsqu’on répète de façon identique et indépendante des épreuves de Bernoulli, on peut modéliser la situation par un arbre de probabilités. On répète 3 fois une épreuve

On reprend les même exemples qu’au I ; calculer les espérances des deux variables aléatoires définies Exemple 1 ​à compléter à la maison au crayon à

Dans ce chapitre on désigne par (Ω, A , P) un espace probabilisé, c’est-à-dire, un espace mesurable (Ω, A ) muni d’une probabilité P.. Sont écrites en rouge les parties

Sont écrites en rouge les parties hors programme, en violet les parties traitées en TD (résultats à connaître pour sa culture).. 1

Sont écrites en rouge les parties hors programme et en violet les parties traitées en TD (résultats à connaître pour sa culture).. 1

Sont écrites en rouge les parties hors programme, en violet les parties traitées en TD (résultats à connaître pour sa culture) et en bleu les parties modifiées par rapport au cours

• On considère une expérience aléatoire qui consiste en une succession de n épreuves indépendantes, chacune d’entre elles ayant deux issues : succès obtenu avec probabilité p

Pierre tire un jeton, note le numéro et le replace dans le sac ; puis Jean tire à son tour un jeton.. Il y