2 Variables aléatoires réelles

(1)

1 G´ en´ eralit´ es, rappels

Rappel : d´efinition de v.a, loi

D´efinition 1 (V.a, loi). Soit (Ω,F,P) un espace probabilis´e, et (E,E) un espace mesurable.

Une l’application X : Ω→ E mesurable (i.e. telle que pour tout élément B ∈ E, X⁻¹(B)∈ F), est appelée variable aléatoire à valeurs dans E.

La mesure de probabilit´e PX sur E, telle que PX(B) = P(X⁻¹(B)) (la mesure-image de P par X) est appel´ee la loi de X.

Lorsque E = R,E = B(R) on dit que X est une variable al´eatoire r´eelle (v.a.r).

Lorsque E = R^d,E = B(R^d), on dit que X est un vecteur al´eatoire d- dimensionnel.

Lorsque X et Y sont deux v.a telles que P(X = Y) = 1, on note par exemple X ∼Y et on dit que X etY sont indistinguables.

L’indistinguabilité est une relation d’équivalence, et il souvent pratique de travailler avec les classes, i.e. à indistinguabilité près.

Une remarque importante

Une variable aléatoire X et sa loi PX sont des objets mathématiques de nature différente. Plus précisément, à toute variable aléatoire correspond une loi, mais deux variables distinctes peuvent avoir la même loi.

Cependant de nombreuses quantités et objets mathématiques avec les- quels nous allons travailler (par exemple lorsque X est une v.a.r, la probabi- lité de {X ≥ 2}, ses moments, sa fonction de répartition) ne dépendent de X qu’à travers sa loi.

Une remarque importante

En réalité, il est assez rare qu’on donne une variable aléatoire (ou même le triplet (Ω,F,P)) de manière explicite. C’est l’usage de se passer d’une telle construction.

Un énoncé est donc susceptible de démarrer par exemple par ”soit X une v.a. de loi exponentielle de paramètre λ >0”. En réalité, ce genre d’énoncé ne fait que préciser laloi deX.

Attention cependant que si ce même énoncé introduit plus loin ”une variable Y, uniforme sur [0,1], indépendante de X”, l’énoncé précise alors non seulement la loi de X et de Y, mais celle de (X, Y).

(2)

Classe monotone

Pour caract´eriser la loi PX sur E, il suffit de connaˆıtre PX sur une classe C ⊂ P(E) stable par intersection, et qui engendre E.

Autrement dit, pour une telle classeC,

si on aPX(C) = PY(C) pour tout C ∈ C, alorsPX =PY. Rappel : espérance, théorème de transfert

Définition 2 (espérance). Soit X une variable aléatoire à valeurs dans E, f une application (E,E)→ (R,B(R)) mesurable, positive ou PX-intégrable, on définit

E[f(X)] :=

Z

Ω

f(X(ω))dP(ω) = Z

E

f(x)dPX(x).

Tous les résultats du cours d’intégration s’appliquent : l’espérance est linéaire, positive, vérifie TCM, Fatou, TCD, Jensen, etc... On y revient plus loin dans le cadre des v.a.r. (sans perte de généralité : remarquez que f(X) ci-dessus est une v.a.r)

2 Variables al´ eatoires r´ eelles

Fonction de r´epartition

Dans tout ce paragraphe on travaille avec des variables al´eatoires r´eelles (v.a.r)

Définition 3(fonction de répartition). La fonction de répartition de la v.a.r X est définie par

F_X : (

R→[0,1]

x→P(X ≤x)

La fonctionFX caract´erise la loi deX, autrement dit FX =FY ⇒P^X = PY.

C’est ce que nous avons rappel´e plus haut, puisque C ={(−∞, x], x∈R} est stable par intersections finies et engendre les bor´eliens.

(3)

Théorème 1 (caractérisation fct de répart). La fonction de répartition F_X d’une v.a.r X est croissante, continue à droite, elle tend vers 0 en −∞ et vers 1 en +∞. Réciproquement, toute fonction vérifiant ces propriétés est la fonction de répartition d’une v.a.r

Pour la réciproque, on se donne F vérifiant les propriétés et on introduit H:

( (0,1)→R

t →inf{x:F(x)≥t}.

La fonction H s’appelle la réciproque généralisée de F, elle est telle que F(x₀)≥t₀ ⇔H(t₀)≤x₀.

Il est alors aisé de démontrer que si U ∼ Unif[0,1], alors X = H(U) a pour fonction de répartition F :

P(X ≤x) =P(H(U)≤x) = P(F(x)≥U) =F(x).

La preuve de la r´eciproque est constructive : elle fournit un algorithme permettant de simuler une variable de fonction de r´epartition explicite.

Au moins pour ceux qui font l’option A, écrire un programme permettant de simuler une variable de fonction de répartition donnée semble être un exercice indispensable.

Esp´erance, variance, covariance

Définition 4 (Espérance, Variance, Covariance). Si X est une v.a.r P- intégrable (i.e. sif =IdestP^X-intégrable) on définitE[X] := R

ΩX(ω)dP(ω) = R

ExdPX(x).

Si X² est P-int´egrable, on note Var(X) = E[(X −E[X]²) = E[X²]− (E[X])².

Enfin si X, Y sont deux v.a.r telles que X, Y et XY sont P-int´egrable (c’est en particulier le cas si X², Y² sont P-int´egrables), on note

Cov(X, Y) = E[(X−E[X])(Y −E[Y])]

(4)

Evidemment Cov(X, X) = Var(X). La covariance est une forme bilinéaire, symétrique, positive sur l’ensemble des variables de carré intégrable, mais elle n’est bien sûr pas définie, puisqu’une variable p.s. constante est de variance nulle.

Espaces L^p (rappels d’int´egration)

D´efinition 5 (Espaces L^p). Pour p ≥ 1 on note L^p(Ω,F,P) := {Xv.a.r : E[|X|^p]<∞}, et

L^p(Ω,F,P) :=L^p(Ω,F,P)/∼.

On note par ailleurs L^∞(Ω,F,P) :={X v.a.r, p.s born´ee}, et L^∞(Ω,F,P) :=L^∞(Ω,F,P)/∼.

Espaces L^p (rappels d’int´egration)

Si X ∈ L^p(Ω,F,P) on d´efinit ||X||_p := E[|X|^p]^1/p. Si X ∈ L^∞(Ω,F,P) on d´efinit ||X||∞ := inf{M :P(|X| ≤M) = 1}.

Th´eor`eme 2 (L^p Banach). Pour tout p∈ [1,+∞], (L^p(Ω,F,P),|| · ||p) est un espace de Banach (i.e un e.v.n complet).

Remarque : pourp= 2 la norme|| · ||₂ surL² est issue du produit scalaire hX, Yi := E[XY] (qui co˝ıncide avec la covariance sur le sous-espace des variables centr´ees). On a donc Cauchy-Schwarz, et en particulier lecoefficient de corr´elation

ρ(X, Y) := Cov(X, Y) pVar(X)Var(Y)

est toujours situé dans [−1,1]. Ce coefficient prend la valeur 1 ou −1 ssi Y est p.s. une transformation linéaire de X (cf le cas d’égalité dans Cauchy- Schwarz).

L’inégalité triangulaire permettant de vérifier que|| · ||_p est une norme est appelée inégalité de Minkowski, elle se démontre soit directement via Jensen, ou sans doute plus facilement via l’inégalité de H˝older qui elle-même découle de Jensen ou Young. On rappelle ci-après les inégalités de H˝older et Jensen.

La complétude découle quant à elle du théorème de Riesz-Fischer.

(5)

Propriétés de l’espérance d’une v.a.r (rappels d’intégration)

Théorème 3 (Inégalité de Jensen). Soit X ∈ L¹, I un intervalle de R tel que P(X ∈I) = 1, et φ:I →R convexe. Alors

E[Φ(X)]≥Φ(E[X]).

Théorème 4 (Inégalité de H˝older). Soient 1 ≤ p, q ≤ +∞ tels que 1/p+ 1/q= 1, X ∈L^p, Y ∈L^q, alors XY ∈L¹ et

E[|XY|]≤ ||X||_p||Y||_q

Cons´equence : Sip < q etX ∈L^q,||X||_p ≤ ||X||_q. On a lahi´erarchie des normes etL^q ⊂L^p.

Remarque : Pour p=q = 2 on obtient à nouveau l’inégalité de Cauchy- Schwarz.

Théorème 5 (TCM). Soit (X_n, n≥0)une suite croissante de v.a à valeurs dans R+. Alors

n→∞lim E[X_n] =E[ lim

n→∞X_n].

En particulier, si X_n ∈ L¹ pour tout n, limX_n ∈ L¹ si et seulement si limE[X_n]<∞

Théorème 6 (”lemme” de Fatou). Soit (Xn, n ≥ 0) suite de variables aléatoires à valeurs dans R+. Alors

lim inf

n→∞ E[Xn]≥E[lim inf

n→∞ Xn].

Théorème 7 (TCD, version 1). Soit (Xn, n ≥ 0) une suite de v.a.r telle que P(X_n→X) = 1 (i.e. X_n converge p.s. vers X). On suppose qu’il existe Y ∈L¹ telle que pour tout n, |X_n| ≤Y p.s. Alors X est intégrable et

E[|X_n−X|] −→

n→∞0

(6)

Théorème 8 (TCD, version 2 — preuve + tard). Soit(X_n, n≥0)une suite de v.a.r telle que pour tout ε > 0, P(|X_n−X| > ε) → 0 (i.e. X_n converge en probabilité versX). On suppose qu’il existe Y ∈L¹ telle que pour toutn,

|X_n| ≤Y p.s. Alors X est int´egrable et E[|Xn−X|] −→

n→∞0

Théorème 9 (TCD, version 2 — preuve + tard). begintheorem [TCD, version 1] Soit (X_n, n ≥ 0) une suite de v.a.r telle que pour tout ε > 0, P(|X_n−X| > ε) → 0 (i.e. X_n converge en probabilité vers X). On suppose qu’il existe Y ∈ L¹ telle que pour tout n, |Xn| ≤ Y p.s. Alors X est intégrable et

E[|X_n−X|] −→

n→∞0 Propriétés de l’espérance d’une v.a.r

Théorème 10 (Inégalité de Markov). Soit h : R+ → R+ croissante, telle que h(|X|)∈L¹. Alors pour tout a≥0 tel que h(a)>0,

P(|X| ≥a)≤ E[h(|X|)]

h(a) .

Preuve :{|X| ≥a} ⊂ {h(|X|)≤h(a)}car h est croissante. Donc h(a)1^{|X^|≥a} ≤h(|X|)1^{|X^|≥a} ≤h(|X|),

où on utilise quehest positive pour obtenir la deuxième inégalité. On conclut par positivité de l’espérance.

3 Variables al´ eatoires usuelles discr` etes

Les variables qui suivent sont `a valeurs dans N. Notons que pourX v.a.

`

a valeurs dans N, etf :N→R positive ou telle queP

k∈N|f(k)|P(X =k)<

∞, on a

E[f(X)] = Z

N

xdPX(x) = X

k∈N

f(k)P(X =k).

(7)

La simulation d’une variableX à valeurs dansNet telle que P(X =k) = p_k peut être effectuée, en général, de la manière suivante.

On tire U ∼Unif[0,1], et on introduit un compteur k intialement à 0, et une quantités initialement àp₀. Tant que la condition U > sest vérifiée, on ajoute 1 au compteur k, puisp_k à la quantités. Quand la boucle termine, la valeur du compteur est attribuée à X.

Variable de Bernoulli(p)

Soitp∈[0,1]. On dit queX ∼Ber(p) lorsque (X est `a valeurs dans{0,1}

et)

P(X = 1) = 1−P(X = 0) =p.

Cet exemple n’a rien d’anodin. Quelque soit A ∈ F, 1A est une variable de Bernoulli (de param`etre P(A)).

On a E[X] =p,Var(X) =p(1−p),E[t^X] =tp+ (1−p), t≥0.

Simulation: SiU ∼Unif[0,1],1{U >1−p} ∼Ber(p) (c’est d’ailleursH_X(U), o`u H_X(t) = inf{x : F_X(t) ≥ x}). Evidemment la variable 1^{U≤p} suit

´

egalement cette mˆeme loi.

Variable Binˆomiale(n, p)

Soient n ∈ N^∗, p ∈ [0,1]. On dit que X ∼ Bin(n, p) lorsque (X est `a valeurs dans {0,1, ..., n} et)

P(X =k) = n

k

p^k(1−p)^n−k, k∈ {0, ..., n}

Si les (ξ_i,1 ≤ i ≤ n) sont i.i.d suivant la loi de Bernoulli de param`etre p, alors X = Pn

i=1ξ_i ∼ Bin(n, p). Autrement dit, X dénombre les succès lors de n essais indépendants, dont la proba de succès individuel estp.

Simulation : Si (U₁, ..., U_n) sont des variables i.i.d suivant la loi uniforme[0,1], Pn

i=11^{Ui≤p} ∼Bin(n, p).

On aE[X] =np,Var(X) = np(1−p),E[t^X] = (tp+ (1−p))ⁿ, t ≥0. On a

´

egalement pour tout k ∈N^∗,E[X(X−1). . .(X−k+ 1)] =n(n−1). . .(n− k+ 1)p^k

Variable G´eom´etrique(p)

Soit p ∈ (0,1]. On dit que X ∼ Geom(p) lorsque (X est `a valeurs dans N^∗ et)

P(X =k) = (1−p)^k−1p, k∈N^∗

(8)

Si les (ξ_i, i ≥ 1) sont i.i.d suivant la loi de Bernoulli de paramètre p, alors X = inf{i ≥ 1 : ξ_i = 1} ∼ Geom(p). Autrement dit, X est le temps de premier succès dans une suite d’essais indépendants, la proba de succès d’un essai étant p.

Simulation: Si les (U_i, i≥1) sont i.i.d suivant la loi uniforme[0,1], inf{i≥ 1 :1^{Ui≤p}} ∼Geom(p). Il suffit donc d’utiliser une boucle ”while”.

Variable G´eom´etrique(p)

On aE[X] = 1/p,Var(X) = ^1−p_p2 ,E[t^X] = _1−(1−p)t^pt , t∈[0,1/(1−p)). On a

´

egalement pour k ≥1E[X(X−1). . .(X−k+ 1)] =k!^(1−p)_pk^k−1.

A noter par ailleurs (voir l’exo 1 du td) que X est la seule variable à valeurs dans N^∗ qui vérifie la propriété d’absence de mémoire :

quels que soientk, ` entiers naturels

P(X > k+`|X > k) = P(X > `).

Variable Uniforme{1, ..., n}

Soitn ∈N^∗. On dit queX ∼Unif{1, ..., n}lorsque (X est `a valeurs dans {1, ..., n} et)

P(X =k) = 1/n, k ∈ {1, ..., n}

Simulation : Si U ∼Unif[0,1],dnUee ∼Unif{1, ..., n}.

On a E[X] = ⁿ⁺¹₂ ,Var(X) = ⁿ²₁₂⁻¹,E[t^X] = _n¹^t−t_1−tⁿ⁺¹, t∈[0,1).

Variable Poisson(λ)

Soit λ > 0. On dit queX ∼Poisson(λ) ou encore X ∼ P(λ) lorsque (X est `a valeurs dans N^∗ et)

P(X =k) = exp(−λ)λ^k k!

On a E[X] = Var(X) = λ,E[t^X] = exp(λ(t −1)), t ≥ 0. De plus pour k ∈N^∗, E[X(X−1). . .(X−k+ 1)] =λ^k.

(9)

Somme de Poisson ind´ependantes est Poisson

Théorème 11(Somme de Poisson indépendantes).Supposons que les(X_i)i≥1

forme une suite de variables ind´ependantes, avec X_k ∼ Poisson(λ_k), et que Λ =P

k≥1λ_k <∞. Alors X =P

i≥1X_i suit une loi de Poisson de param`etre Λ.

Preuve : e.g. via les fonctions g´en´eratrices, cf le paragraphe sur les lois jointes.

Boˆıte de peinture

Th´eor`eme 12 (Boˆıte de peinture). Soient (X_i)_i≥1 des variables i.i.d suivant une loi sur N^∗ avec p_k := P(X₁ = k), et N ∼ Poisson(λ). On pose N_k :=

PN

i=11^{Xi=k}, k≥1. Alors les(N_i)i≥1 sont ind´ependantes et pour toutk ≥1, N_k ∼Poisson(λp_k).

Preuve : voir exo 4 td.

Loi des ´ev´enements rares

Lle pb 1 de la feuille de td permet d’établir la loi des événements rares : Théorème 13(Loi des événements rares). Pourn∈N, on considère(ξ_n,m,0≤ m ≤ n) des variables de Bernoulli indépendantes, de paramètres respectifs p_n,m,0 ≤ m ≤ n), et la variable X_n = Pn

k=1ξ_n,m. Si, lorsque n → ∞, max0≤m≤np_n,m →0, Pn

k=1p_n,m →λ, alors pour tout j ∈N,

P(X_n=j) −→

n→∞exp(−λ)λ^j j!.

On dira que la suite de variables (X_n) converge en loi vers X ∼Poisson(λ).

Variable Hyperg´eom´etrique(N, n, k)

SoientN, n, k des entiers strictement positifs, avecn≤N, k ≤N. On dit que X ∼HyperGeom(N, n, k) lorsque (X est valeurs dans {0, ..., k} et)

P(X =i) =

n i

_N−n

k−i

N k

, i∈ {0, ..., k}

(10)

La variable X apparaˆıt par exemple dans un modèle d’urne, contenant N boules, dont n rouges : X est le nombre de boules rouges tirées lors d’un tirage simultané et uniforme de k boules.

On a E[X] = ^kn_N,Var(X) = ^kn(N_N2^−n)(N−k)(N−1) , et pour k ∈ N^∗, E[X(X − 1). . .(X−j+ 1)] = n(n−1)...(n−j+1)k(k−1)...(k−j+1)

N(N−1)...(N−j+1) . D’autres variables discr`etes usuelles

On peut citer par exemple

— la loi multinˆomiale, sur laquelle on reviendra dans le paragraphe sur les lois jointes.

— la loi de Pascal, la loi Binômiale négative (une sommeS_kdekgéométriques indépendantes de même paramètrepsuit une loi de Pascal(k, p),S_k−k suit une loi Binômiale négative de mêmes paramètres),

— les lois stables discrètes (définies à travers leurs fonctions génératrices),

`

a queues lourdes.

— la loi de Benford, pour la statistique du premier chiffre apparaissant des donn´ees distribu´ees suivant une loi de Pareto

4 Variables al´ eatoires r´ eelles usuelles ` a den- sit´ e

Variable réelle à densité (par rapport à la mesure de Lebesgue) La notion de mesure (et donc de loi) possédant une densité par rapport

`

a une mesure de référence est plus générale, on y reviendra plus loin. On se contente ici de considérer des variables réelles dont la loi possède une densité par rapport à la mesure de Lebesgue λ surR.

Par usage, lorsqu’on dit qu’une loi est ”à densité” sans préciser la mesure de référence, c’est que cette dernière est la mesure de Lebesgue.

Variable réelle à densité (par rapport à la mesure de Lebesgue) Définition 6. Lorsque, pour une fonction f_X positive, intégrable, on peut

´ ecrire

F_X(x) = Z x

−∞

f_X(t)dt, ∀x∈R on dit que X poss`ede ”la” densit´e f_X.

(11)

Dans ce cas on a pour tout B ∈ B(R), PX(B) = R

Bf_X(t)dt, et en particulier R

Rf_X(t)dt= 1.

La densité fX caractérise évidemment la loi de X.

Dans la définition on devrait, en toute rigueur, dire ”une” densité au lieu de ”la” densité. En effet, on peut avoir pour tout B ∈ B(R), R

Bf_X(t)dt = R

Bf˜_X(t)dt sans que ˜f_X = f_X (de sorte que ˜f_X est également densité de X d’après la définition).

A noter cependant queR

BfX(t)dt =R

Bf˜X(t)dtest ´equivalent `aR

R|fX(t)−

f˜_X(t)|dt = 0, ou encore `a λ({x : f_X(t) 6= ˜f_X(t)} = 0 (autrement dit, f_X et f˜X co˝ıncident en dehors d’un ensemble de mesure de Lebesgue nul, i.e. sont

´

egalesλ-presque partout). Evidemment ceci définit une relation d’équivalence sur l’espace des fonctions positives, Lebesgue-intégrables. L’article défini ”la”

est donc à comprendre ”à cette relation d’équivalence près”.

La densité d’une variable aléatoire est donc n’importe quel représentant de cette classe d’équivalence, et le choix de ce représentant est arbitraire. Ainsi la fonction 1[0,1] tout comme la fonction 1(0,1) sont toutes deux ”la” densité d’une variable uniforme sur [0,1]. La fonction 1[0,1]\C, où C est l’ensemble de Cantor sur [0,1], l’est également, même si ce choix est évidemment moins usuel.

Variable uniforme

Soienta < bdes r´eels. On dit queX ∼Unif[a, b] lorsqueX a pour densit´e f_X avec

f_X(x) = 1

b−a1[a,b](x), x∈R

On a E[X] = ^a+b₂ , Var(X) = ^(b−a)₁₂ ², pour n ∈ N^∗, E[Xⁿ] = ^b_(n+1)(b−a)ⁿ⁺¹^−aⁿ⁺¹. Enfin, pour t∈R (ou mˆeme C),

E[exp(tX)] =

(1 sit = 0

e^tb−e^ta

t(b−a) sinon . Variable exponentielle

Soit λ >0, on dit queX ∼exp(λ) lorsque X a pour densit´e f_X avec fX(x) = λexp(−λx)1^{x≥0}, x∈R

On a alors pour tout t ∈ R, F_X(t) = (1 −exp(−λt))1{t≥0}, et H_X(u) =

−_λ¹log(1−u), u∈(0,1).

(12)

Simulation : Si U ∼Unif[0,1],−¹_λlog(1−U)∼exp(λ).

On a ´egalement pour n ≥ 0, E[Xⁿ] = _λ^n!n, Var(X) = _λ¹2, et pour tout t >−λ,

E[exp(−tX)] = λ t+λ.

La loi exponentielle est également caractérisée par l’absence de mémoire (cf exo 1 td). Cela la rend en particulier indispensable pour définir des chaˆınes de Markov à temps continu.

Minimum d’exponentielles ind´ependantes

Théorème 14 (Minimum d’exponentielles indépendantes). Soit I un ensemble d’indices fini ou dénombrable, et(X_i)i∈I des variables indépendantes, avec Xk ∼ exp(λk). On suppose que P

i∈Iλi = Λ < ∞, et on pose X = infi∈IX_i. Alors cet infimum est p.s. atteint en une unique valeur al´eatoire K ∈I, de plusK etX sont ind´ependantes, avecX ∼exp(λ) et P(K =i) =

λi

Λ, i∈I.

Preuve : exercice 3 du td

Sommes d’exponentielles i.i.d et processus Poisson

Théorème 15 (Processus de Poisson). Soient (X_i, i≥1)des variables i.i.d suivant la loi exponentielle de paramètre λ > 0. Pour t ≥ 0, on définit Nt := max{n ≥ 1 : Pn

i=1Xi ≤ t}. Alors pour t ≥ 0, Nt ∼ Poisson(λt). De plus si t₀ = 0 et (t_n)n≥0 est strictement croissante, (N_t_n −N_t_n−1)n≥1 forme une suite de variables ind´ependantes avec, pour tout n ∈N^∗, N_t_n−N_t_n−1 ∼ Poisson(λ(tn−tn−1)).

On dit que(N_t, t≥0) est un processus de Poisson de param`etre λ.

voir l’exercice 6 du td.

Loi normale standard

Soit µ ∈ R, σ > 0, on dit que Z ∼ N(0,1) (ou encore que Z suit la loi normale centrée réduite, ou encore la loi normale standard) lorsqueZ a pour densité f_Z avec

f_Z(x) = exp(−f racx²2)

√2π , x∈R. On a pour n∈N,E[Z²ⁿ] = ^(2n)!₂nn! =Qn

k=1(2k−1), E[Z²ⁿ⁺¹] = 0, et pour tout t ∈R(et mˆeme pour tout t∈C, E[exp(tZ)] = exp(t²/2).

(13)

Loi normale standard : simulation

Th´eor`eme 16(Box-M˝uller). Soient(U₁, U₂)i.i.d suivant la loi uniforme[0,1].

On pose R =p

−2 ln(U₁), θ = 2πU₂ et (X, Y) = (Rcos(θ), Rsin(θ)). Alors X et Y sont indépendantes, et identiquement distribuées suivant la loi normale centrée réduite.

I.p.p gaussienne

Th´eor`eme 17 (I.p.p gaussienne). Z ∈ N(0,1) ssi pour tout g :R→R, C¹, telle que E[|g⁰(Z)|]<∞, alors E[|Zg(Z)|]<∞ et E[g⁰(Z)−Zg(Z)] = 0.

Id´ee de preuve: Pour le sens direct on remarque d’abord que sig⁰(Z)∈L¹, on a g(z) exp(−z²)/2→0 lorsque |z| → ∞, et une i.p.p fournit alors

Z

R

g⁰(z) exp(−z²/2)dz = Z

R

zg(z) exp(−z²/2)dz.

Pour la contraposée, on retrouve par une récurrence aisée que Z a les moments d’une normale centrée réduite, et on verra plus loin (paragraphe sur la transformée de Laplace) que dans ce cas précis, ceci suffit pour caractériser la loi de Z.

Loi normale

Soit Z ∼ N(0,1), µ∈R, σ >0, on dit que X =µ+σZ ∼ N(µ, σ²), elle a pour densit´e f_X telle que

f_X(x) = 1 σ√

2π exp

−(x−µ)² 2σ²

, x∈R.

On dit queXsuit une loi normale (ou gaussienne) centr´ee enµet de variance σ².

Le calcul de la densit´e de X provient de ce que, pour toute fonction φ :R→Rborn´ee mesurable, il vient par le changement de variablesx= ^z−µ_σ

E[φ(X)] = E[φ(µ+σZ)] = Z

R

φ(µ+σz)exp(−^z₂²)

√2π dz

= Z

R

φ(x) exp

−^(x−µ)_2σ2²

σ√

2π dx

(14)

Somme de gaussiennes ind´ependantes

Théorème 18. Soient(X₁, . . . , X_n)indépendantes, avecX_i ∼ N(µ_i, σ_i²),1≤ i≤n. Alors Pn

i=1X_i ∼ N(µ, σ²) o`u µ=Pn

i=1µ_i, σ² =Pn i=1σ²_i.

On prouve facilement ce résultat à l’aide des transformées de Laplace ou les fonctions caractéristiques, que nous introduirons plus loin.

On d´eduit que siµ_i =µ,σ_i =σ pour touti≥1, on d´eduit que pour tout n ≥1,

1 σ√

n

X

i=1

X_i−nµ

!

∼ N(0,1),

de sorte que le TCL est particulièrement facile à établir dans ce cas particulier.

Loi de Cauchy

On dit que X ∼ Cauchy(1) (ou encore que X suit une loi de Cauchy standard) lorsque X a densit´e f_X avec

fX(x) = 1 π

1

1 +x², x∈R A noter que X /∈L¹.

Simulation : siθ ∼Unif(−π/2, π/2), X = tan(θ)∼Cauchy(1).

Siα >0 et Y =αX, on dit queY ∼Cauchy(α), et alors Y a densit´e f_Y telle que

f_Y(y) = α π

1 y²+α². On a F_Y(t) = ¹₂ +_π¹ arctan(t/α), t∈R

Loi de Cauchy : quelques propri´et´es

On calculera plus tard E[exp(itX)] = exp(−α|t|), et on verra que ceci implique en particulier qu’une somme de variables de Cauchy indéndantes reste Cauchy, et le paramètre de la somme est égal à la somme des paramètres.

En particulier si les (X_i)_i≥1 sont i.i.d suivant une loi de Cauchy standard, 1

n

X

i=1

X_i ∼Cauchy(1).

(15)

Ainsi la somme normalisée de variables de Cauchy ne converge pas presque sûrement, et ne vérifie donc pas la loi des grands nombres.

On peut également établir que si X ∼Cauchy(1), 1/X également.

Par ailleurs si Z₁, Z₂ sont i.i.d suivant la loi normale centr´ee r´eduite,

Z1

Z2 ∼Cauchy(1).

Loi Gamma

Soit a > 0, λ > 0, on dit que X ∼ Γ(a, λ) lorsque X poss`ede la densit´e fX telle que

f_X(x) = λ^a

Γ(a)x^a−1exp(−λx)1^{x>0}, x∈R A noter que la loi Γ(1, λ) est exactement la loi exp(λ).

Le carr´e d’une gaussienne standard est distribu´e suivant la loi Gamma(1/2,1/2).

On a E[X] = ^a_λ, Var(X) = _λ^a2.

Par ailleurs, on verra que si les (X_i,1 ≤ i ≤ n) sont ind´ependantes, et X_i ∼Γ(a_i, λ),1≤i≤n alors Pn

i=1X_i ∼Γ(Pn

i=1a_i, λ).

En particulier, la somme den variables i.i.d suivant une loi exponentielle de paramètre λ suit une loi Gamma de paramètres n, λ. La somme du carré de n gaussiennes i.i.d, standards suit une loi Gamma de paramètre n/2,1/2 (on l’appelle également loi du χ² à n degrés de liberté).

Loi Beta

Soita >0, b >0, on dit que X ∼Beta(a, b) lorsqueX poss`ede la densit´e f_X telle que

f_X(x) = Γ(a+b)

Γ(a)Γ(b)x^a−1(1−x)^b−11(0,1)(x), x∈R

On verra (paragraphe sur les lois jointes) que siX ∼Γ(a, λ), ind´ependante de Y ∼ Γ(b, λ), alors _X+Y^X ) est ind´ependante de X + Y et suit une loi Beta(a, b).

Et bien d’autres

De nombreuses autres lois possédant une densité par rapport à la mesure de Lebesgue peuvent être qualifiées d’usuelles : par exemple la loi de Pareto (dont la densité s’exprime comme une puissance négative de x au delà d’un seuil), et les lois qui apparaissent en théorie des extrêmes (loi de Gumbel, loi de Fréchet, loi de Weibull). Voir la feuille d’exercices pour plus de détails.

(16)

5 Variables al´ eatoires ind´ ependantes

Famille de variables al´eatoires ind´ependantes

Definition 1. SoientI un ensemble quelconque d’indices etX_i : (Ω,F,P)→ (E_i,E_i), i∈I des v.a. On dit que les (X_i)i∈I sont ind´ependantes ssi les tribus (σ(Xi))i∈I le sont, i.e.

∀J ⊂I, J fini , ∀(A_j)j∈J ∈Y

j∈J

E_j,

P

\

j∈J

{X_j ∈A_j}

!

=Y

j∈J

P(X_j ∈A_j).

Les images de v.a. ind´ependantes restent ind´ependantes

Proposition 1. Soient (Xi, i∈I) des variables indépendantes comme dans la définition ci-dessus, f_i : (E_i,E_i) → (F_i,F_i), i ∈ I des applications mesurables, et Y_i =f_i(X_i), i∈I. Alors les (Y_i, i∈I) sont indépendantes.

Preuve : Pour touti∈I,

σ(Y_i) = {X_i⁻¹(f_i⁻¹(B)), B ∈ F_i} ⊂σ(X_i).

Regroupement par paquets

Proposition 2. Soient (X_i, i ∈ I) des variables ind´ependantes, (I_k)k∈K

une partition de I, et Y_k = (X_i, i ∈ I_k), k ∈ K. Alors les (Y_k)k∈K sont ind´ependantes.

Preuve : Découle directement du théorème de regroupement par paquets pour des tribus indépendantes.

Exemple d’application des deux propositions: On suppose que (X₁, X₂, X₃, X₄) sont ind´ependantes, et on pose Y₁ :=X₁+X₃ et Y₂ :=X₂²−cos(X₄).

Par regroupement par paquets Z₁ = (X₁, X₃) et Z₂ = (X₂, X₄) sont indépendantes. Et doncY₁ =f₁(Z₁) etY₂ =f₂(Z₂) sont également indépendantes.

(17)

Caract´erisation de l’ind´ependance via classe monotone

Théorème 19 (Indépendance et classe monotone). Soient I un ensemble quelconque d’indices et X_i : (Ω,F,P) → (E_i,E_i), i ∈ I des v.a. On suppose que pour tout i ∈ I, C_i ⊂ E_i est un π-système tel que σ(C_i) = E_i. Alors les (X_i, i∈I) sont indépendantes ssi

∀J ⊂I, J fini , ∀(A_j)j∈J ∈Y

j∈J

C_j,

P

\

j∈J

{X_j ∈A_j}

!

=Y

j∈J

P(X_j ∈A_j).

Preuve

Si J = {i₁, ..., i_n}, l’ensemble des A_i₁ ∈ E_i₁ tels que pour tous A_i_k ∈ C_i_k,2 ≤ k ≤ n on a P

T

j∈J{X_j ∈A_j}

=Q

j∈JP(X_j ∈ A_j) est une classe monotone, qui contientCi1 par hypothèse. Par théorème de classes monotones c’est donc E_i₁. Autrement dit l’égalité

P

\

j∈J

{X_j ∈A_j}

!

=Y

j∈J

P(X_j ∈A_j) s’´etend `a Ai1 ∈ Ei1,Ai_k ∈ Ci_k,2≤k ≤n.

Une deuxième application du théorème permet d’étendre l’égalité à tout A_i₁ ∈ E_i₁, A_i₂ ∈ E_i₂ A_i_k ∈ C_i_k,3≤k ≤n, etc...

Lan-ième application du théorème permet de conclure.

Le cas des v.a.r

Corollaire 1. Soient(X_i, i∈I)des v.a. r´eelles. Les(X_i)i∈I sont ind´ependantes ssi pour tout J ⊂I, J fini et pour tous (tj)j∈J ∈R^J

P

\

j∈J

{X_j ≤t_j}

!

=Y

j∈J

P(X_j ≤t_j).

En particulier, les n variables r´eelles (X₁, ..., X_n) sont ind´ependantes ssi pour tout (t₁, ..., t_n)∈Rⁿ,

P(X₁ ≤t₁, ..., X_n ≤t_n) =

n

Y

i=1

P(X_i ≤t_i).

(18)

Ind´ependance : la loi jointe est la loi produit

Théorème 20(Loi jointe est loi produit). Les v.a.X_i : (Ω,F,P)→(E_i,E_i),1≤ i≤n sont indépendantes ssi

P^(X1,...,Xn)=P^X1 ⊗ · · · ⊗P^Xn

Ci-dessus,PX1⊗· · ·⊗PXn est l’unique mesure sur l’espace produitE₁×· · ·×E_n muni de la tribu produit E₁⊗ · · · ⊗ E_n := σ(A1×. . . An, Ai ∈ E_i,1≤i≤n) telle que pour tous A_i ∈ E_i,1≤i≤n,

P^X1 ⊗ · · · ⊗P^Xn(A1× · · · ×An) = P^X1(A1). . .P^Xn(An).

Ind´ependance : la loi jointe est la loi produit

Preuve de ⇒ : Supposons les (X_i,1 ≤ i ≤ n) ind´ependantes, et A_i ∈ E_i,1≤i≤n, on a

P(X1,...,Xn)(A₁× · · · ×A_n) = P(X₁ ∈A₁, . . . , X_n ∈A_n) =

n

Y

i=1

PXi(A_i), de sorte queP(X1,...,Xn)etPX1⊗ · · · ⊗PXn co¨ıncident surC ={A₁× · · · ×A_n: A_i ∈ E_i,1≤i≤n}. OrC est un π-système qui engendreE₁⊗ · · · ⊗ E_n ce qui fournit la conclusion souhaitée grâce au lemme d’unicité des mesures.

Preuve de⇐: Triviale. Si l’égalité des mesures est vérifiée surE₁⊗· · ·⊗E_n, elle l’est en A₁× · · · ×A_n.

Critère d’indépendance via calcul d’espérances

Théorème 21 (Indépendance via espérances). Les (Xi)i∈I (comme dans la définition initiale) sont indépendantes ssi quelque soient J ⊂ I fini, f_j : (E_j,E_j)→(R,B(R)) mesurable, PXj-intégrable, j ∈J,

E

"

Y

j∈J

f_j(X_j)

#

=Y

j∈J

E[f(X_j)].

En particulier les variables (X1, ..., Xn) sont ind´ependantes ssi pour toutes f_i : (E_i,E_i)→(R,B(R)) mesurable,PXi-int´egrable, 1≤i≤n,

E

" _n Y

i=1

f_i(X_i)

#

=

n

Y

i=1

E[f(X_i)].

(19)

Preuve

Quitte à numéroter les éléments deJ, et alléger les notations, il suffit de démontrer le cas particulier énoncé à la suite du théorème.

Preuve de ⇐ : Pour A_i ∈ E_i, i ∈ {1, ..., n}, l’égalité souhaitée vient en posant f_i =1^{Ai},1≤i≤n.

Preuvede⇒: En utilisant le théorème qui précède, puis Fubini, on trouve que

E

" _n Y

i=1

f_i(X_i)

#

= Z

E1×···×En

n

Y

i=1

f_i(x_i)

!

dP^(X1,...,Xn)(x₁, ..., x_n)

= Z

E1×···×En

n

Y

i=1

f_i(x_i)

!

dPX1(x₁). . . dPXn(x_n)

=

n

Y

i=1

Z

Ei

f_i(x_i)dPXi(x_i) =

n

Y

i=1

E[f_i(X_i)]

Ind´ependance et covariance

Une conséquence de ce qui précède est que siXetY sont des v.a.r dansL² indépendantes, on a Cov(X, Y) =E[XY]−E[X]E[Y] = 0, et Var(X+Y) = Var(X) + Var(Y) + 2Cov(X, Y) = Var(X) + Var(Y).

La contrapos´ee est fausse.

Par exemple si X ∼ N(0,1), ε ∼ Rademacher(1/2) ind´ependante de X, et Y =εX ∼ N(0,1), on a

Cov(X, Y) =E[XY] =E[ε]E[X²] = 0,

mais X et Y ne sont pas indépendantes, puisque P(X = Y) = 1/2 (cette probabilité serait nulle si les variables étaient indépendantes). On peut aussi se convaincre de la non-indépendance de X etY en écrivant par exemple

P(X ≥1, Y ≥1) = 1

2P(X ≥1)6=P(X ≥1)P(Y ≥1) = P(X ≥1)². Le contre-exemple précédent se généralise aisément. Si X est une v.a.r centrée,ε ∼Rademacher(1/2) indépendante deX, etY =εX, alors on aura

(20)

Cov(X, Y) = 0. PourtantX n’est ind´ependante de Y que lorsqu’on aX ≡0 ou P(X =α) = P(X =−α) = 1/2 pour un α >0.

Il n’y a pas vraiment de surprise : Cov(X, Y) = 0 indique seulement que (X−E[X])(Y −E[Y]) est centr´ee.

L’indépendance deX etY est une condition beaucoup plus forte, puisqu’elle signifie quepour toutefonctionfsatisfaisant une condition d’intégrabilité, la variable (f(X)−E[f(X)])(f(Y)−E[f(Y)]) est centrée.

Théorème 22. Soient(X_i)1≤i≤n des variables aléatoires à valeurs resp. dans E₁, ..., E_n, resp. munis des tribus E₁, ...,E_n. On suppose queP^(X1,...,Xn) =µ₁⊗

· · · ⊗µ_n. Alors les (X_i)1≤i≤n sont ind´ependantes et PXi(·) = _µ^µⁱ^(·)

i(Ei).

Preuve

Remarquons tout d’abord que 1 =P(X1,...,Xn)(E1×· · ·×En) = Qn

j=1µj(Ej), de sorte que pour i fix´e,Q

j6=iµ_j(E_j) = _µ ¹

i(Ei). Fixons alors i, et B ∈ E_i, on a

P(X_i ∈B) = P({X_i ∈B} ∩ {X_j ∈E_j, j 6=i})

= µ_i(B)Y

j6=i

µ_j(E_j) = µ_i(B) µi(Ei), de sorte qu’on a bien P^Xi(·) = _µ^µⁱ^(·)

i(Ei), comme souhait´e.

Mais alors, pourA_i ∈ E_i,1≤i≤n(en utilisant `a nouveau queQn

i=1µ_j(E_j) = 1),

P(X₁ ∈A₁, ..., X_n ∈A_n) =

n

Y

i=1

µ_i(A_i) =

n

Y

i=1

µ_i(A_i) µ_i(E_i) =

n

Y

i=1

PXi(A_i).

Somme de v.a ind´ependantes et convolution

Définition 7. SoientX, Y deux variables aléatoires à valeurs dans un espace E muni de l’addition, indépendantes. Alors PX+Y =:PX ∗PY.

La mesure P^X ∗ P^Y est appel´ee produit de convolution de P^X et P^Y. Comme X +Y : (Ω,F,P) → (E,E) est la compos´ee de (X, Y) avec f :

(21)

(E² →E

(x, y)→x+y, la définition ci-dessus correspond à la définition classique du produit de convolution de mesures : PX ∗ PY est la mesure image de PX ⊗PY par f.

6 Variables discr` etes, ` a densit´ e : cas g´ en´ eral

6.1 Variables discr` etes

Variables discrètes : définition générale

Définition 8 (Variable discrète). Soit E un ensemble fini ou dénombrable, muni de la tribu E.

(i) On appelle variable discr`ete toute application mesurable(Ω,F,P)dans (E,E).

(ii) On appelle ´egalement variable discr`ete une application mesurable(Ω,F,P) dans (A,A) avec A⊃E, A ⊃ E et P(X /∈E) = 0.

Remarques :

— Même si c’est un léger abus de langage dans le deuxième cas, on dira qu’une telle X est une variable aléatoire discrète à valeurs dans E.

— Le plus souvent on munitE de la tribu de ses parties, i.e. on travaille avecE =P(E). On fait cette hypoth`ese dans la suite.

Loi d’une variable discr`ete

Soit X v.a. discr`ete `a valeurs dans E,E =P(E).

La loi deX est entièrement déterminée par ses atomes : P^X =X

x∈E

P(X =x)δx. Autrement dit pour tout A∈ P(E),

PX(A) =X

x∈A

P(X =x).

En pratique, on d´ecrit souvent PX en donnant la valeur deP(X =x), x∈ E.

(22)

Fonction d’une v.a discr`ete, esp´erance

Soit X v.a. discr`ete `a valeurs dans E, f : (E,E) → (E⁰,E⁰) mesurable.

Alors f(X) est une variable discrète à valeurs dans E⁰. Si f est à valeurs réelles, on a

E[f(X)] =X

x∈E

f(x)P(X =x) = X

y∈E⁰

yP(f(X) =y).

V.a. discrètes, caractérisation de l’indépendance

Théorème 23 (Indépendance de v.a. discrète). Les v.a. discrètes (X_i,1 ≤ i≤n), à valeurs respectives dans les E_i,1≤i≤n, munis resp. de leur tribu des parties, sont indépendantes ssi quels que soient(x₁, ..., x_n)∈E₁×· · ·×E_n, on a

P(X1 =x1, . . . , Xn =xn) =

n

Y

i=1

P(Xi =xi).

Preuve: l’implication ⇒est ´evidente en prenantA_i ={x_i}.

Réciproquement, on peut appliquer le théorème de caractérisation de l’indépendance par des π-systèmes avecC_i ={{x_i}, x_i ∈E_i}.

Somme de variables enti`eres, ind´ependantes

Soit X,Y, ind´ependantes, `a valeurs dans Z. Alors pour tout n∈Z, P(X+Y =n) =X

k∈Z

P(X =k)P(Y =n−k)

6.2 Densit´ es, variables ` a densit´ e

Définition 9(Mesure de densitéf par rapport àµ). Soit(E,E, µ)un espace mesuré, etf : (E,E)→(R+,B(R+))une application positive, mesurable. On définit la mesure sur (E,E) :

ν:

( E →[0,+∞]

A→R

Af dµ.

On dit que ν est la mesure de densit´e f par rapport `a µ et on note f =: ^dµ_dν.

(23)

Théorème 24 (Unicité de la densité à indistinguabilité près). Si ν est σ- finie, et si f et g sont toutes deux des densités de ν par rapport à µ, alors f et g co¨ıncident µ-presque partout.

Preuve : Soit A := {x ∈ E : f(x) > g(x)} qui est dans E car f et g, et donc f −g sont mesurables.

Si ν est σ-finie, on peut consid´erer (E_n) ∈ E^N telle que E_n % E et ν(E_n)<∞.

On aν(A∩E_n) =R

A∩E_nf(x)dµ(x) = R

A∩E_ng(x)dµ(x)<∞ de sorte que R

A∩En(f(x)−g(x))dµ(x) = 0, et donc µ(A∩E_n) = 0.

En faisant tendre n vers l’infini on d´eduit µ({x : f(x) > g(x)}) = 0, et donc par un raisonnement sym´etrique,µ({x:f(x)6=g(x)}) = 0.

Théorème 25(Espérance et variables à densité). Soitg : (E,E)→(R,B(R)) mesurable, positive ou ν-intégrable, et f = ^dν_dµ. Alors

Z

E

g(x)dν(x) = Z

E

g(x)f(x)dµ(x).

En particulier, si ν est la loi de la variable X, on a

E[g(X)] = Z

E

g(x)f(x)dµ(x).

Preuve : C’est la définition de mesure de densité f pour g = 1A. Par linéarité de l’intégrale, on a aussi l’égalité pour g étagée quelconque, puis pour g positive par TCM et enfin pour g = g⁺−g⁻ intégrable, à nouveau par linéarité.

Remarque ´edifiante

SiXest discrète, à valeurs dansE, alors sa loiPX a densitéf :

( E →R+

x→P(X =x) par rapport `a µ = P

x∈Eδ_x, la mesure de comptage sur E. Le résultat précédent permet d’ailleurs de retrouver que pour tout g : E → R P^X- intégrable

E[g(X)] = Z

E

g(x)f(x)dµ(x) =X

x∈E

g(x)P(X =x).

Le concept de loi à densité par rapport à une mesure de référence est donc très général.

(24)

Densit´e par rapport `a mesure de Lebesgue

Il n’en reste pas moins que lorsqu’on parle d’une variable X, à valeurs dans R^d, de densité fX, sans préciser la mesure de référence, c’est que cette mesure de référence est la mesure de Lebesgue surR^d. Le résultat précédent permet dans ce cas d’écrire, pour tout g :R^d→R PX-intégrable

E[g(X)] = Z

R^d

g(x)f_X(x)dx.

Densités marginales de (X, Y) à densité dans le plan

Définition 10 (Densités marginales d’une variable R² à densité). Soient X, Y à valeurs réelles telles que Z := (X, Y), à valeurs dans R² possède la densité h. Alors X possède la densité f_X telle que

f_X(x) = Z

R

h(x, y)dy, x∈R,

qu’on appelle aussi densité marginale de la première coordonnée de Z. De même Y possède la densité fY telle que fY(y) = R

Rh(x, y)dx, y ∈R, qu’on appelle aussi densité marginale de la deuxième coordonnée de Z.

Densit´es marginales

V´erification: Pour tout g :R→R, born´ee mesurable, on a par Fubini, E[g(X)] =

Z

R

Z

R

g(x)h(x, y)dxdy= Z

R

g(x)f_X(x)dx.

Remarque : Attention, il est possible que X et Y possèdent des densités sans que (X, Y) en possède. Par exemple siX ∼ N(0,1) et X =Y.

Densités marginales : cas général

Définition 11(Densité marginale : cas général). SoientX₁, ..., X_n à valeurs respectives dans E₁, ..., E_n, telles que X := (X₁, . . . , X_n), à valeurs dans E = E₁ × · · · ×E_n et muni de la tribu produit possède la densité f par rapport à la mesure produit µ=µ₁⊗ · · · ⊗µ_n (où µ_i est une mesure sur E_i,

(25)

1 ≤ i ≤ n). Alors pour tout i ∈ {1, ..., n}, la variable X_i possède la densité f_i par rapport à µ_i, où pour x_i ∈E_i,

f_i(x_i) = Z

E1×···×Ei−1×Ei+1×···×En

f(x₁, ..., x_n)Y

j6=i

dµ_j(x_j).

On appelle aussi f_i la densité marginale de la i-ème coordonnée de X.

Définition 12(Densités marginales : un autre exemple). SoientX à valeurs dans Rⁿ, Y à valeurs dans R^p telles que Z := (X, Y), à valeurs dans R^n+p possède la densité h. Alors X possède la densité f_X telle que

f_X(x) = Z

R^p

h(x, y)dy, x∈Rⁿ,

qu’on appelle aussi densité marginale des n premières coordonnées de Z. De même Y possède la densité f_Y telle que f_Y(y) = R

Rⁿh(x, y)dx, y ∈ R^p, qu’on appelle aussi densité marginale des p dernières coordonnées de Z.

Densité et indépendance (mesure de référence Lebesgue)

Théorème 26 (Densité et indépendance). (i) Si X à valeurs dans Rⁿ, admet la densitéf telle quef(x₁, ..., x_n) = f₁(x₁). . . f_n(x_n),(x₁, ..., x_n)∈ Rⁿ, où pour tout i∈ {1, ..., n}, f_i est positive mesurable, alors

— Pour tout i ∈ {1, ..., n} la densit´e marginale de Xi est cifi, o`u c_i =R

Rⁿ⁻¹

Q

j6=if_j(x_j)dx_j

= R

Rf_i(x_i)dx_i−1

.

— Les variables (X₁, ..., X_n) sont ind´ependantes

(ii) Si pour i ∈ {1, ..., n}, X_i a densité f_i et les variables (X₁, ..., X_n) sont indépendantes, alors X a densité f_X (par rapport à λ_n) telle que f_X(x₁, ..., x_n) = Qn

i=1f_i(x_i), (x₁, ..., x_n)∈Rⁿ. Densit´e et ind´ependance

Preuve de (i) : Soit g :R→R bor´elienne born´ee. Par Fubini, E[g(X_i)] =

Z

R

g(x_i)f_i(x_i) Z

Rⁿ⁻¹

Y

j6=i

f_j(x_j)dx_j

!

= Z

R

g(x_i)c_if_i(x_i)dx_i, et donc Xi a la densité cifi. Comme cette densité est d’intégrale 1 sur R on obtient également l’autre expression pour c_i. Puisque f est une densité on trouve également que Qn

i=1c_i = 1.

(26)

Densit´e et ind´ependance

Si lesg_i :R→R, i∈ {1, ..., n} sont boréliennes bornées, on a, par ce qui précède, puis à nouveau Fubini

E

" _n Y

i=1

g_i(X_i)

#

= Z

Rⁿ n

Y

i=1

g_i(x_i)

!

f(x₁, ..., x_n)dx₁. . . dx_n

= Z

Rⁿ n

Y

i=1

gi(xi)

n

Y

i=1

cifi(xi)dxi

!

=

n

Y

i=1

Z

R

gi(xi)cifi(xi)dxi

=

n

Y

i=1

E[gi(Xi)]

Densit´e et ind´ependance

Preuve de (ii): Si les g_i :R→R,i ∈ {1, ..., n} sont boréliennes bornées, on a, toujours par Fubini (et en remontant le calcul précédent)

E

" _n Y

i=1

g_i(X_i)

#

=

n

Y

i=1

Z

R

g_i(x_i)c_if_i(x_i)dx_i

= Z

Rⁿ n

Y

i=1

g_i(x_i)

!

f(x₁, ..., x_n)dx₁. . . dx_n

= E

" _n Y

i=1

g_i(X_i)

#

et on conclut comme dans la preuve du théorème de caractérisation de l’indépendance par les espérances.

Densité et indépendance : généralisation

Théorème 27 (Densité et indépendance : cas général). Soit E =E₁×E_n, muni de la tribu produit et une mesure produit µ=µ₁⊗ · · · ⊗µ_n.

(i) Si X à valeurs dans E, admet la densité f par rapport à µ telle que f(x₁, ..., x_n) = f₁(x₁). . . f_n(x_n),(x₁, ..., x_n) ∈ E₁ × · · · ×E_n, où pour tout i∈ {1, ..., n}, f_i est positive mesurable, alors

— Pour touti∈ {1, ..., n} la densit´e marginale deXi par rapport `aµi

estc_if_i, o`uc_i =R

Q

j6=iEj

Q

j6=if_j(x_j)dµ_j(x_j)

= R

Eif_i(x_i)dµ_i(x_i)−1

.

(27)

— Les variables (X₁, ..., X_n) sont ind´ependantes

(ii) Si pour i∈ {1, ..., n}, X_i a densité f_i par rapport à µ_i et les variables (X1, ..., Xn)sont indépendantes, alors X a densité fX par rapport à µ telle que f_X(x₁, ..., x_n) = Qn

i=1f_i(x_i), (x₁, ..., x_n)∈Rⁿ. Somme de variables indépendantes à valeurs R^d, à densité

Théorème 28. On suppose que X et Y sont des v.a, à valeurs dans R^d, indépendantes, et de densités respectives f_X, f_Y. Alors X + Y a densité f_X+Y =f_X ∗f_Y, i.e.

fX+Y(u) =fx∗fY(u) = Z

R^d

fX(x)fY(u−x)dx, u∈R^d. Somme de variables indépendantes à valeurs R^d, à densité

Preuve : Puisque X et Y sont ind´ependantes, (X, Y) a densit´e (x, y) → f_X(x)f_Y(y) sur R^2d. Soit alors h:R^d→R mesurable, positive, en effectuant le changement de variables (x, y)→(x, x+y), et Fubini, on obtient

E[h(X+Y)] = Z

R^d×R^d

h(x+y)f_X(x)f_Y(y)dxdy

= Z

R^d

h(u) Z

R^d

f_X(x)f_Y(u−x)dx

du,

ce qui conduit `a la conclusion souhait´ee.

Densité par rapport à Lebesgue et fonction de répartition Théorème 29. Soit X une v.a.r.

(i) Si X a densit´e f_X, alors pour tout t ∈ R, F_X(t) = Rt

−∞f_X(x)dx (en particulier F_X est absolument continue)

(ii) Si F_X est absolument continue (et donc λ-p.p dérivable), alors X a densité F_X⁰ , où F_X⁰ (t) := 0 en tout point de non-dérivabilité de F_X. Remarque : Il faut bien faire attention que (ii) requiert l’absolue conti- nuitédeF. AvoirF continue etλ-p.p dérivable ne suffit pas à garantir l’exis- tence d’une densité pourX. En effet siX ∼Unif(C), oùC est l’ensemble de Cantor sur [0,1], sa fonction de répartition F (également appelé escalier du diable) est continue, λ-p.p dérivable, pourtant la loi de X est étrangère à λ.