• Aucun résultat trouvé

Probabilités Chapitre 2 : Variables aléatoires

N/A
N/A
Protected

Academic year: 2022

Partager "Probabilités Chapitre 2 : Variables aléatoires"

Copied!
18
0
0

Texte intégral

(1)

Probabilités

Chapitre 2 : Variables aléatoires

Lucie Le Briquer

On va tout faire pour ne plus regarder(Ω,A,P)en détail. L’objet essentiel : les variables aléatoires (v.a.) et leur loi.

Une variable aléatoireX est une fonction mesurable X: (Ω,A)→(E,E) X(ω)est un élément aléatoire deE.

Si (E,E) = (R,B(R)), on dit que X est une v.a. rééelle (v.a.r). X est une observation de l’aléa.

Définition 1(variable aléatoire)

Exemple.On jette 2 dés.X =“la somme des 2 dés” est une v.a.

X :

ß {1, ...,6}2 → R (ω1, ω2) → ω12

Exemple.Dans une population de 1000 personnes,N personnes veulent voter “Oui” à un refe- rendum. On interroge une personne au hasard et on lui demande son opinion.

Modélisation. Ω ={1, ...,1000}(de 1 àN ils votent “Oui”),A=P(Ω),Pprobabilité uniforme : P(répond Oui) = N

1000

Une autre modélisation. Ω = {“Oui”, “Non”}, A = P(Ω), P tel que P({“Oui”}) = 1000N et P({“Non”}) = 1−1000N .P(répond Oui) = 1000N .

Remarque.Choix non unique de (Ω,A,P).

Si on interroge une seconde personne, il faut changerΩ, il faudrait désormais prendre{1, ...,1000}2. Modélisation par v.a. Soit X : Ω → {“Oui”,“Non”} telle que P(X = “Oui”) = 1000N . Et on raisonne de manière à ce que ça marche sur tout(Ω,A,P) tel queX existe. Si on s’intéresse à une seconde personne on définit juste une seconde v.a. Y telle que :

P(X=“Oui”, Y =“Oui”) = Å N

1000 ã2

(2)

1 Évènements décrits par des variables aléatoires

SiX, Y,(Xi)i sont des variables aléatoires surΩ, on note :

• (X 64)pour{ω∈Ω|X(ω)64}

• Å

lim sup

n→+∞

1 n

Pn

i=1Xi= +∞

ã pour

ß

ω∈Ω|lim sup

n→+∞

1 n

Pn

i=1Xi(ω) = +∞

• (Pn

i=1Xi<+∞)pour{ω∈Ω|Xi(ω)<+∞}

Exemple. On jette une infinité de dès et on note X le numéro du jet où apparaît pour la première fois 6.X est une variable aléatoire à valeurs dansN∪ {+∞}:

X:

ß Ω −→ N∪ {+∞}

ω 7−→ inf{i|ωi= 6}

On prendΩ =J1,6KN

,Aest la tribu cylindrique.

Regardons l’événementX <+∞:

P(X = +∞)6P(∀i6n, ωi 6= 6) = X

i1,...,ikJ1,5K

P(∀j 6n, ωj =ij)6 Å5

6 ãn

−−−−−→

n→+∞ 0

DoncP(X= +∞) = 0etP(X <+∞) = 1.

Remarques.

• On noteA p.s. (presque sûrement) siP(A) = 1, ouAP−p.p. (presque partout).

• Il faut différencier X <+∞(événement) etX <+∞ p.s. (décrit un fait mathématique : P(X <+∞) = 1)!

• Il faut différencierX <+∞p.s. deX ne prend que des valeurs finies (ce qui est faux) !

• Si(An)n∈Nest une suite d’événements tels que∀n∈Non aAn p.s. alors on a :

\

n∈N

An

! p.s.

• Si on aAp.s., alors :

∀B, P(A∩B) =P(B) Propriété 1(événements p.s.)

Preuve.

• P(T

n∈NAn) = 1−P S

n∈NAn

>1−P

n∈N P(An)

| {z }

=1−P(An)=0

= 1

• P(A∩B) +P(A∩B)

| {z }

6P(A)=0

= 1

(3)

Remarque.Premier point fort pour une intersection non dénombrable :

Soit (Ω,A,P) = ([0,1],B([0,1]),Leb), Ax ={x}. On aP(Ax) = Leb({x}) = 0donc [0,1]\{x}

p.s. Mais :

P Ñ

\

x∈[0,1]

([0,1]\{x}) é

=P(∅) = 0

2 Tribu à partir d’une variable aléatoire

La construction de tribus définies par des variables aléatoires est cruciale !

Soit(Ω,A,P)un espace probabilisé. SoitX : (Ω,A)−→(E,E)une variable aléatoire mesurable.

Quelle est la plus petite tribu (⊆ A) qui rendX mesurable ?

AppelonsBcette tribu.Bdoit contenirX−1(C)pourC∈ Edonc{X−1(C)|C∈ E}=X−1(E)⊆ B. Or, on vérifie facilement que {X−1(C)| C ∈ E} est une tribu, et donc B=X−1(E). On la noteσ(X) =B et on l’appelletribu engendrée parX.

SoitX : (Ω,A)−→ (E,E) une variable aléatoire. On noteσ(X) la plus petite tribu deA qui rendX mesurable. On a :

σ(X) =X−1(E) Définition 2(tribu engendrée par une variable aléatoire)

Remarque.C’est la bonne manière de penser les tribus : une tribu est l’ensemble des propriétés qu’on peut évaluer sur l’aléa au travers de l’observation deX.

SiB ⊆ A, on a :

X: (Ω,B)→(E,E)est mesurable ⇔ σ(X)⊆ B Propriété 2

Remarque.

• Toute tribu apparaît comme cela. SiBest une sous-tribu deA, alors siX : (Ω,A)−→(E,E) est l’identité, on a σ(X) =B.

• σest utilisé dans des situations très différentes. On est contraint dans le cadre d’un espace de probabilités(Ω,A,P)de définir des tribus pas trop grosses (pas d’informations inutiles), et σ(.)est toujours une sous-tribu deAde “la bonne taille” (assez pour contenir l’information nécessaire de la variable aléatoire, mais pas plus).

• Si Aest un événement :σ(A) ={∅, A, A,Ω}

(4)

3 Indépendance

On sort de la théorie de la mesure pour faire des probabilités avec la notion d’indépendance, dont on va rappeler brièvement les définitions :

Soient(Bi)i∈I des sous-tribus deA. On dit que les(Bi)i∈I sont indépendantes si :

∀k,∀i1< ... < ik∈I,∀B1∈ Bi1, ..., Bk∈ Bik, P Ä\Bj

ä=

k

Y

j=1

P(Bj) Définition 3(indépendance de tribus)

Soient(Bi)i∈I des événementsA. On dit que les(Bi)i∈I sont indépendants si :

∀k,∀i1< ... < ik ∈I, P

Ä\Bijä

=

k

Y

j=1

P(Bij) Définition 4(indépendance d’événements)

Soient (Xi)i∈I des variables aléatoires. On dit que les (Xi)i∈I sont indépendantes si (σ(Xi))i∈I sont des tribus indépendantes.

Définition 5(indépendance de variables aléatoires)

Remarques.

1. Les(Xi: (Ω,A)−→(Ei,Ei))i∈I sont indépendantes si et seulement si :

∀k,∀i1< ... < ik∈I,∀C1∈ Ei1, ..., Ck∈ Eik, P Ñ

X ∈ \

j∈J1,kK

Cj é

=

k

Y

i=1

P(X ∈Cj)

2. (Ai)i∈I indépendantes⇔(σ(1i))i∈I indépendantes⇔(1Ai)i∈I indépendantes 3. L’indépendance est une propriété sur un nombre fini d’objets.

4. SiIest infini,(Bi)i∈I sont indépendantes si et seulement si toute sous-famille finie l’est.

Exemple. On jette 2 dès. On pose A = “le premier est pair00 et B = “le second est pair00 et C= “ils sont égaux00. On prendΩ =J1,6K

2,A=P(Ω)etPla probabilité uniforme. Alors on a :









P(A) =P(B) =12 P(C) =16

P(A∩C) =P(B∩C) =121 =P(A)P(C) =P(B)P(C) P(A∩B) =14 =P(A)P(B)

P(A∩B∩C) = 121 6=P(A)P(B)P(C)

Donc{A, B},{A, C}et{B, C}sont des systèmes d’événements indépendants, mais{A, B, C}ne l’est pas.

(5)

Remarques.

• L’indépendance a lieu lorsque l’on ne peut rien déduire sur l’un des objets à partir des autres. A indépendant de C car savoir que le premier dès est pair n’influe pas sur les chances qu’ils soient égaux.

Par contre savoir AetC impliqueB, donc on n’a pas indépendance des trois.

• Pour 2 événements avecP(B)6= 0:

Aet B indépendants ⇔ P(A|B) =P(A) Le fait queB soit réalisé n’influe pas surA.

4 Loi d’une variable aléatoire : on substitue P

La dernière étape avant de se débarrasser de notre espace de probabilité est de trouver un substitut àP.

SoitX : (Ω,A,P)→ (E,E) une variable aléatoire. Sa loi µX est la mesure de probabilité sur(E,E)définie par :

∀A∈ E, µX(A) =P(X ∈A) Définition 6(loi d’une variable aléatoire)

Remarque.µX est la mesure image dePparX.

On noteX ∼µlorsqueX a pour loi la mesure de probabilité µ.

• SoitX : (Ω,A)→(R+,B(R+))une variable aléatoire. Alors on définit l’espérance de X comme :

E[X] = Z

X(ω)dP(ω)

• SoitX : (Ω,A)→(R,B(R))une variable aléatoire telle que E[|X|]<+∞. Alors on définit l’espérance deX comme :

E[X] = Z

X(ω)dP(ω)

• SoitX: (Ω,A)→(Rd,B(Rd))une variable aléatoire. On noteX = (X1, ..., Xd)et on définit l’espérance deX lorsque∀i,E[|Xi|]<+∞, ou lorsqueE[kXk]<+∞, par :

E[X] = (E[X1], ...,E[Xd]) Définition 7(espérance)

Remarque.Si µ est une probabilité sur (E,E) alors il existe une variable aléatoire de loi µ.

Considérer en effet(Ω,A,P) = (E,E, µ)et X l’identité surΩ.

(6)

Exemple.(lois de variables aléatoires) On distingue 3 catégories :

• le cas discret : cas où il existeA dénombrable (ou fini) tel queX∈A presque sûrement

• le cas continu : cas où X est à valeurs dans Rd et sa loi a une densité par rapport à la mesure de Lebesgue

• autre cas ?

1. [Lois discrètes] X∈A presque sûrement avecA fini ou dénombrable.

(a) ∃c∈ E tqX =cp.s. :

P(X ∈A)P(Xc)1c∈A+P(X 6=c∩X ∈A)

| {z }

6P(X6=c)=0

c(A)

oùδc(A) :A7−→1c∈A. On aX =cp.s. ⇔ X∼δc.

(b) Plus généralement, siA={a1, ..., ai, ...}, on notepi=P(X =ai). Automatiquement, P

ipi=P

iP(X =ai) =

union disjointeP(A) = 1.

On a alors :

µX(B) =P(X ∈B) =

par (prop1)P(X ∈B, X ∈A)

=P G

ai∈B

X =ai

!

= X

i|ai∈B

P(X =ai)

=X

i

piδai(B) = X

i

δai

! (B) DoncµX=P

iδai. Remarques.

• La loi d’une variable aléatoire discrète est donnée par l’ensemble {a1, ..., ai, ...}, où cette variable aléatoire vit presque sûrement, et la suite despi=P(X =ai).

• Pour une mesureµ, on dit quexest unatomesiµ({x})>0. Donc une mesure discrète a pour atomes tous les ai tels que pi >0 et donc est “portée” par ses atomes. On appelle ces mesures des mesures purement atomiques.

• Il y a des mesures sans atomes (comme la mesure de Lebesgue).

Soit A ⊆ Rd. Soit X une variable aléatoire discrète et X > 0 p.s. (ou si |X| est intégrable) :

E[X] = Z

X−1(A)

X(ω)dP(ω) + Z

X−1(A)

X(ω)dP(ω)

| {z }

=0

=X

i

Z

X−1(ai)

X(ω)

| {z }

ai

dP(ω) =X

i

aipi

(7)

(c) Si X ∈ {0,1}p.s., soit p=P(X = 1). AlorsµX =pδ1+ (1−p)δ0. On appelle cette loila loi de Bernoulli de paramètre p notée B(p). Elle modélise un événement qui a une probabilitépde succès. On a E[X] =p.

(d) Si X ∈ {a1, ..., an} p.s. (les (ai)i sont deux à deux disjoints) avec P(ai) = 1n on a µX = 1nP

16i6nδai et on dit que X suit la loi uniforme sur {a1, ..., an}. On a E[X] = 1nP

16i6nai.

(e) Si X1, ..., Xn sont des variables aléatoires indépendantes de même loi B(p). On pose X =P

16i6nXiqui modélise le nombre de succés dans une répétition denexpériences indépendantes ayant une probabilitépde réussir.

On a X∈ {0, ..., n}p.s. Sa loi est déterminée par P(X=k)pour k∈J0, nK: P(X=k) =P(“exactementk Xi valent100)

=P G

i1<...<ik

∀j, Xij = 1et ∀i /∈ {i1, ..., ik}, Xi= 0

!

= X

i1<...<ik

P ∀j, Xij = 1 et∀i /∈ {i1, ..., ik}, Xi= 0

=

indép

X

i1<...<ik

Ñ k

Y

j=1

P(Xij = 1) Y

∈{i/ 1,...,ik}

P(Xj = 0) é

= Ån

k ã

pk(1−p)n−k

On appelle cette loi la loibinomiale de paramètrep, notéeB(n, p).

On a E[X] =E[PXi] =P

E[Xi] =np.

(f) On se donne k > 2, p1, ..., pk ∈ [0,1] tels que Ppi = 1. On se donne X1, ..., Xn

indépendants de même loiP(Xi=j) =pj.

On note, pour j∈J1, kK, Nj =Card({16i6n |Xi =j})(“le nombre de particules tombées dans chacune deskboîtes”).

On noteN = ÖN1

... Nk

è

. On aN ∈ {(x1, ..., xk)∈Nk | Pxi=n}.

Généralisation de la loi précédente : on sait queNj ∼ B(n, pj). Quelle est la loi deN?

(8)

Soit(x1, ..., xk)∈Nk tels quePxi=n.

P Ö

N = Öx1

... xk

èè

=P Ñ

G

I1,...,Ikpartition deJ1,nK| |Ij|=xj

(∀j,∀i∈Ij, Xi=j) é

= X

I1,...,Ikpartition deJ1,nK| |Ij|=xj

P(∀j,∀i∈Ij, Xi=j)

= X

I1,...,Ikpartition deJ1,nK| |Ij|=xj

Y

j

Y

i∈Ij

pj (indépendance)

= X

I1,...,Ikpartition deJ1,nK| |Ij|=xj

Y

j

pxjj

= Ån

x1

ã Ån−x1

x2

ã Ån−x1−x2

x3

ã ...

Ån−x1−...−xk−1 xk

ã

×

k

Y

j=1

pxjj

= n!

x1!...xk!

| {z } Å n

x1...xk

ã

k

Y

j=1

pxjj

C’est laloi multinomiale de paramètre(n,(p1, ..., pk)).

(g) SiX∈Np.s. et s’il existeλ >0 tel que : P(X =k) = λk

k!e−λ

On dit queX suit uneloi de Poisson de paramètre λ notéeP(λ).

(h) Si(Xi)i>1 sont des variables aléatoires indépendantes de loiB(p)(on montrera l’exi- tence d’une telle suite plus tard), on pose X = inf{i | Xi = 1} (avec la convention inf∅= +∞).

On modélise le nombre d’expériences à faire pour obtenir un premier succès dans une suite d’expériences indépendantes ayant une probabilitép∈]0,1[de réussir. On a X ∈N∪ {+∞} p.s. On a :

P(X=k) =P(∀i < k, Xi= 0etXk= 1)

=

indép k−1

Y

i=1

P(Xi= 0)P(Xk = 1)

= (1−p)k−1p

Et P(X = +∞)6 P(∀i 6n, Xi = 0) = (1−p)k −−−−−→

n→+∞ 0 donc P(X = +∞) = 0.

DoncX ∈Np.s. Cette loi est laloi géométrique de paramètre p notéeG(p).

2. [Lois continues] On dit queX a une loi de densitéf:Rd−→R+ mesurable par rapport à Lebesgue si pour tout A mesurable sur Rd, on a P(X ∈ A) = R

Af dx (intégration par rapport à la mesure de Lebesgue surRd). Forcément,R

Rdf dx= 1.f est définie Leb−p.p.

Dans ce cas-là, la loi de X est déterminée parf.

(9)

(a) Soitx à valeurs dansRayant pour densité f(x) =λe−λx1x>0 avecλ > 0. Alors on dit queX suit laloi exponentielle de paramètre λnoté E(λ).

(b) Si X à valeurs dans Rd a une loi de densité Leb(D)1x∈D pour D mesurable tel que 0 <

Leb(D)<+∞, alors on dit que la loi deX est uniforme sur D.

(c) Sur R, siX a pour densitéf(x) = 1

expÄ

x22ä

, on dit queX a pour loi lagaus- sienne centrée réduite notéeN(0,1).

Si X a cette loi, sim∈Retσ∈R, soitY =m+σX. Quelle est la loi deY? On a Y ∈Ret :

P(Y ∈A) =P(m+σX ∈A) =P Å

X ∈ A−m σ

ã

= Z

A−m σ

ex

2

2

2πdx =

x=y−mσ

Z

A

e

(y−m)2 2

2πσ dy DoncY suit la loi de densité 1

2πσexp

(y−m)2 2

, appeléegaussienne de moyenne m et de variance σ2 et notée G(m, σ2).

3. [Autre loi ?] SurR:µ= 12σ0+12E(λ)est une mesure de probabilité.

µ(A) = 1

210∈A+1 2

Z

A

λe−λx1x>0dx Existe-t-il d’autres mesures de probabilité ?

Siµest une probabilité sur(R,B(R)), alorsµse décompose sous la forme : µ=αµd+βµc+γµs

avecα+β+γ= 1, et :

• µd est une mesure discrète,

• µc est une mesure continue,

• µsest une mesure singulière, i.e. qui n’a pas d’atomes et telle que :

∃B∈ B(R)|µs(B) = 1et Leb(B) = 0 Cette décomposition est essentiellement unique.

Théorème 1(décomposition de Lebesgue)

Remarque.Pour une mesure à densité f, si Leb(B) = 0, alorsµ(B) = 0. Si de plus µ( ¯B) = 0 alorsf = 0Leb-p.p. Cette condition s’oppose au fait d’avoir une densité !

Exemple.(mesure singulière)

• Si b>2 etx∈[0,1[,xa une unique décompositionb-addique : x=X

i>1

xi bi

où les xi∈ {0, ..., b−1} sont non tous égaux àb−1 à partir d’un certain rang.

(10)

• On regarde le casb= 3, posons : K0= [0,1] =

( X

i>0

xi

3i |xi∈J0,2Knon tous égaux à 2 à partir d’un certain rang )

Puis : K1= 1

3K0∪ Å2

3+1 3K0

ã

= (

X

i>0

xi

3i |x1∈ {0,2} etxi>1∈J0,2Knon tous ...

)

Et définissons par récurrence :

Kn= 1 3Kn−1

Å2 3 +1

3Kn−1 ã

= (

X

i>0

xi

3i |x1, ..., xn ∈ {0,2}et xi>n∈J0,2Knon tous ...

)

On obtient alors l’ensemble triadique de Cantor par :

K= \

n∈N

Kn= (

X

i>0

xi

3i | xi∈ {0,2}

)

Il est facile de vérifier queK est compact dans[0,1]. Pour autant,Kest de mesure nulle.

En effet :

Leb(Kn) =Leb Å1

3Kn−1

ã +Leb

Å2 3+1

3Kn−1

ã

=2

3Leb(Kn−1) =

réc

Å2 3

ãn

−−−−−→

n→+∞ 0

On a Leb(K)6Leb(Kn)−−−−−→

n→+∞ 0 donc Leb(K) = 0.

SoitX ∼ U([0,1]) et :

ϕ:

ß [0,1[ −→ K P

i>0 xi

3i 7−→ P

i>0 2xi

3i

ϕest injective. SoitY =ϕ(X). AlorsµY est singulière. En effet : µ{x}=P(Y =x) =P(ϕ(X) =x) =P

X ∈ ϕ−1({x})

| {z }

singleton ou vide par inj.

=Leb(ϕ−1({x})) = 0

Il n’y a donc pas d’atomes. On n’a pas non plus de densité, puisqueµY(K) = 1et Leb(K) = 0.On a bien construit une mesure singulière.

(11)

5 Espérance

Si(Xn)n>1 est une suite de v.a.>0 p.s. (∀n, Xn >0 p.s.), alors : E[lim infXn]6lim infE[Xn] Théorème 2(Fatou)

Si (Xn)n>1 est une suite croissante p.s. de v.a. positives p.s. (∀n,0 6 Xn 6 Xn+1 p.s.), alors :

E ï

lim↑

n→+∞

Xn

ò

= lim↑E[Xn] (lim↑Xn = lim↑Xn lorsqu’elle existe, 0 sinon)

Théorème 3(de convergence monotone)

Si(Xn)n>1 est une suite de v.a. réelles telle que :

• Xn −−−−−→

n→+∞ X p.s..

• ∀n, |Xn|6Z p.s. oùE[Z]<+∞

alors,

E[Xn]−−−−−→

n→+∞ E[X] Théorème 4(de convergence dominée)

On veut calculer des espérances sans faire de calcul dansΩ.

X: (Ω,A,P)→(E,E),µune probabilité sur(E,E). Alors :

X ∼µ ⇔ ∀f : (E,E)→(R,B(R))mesurable positive,E[f(X)] = Z

E

f(x)dµ(x) Théorème 5(de transfert)

Intérêt 1. Calculer des espérances sans passer parΩ. SiX∼ E(2), que vautE[eX]? E[eX] =

Z

R

exX(x) = Z

R

ex1x>02e−2xdx= 2 Z +∞

0

e−xdx= 2 Intérêt 2.(crucial)

Trouver la loi d’une v.a. SoitX∼ E(λ)etθ >0, quelle est la loi deY =θX? Soitf mesurable positive, calculons :

(12)

E[f(Y)] =E[f(θX)]

= Z

R

f(θx)dµX(x) théorème de transfert appliqué àx→f(θx)

= Z

R

f(θx)λe−λx1x>0dx

= Z

R

f(y) Åλ

θ ã

eλθy1y>0dy

= Z

R

f(y)dµξ(λ θ)(y)

Vrai pour toutef mesurable positive, donc on en déduitY ∼ξ(λθ).

Preuve.

⇐: SoitB∈ξ, posonsf =1B. On a :

E[f(X)] =E[1X∈B]

= Z

1{ω|X(ω)∈B}dP(ω)

=P(X ∈B)

X(B) Or :

E[f(X)] = Z

E

f(x)dµ(x)

= Z

E

1x∈Bdµ(x)

=µ(B) Vrai pour toutB doncµX=µ, d’oùX ∼µ.

⇒: SiX ∼µpour quelsf a-t-onE[f(X)] =R

f(x)dµ(x)?

• c’est vrai pourf =1B puisqu’alors cela se réécritµX(B) =µ(B)

• par linéarité c’est vrai pourf étagée

• si f est mesurable positive, il existe une suite fn de fonctions étagées positives telle que f = lim↑fn.

Alors :

E[f(X)] =

TCMlim↑E[fn(X)] = lim↑ Z

fn(x)dµ(x) =

T CM

Z

f(x)dµ(x)

(13)

Remarque.Dans le théorème on peut remplacer “Pour toute f mesurable positive” par :

• pour toute f indicatrice

• pour toutf mesurable bornée

X v.a. à valeurs dans(Rd,B(Rd))et µune probabilité surRd. On a équivalence entre : 1. X ∼µ

2. ∀f mesurable positiveRd→R,E[f(X)] =R

Rdf(x)dµ(x) 3. ∀f mesurable bornéeRd→R,E[f(X)] =R

Rdf(x)dµ(x) 4. ∀f continue bornéeRd→R,E[f(X)] =R

Rdf(x)dµ(x) 5. ∀f continue à support compactRd→R,E[f(X)] =R

Rdf(x)dµ(x) 6. ∀λ∈Rd,E[ei<λ,X>] =R

Rdei<λ,x>dµ(x) Théorème 6(cas particulier deRd)

Preuve.

On a déjà :

1⇔2⇔3⇒4⇒5

5 ⇒ 1 : Montrons que ∀a1 < b1, ..., ad < bd, si C est le pavé [a1, b1]×...×[ad, bd] alors P(X ∈C) =µ(C).

FixonsC. Posons pourn∈N:

gn(x) = (1−nd(x, C))+

(x+ =max(x,0)). gn est continue à support compact.kgnk 61 donc gn est intégrable pour µX et µpuisque ce sont des probabilités. Etgn(x)−−−−−→

n→+∞ 1x∈C. Ainsi : µX(C) =E[1X∈C] =

TCDlimE[gn(X)] = lim Z

gndµ =

TCD

Z

1ux∈Cdµ=µ(C)

µX etµcoïncident surX ={pavés} classe stable par intersection finie, donc elles coïncident sur la tribu engendrée par le lemme des classes monotones. Orσ(C) =B(Rd).

6⇒5 : Soitf à support compact, on veut approcherf par une fonction périodique. SiT >0 tel que Support(f)⊆

T2;T2d

, on définit le périodisé def par :

fT(x) =









f(x)six∈

T2;T2d f

Ö

x+ Ök1T

... kdT

èè

sinon

oùki est l’unique entier relatif tel que −T2 6xi+kiT <T2.

(14)

fT vérifie :fT est continue,T-périodique dans lesddirections etkfTk=kfk. De plus, fT|[−T

2;T2]d =f|[−T 2;T2]d

On a :

µ Çï

−T 2;T

2 òå

−−−−−→

T→+∞ 0 et µX

Çï

−T 2;T

2 òå

−−−−−→

T→+∞ 0

Donc si on fixeε >0, on peut trouverT tel queR

1kxk>T2dµ6ε,P(kXk> T2)6ε. Et alors : E[f(X)]−

Z

f(x)dµ(x) =E

îfT(X)1kXk6T2

ó− Z

fT(x)1kxk6T2dµ(x)

=E[fT(X)]− Z

fT(x)dµ(x)

− Å

E

îfT(X)1kXk>T2

ó− Z

f(x)1kxk>T2dµ(x) ã

Or,

E

îfT(X)1kXk>T2

ó

6kfTkP Å

kXk> T 2

ã

6kfkε

Il existe un polynôme trigonométriquePε,T tel quekPε,Tk6ε. Donc : E[f(X)]−

Z

f(x)dµ(x)6

E[P(X)]− Z

P(x)dµ(x)

| {z }

=0

+

E[(fT−P)

| {z }

6ε

(X)]

+ Z

(fT −P)

| {z }

6ε

(x)dµ(x)

+ 2kfkε

SiX est à valeurs dans(Rd,B(Rd))on définit sa fonction caractéristique par : φX:

ß R −→ C λ 7−→ E[ei<λ|X>] Définition 8(fonction caractéristique)

Remarque.On a prouvé deux résultats :

• φX ne dépend que de µX. Donc on peut définir pour µ probabilité sur Rd, φµ(x) = R ei<λ|x>dµ(x)

• propriété :φXY ⇒X et Y ont la même loi (idem pourφµ, φν)

Application. Si X est dans Rd a une loi de densité f(x1, ..., xd) par rapport à LebesgueRd, alors∀i, Xi a une loi de densitéR

f(x1, ..., xd)dx1...dxi−1dxi+1...dxd par rapport à LebesgueR

(15)

Preuve. La loi de Xi? Soitg mesurable positive : E[g(Xi)] =

Z

Rd

g(xi)dµX1...Xd(x1...xd) (transfert)

= Z

Rd

g(xi)f(x1...xd)dx1...dxd

= Z

R

g(xi) ÅZ

Rd−1

f(x1...xd)dx1....dxi−1dxi+1...dxd

ã

dxi (Fubini)

= Z

R

g(xi)dµXi(xi) Vrai pour toutg

Remarque.SiX est à valeurs dans un espace produit(E1×...×Ed, ξ1⊗...⊗ξd),µXdétermine µX1, ..., µXd. En effet :

µXi(B) =P(Xi∈B) =P(X ∈E1×...Ei−1×B×Ei+1...×Ed) =µX(E1×...×Ei−1×B×Ei+1...×Ed) Mais la réciproque est fausse :

• (X, Y)∼ U([0,1]2)alorsµXY =U([0,1])

• Z ∼ U([0,1]),X˜ =Z,Y˜ =Z alorsµX˜Y˜ =U([0,1])

maisµ(X,Y) 6=µ( ˜X,Y˜) par exemple pour∆ ={(Z, Z)| 0 6Z 61} on aµ(X,Y)(∆) = 06= 1 = µ( ˜X,Y˜)(∆)

Pourp>1 on définit :

Lp(Rd) ={X v.a. à valeurs dans (Rd,B(Rd))|E[kXkp]<+∞}

Définition 9(espace Lp)

Remarque.

• ne dépend pas du choix de la norme

• si p < q, Lq ⊆Lp, |x|p 6|x|q dès que |x|>1 donc|x|p 61 +|x|q ∀x∈R⇒E[kXkp]6 1 +E[kXkq](spécifique aux espaces de probabilité où 1 est intégrable)

5.1 Rappels

• Lp(Rd)muni dek.kpoùkXkp=E[kXkp]1p est un espace normé complet

• on a l’inégalité de Hölder : si 1p+1q = 1alorsE[kXYk]6kXkpkYkq

• on dispose des 3 inégalités classiques suivantes

SiX >0 p.s.

P(X >t)6 1

tE[X] ∀t >0 Proposition 1(inégalité de Markov)

(16)

Preuve.

t1X>t6X p.s.

E[t1X>t]6E[X] ⇒ P(X>t)6 1 tE[X]

PourX ∈L2, on définit :

VarX =E[(X−E[X])2] SiX, Y ∈L2on définit :

Cov(X, Y) =E[(X−E[X])(Y −E[Y])]

Définition 10(variance, covariance)

∀t>0 P(|X−E[X]|>t)6 1 t2VarX Proposition 2(inégalité de Tchebychev)

Preuve.

P(|X−E[X]|>t) =P((X−E[X])2>t2) 6

Markov

VarX t2

Siϕest convexe etX ∈L1 alorsϕ(E[X])6E[ϕ(X)].

Proposition 3(inégalité de Jensen)

Remarque.Cette inégalité contient :

• |E[X]|6E[|X|](ϕ(X) =|X|)

• E[X]26E[X2] Preuve.

Une fonction convexe est l’enveloppe supérieure des droites qui la minore.

ϕ(x) = sup{ax+b |(a, b)tq∀y:ay+b6ϕ(y)}

En effet :

• sia, bsont tels que ay+b6ϕ(y)∀y alorsax+b6ϕ(x)doncϕ(x)>sup{...}

• inversement pourxfixé la pente entrexety est ϕ(y)−ϕ(x)y−x , décroissante eny, minorée par les pentes à gauche dexdonc converge versαlorsquey→x.ϕ(x)+α(y−x)est la tangente à droite deϕenxet ne recroise jamaisϕpar convexité. Cette fonction affine apparaît dans le sup et vaut ϕ(x)enxdoncϕ(x)6sup{...}

(17)

alors :

ϕ(E[X]) = sup

∀y,ay+b6ϕ(y)

[aE[X] +b]

= sup

∀y,ay+b6ϕ(y)

E[aX+b

| {z }

6ϕ(X)

]

6 sup

∀y,ay+b6ϕ(y)

E[ϕ(X)]

6E[ϕ(X)]

Exemples.

SiZ ∼ N(0,1)

E[Z] = Z

R

ydµZ(y) = Z

R

yey

2

2 dy

√2π = 0

VarZ=E[Z2] = Z

R

y2Z(y) = Z

R

y×yey

2 2

| {z }

√dy 2π

=

IPP

ï y

Å

−ey

2 2

ãò+∞

−∞

+ Z

R

ey

2

2 dy

√2π = 1

Si X ∼ N(m, σ2),X a la même loi que m+σZ et donc E[X] =E[m+σZ] =m+σE[Z] =m et VarX=Var(m+σZ) =σ2VarZ= 1.

φN(m,σ2)(λ) =eiλmeλ

2σ2 2

Lemme 1

Preuve.

1. On a

φN(0,1)(λ) = Z

R

eiλxex

2

2 dx

√2π

or ∂

∂λ

eiλxex

2 2

=ixeiλxex

2

2 intégrable Théorème de dérivation :

φ0N(0,1)(λ) = Z

R

ieiλxxex

2

2 dx

√2π

=

IPP

h ieiλx

−ex22i+∞

−∞+ Z

R

i2λeiλxex

2

2 dx

√2π Donc :

φ0N(0,1)(λ) =−λφN(0,1)(λ) D’où finalement,

φN(0,1)(λ) =φN(0,1)(0)eλ

2 2

(18)

2. Fait général :

φaX+b(λ) =eibxφX(aλ) =E[i(aX+b)λ]

Donc siX ∼ N(m, σ2),X a la même loi quem+σZ avecZ ∼ N(0,1). Ainsi : φN(m,σ2)(λ) =φm+σZ(λ) =eiλmφZ(σλ) =eiλme−σ2λ

2 2

Références

Documents relatifs

• Le mot « espérance »vient du langage des jeux : lorsque X désigne le gain, E(X) est le gain moyen que peut espérer un joueur sur un grand nombre de parties.. Probabilités

La gain obtenu par le joueur est égal à la somme des gains indiqués sur les quartiers sur lesquels se sont arrêtées les roues. Dans l'exemple ci-dessus, la partie assure au

Pour déterminer l’ensemble des parties d’un ensemble E noté P(E) on construit l’arbre des parties de E. E un ensemble fini non vide. Un arrangement de p éléments de E, est

On considère deux tests psychotechniques pour lesquels un sujet (enfant) reçoit une note X parmi {0; 1; 2; 3} pour le premier test et une note Y parmi {0; 1; 2} pour le second...

Exercice 17 : Dans une grande urne se trouve toute les permutations de l’ensemble {1;. , n}, on en tire une, σ, au hasard et on modélise le nombre de points invariants de σ, à

Une variable aléatoire X sur Ω est une fonction, qui à chaque issue de Ω, associe un nombre réel Exemples: Un joueur lance un dé a

Deux expériences sont dites indépendantes si le résultat de l’une n’a aucune influence sur le résultat de l’autre..

Approche : Une entreprise comprend des hommes et des femmes, qui sont cadres ou ouvriers selon la répartition