alors Xn converge vers X d’après l’inégalité de Markov : en effet, pour tout ε >0, on a P |Xn−X|&gt

(1)

cours 23, le lundi 2 mai 2011

Convergence en probabilit´e

On dit qu’une suite (X_n) de v.a. réelles définies sur un espace de probabilité (Ω,F,P) converge en probabilité vers une v.a. réelle X définie sur le même espace (Ω,F,P) si

∀ε >0, P |X_n−X|> ε

−→_n 0.

Si (Xn) converge vers X dans L^p(Ω,F,P), pour un p tel que 1 ≤ p < +∞, alors Xn

converge vers X d’après l’inégalité de Markov : en effet, pour tout ε >0, on a P |X_n−X|> ε

= P |X_n−X|^p > ε^p

≤ R

Ω|X_n−X|^pdP

ε^p = kX_n−Xk^pp

ε^p qui tend vers 0 par hypoth`ese.

Proposition.Si la suite de variables aléatoires réelles(X_n)converge en probabilité vers la variable aléatoire X, la loi PXn converge étroitement vers la loi PX.

Preuve. — Si Y et Z sont deux variables aléatoires définies sur (Ω,F,P), on remarque que pour touty réel et tout ε >0, on a

{Y ≤y} ⊂ {Z≤y+ε} ∪ {|Z−Y|> ε}. Par cons´equent, pour tout x r´eel,

P Xn ≤x

≤P X≤x+ε

+ P |Xn−X|> ε ,

et de même pour l’inégalité inférieure, cette fois avec y=x−ε, Y = X et Z = Xn, P X≤x−ε

≤P Xn≤x

+ P |Xn−X|> ε . Si Xn converge vers X en probabilit´e, on aura donc pour n assez grand

P X≤x−ε

−ε≤P Xn ≤x

≤P X≤x+ε +ε, ce qui est l’expression de la convergence ´etroite des lois.

Rappel-théorème.Pour une suite (Xn)de variables aléatoires les conditions suivantes sont équivalentes :

1. — la suite des lois (PXn) converge ´etroitement vers la loi PX de la variable al´eatoire X;

2. — pour toute fonction f continue born´ee sur R, r´eelle ou complexe, on a

Ef(Xn)−→_n Ef(X) ;

3. — il y a convergence simple sur R des fonctions caract´eristiques,

∀t ∈R, ϕ_X_n(t)−→_n ϕ_X(t).

(2)

Dérivabilité de la fonction caractéristique d’une variable aléatoire On rappelle que la fonction caractéristique ϕ_X, définie par

∀t ∈R, ϕ_X(t) = E eⁱ^tX= Z

Ω

e^itX(ω) dP(ω)

est une fonction continue et bornée sur R. Pour voir si on peut dériver ϕ_X, on regarde la dérivée partielle de la fonction f(t, ω) définie sur R×Ω par

f(t, ω) = eⁱ^tX(ω)

`a savoir

∂f

∂t(t, ω) = iX(ω) eîtX(ω); la majoration du module de cette dérivée partielle va de soi,

iX(ω) e^itX(ω)

=|X(ω)|.

Le théorème de dérivation de la théorie de Lebesgue donne : pour queϕ_X soit dérivable, il suffit que X soit intégrable ; dans ce cas,

ϕ⁰_X(t) = i E X e^itX

= i Z

Ω

X(ω) eⁱ^tX(ω) dP(ω) = i Z

R

xe^itx dP_X(x).

En fait, la fonction caractéristique est de classe C¹ dans ce cas, car la dérivée partielle

∂f

∂t est continue par rapport à t, donc ϕ⁰_X est continue par le théorème de continuité.

On peut continuer `a d´eriver : si E|X|ⁿ<+∞ pour un entier n≥1, alors ϕ_X est de classe Cⁿ; en particulier, quand X ∈L²,

ϕ⁰⁰_X(t) =−E X²eⁱ^tX .

Quand X a des moments de tous les ordres n, la fonction ϕ_X est de classe C^∞ et

∀n≥0, ϕ⁽ⁿ⁾_X (0) = iⁿE Xⁿ.

Rappel-exemple : v.a. U uniforme sur [−1,1]. Dans ce cas tous les moments existent, et de plus la fonction caractéristique ϕ_U est non seulement C^∞, mais analytique, somme d’une série entière de rayon de convergence +∞; en effet, on a calculé

ϕ_U(t) = sint

t =

+∞X

n=0

(−1)ⁿ t²ⁿ (2n+ 1)!. On vérifie que le développement en série de Taylor

ϕ_U(0) + ϕ⁰⁰_U(0)

2 t² +· · ·= 1− t² 6 +· · · redonne E U = 0, E U² =−ϕ⁰⁰_U(0) = 1/3.

Dans le cas de la loi gaussienne centrée réduite, ou de sa densité g(x) = e^−x²^/2

√2π , on a vu que

bg(t) = Z

R

e⁻^itxe^−x²^/2 dx

√2π = e^−t²^/2.

(3)

Th´eor`eme de la limite centrale

Avant d’attaquer le théorème, rappelons que la fonction caractéristiqueϕ_X d’une v.a. X est de classe C² sur R quand E X² <+∞ et que dans ce cas, on a

ϕ⁰_X(0) = i E X et ϕ⁰⁰_X(0) =−E X².

Théorème de la limite centrale, version 0. Soit (Y_n) une suite de variables aléatoires indépendantes, centrées, de même loi, et telles que E Y_n² = 1; la suite des variables aléatoires

s_n = Y₁+· · ·+ Y_n

√n

converge en loi vers la loi gaussienne centrée réduite N(0,1), c’est-à-dire que pour tous a < b on a

P {a ≤sn ≤b}

−→_n Z b

a

e^−x²^/2 dx

√2π.

Preuve. — Les variables aléatoires (Y_n) ayant toutes la même loi, elles ont la même fonction caractéristique qu’on appellera ϕY (on a ϕY = ϕY1 = ϕYj, pour tout j > 1).

Comme Y₁ est de carré intégrable, la fonction caractéristique ϕ_Y est de classe C², donc au voisinage de 0 on peut écrire par Taylor-Young

ϕY(t) =ϕY(0) +tϕ⁰_Y(0) + t²

2 ϕ⁰⁰_Y(0) +t²ε1(t), o`u ε₁(t) tend vers 0 quand t→0. On a ici

ϕ⁰_Y(0) = i E Y = 0, ϕ⁰⁰_Y(0) =−E Y² =−1, donc, en rempla¸cant, on obtient le d´eveloppement limit´e

ϕY(t) = 1− t²

2 +t²ε1(t).

Par l’indépendance des v.a. (Y_j), pour tout t ∈Rfixé, on obtient ϕ_s_n(t) = E eîtsⁿ = EYⁿ

j=1

e^itY^j^/^√ⁿ

= Yn

j=1

E e^itY^j^/^√ⁿ

=

E e^{i (t/}^√^n)Y¹n

=ϕ_Y(t/√ n)ⁿ. On a par ailleurs

ln(1 +u) =u+uε₂(u)

au voisinage de 0, o`u ε2(u) tend vers 0 quand u→0. On a donc lnϕsn(t) =nlnϕY(t/√

n) =nln

1− t² 2n + t²

nε1(t/√ n)

. Posons

u_n=− t² 2n + t²

nε₁(t/√ n),

qui tend vers 0 avec n, ce qui entraˆıne que ε2(un) tend vers 0 ; de plus nu_n=−t²/2 +t²ε₁(t/√

n) tend vers −t²/2 quand n→+∞; on en d´eduit que

lnϕ_s_n(t) =nln(1 +u_n) =nu_n+nu_nε₂(u_n)

tend vers−t²/2. Donc pour touttréel,ϕsn(t) converge vers e^−t²^/2 =ϕG(t), en désignant par G une v.a. gaussienne centrée réduite. On conclut grâce au rappel-théorème.

(4)

Théorème de la limite centrale. Soit (X_n)_n>1 une suite de variables aléatoires réelles indépendantes, centrées, de même loi, et avec un moment d’ordre deux E X²_nfini ; posons σ² = E(X₁−E X₁)² = Var(X₁) et supposons Var(X₁)>0. La suite

s_n = X₁+· · ·+ X_n−nE X₁ σ√

n = 1

√n Xn

j=1

X_j−E X_j σ converge en loi vers la loi gaussienne centr´ee r´eduite N(0,1).

Preuve. — Comme les X_i sont de carré intégrable par rapport à la mesure finie P sur Ω, elles sont aussi P-intégrables ; comme elles ont la même loi, elles ont la même intégrale m= E X_i = E X₁. Posons

Y_i = X_i−m

σ ;

ces variables sont indépendantes comme fonctions Y_i =g(X_i) de variables indépendantes, où

g(x) = x−m σ ,

et les (Y_i) ont la même loi (elles sont obtenues par la même fonction g à partir de v.a.

de mˆeme loi). On a E Y_i = E X_i−m

/σ= 0 et E Y_i² = 1

σ² E(X_i−m)² = 1

E(X1−E X1)² E(X_i−E X_i)² = 1.

Le résultat annoncé découle de la version 0, appliquée aux (Yi).

Lois des grands nombres

On peut penser que le fait de consid´erer la moyenne Z_n(ω) = X₁(ω) +· · ·+ X_n(ω)

n

des résultats indépendants successifs (X_n(ω)) d’une même expérience aléatoire, pour n assez grand, a des chances de stabiliser le phénomène, en réduisant l’influence de l’aléa.

Ç a n’est pas toujours le cas, comme on l’a vu dans le cas des variables de Cauchy : dans ce cas la loi de Z_n est constamment égale à la loi de Cauchy.

Remarque 1.Si la suite (X_n) tend presque sˆurement vers X, alors (X_n) tend vers X en probabilit´e.

En effet, pour tout ε >0 donn´e, la suite des fonctions sur Ω f_n(ω) =1_{|X_n_−X|>ε}(ω)

converge P-presque partout vers 0 en étant dominée par la fonction P-intégrable fixe 1.

Il en r´esulte que Z

Ω

fn(ω) dP(ω) = P |Xn−X|> ε

−→_n 0.

(5)

Loi faible des grands nombres

L’effet régularisant escompté aura lieu pour les lois qui ont un moment absolu d’ordre 1, autrement dit pour les variables aléatoires intégrables. On va commencer par un résultat assez simple qui est à notre portée.

Théorème (loi faible des grands nombres). Si les variables aléatoires (X_n)_n>1 sont indépendantes, de même loi et intégrables, la variable aléatoire

X₁+· · ·+ X_n n

converge en probabilit´e, donc en loi, vers la constante E X₁. Preuve. — On recentre en posant

Y_j = X_j−E X_j,

et il s’agit de montrer que V_n = (Y₁ +· · ·+ Y_n)/n tend en probabilité vers la variable aléatoire constante 0, partout égale à 0 ; dans le cas de la limite constante 0, la convergence des lois suffit pour obtenir la convergence en probabilité : si ψ est une fonction continue telle que ψ(0) = 1 et

0≤ψ ≤1_[−ε,ε],

la convergence de P_V_n vers δ₀, la loi de la limite 0, implique P |V_n| ≤ε

≥ Z

R

ψ(t) dP_V_n(t)−→_n Z

R

ψ(t) dδ₀(t) =ψ(0) = 1, donc pour n assez grand, on a P |V_n| ≤ε

>1−ε et P |V_n|> ε

< ε, ce qui signifie que Vn converge en probabilit´e vers 0.

D’après le rappel-théorème, on sait que la convergence étroite des lois P_V_n des v.a. Vn vers la mesure de Dirac δ0 au point 0 équivaut à la convergence simple sur R des fonctions caractéristiques. Or

ϕ⁰(t) = E eⁱ^t.0 = 1, et

ϕY(t) = 1 +tϕ⁰_Y(t) +tε(t) = 1 + itE Y +tε(t) = 1 +tε(t) ; il en r´esulte que

ϕ_V_n(t) = E eⁱ^tVⁿ = EYⁿ

j=1

e^{i (t/n)Y}^j

= Yn

j=1

E e^{i (t/n)Y}^j =

= Yn

j=1

ϕ_Y_j(t/n) = ϕ_Y(t/n)n

= 1 + t

nε(t/n)n

−→_n 1.

On vérifie l’affirmation précédente en prenant le logarithme, lnϕ_V_n(t) =nln

1 + t

nε(t/n)

∼nt

nε(t/n)

=tε(t/n) −→_n 0.

(6)

Le cas L²

Si les Y_i sont des v.a. réelles dans L², indépendantes et centrées, elles sont orthogonales ; en effet, pouri 6=j,

hY_i,Y_ji= Z

Ω

Y_i(ω)Y_j(ω) dP(ω) = E Y_iY_j = E Y_iE Y_j = 0.

Il résulte de l’orthogonalité (^hhthéorème de Pythagoreⁱⁱ dans l’espace L²(Ω,F,P)) que pour des v.a. de carré intégrable centrées et indépendantes (Y_j), on a

EXⁿ

j=1

Y_j2

=

Xn

j=1

Y_j

2 2 =

Xn

j=1

kY_jk²2 = Xn

j=1

E Y_j².

Proposition 1. Si les variables al´eatoires X_i sont ind´ependantes et sont dans l’espace L²(Ω,F,P), on a

VarXⁿ

i=1

X_i

= Xn

i=1

Var(X_i).

Preuve. — Posons Y_i = X_i − E X_i; les (Y_j) sont indépendantes et centrées, ce qui ramène au cas précédent : on a

VarXⁿ

i=1

X_i

= EXⁿ

i=1

X_i− Xn

i=1

E X_i2

= EXⁿ

i=1

Y_i2

= Xn

i=1

E Y²_i = Xn

i=1

Var(X_i).

Avec l’inégalité de Tchebychev, on obtient pour tout δ > 0 et tout n ≥ 1, lorsque les (X_j) sont indépendantes de même loi, de carré intégrable

P

Pn i=1X_i

n −E X

≥δ

= P

Xn

i=1

Xi−EXⁿ

i=1

Xi

≥nδ

≤ Var(Pn i=1X_i)

n²δ² = Var(X) δ²n . On retrouve la loi faible, mais avec une estimation de la vitesse de convergence, alors qu’il n’y avait aucune information de vitesse dans le théorème précédent.

Remarque. Si on arrivait `a gagner un ε >0, sous la forme P

Pn

i=1X_i

n −E X

≥δ

≤ C(X, δ) n^1+ε ,

on aurait une série convergente et on pourrait déduire la loi forte des grands nombres par Borel-Cantelli (voir la preuve donnée plus loin).

(7)

Le vrai th´eor`eme : la loi forte

Théorème(loi forte des grands nombres). Si les (X_n)_n>1 sont indépendantes, de même loi et intégrables, on a presque sûrement

X1+· · ·+ Xn

n −→_n E X.

La loi forte implique la faible d’apr`es la remarque 1. On ne montrera ici qu’un cas particulier simple, celui o`u E X⁴ <+∞.

Proposition. On suppose que les (Y_i)_i>1 sont ind´ependantes, centr´ees et que b⁴ = sup

i

E Y⁴_i <+∞. Alors pour tout δ >0 et tout n≥1, on a

P

Y₁+· · ·+ Y_n n

≥δ

≤ 3b⁴ δ⁴n². Preuve. — On pose Sn =P_n

j=1Yj et on d´eveloppe sauvagement E S⁴_n = E

Y4 k=1

Xⁿ

jk=1

Y_j_k

= X

(j¹,j²,j³,j⁴)

E Y_j1Y_j2Y_j3Y_j4

.

Par l’indépendance et le centrage, l’espérance du produit de quatre est nulle dès qu’un terme Y_j_k n’apparaˆıt qu’une seule fois, comme dans (j, i, j, j), avec i6=j. Il ne reste que les termes de la forme (i, i, i, i) ou bien les (i, i, j, j), (i, j, i, j), (i, j, j, i), où le deuxième indice i a trois positions possibles. Il en résulte, en notant que (E Y²)² ≤E Y⁴, que

E S⁴_n = Xn

i=1

E Y⁴_i + 3X

i6=j

E Y_i²E Y²_j ≤nb⁴+ 3(n²−n)b⁴ = (3n²−2n)b⁴ ≤3n²b⁴. On conclut avec Markov,

P |S_n|/n≥δ

= P(S⁴_n ≥δ⁴n⁴)≤ E S⁴_n

δ⁴n⁴ ≤ 3b⁴ δ⁴n².

On peut aussi montrer par récurrence que si les Y_n sont indépendantes centrées, de même loi, et b⁴ = E Y⁴, c⁴ = E Y²2

, alors

E S⁴_n =nb⁴+ 3n(n−1)c⁴

(qui est donc≤3n²b⁴, comme on a vu). En effet, E S⁴₁ = E Y⁴₁ =b⁴ montre le pas n= 1, et le passage de nà n+ 1 se démontre en écrivant d’abord que

E S⁴_n+1 = E(S_n+ Y_n+1)⁴ = E S⁴_n+ 4 E S³_nY_n+1+ 6 E S²_nY²_n+1+ 4 E S_nY³_n+1+ E Y_n+1⁴ ; ensuite, par l’ind´ependance, on a que E S³_nY_n+1 = E S³_n E Y_n+1 = 0, et de mˆeme, on voit que E SnY³_n+1 = E SnE Y³_n+1 = 0, donc

E S⁴_n+1 = E S⁴_n+ 6 E S²_nE Y²_n+1+ E Y⁴_n+1

=nb⁴+ 3n(n−1)c⁴+ 6nc²c²+b⁴ = (n+ 1)b⁴+ 3(n+ 1)nc⁴, ce qu’il fallait obtenir au pas n+ 1.

(8)

Proposition. On suppose que les (X_i)_i>1 sont ind´ependantes de mˆeme loi et que a⁴ = E X⁴_i <+∞.

Il en r´esulte que presque sˆurement

X₁+· · ·+ X_n

n −→_n E X1.

Preuve. — On a pour les intégrales par rapport à une probabilité E|X| ≤(E X²)^1/2 ≤(E X⁴)^1/4

donc

|E X_j| ≤a, E X²_j ≤a²,

puisque par hypothèse E X⁴_j ≤ a⁴. Les variables Y_i = X_i−E X_i sont centrées indépen- dantes et (E Y⁴_i)^1/4 ≤2a (inégalité triangulaire dans L⁴). Avec b= 2a, on trouve

P

X₁+· · ·+ X_n

n −E X

≥δ

= P

Y₁+· · ·+ Y_n n

≥δ

≤ 3b⁴ δ⁴n². On a donc que la suite des ´ev´enements

A_n= A_n(δ) =nY₁+· · ·+ Y_n n

≥δo v´erifie P

P(A_n)<+∞, autrement dit Z

Ω

^+∞X

n=1

1_A_n(ω)

dP(ω) = X+∞

n=1

Z

Ω

1_A_n(ω) dP(ω) =

+∞X

n=1

P(A_n)<+∞,

donc la fonction sous l’intégrale est finie presque sûrement. Cela veut dire qu’il existe un ensemble négligeable N(δ)∈ F tel que pour toutω /∈N(δ), il n’existe qu’un nombre fini de valeurs de n telles que ω ∈ An(δ). Quand ω /∈N(δ), on peut donc trouver un entier n₀(ω) tel que

n≥n₀(ω) ⇒

Y₁(ω) +· · ·+ Y_n(ω) n

< δ.

Pour chaque δ= 2^−k, k ∈N, on dispose d’un ensemble négligeable N(2^−k). Par réunion dénombrable en k ∈ N de négligeables, on obtient N ∈ F tel que P(N) = 0 et tel que pour tout k ≥ 0, tout ω /∈ N, il existe un entier n₀(k, ω) tel que pour n ≥n₀(k, ω), on ait ω /∈ A_n(2^−k). C’est la convergence presque sûre ; pour tout ω /∈ N on a le résultat suivant : pour tout entier k, il existe un entier n₀ =n₀(k, ω) tel que pour tout n≥n₀,

on ait

Y1(ω) +· · ·+ Yn(ω) n

<2^−k.

Autrement dit, pour tout ω /∈N, c’est-`a-dire pour presque toutω ∈Ω, la suite Y₁(ω) +· · ·+ Y_n(ω)

n tend vers 0 = E Y quand n tend vers l’infini.

(9)

Approximation polynomiale de Weierstrass par les polynˆomes de Bernstein

Théorème d’approximation de Weierstrass. Si f est une fonction réelle ou complexe continue sur l’intervalle fermé [0,1], il existe une suite de fonctions polynomiales qui tend vers f uniformément sur [0,1].

Preuve. — Sur l’ensemble à deux points {0,1} considérons, pour tout x ∈ [0,1], la probabilité µx définie par

µ_x({1}) =x, µ_x({0}) = 1−x.

Sur Ω_n = {0,1}ⁿ on regarde les fonctions coordonn´ees : pour ω = (ω₁, . . . , ω_n)∈Ω_n et i= 1, . . . , n on pose

X_i(ω) =ω_i ∈ {0,1} ⊂R. On introduit sur Ω_n les probabilit´es (P_x)_x∈[0,1] produit, P_x =µ_x⊗ · · · ⊗µ_x =µ^⊗n_x

produit tensoriel de n facteurs ´egaux `a µ_x. Comme P_x est une mesure produit, on a quand Aj ⊂ {0,1}, j = 1, . . . , n,

(∗) P_x(A₁× · · · ×A_n) = Yn

j=1

µ_x(A_j).

Pour la probabilit´e Px, on a

P_x(X_i = 1) =x,

résultat obtenu en prenant A_i ={1} et les A_j, j 6=i, égaux à {0,1}, P_x(X_i = 1) =µ_x({1})Y

j6=i

µ_x({0,1}) =µ_x({1}) =x.

Sous la loi P_x, les (X_i) sont donc de même loi µ_x. L’égalité (∗) peut se récrire sous la forme

P_x (X₁ ∈A₁) &. . .& (X_n ∈A_n)

= Yn

j=1

P_x(X_j ∈A_j), qui montre que sous la loi P_x, les variables (X_i) sont ind´ependantes.

Ces probabilit´es P_x sont ^hhpolynomiales par rapport au param`etre x ∈ [0,1]ⁱⁱ, puisque pour tout singleton {(t1, . . . , tn)} contenu dans Ωn on a

Px({(t1, . . . , tn)}) =x^k(1−x)^n−k,

où k est le nombre de 1 dans la suite (t₁, . . . , t_n)∈Ω_n; le résultat précédent est obtenu en prenant Aj ={tj}, j = 1, . . . , n. On a par ailleurs

ExXi = 1.Px(Xi = 1) + 0.Px(Xi = 0) =x, et

VarxXi = Ex(Xi−x)² = (1−x)²x+x²(1−x) =x(1−x)≤1/4.

(10)

Posons

S_n = Xn

j=1

X_j, M_n = S_n n . On v´erifie que

E_xM_n =x.

Par la proposition 1, on a Var_xS_n =nVar_xX₁ =nx(1−x), donc

Varx(Mn) = Varx(Sn/n) = Varx(Sn)/n² =nx(1−x)/n² ≤1/(4n).

Donc par Tchebychev,

Px(|Mn−x| ≥δ)≤ 1 4δ²n.

On retrouve le principe de la loi des grands nombres : il y a de grandes chances, pour la probabilit´e P_x, que la valeur de M_n soit proche dex.

Sif est continue sur [0,1], il y aura aussi de grandes chances que la valeur def(M_n) soit proche de f(x), et en particulier que l’esp´erance E_xf(M_n) soit proche def(x). Cela

étant vrai pour tout x, on aura approché x → f(x) par x → E_xf(M_n), qui se trouve être une fonction polynomiale. On aura ainsi une preuve du théorème d’approximation polynomiale de Weierstrass.

Il faut préciser les choses ; siε > 0 est donné, il existeδ >0 tel que|f(y)−f(x)|< ε dès que |x−y| < δ. On va voir que x → E_xf(M_n) est polynomiale, et uniformément proche de x→f(x), ce qui démontre le théorème de Weierstrass dans le cas de [0,1].

Déterminons la loi de S_n; il est clair que S_n prend des valeurs entières qui peuvent varier de k = 0 à k =n; pour ces valeurs de k, on a

P_x(S_n =k) = n

k

x^k(1−x)^n−k.

C’est assez clair directement (pour que la somme de valeurs 0 ou 1 soit égale à k, il faut qu’il y ait exactement k valeurs égales 1, chacune obtenue avec probabilité x, et indépendamment, ce qui donne le facteurx^k, mais les k places avec des 1 sont n’importe où parmin, ce qui amène le coefficient du binôme), mais on va le confirmer par récurrence.

Le r´esultat est clair quand n= 1 : pour k = 0,1,

P_x(S₁ =k) = P_x(X₁ =k) =x^k(1−x)^1−k = 1

k

x^k(1−x)^1−k. Passons de n≥1 `a n+ 1. On a

P_x(S_n+1 =k) = P_x (S_n =k) & (X_n+1 = 0)

+ P_x (S_n =k−1) & (X_n+1 = 1)

=

= P_x(S_n =k) (1−x) + P_x(S_n=k−1)x=

= n

k

x^k(1−x)^n−k(1−x) + n

k−1

x^k−1(1−x)^n−k+1x=

=

n+ 1 k

x^k(1−x)^n+1−k.

(11)

On v´erifie ainsi que E_xf(M_n) =

Xn

k=0

fk n

P(S_n =k) = Xn

k=0

fk n

n k

x^k(1−x)^n−k,

polynôme de Bernstein x→P_n(f, x) de degré n. D’un autre côté, en découpant suivant que |Mn−x|< δ ou non, on obtient

E_xf(M_n)−f(x)

≤E_x

f(M_n)−f(x) ≤

≤εP(|Mn−x|< δ) + 2kfk∞P(|Mn−x| ≥δ) ≤ε+ kfk∞

2δ²n . Cela est valable pour tout x ∈[0,1], donc

(∗∗) kP_n(f)−fkC([0,1])≤ε+ kfk∞

2δ²n.

Si on donne ε >0, on lui associe δ >0 (d´ependant de f), on peut ensuite choisir n0 tel que

kfk∞

2δ²n₀ ≤ε.

Pour tout n≥n₀, on aura alors

kP_n(f)−fkC([0,1])≤2ε.

Remarque. Si f est 1-lipschitzienne on peut prendre δ = ε et la preuve indique, en supposant aussi kfk^∞≤1, qu’il faut associer εetn de fa¸con que

1 ε²n ∼ε;

si on donnen≥1 et si on poseε=n⁻^1/3, on trouve d’apr`es (∗∗) kPn(f)−fkC([0,1])≤2n⁻^1/3.

Mais en fait la preuve se simplifie dans ce cas Lipschitz. On peut ´ecrire directement

|^E^x^f^(Mⁿ⁾−f(x)|≤Ex|Mn−x| ≤(Ex(Mn−x)²)^1/2=

rx(1−x)

n ≤ 1

2√ n. On ne peut pas faire mieux que n⁻^1/2 comme vitesse de convergence dans le cas lip- schitzien, comme le montre l’exemplef(x) =|x−1/2|et une application du théorème de la limite centrale. Dans le cas où f est de classe C², on peut écrire avec Taylor-Lagrange

|^f^(y)−f(x)−(y−x)f⁰(x)|≤ kf⁰⁰k^∞(y−x)² 2 qui implique, comme ExMn =x, que

Ex(Mn−x)f⁰(x) = 0, donc

|^E ^f^(M ⁾−f(x)|⁼|^E (f(M )−f(x)−(M −x)f⁰(x))|≤

(12)

≤ kf⁰⁰k^∞Ex(Mn−x)²/2 =kf⁰⁰k^∞x(1−x)

2n ≤ kf⁰⁰k^∞ 8n .

On ne peut pas faire mieux que la vitesse 1/n, comme montre l’exemple f(x) = x². En effet,

ExM²n = Ex((Mn−x) +x)²= Ex(Mn−x)²+x²,

donc l’´ecart entre la valeur Exf(Mn) = ExM²_n donn´ee par Bernstein et la vraie valeur f(x) =x² est

ExM²_n−x²= Ex(Mn−x)²= x(1−x) n ,

de l’ordre de 1/n; précisément, on a pour le polynôme d’approximation Pn(f), dans le cas présent où f(x) =x²,

kPn(f)−fk^C([0,1])= 1 4n.

alors Xn converge vers X d’après l’inégalité de Markov : en effet, pour tout ε &gt;0, on a P |Xn−X|&gt

alors Xn converge vers X d’après l’inégalité de Markov : en effet, pour tout ε >0, on a P |Xn−X|&gt