• Aucun résultat trouvé

Lois des grands nombres

1.4 Algorithmes de gradient stochastiques

2.1.4 Lois des grands nombres

Dans ce qui suit, on dit qu’une martingale (Mn) est de carré intégrable si pour tout n ≥ 0, E

M2n

<+.

Definition 2.1.5. Soit (Mn)une martingale de carré intégrable. On appelle processus croissant associé à (Mn)la suite(hMin)ndéfinie parhMi0 =0et pour tout n≥0par

hMin+1 =hMin+Eh(Mn+1−Mn)2|Fni.

En d’autres termes, si pour toutk≥0 on noteξk+1= Mk+1−Mkla différence de martingale, on a pour toutn≥1

hMin =

n k=1

E

ξ2k|Fk1.

Ainsi, on peut voir le processus croissant comme la somme des variance des différences de mar-tingales. On peut maintenant introduire les lois des grands nombres pour les martingales de carré intégrable.

Théorème 2.1.5(Première loi des grands nombres). Soit(Mn)une martingale de carré intégrable.

1. Silimn→+hMin < +presque sûrement, alors la suite (Mn)converge presque sûrement vers une variable aléatoire M.

2. Silimn→+hMin = +presque sûrement, alors la suite

Mn

hMin

converge presque sûrement vers 0.

En d’autres termes, si le processus croissant converge presque sûrement, alors (Mn) = O(1) presque sûrement, et si il diverge, alors

|Mn|=o(hMin) p.s.

Démonstration. Preuve du point 1. On note Tb = inf{n,hMin+1> b}. On a Tb qui est un temps d’arrêt adapté à la filtration, et donc(MTbn)nest une martingale. De plus, on a par définition de Tb

E

M2nTb

=EM02

+hMiT

bnEM20 +b

et doncMTbnest en particulier une martingale dont le moment d’ordre 1 est uniformément borné, et donc d’après le théorème de Doob, on a MTbnqui converge presque sûrement. En particulier, Mnconverge presque sûrement sur l’évènement{Tb= +}et donc Mn converge presque sûre-ment surSbN{Tb= +}={limn→+hMin <+}.

Preuve du point 2. Pour toutδ∈ (0, 1), on note

Vn = M

n2

(1+hMin)1+δ et An= E

ξ2n+1|Fn (1+hMin+1)1+δ. CommehMin+1estFn-mesurable et croissant, on a

E[Vn+1|Fn] = E

M2n+1|Fn

(1+hMin+1)1+δ = M

n2

(1+hMin+1)1+δ + E

ξ2n+1|Fn

(1+hMin+1)1+δM

2n

(1+hMin)1+δ +An. De plus, pour toute suite croissante(sn)et pour toute fonction croissante f,

n k=1

sk−sk1

f(sk) ≤

Z sn

s0

1 f(t)dt

Z + s0

1 f(t)dt.

En effet, comme f etsnsont croissantes, Z sn

s0

1 f(t) =

n k=1

Z sk

sk1

1 f(t)dt

n k=1

Z sk

sk1

1 f(sk)dt=

n k=1

sk−sk1 f(sk) . On a donc, en notantsk =hMik+1,

n k=1

Ak

Z hMin

0

1

(1+t)1+δdt

Z + 0

1

(1+t)1+δdt<+

et en appliquant le théorème de Robbins-Siegmund, on obtient donc que Vn converge presque sûrement vers une variable aléatoire finie, i.e pour toutδ∈ (0, 1),

M2n=O

hMi1n+δ p.s et en particulier, on a

M2n=o hMi2n p.s

Exemple : Si on considère la martingale Mn = nk=1ξk avec (ξk) une suite de différences de martingales telle qu’il existeCvérifiantE

ξ2k|Fk1≤Cpour toutk. AlorshMin≤Cn. Donc soit la limite du processus croissant est finie et dans ce cas Mn converge presque sûrement vers une variable aléatoireM, soit elle est infinie et on a alorsn1Mnqui converge presque sûrement vers 0.

On peut remarquer que la différence avec la loi des grands nombres pour des variables aléatoires i.i.d est que l’on se passe des hypothèses d’indépendance et d’identique distribution, mais le prix à payer est que l’on doit faire des hypothèses sur le comportement du crochethMin. A noter éga-lement que dans l’exemple précédent, on aurait pu s’attendre à obtenir une meilleure vitesse de convergence, ce que nous donne la deuxième loi des grands nombres suivante.

Théorème 2.1.6(Deuxième loi des grands nombres). Soit(Mn)une martingale de carré intégrable.

1. SihMin−−−−→p.s

n→+ +∞, alors

M2n= o(hMinln(hMin))1+δ p.s.

2. De plus, si il existe des constantes a>2et b>0telles que E

|Mn+1−Mn|a|Fn≤b Eh

(Mn+1−Mn)2|Fnia/2 p.s alors

M2n=O(hMinln(hMin)) p.s.

Démonstration. Preuve du point 1. La preuve est analogue à celle de la première loi des grands nombres. En effet, pour toutδ>0, on pose

Vn = M

n2

fδ(hMin) et An= E

ξ2n+1|Fn fδ(hMin+1). avec pour tout x > 0, fδ(x) = ( 1

1+x)(ln(1+x))1+δ CommehMin+1estFn-mesurable, et commehMin et fδ sont croissants, on a

E[Vn+1|Fn] = E

M2n+1|Fn

fδ(hMin+1) = M

n2

fδ(hMin+1)+E

ξ2n+1|Fn

fδ(hMin+1) ≤ M

n2

fδ(hMin)+An. On a donc,

n k=1

Ak

Z hMin

0

1

(1+t)(ln(1+t))1+δdt

Z + 0

1

(1+t)(ln(1+t))1+δdt<+

et donc, grâce au théorème de Robbins-Siegmund,Vnconverge presque sûrement vers une variable aléatoire finie, i.e

M2n=O

hMin(ln(hMin))1+δ p.s et ceOest en fait unocar l’égalité précédente est vraie pour toutδ >0.

Preuve du point 2. On rappelle que pour toutn ≥ 0, on noteξn+1 := Mn+1−Mn etξ0 = 0. Le coefficient d’explosion du processus croissant, que l’on notera fn, est définie pour toutn ≥0 par

fn= hMin+1− hMin hMin+1 = E

ξ2n+1|Fn hMin+1 .

Afin de simplifier la fin de la preuve, on va considérer une modification de ce coefficient, i.e on va considérer

n= hMin+1− hMin 1+hMin+1 = E

ξ2n+1|Fn 1+hMin+1.

Enfin, on note

Vn = M

n2

1+hMin et Bn = f˜nVn.

On ne peut pas passer ici par une approche directe via le théorème de Robbins-Siegmund mais on peut remarquer que

1+hMin

1+hMin+1 = 1+hMin+1+hMin− hMin+1

1+hMin+1 =1− f˜n. On peut alors réécrireVn+1comme

Vn+1= M

2n+n+1Mn+ξ2n+1

1+hMin+1 =Vn 1− f˜n

+2ξn+1

Mn

1+hMin+1 + f˜n ξ2n+1 1+hMin

=Vn− f˜nVn+2gnen+1+ f˜ne2n+1, avec

gn= Mn qE

ξ2n+1|Fn

1+hMin+1 , en+1 = q ξn+1 E

ξ2n+1|Fn , eten+1=0 siE

ξ2n+1|Fn=0. Pour simplifier la suite de la preuve, on suppose queE

ξ2n+1|Fn6=

0 pour toutn. On obtient donc, à l’aide d’une récurrence, Vn+1 =V0+2

n k=0

gkek+1

| {z }

=:An+1

+

n k=0

ke2k+1

| {z }

=:Bn+1

n k=0

kVk

| {z }

=:Cn

et on va donc majorer chacun de ces termes. A noter queE[en+1|Fn] = 0 etE

e2n+1|Fn = 1. De plus, on a

E

|en+1|a|Fn= E

|ξn+1|a|Fn E

ξ2n+1|Fna/2

≤b.

On a donc (voir Proposition 1.III.19, point 2) dans [Duf90]) Bn=O

n k=0

k

! p.s.

De plus, on a

n k=0

k =

n k=0

hMik+1− hMik 1+hMik+1 =

Z hMin+1 hMi0

1

t+1dt≤ln(1+hMin+1)

Il reste maintenant à montrer que An+1 est négligeable. Pour cela, on commence par remarquer

que c’est une terme de martingale et on calcule son crochet

Si Cn converge presque sûrement, alors An+1 converge presque sûrement et alors ce terme est négligeable, et on obtient le résultat. Si limn→+Cn= +presque sûrement, alors

An+1= o(Cn) p.s ce qui conclut la preuve.

A noter que les hypothèses (notamment pour la deuxième partie du théorème) peuvent sembler indigestes, mais on peut voir dans l’exemple suivant qu’elles sont généralement "facilement" véri-fiables. ce que l’on peut réécrire comme

la loi des grands nombres nous donne

A noter que pour cet exemple, avec des hypothèses un peu plus restrictives, on peut trouver une meilleure vitesse grâce à la loi du log-itéré pour les martingales.

Théorème 2.1.7(Loi du log-itéré). Soit(Mn)une martingale par rapport à une filtration(Fn)et s2n

2. Si|Mn+1−Mn| ≤Cnh(ss2n2

n) avec Cnadapté à la filtration et tendant presque sûrement vers0, alors lim sup |Mn|

h s2n1 ≤1

On admettra ce Théorème, mais sa preuve est disponible dans [Duf90] page 31.

Exemple : Soit Mn = nk=1ξk avecE[ξk|Fk1] = 0. Si il existeC ≥ 0 tel que pour toutk ≥ 0,

|ξk| ≤C, alors

1 nMn

2

=O

ln lnn n

p.s En effet, on ahMin ≤Cnet donch(sn) =h(n) = √

2nln lnnet donc, en posantCn= n1h(n), le point 2 de la loi du log itéré est vérifié, i.e

lim sup

n

|Mn|

h(n) =lim sup

n

|Mn|

nln lnn ≤1.

Estimation en ligne des quantiles : On considère l’estimateur en ligne du quantile d’ordrep(noté m) défini de manière récursive pour toutn≥0 par

mn+1 =mnγn+1 1Xn+1mn−p

On a déjà vu quemnest une estimateur fortement consistant dem. On noteFla fonction de répar-tition deX1, et on peut réécrire

mn+1−m=mn−m−γn+1(F(mn)−F(m)) +γn+1ξn+1

avec ξn+1 = F(mn)−1Xn+1mn. Si on note F = (Fn)avec Fn = σ(X1, . . . ,Xn) la filtration en-gendrée par l’échantillon, on a que(ξn)est une suite de différences de martingales. On suppose maintenant queFest dérivable enm. On note f sa dérivée et on a alors pour toutx∈R,

F(x)−F(m) = (f(m) +r(x)) (x−m)

avecrcontinue en metr(m) = 0. On suppose également que f(m) > 0 et on peut réécriremn+1

comme

mn+1−m= (1γn+1f(m)) (mn−m) +γn+1ξn+1+γn+1r(mn) (mn−m)

Dans tout ce qui suit, pour simplifier un peu les calculs, on supposera quecγf(m) < 1. A l’aide

d’une récurrence, on a

mn−m= βn,0(m0−m) +

n1 k

=0

βn,k+1γk+1ξk+1

| {z }

=:Mn

+

n1 k

=0

βn,k+1γk+1r(mk) (mk−m)

| {z }

=:Rn

(2.1)

avecβn,k = nj=k+1 1−γjf(m)et βn,n = 1. En effet, pourn = 0, il est clair que cette égalité est vérifiée et en supposant qu’elle est vérifiée pourn, on a, commeβn,n =1,

mn+1−m= (1γn+1f(m)) (mn−m) +γn+1ξn+1+γn+1r(mn) (mn−m)

= (1γn+1f(m)) βn,0(m0−m) +

n1 k

=0

βn,k+1γk+1ξk+1+

n1 k

=0

βn,k+1γk+1r(mk) (mk−m)

!

+βn+1,n+1γn+1ξn+1+βn+1,n+1γn+1r(mn) (mn−m)

= βn+1,0(m0−m) +

n k=0

βn+1,k+1γk+1ξk+1+

n k=0

βn,k+1γk+1r(mk) (mk−m)

On va donc maintenant donner les vitesses de convergence de chacun des termes à droite de l’éga-lité (2.1).

Vitesse de convergence deβn,0(m0−m). Remarquons d’abord que comme on a supposécγf(m)<

1,βn,k >0. De plus, comme pour toutxon a 1+x≤exp(x), il vient

βn,0

n j=1

exp −γjf(m) =exp −f(m)

n j=1

γj

!

et à l’aide d’une comparaison série-intégrale, on obtient cγ

1−α

(n+1)1α−1

=

Z n+1 1

cγ

tαdt≤

n j=1

γjγ1+

Z n+1 1

cγ

tαdt≤cγ+ cγ 1−α

(n+1)1α−1 etβn,0converge donc à vitesse exponentielle, i.e

βn,0≤exp

−f(m) cγ 1−α

(n+1)1α−1

(2.2)

Vitesse de convergence deMn. Remarquons d’abord que l’on peut réécrireMncomme Mn= βn,0

n1 k

=0

βk+11,0ξk+1 =: βn,0n

et on remarque que ˜Mnest une martingale. On va donc calculer son crochet. Pour cela, on remarque

d’abord queE

ξ2k+1|FkE1Xk+1mk|Fk≤1. On a donc hM˜in =

n1 k

=0

βk+21,0γ2k+1E

ξ2k+1|Fk1

n1 k

=0

βk+21,0γ2k+1

Ainsi, en remarquant que βn+1,0hM˜in+1 ≤ (1− f(m)γn+1)βn,0hM˜in+γ2n+1, on peut appliquer la Proposition1.4.1et on obtient

β2n,0hMin=

n1 k

=0

n j=k+2

1−γjf(m)γ2k =O(γn)

et donc, il existe une constante positiveCM˜ telle que

hM˜in ≤CM˜βn,02γn =:s2n. A noter ques2n−−−−→

n→+ +et comme log(1−x)∼x0 −x, il existe une constantec>0 telle que βn,01 =exp −

n j=1

log 1−γjf(m)

!

≤exp c f(m)

n j=1

γj

!

et on obti

s2n≤CM˜γnexp

2ccγf(m) +2ccγf(m) 1−α

(n+1)1α−1 .

En particulier, il existe un rangn0tel que pour toutn≥ n0,s2n≤e2ccγ1fα(m)n, et on a donc ln ln s2n

≤ln

2ccγf(m) 1−α n

≤ln(n) +ln(2ccγf(m))−ln(1−α) =O(ln(n)).

De plus, comme|ξn+1| ≤1, on a

n−M˜n1

βn,01γn= s

2n

CM˜βn,01

= p

γnln ln(s2n) CM˜

| {z }

=:Cn

s2n ps2nln ln(s2n)

et Cn converge vers 0. De plus, comme s2nln ln s2n

= O

βn,02γnln(n), en appliquant la loi du log-itéré,

2n=Oβn,02γnln(n) p.s et en particulier,

Mn2β2n,02n=O lnn

nα

p.s. (2.3)

Vitesse de convergence deRn. Remarquons d’abord que l’on a les relations de récurrence Rn+1= (1−γn+1f(m))Rn+γn+1r(mn) (mn−m)

|Rn+1| ≤(1−γn+1f(m))|Rn|+γn+1|r(mn)| |mn−m|. De plus, comme

|mn−m| ≤ βn,0|m0−m|+|Mn|+|Rn| on peut réécrire l’inégalité précédente comme

|Rn+1| ≤(1−γn+1f(m))|Rn|+γn+1|r(mn)|(βn,0|m0−m|+|Mn|) +γn+1|r(mn)| |Rn| De plus, comme mnconverge presque sûrement versm, par continuité der enm, on ar(mn)qui converge presque sûrement vers 0. Ainsi, on peut réécrire grossièrement l’inégalité précédente comme

|Rn+1| ≤(1−γn+1f(m) +o(γn+1))|Rn|+o(γn+1(βn,0|m0−m|+|Mn|)) p.s.

et comme

βn,0|m0−m|+|Mn|=O

√ lnn nα/2

! p.s on a

|Rn+1| ≤(1−γn+1f(m) +o(γn+1))|Rn|+o γn+1

√ lnn nα/2

! p.s.

Le lemme suivant, que l’on peut voir comme une "analogie presque sûre" de la proposition1.4.1 nous donne la vitesse de convergence deRn, et en particulier nous donne

|mn−m|2=O lnn

nα

p.s

Lemma 2.1.2. Soient An,Bn,rn des suites de variables aléatoires positives telles que rnconverge presque sûrement vers0et

An+1 = (1−cγn+1)An+γn+1rn(An+Bn) avecγn= cγnα. De plus, on suppose

Bn =O(vn) p.s avec vn=Cvnv(lnn)β avec v∈Retβ≥0. Alors

An=O(vn) p.s.

Proof of Lemma2.1.2. Afin de simplifier la preuve (et quitte a considérern suffisamment grand), on va supposer que pour tout n ≥ 0, cγn+1 ≤ 1. On considère maintenant l’évènement En,c =

{|rn| ≤c/2}, et on a donc1EC

n,cqui converge presque sûrement vers 1. On peut donc réécrireAn+1

comme

An+1≤(1−cγn+1)An+ c

2γn+1(An+Bn) +

=n

z }| { γn+1rn(An+Bn)1EC

n,c

1− c 2γn+1

An+ c

2γn+1Bn+δn1EC n,c

Par récurrence, on peut facilement montrer que pour toutn≥0, on a Anβ˜n,0A0+ c

2

n1 k

=0

β˜n,k+1γk+1Bk

| {z }

=:A1,n

+

n1 k

=0

β˜n,k+1δk1EC k,c

| {z }

=:A2,n

avec ˜βn,k = nj=k+1 1−2cγj

et ˜βn,n = 1. Avec des calculs classiques, on peut facilement montrer que ˜βn,0 converge à vitesse exponentielle. De plus, on peut réécrire A2,n = β˜n,0nk=01β˜k,01δk1EC

k,c et comme1ECn,c converge presque sûrement vers 0, la somme est presque sûrement finie et on obtient donc

A2,n =O β˜n,0 p.s

et ce terme converge donc à vitesse exponentielle. Enfin, il existe une variable aléatoireBtelle que pour toutn≥1 on aBn≤ Bvnpresque sûrement, et on obtient donc la relation de récurrence

A1,n+1=1c 2γn+1

A1,n+ c

2γn+1Bn1c 2γn+1

A1,n+ c

2Bγn+1vn et en appliquant la proposition1.4.1, on obtient

A1,n =O(vn) p.s.

Exemple : estimation de la médiane de la loi exponentielle. On considère X ∼ E(1)et on s’in-téresse à la vitesse de convergence des estimateurs de la médiane. Figure2.2, on se concentre sur l’erreur quadratique moyenne estimée à l’aide de 50 échantillons. On voit bien que les estimateurs convergent très rapidement vers la médiane.

0 1000 2000 3000 4000 5000

0.000.050.100.150.20

Sample size

Quadratic mean errror

1 5 50 500 5000

5e−045e−035e−02

Sample size

Quadratic mean errror (logarithmic scale)

FIGURE2.2 – Evolution de l’erreur quadratique moyenne des estimateurs en ligne de la médiane d’une loi exponentielle de paramètre 1.