Vitesses de convergence - Algorithme de Newton stochastique

4.2 Algorithme de Newton stochastique

4.2.3 Vitesses de convergence

H⁻_n¹

∑

n≥0

1 n+1

λ_max H_n = +_∞ p.s,

cela implique nécessairement que lim inf_nk∇G(m˜_n)k = 0 presque sûrement. CommeGest stric-tement convexe, cela implique aussi que

lim inf

n km˜_n−mk=0 p.s et lim inf

n V_n= lim inf

n G(m˜_n)−G(m) =0 p.s,

et comme V_n converge presque sûrement vers une variable aléatoire, cela implique que G(m˜_n) converge presque sûrement versG(m)et par stricte convexité, que ˜mnconverge presque sûrement versm.

4.2.3 Vitesses de convergence

Afin de d’obtenir les vitesses de convergence, on est "obligé" d’avoir la forte consistance de l’esti-mateur de la Hessienne et de son inverse. Dans ce but, on introduit l’hypothèse suivante :

(H2) Si les hypothèses(PS0”),(PS2),(PS5)et(H1)sont vérifiées, alors H_n−−−−→^p.s

n→+_∞ H et H⁻_n¹ −−−−→^p.s

n→+_∞ H⁻¹.

Cette hypothèse veut tout simplement dire que si l’on a la convergence de ˜mn, on a également la convergence de l’estimateur de la Hessienne. On peut maintenant donner la vitesse de convergence de l’algorithme de Newton stochastique.

Théorème 4.2.3. On suppose que les hypothèses(PS0”),(PS2),(PS4),(PS5),(H1)et(H2)sont vérifiées.

Alors pour toutδ >0,

km˜_n−mk² =o

(lnn)¹⁺^δ n

p.s..

De plus, si l’hypothèse(PS1)est vérifiée, alors

km˜_n−mk² =O lnn

p.s.

Démonstration. Remarquons d’abord que l’on peut écrire l’algorithme de Newton comme

m_n+1−m=m˜n−m− ¹

n+1H⁻_n¹∇G(m˜n) + ¹

n+1H⁻_n¹ξ˜_n+1, (4.4) avec ˜ξ_n+1 := ∇_hg(X_n+1, ˜m_n)− ∇G(m˜_n). On a donc que ˜ξ_n

est une suite de différences de mar-tingale par rapport à la filtration(F_n). En linéarisant le gradient, on a alors

m_n+1−m=m˜_n−m− ¹

n+1H⁻_n¹H(m˜_n−m)− ¹

n+1H⁻_n¹δ˜_n+ ¹

n+1H⁻_n¹ξ˜_n+1

où ˜δ_n:=∇G(m˜_n)−H(m˜_n−m)est le terme de reste dans la décomposition de Taylor du gradient.

De plus, on peut réécrire l’égalité précédente comme

˜ On peut donc montrer (récurrence immédiate) que pour toutn ≥1,

Vitesse de convergence de M˜_n. Afin d’obtenir la vitesse de convergence du terme de martingale, on va calculer son crochet. Par linéarité de l’espérance, on a pour toutn≥1,

M˜ continuité deΣ(hypothèse(PS4)), on a

H⁻_k¹Eh

∇_hg(X_k+1, ˜m_k)∇_hg(X_k+1, ˜m_k)^T|F_kⁱH⁻_k¹ −−−−→^p.s

n→+_∞ H⁻¹Σ(m)H⁻¹. Ainsi, en appliquant le lemme de Toeplitz,

De plus, comme∇GestL∇G-lipschitz, et comme ˜m_kconverge presque sûrement versmet comme

H⁻_n¹converge vers H⁻¹, on a

En particulier, en appliquant le lemme de Toeplitz, on obtient

‘1

et en appliquant une loi des grands nombres pour les martingales vectorielles, on a pour toutδ >0

Vitesse de convergence de∆˜n. Remarquons d’abord que grâce aux hypothèses(PS3)et(PS5), et comme ˜m_ketH⁻_n¹convergent presque sûrement versmetH⁻¹, on a

k,c converge presque sûrement vers 0. On peut alors réécrire ∆˜n+1

En notant ˜c=1−c, comme 1+x≤e^xet à l’aide d’une comparaison série intégrale,

Ainsi, on peut montrer à l’aide d’une récurrence que pour toutn≥0, Vitesse de convergence deR_4,n. Comme1^C_A

k,cconverge presque sûrement vers 0, on a

n−1

et on obtient donc

R_4,n=O casδ =0 correspondant au cas où le gradient admet un moment conditionnel d’ordre strictement plus grand que 2), il existe une variable aléatoire positiveB_δtelle que pour toutk≥1,

Afin d’obtenir la normalité asymptotique des estimateurs, on est obligé d’avoir une vitesse de convergence de l’estimateur de la Hessienne. Pour ce faire, on introduit l’hypothèse suivante :

(H3) Si les hypothèses (PS0”), (PS2), (PS3), (PS4), (PS5), (H1) et (H2) sont vérifiées, alors il existe p_H >0 tel que

Cette hypothèse signifie juste que obtenir une vitesse de convergence presque sûre de l’estimateur

mnpermet d’obtenir une vitesse de convergence presque sûre de Hn. Le théorème suivant nous donne la normalité asymptotique des estimateurs obtenus à l’aide d’algorithmes de Newton sto-chastiques. En particulier, il nous indique que ces estimateurs ont un comportement asymptotique optimal, dans le sens où ils ont le même comportement asymptotique que les M-estimateurs.

Théorème 4.2.4. On suppose que les hypothèses(PS0”),(PS1),(PS2),(PS3),(PS4),(PS5) (H1),(H2)et (H3)sont vérifiées. Alors

√n(m˜_n−θ)−−−−→^L

n→+_∞ N 0,H⁻¹ΣH⁻¹ avecΣ=_Σ(m) =_E^h∇_hg(X,m)∇_hg(X,m)^Tⁱ.

Démonstration. On rappelle que l’on a

et on va donc donner les vitesses de convergence de ces termes pour montrer que c’est bien le terme de martingale qui "porte" la convergence.

Vitesse de convergence de∆˜n. Comme ˜mnconverge presque sûrement versmet grâce à l’hypo-thèse(PS3), on a

δ˜_n

km˜_n−mk² p.s.

et donc, comme H⁻_n¹converge presque sûrement versH⁻¹, en appliquant le lemme de Toeplitz et grâce au Théorème4.2.3, on obtient que pour toutδ>0,

Ce terme est donc négligeable. De la même façon, en appliquant le lemme de Toeplitz, grâce au Théorème4.2.3et à l’hypothèse(H3), on a

et on obtient donc

et ce comme p_H >0, ce terme est négligeable.

Vitesse de convergence de M˜_n. On a déjà montré que ˜M_nest une martingale et que son crochet vérifie

nhMi_n −−−−→^p.s

n→+_∞ H⁻¹ΣH⁻¹.

Il faut donc montrer que la condition de Lindeberg est vérifiée, i.e que pour toute>0, 1 On a alors, grâce à l’inégalité de Hölder,

De plus, en appliquant l’inégalité de Markov, on obtient

E On obtient donc, commeη>0,

1 i.e la condition de Lindeberg est vérifiée et donc

√nM˜n L

−−−−→

n→+_∞ N0,H⁻¹ΣH⁻¹

ce qui conclut la preuve.

4.2.5 Application au modèle linéaire

On se place maintenant dans le cadre de la régression linéaire défini par (1.1). On rappelle que la Hessienne de la fonction à minimiserGest définie pour touth∈ _R^dpar∇²G(h) =_EXX^T

, et on supposera que cette matrice est définie positive. Un estimateur naturel deH= ∇²G(θ)_{est donc}

H_n = ¹ n+1

∑

n k=1

X_kX_k^T+H₀

oùH₀est une matrice symétrique définie positive (on peut prendreH₀ = I_dpar exemple). A noter que l’on peut écrireH_nde manière récursive comme

H_n+1 = H_n+ ¹ n+2

X_n+1X_n^T₊₁−H_n .

On va maintenant s’intéresser à l’inversion de la matriceHn. Pour cela, on va introduire la matrice H_n= (n+1)H_nque l’on peut écrire comme

H_n+1= H_n+X_n+1X_n^T₊₁.

Afin de réduire le temps de calcul, on ne va pas inverser directement cette matrice à chaque ité-ration, mais plutôt utiliser la formule d’inversion de Ricatti (aussi appelée formule de Sherman-Morrison) suivante :

Théorème 4.2.5 (Formule de Riccati). Soit A ∈ M_d(_R)une matrice inversible et u,v ∈ _R^d. Si1+ v^TA⁻¹u6=0, alors A+uv^Test inversible et

A+uv^T−1

= A⁻¹−1+v^TA⁻¹u−1

A⁻¹uv^TA⁻¹. Démonstration. On a

A⁻¹−1+v^TA⁻¹u−1

A⁻¹uv^TA⁻¹

A+uv^T

= I+A⁻¹uv^T−1+v^TA⁻¹u−1

A⁻¹

uv^T+uv^TA⁻¹uv^T

= I+A⁻¹uv^T−1+v^TA⁻¹u−1

A⁻¹ u

1+v^TA⁻¹u v^T

= I+A⁻¹uv^T−A⁻¹uv^T

= I.

En particulier, si Aest une matrice définie positive, pour toutu∈_R^don a 1+u^TA⁻¹u≥1 et donc

A+uu^T

= A⁻¹−1+u^TA⁻¹u−1

A⁻¹uu^TA⁻¹.

A noter que cette opération ne représente "que" O d²

opérations. On peut donc mettre à jour l’estimateur de l’inverse de la Hessienne comme suit :

H_n⁻₊¹₁= H⁻_n¹−1+X_n^T₊₁H_n⁻¹X_n+1

−1

H_n⁻¹X_n+1X_n^T₊₁H_n⁻¹

avec H⁻_n₊¹₁ = (n+2)H⁻_n₊¹₁. Ainsi, une fois que l’on a H₀⁻¹, on peut facilement mettre à jours nos estimateurs, ce qui conduit à l’algorithme de Newton stochastique suivant :

θ˜_n+1=θ^˜_n+ ¹

n+1H⁻_n¹

Y_n+1−θ^˜^T_nX_n+1

X_n+1

H_n⁻₊¹₁= H⁻_n¹−1+X_n^T₊₁H_n⁻¹X_n+1

−1

H_n⁻¹X_n+1X_n^T₊₁H_n⁻¹ avecH⁻_n¹ = (n+₁)H_n⁻¹. A noter que l’on pourrait réécrire l’algorithme comme

θ˜_n+1=θ^˜_n+H_n⁻¹

Y_n+1−θ^˜_n^TX_n+1

X_n+1

H_n⁻₊¹₁= H⁻_n¹−1+X_n^T₊₁H_n⁻¹X_n+1

−1

H_n⁻¹X_n+1X_n^T₊₁H_n⁻¹.

On peut alors obtenir les vitesses de convergence des estimateurs, et ce, avec des hypothèses assez faibles.

Théorème 4.2.6. Si il existe η > 0tel que X eteadmettent des moments d’ordre 4+4ηet2+2η, et si E

XX^T

est définie positive, alors

θ˜n−θ

2=O lnn

p.s. et √

n θ˜n−θ L

−−−−→

n→+_∞ N0,σ²H⁻¹ .

Démonstration. On a déjà vu que sous ces hypothèses, les hypothèses(PS1)à(PS4)sont vérifiées et l’hypothèse(PS0”)est clairement vérifiée. De plus pour touth∈_R^d, on a

∇²G(h)

op = Eh

XX^Ti

op ≤_E^hkXk²ⁱ

et l’hypothèse(PS5)est donc vérifiée. De plus, par la loi du log-itéré, commeXadmet un moment d’ordre 4, on a

H_n−H

2 =O

ln lnn n

p.s et les hypothèses(H1)à(H3)sont vérifiées, ce qui conclut la preuve.

Dans la Figure4.5, on considère le modèle

θ = (−4,−3,−2,−1, 0, 1, 2, 3, 4, 5)^T ∈_R¹⁰, X∼ N 0, diag σ_i²

, et e∼ N(0, 1) avec pour tout i = _{1, . . . ,}d, σ_i² = ⁱ²

d². On a donc la plus grande valeur propre de la Hessienne qui est 100 fois plus grande que la plus petite. On voit bien Figure 4.5 que les estimateurs de

gradient peinent à arriver à convergence, et donc, que les estimateurs moyennés ne permettent pas d’accélérer la convergence. A contrario, on voit bien que malgré ces différences d’échelles entre les valeurs propres de la Hessienne, l’algorithme de Newton stochastique converge très rapidement.

0 1000 2000 3000 4000 5000

050100150

Sample size

Quadratic mean error

SN SGD ASGD

1 5 50 500 5000

5e−025e−015e+005e+01

Sample size

Quadratic mean error (logarithmic scale)

SN SGD ASGD

FIGURE4.5 – Evolution de l’erreur quadratique moyenne des estimateurs de gradientθn(SGD), de leur version moyennéeθ_n(ASGD) et des estimateurs de Newton stochastique ˜θ_n(SN) en fonction de la taille de l’échantilon dans le cadre du modèle linéaire.

De plus, on vu que pour l’algorithme de gradient stochastique moyenné, on a C_n:= ¹

σ²n θ_n−θT

H_n θ_n−θ L

−−−−→

n→+_∞ χ²_d, et de la même façon, on a

K_n:= ¹

σ²n θ˜_n−θT

H_n θ˜_n−θ L

−−−−→

n→+_∞ χ²_d,

et on peut ainsi construire un test asymptotique pour tester θ = θ₀. En effet, Figure4.6, on s’inté-resse aux fonctions de répartitions deC_netK_nestimées à l’aide de 1000 échantillons. On voit que lorsque la taille d’échantillon augmente, on voit que la fonction de répartition deK_ns’approche de celle d’une Chi 2 à 10 degrés de liberté, tandis que celle deCns’en éloigne. En effet, l’algorithme de gradient n’étant pas arrivé à convergence, la moyennisation n’accelère pas du tout la convergence, voire la dessert.

0 20 40 60

0.00.20.40.60.81.0

F(x)

K_n Cn

Chi 2

0 20 40 60

0.00.20.40.60.81.0

F(x)

K_n Cn

Chi 2

FIGURE4.6 – Comparaison des fonctions de répartition deC_netK_n, pourn = 1000 (à gauche) et n=5000 (à droite), et de la fonction de répartition d’une Chi 2 à 10 degrés de liberté dans le cadre du modèle linéaire.

De plus, on peut remarquer que pour toutx₀∈_R^don peut réécrire le TLC comme

√n

x^T₀θ˜_n−x^T₀θ _L

−−−−→

n→+_∞ N0,σ²x^T₀H⁻¹x₀ ce que l’on peut réécrire comme

√n x₀^Tθ˜_n−x₀^Tθ q

σ²x₀^TH⁻¹x₀

−−−−→L

n→+_∞ N (0, 1).

Ainsi, comme on dispose d’un estimateur en ligne de H⁻¹, il ne reste qu’à avoir un estimateur récursif deσ²pour obtenir des intervalles de confiance en ligne dex₀^Tθ. Une façon pour estimerσ² est de considérer l’erreur quadratique moyenne des prévisions,

σ_n²= ¹ n

∑

n k=1

Y_k−X_k^Tθ˜_k₋₁ 2

ce que l’on peut réécrire de manière récursive comme σ_n²₊₁ =σ_n²+ ¹

n+1

Yn+₁−Xn+₁θ˜_n2

−σ_n²

En effet, le théorème suivant nous confirme que cet estimateur converge rapidement versσ². Théorème 4.2.7. Si il existeη > 0tel que X eteadmettent des moments d’ordre4+4eet2+2ηet que

E XX^T

est inversible, alors pour toutδ >0,

Démonstration. Remarquons que l’on peut réécrireσ_n²comme σ_n² = ¹ appliquant le Théorème2.2.3, on obtient pour toutδ>_0,

Enfin, on peut réécrire le dernier terme comme 1 différences de martingales, et on a donc pour toutδ>0,

De plus, on a grâce au lemme de Toeplitz, 1

A noter qu’avec des résultats un peu plus poussés pour les martingales, on aurait pu avoir une

vitesse de convergence beaucoup plus fine. On se contentera néanmoins de cette borne. En effet, on a, grâce au théorème de Slutsky,

Cx₀ =√

n x₀^Tθ˜_n−x₀θ q

σ_n²x₀^TH⁻_n¹x^T₀

−−−−→L

n→+_∞ N (0, 1).

En effet, Figure4.7, on s’intéresse à la densité de Ce₁, i.e on prend x0 = e₁ = (1, 0, . . . , 0)^T et on compare sa densité à celle d’une loi normale centrée réduite. La densité deC_e₁ est estimée à l’aide de 1000 échantillons.

−4 −2 0 2 4

0.00.10.20.30.4

f(x)

C_e₁ Loi normale

−4 −2 0 2 4

0.00.10.20.30.4

f(x)

C_e₁ Loi normale

FIGURE4.7 – Comparaison de la densité deCe₁, pourn = 1000 (à gauche) etn = 5000 (à droite), et de la densité d’une loi normal centrée réduite dans le cadre de la régression linéaire.

On voit que l’estimation est plutôt bonne et que lorsque la taille d’échantillon augmente, la densité de C_e₁ s’approche de celle de la loi normale centrée réduite, ce qui légitime l’usage de C_x₀ pour l’obtention d’intervalles de confiance. En effet, on peut ainsi construire les intervalles de confiance asymptotiques en ligne

IC_n,1−α(θ) =



x^T₀θ˜_n±_Φ⁻¹(1−α/2) q

σ_n²x^T₀H⁻_n¹x₀

√n





oùΦ⁻¹(1−α/2)est le quantile d’ordre 1−α/2 de la loi normale centrée réduite. On parle d’in-tervalles de confiance en ligne dans le sens où on peut mettre à jours ces ind’in-tervalles avec un cout assez réduit en terme de temps de calculs. On peut également construire un rectangle de confiance de niveau asymptotique au moins 1−α. En effet, en considérantB={e₁, . . . ,e_d}la base canonique

deR^d, on a

4.2.6 Application à la régression logistique

On se place maintenant dans le cadre de la régression logistique défini par (1.2). On rappelle éga-lement que la Hessienne de la fonction que l’on cherche à minimiserGest définie pour touth∈_R^d par

Cependant, on ne connait généralement pasθ, et il va donc falloir le remplacer par un estimateur en ligne deθ, conduisant à un premier algorithme de Newton stochastique

θˆ_n+1 =θ^ˆ_n+ ¹ alors deux questions. La première est de savoir comment mettre à jourS⁻_n₊¹₁. Cela peut se faire en utilisant encore une fois la formule de Riccati. De plus, est-ce que notre estimateur de la Hessienne vérifie(H0)? On est malheureusement incapable de suffisamment contrôler la plus petite valeur propre de S_n et on est donc obligé de proposer une version tronquée de l’algorithme de Newton stochastique, i.e on va considérer [BGBP19]

α_n+1=π

Le terme de troncature a_n permet de contrôler le comportement asymptotique de la plus petite

est inversible, on a

λ_max

ce qui nous permet d’obtenir la convergence des estimateurs.

Théorème 4.2.8. On suppose que X admet un moment d’ordre2et que H :=∇²G(θ)est inversible. Alors θ˜nconverge presque sûrement versθ. De plus, si X admet un moment d’ordre4, alors

Démonstration. Vérification des hypothèses (PS1) à (PS5). On a déjà vu que siX admet un mo-ment d’ordre 4, les hypothèses(PS1)à(PS4)sont vérifiées. De plus, on aπ(1−π)≤1/4 et donc pour touth∈ _R^d,

∇²G(h)

op ≤1/4, et l’hypothèse(PS5)est donc vérifiée.

Vérification de (H1). On a λ_min H_n et par la loi forte des grands nombres, on a

1 et(H1)est donc vérifiée.

Conclusion 1. On a donc ˜θ_nqui converge presque sûrement versθ.

Vérification de (H2). A noter que l’on peut réécrireH_ncomme

De plus, on peut réécrire A_ncomme A_n= diffé-rences de martingales par rapport à la filtration(F_k)et comme

Eh Lemme de Toeplitz et comme ˜θ_nconverge presque sûrement versθ,

i.e(H2)est donc vérifiée.

Conclusion 2. On a donc,

Vérification de (H3). Maintenant que l’on a la vitesse de convergence de ˜θ_k, on peut reprendre la calcul deA_npour avoir la vitesse de convergence de l’estimateur de la Hessienne. En effet, il existe

une variable aléatoire positiveBtelle que

1 n+1

∑

n k=1

∇²G θ˜_k−1

−H

≤ ¹

n+1kHk+^E

kXk³ 4(n+1)^B

∑

n k=1

√ lnk

√

k =O

√ lnn

√n

! p.s.

et on a donc, commeβ<1/2,

H_n−H

2 =O 1

n^2β

p.s.

Conclusion 3.On a donc, commeEh

∇_hg(X,θ)∇_hg(X,θ)^T i

= H,

√n θ˜_n−θ L

−−−−→

n→+_∞ N 0,H⁻¹ .

Figure4.8, on considère le modèle

θ = (1, . . . , 1)^T ∈_R¹⁰ et X ∼ N 0, diag σ_i²

avec pour touti= 1, . . . ,d,σ_i² = _dⁱ²₂. On s’attend donc à ce que la plus grande valeur propre de la Hessienne soit à peu près 100 fois plus grande que la plus petite. On voit bien Figure4.8que les estimateurs de gradient peinent à arriver à convergence, et donc, que les estimateurs moyennés ne permettent pas d’accélérer la convergence. A contrario, on voit bien que malgré ces différences d’échelles entre les valeurs propres de la Hessienne, l’algorithme de Newton stochastique converge très rapidement.

0 1000 2000 3000 4000 5000

1234

Sample size

Quadratic mean errror

SGD ASGD SN

1 5 50 500 5000

0.20.51.02.0

Sample size

Quadratic mean errror (logarithm scale)

SGD ASGD SN

FIGURE4.8 – Evolution de l’erreur quadratique moyenne des estimateurs de gradientθ_n (SGD), de leur version moyennéeθn(ASGD) et des estimateurs de Newton stochastique (SN) en fonction de la taille de l’échantillon dans le cadre de la régression logistique.

A noter que l’on a vu que l’on a, grâce au théorème de continuité, n θ˜n−θT

H θ˜n−θ L

−−−−→

n→+_∞ χ²_d.

Ainsi, comme H_n converge presque sûrement vers H, en appliquant le théorème de Slutsky, on obtient

Kn:=n θ˜n−θT

Hn θ˜n−θ L

−−−−→

n→+_∞ χ²_d.

En effet, Figure4.9, on s’intéresse à la fonction de répartition deK_nestimée à l’aide de 1000 échan-tillons. On voit que même pour une relativement petite taille d’échantillon (n =1000), la fonction de répartition deK_ns’approche de celle d’une Chi 2 à 10 degrés de liberté, ce qui laisse penser que l’on est déjà arrivé à convergence.

0 10 20 30 40

0.00.20.40.60.81.0

F(x)

Chi 2

0 10 20 30 40

0.00.20.40.60.81.0

F(x)

Chi 2

FIGURE 4.9 – Comparaison de la fonction de répartition de K_n, pour n = 1000 (à gauche) et n=5000 (à droite), et de la fonction de répartition d’une Chi 2 à 10 degrés de liberté.

A noter également que l’on peut réécrire la normalité asymptotique comme

√n

x^T₀θ˜n−x^T₀θ _L

−−−−→

n→+_∞ N 0,x^T₀H⁻¹x₀ ce que l’on peut réécrire comme

√nx^T₀θ˜n−x₀^Tθ q

x^T₀H⁻¹x₀

−−−−→L

n→+_∞ N(0, 1) et grâce au théorème de Slutsky, on obtient

√nx^T₀θ˜_n−x₀^Tθ q

x^T₀H⁻_n¹x0

−−−−→L

n→+_∞ N(0, 1).

En effet, Figure4.7, on s’intéresse à la densité de Ce₁, i.e on prend x₀ = e₁ = (1, 0, . . . , 0)^T et on compare sa densité à celle d’une loi normale centrée réduite. La densité deC_e₁ est estimée à l’aide de 1000 échantillons.

−4 −2 0 2 4

0.00.10.20.30.40.5

f(x)

C_e₁ Loi normale

−4 −2 0 2 4

0.00.10.20.30.40.5

f(x)

C_e₁ Loi normale

FIGURE4.10 – Comparaison de la densité deC_e₁, pourn= 1000 (à gauche) etn=5000 (à droite), et de la densité d’une loi normal centrée réduite.

On voit que l’estimation est plutôt bonne et ce, même pour une taille d’échantillon raisonnable (n = 1000). Ceci légitime donc l’usage de C_x₀ pour l’obtention d’intervalles de confiance, i.e on considère les intervalles de confiance asymptotiques en ligne suivant



x^T₀θ ∈



x^T₀θ˜_n±_Φ⁻¹(1−α/2) q

x^T₀H⁻_n¹x0

√n







−−−−→

n→+_∞ 1−α

où Φ⁻¹(1−α/2)est le quantile d’ordre 1−α/2 de la loi normale centrée réduite. On peut éga-lement construire un rectangle de confiance de niveau asymptotique au moins 1−α. En effet, en considérantB{=e₁, . . . ,e_d}la base canonique deR^d, on a

R₁₋_α(θ) =

∏

d i=1



e_i^Tθ˜_n±_Φ⁻¹₁− ^α 2d

e^T_i Hne_i

√n





oùΦ⁻¹(₁−α/2d)est le quantile d’ordre 1−α/2dde la loi normale centrée réduite.

[BC07] Bernard Bercu and Djalil Chafaï. Modélisation stochastique et simulation-Cours et applica-tions. 2007.

[BGB20] Claire Boyer and Antoine Godichon-Baggioni. On the asymptotic rate of convergence of stochastic newton algorithms and their weighted averaged versions. arXiv preprint arXiv :2011.09706, 2020.

[BGBP19] Bernard Bercu, Antoine Godichon-Baggioni, and Bruno Portier. An efficient stochas-tic newton algorithm for parameter estimation in logisstochas-tic regressions. arXiv preprint arXiv :1904.07908, 2019.

[BM13] Francis Bach and Eric Moulines. Non-strongly-convex smooth stochastic approxima-tion with convergence rate O (1/n). InAdvances in Neural Information Processing Systems, pages 773–781, 2013.

[CGBP20] Peggy Cénac, Antoine Godichon-Baggioni, and Bruno Portier. An efficient averaged stochastic gauss-newtwon algorithm for estimating parameters of non linear regres-sions models. arXiv preprint arXiv :2006.12920, 2020.

[DST90] M Duflo, R Senoussi, and A Touati. Sur la loi des grands nombres pour les martingales vectorielles et l’estimateur des moindres carrés d’un modèle de régression. InAnnales de l’IHP Probabilités et statistiques, volume 26, pages 549–566, 1990.

[Duf90] Marie Duflo. Méthodes récursives aléatoires. Masson, 1990.

[Duf97] Marie Duflo. Random iterative models, volume 34 ofApplications of Mathematics (New York). Springer-Verlag, Berlin, 1997. Translated from the 1990 French original by Ste-phen S. Wilson and revised by the author.

[MP11] Abdelkader Mokkadem and Mariane Pelletier. A generalization of the averaging proce-dure : The use of two-time-scale algorithms. SIAM Journal on Control and Optimization, 49(4) :1523–1543, 2011.

[Pel98] Mariane Pelletier. On the almost sure asymptotic behaviour of stochastic algorithms.

Stochastic processes and their applications, 78(2) :217–244, 1998.

[Pin94] Iosif Pinelis. Optimum bounds for the distributions of martingales in Banach spaces.

The Annals of Probability, 22 :1679–1706, 1994.

[PJ92] Boris Polyak and Anatoli Juditsky. Acceleration of stochastic approximation. SIAM J.

Control and Optimization, 30 :838–855, 1992.

[RM51] Herbert Robbins and Sutton Monro. A stochastic approximation method. The annals of mathematical statistics, pages 400–407, 1951.

[Rup88] David Ruppert. Efficient estimations from a slowly convergent robbins-monro process.

Technical report, Cornell University Operations Research and Industrial Engineering, 1988.

[Wei37] Endre Weiszfeld. Sur le point pour lequel la somme des distances de n points donnés est minimum.Tohoku Math. J, 43(355-386) :2, 1937.

Dans le document AntoineGodichon-Baggioni Algorithmesstochastiques (Page 102-122)