Analogie avec le recuit simulé

Le résultat (3.47) n’est pas complètement satisfaisant. Les points singuliers peuvent en effet être des maxima locaux, des points selles, ou même de mauvais minima locaux.

Voici un ensemble “d’intuitions physiques”, qui tendent à montrer qu’avec le temps, la probabilité que

w

t augmente au voisinage d’un minimum local, et diminue au voisinage d’un maximum local.

Notons

q

(w)

la densité de probabilité de

w

t. On sait que sous certaines hypothèses, le théorème (3.47) s’applique, et donc que le support de

q

(w)

tend vers

sing(C)

lorsque

t

tend vers l’infini.

On considérera, en première approximation, que

∇J(x,w) = ∇C(w) + ξ

où

ξ

est un bruit gaussien de variance

σ

². Cette variance est en général non nulle, sauf lorsque tous les

∇J(x,w)

sont égaux pour un

w

donné, et en particulier lorsqu’ils admettent un même minimum local.

Entourons un point quelconque d’une petite boule (cf fig 3.2), et notons

q

t la probabilité que

w

t appartienne à cette boule. Supposons également que

ε

t est assez petit pour que

ε

∇J(x,w

)

soit faible devant le diamètre de la boule. Seuls alors sont susceptibles d’entrer ou de quitter la boule les

w

t proches de la surface de la boule.

Fig 3.2- Deux points entourés d’une boule. A gauche un point ordinaire. A droite, un maximum local. Les flèches représentent les flux des gradients.

Chaque point de la surface possède une densité

q

(w

)

. Il est responsable d’un accroissement infinitésimal

ε

q

(w

) ( ^∇C(w

^)+ξ ) ^ndw

^s de la probabilité

q

t de notre boule, où

n

est le vecteur normal à la surface de la boule. L’accroissement moyen

q

t+1

-q

t est donc proportionnel à la moyenne du flux de ces produits à travers la surface de la boule, c’est à dire:

q

t+1

-q

= ∫

˚ ε

˚ d i v ˚ ( ^q

^(w)∇C(w

^{) ˚dw =} )

∫

˚ ( ^∇ ^q

^{(w )∇} ^{C(w )˚+˚q}

^{(w )˚div} ^{∇C(w )˚} ) ^˚ ^ε

^{d w ˚} ^(3.49)

L’équation (3.49) permet de deviner l’évolution de

q

• Autour d’un minimum local,

div∇C(w)

, est fortement positif. De plus,

∇C(w)

est a peu près nul. Si elle est non nulle, la densité

q

(w)

augmente.

• Autour d’un maximum local,

div∇C(w)

, est fortement négatif. De plus,

∇C(w)

est a peu près nul. Si elle est non nulle, la densité

q

(w)

décroît. Le terme

∇q∇C

peut alors être négligé, et on a alors

∆q

(w)

≈

-Kq

(w)

. La décroissance de

q

(w)

est donc exponentielle vers 0 !

• Autour d’un point selle, le signe de

div∇C(w)

reste indéterminé. On ne peut pas dire grand chose.

Supposons maintenant que

ε

t décroisse assez lentement pour que l’on ait, comme dans le cas du recuit simulé [1], une équilibre quasi-statique. On a alors une équation d’équilibre:

∇q

(w)∇C(w) + q

(w) div∇C(w) = 0 (3.50)

On sait de plus que la densité est faible au voisinage des maxima, et forte au voisinage des minima.

On peut alors tirer des conclusions sur les gradients de probabilité.

• Lorsque la courbure est positive,

div∇C(w)

est positif. Si la densité

q

(w)

n’est pas nulle, son gradient est de sens opposé à

∇C.

En intégrant, on remarque que la densité

q

(w)

est soit nulle, soit d’autant plus forte que

C

est faible. Cela est vrai en particulier sur les minima locaux.

• Lorsque la courbure est négative,

div∇C(w)

est négatif. Si la densité

q

(w)

n’est pas nulle, son gradient est de même sens que

∇C.

La densité

q

(w)

devrait être d’autant plus forte que

C

est fort. Mais cela devrait aussi être vrai pour les maxima locaux, et nous avons vu qu’il n’en est rien. On en déduit que la densité est nulle.

On remarque que le système est en équilibre instable si la densité au voisinage d’un minimum est identiquement nulle. Or, l’approximation stochastique a introduit un terme de bruit,

ξ

, qui rendait impossible le confinement des

w

t. Ce même terme de bruit, lorsque sa variance n’est pas nulle, élimine cet équilibre instable de la densité.

1 Kirkpatrick S., Gelatt C.D.Jr, Vecchi M.P.: Optimisation by Simulated Annealing - Science, vol 220, N° 4598, pp 671-680, (1983)

Au fur et à mesure que l’algorithme converge, le support de cette densité converge vers l’ensemble des points singuliers de

C

, avec une probabilité nulle sur les maxima, et avec une probabilité sur les minima d’autant plus forte que la valeur de

C

y est faible.

On constate donc un phénomène comparable à celui du recuit simulé: L’algorithme a tendance à converger vers de bons minima locaux. C’est en fait la perte de la propriété de confinement qui nous apporte cette bonne nouvelle, maintes fois confirmée par l’expérience [1], et d’une utilité pratique certaine (cf §5.1).

Une formalisation plus rigoureuse et plus satisfaisante de ces raisonnements semble cependant difficile à établir. Il faudrait, en toute rigueur, introduire des outils pour traiter l’aléatoire stochastique dans ces équations. De plus, comme pour le recuit simulé, il n’est pas très rigoureux de supposer que notre système évolue de façon “quasi-statique”.

3.3.3 Conclusion

L’enjeu de l’étude mathématique de la convergence des algorithmes de descente stochastique de gradient est de taille: Il s’agit de prouver simultanément la convergence d’un très grand nombre d’algorithmes connexionnistes ou statistiques, présents ou futurs. La méthode de Lyapunov et les propriétés des quasi-martingales permettent d’aborder ce problème ardu, et d’énoncer des théorèmes de convergence généraux.

En outre, ces algorithmes stochastiques possèdent d’importantes propriétés nouvelles, comme le montre l’analogie avec le recuit simulé. Une approche mathématique rigoureuse reste à établir.

En pratique, on se contente de constater que ces algorithmes convergent. On souhaite surtout en améliorer la rapidité. Les preuves mathématiques de convergence sont malheureusement trop abstraites pour donner des indices très utilisables. En prenant quelques précautions, ceux que l’on glane dans le cas de l’algorithme de gradient continu (cf. chp. 5) suffisent souvent à réduire significativement le temps d’apprentissage.

1 Bourrely J.: Parallelization of a Neural learning algorithm on a Hypercube - In “Hypercube and distributed computers”, Elsiever Science Publishing, North Holland (1989)

3.4 Application au problème de reconnaissance

Dans le document Applications à la reconnaissance de la Parole. (Page 71-74)

w

q

(w)

w

q

(w)

sing(C)

t

∇J(x,w) = ∇C(w) + ξ

ξ

σ

∇J(x,w)

w

q

w

ε

ε

∇J(x,w

)

w

q

(w

)

ε

q

(w

) ( ∇C(w

)+ξ ) ndw

q

n

q

-q

q

-q

= ∫

˚ ε

˚ d i v ˚ ( q

(w)∇C(w

) ˚dw = )

∫

˚ ( ∇ q

(w )∇ C(w )˚+˚q

(w )˚div ∇C(w )˚ ) ˚ ε

d w ˚ (3.49)

q

div∇C(w)

∇C(w)

q

(w)

div∇C(w)

∇C(w)

q

(w)

∇q∇C

∆q

(w)

-Kq

(w)

q

(w)

div∇C(w)

ε

∇q

(w)∇C(w) + q

(w) div∇C(w) = 0 (3.50)

div∇C(w)

q

(w)

∇C.

q

(w)

C

div∇C(w)

q

(w)

∇C.

q

(w)

C

) ( ^∇C(w

^)+ξ ) ^ndw

˚ d i v ˚ ( ^q

^(w)∇C(w

^{) ˚dw =} )

˚ ( ^∇ ^q

^{(w )∇} ^{C(w )˚+˚q}

^{(w )˚div} ^{∇C(w )˚} ) ^˚ ^ε

^{d w ˚} ^(3.49)