Le résultat (3.47) n’est pas complètement satisfaisant. Les points singuliers peuvent en effet être des maxima locaux, des points selles, ou même de mauvais minima locaux.
Voici un ensemble “d’intuitions physiques”, qui tendent à montrer qu’avec le temps, la probabilité que
w
t augmente au voisinage d’un minimum local, et diminue au voisinage d’un maximum local.Notons
q
t(w)
la densité de probabilité dew
t. On sait que sous certaines hypothèses, le théorème (3.47) s’applique, et donc que le support deq
t(w)
tend verssing(C)
lorsquet
tend vers l’infini.On considérera, en première approximation, que
∇J(x,w) = ∇C(w) + ξ
où
ξ
est un bruit gaussien de varianceσ
2. Cette variance est en général non nulle, sauf lorsque tous les∇J(x,w)
sont égaux pour unw
donné, et en particulier lorsqu’ils admettent un même minimum local.Entourons un point quelconque d’une petite boule (cf fig 3.2), et notons
q
t la probabilité quew
t appartienne à cette boule. Supposons également queε
t est assez petit pour queε
t∇J(x,w
t)
soit faible devant le diamètre de la boule. Seuls alors sont susceptibles d’entrer ou de quitter la boule lesw
t proches de la surface de la boule.Fig 3.2- Deux points entourés d’une boule. A gauche un point ordinaire. A droite, un maximum local. Les flèches représentent les flux des gradients.
Chaque point de la surface possède une densité
q
t(w
s)
. Il est responsable d’un accroissement infinitésimalε
tq
t(w
s) ( ∇C(w
s)+ξ ) ndw
s de la probabilitéq
t de notre boule, oùn
est le vecteur normal à la surface de la boule. L’accroissement moyenq
t+1-q
t est donc proportionnel à la moyenne du flux de ces produits à travers la surface de la boule, c’est à dire:q
t+1-q
t= ∫
B˚ ε
t˚ d i v ˚ ( q
t(w)∇C(w
s) ˚dw = )
∫
B˚ ( ∇ q
t(w )∇ C(w )˚+˚q
t(w )˚div ∇C(w )˚ ) ˚ ε
td w ˚ (3.49)
L’équation (3.49) permet de deviner l’évolution de
q
t.• Autour d’un minimum local,
div∇C(w)
, est fortement positif. De plus,∇C(w)
est a peu près nul. Si elle est non nulle, la densitéq
t(w)
augmente.• Autour d’un maximum local,
div∇C(w)
, est fortement négatif. De plus,∇C(w)
est a peu près nul. Si elle est non nulle, la densitéq
t(w)
décroît. Le terme∇q∇C
peut alors être négligé, et on a alors∆q
t(w)
≈-Kq
t(w)
. La décroissance deq
t(w)
est donc exponentielle vers 0 !• Autour d’un point selle, le signe de
div∇C(w)
reste indéterminé. On ne peut pas dire grand chose.Supposons maintenant que
ε
t décroisse assez lentement pour que l’on ait, comme dans le cas du recuit simulé [1], une équilibre quasi-statique. On a alors une équation d’équilibre:∇q
t(w)∇C(w) + q
t(w) div∇C(w) = 0 (3.50)
On sait de plus que la densité est faible au voisinage des maxima, et forte au voisinage des minima.
On peut alors tirer des conclusions sur les gradients de probabilité.
• Lorsque la courbure est positive,
div∇C(w)
est positif. Si la densitéq
t(w)
n’est pas nulle, son gradient est de sens opposé à∇C.
En intégrant, on remarque que la densitéq
t(w)
est soit nulle, soit d’autant plus forte queC
est faible. Cela est vrai en particulier sur les minima locaux.• Lorsque la courbure est négative,
div∇C(w)
est négatif. Si la densitéq
t(w)
n’est pas nulle, son gradient est de même sens que∇C.
La densitéq
t(w)
devrait être d’autant plus forte queC
est fort. Mais cela devrait aussi être vrai pour les maxima locaux, et nous avons vu qu’il n’en est rien. On en déduit que la densité est nulle.
On remarque que le système est en équilibre instable si la densité au voisinage d’un minimum est identiquement nulle. Or, l’approximation stochastique a introduit un terme de bruit,
ξ
, qui rendait impossible le confinement desw
t. Ce même terme de bruit, lorsque sa variance n’est pas nulle, élimine cet équilibre instable de la densité.1 Kirkpatrick S., Gelatt C.D.Jr, Vecchi M.P.: Optimisation by Simulated Annealing - Science, vol 220, N° 4598, pp 671-680, (1983)
Au fur et à mesure que l’algorithme converge, le support de cette densité converge vers l’ensemble des points singuliers de
C
, avec une probabilité nulle sur les maxima, et avec une probabilité sur les minima d’autant plus forte que la valeur deC
y est faible.On constate donc un phénomène comparable à celui du recuit simulé: L’algorithme a tendance à converger vers de bons minima locaux. C’est en fait la perte de la propriété de confinement qui nous apporte cette bonne nouvelle, maintes fois confirmée par l’expérience [1], et d’une utilité pratique certaine (cf §5.1).
Une formalisation plus rigoureuse et plus satisfaisante de ces raisonnements semble cependant difficile à établir. Il faudrait, en toute rigueur, introduire des outils pour traiter l’aléatoire stochastique dans ces équations. De plus, comme pour le recuit simulé, il n’est pas très rigoureux de supposer que notre système évolue de façon “quasi-statique”.
3.3.3 Conclusion
L’enjeu de l’étude mathématique de la convergence des algorithmes de descente stochastique de gradient est de taille: Il s’agit de prouver simultanément la convergence d’un très grand nombre d’algorithmes connexionnistes ou statistiques, présents ou futurs. La méthode de Lyapunov et les propriétés des quasi-martingales permettent d’aborder ce problème ardu, et d’énoncer des théorèmes de convergence généraux.
En outre, ces algorithmes stochastiques possèdent d’importantes propriétés nouvelles, comme le montre l’analogie avec le recuit simulé. Une approche mathématique rigoureuse reste à établir.
En pratique, on se contente de constater que ces algorithmes convergent. On souhaite surtout en améliorer la rapidité. Les preuves mathématiques de convergence sont malheureusement trop abstraites pour donner des indices très utilisables. En prenant quelques précautions, ceux que l’on glane dans le cas de l’algorithme de gradient continu (cf. chp. 5) suffisent souvent à réduire significativement le temps d’apprentissage.
1 Bourrely J.: Parallelization of a Neural learning algorithm on a Hypercube - In “Hypercube and distributed computers”, Elsiever Science Publishing, North Holland (1989)