Sommaire de la Partie II - Autour De L'Usage des gradients en apprentissage statistique

Introduction 153

Présentation de la preuve 155

11 Modifications pour le changement d’échelle de temps 157 12 Opérateur d’égalisation des normes, opérateur de réduction et

produit tensoriel 165

13 Vecteurs spécifiques à « NoBackTrack » 171

14 Application de la propriété centrale à l’algorithme « NoBackTrack » 179

15 Ensemble de convergence de l’algorithme « NoBackTrack » 183 16 Contrôle probabiliste des trajectoires de l’algorithme «

Introduction

L’algorithme « NoBackTrack » a été introduit dans l’article “Training recurrent networks online without backtracking”¹. Ainsi que nous le disions en introduction, il préserve la propriété d’être en ligne de l’algorithme RTRL, mais requiert une capacité mémoire bien plus faible. En effet, l’algorithme RTRL maintient une différentielle (ou une approximation d’une différentielle) de taille la dimension de l’espace des états multipliée par la dimension du paramètre, ce qui est prohibitif dès que le système d’apprentissage est moyennement grand (dans l’échelle des systèmes utilisés actuellement).

L’algorithme « NoBackTrack » réduit drastiquement le coût en mémoire en main-tenant une estimation de rang 1 de la différentielle mentionnée. L’estimée est calculée de manière probabiliste, de manière à ce que la mise à jour de la différentielle soit une estimée non biaisée de la mise à jour RTRL. Nous prouvons ci-dessous que le recours à cette estimation ne modifie pas le comportement asymptotique de l’algorithme, par rapport à celui de RTRL.

Une version plus simple algorithmiquement de « NoBackTrack » a été produite, appelée « UORO », pour « Unbiased Online Recurrent Optimization »². La preuve que nous présentons, même si elle traite le cas « NoBackTrack », est presque immé-diatement transposable à « UORO », de sorte que les garanties qu’elle apporte sont également valables pour ce dernier.

1. Ollivier, Tallec et Charpiat, “Training recurrent networks online without backtracking”, art. cit.

Présentation de la preuve

L’algorithme « NoBackTrack » est appliqué au même système dynamique que l’algorithme RTRL. Il utilise les mêmes pertes, et le même opérateur de mise à jour du paramètre. Il remplace les estimées des différentielles des états par rapport au paramètre utilisées par RTRL, par des estimées aléatoires de rang un. Pour cela, l’algorithme « NoBackTrack » maintient un couple de vecteurs que nous appelons « vecteurs spécifiques à « NoBackTrack » », dont le produit tensoriel fournit l’ap-proximation de rang un. Ces vecteurs sont mis à jour grâce à un opérateur que nous appelons opérateur de réduction. Celui-ci est construit de telle sorte que la mise à jour de l’approximation de la différentielle utilisée par « NoBackTrack » est égale, en moyenne sur le choix d’un ensemble de signes aléatoires, à la mise à jour utilisée par l’algorithme RTRL.

La différence entre la mise à jour de la différentielle utilisée par RTRL et celle de l’estimée calculée par « NoBackTrack » peut ainsi s’écrire sous la forme d’un bruit perturbant la mise à jour des différentielles dans RTRL. « NoBackTrack » s’interprète donc comme un algorithme RTRL bruité. Les calculs algébriques impliquant le bruit de la preuve de convergence de l’algorithme RTRL sont donc toujours valables pour le bruit particulier produit par « NoBackTrack ». En revanche, nous ne savons pas

a priori que celui-ci est borné.

L’objet de la preuve de convergence de « NoBackTrack » est ainsi d’établir que la perturbation aléatoire qu’il introduit par rapport à RTRL n’empêche pas la conver-gence. Tant que le bruit est borné, les résultats valables pour l’algorithme RTRL bruité sont directement applicables à « NoBackTrack ». Le fait que le bruit reste effectivement borné est en revanche une propriété spécifique de l’algorithme « No-BackTrack », que nous établissons au cours de la preuve. L’argument est que les écarts successifs aux mises à jour RTRL sont non corrélés, conditionnellement à l’instant courant. Ainsi, par exemple, pour un pas de descente η constant, la somme des écarts au bout d’un temps T est de l’ordre de grandeur de η√

T , alors que le

terme de contractivité est en η T , de sorte que l’erreur (la somme des écarts) sera absorbée par celui-ci.

Afin de contrôler le terme de bruit dû à la mise à jour des différentielles de « No-BackTrack », nous effectuons quelques modifications des hypothèses d’optimalité, introduites au chapitre 6 pour l’algorithme RTRL. En effet, les pertes doivent être un peu plus petites, afin que le terme de bruit introduit par « NoBackTrack » soit

bien négligeable devant la somme des pas. Il faut de plus que les intervalles I_ksoient un peu plus longs, afin que la probabilité de convergence soit arbitrairement proche de un³.

La preuve procède ainsi en six temps, correspondant chacun à un chapitre. 1. La modification des hypothèses d’optimalité.

2. L’étude de l’opérateur de réduction.

3. L’étude des vecteurs spécifiques à « NoBackTrack ».

4. L’application de la propriété centrale à l’algorithme « NoBackTrack ». 5. La convergence sur un ensemble bien choisi de l’algorithme « NoBackTrack ». 6. Le contrôle probabiliste du bruit de « NoBackTrack ».

Les chapitres sur l’opérateur de réduction et l’étude des vecteurs spécifiques sont des chapitres techniques. Les deux chapitres suivants sont une reprise des chapitres correspondant de RTRL. En particulier, seules les modifications par rapport à RTRL sont détaillées. Enfin, le dernier chapitre est le chapitre où les arguments cruciaux qui justifient la convergence de « NoBackTrack » sont exposés.

3. Dans la preuve de convergence de RTRL, nous avions supposé que la contribution du bruit sur les intervalles Ik était négligeable devant la somme des pas. Ici, nous démontrons que cela est bien le cas, au prix d’un léger renforcement des hypothèses.

Chapitre

11 _{Modifications pour le}

change-ment d’échelle de temps

11.1 Jonction avec la preuve sur RTRL

Nous étudions le même système dynamique que dans la partie sur l’algorithme RTRL. Ainsi, nous supposons valables les chapitres 4 à 7. Nous effectuons toutefois quelques modifications pour le chapitre 6 : nous supposons les pertes un peu plus petites que pour la partie RTRL. Nous devons le faire afin de contrôler des termes d’erreur un peu plus gros, qui sont ceux dûs au bruit généré par « NoBackTrack ». Le chapitre courant expose alors les modifications du chapitre 6 que nous considérons. Le reste du chapitre 6 est inchangé.

Toutes les notations utilisées dans cette partie, et qui ne sont pas définies dans celle-ci, sont celles de la partie sur l’algorithme RTRL.

11.2 Modifications du contrôle des sommes des pas sur

Dans le document Autour De L'Usage des gradients en apprentissage statistique (Page 158-164)