Tˆ ache et ensemble de donn´ ees - R´ esultats de la simulation

B.5 Apprentissage profond hybride

B.5.2 R´ esultats de la simulation

B.5.2.1 Tˆ ache et ensemble de donn´ ees

Nous sommes intéressés à montrer que notre RNN hybride classique-quantique proposé peut fonctionner de la même fa¸con qu’un RNN classique dans les tâches de dépendance séquentielle à long terme, avec un besoin de calcul potentiellement exponentiellement moindre. Pour cela, nous choisirons une tâche similaire à la tâche pixels permutés de MNIST, un benchmark standard pour les capacités mémoire à long terme des architectures RNN [121] [38].

Nous afficherons des résultats sur l’ensemble de données Fashion-MNIST [198] [199]. Le choix de cet ensemble de données est motivé par le fait qu’il est similaire à l’ensemble de données bien connu du MNIST (mêmes dimensions d’entrée, et mêmes nombres d’exemples d’entraˆınement, de validation et de test), mais il est plus difficile. La tâche que nous considérons consiste d’abord à permuter les pixels d’entrée des images (en utilisant la même permutation pour l’ensemble entier des données). Les pixels sont ensuite entrés un par un et le système doit classer la séquence résultante. Cette tâche (Fashion-MNIST) est la même que la tâche pixels permutés MNIST (mais utilise un autre ensemble de données). Afin de réduire le temps d’entraˆınement (en particulier pour la simulation des systèmes hybrides classiques-quantiques), nous effectuerons également des simulations où nous réduirons la taille de l’ensemble d’entraˆınement.

Pour simplifier le probl`eme de devoir produire des sorties du RNN quantique, nous

simplifierons également les tâches pour ne distinguer que 2 classes de Fashion-MNIST. Cela simplifie le problème de produire une sortie à partir de l’espace en très haute dimension du RNN quantique. Dans le même temps, nous essaierons de choisir les 2 classes les plus difficiles à distinguer, afin que les différences entre les capacités des différents RNN deviennent plus faciles à distinguer et moins affectées par le bruit inhérent à l’initialisation des paramètres aléatoires, à la procédure d’entraˆınement, etc.

Nous utiliserons donc les classes 4 (représentant des manteaux) et 6 (représentant des chemises) dans cette tâche [198]. Quelques exemples d’images de ces classes peuvent être vues dans la figure B.9 et la figure B.10. Les ensembles d’entraˆınement varieront de 1000 images pour chaque classe jusqu’à 5000 images pour chaque classe (correspondant au total de 2000 et 10000 images d’entraˆınement). Les ensembles de validation contiennent 1000 images de chaque classe. Ces deux ensembles sont composés d’images choisies au hasard sans remplacement sur l’ensemble de la série d’entraˆınement originale (de 6000 images pour chaque classe). Nous conservons l’ensemble du jeu de test non modifié (composé de 1000 images de chaque classe).

Figure B.9 – Exemples de manteaux de Fashion-MNIST

Figure B.10 – Exemples de chemises de Fashion-MNIST

B.5.2.2 D´etails des syst`emes

Dans cette sous-section, nous décrivons les détails des systèmes que nous avons simulés, à savoir le LSTM classique de référence et notre proposition hybride classique-quantique.

B.5.2.2.1 LSTM classique de référence Comme base de référence classique, nous avons utilisé une architecture LSTM (Long Short-Thort-Term Memory) à couche unique [112], sans aucune connexion de type peephole. Pour prédire la probabilité de la première des deux classes, nous calculons le produit scalaire entre l’état à la dernière étape temporelle h_T et un vecteur de même dimension des paramètres réels entraˆınables v (qui

contient les poids de la couche de sortie) et interpr´etons le r´esultat comme un logit. La fonction de perte que nous utilisons est la perte logistique.

Nous avons vérifié de manière empirique que cette approche fonctionne de manière similaire à l’approche habituelle qui consiste à utiliser une fonction de sortie softmax et de perte d’entropie croisée (sans perte significative de la précision de la prédiction).

Nous initialisons tous les poids LSTM à l’aide d’un initialiseur orthogonal [166] et initialisons les biais des portes d’oubli à 1, afin de faciliter l’apprentissage des dépendances

a long terme, comme suggéré par exemple dans [122]. L’état initial h0 est initialisé à 0 et le reste des biais sont initialisés à 0. Les poids et les biais de la couche en sortie sont initialisés, par souci de simplicité, en utilisant une distribution gaussienne (moyenne 0 et variance 1).

B.5.2.2.2 Système hybride classique-quantique Nous avons utilisé la même initialisation pour l’hyper-RNN classique (LSTM) dans notre proposition de système que pour la référence classique LSTM. Les composantes réelles et imaginaires de la couche de sortiev dans l’eq. B.4 ont été initialisées en utilisant une distribution gaussienne tronquée avec une moyenne 0 et un écart-type 0,01. Les poids Wl dans l’eq. B.6 sont initialisés à 0 et les biaisb_l à 1.

Pour tous les résultats que nous rapportons, nous avons utilisé les valeursm⁺ = 0.7 et m⁻= 0.3 pour la fonction de perte de marge de notre proposition. Ces valeurs semblaient donner les meilleurs résultats dans nos essais limités de recherche d’hyperparamètres.

B.5.2.2.3 Paramètres communs Pour l’optimisation, nous avons utilisé ADAM [125] avec les hyperparamètres par défaut (y compris le taux d’apprentissage 0,001) à la fois pour la réference classique et pour notre proposition de système. Pour les deux systèmes, l’écrêtage de gradient par norme globale [152] est utilisé, avec norme globale 5.

Pour la plupart des paramètres de tâche, nous utilisons des lots de taille 100 (sauf indication contraire). L’optimisation est toujours exécutée pour 100 époques. La validation est effectuée tous les 10000 exemples. Nous conservons la meilleure précision de validation et la précision de test correspondante.

Pour le système LSTM de référence, nous essayerons plusieurs configurations pour chaque tâche. Nous doublons le nombre d’unités pour chaque nouvelle configuration, ce qui correspond à environ 4 fois plus de paramètres entraˆınables. L’augmentation du nombre d’unités augmente la mémoire récurrente et l’augmentation du nombre de paramètres entraˆınables conduit à des modèles plus expressifs, mais également à un risque accru de surapprentissage et à un coût de calcul plus élevé. Pour chaque configuration du système de référence, nous entraˆınons le système plusieurs fois (correspondant à différentes graines aléatoires - random seed - à partir desquelles les paramètres entraˆınables sont initialisés) pour chaque système avec un nombre fixe d’unités et sélectionnons le système résultant avec

la meilleure précision sur l’ensemble de validation, pour lequel nous rapportons également la précision de test. Ceci est une configuration plus difficile pour notre proposition de système, car le système de référence a plusieurs chances d’obtenir de bonnes performances, alors que notre proposition aura une seule chance.

Dans le document Contributions to handwriting recognition using deep neural networks and quantum computation (Page 171-174)