• Aucun résultat trouvé

B.5 Apprentissage profond hybride

B.5.2 R´ esultats de la simulation

B.5.2.1 Tˆ ache et ensemble de donn´ ees

Nous sommes int´eress´es `a montrer que notre RNN hybride classique-quantique propos´e peut fonctionner de la mˆeme fa¸con qu’un RNN classique dans les tˆaches de d´ependance s´equentielle `a long terme, avec un besoin de calcul potentiellement exponentiellement moindre. Pour cela, nous choisirons une tˆache similaire `a la tˆache pixels permut´es de MNIST, un benchmark standard pour les capacit´es m´emoire `a long terme des architectures RNN [121] [38].

Nous afficherons des r´esultats sur l’ensemble de donn´ees Fashion-MNIST [198] [199]. Le choix de cet ensemble de donn´ees est motiv´e par le fait qu’il est similaire `a l’ensemble de donn´ees bien connu du MNIST (mˆemes dimensions d’entr´ee, et mˆemes nombres d’exemples d’entraˆınement, de validation et de test), mais il est plus difficile. La tˆache que nous consid´erons consiste d’abord `a permuter les pixels d’entr´ee des images (en utilisant la mˆeme permutation pour l’ensemble entier des donn´ees). Les pixels sont ensuite entr´es un par un et le syst`eme doit classer la s´equence r´esultante. Cette tˆache (Fashion-MNIST) est la mˆeme que la tˆache pixels permut´es MNIST (mais utilise un autre ensemble de donn´ees). Afin de r´eduire le temps d’entraˆınement (en particulier pour la simulation des syst`emes hybrides classiques-quantiques), nous effectuerons ´egalement des simulations o`u nous r´eduirons la taille de l’ensemble d’entraˆınement.

Pour simplifier le probl`eme de devoir produire des sorties du RNN quantique, nous

simplifierons ´egalement les tˆaches pour ne distinguer que 2 classes de Fashion-MNIST. Cela simplifie le probl`eme de produire une sortie `a partir de l’espace en tr`es haute dimension du RNN quantique. Dans le mˆeme temps, nous essaierons de choisir les 2 classes les plus difficiles `a distinguer, afin que les diff´erences entre les capacit´es des diff´erents RNN deviennent plus faciles `a distinguer et moins affect´ees par le bruit inh´erent `a l’initialisation des param`etres al´eatoires, `a la proc´edure d’entraˆınement, etc.

Nous utiliserons donc les classes 4 (repr´esentant des manteaux) et 6 (repr´esentant des chemises) dans cette tˆache [198]. Quelques exemples d’images de ces classes peuvent ˆetre vues dans la figure B.9 et la figure B.10. Les ensembles d’entraˆınement varieront de 1000 images pour chaque classe jusqu’`a 5000 images pour chaque classe (correspondant au total de 2000 et 10000 images d’entraˆınement). Les ensembles de validation contiennent 1000 images de chaque classe. Ces deux ensembles sont compos´es d’images choisies au hasard sans remplacement sur l’ensemble de la s´erie d’entraˆınement originale (de 6000 images pour chaque classe). Nous conservons l’ensemble du jeu de test non modifi´e (compos´e de 1000 images de chaque classe).

Figure B.9 – Exemples de manteaux de Fashion-MNIST

Figure B.10 – Exemples de chemises de Fashion-MNIST

B.5.2.2 D´etails des syst`emes

Dans cette sous-section, nous d´ecrivons les d´etails des syst`emes que nous avons simul´es, `a savoir le LSTM classique de r´ef´erence et notre proposition hybride classique-quantique.

B.5.2.2.1 LSTM classique de r´ef´erence Comme base de r´ef´erence classique, nous avons utilis´e une architecture LSTM (Long Short-Thort-Term Memory) `a couche unique [112], sans aucune connexion de type peephole. Pour pr´edire la probabilit´e de la premi`ere des deux classes, nous calculons le produit scalaire entre l’´etat `a la derni`ere ´etape temporelle hT et un vecteur de mˆeme dimension des param`etres r´eels entraˆınables v (qui

contient les poids de la couche de sortie) et interpr´etons le r´esultat comme un logit. La fonction de perte que nous utilisons est la perte logistique.

Nous avons v´erifi´e de mani`ere empirique que cette approche fonctionne de mani`ere similaire `a l’approche habituelle qui consiste `a utiliser une fonction de sortie softmax et de perte d’entropie crois´ee (sans perte significative de la pr´ecision de la pr´ediction).

Nous initialisons tous les poids LSTM `a l’aide d’un initialiseur orthogonal [166] et initialisons les biais des portes d’oubli `a 1, afin de faciliter l’apprentissage des d´ependances

`

a long terme, comme sugg´er´e par exemple dans [122]. L’´etat initial h0 est initialis´e `a 0 et le reste des biais sont initialis´es `a 0. Les poids et les biais de la couche en sortie sont initialis´es, par souci de simplicit´e, en utilisant une distribution gaussienne (moyenne 0 et variance 1).

B.5.2.2.2 Syst`eme hybride classique-quantique Nous avons utilis´e la mˆeme initialisation pour l’hyper-RNN classique (LSTM) dans notre proposition de syst`eme que pour la r´ef´erence classique LSTM. Les composantes r´eelles et imaginaires de la couche de sortiev dans l’eq. B.4 ont ´et´e initialis´ees en utilisant une distribution gaussienne tronqu´ee avec une moyenne 0 et un ´ecart-type 0,01. Les poids Wl dans l’eq. B.6 sont initialis´es `a 0 et les biaisbl `a 1.

Pour tous les r´esultats que nous rapportons, nous avons utilis´e les valeursm+ = 0.7 et m= 0.3 pour la fonction de perte de marge de notre proposition. Ces valeurs semblaient donner les meilleurs r´esultats dans nos essais limit´es de recherche d’hyperparam`etres.

B.5.2.2.3 Param`etres communs Pour l’optimisation, nous avons utilis´e ADAM [125] avec les hyperparam`etres par d´efaut (y compris le taux d’apprentissage 0,001) `a la fois pour la r´eference classique et pour notre proposition de syst`eme. Pour les deux syst`emes, l’´ecrˆetage de gradient par norme globale [152] est utilis´e, avec norme globale 5.

Pour la plupart des param`etres de tˆache, nous utilisons des lots de taille 100 (sauf indication contraire). L’optimisation est toujours ex´ecut´ee pour 100 ´epoques. La validation est effectu´ee tous les 10000 exemples. Nous conservons la meilleure pr´ecision de validation et la pr´ecision de test correspondante.

Pour le syst`eme LSTM de r´ef´erence, nous essayerons plusieurs configurations pour chaque tˆache. Nous doublons le nombre d’unit´es pour chaque nouvelle configuration, ce qui correspond `a environ 4 fois plus de param`etres entraˆınables. L’augmentation du nombre d’unit´es augmente la m´emoire r´ecurrente et l’augmentation du nombre de param`etres entraˆınables conduit `a des mod`eles plus expressifs, mais ´egalement `a un risque accru de surapprentissage et `a un coˆut de calcul plus ´elev´e. Pour chaque configuration du syst`eme de r´ef´erence, nous entraˆınons le syst`eme plusieurs fois (correspondant `a diff´erentes graines al´eatoires - random seed - `a partir desquelles les param`etres entraˆınables sont initialis´es) pour chaque syst`eme avec un nombre fixe d’unit´es et s´electionnons le syst`eme r´esultant avec

la meilleure pr´ecision sur l’ensemble de validation, pour lequel nous rapportons ´egalement la pr´ecision de test. Ceci est une configuration plus difficile pour notre proposition de syst`eme, car le syst`eme de r´ef´erence a plusieurs chances d’obtenir de bonnes performances, alors que notre proposition aura une seule chance.