RNN du type encodeur-décodeur bidirectionnel basé sur l’attention

3.2 Compréhension du langage naturel (NLU)

3.2.6 RNN du type encodeur-décodeur bidirectionnel basé sur l’attention

Les modèles de CRF, ont récemment été remplacés dans leur utilisation par les réseaux

de neurones profonds (RNN). Les RNN classiques sont des réseaux à connexions récurrentes

qui prennent en compte à un pas de temps t un certain nombre d’états passés. L’étude deLiu et Lane(2016) présente un RNN du type encodeur-décodeur bidirectionnel basé sur l’atten-tion (Att-RNN). Les tâches de détecl’atten-tion de l’intenl’atten-tion et de remplissage des attributs sont également effectuées simultanément. La figure 3.21 illustre ce système où la gauche de la ligne pointillée constitue la partie encodeur du système, la droite la partie décodeur, pour une phrase tirée du corpus ATIS.

Étant donné une séquence de mots w = (w0, w1, w2,··· , wT +1), une séquence d’attibuts

s = (s0, s₁, s₂,··· , s_{T +1}), et une séquence d’intentions c = (c0,c₁,c₂,··· ,c_{T +1}), à chaque pas de temps t, l’intention c est émise, lors de l’arrivée de la séquence de mots d’entrée w. L’in-tention générée à la dernière étape est utilisée comme prédiction d’inL’in-tention de la phrase complète. L’intention de sortie à chaque pas de temps est renvoyée à l’état RNN. Par consé-quent pour la classification d’intentions, cela conduit à l’équation suivante :

(CT|w) = P (CT|w≤T,c_≤T, s_≤T) (3.26)

Pour le remplissage des attributs, à chaque étape t au cours de la séquence de mots

3.2. Compréhension du langage naturel (NLU) 83

d’entrée, la sortie d’étiquette d’attribut est modélisée st comme une distribution condition-nelle sur les intentions précédentes c_<T, les étiquettes des attributs précédentes s_<T, et la séquence de mots d’entrée jusqu’au pas de temps t, ce qui conduit à l’équation :

P(s|w) = P(s0|w0) T Y t=1

P(st|w≤t,c_≤t, s_≤t) (3.27)

Un des avantages du RNN est la capacité de trouver le lien entre une séquence de source et de cible de longueurs différentes. Dans le contexte de prédiction des attributs, le modèle doit aligner les concepts avec les segments correspondants de la phrase. On n’aligne pas les intentions car on suppose qu’une phrase n’a qu’une seule intention. Le modèle RNN deLiu et Lane(2016) applique un alignement, où chaque mot est associé à un seul attribut.

FIGURE 3.21 – Modèle RNN du type encodeur-décodeur bidirectionnel basé sur attention (Liu et Lane,2016)

L’encodeur est un LSTM (Long Short Term Memory), un RNN composé d’unités LSTM. Le LSTM modélise mieux les dépendances longues (Long-terms Dependencies) que les RNN simples. Ce mécanisme peut contribuer à trouver des relations entre des concepts éloignés les unes des autres dans la phrase, pour mieux prédire les classes d’intentions. Le LSTM est une solution pour éviter ou réduire le problème du Vanishing Gradient (Chung et coll., 2014). L’unité LSTM peut mémoriser des valeurs grâce aux cellules de mémoire. La figure 3.22 montre l’unité LSTM de base : i , f et o sont respectivement la porte d’entrée, la porte d’oubli et la porte de sortie. c et ˜c sont respectivement la cellule de mémoire et la cellule de mémoire mise à jour. Chacune des portes agit comme un neurone dans le sens qu’elle utilise une fonction d’activation de la somme pondérée des entrées. De cette façon, elles contrôlent le flux de données qui passe par cette unité. Sur la figure, l’absence de l’attribution d’un at-tribut à un mot est marqué comme O.

Le fonctionnement du LSTM pour modéliser les dépendances longues peut être renforcé par le mécanisme de l’attention : au lieu d’utiliser seulement un état caché h_i à chaque pas, on utilise aussi le vecteur d’attention ci qui peut fournir une information additionnelle sur le contexte. Les états cachés du RNN contiennent l’information de toute la séquence mais l’information peut se perdre lors de la propagation. Le vecteur d’attention ci est un vecteur et somme de tous les états cachés de l’encodeur à l’instant i, pondérés avec des poids appris ce qui assure la prise en compte de l’attention pour les différents parties de la séquence.

FIGURE3.22 – Unité LSTM de base (Chung et coll.,2014)

TABLE3.9 – RNN - évaluation de la prédiction de concepts et d’intentions (%) (Liu et Lane, 2016)

Modèle Attributs(% F mesure) Intention (% Taux d’erreurs)

INDÉP 94.91 2.13

SIMULTANÉ 94.64 1.79

Par exemple, dans la phrase Ce restaurant sert de la cuisine italienne, il faut attribuer plus d’attention au mot italienne pour la prédiction de l’attribut nourriture.

Pour ce qui concerne le modèle RNN bidirectionnel du type encodeur-décodeur, l’enco-deur est constitué de deux parties : forward et backward. L’encol’enco-deur forward lit la séquence des jetons de gauche à droite et génère un état caché f hi à chaque itération i (le temps i va de 1 à T ). L’encodeur backward lit la même séquence de jetons de droite à gauche et génère un état caché bh_i à chaque itération i . Donc pour chaque pas du temps i , l’encodeur lit un mot x_i et émet un état caché h_i qui est une concaténation de f h_i et bh_i.

h_i= [ f hi,bh_i]

La partie décodeur est constituée de deux sous-parties : le décodage des attributs et le décodage de l’intention. Le décodage de l’intention est fait par un LSTM RNN. L’état initial du décodeur des attributs est calculé à partir du dernier état (qui contient l’information sur toute la séquence) de l’encodeur backward. À chaque instant i , l’état du décodeur si est calculé comme résultat d’une fonction qui reçoit en entrée l’état précédent du décodeur (s_{i −1}), l’état caché précédent du décodeur (h_i), la sortie précédente du décodeur (y_{i −1}, c’est-à-dire l’attribut précédent) et un vecteur d’attention c_i. La sortie de s_i est l’attribut prédit.

si= f (si −1, y_{i −1},hi,ci)

Pour évaluer les performances de ce modèle RNN, 4978 phrases du corpus ATIS ont été utilisées comme ensemble d’apprentissage et 893 phrases comme ensemble de test. Le ta-bleau 3.9 montre les performances pour la prédiction de concepts et la classification d’inten-tions, pour deux modèles séparément appris (Modèle INDÉP). Les performances au niveau de la classification de l’intention sont dépassées par un modèle où les attributs et les inten-tions sont appris simultanément (Modèle SIMULTANÉ).

Dans le document Apport des modèles neuronaux de bout-en-bout pour la compréhension automatique de la parole dans l'habitat intelligent (Page 83-86)