Architecture Transformer

2.2 Traduction automatique neuronale

8. https://paperswithcode.com/task/machine-translation_{. Consulté le}

2.2 Traduction automatique neuronale

2.2.4 Architecture Transformer

Vaswani et al. (2017) constatent plusieurs problèmes dans les architectures

encodeur-décodeur s’appuyant sur des cellules récurrentes :

— Premièrement, à cause de la nature même de ces cellules récurrentes, qui

nécessitent d’abord de calculerh

pour pouvoir ensuite calculerh

l’en-codage d’une séquence ne peut pas s’exécuter en parallèle et nécessiteO(n)

— Deuxièmement, bien que les cellules récurrentes soient capables de

modéli-ser des dépendances sur une longue distance, l’information disparaît toujours

progressivement à chaque fois qu’elle doit traverser une cellule, ce qui rend

difficile l’utilisation d’une information d’un bout à l’autre d’une séquence.

Afin de répondre à ces problèmes, les auteurs proposent une nouvelle

architec-ture de réseau neuronal appelée « Transformer », qui n’utilise aucune récurrence.

Elle repose essentiellement sur deux changements importants : (1) un nouveau

mécanisme d’attention appelé « attention multi-tête », et (2) une nouvelle façon

d’encoder la position d’un mot d’une séquence.

Figure 2.6 – Architecture Transformer. Figure issue de l’article deVaswani et al.

(2017).

La figure 2.6 illustre l’architecture Transformer dans son ensemble. Elle est

composée d’un encodeur (à gauche) et d’un décodeur (à droite) comme dans les

architectures vues précédemment.

Dans les sections suivantes, nous allons détailler le fonctionnement de

l’atten-tion multi-tête, du nouvel encodage des posil’atten-tions et des autres particularités du

Transformer. Pour finir, nous parlerons des nombreuses applications du

Transfor-mer dans les autres disciplines du TAL.

2.2.4.1 Attention multi-tête

Le mécanisme d’attention multi-tête est le composant central de l’architecture

Transformer. Illustré dans lafigure 2.7, il repose sur une formulation générale de

l’attention qui la définit comme un alignement entre une requête (queryouQ) et un

ensemble de paires de (clé, valeur) (keysetvaluesouK etV). Plus précisément,

l’attention se calcule comme une somme pondérée des valeurs, où chaque poids

associé à une valeur dépend d’une fonction entre la requête et la clé correspondante

à cette valeur.

Figure 2.7 – Attention multi-tête. Figure issue de l’article deVaswani et al.(2017).

Dans le cas de l’architecture encodeur-décodeur utilisée en TA, dans laquelle

on calcule une attention entre l’état courant d’un décodeur et tous les états d’un

encodeur,Qest le vecteur qui correspond au dernier état du décodeur, et K etV

sont tous les deux la même matrice qui correspond à tous les états de l’encodeur.

Dans le modèle Transformer, on calcule non seulement cette attention entre

l’encodeur et l’état courant du décodeur, mais aussi une attention au sein même de

l’encodeur, comme au sein même du décodeur, ce qui remplace les celulles

récur-rentes type LSTM ou GRU. Dans ce mécanisme, qu’on appelle « auto-attention »,

la requête est chaque élément de l’encodeur (ou du décodeur), et les clés et valeurs

sont toutes les sorties de ce même encodeur (ou décodeur).

Au niveau du calcul des poids de l’attention,Vaswani et al.(2017) introduisent

une nouvelle fonction appeléescaled dot-product attention, qui calcule l’attention

entre le vecteur de requête Q et deux vecteurs de clé et valeur K et V, avec la

formule suivante :

attention(Q, K, V) =sof tmax

QK

√

d

V

avecd

la dimension deQ,K etV (qui sont les mêmes).

L’ensemble du mécanisme d’attention est finalement appelé attention «

multi-tête », parce qu’il repose sur n têtes qui calculent chacune en parallèle un score

d’attention sur une portion des valeurs Q, K et V, qui sont ensuite concaténés.

Plus précisément, si par exemple la dimensiond

est de 512, et qu’on a huit têtes

d’attention (comme le modèle de base des auteurs), alors on calcule simultanément

l’attention entre huit portions du vecteur. Chaque portion est de taille 64 (512/8),

puis elles sont concaténées pour avoir en sortie un vecteur de taille 512.

Ainsi, avec le modèle Transformer, tous les vecteurs qui rentrent et sortent des

couches d’attention multi-tête doivent être de taille identique, et cette taille doit

être un multiple du nombre de têtes qui exécutent le calcul en parallèle.

2.2.4.2 Vecteurs de position

L’autre nouveauté principale de l’architecture Transformer, qui complète le

mé-canisme d’attention afin de pouvoir se passer entièrement des réseaux récurrents,

se situe au niveau de la manière d’encoder la position des éléments dans une

sé-quence.

Traditionnellement, dans les réseaux de neurones qui traitent des séquences, on

assigne un vecteur à chaque élément de la séquence en fonction de sa nature. Ainsi,

la séquence[a, b, b, c, a]a pour représentation vectorielle[v

, v

, v

, v

, v

_{pour pouvoir ensuite calculer}h

l’attention qui la définit comme un alignement entre une requête (query_ouQ_{) et un}

ensemble de paires de (clé, valeur) (keys_etvalues_ouK _etV_{). Plus précisément,}

encodeur,Q_{est le vecteur qui correspond au dernier état du décodeur, et} K _etV

une nouvelle fonction appeléescaled dot-product attention_{, qui calcule l’attention}

entre le vecteur de requête Q _{et deux vecteurs de clé et valeur} K _et V_{, avec la}

la dimension deQ_,K _etV _{(qui sont les mêmes).}

multi-tête », parce qu’il repose sur n _{têtes qui calculent chacune en parallèle un score}

d’attention sur une portion des valeurs Q_, K _et V_{, qui sont ensuite concaténés.}

_{est de 512, et qu’on a huit têtes}

l’attention entre huit portions du vecteur. Chaque portion est de taille 64 (512/8_),

la séquence[a, b, b, c, a]_{a pour représentation vectorielle}[v

]_{avant de}

la séquence[a, b, b, c, a]_{a pour représentation vectorielle}[v

]_{, les vecteurs}v

_etw

_{devant être de même dimension.}

uti-lisant les fonctions périodiquessinus_etcosinus_{avec plusieurs fréquences. L’idée}

Figure 2.8 – Encodage des positions avec les fonctionssinus_etcosinus_{. Figure}

issue de l’articleThe Annotated Transformer_.

forward network_{(FFN) réalise le calcul suivant :}

la dimension du vecteurx_{donné en entrée, et}d

_{est ainsi une matrice de dimension}d

_, b

_{est un vecteur de dimension}

_,W

_{est de dimension}d

_etb

_{est de dimension}d

_{. Ainsi, le résultat de}

F F N(x)_{est toujours de dimension}d