État actuel de la traduction automatique - Traduction automatique neuronale et littérature : Ad

La traduction automatique neuronale, la plus récente forme de traduction automa-tique basée sur des corpus, utilise pour son entraînement des corpus gigantesques contenant des centaines de milliers, voire des millions, de paires de segments de la langue source et de leurs traductions. En ce sens, elle est similaire à la traduction automatique statistique mais utilise une approche informatique entièrement diffé-rente : l’apprentissage automatique et, plus précisément, les réseaux de neurones artificiels.

L’apprentissage automatique est un domaine de l’intelligence artificielle qui permet à un système d’apprendre à partir de données plutôt que par programmation expli-cite. L’apprentissage automatique utilise un ensemble d’algorithmes qui apprennent de manière itérative à partir de données pour améliorer le rendement d’un système, classer des données et faire des prédictions. La plupart des techniques d’apprentis-sage automatique sont issues de la statistique, mais il en existe une qui est indépen-dante de cette discipline.

Le concept de réseau de neurones artificiels, inspiré des neurones du cerveau, est une architecture composée d’unités artificielles qui ressemblent aux neurones en ce sens que leur output et leur activation le degré d’excitation ou d’inhibition -dépendent des stimuli provenant d’autres neurones et de la force des connexions à travers lesquelles ces stimuli sont transmis (Forcada, 2017).

Un réseau de neurones peut se composer de milliers, voire de millions d’unités de traitement ou neurones, densément interconnectées. Les réseaux de neurones sont organisés en couches de neurones. Un réseau de neurones se compose de trois couches ou plus : une couche d’entrée, une ou plusieurs couches cachées et une couche de sortie. Les données sont reçues par la couche d’entrée. Ensuite, les don-nées sont modifiées dans la couche cachée et dans la couche de sortie en fonction des poids - les stimuli - appliqués aux neurones.

Les réseaux de neurones classiques ne comportaient pas plus de trois couches ca-chées. Ce n’est qu’avec l’arrivée des processeurs graphiques que l’on a pu envisager de multiples couches cachées dans un réseau de neurones.

L’apprentissage profond est une méthode spécifique d’apprentissage automatique qui fait appel à des réseaux de neurones composés de nombreuses couches cachées

afin d’apprendre à partir des données. Le terme d’apprentissage profond fait donc référence à la profondeur des couches du réseau. Chaque couche traite une dimen-sion différente de l’information qu’elle a reçue afin de la représenter. Par exemple, dans le cas de la reconnaissance d’images, l’image est déconstruite par les différentes couches de neurones, qui traitent chacune un trait distinct de l’image : contours, lignes, couleurs, entre autres. Les informations extraites sont ensuite rassemblées dans la dernière couche, dans laquelle la solution au problème est obtenue (Good-fellow et al., 2016). Plus le problème est complexe, plus il y aura de couches cachées dans le réseau.

En ce qui concerne la traduction automatique, le réseau de neurones est censé trans-férer les traits d’un texte écrit dans une langue donnée vers une autre. Admettons que le texte source soit un ensemble de traits spécifiques. En principe, un réseau de neurones va encoder ces traits et ensuite un autre réseau de neurones va les décoder pour les restituer dans un texte, mais dans une autre langue. Le premier réseau de neurones peut uniquement encoder la phrase vers l’ensemble spécifique de traits, et le second peut uniquement les décoder vers le texte. Les deux réseaux n’ont aucune idée l’un de l’autre, et chacun d’eux ne connaît que sa propre langue. Ce processus ressemble remarquablement à l’approche par interlangue. Maintenant, la question se pose de savoir comment ces traits sont représentés.

Les réseaux de neurones sont des ensembles de neurones connectés, qui sont dé-finis par leur comportement. Les unités neuronales utilisées en TAN fonctionnent en deux phases pour déterminer leur état d’activation. Dans la première phase, les états d’activation des neurones connectés à cette unité sont additionnés, mais cha-cun d’eux est d’abord multiplié par un poids qui représente la force et la nature de leur connexion. Ces poids peuvent être positifs ou négatifs : si le stimulus est reçu par une connexion ayant un poids positif, le neurone stimulé a tendance à ex-citer le neurone auquel il est connecté ; si le stimulus est reçu par une connexion ayant un poids négatif, le neurone stimulé a tendance à inhiber le neurone auquel il est connecté. Le résultat est un nombre qui peut prendre n’importe quelle valeur négative ou positive possible, mais qui n’est pas encore la valeur d’activation du neurone. Dans la seconde phase, une fonction d’activation met en correspondance les valeurs obtenues avec le neurone. Les valeurs d’activation sont généralement dé-limitées d’une certaine manière, par exemple entre 0 et 1 ou entre -1 et +1 (Forcada, 2017).

L’état d’activation de chaque neurone dans les réseaux de neurones est entraîné pour construire des représentations distributionnelles, soit les représentations de chacun des mots et de leurs contextes, à la fois dans la langue source en cours de trai-tement et dans la langue cible en cours de production. Une représentation est une sorte d’instantané des états d’activation de chaque neurone dans toutes les couches : il s’agit d’une liste de taille fixe - un vecteur - composée de valeurs comme suit :

[+0.3, 0, -0.23, +0.01, -0.99]

C’est ainsi que les traits sont représentés et l’output du système de traduction auto-matique est obtenu à partir de ces représentations. Le principe d’un vecteur est de représenter des informations comme un point dans un espace multidimensionnel ; chaque valeur de la liste représente une dimension. Ici, un vecteur qui représente des mots est appelé plongement lexical (Jurafsky et Martin, 2020).

Afin de mieux comprendre comment les vecteurs permettent de représenter les in-formations, on peut imaginer une pièce rectangulaire parfaitement alignée avec les points cardinaux. Il est possible de localiser tout point à l’intérieur de la pièce à par-tir de l’angle sud-ouest de la pièce - l’origine - au moyen de trois valeurs : combien de centimètres au nord, combien de centimètres à l’est et combien de centimètres au-dessus du sol. Ainsi, la position de l’ampoule de la lampe sur la table de nuit peut être représentée par un vecteur tridimensionnel, par exemple [70, 150, 87]. Les valeurs négatives correspondraient à l’extérieur de la pièce, au sud ou à l’ouest de celle-ci, ou encore au-dessous. Or, tout comme l’ampoule, les concepts - les mots, les phrases - peuvent être placés dans l’espace à l’intérieur de cette pièce : deux concepts similaires seraient idéalement proches l’un de l’autre et auraient donc des coordonnées similaires ; des concepts très différents seraient éloignés l’un de l’autre et auraient donc des coordonnées différentes.

L’idée du rapport entre la similarité de la distribution des mots et la similarité de leur signification est issue de l’hypothèse distributionnelle, selon laquelle les mots qui se trouvent dans des contextes similaires ont tendance à avoir des significa-tions similaires. L’approche vectorielle concrétise cette hypothèse linguistique par le fait d’apprendre les représentations du sens des mots, les plongements lexicaux, directement de leurs distributions dans les textes (Jurafsky et Martin, 2020). Ce qui explique l’appellation représentation distributionnelle.

FIGURE2.3 – Projection en trois dimensions des plongements lexicaux³

Trois dimensions ne suffisent pas pour assurer la richesse du langage : afin de re-présenter correctement les mots et les phrases, ainsi que les relations entre eux, de nombreuses autres dimensions sont nécessaires. Il est impossible pour les humains d’imaginer un espace comportant plus de trois dimensions, mais les mathématiques permettent d’aller bien au-delà, de sorte que le calcul et le stockage de ces représen-tations est une simple question de puissance informatique (Forcada, 2017).

Le réseau de neurones lit chaque phrase source pendant l’entraînement pour for-mer des représentations distributionnelles, de sorte que l’output obtenu à partir de celles-ci soit le plus proche possible des traductions de référence contenues dans les données d’entraînement. La phase d’entraînement du réseau de neurones vise donc à déterminer le poids ou la force de chacune des connexions entre les neurones afin d’obtenir les résultats souhaités (Koehn, 2020).

Lorsqu’un réseau de neurones est entraîné, tous ses poids et valeurs d’activation prennent initialement des valeurs aléatoires. Tout au long du processus d’entraîne-ment, les poids et les valeurs d’activation sont constamment ajustés jusqu’à ce que

3. Générée parEmbedding Projector: projector.tensorflow.org

les données d’entraînement produisent systématiquement des outputs similaires.

L’entraînement vise donc à trouver la valeur optimale pour chacun des poids du réseau. Les poids sont modifiés de telle sorte que la valeur d’une fonction d’erreur spécifique qui indique la distance entre les résultats de la traduction automatique et les traductions de référence soit aussi faible que possible (Forcada, 2017).

Le principe de base de la traduction automatique neuronale est donc l’utilisation d’un réseau encodeur qui prend une séquence d’entrée et en crée une représentation distributionnelle - un plongement lexical. Cette représentation est ensuite transmise à un décodeur qui génère une séquence de sortie (Jurafsky et Martin, 2020). Un sys-tème de TAN fonctionne dans une certaine mesure comme un syssys-tème de complé-tion de texte, qui est alimenté par une représentacomplé-tion de la phrase source, ou, plus précisément, par des représentations de chacun des mots de la phrase source dans leur contexte, fournies par l’encodeur du système. Pour sa part, le décodeur fournit, à chaque position de la phrase cible en cours de constitution et pour chaque mot possible dans le vocabulaire de la langue cible, la probabilité que ce mot soit la suite de ce qui a déjà été généré. La meilleure traduction est donc produite par le choix du mot le plus probable à chaque position (Forcada, 2017).

FIGURE2.4 – Architecture encodeur-décodeur simplifiée⁴

4. Source : laptrinhx.com/introduction-to-neural-machine-translation-nmt-3705749572

FIGURE 2.5 – Illustration du fonctionnement d’un réseau encodeur-décodeur⁵

À ce stade, la difficulté de générer la traduction optimale constitue un problème important. Dans l’idéal, nous aimerions trouver la phrase cible qui maximise la pré-diction du modèle en tant que traduction. Cependant, en raison de la taille insur-montable de l’espace de recherche, trouver la traduction avec la probabilité la plus élevée est peu réaliste. Comme indiqué précédemment, le même problème de re-cherche se pose dans la traduction automatique statistique. Dans la mesure où la méthode beam-search a été utilisée avec des résultats probants dans la TAS, elle a été adoptée pour la traduction automatique neuronale comme algorithme de recherche pour trouver la meilleure traduction (Tan et al., 2020).

L’architecture standard utilisée pour la TAN, le réseau encodeur-décodeur, peut être mis en œuvre avec RNNs ou avec Transformers. Un réseau neuronal récurrent ou RNN (recurrent neural network) est un réseau qui contient un cycle au sein de ses connexions. Plus précisément, un réseau où la valeur d’une unité neuronale dépend directement ou indirectement des outputs précédents au sein du réseau en guise de donnée d’entrée. Cependant, il est constaté que les performances de cette architec-ture se dégradent en fonction de la longueur de la phrase d’entrée (Cho et al., 2014).

L’architecture encodeur-décodeur avec RNNs a été presque immédiatement renfor-cée par un mécanisme appelé attention : le décodeur prête attention ou réagit non seulement à la dernière représentation fournie par l’encodeur mais aussi à toute la séquence de représentations créées lors de l’encodage (Bahdanau et al., 2015).

Les Transformers comportent des empilements de couches de réseaux constitués, pour leur part, de couches linéaires simples et de couches d’auto-attention (Juraf-sky et Martin, 2020). Le mécanisme d’attention prend en compte les associations entre chaque mot d’entrée et chaque mot de sortie, et les utilise pour produire une

5. Source : dataversity.net/neural-machine-translation-with-sequence-to-sequence-rnn/#

représentation vectorielle de l’ensemble de la séquence d’entrée. Cela dit, l’idée der-rière l’auto-attention consiste à appliquer cette approche à l’encodeur aussi. Au lieu de prendre en compte les associations entre les mots d’entrée et les mots de sor-tie, l’auto-attention considère les associations entre chaque mot d’entrée et tous les autres mots d’entrée. On peut dire que ce mécanisme raffine la représentation de chaque mot d’entrée en l’enrichissant avec les mots du contexte, ce qui facilite sa désambiguïsation (Koehn, 2020). L’architecture Transformer est actuellement consi-dérée comme l’état de l’art.

Outre les mécanismes d’attention et d’auto-attention, il reste quelques raffinements qui méritent d’être mentionnés.

Le consensus en traduction automatique veut que pour obtenir les meilleurs résul-tats, il faut que le système soit adapté à la tâche à accomplir. Il se peut que certaines des données d’entraînement soient plus pertinentes pour la tâche en question, et il faut donc une méthode pour privilégier ces données. Dans le contexte de la traduc-tion automatique, cette adaptatraduc-tion est appelée adaptatraduc-tion de domaine, et vise à créer un système de TA adapté à un domaine spécifique. Un domaine peut se définir de manière générale comme un ensemble de textes qui possèdent des caractéristiques similaires. Les catégories couramment utilisées pour classer les corpus sont le sujet, la modalité, le registre, l’intention et le style. En termes pratiques, cependant, un corpus donné est généralement issu d’une source spécifique (Koehn, 2020).

Comme mentionné précédemment, la TAN nécessite un corpus parallèle d’entraîne-ment très volumineux, généraled’entraîne-ment aussi volumineux que ceux qui sont utilisés en TAS. Cependant, la TAN n’a pas besoin de données d’entraînement monolingues, du fait qu’il n’y a plus un modèle de langue séparé, mais plutôt un modèle séquen-tiel intégré. Cependant, des données monolingues supplémentaires pourraient être utilisées pour créer des données parallèles si l’on crée artificiellement la moitié man-quante des données, à savoir au moyen de la traduction automatique. Le fait de coupler les données d’entraînement monolingues avec sa traduction automatique respective - également appeléeback-translationpermet de créer un corpus parallèle synthétique qui peut être utilisé comme des données parallèles d’entraînement sup-plémentaires. Il a été démontré que ce procédé permet d’obtenir des améliorations considérables de la qualité de la traduction automatique (Sennrich et al., 2016a). Par ailleurs, la technique de back-translation peut également répondre au problème de

l’adaptation à un domaine spécifique dans le cas où l’on ne disposerait que de don-nées monolingues dans la langue cible. La technique deback-translationpermet donc de créer un corpus synthétique dans le domaine en question, ce qui contribuera à obtenir des traductions adaptées au domaine visé (Koehn, 2020).

Enfin, la principale approche pour résoudre le problème des mots hors vocabulaire consiste à les décomposer en sous-mots. La méthode la plus répandue pour créer un répertoire de sous-mots et de mots est le byte pair encoding, une technique de segmentation qui regroupe les séquences de caractères fréquentes dans un corpus donné. Les formes primaires des mots sont ainsi divisées en racine et affixe, ce qui permet au système de TAN de ne retenir que les morphèmes dans son vocabulaire.

Cela permet de prévoir une marge de manœuvre pour les mots rares qui ne font pas partie du vocabulaire (Sennrich et al., 2016b). Par ailleurs, il est une pratique courante de recourir aubyte pair encodingpour la concaténation de la partie source et de la partie cible du corpus. Cela facilite la translittération des noms (Koehn, 2020).

3 Évaluation des systèmes de traduction automatique

Après avoir survolé les différentes approches de la TA à travers l’histoire, la question de savoir comment nous pouvons vérifier si nous progressons se pose. Pour ce faire, nous devons être capables de mesurer la qualité.

L’évaluation des systèmes de traduction automatique est un domaine de recherche essentiel, tant pour déterminer l’efficacité des systèmes de TA existants que pour optimiser les performances des systèmes de TA. Afin de progresser dans le domaine de la traduction automatique, il est nécessaire de mesurer la qualité de tout nouveau système par une évaluation systématique, de sorte que l’on puisse démontrer que le nouveau système est plus performant que les systèmes préexistants. La difficulté réside dans la définition d’un meilleur système. Lors de l’évaluation de la qualité d’une traduction, il n’y a pas une seule réponse correcte ; il peut y avoir un nombre quelconque de traductions correctes possibles.

Traditionnellement, il existe deux paradigmes d’évaluation de la traduction auto-matique : l’évaluation en boîte de verre et l’évaluation en boîte noire. L’évaluation en boîte de verre mesure la qualité d’un système en fonction des propriétés internes du système. L’évaluation en boîte noire examine uniquement l’output du système, sans le relier aux mécanismes internes du système de traduction (Dorr, 2009). Dans cette chapitre, l’accent sera mis sur l’évaluation en boîte noire.

Dans le cadre de l’évaluation en boîte noire, des métriques intrinsèques et extrin-sèques sont utilisées pour évaluer la qualité de l’output de la TA. Les métriques intrinsèques humaines déterminent la qualité par des jugements subjectifs humains de certaines caractéristiques de l’output. Les métriques intrinsèques automatiques calculent la similarité de l’output avec un ensemble fixe de traductions humaines de référence. Les métriques extrinsèques, également appelées métriques fondées sur

la tâche, testent l’efficacité de l’output de la TA par rapport à une tâche spécifique (Dorr, 2009).

Les méthodes d’évaluation de l’output des systèmes de TA peuvent être tout sim-plement classées en deux grandes catégories : l’évaluation humaine (Section 3.1) et l’évaluation automatique (Section 3.2). Chacune a ses propres avantages et incon-vénients et peut servir à atteindre des objectifs différents. Ce chapitre vise à pré-senter les méthodes d’évaluation regroupées dans ces deux grandes catégories ainsi qu’à mentionner les caractéristiques et les particularités de ces méthodes. Ensuite, nous parlerons brièvement de la corrélation entre les métriques d’évaluation auto-matiques et humaines (Section 3.3). Une brève conclusion (Section 3.4) est présentée à la fin.

3.1 Évaluation humaine

Puisque les systèmes de traduction automatique visent à reproduire les résultats de la traduction humaine, il serait logique d’utiliser les jugements humains pour éva-luer les résultats de la traduction automatique. Cependant, l’évaluation manuelle de la TA est coûteuse, chronophage et subjective par nature. Examinons maintenant les méthodes d’évaluation humaine qui sont utilisées pour évaluer les systèmes de traduction automatique.

Fidélité et fluidité

La première façon d’évaluer la qualité de la traduction automatique pourrait consis-ter à montrer aux personnes qui maîtrisent les langues source et cible des phrases accompagnées de leurs traductions automatiques et leur demander si les traduc-tions sont correctes. Cependant, le concept de correction peut être une trop vague.

Il est donc plus courant d’utiliser les critères de fluidité et de fidélité.

La fidélité fait référence à la quantité de sens exprimée dans une traduction de ré-férence qui est également exprimée dans une hypothèse de traduction. La fluidité fait référence à la bonne forme d’une hypothèse de traduction dans la langue cible, indépendamment du sens de la phrase (Koehn, 2020). En d’autres termes, une tra-duction fluide est une tratra-duction qui se lit bien et respecte les règles de la langue cible, et une traduction fidèle est une traduction qui reproduit parfaitement le sens

FIGURE3.1 – Exemples des échelles pour évaluer la fidélité et la fluidité (Koehn, 2020, p.46)

de la phrase source. Les deux critères sont évalués à l’aide d’une échelle numérique (Figure 3.1).

La fluidité ne concerne que la langue cible et est indépendante de la langue source,

Dans le document Traduction automatique neuronale et littérature : Adaptation d’un système de traduction neuronal et analyse comparative de la traduction humaine et de la traduction automatique post-éditée (Page 29-45)