Triangle de Vauquois - Traduction automatique neuronale et littérature : Adaptation d’un systèm

Traduction automatique directe

Historiquement, ce sont les premiers systèmes à avoir été conçus. Un système direct est essentiellement un système basé sur un dictionnaire qui fait correspondre chaque mot de la langue source à son équivalent dans la langue cible.

Le système effectue d’abord une analyse morphologique à l’aide d’un dictionnaire monolingue afin d’attribuer une catégorie grammaticale à chaque mot. Il utilise

2. Source : wikipedia.org/wiki/File :Direct_translation_and_transfer_translation_pyramind.svg

ensuite un dictionnaire bilingue pour trouver les mots équivalents dans la langue cible. Les phrases dans la langue cible sont construites en remplaçant directement les chaînes de caractères de la langue source. Parfois, des changements de position sont également effectués afin de respecter l’ordre des mots dans la langue cible (Ju-rafsky et Martin, 2009). Autrement dit, les systèmes directs produisent une traduc-tion mot à mot, avec simplement une réorganisatraduc-tion de l’ordre des mots (Hutchins and Somers, 1992).

En pratique, ces systèmes sont conçus pour une seule paire de langues, et le seul traitement effectué est celui nécessaire pour passer d’une langue source spécifique à une langue cible spécifique. Aucune analyse syntaxique ou sémantique n’est ef-fectuée sur le texte de la langue source avant que sa traduction ne soit produite.

De plus, cette approche ne permet pas de résoudre les ambiguïtés ni de traiter les expressions métaphoriques. Ce type de système de traduction automatique est gé-néralement conçu pour traduire entre deux langues proches (Quah, 2006).

Cette approche est simple et peu coûteuse, mais les résultats obtenus sont médiocres et imitent les structures syntaxiques de la langue source. En conséquence, l’approche directs s’est révélée peu fiable et insuffisamment puissante (Jurafsky et Martin, 2009).

Systèmes indirects

Au lieu de traduire directement de la langue source à la langue cible, les systèmes indirects créent une représentation intermédiaire. Il existe deux types de systèmes indirects, lessystèmes par transfert et lessystèmes par interlangue. La différence entre eux repose sur le type de représentation intermédiaire qu’ils utilisent.

Traduction automatique par transfert

Les systèmes par transfert reposent sur le principe de la connaissance contrastive, c’est-à-dire sur les différences entre deux langues. Cette approche comporte trois phases : l’analyse, le transfert et la génération. La phase d’analyse vise à convertir le texte en langue source en une représentation abstraite en langue source. Cette repré-sentation est réalisée au moyen d’un arbre syntaxique qui représente la syntaxe de la langue source (Figure 2.2). Ensuite, la phase de transfert de la représentation en langue source vers sa représentation équivalente en langue cible a lieu. Elle trans-forme donc un arbre syntaxique, qui correspond à la description d’une phrase en

FIGURE2.2 – Exemple d’un arbre syntaxique

langue source, en un autre arbre syntaxique, qui correspond à la description syn-taxique d’une phrase en langue cible. Dans la dernière étape, un texte en langue cible est généré à partir de la représentation en langue cible.

Des dictionnaires spécifiques sont utilisés à chaque phase : un dictionnaire de la langue source au stade de l’analyse, un dictionnaire bilingue au stade du transfert et un dictionnaire de la langue cible au stade de la génération (Jurafsky et Martin, 2009).

L’approche par transfert n’est pas exempte de problèmes. Elle s’appuie sur des dic-tionnaires qui ne contiennent pas nécessairement toutes les connaissances néces-saires pour résoudre les ambiguïtés lexicales du transfert. Les systèmes par trans-fert reposent sur un ensemble de règles morphologiques, syntaxiques, sémantiques et contextuelles. En ce qui concerne la complexité de ces règles, il n’y a pas de limites et une myriade de règles, combinaisons et exceptions peuvent être codées. Dans la pratique, il semble toutefois qu’il existe un point où une plus grande complexité n’indique plus de meilleurs résultats. Au lieu de cela, des conflits internes et des règles contradictoires peuvent produire de nouvelles erreurs (Stein, 2003).

Traduction automatique par interlangue

Au lieu de transformer la structure et les mots d’une phrase source pour arriver à une phrase valide dans la langue cible, l’approche par interlangue traite la traduc-tion comme un processus d’extractraduc-tion de la significatraduc-tion de la phrase source et d’ex-pression de cette signification dans la langue cible au moyen d’une langue intermé-diaire universelle comme celle imaginée par Weaver. Le système par transfert peut

se passer de la connaissance contrastive et aller vers une représentation indépen-dante des langues par une compréhension plus profonde. Ce schéma présuppose donc l’existence d’une représentation du sens, une langue neutre ou interlangue, qui serait capable de représenter toutes les informations significatives de tous les énoncés dans toutes les langues (Jurafsky et Martin, 2009).

Une interlangue est destiné à servir d’intermédiaire entre les langues naturelles.

Lors de la phase d’analyse, un texte en langue source est analysé et transformé en une interlangue. Les phrases en langue cible sont produites à partir de cette inter-langue à l’aide de dictionnaires en inter-langue cible et de règles de grammaire lors de l’étape de génération (Quah, 2006). Il faut cependant procéder à une analyse exhaus-tive de la sémantique du domaine et formaliser celle-ci dans une ontologie, c’est-à-dire l’inventaire approprié des concepts et des relations pour une interlangue.

Le principal problème à surmonter pour un système par interlangue est de définir une représentation universelle qui puisse englober toutes les langues. Diverses pos-sibilités peuvent être explorées pour l’interlangue, y compris une langue artificielle ou formelle ; il pourrait également être basé sur des informations sémantiques ou syntaxiques de type dictionnaire (Lewis, 1992). Cette approche a fait couler l’encre, mais il n’y a jamais eu de méthodologie définitive pour parvenir à la création d’une véritable représentation neutre du langage. Toutefois, cela a changé avec la venue d’une nouvelle approche en TA, qui se sert de séquences de nombres en guise de langue intermédiaire pour représenter le langage, dont on parlera à la fin de ce cha-pitre.

2.2.2 Systèmes basés sur les corpus

Étant qu’il est difficile d’encoder toutes les règles manuellement, il vaut peut-être mieux apprendre à traduire à partir d’exemples de traductions passées. Au lieu de formuler des règles linguistiques et des exceptions, il est possible d’alimenter la machine avec les traductions déjà existantes (Koehn, 2020).

Les systèmes de TA basés sur les corpus reposent sur l’utilisation de corpus pa-rallèles. C’est-à-dire que les textes sont automatiquement traduits à l’aide d’infor-mations obtenues à partir d’exemples de traductions antérieures réalisées par des humains. Les approches de TA qui appartiennent à ce paradigme sont laTA basée sur l’exemple, laTA statistiqueet, depuis peu, laTA neuronale.

Traduction automatique basée sur l’exemple

Les systèmes basés sur l’exemple reposent sur le principe de traduire une phrase source en imitant la traduction d’une phrase similaire déjà présente dans une base de données (Sato et Nagao, 1990). Cette idée est également à l’origine des systèmes de mémoire de traduction qui stockent et retrouvent les traductions similaires pour un segment en langue source à traduire.

Un système de TA basé sur l’exemple nécessite un corpus bilingue de segments ali-gnés et utilise un algorithme pour faire correspondre l’exemple le plus proche d’un segment de langue source à son segment de langue cible comme base de traduction du nouveau texte source. Une paire de segments appariés est appelée un exemple (Quah, 2006).

Trois étapes constituent le processus de traduction d’un système basé sur l’exemple : la mise en correspondance des segments du texte source avec les paires d’exemples existantes extraites du corpus bilingue aligné, puis l’alignement des segments de traduction correspondants et leur recombinaison pour générer le texte en langue cible (Kit et al., 2002).

Un inconvénient de l’approche basée sur l’exemple est que celle-ci dépend forte-ment des exemples disponibles et que si les phrases en langue source sont très com-plexes, des règles doivent être ajoutées pour générer des phrases syntaxiquement et sémantiquement correctes. En d’autres termes, les systèmes basés sur l’exemple sont souvent étendus avec des règles qui visent principalement à réarranger la phrase en langue cible. On pourrait dire qu’un exemple n’est qu’un type particulier de règle de traduction, ce qui signifierait qu’il n’y a pas une différence essentielle entre les systèmes basés sur les règles et les systèmes basés sur l’exemple (Watanabe, 1992).

Plus on ajoute de règles aux systèmes basés sur l’exemple, plus ils ressemblent aux systèmes basés sur les règles. Pour cette raison, certains considèrent que les sys-tèmes basés sur l’exemple se situent à mi-chemin entre les approches basées sur les règles et les approches statistiques (Carl et Way, 2003).

Traduction automatique statistique

Une traduction parfaite, à la fois fidèle à la langue source et fluide dans la langue cible, est parfois impossible. Si l’on veut quand même produire une traduction, il

faut trouver un compromis. C’est exactement ce que font les traducteurs dans la pra-tique : ils produisent des traductions qui répondent moyennement aux deux critères.

Dans cette optique, l’objectif de la traduction peut être modélisé comme la produc-tion d’un résultat qui maximise une certaine foncproduc-tion de valeur représentative de l’importance de la fidélité et de la fluidité. Donc, le problème de la traduction peut être formalisé comme le produit de la fluidité et de la fidélité (Jurafsky et Martin, 1999). Pour ce faire, il faut quantifier la fidélité et la fluidité, et créer un algorithme permettant de trouver la phrase qui maximise le produit de ces deux éléments. Or, c’est exactement ce que fait l’approche statistique de la traduction automatique.

La TA statistique est composée de deux processus séparés : entraînement et dé-codage. Dans la phase d’entraînement, la fidélité et la fluidité sont formalisées au moyen du modèle de traduction et du modèle de langue, respectivement. L’algo-rithme qui permet de trouver une traduction à la fois fidèle et fluide est mis en œuvre lors de la phase de décodage.

La phase d’entraînement consiste à extraire le modèle de traduction d’un corpus pa-rallèle, et le modèle de la langue cible d’un corpus monolingue (Brown et al., 1993).

Le modèle de traduction ressemble un dictionnaire bilingue où chaque traduction possible pour un mot ou une phrase source donnée a une probabilité qui lui est asso-ciée. Le modèle de langue comprend une base de données de n-grammes en langue cible, chacune d’entre elles étant également associée à une probabilité. Ces modèles induits sont ensuite utilisés lors du décodage, le processus qui produira la traduc-tion à laquelle la probabilité globale la plus élevée a été attribuée selon les modèles de traduction et de langue (Hearne et Way, 2011). Le modèlenoisy-channelest utilisé à cet effet :

Traduction =argmax_T P(S|^T)·^P(T) (2.1) Le modèlenoisy-channelcomporte deux composants, P(S|T) et P(T) qui doivent être multipliés entre eux. Le premier composant, P(S|T), représente le modèle de tra-duction et détermine la probabilité que la phrase source S et la tratra-duction candidate T soient équivalentes sur le plan sémantique, à savoir que le sens exprimé dans S soit également capturé dans T. Le second composant, P(T), représente le modèle de langue et détermine la probabilité que la traduction candidate T soit une phrase

correcte - ou fluide - dans la langue cible. Cette approche pour la traduction auto-matique a été premièrement proposée par des chercheurs issus du domaine de la reconnaissance vocale (Brown et al., 1993).

Bien que le modèle noisy-channelsoit la méthode classique, il existe une autre for-mule disponible. Le modèlelog-linearpermet de réaliser exactement le même calcul que le modèlenoisy-channel:

Traduction=argmax_T

Â

m=1

l_m· ^fm(T,S) (2.2) Un avantage notable de cette alternative est la possibilité d’ajuster ou de paramétrer l’importance de chaque composant utilisé. Par exemple, on peut décider que le mo-dèle de traduction est deux fois plus important que le momo-dèle de langue et doit donc avoir deux fois plus de poids. Ce changement peut être effectué simplement en dou-blant la valeurldu modèle de traduction par rapport à celle du modèle de langue.

Le modèlelog-linears’est imposé comme le standard de facto, car il permet d’ajou-ter des composants supplémentaires en plus du modèle de langue et du modèle de traduction (Och et Ney, 2002).

La phase de décodage consiste à trouver la meilleure traduction en fonction de ces formules. En bref, une phrase source est décodée à partir du meilleur output du modèle de traduction, en le réordonnant à l’aide d’un modèle de réordonnance-ment, puis en le passant au modèle de langue pour former une phrase lisible. Ainsi, de nombreuses phrases possibles sont générées. Cependant, puisque le nombre de traductions possibles est immense, il s’avère nécessaire de trouver le meilleur out-put sans pour autant générer l’ensemble infini de toutes les traductions possibles.

La meilleure est choisie par le biais d’un algorithme de recherche, notamment au moyen de la méthode ditebeam-search, qui est devenue la norme de décodage pour la traduction automatique statistique. Le principe consiste à maintenir un nombre arbitraire de traductions possibles - unbeam- à tout moment du processus de traduc-tion. Cette restriction garantit que le temps d’exécution du système est raisonnable dans la pratique (Hearne et Way, 2011).

Il convient de préciser que l’approche que nous venons de décrire, bien qu’elle soit

souvent dénommée TAS, est en fait l’approche de traduction automatique tique basée sur les phrases. La TA basée sur les mots, la première approche statis-tique, analyse les données sur le plan des unités lexicales plutôt que sur celui des n-grammes. Cela veut dire qu’un mot dans la langue source doit correspondre à un mot dans la langue cible. Pour cette raison, cette approche ne permet pas de traiter les unités phraséologiques. (Stein, 2003). En raison de ce défaut parmi d’autres, cette approche a été remplacée par l’approche basée sur les phrases, laquelle est devenue si répandue que lorsqu’on entend le terme de traduction automatique statistique, il désigne en fait cette approche.

Une autre approche, la TA basée sur la syntaxe, repose sur l’idée de traduire des unités syntaxiques, plutôt que des mots isolés ou des n-grammes. Elle requiert une analyse syntaxique assez précise de la phrase, puis la construction d’un arbre syn-taxique. Ainsi, le système apprend à transformer les unités syntaxiques entre les langues et traduit le reste par mots ou phrases (Yamada et Knight, 2001). Bien avant l’émergence de la TA neuronale, la traduction basée sur la syntaxe était considérée comme l’avenir de la traduction automatique, mais elle n’a pas connu de succès.

Enfin, la TA hiérarchique basée sur les phrases combine les idées de la TA basée sur les phrases et de la TA basée sur la syntaxe (Koehn, 2010).

Traduction automatique neuronale

Le domaine de la traduction automatique a connu un bouleversement majeur au cours des dernières années. La TA statistique, qui a dominé la recherche pendant des décennies, a été largement remplacée par la traduction automatique neuronale en quelques années seulement. La traduction automatique neuronale ou TAN est une approche par apprentissage automatique qui utilise des réseaux de neurones artificiels pour transformer directement la phrase source en phrase cible.

Le processus comporte deux phases, l’encodage et le décodage. Lors de la phase de encodage, la phrase en langue source est analysée et encodée sous forme de une ma-trice composée d’une séquence de vecteurs, qui est une représentation numérique de la structure et du sens de la phrase. Ensuite, dans la phase de décodage, cette re-présentation est utilisée comme donnée d’entrée pour générer directement la phrase en langue cible (Stahlberg, 2020).

2.3 État actuel de la traduction automatique

La traduction automatique neuronale, la plus récente forme de traduction automa-tique basée sur des corpus, utilise pour son entraînement des corpus gigantesques contenant des centaines de milliers, voire des millions, de paires de segments de la langue source et de leurs traductions. En ce sens, elle est similaire à la traduction automatique statistique mais utilise une approche informatique entièrement diffé-rente : l’apprentissage automatique et, plus précisément, les réseaux de neurones artificiels.

L’apprentissage automatique est un domaine de l’intelligence artificielle qui permet à un système d’apprendre à partir de données plutôt que par programmation expli-cite. L’apprentissage automatique utilise un ensemble d’algorithmes qui apprennent de manière itérative à partir de données pour améliorer le rendement d’un système, classer des données et faire des prédictions. La plupart des techniques d’apprentis-sage automatique sont issues de la statistique, mais il en existe une qui est indépen-dante de cette discipline.

Le concept de réseau de neurones artificiels, inspiré des neurones du cerveau, est une architecture composée d’unités artificielles qui ressemblent aux neurones en ce sens que leur output et leur activation le degré d’excitation ou d’inhibition -dépendent des stimuli provenant d’autres neurones et de la force des connexions à travers lesquelles ces stimuli sont transmis (Forcada, 2017).

Un réseau de neurones peut se composer de milliers, voire de millions d’unités de traitement ou neurones, densément interconnectées. Les réseaux de neurones sont organisés en couches de neurones. Un réseau de neurones se compose de trois couches ou plus : une couche d’entrée, une ou plusieurs couches cachées et une couche de sortie. Les données sont reçues par la couche d’entrée. Ensuite, les don-nées sont modifiées dans la couche cachée et dans la couche de sortie en fonction des poids - les stimuli - appliqués aux neurones.

Les réseaux de neurones classiques ne comportaient pas plus de trois couches ca-chées. Ce n’est qu’avec l’arrivée des processeurs graphiques que l’on a pu envisager de multiples couches cachées dans un réseau de neurones.

L’apprentissage profond est une méthode spécifique d’apprentissage automatique qui fait appel à des réseaux de neurones composés de nombreuses couches cachées

afin d’apprendre à partir des données. Le terme d’apprentissage profond fait donc référence à la profondeur des couches du réseau. Chaque couche traite une dimen-sion différente de l’information qu’elle a reçue afin de la représenter. Par exemple, dans le cas de la reconnaissance d’images, l’image est déconstruite par les différentes couches de neurones, qui traitent chacune un trait distinct de l’image : contours, lignes, couleurs, entre autres. Les informations extraites sont ensuite rassemblées dans la dernière couche, dans laquelle la solution au problème est obtenue (Good-fellow et al., 2016). Plus le problème est complexe, plus il y aura de couches cachées dans le réseau.

En ce qui concerne la traduction automatique, le réseau de neurones est censé trans-férer les traits d’un texte écrit dans une langue donnée vers une autre. Admettons que le texte source soit un ensemble de traits spécifiques. En principe, un réseau de neurones va encoder ces traits et ensuite un autre réseau de neurones va les décoder pour les restituer dans un texte, mais dans une autre langue. Le premier réseau de neurones peut uniquement encoder la phrase vers l’ensemble spécifique de traits, et le second peut uniquement les décoder vers le texte. Les deux réseaux n’ont aucune idée l’un de l’autre, et chacun d’eux ne connaît que sa propre langue. Ce processus ressemble remarquablement à l’approche par interlangue. Maintenant, la question se pose de savoir comment ces traits sont représentés.

Les réseaux de neurones sont des ensembles de neurones connectés, qui sont

Dans le document Traduction automatique neuronale et littérature : Adaptation d’un système de traduction neuronal et analyse comparative de la traduction humaine et de la traduction automatique post-éditée (Page 21-0)