• Aucun résultat trouvé

4. Source : laptrinhx.com/introduction-to-neural-machine-translation-nmt-3705749572

FIGURE 2.5 – Illustration du fonctionnement d’un réseau encodeur-décodeur5

À ce stade, la difficulté de générer la traduction optimale constitue un problème important. Dans l’idéal, nous aimerions trouver la phrase cible qui maximise la pré-diction du modèle en tant que traduction. Cependant, en raison de la taille insur-montable de l’espace de recherche, trouver la traduction avec la probabilité la plus élevée est peu réaliste. Comme indiqué précédemment, le même problème de re-cherche se pose dans la traduction automatique statistique. Dans la mesure où la méthode beam-search a été utilisée avec des résultats probants dans la TAS, elle a été adoptée pour la traduction automatique neuronale comme algorithme de recherche pour trouver la meilleure traduction (Tan et al., 2020).

L’architecture standard utilisée pour la TAN, le réseau encodeur-décodeur, peut être mis en œuvre avec RNNs ou avec Transformers. Un réseau neuronal récurrent ou RNN (recurrent neural network) est un réseau qui contient un cycle au sein de ses connexions. Plus précisément, un réseau où la valeur d’une unité neuronale dépend directement ou indirectement des outputs précédents au sein du réseau en guise de donnée d’entrée. Cependant, il est constaté que les performances de cette architec-ture se dégradent en fonction de la longueur de la phrase d’entrée (Cho et al., 2014).

L’architecture encodeur-décodeur avec RNNs a été presque immédiatement renfor-cée par un mécanisme appelé attention : le décodeur prête attention ou réagit non seulement à la dernière représentation fournie par l’encodeur mais aussi à toute la séquence de représentations créées lors de l’encodage (Bahdanau et al., 2015).

Les Transformers comportent des empilements de couches de réseaux constitués, pour leur part, de couches linéaires simples et de couches d’auto-attention (Juraf-sky et Martin, 2020). Le mécanisme d’attention prend en compte les associations entre chaque mot d’entrée et chaque mot de sortie, et les utilise pour produire une

5. Source : dataversity.net/neural-machine-translation-with-sequence-to-sequence-rnn/#

représentation vectorielle de l’ensemble de la séquence d’entrée. Cela dit, l’idée der-rière l’auto-attention consiste à appliquer cette approche à l’encodeur aussi. Au lieu de prendre en compte les associations entre les mots d’entrée et les mots de sor-tie, l’auto-attention considère les associations entre chaque mot d’entrée et tous les autres mots d’entrée. On peut dire que ce mécanisme raffine la représentation de chaque mot d’entrée en l’enrichissant avec les mots du contexte, ce qui facilite sa désambiguïsation (Koehn, 2020). L’architecture Transformer est actuellement consi-dérée comme l’état de l’art.

Outre les mécanismes d’attention et d’auto-attention, il reste quelques raffinements qui méritent d’être mentionnés.

Le consensus en traduction automatique veut que pour obtenir les meilleurs résul-tats, il faut que le système soit adapté à la tâche à accomplir. Il se peut que certaines des données d’entraînement soient plus pertinentes pour la tâche en question, et il faut donc une méthode pour privilégier ces données. Dans le contexte de la traduc-tion automatique, cette adaptatraduc-tion est appelée adaptatraduc-tion de domaine, et vise à créer un système de TA adapté à un domaine spécifique. Un domaine peut se définir de manière générale comme un ensemble de textes qui possèdent des caractéristiques similaires. Les catégories couramment utilisées pour classer les corpus sont le sujet, la modalité, le registre, l’intention et le style. En termes pratiques, cependant, un corpus donné est généralement issu d’une source spécifique (Koehn, 2020).

Comme mentionné précédemment, la TAN nécessite un corpus parallèle d’entraîne-ment très volumineux, généraled’entraîne-ment aussi volumineux que ceux qui sont utilisés en TAS. Cependant, la TAN n’a pas besoin de données d’entraînement monolingues, du fait qu’il n’y a plus un modèle de langue séparé, mais plutôt un modèle séquen-tiel intégré. Cependant, des données monolingues supplémentaires pourraient être utilisées pour créer des données parallèles si l’on crée artificiellement la moitié man-quante des données, à savoir au moyen de la traduction automatique. Le fait de coupler les données d’entraînement monolingues avec sa traduction automatique respective - également appeléeback-translation- permet de créer un corpus parallèle synthétique qui peut être utilisé comme des données parallèles d’entraînement sup-plémentaires. Il a été démontré que ce procédé permet d’obtenir des améliorations considérables de la qualité de la traduction automatique (Sennrich et al., 2016a). Par ailleurs, la technique de back-translation peut également répondre au problème de

l’adaptation à un domaine spécifique dans le cas où l’on ne disposerait que de don-nées monolingues dans la langue cible. La technique deback-translationpermet donc de créer un corpus synthétique dans le domaine en question, ce qui contribuera à obtenir des traductions adaptées au domaine visé (Koehn, 2020).

Enfin, la principale approche pour résoudre le problème des mots hors vocabulaire consiste à les décomposer en sous-mots. La méthode la plus répandue pour créer un répertoire de sous-mots et de mots est le byte pair encoding, une technique de segmentation qui regroupe les séquences de caractères fréquentes dans un corpus donné. Les formes primaires des mots sont ainsi divisées en racine et affixe, ce qui permet au système de TAN de ne retenir que les morphèmes dans son vocabulaire.

Cela permet de prévoir une marge de manœuvre pour les mots rares qui ne font pas partie du vocabulaire (Sennrich et al., 2016b). Par ailleurs, il est une pratique courante de recourir aubyte pair encodingpour la concaténation de la partie source et de la partie cible du corpus. Cela facilite la translittération des noms (Koehn, 2020).

3 Évaluation des systèmes de traduction automatique

Après avoir survolé les différentes approches de la TA à travers l’histoire, la question de savoir comment nous pouvons vérifier si nous progressons se pose. Pour ce faire, nous devons être capables de mesurer la qualité.

L’évaluation des systèmes de traduction automatique est un domaine de recherche essentiel, tant pour déterminer l’efficacité des systèmes de TA existants que pour optimiser les performances des systèmes de TA. Afin de progresser dans le domaine de la traduction automatique, il est nécessaire de mesurer la qualité de tout nouveau système par une évaluation systématique, de sorte que l’on puisse démontrer que le nouveau système est plus performant que les systèmes préexistants. La difficulté réside dans la définition d’un meilleur système. Lors de l’évaluation de la qualité d’une traduction, il n’y a pas une seule réponse correcte ; il peut y avoir un nombre quelconque de traductions correctes possibles.

Traditionnellement, il existe deux paradigmes d’évaluation de la traduction auto-matique : l’évaluation en boîte de verre et l’évaluation en boîte noire. L’évaluation en boîte de verre mesure la qualité d’un système en fonction des propriétés internes du système. L’évaluation en boîte noire examine uniquement l’output du système, sans le relier aux mécanismes internes du système de traduction (Dorr, 2009). Dans cette chapitre, l’accent sera mis sur l’évaluation en boîte noire.

Dans le cadre de l’évaluation en boîte noire, des métriques intrinsèques et extrin-sèques sont utilisées pour évaluer la qualité de l’output de la TA. Les métriques intrinsèques humaines déterminent la qualité par des jugements subjectifs humains de certaines caractéristiques de l’output. Les métriques intrinsèques automatiques calculent la similarité de l’output avec un ensemble fixe de traductions humaines de référence. Les métriques extrinsèques, également appelées métriques fondées sur

la tâche, testent l’efficacité de l’output de la TA par rapport à une tâche spécifique (Dorr, 2009).

Les méthodes d’évaluation de l’output des systèmes de TA peuvent être tout sim-plement classées en deux grandes catégories : l’évaluation humaine (Section 3.1) et l’évaluation automatique (Section 3.2). Chacune a ses propres avantages et incon-vénients et peut servir à atteindre des objectifs différents. Ce chapitre vise à pré-senter les méthodes d’évaluation regroupées dans ces deux grandes catégories ainsi qu’à mentionner les caractéristiques et les particularités de ces méthodes. Ensuite, nous parlerons brièvement de la corrélation entre les métriques d’évaluation auto-matiques et humaines (Section 3.3). Une brève conclusion (Section 3.4) est présentée à la fin.

3.1 Évaluation humaine

Puisque les systèmes de traduction automatique visent à reproduire les résultats de la traduction humaine, il serait logique d’utiliser les jugements humains pour éva-luer les résultats de la traduction automatique. Cependant, l’évaluation manuelle de la TA est coûteuse, chronophage et subjective par nature. Examinons maintenant les méthodes d’évaluation humaine qui sont utilisées pour évaluer les systèmes de traduction automatique.

Fidélité et fluidité

La première façon d’évaluer la qualité de la traduction automatique pourrait consis-ter à montrer aux personnes qui maîtrisent les langues source et cible des phrases accompagnées de leurs traductions automatiques et leur demander si les traduc-tions sont correctes. Cependant, le concept de correction peut être une trop vague.

Il est donc plus courant d’utiliser les critères de fluidité et de fidélité.

La fidélité fait référence à la quantité de sens exprimée dans une traduction de ré-férence qui est également exprimée dans une hypothèse de traduction. La fluidité fait référence à la bonne forme d’une hypothèse de traduction dans la langue cible, indépendamment du sens de la phrase (Koehn, 2020). En d’autres termes, une tra-duction fluide est une tratra-duction qui se lit bien et respecte les règles de la langue cible, et une traduction fidèle est une traduction qui reproduit parfaitement le sens

FIGURE3.1 – Exemples des échelles pour évaluer la fidélité et la fluidité (Koehn, 2020, p.46)

de la phrase source. Les deux critères sont évalués à l’aide d’une échelle numérique (Figure 3.1).

La fluidité ne concerne que la langue cible et est indépendante de la langue source, de sorte qu’elle peut être évaluée par des juges monolingues. Pour évaluer la flui-dité, les évaluateurs bilingues peuvent juger la traduction produite en la comparant avec la phrase source ; s’il n’y a pas d’évaluateurs bilingues disponibles, les éva-luateurs monolingues peuvent utiliser une traduction de référence humaine afin de juger la traduction produite (Koehn, 2010). Cependant, il a été reconnu que cette pratique peut biaiser les résultats.

Bien que la fidélité et la fluidité soient évaluées séparément, les scores de fidélité et de fluidité des annotateurs montrent une corrélation élevée. En effet, les évaluateurs ont des difficultés à tirer un sens des traductions qui ne son pas fluides, ce qui les conduit à fournir des scores de fidélité faibles. De même, pour qu’une traduction exprime pleinement le sens d’une référence, elle doit également être parfaitement ou presque parfaitement fluide, car de légères modifications de l’ordre des mots et de la morphologie peuvent altérer considérablement le sens dans de nombreuses langues (Callison-Burch et al., 2007). Certains auteurs mentionnent aussi que la séparation entre la fidélité et la fluidité pose le problème de la recombinaison ultérieure des ces deux scores (Denkowski et Lavie, 2010).

Évaluation comparative

Étant donné qu’il est plus facile pour les évaluateurs humains de comparer des sys-tèmes que d’attribuer des scores absolus, l’évaluation comparative vise à résoudre les problèmes posés par la méthode précédente en remplaçant les échelles numé-riques arbitraires par des jugements relatifs (Vilar et al., 2007). Étant donné une tra-duction de référence et de multiples hypothèses de tratra-duction, les annotateurs sont invités à classer les traductions de la pire à la meilleure. Le classement des traduc-tions a l’avantage de permettre de faire des distinctraduc-tions fines entre des traductraduc-tions qui ne seraient pas possibles avec le jugement intuitif sur une échelle : les phrases qui ne diffèrent que par des mots ou structures équivalentes et qui auraient le même score de fidélité peuvent être facilement évaluées par comparaison (Denkowski et Lavie, 2010).

La méthode d’évaluation comparative donne des indicateurs simples permettant de déterminer quel système de TA est préféré à un autre. Nous comptons le nombre de fois où un système est mieux classé qu’un autre système comme un gain et l’in-verse comme une perte. Si les gains sont supérieurs aux pertes, un système est jugé meilleur (Koehn, 2020). Ces résultats peuvent être utilisés pour attribuer une note à chaque système participant afin de refléter la qualité des traductions automatiques, ainsi que la fréquence à laquelle un système est jugé meilleur ou pire que les autres systèmes lorsqu’ils sont comparés sur le même segment source (Han et Wong, 2016).

L’évaluation comparative peut cependant être déroutante lorsque les segments clas-sés sont presque identiques ou contiennent des erreurs difficiles à comparer. Les évaluateurs doivent décider quelles sont les erreurs qui ont le plus d’impact sur la qualité de la traduction (Denkowski et Lavie, 2010). De même, cette méthode pré-sente un inconvénient important : elle ne fait que déterminer quel système produit les meilleures traductions, mais ne dit rien sur la qualité absolue de ce système.

Évaluation directe

L’évaluation directe est une nouvelle méthode d’évaluation humaine qui a été ré-cemment introduite dans les campagnes d’évaluation de la TA. Au lieu d’utiliser les scores de 1 à 5 pour évaluer la fidélité et la fluidité, les évaluateurs humains sont in-vités à évaluer une traduction en utilisant une échelle de 100 points qui est présentée comme un curseur continu non marqué (Koehn, 2020).

Afin de résoudre le problème de l’accord entre évaluateurs, l’évaluation de la tra-duction, qui prend traditionnellement la forme d’une évaluation bilingue, est sim-plifiée en transformant la tâche en une évaluation monolingue.

L’évaluation directe de la fidélité consiste à donner un score à une traduction sur l’échelle mentionnée précédemment en fonction de la manière dont elle exprime fidèlement le sens de la traduction de référence correspondante. L’évaluation directe de la fluidité consiste à évaluer avec la même échelle la fluidité d’une traduction donnée dans la langue cible. Pour cette tâche, aucune traduction de référence n’est affichée dans le but d’éviter le biais causé par sa présence (Bojar et al., 2016).

De plus, une seule phrase traduite est évaluée à la fois, contrairement aux approches décrites précédemment. Étant donné que l’évaluation simultanée de plusieurs tra-ductions à la fois pourrait être une source de biais (Bojar et al., 2016), on considère que l’évaluation des traductions individuelles isolées des traductions produites par autres systèmes est un critère important lorsqu’on vise des jugements de qualité absolue.

Le fait de ne pas donner aux évaluateurs un ensemble prédéfini de scores possibles pour une traduction, à savoir une échelle de 1 à 5, permet d’établir des distinctions plus nuancées et de normaliser plus facilement les scores des différents évaluateurs par des moyens statistiques (Koehn, 2020).

Évaluation par post-édition

Au lieu d’obtenir directement des jugements absolus ou relatifs sur la qualité de la traduction, l’évaluation par post-édition vise à mesurer la quantité minimale d’édi-tion requise par un réviseur humain pour corriger une traducd’édi-tion automatique afin d’atteindre une niveau de qualité considéré acceptable.

La mesure de post-édition la plus largement utilisée est HTER ouHuman-targeted Translation Edit Rate (Snover et al., 2006). Le processus consiste à comparer la tra-duction automatique originale avec la version post-éditée en calculant le nombre de modifications réalisés par les post-éditeurs, qui comprennent l’insertion, la sup-pression et la substitution de mots isolés ainsi que le déplacement des séquences de mots.

Le HTER résout un problème qui se pose dans l’évaluation comparative et dans l’évaluation de la fidélité et la fluidité. Puisque les annotateurs n’attribuent pas de score, les décisions difficiles pour définir quels attributs sont importants pour une bonne traduction ou comment pénaliser sévèrement certaines erreurs sont entiè-rement évitées : les post-éditeurs doivent seulement corriger les traductions pour qu’elles soient fidèles et fluides.

De plus, l’évaluation par post-édition fournit deux sous-produits utiles : un en-semble supplémentaire de traductions de référence et un enen-semble de modifications permettant de repérer les éléments spécifiques qui ont été incorrectement traduits.

Ces deux produits sont très utiles pour le développement de systèmes de TA et l’analyse d’erreurs (Denkowski et Lavie, 2010).

L’inconvénient de l’évaluation par post-édition est le fait qu’elle dépend de mesures automatiques pour calculer la distance d’édition. La HTER hérite les faiblesses de la métrique TER : toutes les suppressions, insertions et substitutions ont la même va-leur. Les formes incorrectes de mots de base corrects comptent comme des substitu-tions entières, aucune distinction n’est faite entre les mots de contenu et de fonction, et la négation est souvent réduite à une seule insertion ou suppression d’un terme de négation (Snover et al., 2006).

Classification d’erreurs

Alors que toutes les méthodes d’évaluation précédentes fournissent des informa-tions très utiles, les chercheurs de TA trouvent souvent utile de disposer d’infor-mations supplémentaires sur les problèmes les plus significatifs d’un système de traduction, ses points forts et ses faiblesses. Il n’est pas facile de trouver un lien entre ces informations et les scores relatifs ou absolus de qualité.

La classification d’erreurs pourrait s’avérer utile pour répondre à ces questions.

Cette méthode d’évaluation consiste à identifier et à classer les erreurs concrètes dans un texte traduit à partir d’une taxonomie d’erreurs, un ensemble de types d’er-reurs clairement définis au préalable (Popovic, 2018).

Afin de quantifier le nombre d’erreurs spécifiques, il est nécessaire d’attribuer un coefficient à chaque erreur en fonction des conséquences qu’elle a sur la fidélité et la fluidité, de la difficulté de sa correction et du temps nécessaire pour la corriger (Trujillo, 1999).

Parmi les nombreuses taxonomies pour la classification d’erreurs nous pouvons ci-ter le SAE J24501, utilisé dans l’industrie automobile, le LISA QA Model2, utilisé dans le secteur de la localisation, ou le Multidimensional Quality Metrics3ou MQM, une taxonomie flexible qui permet aux utilisateurs de définir leurs propres critères pour l’évaluation de la qualité.

Critères pour une bonne méthode d’évaluation

En quoi une méthode d’évaluation humaine est-elle meilleure qu’une autre ? D’un point de vue pratique, elle doit avoir un faible coût : le coût peut être mesuré en temps ou en argent consacré à l’évaluation ; elle doit être significative : le résultat peut être interprété en termes de qualité de l’output ; elle doit être correcte : le résul-tat doit transmettre correctement la qualité réelle de l’output.

Enfin, nous voulons qu’une méthode d’évaluation soit cohérente - différents évalua-teurs utilisant la même méthode doivent arriver aux mêmes conclusions - et stable - un évaluateur doit donner le même score lorsqu’il est confronté plusieurs fois à la même tâche d’évaluation (Koehn, 2010). Ces deux derniers critères sont également connus sous le nom d’accord inter-évaluateur et accord intra-évaluateur.

Cependant, l’évaluation humaine de la TA est coûteuse et chronophage, et de na-ture également subjective. Il est donc difficile de parvenir à un degré élevé d’ac-cord intra-évaluateur et inter-évaluateur. Toutefois, étant donné que les jugements humains sont généralement considérés comme la référence que les systèmes d’éva-luation automatique devraient essayer d’approcher, la fiabilité et la cohérence des jugements humains sont très importantes.

Ce problème de subjectivité est atténué en demandant à un plus grand nombre d’ex-perts d’évaluer les traductions, et leurs évaluations sont finalement justifiées statis-tiquement. Le coefficient Kappa est l’une des méthodes statistiques les plus couram-ment utilisées pour atteindre cet objectif. Il est défini comme suit :

K= P(A) P(E)

1 P(E) (3.1)

1. apex-translations.com/documents/sae_j2450.pdf

2. docs.sdl.com/785465/788071/sdl-multitrans/the-lisa-qa-model 3. qt21.eu/mqm-definition/definition-2015-12-30.html

où P(A) est la proportion de fois où les évaluateurs sont d’accord et P(E) est la pro-portion de fois où les évaluateurs sont censés être d’accord à cause du hasard

où P(A) est la proportion de fois où les évaluateurs sont d’accord et P(E) est la pro-portion de fois où les évaluateurs sont censés être d’accord à cause du hasard