Conclusion - Traduction automatique neuronale et littérature : Adaptation d’un système de tradu

La post-édition est avant tout déterminée par le but visé du point de vue de la qua-lité. Puisque dans cette étude nous comparons la traduction à partir de zéro avec la traduction post-éditée d’un point de vue qualitatif, il sera demandé aux partici-pants d’effectuer une PE complète, tout comme si le texte était destiné à la publi-cation. Cependant, aucune ligne directrice de PE ne sera utilisée car cela pourrait ne pas convenir aux textes littéraires. En outre, la comparaison quantitative entre la traduction humaine à partir de zéro et la traduction automatique post-éditée sera effectuée au moyen de la mesure de l’effort temporel et technique.

5 Traduction automatique de textes littéraires

La traduction automatique de la littérature, historiquement, n’a pas suscité d’intérêt, car il semble évident que la TA n’est pas utile pour la traduction littéraire (Toral et Way, 2015b). Cependant, la communauté de la linguistique computationnelle fait preuve d’un intérêt pour le traitement automatique de textes littéraires depuis la création du séminaire annuelComputational Linguistics for Literatureen 2012.

Les études portant sur l’application de la TA aux textes littéraires sont restées néan-moins assez peu nombreuses et la plupart des sujets de recherche ne touchaient que les textes monolingues, tels que la détection automatique des métaphores (Shutova, 2013), des locutions (Li et Sporleder, 2009), de l’humour et de l’ironie (Reyes et al., 2013) ou de traits lexicaux et syntaxiques définissant un texte littéraire en tant que tel (van Cranenburgh et Bod, 2017). Toutefois, on constate un essor récent de l’intérêt pour la TA de textes littéraires depuis la première édition du séminaireQualities of Literary Machine Translation, qui s’est tenu en 2019. Depuis lors, davantage d’études ont été menées autour de la TA de la littérature, comme nous les présentons ci-dessous.

Ce chapitre vise à présenter l’état de l’art de la traduction automatique de textes littéraires (Section 5.1). Afin de mieux comprendre le contexte de notre recherche, nous allons à présent nous pencher sur la recherche académique effectuée dans le domaine. Une brève conclusion (Section 5.2) est présentée à la fin.

5.1 État de l’art

Genzel et al. (2010)

Genzel et al. ont imposé des contraintes à un système de TAS du français vers l’an-glais, afin de produire des traductions semblables à des poèmes, à savoir des tra-ductions conformes aux règles de longueur, de métrique et de rythme. La forme est maintenue au détriment de la qualité de la traduction ; le score BLEU passe de 35,3 à 17,3, soit une chute d’environ 50 % lorsque les règles sont préservées. Il est à noter que leur évaluation a été faite non pas sur la poésie mais sur des articles de presse, c’est-à-dire qu’ils ont produit des traductions de textes journalistiques qui obéissaient aux règles précitées de longueur, de métrique et de rythme. Toutefois, ce travail ne porte pas sur la viabilité de la TA comme aide à la traduction de la poésie.

Greene et al. (2010)

Greene et al. ont traduit de la poésie à partir de la sélection des productions en langue cible qui sont en conformité avec les modèles rythmiques souhaités par les auteurs. Plus précisément, des sonnets en italien de la Divine Comédie de Dante ont été traduits vers l’anglais sous la forme de pentamètres iambiques. Au lieu de contraindre le système de TAS, ils ont fait passer l’output du système à travers un module qui transforme les mots en séquences de syllabes accentuées et non accen-tuées. Enfin, ces séquences ont été triées à l’aide d’un accepteur de pentamètres iambiques. Les traductions produites ne sont néanmoins évaluées que d’un point de vue qualitatif.

Voigt et Jurafsky (2012)

Voigt et Jurafsky ont été parmi les premiers à se demander si la TA statistique était suffisamment développée pour envisager de l’utiliser pour la traduction d’œuvres littéraires. Ils ont étudié comment la cohésion référentielle se manifeste dans les textes littéraires et non littéraires - récits et articles de presse, respectivement - et comment cette cohésion affecte la traduction. Ils ont constaté que les textes littéraires utilisent des chaînes de référence plus denses - un nombre plus élevé de mentions par entité - pour exprimer une plus grande cohésion référentielle que les articles de presse. Ils ont ensuite comparé la cohésion référentielle des traductions humaines

FIGURE5.1 – Exemple de la perte de cohésion due à une référence in-consistante dans l’output de la TA (Voigt et Jurafsky, 2012)

et des traductions automatiques de récits littéraires du chinois vers l’anglais. Le système de TA statistique utilisé a eu du mal à restituer cette cohésion, ce qui est attribué au fait que le système traduit chaque phrase de manière isolée, alors que les traducteurs humains sont en mesure de recourir à des informations au-delà du niveau de la phrase (Figure 5.1). Les auteurs estiment que pour utiliser la TA sur les textes littéraires, le système de TA devrait être capable de prendre en considération les éléments du discours qui dépassent le niveau de la phrase.

Jones et Irvine (2013)

Jones et Irvine ont utilisé des systèmes généraliste de TAS - un système entraîné avec le corpus Hansard et la version statistique de Google Translate - pour traduire des échantillons de prose et de poésie françaises - un fragment du romanL’Étranger d’Albert Camus et un fragment du poèmeJardind’Yves Bonnefoy, respectivement -vers l’anglais. Ils ont ensuite effectué une analyse qualitative ancrée dans la théorie

de la traduction sur l’output des systèmes statistiques afin de déterminer les avan-tages potentiels de l’utilisation de la TA en traduction littéraire ainsi que les diffi-cultés spécifiques à la traduction littéraire, notamment le choix lexical, le contexte narratif, la traduction correcte des expressions idiomatiques, l’étrangerisation et la domestication de l’output de la TA. En guise de conclusion, les auteurs évoquent ces défis auxquels la TA est confrontée et les moyens possibles de les surmonter.

Besacier et Schwartz (2015)

Besacier et Schwartz font une étude pour déterminer si la traduction automatique et la post-édition peuvent être utilisées pour la traduction d’œuvres littéraires. Une nouvelle est traduite et post-éditée de l’anglais vers le français. Le résultat est en-suite révisé par des traducteurs non professionnels. Les auteurs présentent égale-ment une plateforme de post-édition où les lecteurs peuvent suggérer des correc-tions de la traduction. Il envisage une communauté de lecteurs post-éditeurs qui permettra l’amélioration continue de l’œuvre traduite ; il fait une analogie avec les fansubs, où des traducteurs non professionnels aident à sous-titrer leurs séries et films préférés.

Un système statistique développé à l’aide du toolkit Moses et entraîné avec un cor-pus de 25 millions de segments est utilisé. Toutefois, le système n’est pas adapté aux textes littéraires. Les auteurs présentent les scores d’évaluation automatique BLEU et le temps de post-édition pour chaque section de l’ouvrage. Une évaluation hu-maine est également fournie au moyen d’un questionnaire adressé à 9 lecteurs et de la contribution d’un écrivain et traducteur professionnel. Les auteurs ont trouvé que le processus était plus rapide que ne l’aurait été une traduction manuelle et les lec-teurs ont estimé que la qualité de la traduction était acceptable. Néanmoins, le tra-ducteur professionnel a trouvé que la traduction post-éditée comportait quelques faiblesses spécifiques telles que la persistance de la structure de la langue source dans le texte cible, la non-prise en compte des références culturelles ou du langage idiomatique.

En conclusion, les auteurs suggèrent que le pipeline traduction automatique plus post-édition pourrait être une alternative utile et à faible coût pour la traduction d’œuvres littéraires, bien qu’au détriment de la qualité de la traduction.

Toral et Way (2015a)

Toral et Way se sont penchés sur la question de la praticabilité de l’application de la TA à la traduction de textes littéraires. À cette fin, ils ont estimé la traductibilité des textes littéraires en mesurant le degré de deux concepts dans des corpus pa-rallèles : la liberté de traduction et l’étroitesse du domaine. Ils ont ensuite comparé cette traductibilité à celle d’autres ensembles de données couramment utilisés en TA : la documentation technique et les articles de presse. Les résultats ont montré que les romans sont moins prévisibles que les textes du domaine technique mais plus prévisibles que les articles de presse. En ce qui concerne la liberté de traduc-tion, la principale variable n’est pas liée au type de données mais à la proximité de la paire de langues en question.

Ils ont ensuite essayé d’adapter un système de TA pour traduire un roman entre deux langues proches, l’espagnol et le catalan. Il s’agit de la première fois que des systèmes de TA spécialisés ont été développés pour traduire des romans. Au moyen de métriques d’évaluation automatique, ils démontrent que la TA peut être utile pour aider à la traduction de romans entre deux langues proches. Les traductions produites par leur système sont identiques à celles qui sont produites par un tra-ducteur humain professionnel dans près de 20 % des cas, et un autre 10 % des cas ne requièrent pas plus de 5 modifications. Une évaluation humaine complémentaire montre que plus de 60 % des traductions sont perçues comme étant de même qua-lité par des locuteurs natifs. Pour terminer, les auteurs ont procédé à une analyse qualitative afin de déterminer quels types d’erreurs de traduction sont les plus fré-quentes.

Toral et Way (2015b)

Toral et Way examinent le poids des choix de traduction dans la traduction littéraire, notamment dans le contexte où les langues impliquées sont proches. Pour ce faire, ils traduisentL’Étrangerde Camus vers l’anglais et l’italien au moyen de la version statistique de Google Translate, puis effectuent une analyse qualitative de certains extraits précédemment étudiés par Jones et Irvine, ainsi qu’une analyse quantitative de l’ensemble du roman à l’aide des métriques d’évaluation automatique BLEU et TER. Ils arrivent à la conclusion que la TAS grand public a connu des progrès dans la mesure où, pour les fragments examinés, 6 % de modifications en moins sont

nécessaires en utilisant la version du système de TA disponible en ce moment, et que la post-édition des traductions entre langues proches devrait être plus facile à effectuer.

Pour finir, les auteurs utilisent un système statistique adapté à la prose littéraire pour traduire un roman de l’espagnol vers le catalan. Les auteurs évaluent le po-tentiel de cette approche par l’analyse de la qualité de traduction de plusieurs seg-ments représentatifs : un sous-ensemble de qualité moyenne atteinte par la TA, un sous-ensemble de qualité faible et un sous-ensemble de qualité élevée. Pour chacun d’entre eux, ils analysent les principales erreurs produites par la TA et indiquent dans quelle mesure il serait souhaitable de les post-éditer pour arriver à la traduc-tion de référence.

Almahasees et Mustafa (2017)

Almahasees et Mustafa ont pour objectif de déterminer la capacité des très récentes versions neuronales de Google Translate et de Microsoft Bing Translator à traduire le livreLe Prophètede Khalil Gibran de l’arabe vers l’anglais. Pour ce faire, il se servent de la métrique d’évaluation automatique BLEU. Une analyse additionnelle a mon-tré que l’output de la TA de textes littéraires arabes était imprécis, inintelligible et non fluide en raison de l’abondance de métaphores et de références culturelles dans le texte source. Certaines erreurs lexicales et syntaxiques sont également constatées, ainsi que des imprécisions sémantiques. L’étude a également montré que les deux systèmes fournissent une traduction identique pour certains segments. Dans cer-tains cas, les deux systèmes obtiennent de bons résultats sur le plan des mots, mais de mauvais résultats quant aux collocations.

Pour conclure, les auteurs recommandent de mener une étude qui combine les mé-thodes d’évaluation humaine et automatique afin de garantir une analyse optimale des résultats de la TA pour la traduction littéraire.

Ghazvininejad et al. (2018)

Ghazvininejad et al. proposent un système de TA neuronale pour traduire de la poé-sie du français vers l’anglais qui respecte les modèles de rythme et de rime définis

par l’utilisateur. Ils prennent la traduction française deLa Ballade de la geôle de Rea-dingd’Oscar Wilde comme donnée d’entrée, et le poème original de Wilde comme référence humaine.

Ils utilisent un modèle RNN encodeur-décodeur pour générer une traduction des poèmes sans contraintes. Ensuite, ils utilisent cette traduction comme point de dé-part pour le processus de traduction avec contraintes. Pour ce faire, les mots qui apparaissent dans la traduction sans contraintes sont privilégiés lors de la phase de décodage de la traduction avec contraintes.

Pour appliquer la contrainte de rythme, ils ont créé un automate accepteur qui en-registre toutes les séquences de mots qui respectent les critères de la contrainte de rythme. Pour appliquer la contrainte de rime, ils ont divisé le vocabulaire en caté-gories de rimes et ont créé un automate accepteur pour chaque catégorie.

Pour finir, ils ont mené une évaluation humaine par comparaison et la qualité est considérée comme acceptable dans 78 % des segments.

Toral et Way (2018)

Toral et Way estiment que, en raison du fait que la traduction automatique neuronale est capable de mieux faire face aux textes riches au niveau lexical (Bentivogli et al., 2016), la TAN serait davantage en mesure de traduire les textes littéraires que les systèmes de traduction automatique statistique. Pour tester cela, ils ont créé un système de TAN anglais-catalan adapté à la prose littéraire et l’ont comparé avec un système statistique. Ils ont entraîné les deux systèmes avec un grand corpus de romans alignés - plus de 100 millions de mots - et les ont évalués sur un ensemble de douze romans très célèbres, qui couvrent la période des années 1920 à nos jours.

Selon la métrique d’évaluation automatique BLEU, la TAN est nettement meilleure que la TAS dans tous les romans en question. Globalement, la TAN obtient une amélioration relative de 11 % par rapport à la TAS.

Par la suite, ils ont analysé l’effet de trois éléments sur les résultats : la richesse lexicale, le nombre de segments inconnus par rapport aux données d’entraînement et la longueur moyenne des phrases. Ce n’est que pour ce dernier élément qu’ils ont trouvé une corrélation significative avec l’amélioration relative de la TAN par rapport à la TAS, ce qui confirme que la qualité des résultats de la TAN décroît en fonction de la longueur de la phrase.

Pour conclure, ils ont mené une évaluation humaine par comparaison des traduc-tions produites par les systèmes de TAN et de TAS, ainsi que des traductraduc-tions hu-maines, qui a montré que le système neuronal est plus performant que le système statistique. Entre 17 % et 34 % des traductions produites par la TAN, contre 8 % et 20

% de celles qui sont produites par la TAS, sont perçues par les locuteurs natifs de la langue cible comme étant de qualité équivalente aux traductions produites par un traducteur professionnel.

Toral et al. (2018)

Encouragés par les résultats obtenus dans Toral et Way (2018), les auteurs ont décidé de les approfondir dans le cadre de cette étude. Toral et al. ont mené la première expérience dans laquelle un fragment de roman est traduit par un système de TA, suivi d’une post-édition par des traducteurs professionnels. Plus précisément, ils ont traduit un chapitre deWarbreakerde l’anglais vers le catalan au moyen des mêmes systèmes de TAS et de TAN adaptés au domaine, utilisés dans Toral et Way (2018).

Lors de l’expérience de post-édition, six traducteurs professionnels avec une expé-rience préalable en traduction littéraire ont traduit des sections du chapitre précité dans trois conditions en alternance : à partir de zéro, par post-édition avec TAS et par post-édition avec TAN. Ils ont enregistré le temps nécessaire pour traduire chaque segment, les frappes de clavier utilisées, ainsi que le nombre de pauses et leur du-rée, ce qui leur a permis de les analyser dans les logs de traduction et d’étudier dans quelle mesure la post-édition avec TAS et TAN affecte l’effort temporel, technique et cognitif.

En ce qui concerne l’effort temporel, les systèmes de TAS et de TAN ont permis d’augmenter considérablement la productivité de la traduction - mesurée en mots par heure - de 18 % et 36 %, respectivement, par rapport à la traduction à partir de zéro. Ces résultats indiquent que l’output de la TAN est plus rapide à post-éditer que celui des systèmes statistiques. En outre, ils ont constaté que le gain obtenu avec la TAS reste stable quelle que soit la longueur de la phrase source, tandis que le gain obtenu avec la TAN décroît en fonction de la longueur de la phrase.

Concernant l’effort technique, le nombre de frappes de clavier utilisées avec la TAN a entraîné une diminution importante de 23 % par rapport aux 9 % de la TAS. Tout

comme pour l’effort temporel, la diminution du nombre de frappes de clavier nue avec le TAS reste stable pour toutes les phrases, tandis que la diminution obte-nue avec la TAN décroît pour les phrases longues. Enfin, ils ont constaté que la dis-tribution des types de frappes - frappes de contenu, de navigation et d’effacement - diffère considérablement. Par rapport à la traduction à partir de zéro, le nombre de frappes de contenu est largement inférieur pour la post-édition, tandis que le nombre de frappes de navigation et d’effacement augmente significativement.

Quant à l’effort cognitif, mesuré au moyen des pauses et de leur durée, ils ont constaté que la TAN et la TAS ont réduit sensiblement le nombre de pauses, soit 42 % et 29 % respectivement. Cependant, les pauses sont bien plus longues lors de la post-édition - 14 % avec la TAS et 25 % avec la TAN - que dans le cas de la traduc-tion à partir de zéro. Pour finir, ils ont constaté que les pauses prennent une partie plus importante du temps total de traduction lors de la post-édition.

Moorkens et al. (2018)

Moorkens et al. examinent les perceptions des traducteurs lors de l’expérience de Toral et al. (2018), qu’ils ont consignées au moyen de questionnaires avant et après l’expérience ainsi que d’une séance de débriefing, pour ensuite comparer ces per-ceptions aux résultats obtenus dans l’étude précitée.

Il a été constaté que tous les participants étaient plus rapides lors de la post-édition avec la TAN, mais ils ont tous indiqué une préférence pour la traduction à partir de zéro, car ils se sont sentis moins limités et ont pu faire preuve de plus de créativité.

Ils ont déploré le fait que les systèmes de TA les conditionnent à produire une tra-duction littérale, et ont estimé que la segmentation en phrases était problématique, car elle entraîne la difficulté de traduire sans contexte.

En ce qui concerne la comparaison des systèmes de TA, les participants ont trouvé que l’output de la TAN était plus fluide et fidèle. Les deux systèmes ont rencontré

Dans le document Traduction automatique neuronale et littérature : Adaptation d’un système de traduction neuronal et analyse comparative de la traduction humaine et de la traduction automatique post-éditée (Page 66-85)