Traduction automatique - Traduction automatique neuronale et littérature : Adaptation d’un syst

Afin de déterminer le système à utiliser pour la post-édition, nous avons procédé à une évaluation automatique de l’output de six systèmes de TA⁴, que nous présen-tons maintenant.

Probablement le service de traduction automatique le plus utilisé, Google Translate⁵ couvre 109 langues et a débuté comme système de traduction statistique en 2006.

3. surveymonkey.com/r/SWN75JW

4. L’output des systèmes de TA a été produit le 03.08.2021.

5. translate.google.com, consulté le 02.08.2021

Une décennie plus tard, Google a introduit un système de traduction automatique neuronal. Il est assez simple à utiliser et offre le plus grand éventail de langues.

À l’inverse, DeepL⁶ne couvre que 24 langues. Lancé en 2017, il s’agit d’un système de traduction automatique neuronal entraîné avec la base de données Linguee, un dictionnaire multilingue en ligne qui contient des textes de haute qualité, géré par la même société. Il a été dit que ce système saisit mieux les nuances de la langue et fournit une traduction plus naturelle, et qu’il est plus précis et mieux nuancé que Google Translate⁷.

Le système Yandex.Translate⁸ couvre 98 langues. Il est en principe un système de traduction automatique statistique, mais il est devenu en 2017 un système hybride qui utilise à la fois l’approche statistique et neuronale. Fait curieux, la langue elfique de Tolkien figure parmi les langues proposées par le système.

Apertium⁹ est une plateforme de traduction automatique open-source, disponible sur GitHub. Ce système à base de règles permet de traduire 40 paires de langues.

Il s’agissait au départ d’un projet développé en Espagne, avec la participation du gouvernement et de plusieurs universités. Plusieurs langues nationales espagnoles ont été choisies dès le début pour faire partie du projet. En tant que projet open-source, Apertium permet aux développeurs potentiels de créer ses propres règles de traduction pour contribuer au projet.

Le service de traduction automatique de Microsoft¹⁰ prend en charge 90 langues.

Il était initialement un système de traduction automatique statistique. Aujourd’hui, il s’est orienté vers la traduction automatique neuronale. Par ailleurs, le système de Microsoft Translator est déjà utilisé dans d’autres produits comme Microsoft Office, Edge, Bing et Skype.

Custom Translator¹¹ est une fonctionnalité de Microsoft Translator qui permet aux entreprises, aux développeurs et aux prestataires de services linguistiques de créer leurs propres systèmes de traduction neuronale. Pour ce faire, la plateforme est ali-mentée par des textes du domaine préalablement traduits afin de créer un modèle

6. deepl.com/translator, consulté le 02.08.2021

qui rend mieux qu’un système généraliste la terminologie et le style propres au do-maine de l’utilisateur. Étant donné que le consensus en traduction automatique veut que pour obtenir les meilleurs résultats, il faut que le système soit adapté à la tâche à accomplir, nous avons décidé d’utiliser cette plateforme pour créer notre propre modèle entraîné uniquement avec textes littéraires.

Les utilisateurs peuvent télécharger des fichiers ALIGN, PDF, LCL, HTML, HTM, XLF, TMX, XLIFF, TXT, DOCX et XLSX. Custom Translator accepte également les données parallèles au niveau du document. Si les utilisateurs ont accès aux ver-sions du même contenu dans plusieurs langues mais dans différents fichiers, Cus-tom Translator peut aligner auCus-tomatiquement les phrases.

L’entraînement et le déploiement d’un système adapté ne nécessitent aucune com-pétence en programmation. Le portail de Custom Translator permet aux utilisateurs de déposer les données d’entraînement, entraîner les systèmes, les tester et les dé-ployer au moyen d’une interface assez intuitive.

Les métriques de précision comme BLEU sont très sensibles aux effets d’adaptation.

Pour ces métriques, le choix de mots incorrects, même s’il s’agit de synonymes, est considéré comme une erreur. Ainsi, l’adaptation au style du domaine et l’utilisation des mots courants dans ce domaine devraient permettre d’obtenir des scores plus élevés. Cela ne se limite pas aux mots isolés. Le type de langage utilisé, reflété par le niveau de formalité, le registre, le laconisme, entre autres, peut correspondre à la traduction de référence. Selon les déclarations de Microsoft, l’utilisation de Cus-tom Translator, si le type et la quantité appropriés de données d’entraînement sont fournis, il est possible d’obtenir des gains de score BLEU de 5 à 10 points.

Notre corpus d’entraînement se compose de 121 000 segments alignés. 31 000 seg-ments ont été alignés dans le cadre d’un projet antérieur au sein de la faculté. Les 90 000 segments restants proviennent d’un corpus de livres de fiction du projet OPUS.

OPUS¹² est une collection de textes traduits issus du web. Ce projet a pour objet d’aligner des traductions, d’ajouter des annotations linguistiques et de fournir gra-tuitement une collection de corpus parallèles au grand public. Le corpus d’œuvres littéraires est une collection de livres, libres de droits, alignés par Andras Farkas¹³.

12. opus.nlpl.eu/index.php 13. opus.nlpl.eu/Books.php

Les œuvres littéraires qui font partie du corpus d’entraînement comprennent aussi bien la Bible que des œuvres couvrant la période du XVI^eau début du XX^esiècle (Ta-bleau 6.3). Une quantité restante de données, composée d’environ 800 000 segments non alignés, tirés du projet Gutenberg¹⁴, était également censée être utilisée comme données d’entraînement. Malheureusement, en raison de contraintes de temps, ces données n’ont pas pu être utilisées.

Auteur Titre

1 Jane Austen Sense and Sensibility

2 Charlotte Brontë Jane Eyre

3 Lewis Carroll Alice’s Adventures in Wonderland 4 Miguel de Cervantes Don Quixote

5 Daniel Defoe Robinson Crusoe

6 Sir Arthur Conan Doyle The Adventures of Sherlock Holmes 7 Sir Arthur Conan Doyle The Hound of the Baskervilles 8 Sir Arthur Conan Doyle A Study in Scarlet

9 Alexandre Dumas The Three Musketeers

10 Franz Kafka The Metamorphosis

11 Jack London The Call of the Wild 12 Niccolò Machiavelli The Prince

13 Edgar Allan Poe The Fall of the House of Usher

14 Leo Tolstoy Anna Karenina

15 Jules Verne Twenty Thousand Leagues Under the Sea

16 Jules Verne The Mysterious Island

17 Jules Verne Around the World in Eighty Days

18 Voltaire Candide

19 –––––––– King James Bible

TABLEAU 6.3 – Corpus d’entraînement du système de TA adapté aux textes littéraires

Afin de décider quel système utiliser comme base pour la post-édition, nous avons effectué une évaluation automatique avec les métriques BLEU et TER (Section 3.2) au moyen d’un ensemble de données de test composé de phrases assez longues et riches sur le plan lexical, et d’un autre ensemble composé d’un poème d’une grande complexité.

Il faut souligner que le premier ensemble de données de test a été soustrait des données d’entraînement de notre modèle adapté, donc les données sont similaires ; autrement dit, il s’agit des mêmes auteurs et des mêmes époques. En revanche, le

14. gutenberg.org

second ensemble appartient à la fin du XX^esiècle et ne devrait donc pas, en principe, être très similaire aux données d’entraînement du tableau 6.3.

Dans le document Traduction automatique neuronale et littérature : Adaptation d’un système de traduction neuronal et analyse comparative de la traduction humaine et de la traduction automatique post-éditée (Page 87-91)