Préparation et déroulement du test de PE - Evaluation humaine 1 : effort de post-édition

6. Comparaison de MTH et DeepL

6.2. Evaluation humaine 1 : effort de post-édition

6.2.3. Préparation et déroulement du test de PE

Pour réaliser ce test, nous avons sélectionné de manière aléatoire 250 segments dans notre corpus de test de l’évaluation automatique (voir section 6.1). Nous avons choisi de conduire cette évaluation sur 250 segments, car nous étions soumis à une contrainte de temps qui ne nous permettait pas de réaliser une évaluation sur un plus grand nombre de segments. En outre, une étude conduite par Estrella et al. (2007) a montré qu’il est possible d’obtenir des résultats fiables avec des corpus de test relativement limités (env. 250 segments) lorsque l’on cherche à comparer des systèmes.

Nous avons décidé d’utiliser l’outil de TAO en ligne MateCat¹⁵ pour conduire notre évaluation, car cet outil permet de mesurer le temps passé par le traducteur sur chaque segment et donne aussi un aperçu des modifications qu’il effectue à chaque fois. MateCat est un outil gratuit dans lequel l’utilisateur peut ajouter ses propres mémoires de traduction, mais aussi utiliser une grande mémoire de traduction publique, ainsi que la TA. La TA proposée par MateCat est fournie par Google Translate, DeepL et MTH, cependant l’utilisateur ne peut pas sélectionner un seul de ces fournisseurs et il n’a aucun moyen de savoir de quel fournisseur provient la TA qui lui est soumise. Nous ne pouvions donc pas utiliser la TA proposée par MateCat pour notre test. Nous avons donc procédé en créant des mémoires de traduction à partir des traductions automatiques de notre corpus de test que nous avions produites à l’aide de nos deux systèmes.

Nous avons tout d’abord créé une mémoire de traduction avec comme texte source nos 250 segments sélectionnés aléatoirement et leurs traductions produites par DeepL (ci-après

« MT_DeepL »), puis une mémoire de traduction avec la même source, mais avec comme cible la TA de MTH (ci-après « MT_MTH »). Afin de ne pas fausser notre test, nous ne souhaitions pas que les traducteurs post-éditent d’abord les segments d’un système, puis ensuite les segments de l’autre. Nous avons donc cherché un moyen de mélanger ces segments tout en étant ensuite capable de les trier à nouveau pour analyser les résultats du test. Pour ce faire nous avons procédé de la manière suivante :

- Nous avons trié par ordre alphabétique (en fonction de la source) les segments de la mémoire MT_DeepL ; nous les avons numérotés de 1 à 250 et avons extrait les segments 1 à 125 (ces segments constituent ce que nous appellerons le corpus 1)

15 https://www.matecat.com/

61 - Nous avons effectué le même tri et la même numérotation avec la mémoire MT_MTH et nous en avons extrait les segments 125 à 250 (ces segments constituent ce que nous appellerons le corpus 2)

- Nous avons mélangé ces 250 segments de manière aléatoire et nous avons créé une nouvelle mémoire de traduction nommée MT_DeepL_MTH (cette mémoire contient le corpus traduit par DeepL et le corpus 2 traduit par MTH)

- Nous avons ensuite répété ces opérations en inversant DeepL et MTH et nous avons créé une mémoire nommée MT_MTH_DeepL (cette mémoire contient le corpus traduit par MTH et le corpus 2 traduit par DeepL)

Après le test, il nous suffira alors de trier à nouveau les segments par ordre alphabétique pour pouvoir identifier les traductions produites par MTH/DeepL.

Avec ces deux mémoires de traduction, nous pouvions alors soumettre le texte source à nos traducteurs une première fois en utilisant la mémoire MT_DeepL_MTH, puis une seconde fois en utilisant la mémoire MT_MTH_DeepL. Les traductrices post-éditeront donc deux fois 250 segments. En procédant avec des mémoires de traductions, les traducteurs verront s’afficher pour chaque segment une correspondance à 100 % (qui en est réalité une traduction automatique) qu’ils pourront post-éditer, mais ils n’auront aucun moyen de savoir de quel système provient cette TA. Nous avons donc créé deux projets de post-édition pour chaque traducteur (Projet_1 et Projet_2). Dans le projet 1, le traducteur post-éditera les 250 segments du corpus. La moitié de ces segments aura été traduite par MTH et l’autre moitié par DeepL (ils apparaitront dans un ordre aléatoire). Dans le projet 2, le traducteur fera la même chose, mais les systèmes de TA auront été inversés par rapport au projet 1. Pour chaque projet, nous avons sélectionné les paramètres suivants dans MateCat :

- Désactivation de la TA (afin d’éviter que des suggestions de TA soient proposées par MateCat)

- Désactivation de la mémoire de traduction publique (pour éviter que d’autres suggestions que les nôtres apparaissent)

- Désactivation de la mise à jour de nos mémoires (afin de s’assurer que notre mémoire ne soit pas modifiée).

Le tableau ci-dessous (Tableau 10) résume les données de chaque projet (les projets sont identiques pour les deux traductrices) :

Projet Segments Système de TA

Projet 1 1-125 (corpus 1) MTH 126-250 (corpus 2) DeepL Projet 2 1-125 (corpus 1) DeepL 126-250 (corpus 2) MTH

Tableau 10 - Récapitulatif des données utilisées pour le test de PE

Nous avons aussi créé pour chaque traducteur un projet dit de « prise en main » contenant une vingtaine de segments issus d’un autre corpus avec une mémoire de traduction que nous avons créée avec Google Translate. Ce projet avait pour but de permettre aux traducteurs de se familiariser avec la PE dans MateCat avec de commencer le véritable test.

En procédant de cette manière, chaque traducteur donc va être amené à post-éditer deux fois des segments sources identiques traduits automatiquement par deux systèmes différents. Nous sommes conscient que cela introduit un biais dans notre étude puisqu’il est probable que les traducteurs soient influencés par le souvenir de la traduction du premier segment lors de la PE du second. Nous estimons cependant que nous aurions introduit un biais encore plus grand en choisissant de comparer MTH et DeepL sur des segments différents, étant donné que notre corpus de test est relativement petit. Nous avons tenté d’atténuer ce biais en divisant la PE en deux projets. Les segments identiques se trouvent dans des projets différents, ce qui permet de s’assurer que le traducteur ne tombera pas sur deux segments identiques à la suite ou très proches. Ce test étant assez long, nous avons aussi précisé aux traducteurs qu’ils pouvaient réaliser la PE en plusieurs fois et sur plusieurs jours (2 semaines en tout), ce qui permet encore d’atténuer l’éventuelle influence des traductions post-éditées précédemment. En outre, le biais est le même pour les deux systèmes, car nous avons procédé en réalisant un crossover design, ce qui signifie que les traductrices post-éditeront d’abord la TA de DeepL sur la moitié du corpus et d’abord la TA de MTH sur l’autre moitié du corpus.

Pour cette évaluation, nous avons demandé à nos post-éditrices d’effectuer la PE dans le but d’obtenir une traduction d’une qualité équivalente une traduction humaine (voir section 2.5).

Pour les guider dans leur travail, nous leur avons fourni les lignes directrices en matière de PE données par TAUS¹⁶ (2010) pour l’obtention d’un tel niveau de qualité.

16 Ces lignes directrices sont disponibles sur : https://www.taus.net/academy/best-practices/postedit-best-practices/machine-translation-post-editing-guidelines

Dans le document Traduction automatique statistique vs. neuronale : Comparaison de MTH et DeepL à La Poste Suisse (Page 70-73)