• Aucun résultat trouvé

Afin de déterminer dans quelle mesure la traduction automatique peut être utile pour la traduction de textes littéraires, nous évaluerons les modalités de traduction sous une perspective quantitative et qualitative.

Sur le plan quantitatif, nous évaluerons l’output brut du système de TA retenu, la traduction post-éditée et la traduction humaine au moyen de métriques automa-tiques et nous mesurerons l’effort déployé pour produire une traduction humaine et une traduction post-éditée.

Sur le plan qualitatif, nous évaluerons la traduction post-éditée et la traduction hu-maine au moyen d’une évaluation comparative, et l’output brut de la TA, la traduc-tion post-éditée et la traductraduc-tion humaine au moyen d’une classificatraduc-tion d’erreurs, effectuées par deux étudiants qui n’ont pas pris part aux tâches de traduction et de post-édition

L’évaluation automatique est menée au moyen des métriques BLEU et TER, avec une traduction publiée des extraits sélectionnés comme référence. BLEU est calculé à l’aide de la plateforme d’évaluation en ligne Tilde, tandis que TER est calculé avec le scripttercom.7.25(Snover et al., 2006)16.

15. surveymonkey.com/r/YF783RJ 16. cs.umd.edu/ snover/tercom

Afin de mesurer l’effort temporel et technique nécessaire pour produire une traduc-tion humaine à partir de zéro et une traductraduc-tion post-éditée, nous utiliserons comme données le temps et le nombre de frappes de clavier enregistrés dans le log de l’in-terface de COPECO. Nous mesurerons également l’effort technique au moyen du score HTER en prenant comme référence la traduction post-éditée.

L’évaluation par comparaison sera réalisée avec l’aide de la feuille Excel d’évalua-tion humaine, utilisée dans le cadre du cours de traducd’évalua-tion automatique 2 de Mme.

Bouillon. Les évaluateurs pourront comparer la traduction humaine et la traduction automatique post-éditée au moyen des cinq jugements possibles :

• La première est nettement meilleure

• La première est légèrement meilleure

• Les deux sont à peu près au même niveau

• La deuxième est légèrement meilleure

• La deuxième est nettement meilleure

Il faut souligner que l’évaluation sera menée en contexte. Les segments ne seront pas mélangés ; au contraire, ils seront présentés dans l’ordre normal du texte, afin de mieux saisir la cohésion. La première colonne contiendra donc la traduction hu-maine, la seconde la version post-éditée.

La classification d’erreurs sera conduite en utilisant une taxonomie d’erreurs MQM personnalisée, inspirée de la taxonomie adaptée aux textes littéraires proposée par Tezcan et al. (2019). Ces auteurs utilisent comme base la taxonomie d’erreurs SCATE.

Cependant, nous estimons que la taxonomie MQM est plus intuitive et facile à saisir ; pour cette raison, nous avons simplement décidé de retenir les éléments que nous avons jugés pertinents et de les intégrer à une taxonomie MQM modifiée. Nous avons également opté pour l’exclusion de certains éléments que nous avons jugés non pertinents pour la traduction littéraire (Figure 6.1).

6.6 Conclusion

Dans ce chapitre nos avons présenté en détail la méthodologie adoptée pour la tra-duction humaine, la tratra-duction automatique, la post-édition et l’évaluation. Enfin, une fois que les résultats auront été collectés, nous les analyserons afin de tirer une

conclusion quant à la corrélation entre la qualité et l’effort de la traduction humaine et la traduction automatique post-éditée.

FIGURE6.1 – Taxonomie d’erreurs MQM adaptée aux textes littéraires.

Les éléments barrés ont été supprimés, tandis que les éléments en gras ont été ajoutés.

7 Résultats

Une fois présentée la méthodologie adoptée pour les tâches prévues dans le cadre de notre étude - traduction humaine, traduction automatique, post-édition et évalua-tion -, ce chapitre vise à analyser les résultats de l’expérience. Cette analyse porte sur le choix du système de TA à utiliser pour la tâche de post-édition (Section 7.1), l’ef-fort temporel et technique (Section 7.2), les scores d’évaluation automatique BLEU et TER (Section 7.3), l’évaluation comparative (Section 7.4), la classification d’er-reurs (Section 7.5) et, enfin, les difficultés rencontrées par les traducteurs et les post-éditeurs (Section 7.6).

7.1 Choix du système de TA

Afin de déterminer le système de TA à utiliser comme point de départ pour la tâche de post-édition, nous avons mené une évaluation automatique de six systèmes de TA. Nous présentons maintenant les résultats obtenus avec deux métriques auto-matiques largement utilisées : BLEU et TER. BLEU est la métrique standard de facto dans le domaine de la TA. Nous utilisons également TER car il s’agit d’une mé-trique de taux d’erreur dont le score est basé sur le nombre d’opérations d’édition - insertions, suppressions et substitutions - nécessaires pour que l’output de la TA corresponde à la référence utilisée, ce qui la rend davantage appropriée au scénario de traduction que nous envisageons. Par ailleurs, il a été constaté que le TER est en corrélation avec l’effort temporel de PE (O’Brien, 2011). Afin de bien interpréter les résultats, il faut garder à l’esprit que les deux métriques fonctionnent sur une échelle de 0 à 100. Pour BLEU, plus le score est élevé, mieux il est - 100 indiquant que l’output de la TA et la référence sont identiques - tandis que pour TER, plus le score est faible, mieux il est - 0 indiquant que l’output de la TA et la référence sont identiques.

Nous avons utilisé deux ensembles de données de test pour mener l’évaluation : un premier ensemble soustrait des données d’entraînement, composé de phrases assez longues et riches sur le plan lexical, et un second, composé d’un poème du XXesiècle d’une grande complexité. Nous présentons ensuite les scores TER et BLEU - avec et sans prise en considération de la casse1 - du premier (Figure 7.1) et du second ensemble de données de test (Figure 7.2).

Système de TA BLEU lowercase BLEU TER

DeepL 21.38 21.29 68.94

Google Translate 20.59 20.31 71.42

Microsoft Translator 18.47 18.28 74.86

Yandex.Translate 20.70 20.56 71.51

Apertium 7.88 7.87 86.48

Custom Translator 19.93 19.66 71.75

TABLEAU7.1 – Scores du premier ensemble de données de test

Système de TA BLEU lowercase BLEU TER

DeepL 24.93 24.66 64.57

Google Translate 23.09 22.73 66.80

Microsoft Translator 21.27 20.98 68.79

Yandex.Translate 18.29 18.19 70.27

Apertium 13.96 12.84 79.57

Custom Translator 22.31 21.90 67.28

TABLEAU7.2 – Scores du second ensemble de données de test

Ainsi, on constate que DeepL obtient les meilleurs scores pour les deux ensembles de données de test. Le système adapté aux textes littéraires est surpassé par DeepL, Google Translate et Yandex.Translate pour le premier ensemble de données, et seule-ment par DeepL et Google Translate pour le second ensemble. Après une comparai-son rapide entre l’output de DeepL et de notre système, nous pouvons effectivement constater que l’output de DeepL est plus fluide et fidèle. Par conséquent, nous avons décidé d’écarter notre système spécialisé et d’utiliser DeepL pour la tâche de post-édition.

1. Le paramètreLowercasemet en minuscules le texte de la référence et de l’hypothèse.