Quelle mesure automatique choisir ? - Évaluation de la qualité des traductions

1.4 Évaluation de la qualité des traductions

1.4.6 Quelle mesure automatique choisir ?

Grâce aux coefficients de corrélation, il devrait être possible d’établir quel score automatique

corrèle le mieux avec l’avis des experts humains et ainsi choisir celui qui se substituera à

l’éva-28 Chapitre 1. La traduction automatique et son évaluation

luation humaine très coûteuse en temps et en moyens. Cependant, les études menées sur les

différentes mesures ont des avis très divergents et par conséquent il reste difficile de privilégier

une mesure par rapport à une autre.

Papineni et al. [Papineni 01], par exemple, ont montré une forte corrélation entre le score

BLEU et les jugements d’experts humains dans une tâche consistant à classer cinq systèmes de

TA Chinois-Anglais selon la qualité de leurs traductions. Turian et al [Turain 03] affirment le

contraire après avoir mené une étude indiquant que la F-Mesure basée sur les correspondances

unigrammes entre une traduction automatique et une référence corrèle plus fortement avec le

jugement humain que BLEU ou NIST. Banerjeeet al. [Banerjee 05] ont mené une série

d’expé-riences visant, entre autre, à comparer leur méthode avec BLEU, mais aussi à comparer l’apport

de chacun des constituants du score METEOR à savoir la précision et le rappel. Les résultats ont

montré dans un premier temps que METEOR corrèle plus fortement avec le jugement humain

que BLEU au niveau de l’évaluation d’un corpus de test. Au niveau de l’évaluation traduction

par traduction, les tests ont montré que le rappel a une plus forte corrélation avec le jugement

humain que la précision et que la combinaison des deux par la moyenne harmonique améliore

encore un peu ce taux de corrélation.

Au vu de toutes les études menées, il semblerait que le choix de la mesure automatique

d’évaluation des traductions soit fortement lié au contexte de test (corpus, paire de langues).

Turian, en 2003, avait déjà écrit qu’une mesure automatique donnant de bons résultats sur un

corpus, ne fonctionnait pas nécessairement aussi bien sur d’autres [Turain 03]. Par exemple, les

performances du score METEOR en terme de corrélation avec le jugement humain dépendent

fortement de l’optimisation de ses paramètres α, β, γ (cf. formule 1.7) [Agarwal 08]. Gimenez

et al. [Giménez 06] ont proposé un outil appelé IQMT permettant de combiner plusieurs scores

automatiques. De ce fait, il est possible d’optimiser les systèmes de traduction en tenant compte

non pas d’un seul score mais d’une combinaison de scores. Ceci permet entre autres de tirer

pro-fit de chacune des mesures et ainsi améliorer la qualité des traductions sur les différents aspects

linguistiques traités par chacune des mesures.

Cependant, plusieurs travaux en arrivent à la même conclusion que le jugement humain n’est

lui-même pas fiable. En effet, pour une même traduction les experts humains ne sont pas

tou-jours d’accord et pire encore, un même juge peut donner deux avis contraires pour une même

traduction [Turain 03, Callison-Burch 08]. Il devient alors difficile de mettre en place des

me-sures automatiques capables de prédire le jugement humain si l’avis des experts humains n’est

ni consistant ni fiable dans certains cas.

Les mesures automatiques ne sont pas en mesure de remplacer le jugement humain pour

évaluer la qualité d’une traduction. En effet, la langue est tellement riche et complexe que les

scores automatiques sont incapables d’en discerner les nombreuses subtilités et en particulier en

traduction. Confronter une traduction automatique à une ou plusieurs références limite

consi-dérablement le nombre important de façons différentes d’exprimer une idée sans en modifier le

sens. Toutefois, ces mesures restent un moyen rapide et efficace d’améliorer les performances

d’un système de traduction et de les comparer aux performances d’autres systèmes. Bien qu’une

multitude de scores existent aujourd’hui, le plus populaire et le plus utilisé dans les campagnes

d’évaluation reste le score BLEU. Il fait état de référence dans la communauté de la Traduction

Automatique. Récemment encore, les exercices d’évaluation du Workshop WMT 2008 ont conclu

que le score METEOR corrèle le plus avec le jugement humain lorsqu’il s’agit de systèmes

tra-1.4. Évaluation de la qualité des traductions 29

duisant d’une langue source vers l’Anglais, mais que c’est le score BLEU qui corrèle le mieux

lorsque la traduction se fait de l’Anglais vers une autre langue [Callison-Burch 08], ce qui s’avère

être le cas pour nous. En effet, dans les travaux que nous allons présenter par la suite, nous nous

plaçons dans un contexte de traduction de l’Anglais vers le Français. Nous avons donc retenu

le score BLEU comme mesure d’évaluation de la qualité des traductions produites par notre

système pour sa corrélation avec le jugement humain et de manière à pouvoir se comparer aux

autres travaux proposés dans la littérature.

Chapitre 2

L’approche statistique de la traduction

automatique

2.1 Introduction

Les contributions pour la Traduction Automatique présentées dans ce manuscrit se concentrent

sur l’approche statistique. Dans ce chapitre, nous décrivons cette approche en présentant les

grands travaux dans le domaine. Nous verrons notamment les différents modules impliqués dans

un système de traduction statistique. Nous commençons par décrire les différents modèles de

lan-gage puis les modèles de traduction prenant comme unité de traduction le mot puis les séquences

de mots. Nous présentons ensuite le module de décodage qui permet à partir des modèles de

produire une phrase dans une langue étant donnée une phrase d’entrée dans une autre langue.

Nous terminons enfin ce chapitre en exposant les points forts et les inconvénients des différents

modèles évoqués avant d’introduire nos contributions.

Dans le document Les Triggers Inter-langues pour la Traduction Automatique Statistique (Page 38-42)