1.4 Évaluation de la qualité des traductions
1.4.6 Quelle mesure automatique choisir ?
Grâce aux coefficients de corrélation, il devrait être possible d’établir quel score automatique
corrèle le mieux avec l’avis des experts humains et ainsi choisir celui qui se substituera à
l’éva-28 Chapitre 1. La traduction automatique et son évaluation
luation humaine très coûteuse en temps et en moyens. Cependant, les études menées sur les
différentes mesures ont des avis très divergents et par conséquent il reste difficile de privilégier
une mesure par rapport à une autre.
Papineni et al. [Papineni 01], par exemple, ont montré une forte corrélation entre le score
BLEU et les jugements d’experts humains dans une tâche consistant à classer cinq systèmes de
TA Chinois-Anglais selon la qualité de leurs traductions. Turian et al [Turain 03] affirment le
contraire après avoir mené une étude indiquant que la F-Mesure basée sur les correspondances
unigrammes entre une traduction automatique et une référence corrèle plus fortement avec le
jugement humain que BLEU ou NIST. Banerjeeet al. [Banerjee 05] ont mené une série
d’expé-riences visant, entre autre, à comparer leur méthode avec BLEU, mais aussi à comparer l’apport
de chacun des constituants du score METEOR à savoir la précision et le rappel. Les résultats ont
montré dans un premier temps que METEOR corrèle plus fortement avec le jugement humain
que BLEU au niveau de l’évaluation d’un corpus de test. Au niveau de l’évaluation traduction
par traduction, les tests ont montré que le rappel a une plus forte corrélation avec le jugement
humain que la précision et que la combinaison des deux par la moyenne harmonique améliore
encore un peu ce taux de corrélation.
Au vu de toutes les études menées, il semblerait que le choix de la mesure automatique
d’évaluation des traductions soit fortement lié au contexte de test (corpus, paire de langues).
Turian, en 2003, avait déjà écrit qu’une mesure automatique donnant de bons résultats sur un
corpus, ne fonctionnait pas nécessairement aussi bien sur d’autres [Turain 03]. Par exemple, les
performances du score METEOR en terme de corrélation avec le jugement humain dépendent
fortement de l’optimisation de ses paramètres α, β, γ (cf. formule 1.7) [Agarwal 08]. Gimenez
et al. [Giménez 06] ont proposé un outil appelé IQMT permettant de combiner plusieurs scores
automatiques. De ce fait, il est possible d’optimiser les systèmes de traduction en tenant compte
non pas d’un seul score mais d’une combinaison de scores. Ceci permet entre autres de tirer
pro-fit de chacune des mesures et ainsi améliorer la qualité des traductions sur les différents aspects
linguistiques traités par chacune des mesures.
Cependant, plusieurs travaux en arrivent à la même conclusion que le jugement humain n’est
lui-même pas fiable. En effet, pour une même traduction les experts humains ne sont pas
tou-jours d’accord et pire encore, un même juge peut donner deux avis contraires pour une même
traduction [Turain 03, Callison-Burch 08]. Il devient alors difficile de mettre en place des
me-sures automatiques capables de prédire le jugement humain si l’avis des experts humains n’est
ni consistant ni fiable dans certains cas.
Les mesures automatiques ne sont pas en mesure de remplacer le jugement humain pour
évaluer la qualité d’une traduction. En effet, la langue est tellement riche et complexe que les
scores automatiques sont incapables d’en discerner les nombreuses subtilités et en particulier en
traduction. Confronter une traduction automatique à une ou plusieurs références limite
consi-dérablement le nombre important de façons différentes d’exprimer une idée sans en modifier le
sens. Toutefois, ces mesures restent un moyen rapide et efficace d’améliorer les performances
d’un système de traduction et de les comparer aux performances d’autres systèmes. Bien qu’une
multitude de scores existent aujourd’hui, le plus populaire et le plus utilisé dans les campagnes
d’évaluation reste le score BLEU. Il fait état de référence dans la communauté de la Traduction
Automatique. Récemment encore, les exercices d’évaluation du Workshop WMT 2008 ont conclu
que le score METEOR corrèle le plus avec le jugement humain lorsqu’il s’agit de systèmes
tra-1.4. Évaluation de la qualité des traductions 29
duisant d’une langue source vers l’Anglais, mais que c’est le score BLEU qui corrèle le mieux
lorsque la traduction se fait de l’Anglais vers une autre langue [Callison-Burch 08], ce qui s’avère
être le cas pour nous. En effet, dans les travaux que nous allons présenter par la suite, nous nous
plaçons dans un contexte de traduction de l’Anglais vers le Français. Nous avons donc retenu
le score BLEU comme mesure d’évaluation de la qualité des traductions produites par notre
système pour sa corrélation avec le jugement humain et de manière à pouvoir se comparer aux
autres travaux proposés dans la littérature.
Chapitre 2
L’approche statistique de la traduction
automatique
2.1 Introduction
Les contributions pour la Traduction Automatique présentées dans ce manuscrit se concentrent
sur l’approche statistique. Dans ce chapitre, nous décrivons cette approche en présentant les
grands travaux dans le domaine. Nous verrons notamment les différents modules impliqués dans
un système de traduction statistique. Nous commençons par décrire les différents modèles de
lan-gage puis les modèles de traduction prenant comme unité de traduction le mot puis les séquences
de mots. Nous présentons ensuite le module de décodage qui permet à partir des modèles de
produire une phrase dans une langue étant donnée une phrase d’entrée dans une autre langue.
Nous terminons enfin ce chapitre en exposant les points forts et les inconvénients des différents
modèles évoqués avant d’introduire nos contributions.
Dans le document
Les Triggers Inter-langues pour la Traduction Automatique Statistique
(Page 38-42)