Cadre expérimental - Expériences et résultats

3.4 Exp´eriences et r´esultats

3.4.1 Cadre exp´erimental

3.4.1.1 Corpus et outils

Le système de traduction de référence noté Réf et utilisé dans nos expérimentations repose sur Moses. Les données d’apprentissage, de développement et de test pro-

Fran¸cais Anglais Donn´ees d’apprentissage parall`eles

Textes du parlement europ´een 100 000 100 000 Donn´ees d’apprentissage monolingue

Textes du parlement europ´een - 1, 8 M Lexique bilingue d’EPL

Textes du parlement européen 3 640 Données de développement et d’évaluation Dev 4 000 4 000 Tous Test 1 000 1 000 EPL Test 323 323

Tableau 3.1: Données d’apprentissage, de développement et d’évaluation en nombre de phrases et taille du lexique bilingue en nombre de paires d’EPL en relation de traduction.

viennent du corpus Europarl (Koehn, 2005). Ce corpus regroupe un ensemble de phrases parallèles extraites des actes du parlement européen traduits dans 11 langues européennes. Dans nos expérimentations, nous nous intéressons à la traduction de textes du fran¸cais vers l’anglais. Le tableau 3.1 rassemble des informations sur la taille des données d’apprentissage, de développement et d’évaluation. Le corpus d’apprentissage utilisé pour estimer le modèle de traduction est composé de 100 000 paires de phrases parallèles après normalisation. La normalisation est établie à travers les traitements suivants : segmentation en mots, suppression de phrases de plus de 50 mots et lemmatisation à l’aide de l’étiqueteur morphosyntaxique TreeTagger1

. Ce même corpus est utilisé pour construire le lexique bilingue d’EPL. Le lexique bilingue résultant est composé de 3 640 paires d’EPL en fran¸cais et leurs traductions en anglais. Comme les entrées de ce lexique sont sous forme de lemmes et que le mode de décodage forcé de Moses n’est actuellement pas compatible avec les modèles à base de facteurs, le modèle de traduction a été estimé sur des lemmes plutôt que sur des formes de surface.

Outre le modèle de traduction, nous avons estimé un modèle de langue trigramme sur une version lemmatisée de la totalité du corpus Europarl (1, 8 M) en utilisant la boite à outils de calcul des modèles de langue Irstlm2

1. _{http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/} 2. http://hlt.fbk.eu/en/irstlm

Les stratégies dynamiques et statique décrites précédemment sont ensuite ap- pliquées. Dans Train, les EPL bilingues sont ajoutées au corpus d’apprentissage pour estimer un nouveau modèle de traduction. En ce qui concerne Table, la table de traduction de Réf est enrichie par les EPL bilingues. Dans Trait, un trait addi- tionnel 1/0 est introduit dans la table de traduction de Table. Finalement, Forcé maintient le modèle de traduction de Réf. Tous les modèles obtenus sont optimisés par minimisation du taux d’erreur (MERT : Minimum Error Rate Training) (Och, 2003) sur un corpus de développement constitué de 4 000 paires de phrases issues du même corpus (tableau 3.1).

Deux séries d’expériences ont été menées : Tous Test et EPL Test. Le premier corpus de test Tous Test est constitué de 1 000 paires de phrases parallèles extraites aléatoirement du corpus Europarl. Pour mesurer l’apport réel du lexique bilingue d’EPL, nous avons constitué un corpus de test noté EPL Test où nous ne conservons que les phrases du corpus Tous Test contenant au moins une EPL. Ce corpus contient 323 paires de phrases parallèles.

3.4.1.2 Qualit´e d’une traduction

Déterminer la qualité d’une traduction est un problème difficile et ouvert. Étant donnés un texte source et une traduction candidate, seule une personne bilingue, voire connaissant les intentions de l’auteur du texte source, peut véritablement juger de la qualité de la traduction candidate. Les critères de qualité peuvent être multiples et inclure par exemple des critères de correction grammaticale (fluidité) et de fidélité au sens du texte (adéquation). L’ARPA (Advanced Research Projects Agency, agence pour les projets de recherche) y a ajouté un critère quantifiant l’information effecti- vement transmise, critère déterminé à l’aide de questions à choix multiples (White, 1995). D’autres critères peuvent intervenir selon la tâche considérée : aide à la traduction, traduction de pages Web, surveillance, etc.

Ces critères de qualité constituent la vraie mesure de l’adéquation du système de traduction à la tâche visée, mais requièrent une intervention humaine, qui est généralement très coûteuse. Par ailleurs, toute évaluation subjective souffre des problèmes de non-reproductibilité et de variabilité inter-annotateur. C’est en particu- lier le cas des critères de fluidité et d’adéquation cités plus haut, dont l’évaluation sur

une échelle absolue de 1 à 5 est longue et difficile (Callison-Burch et al., 2008). C’est pourquoi plusieurs mesures automatiques ont été développées au fil des années. Leur objectif est d’être corrélées avec les scores que produirait une évaluation manuelle. Ceci est un problème difficile, car une même phrase peut être traduite de nombreuses fa¸cons possibles et également acceptables. Les mesures automatiques doivent auto- riser les variations légitimes et pénaliser les erreurs (Babych et Hartley, 2004). Les mesures présentées ci-dessous et utilisées dans ce cadre sont parmi les plus courantes dans la communauté de la traduction automatique. Elles nécessitent une ou plusieurs traductions de référence pour chaque phrase source. Dans nos expérimentations, à chaque phrase des corpus d’évaluation correspond une seule traduction de référence. Parmi les différentes mesures d’évaluation, nous utilisons deux mesures appartenant à différentes classes : Une mesure qui calcule le nombre de modifications nécessaires à apporter à la sortie d’un système pour atteindre la référence (TER) et une mesure qui calcule au contraire une ressemblance (BLEU).

Score TER

Le score TER (Translation Edit Rate, taux d’édition de la traduction) correspond à la distance d’édition (Snover et al., 2006). Lorsqu’une seule traduction de référence er

est disponible, le score TER d’une traduction candidate ec est calcul´e comme suit :

T ER(ec) =

nins+ nsup+ nsub+ ndec

|er|

(3.3) o`u nins, nsup, nsub et ndec sont respectivement les nombres minimums d’insertions, de

suppressions de substitutions et de d´ecalage pour modifier ec en er , et |er| d´enote la

taille de er en nombre de mots.

Score BLEU

Le score Bleu (Bilingual Evaluation Understudy) mesure une ressemblance de la traduction candidate à la traduction de référence (Papineni et al., 2002). Ce score est une moyenne géométrique des précisions n-grammes (pn, généralement avec n entre

1 et 4), multipliée par une pénalité de brièveté. La précision représente le nombre de n-grammes de l’hypothèse de traduction présents également dans une ou plusieurs références, divisé par le nombre de n-grammes total de l’hypothèse de traduction. pénalité de brièveté est destinée à pénaliser les systèmes qui essaieraient d’augmen- ter artificiellement leurs scores de précisions en produisant des phrases délibérément

courtes. L’expression du score Bleu est ainsi : Bleu(ec, er) = P B · exp( n X i=1 wnlog pn) (3.4)

où wn est constant et vaut 1 et la pénalité de brièveté P B est calculée comme suit.

Soient c = |ec| la taille de la traduction candidate et r la taille de la r´ef´erence la plus

proche de c. Alors : P B = ( 1 si c ≥ r e1−r c si c < r (3.5) BLEU étant un score de précision, plus il est élevé, meilleure est la traduction. La bonne corrélation entre Bleu et l’évaluation humaine a été constatée a plusieurs reprises (Papineni et al., 2002). Cette mesure a gagné le statut de mesure automatique de référence au sein de la communauté de la traduction automatique.

Dans le document Constitution de ressources linguistiques multilingues à partir de corpus de textes parallèles et comparables (Page 79-83)