Évaluation de la traduction automatique

Chapitre 2 Traduction automatique 29

Espace de représentation des phrases source f C(f) ˆ f Espace latent Z_src Encodeur Décodeur

Espace de représentation des phrases cibles e

Espace latent Z_cible

Espace de représentation des phrases sources f

Chapitre 2 Traduction automatique 29

2.4 Évaluation de la traduction automatique

(a) Reconstruction de la phrase source avec le principe de l’auto-encodeur.

(b) Passage d’une phrase cible à une phrase source (la traduction).

Figure 2.8 – Principe de la traduction automatique basée sur des corpus monolingues.

La figure 2.8a illustre le principe de l’auto-encodeur. Pour apprendre ce modèle, un bruit est

appliqué à la phrase sourcef avec la fonctionC(f). Cette fonction applique deux transformations

sur une phrase donnée : elle supprime aléatoirement des mots avec une certaine probabilité et elle

applique une permutation choisie au hasard. En projetant la représentation bruitée de la phrase

sourcef dans l’espace latent en utilisant l’encodeur, on essaie de reconstruire la phrase source en

minimisant la distance entre la phrasef et la phrase reconstruitefˆavec le décodeur. La figure

2.8b montre le principe de la traduction. La représentation bruitée de la phrase cibleC(e) est

projetée dans l’espace latent du domaine de la langue source. À partir de cette représentation

latente, le modèle essaie de prédire la traductionfˆqui est proche de la phrase sourcef.

En apprenant à reconstruire des phrases dans les deux langues à partir d’un espace latent

partagé, le modèle apprend à traduire sans utiliser de données parallèles. Les score BLEU (voir

la section 2.4.2 pour plus de détails sur ce score) obtenu sur la paire de langue français-anglais

est de 32,8% qui est très acceptable.

Cette approche est intéressante dans le cas de la traduction des dialectes arabes qui sont des

langues peu dotées en ressources. Ils sont principalement parlés mais avec l’émergence des sites

communautaires, les données monolingues des dialectes sont facilement accessibles.

2.4 Évaluation de la traduction automatique

Le problème de l’évaluation de la traduction automatique est aussi complexe que le problème

de la traduction lui-même. Ceci est dû à la complexité de la langue naturelle et les ambiguïtés

qu’elle présente ; une seule phrase source peut avoir plusieurs traductions totalement différentes et

qui sont toutes correctes. Le besoin de l’évaluation de la traduction automatique est apparu suite

au grand nombre d’approches de traduction proposées dans la littérature. Évaluer la traduction

permet, d’une part, d’améliorer la sortie du système et de pouvoir comparer, d’autre part, les

différentes approches.

Fluency, et l’adéquation, Adequacy. Le critère d’intelligibilité est utilisé pour assurer que la

sortie du système est bien écrite dans la langue cible. Tandis que, le deuxième critère celui de

l’adéquation assure que l’information portée par la phrase source a été totalement transmise à

la phrase cible. En se basant sur ces deux critères, un score est attribué à chaque traduction que

se soit par un expert humain ou par des mesures automatiques. Le score global est calculé pour

l’ensemble des traductions, afin d’estimer la qualité des traductions au niveau du corpus.

L’évaluation de la qualité de la traduction automatique dans les premiers systèmes était

faite par des êtres humains qui sont souvent appelés des juges. Cependant, l’évaluation humaine

ou subjective est très coûteuse en termes du temps et de ressource. Ajoutons à cela la grande

quantité des traductions et le nombre élevé des systèmes à évaluer rendant le processus de

l’évaluation humaine impossible. Des méthodes d’évaluation automatique ont été développées

pour automatiser ce processus et remédier aux problèmes que l’évaluation humaine pose. Dans

ce qui suit, nous présentons l’idée dernière l’évaluation humaine de la traduction automatique

ainsi que les métriques utilisées pour automatiser ce processus.

2.4.1 Évaluation manuelle de la traduction automatique

L’évaluation manuelle, humaine , également qualifiée d’évaluation subjective, de la traduction

automatique est la première méthode utilisée pour évaluer les traductions. Elle fait appel à des

experts humains souvent bilingues pour juger si la traduction est correcte ou non. Dans le cas où

les experts sont monolingues, on leur donne une traduction de référence générée par un expert

bilingue. Leur tâche, dans ce cas, sera de mesurer la similitude entre la sortie du système et la

traduction de référence.

Pour mesurer l’intelligibilité et l’adéquation, les experts doivent donner leurs avis en

attri-buant à chaque traduction un score allant de 1 à 5. Pour le critère d’intelligibilité, une score de 5

veut dire que la traduction est comparable à une phrase écrite par un natif de la langue cible, et

un score de 1 veut dire que la traduction est totalement incompréhensible. De même pour

l’adé-quation, un score de 5 veut dire que la totalité du sens est conservée dans la traduction alors

qu’un score de 1 veut dire qu’on ne retrouve rien du sens de la phrase source dans sa traduction.

Bien que l’évaluation humaine de la traduction automatique permette souvent d’avoir une

meilleure estimation de la qualité des traductions, elle reste lourde et généralement très coûteuse

en termes de temps et de coût financier. Dans certains cas, chaque traduction doit être évaluée par

plusieurs juges pour minimiser le degré de subjectivité et s’assurer de la fidélité de l’évaluation.

Depuis les années 2000, beaucoup de chercheurs ont proposé des méthodes automatiques pour

l’évaluation de la traduction automatique.

2.4.2 Évaluation automatique de traduction automatique

L’évaluation automatique ou objective permet de traiter de grandes quantités de données, de

comparer entre des instances d’un même système ou de classer les différents systèmes en termes

de qualité de traduction en un temps très limité par rapport à l’évaluation humaine.

Une bonne métrique d’évaluation automatique doit être corrélée avec la décision humaine,

qui reste le moyen le plus fiable pour juger la qualité de la traduction, et ceci sans l’intervention

des juges humains. Ces métriques sont basées sur le calcul de la similarité entre l’hypothèse de

traduction produite le système de traduction et une traduction de référence faite généralement

par un être humain.

Les métriques d’évaluation automatiques de la traduction automatique sont basées

principa-lement sur le rappel et la précision. Ces dernières sont des métriques très utilisés dans le domaine

2.4. Évaluation de la traduction automatique

du traitement automatique du langage naturel (TALN). Leur importance ainsi que la manière

pour les calculer changent en fonction du sous domaine du TALN dans lequel elles sont

utili-sées. Dans la traduction automatique, les deux métriques sont équitablement importantes, car

on doit assurer que le système ne produise pas des mots erronés comme il ne doit pas ignorer la

traduction de certains mots [Koehn, 2009].

Figure ^{2.8 – Principe de la traduction automatique basée sur des corpus monolingues.}

minimisant la distance entre la phrasef et la phrase reconstruite_fˆ_{avec le décodeur. La figure}

latente, le modèle essaie de prédire la traduction_fˆ_{qui est proche de la phrase source}_f_.

W ER= ^insertion⁺^{substitutions}⁺^suppressions

|r´eference´ | ^(2.6)

P ER= 1−^commun⁻^max(0^,^|^candidate^{| − |}^r^ef^´ ^erence^´ ^|⁾

|r´eference´ | ^(2.7)