L’ ´evaluation en traduction automatique

1.4 Synth `ese

2.1.1 L’ ´evaluation en traduction automatique

2.1.3 Discussion . . . 50

2.2 Conception et exp ´erimentation d’un protocole d’ ´evaluation applicative . . . . 51

2.2.1 Reflexions m éthodologiques . . . 51 2.2.2 Exp érimentation du protocole . . . 54 2.2.3 R ésultats obtenus . . . 58

2.3 Discussion . . . . 65

Introduction

Le but de ce chapitre est de proposer et d’exp érimenter un protocole d’ évaluation applicative des lexiques bilingues issus de corpus comparables et destin és à la traduction sp écialis ée. Pour cela, nous allons nous appuyer sur le prototype d évelopp é à LINGUA ET MACHINA que nous avons d écrit dans la section 1.31.

A notre connaissance, les lexiques issus de corpus comparables ont ét é évalu és en termes applicatifs uniquement dans le cadre de la recherche d’information cross-lingue et de la traduction automatique.

En recherche d’information cross-lingue, Li et al. (2011) augmentent le dictionnaire bilingue utilis ´e par le moteur de recherche `a l’aide de traductions extraites de corpus comparables.

1. Le travail pr ésent é s’inscrit dans un des lots de travail du projet ANR METRICCauquel nous avons particip é. Notre participation à ce lot de travail a concern é uniquement la conception du protocole ainsi qu’une premi ère exp érimentation du protocole visant à r ôder le processus d’ évaluation. L’ évaluation proprement dite a ét é men ée par le Dr. Planas de l’Universit é Catholique de l’Ouest avec un plus grand nombre de participants.

Ils d émontrent que la combinaison des ressources g én éralistes et du lexique issu du corpus comparable am éliorent significativement les r ésultats du syst ème (jusqu’ à + 0,016 points de MAP).

En traduction automatique, Carpuat et al. (2012) utilisent les corpus comparables pour adapter les syst èmes de traduction à un domaine de sp écialit é. L’inclusion des traductions issues du corpus comparable dans le syst ème de traduction fait gagner de 2 à 3 points de BLEU en fonction des corpus.

En ce qui concerne la traduction (humaine) sp écialis ée, nous allons également adopter une approche contrastive : partant d’une situation de base (le traducteur dispose uniquement de ressources bilingues g én éralistes), nous allons observer si la mise à disposition de lexiques issus de corpus comparables en plus des ressources g én éralistes permet effectivement d’am éliorer la qualit é finale des traductions. Nous emploierons également une deuxi ème base de comparaison, qui elle, correspondra à la situation habituelle du traducteur, dans laquelle il a à sa disposition toutes sortes de ressources sp écialis ées en plus des dictionnaires g én éralistes. Une fois les traductions produites, se posera alors la question de l’ évaluation de leur qualit é. Si la recherche d’information crosslingue et la traduction automatique disposent de mesures de r éf érence, ce n’est pas le cas pour la traduction humaine.

C’est pourquoi nous nous sommes pench és dans la section 2.1 sur les m éthodologies d’ évaluation utilis ées à la fois en traduction automatique (section 2.1.1) et en traductologie (2.1.2). Bien que nous souhaitions, au final, évaluer des traductions humaines, il nous a sembl é int éressant de s’enqu érir des techniques employ ées en traduction automatique, d’autant plus qu’elles sont nettement plus op érationnelles que celles rencontr ées en traductologie.

Dans la section 2.2, nous exposons le protocole d’ évaluation que nous avons mis au point et d écrivons sa mise en œuvre ainsi que les r ésultats obtenus. La section 2.3 dresse un bilan de notre exp érience et propose de nouvelles pistes de recherche.

2.1 M éthodologies d’ évaluation de la qualit é des traductions

2.1.1 L’ ´evaluation en traduction automatique

L’ évaluation en traduction automatique (TA) remplit deux objectifs. D’une part, il s’agit d’analyser, lors du d éveloppement d’un syst ème de TA, les impacts d’une modification du syst ème sur la qualit é des traductions. D’autre part, l’ évaluation permet de comparer les syst èmes entre eux, g én éralement lors de campagnes d’ évaluation de grande envergure. À ces deux objectifs correspondent deux techniques d’ évaluation.

Pour une évaluation lors du d éveloppement du syst ème, les mesures utilis ées sont des mesures calculables automatiquement à partir de traductions de r éf érence, on parle alors d’ évaluation automatique ou d’ évaluation objective. Ces mesures, simples et peu co ûteuses à mettre en œuvre, restent n éanmoins perçues comme les substituts pratiques d’une évaluation bien plus co ûteuse mais jug ée meilleure : l’ évaluation humaine.

L’ évaluation humaine ou évaluation subjective est celle utilis ée dans les campagnes d’ évaluation du Statistical Workshop on Machine Translation de l’ACL dont les r ésultats des derni ères éditions sont donn és par Koehn et Monz (2006) et Callison-Burch et al. (2007, 2008, 2009, 2010). Elle consiste à demander à des juges de noter la qualit é des traductions. On imagine facilement le co ût en termes de temps, d’organisation et de formation des juges, sans compter que les r ésultats sont difficilement reproductibles. Toutefois, le consensus actuel est

en faveur de l’ évaluation humaine, jug ée comme plus à m ême de rendre compte de la qualit é d’une traduction.

Dans les parties suivantes, nous rendons compte des techniques d’ ´evaluation automatique (section 2.1.1.1) et des techniques d’ ´evaluation par des humains (section 2.1.1.2).

2.1.1.1 Mesures pour l’ ´evaluation automatique

L’ évaluation automatique mesure la qualit é d’une traduction de façon indirecte : on n’ évalue pas la qualit é de la traduction elle-m ême mais sa ressemblance avec une traduction de r éf érence produite par un traducteur professionnel. À d éfaut de pouvoir manipuler et comparer des param ètres linguistiques tels que la conservation du sens ou la fluidit é du texte, les mesures d’ évaluation emploient des indices de surface comme les mots ou suites de mots communs entre traduction évalu ée et traduction de r éf érence.

La mesure la plus connue et certainement la plus utilis ´ee est BLEU de Papineni et al. (2002). Elle s’appuie sur les crit `eres suivants :

– le nombre den-grammes de mots communs à la traduction à évaluer et à la traduction de r éf érence, pourn allant de 1 à 4 ;

– les diff érences de taille (en nombre de mots) entre traduction à évaluer et à la traduction de r éf érence ;

– les possibilit és de variation dans la traduction : un m ême texte pouvant être traduit de plusieurs façons diff érentes, le score BLEU peut être calcul é avec plusieurs traductions de r éf érence, de façon à autoriser plus de variation dans les formulations.

A la suite de BLEU, d’autres m étriques ont ét é propos ées dans le but d’am éliorer la justesse de l’ évaluation des syst èmes de TA. Parmi les mesures concurrentes à BLEU, on trouve :

NIST (Doddington, 2002) : équivalente à BLEU, si ce n’est que les n-grammes sont pond ér és

en fonction de leur fr équence (les n-grammes les plus fr équents étant jug és moins informatifs) et que la pr écision globale est calcul ée en utilisant la moyenne arithm étique au lieu de g éom étrique.

Une adaptation de la F-mesure (Turian et al., 2003) : Cette mesure a ét é conçue dans le

but d’ être facilement “interpr étable” : elle est emprunt ée à la recherche d’information. Rappel et pr écision sont dans ce cas calcul és sur le nombre de n-grammes communs

à la traduction à évaluer et à la traduction de r éf érence.

Meteor (Banerjee et Lavie, 2005) : associe pr ´ecision et rappel calcul ´es sur des unigrammes

de mots à une mesure prenant en compte l’ordre des mots. En plus des mots identiques, Meteor consid ère également les mots semblables tels que les variantes morphologiques ou les synonymes. Un des buts de cette mesure est de permettre une évaluation au niveau de la phrase, alors que les autres mesures ne fonctionnent bien que lorsque l’on évalue tout un corpus de traductions.

TER (Snover et al., 2006) : calcule le nombre d’op érations d’ édition n écessaires pour parvenir

de la traduction évalu ée à la traduction de r éf érence.

Ces mesures d’ évaluation peuvent elles-m êmes être m éta- évalu ées en calculant leur corr élation avec des jugements humains. Les m étriques sont évalu ées sur un corpus de traductions - elles sont dans ce cas plut ôt fiables - ou des phrases. D’apr ès Callison-Burch

et al. (2009), l’ ´evaluation automatique de traductions de phrases reste un probl `eme ouvert : les

meilleures m étriques sont coh érentes avec les jugements humains dans 54 % des cas, alors que la probabilit é d’un accord al éatoire entre m étrique automatique et jugement humain est de 0,5.

Ad ´equationa _{Fluidit ´e}b

5 tout le sens anglais sans fautes 4 majeure partie du sens bon anglais

3 une partie du sens anglais non-natif 2 peu de sens mauvais anglais 1 aucun sens incompr éhensible TABLE2.1 – Échelles d’ évaluation de l’ad équation et de la fluidit é utilis ées par Koehn et Monz (2006)

a_{Echelle originelle : all meaning, most meaning, much}´

meaning, little meaning, none.

bEchelle originelle : flawless English, good English, non-native´

English, disfluent English, incomprehensible.

Il semble aussi difficile d’identifier une technique d’ évaluation automatique qui donnerait des r ésultats plus fiables qu’une autre. Par exemple, dans l’ édition 2009 du Workshop on

Statistical Machine Translation (Callison-Burch et al., 2009), les mesures les mieux corr ´el ´ees

aux jugements humains sont plut ôt des mesures combinant plusieurs mesures ou des mesures bas ées sur des correspondances entre structures s émantiques et syntaxiques. Dans l’ édition 2010 du m ême workshop (Callison-Burch et al., 2010), les meilleures mesures sont celles qui emploient des informations de surface telles que des n-grammes de lettres. Or, les jeux de donn ées utilis és dans l’ édition de 2009 et de 2010 sont quasi-similaires.

La stabilit é du comportement de ces mesures “objectives” face aux donn ées est aussi questionnable : les r ésultats de Callison-Burch et al. (2009, 2010) affichent d’importantes variations dans les performances d’une m ême mesure selon le couple de langue, le sens de traduction ou le niveau de granularit é de l’ évaluation consid ér ée.

Les mesures d’ évaluation objectives ont par ailleurs ét é critiqu ées par Blanchon et Boitet (2007) qui expliquent que ces derni ères sont d’autant moins corr él ées aux jugements humains que la qualit é de la traduction augmente. Ils d écrivent également une exp érience consistant à faire évaluer des traductions automatiques post- édit ées par des humains. Ces traductions sont jug ées de qualit é moindre que des traductions produites par des syst èmes automatiques, et ce, sur la base de mesures telles que BLEU, NIST, etc. Les auteurs s’appuient sur cette exp érience pour rappeler que ces mesures ne sont pas directement li ées à la qualit é des traductions mais qu’elles évaluent seulement la ressemblance avec une traduction de r éf érence, r éf érence qui est, de plus, consid ér ée comme discutable, tout particuli èrement en traduction.

2.1.1.2 Evaluation humaine de la TA´

L’ évaluation humaine consiste à pr ésenter des traductions de phrases à des humains qui doivent alors juger de leur qualit é. Cette m éthodologie a évolu é au cours des ann ées. En 2006, Koehn et Monz demandent à des juges de donner deux notes aux traductions sur une échelle de 1 à 5 (cf. tableau 2.1) : l’une concerne l’ad équation entre traduction et texte d’origine (conservation du sens) et l’autre concerne la fluidit é (bonne formation grammaticale). L’annotation des traductions se fait via une interface. Chaque juge peut voir le texte d’origine et annote cinq traductions à la fois, de façon à lui permettre de contraster les phrases et obtenir

accord accord inter-annotateur intra-annotateur

fluidit ´e 0,25 0,54

ad ´equation 0,23 0,47

classement des phrases 0,37 0,62 classement des constituants 0,54 0,74

TABLE 2.2 – Accord intra- et inter- annotateur lors du Workshop on Statistical Machine Translation de 2007 - (Callison-Burch et al., 2007)

temps moyen par ´el ´ement (secs.)

fluidit ´e et ad ´equation 26 classement des phrases 20 classement des constituants 11

TABLE2.3 – Temps d’annotation lors du Workshop on Statistical Machine Translation de 2007 - (Callison-Burch et al., 2007)

un meilleur jugement.

En 2007, Callison-Burch et al. testent deux autres m ´ethodes :

Classement des phrases Les juges doivent ordonner les phrases de la moins bien `a la mieux

traduite (avec la possibilit é d’ égalit és).

Classement de constituants syntaxiques M ˆeme principe que le classement des phrases,

sauf qu’il s’applique `a des traductions de syntagmes.

Ces deux m éthodes ont ét é rajout ées pour restreindre les possibilit és d’interpr étation car il s’est av ér é que les échelles d’ad équation et de fluidit é laissent beaucoup trop de place à la subjectivit é. Par exemple, il est difficile de cerner la valeur de majeure partie du sens (≪much meaning≫) dans l’ échelle d’ad équation. De plus, les juges ont du mal à noter s épar ément

l’ad équation et la fluidit é. À l’inverse, le classement, qui ram ène l’ évaluation à une simple comparaison, est plus simple à appr éhender.

Les deux m éthodes ont ét é compar ées en mesurant le degr é d’accord inter- et intra- annotateurs. La mesure utilis ée est le Kappa de Carletta (1996) (cf. annexe A.6). Comme indiqu é dans le tableau 2.2, la m éthode de classement obtient un accord intra- et inter- annotateur plus élev é. De plus, elle permet une annotation plus rapide (tableau 2.3). Le classement des constituants syntaxiques est lui m ême plus fiable et plus rapide que le classement des phrases.

Dans l’ édition 2008 du workshop, Callison-Burch et al. abandonnent la m éthode d’ évaluation bas ée sur l’ad équation et la fluidit é. À la place, ils proposent une m éthode plus simple, dans laquelle on pr ésente aux juges des traductions de constituants syntaxiques et on leur demande d’indiquer si la traduction est acceptable ou pas. Les juges ont aussi la possibilit é d’indiquer qu’ils ne sont “pas s ûrs”. Cette m éthode a obtenu le plus haut taux d’accord : 0,64 et 0,86 - respectivement inter- et intra- annotateur. Finalement, dans les éditions 2009 et 2010, seule la

m éthode consistant à classer les traductions a ét é gard ée.

Toute la difficult é de l’ évaluation humaine touche à sa subjectivit é et à son manque de reproductibilit é, puisque, comme le montre l’accord inter-annotateur, une m ême traduction n’est pas toujours jug ée de la m ême façon par les juges, ce qui peut faire douter de la fiabilit é de ces jugements. La solution consiste alors à juger la traduction sur la base d’un grand nombre de jugements, ce qui permet de neutraliser les diff érences individuelles. Blanchon et Boitet (2007) remarquent que les juges ont tendance à devenir plus s év ères sur la dur ée, ils indiquent aussi que le fait de former les juges augmente le taux d’accord. La pr éparation en question consiste à fournir aux juges une fiche d’instruction et à effectuer une premi ère évaluation à blanc. Les divergences sont ensuite discut ées afin de normaliser la notation.

Dans le document Traduction assistée par ordinateur et corpus comparables : contributions à la traduction compositionnelle (Page 64-69)