• Aucun résultat trouvé

1.4 Synth `ese

2.1.1 L’ ´evaluation en traduction automatique

2.1.3 Discussion . . . 50

2.2 Conception et exp ´erimentation d’un protocole d’ ´evaluation applicative . . . . 51

2.2.1 Reflexions m ´ethodologiques . . . 51 2.2.2 Exp ´erimentation du protocole . . . 54 2.2.3 R ´esultats obtenus . . . 58

2.3 Discussion . . . . 65

Introduction

Le but de ce chapitre est de proposer et d’exp ´erimenter un protocole d’ ´evaluation applicative des lexiques bilingues issus de corpus comparables et destin ´es `a la traduction sp ´ecialis ´ee. Pour cela, nous allons nous appuyer sur le prototype d ´evelopp ´e `a LINGUA ET MACHINA que nous avons d ´ecrit dans la section 1.31.

`

A notre connaissance, les lexiques issus de corpus comparables ont ´et ´e ´evalu ´es en termes applicatifs uniquement dans le cadre de la recherche d’information cross-lingue et de la traduction automatique.

En recherche d’information cross-lingue, Li et al. (2011) augmentent le dictionnaire bilingue utilis ´e par le moteur de recherche `a l’aide de traductions extraites de corpus comparables.

1. Le travail pr ´esent ´e s’inscrit dans un des lots de travail du projet ANR METRICCauquel nous avons particip ´e. Notre participation `a ce lot de travail a concern ´e uniquement la conception du protocole ainsi qu’une premi `ere exp ´erimentation du protocole visant `a r ˆoder le processus d’ ´evaluation. L’ ´evaluation proprement dite a ´et ´e men ´ee par le Dr. Planas de l’Universit ´e Catholique de l’Ouest avec un plus grand nombre de participants.

Ils d ´emontrent que la combinaison des ressources g ´en ´eralistes et du lexique issu du corpus comparable am ´eliorent significativement les r ´esultats du syst `eme (jusqu’ `a + 0,016 points de MAP).

En traduction automatique, Carpuat et al. (2012) utilisent les corpus comparables pour adapter les syst `emes de traduction `a un domaine de sp ´ecialit ´e. L’inclusion des traductions issues du corpus comparable dans le syst `eme de traduction fait gagner de 2 `a 3 points de BLEU en fonction des corpus.

En ce qui concerne la traduction (humaine) sp ´ecialis ´ee, nous allons ´egalement adopter une approche contrastive : partant d’une situation de base (le traducteur dispose uniquement de ressources bilingues g ´en ´eralistes), nous allons observer si la mise `a disposition de lexiques issus de corpus comparables en plus des ressources g ´en ´eralistes permet effectivement d’am ´eliorer la qualit ´e finale des traductions. Nous emploierons ´egalement une deuxi `eme base de comparaison, qui elle, correspondra `a la situation habituelle du traducteur, dans laquelle il a `a sa disposition toutes sortes de ressources sp ´ecialis ´ees en plus des dictionnaires g ´en ´eralistes. Une fois les traductions produites, se posera alors la question de l’ ´evaluation de leur qualit ´e. Si la recherche d’information crosslingue et la traduction automatique disposent de mesures de r ´ef ´erence, ce n’est pas le cas pour la traduction humaine.

C’est pourquoi nous nous sommes pench ´es dans la section 2.1 sur les m ´ethodologies d’ ´evaluation utilis ´ees `a la fois en traduction automatique (section 2.1.1) et en traductologie (2.1.2). Bien que nous souhaitions, au final, ´evaluer des traductions humaines, il nous a sembl ´e int ´eressant de s’enqu ´erir des techniques employ ´ees en traduction automatique, d’autant plus qu’elles sont nettement plus op ´erationnelles que celles rencontr ´ees en traductologie.

Dans la section 2.2, nous exposons le protocole d’ ´evaluation que nous avons mis au point et d ´ecrivons sa mise en œuvre ainsi que les r ´esultats obtenus. La section 2.3 dresse un bilan de notre exp ´erience et propose de nouvelles pistes de recherche.

2.1

M ´ethodologies d’ ´evaluation de la qualit ´e des traductions

2.1.1

L’ ´evaluation en traduction automatique

L’ ´evaluation en traduction automatique (TA) remplit deux objectifs. D’une part, il s’agit d’analyser, lors du d ´eveloppement d’un syst `eme de TA, les impacts d’une modification du syst `eme sur la qualit ´e des traductions. D’autre part, l’ ´evaluation permet de comparer les syst `emes entre eux, g ´en ´eralement lors de campagnes d’ ´evaluation de grande envergure. `A ces deux objectifs correspondent deux techniques d’ ´evaluation.

Pour une ´evaluation lors du d ´eveloppement du syst `eme, les mesures utilis ´ees sont des mesures calculables automatiquement `a partir de traductions de r ´ef ´erence, on parle alors d’ ´evaluation automatique ou d’ ´evaluation objective. Ces mesures, simples et peu co ˆuteuses `a mettre en œuvre, restent n ´eanmoins perc¸ues comme les substituts pratiques d’une ´evaluation bien plus co ˆuteuse mais jug ´ee meilleure : l’ ´evaluation humaine.

L’ ´evaluation humaine ou ´evaluation subjective est celle utilis ´ee dans les campagnes d’ ´evaluation du Statistical Workshop on Machine Translation de l’ACL dont les r ´esultats des derni `eres ´editions sont donn ´es par Koehn et Monz (2006) et Callison-Burch et al. (2007, 2008, 2009, 2010). Elle consiste `a demander `a des juges de noter la qualit ´e des traductions. On imagine facilement le co ˆut en termes de temps, d’organisation et de formation des juges, sans compter que les r ´esultats sont difficilement reproductibles. Toutefois, le consensus actuel est

en faveur de l’ ´evaluation humaine, jug ´ee comme plus `a m ˆeme de rendre compte de la qualit ´e d’une traduction.

Dans les parties suivantes, nous rendons compte des techniques d’ ´evaluation automatique (section 2.1.1.1) et des techniques d’ ´evaluation par des humains (section 2.1.1.2).

2.1.1.1 Mesures pour l’ ´evaluation automatique

L’ ´evaluation automatique mesure la qualit ´e d’une traduction de fac¸on indirecte : on n’ ´evalue pas la qualit ´e de la traduction elle-m ˆeme mais sa ressemblance avec une traduction de r ´ef ´erence produite par un traducteur professionnel. `A d ´efaut de pouvoir manipuler et comparer des param `etres linguistiques tels que la conservation du sens ou la fluidit ´e du texte, les mesures d’ ´evaluation emploient des indices de surface comme les mots ou suites de mots communs entre traduction ´evalu ´ee et traduction de r ´ef ´erence.

La mesure la plus connue et certainement la plus utilis ´ee est BLEU de Papineni et al. (2002). Elle s’appuie sur les crit `eres suivants :

– le nombre den-grammes de mots communs `a la traduction `a ´evaluer et `a la traduction de r ´ef ´erence, pourn allant de 1 `a 4 ;

– les diff ´erences de taille (en nombre de mots) entre traduction `a ´evaluer et `a la traduction de r ´ef ´erence ;

– les possibilit ´es de variation dans la traduction : un m ˆeme texte pouvant ˆetre traduit de plusieurs fac¸ons diff ´erentes, le score BLEU peut ˆetre calcul ´e avec plusieurs traductions de r ´ef ´erence, de fac¸on `a autoriser plus de variation dans les formulations.

`

A la suite de BLEU, d’autres m ´etriques ont ´et ´e propos ´ees dans le but d’am ´eliorer la justesse de l’ ´evaluation des syst `emes de TA. Parmi les mesures concurrentes `a BLEU, on trouve :

NIST (Doddington, 2002) : ´equivalente `a BLEU, si ce n’est que les n-grammes sont pond ´er ´es

en fonction de leur fr ´equence (les n-grammes les plus fr ´equents ´etant jug ´es moins informatifs) et que la pr ´ecision globale est calcul ´ee en utilisant la moyenne arithm ´etique au lieu de g ´eom ´etrique.

Une adaptation de la F-mesure (Turian et al., 2003) : Cette mesure a ´et ´e conc¸ue dans le

but d’ ˆetre facilement “interpr ´etable” : elle est emprunt ´ee `a la recherche d’information. Rappel et pr ´ecision sont dans ce cas calcul ´es sur le nombre de n-grammes communs

`a la traduction `a ´evaluer et `a la traduction de r ´ef ´erence.

Meteor (Banerjee et Lavie, 2005) : associe pr ´ecision et rappel calcul ´es sur des unigrammes

de mots `a une mesure prenant en compte l’ordre des mots. En plus des mots identiques, Meteor consid `ere ´egalement les mots semblables tels que les variantes morphologiques ou les synonymes. Un des buts de cette mesure est de permettre une ´evaluation au niveau de la phrase, alors que les autres mesures ne fonctionnent bien que lorsque l’on ´evalue tout un corpus de traductions.

TER (Snover et al., 2006) : calcule le nombre d’op ´erations d’ ´edition n ´ecessaires pour parvenir

de la traduction ´evalu ´ee `a la traduction de r ´ef ´erence.

Ces mesures d’ ´evaluation peuvent elles-m ˆemes ˆetre m ´eta- ´evalu ´ees en calculant leur corr ´elation avec des jugements humains. Les m ´etriques sont ´evalu ´ees sur un corpus de traductions - elles sont dans ce cas plut ˆot fiables - ou des phrases. D’apr `es Callison-Burch

et al. (2009), l’ ´evaluation automatique de traductions de phrases reste un probl `eme ouvert : les

meilleures m ´etriques sont coh ´erentes avec les jugements humains dans 54 % des cas, alors que la probabilit ´e d’un accord al ´eatoire entre m ´etrique automatique et jugement humain est de 0,5.

Ad ´equationa Fluidit ´eb

5 tout le sens anglais sans fautes 4 majeure partie du sens bon anglais

3 une partie du sens anglais non-natif 2 peu de sens mauvais anglais 1 aucun sens incompr ´ehensible TABLE2.1 – ´Echelles d’ ´evaluation de l’ad ´equation et de la fluidit ´e utilis ´ees par Koehn et Monz (2006)

aEchelle originelle : all meaning, most meaning, much´

meaning, little meaning, none.

bEchelle originelle : flawless English, good English, non-native´

English, disfluent English, incomprehensible.

Il semble aussi difficile d’identifier une technique d’ ´evaluation automatique qui donnerait des r ´esultats plus fiables qu’une autre. Par exemple, dans l’ ´edition 2009 du Workshop on

Statistical Machine Translation (Callison-Burch et al., 2009), les mesures les mieux corr ´el ´ees

aux jugements humains sont plut ˆot des mesures combinant plusieurs mesures ou des mesures bas ´ees sur des correspondances entre structures s ´emantiques et syntaxiques. Dans l’ ´edition 2010 du m ˆeme workshop (Callison-Burch et al., 2010), les meilleures mesures sont celles qui emploient des informations de surface telles que des n-grammes de lettres. Or, les jeux de donn ´ees utilis ´es dans l’ ´edition de 2009 et de 2010 sont quasi-similaires.

La stabilit ´e du comportement de ces mesures “objectives” face aux donn ´ees est aussi questionnable : les r ´esultats de Callison-Burch et al. (2009, 2010) affichent d’importantes variations dans les performances d’une m ˆeme mesure selon le couple de langue, le sens de traduction ou le niveau de granularit ´e de l’ ´evaluation consid ´er ´ee.

Les mesures d’ ´evaluation objectives ont par ailleurs ´et ´e critiqu ´ees par Blanchon et Boitet (2007) qui expliquent que ces derni `eres sont d’autant moins corr ´el ´ees aux jugements humains que la qualit ´e de la traduction augmente. Ils d ´ecrivent ´egalement une exp ´erience consistant `a faire ´evaluer des traductions automatiques post- ´edit ´ees par des humains. Ces traductions sont jug ´ees de qualit ´e moindre que des traductions produites par des syst `emes automatiques, et ce, sur la base de mesures telles que BLEU, NIST, etc. Les auteurs s’appuient sur cette exp ´erience pour rappeler que ces mesures ne sont pas directement li ´ees `a la qualit ´e des traductions mais qu’elles ´evaluent seulement la ressemblance avec une traduction de r ´ef ´erence, r ´ef ´erence qui est, de plus, consid ´er ´ee comme discutable, tout particuli `erement en traduction.

2.1.1.2 Evaluation humaine de la TA´

L’ ´evaluation humaine consiste `a pr ´esenter des traductions de phrases `a des humains qui doivent alors juger de leur qualit ´e. Cette m ´ethodologie a ´evolu ´e au cours des ann ´ees. En 2006, Koehn et Monz demandent `a des juges de donner deux notes aux traductions sur une ´echelle de 1 `a 5 (cf. tableau 2.1) : l’une concerne l’ad ´equation entre traduction et texte d’origine (conservation du sens) et l’autre concerne la fluidit ´e (bonne formation grammaticale). L’annotation des traductions se fait via une interface. Chaque juge peut voir le texte d’origine et annote cinq traductions `a la fois, de fac¸on `a lui permettre de contraster les phrases et obtenir

accord accord inter-annotateur intra-annotateur

fluidit ´e 0,25 0,54

ad ´equation 0,23 0,47

classement des phrases 0,37 0,62 classement des constituants 0,54 0,74

TABLE 2.2 – Accord intra- et inter- annotateur lors du Workshop on Statistical Machine Translation de 2007 - (Callison-Burch et al., 2007)

temps moyen par ´el ´ement (secs.)

fluidit ´e et ad ´equation 26 classement des phrases 20 classement des constituants 11

TABLE2.3 – Temps d’annotation lors du Workshop on Statistical Machine Translation de 2007 - (Callison-Burch et al., 2007)

un meilleur jugement.

En 2007, Callison-Burch et al. testent deux autres m ´ethodes :

Classement des phrases Les juges doivent ordonner les phrases de la moins bien `a la mieux

traduite (avec la possibilit ´e d’ ´egalit ´es).

Classement de constituants syntaxiques M ˆeme principe que le classement des phrases,

sauf qu’il s’applique `a des traductions de syntagmes.

Ces deux m ´ethodes ont ´et ´e rajout ´ees pour restreindre les possibilit ´es d’interpr ´etation car il s’est av ´er ´e que les ´echelles d’ad ´equation et de fluidit ´e laissent beaucoup trop de place `a la subjectivit ´e. Par exemple, il est difficile de cerner la valeur de majeure partie du sens (much meaning≫) dans l’ ´echelle d’ad ´equation. De plus, les juges ont du mal `a noter s ´epar ´ement

l’ad ´equation et la fluidit ´e. `A l’inverse, le classement, qui ram `ene l’ ´evaluation `a une simple comparaison, est plus simple `a appr ´ehender.

Les deux m ´ethodes ont ´et ´e compar ´ees en mesurant le degr ´e d’accord inter- et intra- annotateurs. La mesure utilis ´ee est le Kappa de Carletta (1996) (cf. annexe A.6). Comme indiqu ´e dans le tableau 2.2, la m ´ethode de classement obtient un accord intra- et inter- annotateur plus ´elev ´e. De plus, elle permet une annotation plus rapide (tableau 2.3). Le classement des constituants syntaxiques est lui m ˆeme plus fiable et plus rapide que le classement des phrases.

Dans l’ ´edition 2008 du workshop, Callison-Burch et al. abandonnent la m ´ethode d’ ´evaluation bas ´ee sur l’ad ´equation et la fluidit ´e. `A la place, ils proposent une m ´ethode plus simple, dans laquelle on pr ´esente aux juges des traductions de constituants syntaxiques et on leur demande d’indiquer si la traduction est acceptable ou pas. Les juges ont aussi la possibilit ´e d’indiquer qu’ils ne sont “pas s ˆurs”. Cette m ´ethode a obtenu le plus haut taux d’accord : 0,64 et 0,86 - respectivement inter- et intra- annotateur. Finalement, dans les ´editions 2009 et 2010, seule la

m ´ethode consistant `a classer les traductions a ´et ´e gard ´ee.

Toute la difficult ´e de l’ ´evaluation humaine touche `a sa subjectivit ´e et `a son manque de reproductibilit ´e, puisque, comme le montre l’accord inter-annotateur, une m ˆeme traduction n’est pas toujours jug ´ee de la m ˆeme fac¸on par les juges, ce qui peut faire douter de la fiabilit ´e de ces jugements. La solution consiste alors `a juger la traduction sur la base d’un grand nombre de jugements, ce qui permet de neutraliser les diff ´erences individuelles. Blanchon et Boitet (2007) remarquent que les juges ont tendance `a devenir plus s ´ev `eres sur la dur ´ee, ils indiquent aussi que le fait de former les juges augmente le taux d’accord. La pr ´eparation en question consiste `a fournir aux juges une fiche d’instruction et `a effectuer une premi `ere ´evaluation `a blanc. Les divergences sont ensuite discut ´ees afin de normaliser la notation.