Crit ères d’ordonnancement - Extrait des sorties du syst ème ordonn ées

B.2 Textes à traduire et traductions de r éf érence

B.6.3 Extrait des sorties du syst `eme ordonn ´ees

7.1 Crit `eres d’ordonnancement

Nous avons test ´e quatre crit `eres d’ordonnancement :

1. La similarit ´e entre les contextes du terme source et les contextes du terme cible (section 7.1.1)

2. La fr ´equence du terme cible (section 7.1.2)

3. La probabilit ´e de traduction des parties du discours (section 7.1.3)

4. La fiabilit ´e des modes de traduction utilis ´es pour traduire les composants du terme source (section 7.1.4)

7.1.1 Similarit ´e des contextes

Ce crit ère d’ordonnancement, que nous notons C, correspond au score de similarit é obtenu avec la m éthode distributionnelle directe (section 1.2.1) et se base donc sur la m ême hypoth èse : plus deux termes tendent à apparaˆıtre dans des contextes similaires, plus il est possible qu’ils aient un sens proche et qu’ils soient des traductions l’un de l’autre.

L’implantation de la m éthode est identique à celle d écrite dans la section 1.3.1 : la taille des contextes est de 5 mots à droite et à gauche de la t ête du vecteur et la normalisation du nombre de co-occurrences est faite avec le taux de vraisemblance (cf. annexe p. 192). La traduction des vecteurs est faite à l’aide du dictionnaire g én éraliste bilingue (cf. section 5.5.1). Une traduction fertile est une unit é polylexicale : son vecteur de contexte correspond à un vecteur moyen calcul é à partir des vecteurs de chacun des mots lexicaux qui la composent.

La similarit é entre le vecteur du terme sources et le vecteur de sa traduction candidate t est calcul ée avec le jaccard pond ér é :

C(s, t) = Σm∈s∩tmin(T V (s, mi), T V (t, mi)) Σmi∈s∪tmax(T V (s, mi), T V (t, mi))

(7.1) o `uT V (x, mi) est le nombre de co-occurrences normalis ´e (taux de vraisemblance) entre le

termex et le mot de contexte mi.

7.1.2 Fr ´equence du terme cible

Avec ce crit ère (not éF ), nous faisons l’hypoth èse que plus le terme cible est fr équent, plus il est possible qu’il appartienne à la th ématique du corpus et donc qu’il soit une bonne traduction.

La fr ´equence du terme ciblet est donn ´ee par : F (t) = nbocc(t)

N (7.2)

o `unbocc(t) est le nombre d’occurrences de t dans le corpus cible et N le nombre total de mots dans le corpus cible.

7.1.3 Probabilit ´e de traduction des parties du discours

Ici, nous voulons capturer le fait que, par exemple, il est plus probable qu’un nom soit traduit par un nom ou par une suite Nom Pr´eposition Nom_{plut ˆot que par un adverbe (du moins pour la}

traduction de l’anglais vers le français). Ces probabilit és de traduction entre parties du discours, not éesP , ont ét é acquises à partir du corpus parall èle EMEA (Tiedemann, 2009). Ce corpus est constitu é de textes parall èles appartenant à l’Agence Europ éenne des M édicaments. Les textes appartiennent au domaine m édical. Ces textes sont align és au niveau phrastique et disponibles en ligne au format TMX1_{. Les alignements sous-phrastiques ont ét é r éalis és avec le}

logiciel d’alignement de LINGUA ETMACHINAqui correspond `a une implantation de l’algorithme ANYMALIGN(Lardilleux, 2010).

Nous avons segment é en mots, lemmatis é et étiquet é les textes avec l’analyseur XELDApuis extrait les alignements sous-phrastiques. Nous avons obtenu une table d’alignements A dans laquelle chaque alignement a ∈ A = {lems, poss, lemt, post, p(s|t), p(t|s)} o ù lems,

respectivementlemt, sont le(s) lemme(s) du segment sous-phrastique source, respectivement

cible ;poss, respectivement post, sont le(s) partie(s) du discours du segment sous-phrastique

source, respectivement cible ;p(s|t), respectivement p(t|s), est la probabilit ´e de traduction du segment cible vers le source, respectivement source vers le cible.

La probabilit ´e qu’une traduction candidate ayant le(s) partie(s) du discoursy soit la traduction d’un terme source ayant la partie du discoursx correspond `a :

Pour calculer les probabilit és de traduction, nous n’avons retenu que les alignements dans lesquels une unit é lexicale source était align ée avec une ou plusieurs unit és lexicales cibles. Pour les deux couples de langues, nous avons rencontr é des unit és lexicales cibles d’au maximum cinq mots (mots outils et mots lexicaux)2_.

A partir d’un corpus anglais-allemand de 363 982 phrases align ées, nous avons acquis des probabilit és de traduction pour 108 612 paires de suites de parties du discours. Pour l’anglais-français, nous avons acquis environ 191 854 paires de suites de parties du discours. Le corpus de d épart contenait 373 127 phrases align ées. Un extrait du lexique final est donn é dans l’annexe B.3.6.

7.1.4 Mode de traduction des composants

Comme certains modes de traduction d’un composant sont plus fiables que d’autres, nous avons d éfini un crit ère de fiabilit é not éM qui prend en compte la façon dont a ét é traduit chacun des composants du terme source. Par exemple, on peut supposer qu’un composant traduit par le dictionnaire g én éraliste aura une traduction plus correcte qu’un composant traduit avec le dictionnaire de cognats.

Nous distinguons dix modes de traduction : – Le composant correspond `a un mot :

– le mot est traduit directement :

– via le dictionnaire g ´en ´eraliste (modeDICO) ;

– via le dictionnaire de cognats (modeCOGN).

– le mot est traduit indirectement :

1. http ://opus.lingfil.uu.se/EMEA.php

2. Les traductions candidates g én ér ées en français font au maximum cinq mots également. En ce qui concerne les traductions candidates en allemand, quatre d’entre elles ont plus de cinq mots, ce qui repr ésente 0,19% de la totalit é des traductions g én ér ées en allemand.

– via le dictionnaire g ´en ´eraliste et les familles morphologiques (modeMORPHO) ;

– via le dictionnaire g ´en ´eraliste et le dictionnaire de synonymes (modeSYNO) ;

– via le dictionnaire de cognats et les familles morphologiques (mode

MORPHOCOGN) ;

– via le dictionnaire de cognats et le dictionnaire de synonymes (modeSYNOCOGN).

– Le composant correspond à un morph ème li é, il est traduit via la table de traduction des morph èmes :

– pr ´efixe traduit par un pr ´efixe (modePREF) ;

– confixe traduit par un confixe (modeCONF) ;

– suffixe traduit par un suffixe (modeSUFF) ;

– pr ´efixe, confixe ou suffixe traduit par un mot (modeFERT).

La traduction d’un terme source peut avoir ét é g én ér ée de plusieurs mani ères. Par exemple, la traductionfa¸con anormal a ét é g én ér ée de quatre mani ères diff érentes comme indiqu é dans le tableau 7.1 :

d ´ecomposition traduction recomposition 1 {ab, normal, ly} {a:PREF, normal:DICO, fa¸con:FERT} {fa¸con, anormal} 2 {ab, normal, ly} {a:PREF, normal:COGN, fa¸con:FERT} {fa¸con, anormal} 3 {abnormal, ly} {anormal:DICO, fa¸con:FERT} {fa¸con, anormal} 4 {abnormal, ly} {anormal:COGN, fa¸con:FERT} {fa¸con, anormal}

TABLE7.1 – Exemple de traduction candidate issue de multiples g ´en ´erations

– La g én ération 1 a d écoup éabnormally en ab-, normal et -ly. Le pr éfixe ab- a ét é traduit par le pr éfixe a-, le mot normal a ét é traduit gr âce au dictionnaire g én éraliste en normal et le suffixe -ly a ét é traduit par le mot fa¸con.

– La g én ération 2 a suivi le m ême processus si ce n’est que la traduction de normal a ét é obtenue via le dictionnaire de cognats.

– Dans la g én ération 3, le terme source a ét é d écoup é en abnormal et -ly, abnormal a ét é traduit via le dictionnaire g én éraliste et -ly a ét é traduit par fa¸con.

– Dans la quatri ème g én ération, abnormal a ét é traduit par le dictionnaire de cognats. L’ étape de recomposition donne le m ême patron de terme cible : fa¸con suivi de anormal. Ce patron est recherch é dans le corpus cible et nous obtenons la traduction fa¸con/Nom anormal/Adjectif (≪...des gènes protecteurs contre le développement de tumeurs sont réduits

au silence de fa¸con anormale.≫).

Quel que soit le nombre de g én érations ayant permis d’obtenir le terme ciblefa¸con anormal , au final, nous ne comptons qu’une et une seule traduction :abnormally → fa¸con anormal . Ce ph énom ène de g én ération multiple est beaucoup plus marqu é pour le français (4,27 g én érations diff érentes par traduction) que pour l’allemand (2,43).

Lorsque nous calculons le crit èreM pour un terme cible t, nous prenons en compte tous les modes de traduction utilis és par toutes les g én érations qui ont permis d’obtenir le terme cible :

M (t) = P g∈G(t) P c∈gf iabilite(m(c)) P g∈G(t)|c ∈ g| (7.4) o ùG(t) est l’ensemble des g én érations ayant donn é t, chaque c ∈ g est un des composants de la g én érationg et f iabilite(m(c)) est la fiabilit é du mode de traduction m de c.

Dans notre exemple, siP REF = 0, 6 ; DICO = 0, 5 ; COGN = 0, 6 ; et F ERT = 0, 4 ; alors, le score de fiabilit ´e defa¸con anormal est de 0, 5 :

M (fac¸on anormal) = 2 × 0, 6 + 2 × 0, 5 + 2 × 0, 6 + 4 × 0, 4

10 (7.5)

La fiabilit é de chaque mode de traduction a ét é calcul ée sur notre jeu de donn ées d’entraˆınementT d écrit en section 5.4. Pour un mode de traduction m, sa fiabilit é est donn ée par :

f iabilite(m) = |{g : m ∈ g, A(t(g)) ∈ {EXACT}}|

|{g : m ∈ g}| (7.6)

o ù{g : m ∈ g} sont toutes les g én érations qui ont utilis é le mode de construction m et A(t(g)) est l’annotation du terme ciblet donn é par la g én ération g.

Les valeurs obtenues sont donn ´ees dans le tableau 7.2.

On observe que les composants traduits avec le dictionnaire g én éraliste sont moins fiables que ceux traduits avec le dictionnaire de cognats, quelle que soit la langue. Ceci confirme une fois de plus l’int ér êt d’enrichir le dictionnaire bilingue avec des cognats identifi és dans le corpus comparable.

Les composants traduits de façon indirecte (ressource bilingue + ressource de variation) sont parmi les moins fiables. La combinaison cognats et variantes morphologiques est la plus s ûre, suivie par la combinaison dictionnaire g én éraliste + synonymes, puis la combinaison dictionnaire g én éraliste + variantes morphologiques. La combinaison cognats + synonymes est le mode de traduction le moins fiable des dix modes de traduction, en particulier pour l’allemand. Les modes de traduction les plus fiables sont les traductions non fertiles des confixes et des suffixes. Les pr éfixes sont également tr ès fiables pour l’allemand mais pas pour le français. La faible fiabilit é des pr éfixes pour le français est surprenante, d’autant plus que les exp ériences d écrites en section 6.3.2 indiquaient une bonne pr écision pour la traduction des mots pr éfix és. En analysant des sorties du syst ème, nous avons observ é qu’en français, la ou les bases lexicales contenues dans les termes avec pr éfixe sont dans leur grande majorit é (71 %) traduites en utilisant des ressources de variation, ce qui peut faire baisser la qualit é de la traduction. Ce ph énom ène est moins marqu é en allemand (66 %).

La traduction fertile est le deuxi `eme mode de traduction le moins fiable, particuli `erement pour l’allemand.

7.2 Combinaison de crit `eres

7.2.1 Standardisation des valeurs

Nos crit ères d’ordonnancement ont tous une valeur entre 0 et 1 mais ils pr ésentent des échelles de valeur tr ès diff érentes. Par exemple, pour le crit ère de la fr équence, les valeurs sont tr ès basses (< 0,005) alors que pour la fiabilit é des modes de traductions, les valeurs varient entre 0,19 et 0,92. Or si nous combinons les valeurs brutes, les crit ères avec des valeurs tr ès basses seront compl ètement occult és par les crit ères avec des valeurs plus hautes.

Nous avons standardis é nos valeurs en suivant la m éthode d écrite par Gendre (1977, p. 48- 50) : les valeurs observ ées sont remplac ées par leur percentile puis le percentile est transform é en score-z à l’aide de la table de la loi normale. Les d étails de la standardisation sont donn és dans l’annexe A.4, p. 194.

EN-FR EN-DE DICO 0,49 0,38 COGN 0,57 0,48 MORPHO 0,34 0,29 SYNO 0,43 0,32 MORPHOCOGN 0,41 0,37 SYNOCOGN 0,21 0,05 PREF 0,61 0,79 CONF 0,79 0,67 SUFF 0,63 0,92 FERT 0,37 0,19

TABLE7.2 – Fiabilit ´e des modes de traduction

7.2.2 Combinaison lin ´eaire

Nos premi ères exp ériences ont consist é à combiner chacun des crit ères :

score(t) = αC + βF + γP + δM (7.7) o `uα, β, γ et δ sont des coefficients pond ´erateurs (0 ≤ α, β, γ, δ ≤ 1 et α + β + γ + δ = 1).

Nous avons r éalis é deux exp ériences. Dans la premi ère, tous les coefficients pond érateurs se valent : nous consid érons que les crit ères sont autant informatifs les uns que les autres. Dans la seconde exp érience, nous avons attribu é un poids diff érent à chaque crit ère : ici, nous consid érons que certains crit ères sont plus informatifs que d’autres, ils doivent donc avoir un poids plus fort. Les poids ont ét é appris automatiquement sur le jeu de donn ées d’entraˆınement T (cf. section 5.4) en utilisant l’algorithme 6 : nous avons simplement test é plusieurs jeux de poids possibles et retenu celui qui donnait la meilleure pr écision sur le Top1.

Les poids obtenus sont consultables dans le tableau 7.3. Fr équence du terme cible et partie du discours ont des poids équivalents. Le crit ère ayant reçu le meilleur poids est celui des modes de traduction.

La similarit é des contextes est le crit ère ayant reçu le plus petit poids. Si ce crit ère est le moins informatif, c’est probablement parce que les termes sources et cibles sont g én éralement peu fr équents : entre 73 % et 81 % ont 5 occurrences ou moins dans le corpus (cf. tableaux 7.11 et 7.12). Ceci montre l’int ér êt d’avoir recours à la traduction compositionnelle plut ôt qu’ à l’approche distributionnelle pour les termes complexes.

Comme l’atteste l’ ´ecart moyen calcul ´e pour chaque coefficient3_{, les valeurs des coefficients}

sont stables quel que soit le couple de langues. Ceci semble indiquer que l’importance à donner à chaque crit ère d’ordonnancement est ind épendante des langues en jeu dans la traduction. Il serait int éressant de v érifier cette hypoth èse sur d’autres couples de langues. Si l’hypoth èse s’av érait exacte, il serait alors possible d’utiliser des donn ées parall èles dans des langues bien dot ées pour apprendre les coefficients pond érateurs et les appliquer à des langues peu dot ées.

3. Moyenne des valeurs absolues des ´ecarts `a la moyenne : 1 n

i=1|xi− ¯x|.

Il serait également int éressant de voir si les coefficients sont stables pour un m ême couple de langues mais sur des domaines de sp écialit é diff érents.

Crit `ere EN-FR EN-DE ´ecart moyen

ContexteC (coeff. α) 0,12 0,15 0,015 Fr équenceF (coeff. β) 0,24 0,22 0,010 Partie du discoursP (coeff. γ) 0,25 0,26 0,005 Modes de traductionM (coeff. δ) 0,39 0,37 0,010 TABLE7.3 – Poids accord és à chaque crit ère d’ordonnancement

7.2.3 Apprentissage d’un mod `ele d’ordonnancement

Dans un deuxi ème temps, nous avons exp ériment é des algorithmes de learning-to-rank. Pour cela, nous nous sommes bas és sur la librairie RankLib4 _{qui met à disposition des}

implantations de divers algorithmes de learning-to-rank. Parmi les algorithmes implant és, nous avons s électionn é ceux qui appartiennent à la famille des algorithmes list-wise : ADARANK(Li et Xu, 2007), COORDINATEASCENT(Metzler et Croft, 2000) et LAMBDAMART (Wu et al., 2010).

ADARANKet LAMBDAMART sont bas és sur la technique de boosting. Le boosting consiste à combiner les r ésultats donn és par plusieurs mod èles habituellement plus simples et moins performants (pris isol ément) qu’un mod èle g én éral. Ces mod èles sont appris un par un, le poids de chaque exemple du jeu de donn ées étant r é évalu é en fonction des erreurs du mod èle appris pr éc édemment (les exemples mal classifi és voient leur poids augmenter ; les exemples bien classifi és voient leur poids diminuer). COORDINATE ASCENT, quant à lui, apprend un mod èle

lin éaire. Il doit son nom à la technique employ ée pour optimiser le choix des param ètres. Les variables fournies aux algorithmes sont les quatre crit ères C, F , P et M . Les valeurs ont ét é pr éalablement standardis ées en suivant la m éthode d écrite en section 7.2.1. Les param ètres propos és par la librairie RankLib offrent la possibilit é de sp écifier une mesure à optimiser pour les algorithmes list-wise. Nous avons choisi d’optimiser la pr écision sur le Top1. Tous les autres param ètres ont ét é laiss és avec leur valeur par d éfaut. L’apprentissage du mod èle a ét é fait sur le jeu de donn éesT .

7.3 Evaluation´

7.3.1 R ´eference et mesures d’ ´evaluation

Les m éthodes d’ordonnancement ont ét é évalu ées sur le jeu de donn ées E (d écrit en section 5.4) qui correspond aux termes sources de la r éf érence a priori pour lesquels le syst ème a pu g én érer une traduction. Les donn ées d’entraˆınement (utilis ées pour l’apprentissage des scores de fiabilit é, des poids de la combinaison lin éaire et des mod èles d’ordonnancement) correspondent au jeu de donn éesT , c’est- à-dire les termes sources n’appartenant pas à la r éf érence a priori et pour lesquels le syst ème a pu g én érer une traduction. Les ensembles de donn éesE et T sont disjoints.

4. http://people.cs.umass.edu/ vdang/ranklib.html

Algorithme 6 Trouver les meilleurs poids Require: training data

step ← 0.01 best precision ← 0 best weight set ← ∅

for α = 0 ; α <= 1 ; α = α + step do for β = 0 ; β <= 1 ; β = β + step do for γ = 0 ; γ <= 1 ; γ = γ + step do for δ = 0 ; δ <= 1 ; δ = δ + step do if not α + β + γ + δ == 1 then continue end if exact ← 0 total ← 0

for all source term, translations in training data do

ranked translations ← rank(translations, {α, β, γ, δ})

if ranked translations[0] isEXACTthen

exact+ = 1

end if

total+ = 1

end for

precision = exact/total

if precision > best precision then

best precision ← precision best weight set ← {α, β, γ, δ}

end if end for end for end for end for

return best weight set

La mesure d’ évaluation est la pr écision sur leT opN , soit la fraction de termes sources qui ont au moins une traduction correcte parmi lesN premi ères traductions candidates :

T opN = 1 |S| |S| X j=1 α(TjN, R_j) (7.8) α(TjN, R_j) = 1 siTjN ∩ R_j6= ∅ 0 sinon o `u :

– S est l’ensemble des termes sources

– TjN est l’ensemble desN premi `eres traductions candidates pour le terme source j

– Rj est l’ensemble des traductions correctes pour le terme sourcej

La d éfinition d’une traduction “correcte” peut varier : soit ce sont uniquement les traductions donn ées par l’UMLS (dans ce cas, la pr écision est not ée P) ; soit ce sont les traductions de l’UMLS ou les traductions annot ées EXACT par les traducteurs (pr écision not ée PE) ; soit ce

sont les traductions de l’UMLS ou les traductions annot éesEXACT ouACCEPTABLE(pr écision not ée PEA).

7.3.2 Bases de comparaison

Nous avons utilis é six bases de comparaison. La base de comparaison basse (ALEATOIRE´ ) correspond à la pr écision obtenue lorsque les traductions sont ordonn ées al éatoirement (la pr écision indiqu ée est une moyenne sur 100 ordonnancements al éatoires). La base de comparaison haute (MEILLEURE PRECISION POSSIBLE´ ) correspond à la pr écision qui serait obtenue si la meilleure traduction était toujours plac ée au rang 1. Les quatres autres bases de comparaisonC, F , P et M correspondent à chacun des quatres crit ères utilis és s épar ément. Afin d’appr éhender la difficult é de la t âche, nous indiquons dans la figure 7.1 le nombre de traductions par terme source pour chaque couple de langues.

Pour les traductions anglais → franc¸ais, on observe que presque les deux-tiers (64 %) des termes sources n’ont qu’une seule traduction candidate. 13 % d’entre eux ont deux traductions candidates et 23 % d’entre eux ont plus de deux traductions candidates. Le nombre maximum de traductions candidates est 13.

Pour les traductions anglais → allemand, la t ˆache est un peu plus difficile : seulement une petite moiti ´e (46 %) des termes sources ont une seule traduction candidate, un quart d’entre eux (24 %) ont deux traductions candidates et 29 % ont plus de deux traductions candidates. Le nombre maximum de traductions candidates est 28.

7.3.3 R ´esultats obtenus

Nous donnons, pour chaque couple de langues, la pr écision obtenue sur le Top 1 à 5. Nous indiquons également le “Rang pr écision maximum”, c’est- à-dire le rang à partir duquel la meilleure pr écision possible a ét é atteinte.

FIGURE7.1 – Nombre de traductions par terme source

7.3.3.1 Ordonnancement des traductions anglais → franc¸ais

Les r ésultats sont donn és dans les tableaux 7.4 (P), 7.5 (PE) et 7.6 (PEA). Les m éthodes

sont ordonn ées par leur pr écision sur le Top1 d écroissante puis le Top2, puis le Top3.

On observe que, quelle que soit la d éfinition que l’on a d’une traduction correcte (UMLS, EXACT, ACCEPTABLE...), les m éthodes qui se d étachent sont la COMBINAISON NON PONDER´ EE´ et la COMBINAISON PONDER´ EE´ suivies de COORDINATEASCENT, LAMBDAMART et le crit èreM . Nous notons aussi que toutes les m éthodes test ées font syst ématiquement mieux que le classement al éatoire. C’est particuli èrement visible avec les traductions de l’UMLS

Dans le document Traduction assistée par ordinateur et corpus comparables : contributions à la traduction compositionnelle (Page 187-200)