• Aucun résultat trouvé

B.2 Textes `a traduire et traductions de r ´ef ´erence

B.6.3 Extrait des sorties du syst `eme ordonn ´ees

7.1 Crit `eres d’ordonnancement

Nous avons test ´e quatre crit `eres d’ordonnancement :

1. La similarit ´e entre les contextes du terme source et les contextes du terme cible (section 7.1.1)

2. La fr ´equence du terme cible (section 7.1.2)

3. La probabilit ´e de traduction des parties du discours (section 7.1.3)

4. La fiabilit ´e des modes de traduction utilis ´es pour traduire les composants du terme source (section 7.1.4)

7.1.1

Similarit ´e des contextes

Ce crit `ere d’ordonnancement, que nous notons C, correspond au score de similarit ´e obtenu avec la m ´ethode distributionnelle directe (section 1.2.1) et se base donc sur la m ˆeme hypoth `ese : plus deux termes tendent `a apparaˆıtre dans des contextes similaires, plus il est possible qu’ils aient un sens proche et qu’ils soient des traductions l’un de l’autre.

L’implantation de la m ´ethode est identique `a celle d ´ecrite dans la section 1.3.1 : la taille des contextes est de 5 mots `a droite et `a gauche de la t ˆete du vecteur et la normalisation du nombre de co-occurrences est faite avec le taux de vraisemblance (cf. annexe p. 192). La traduction des vecteurs est faite `a l’aide du dictionnaire g ´en ´eraliste bilingue (cf. section 5.5.1). Une traduction fertile est une unit ´e polylexicale : son vecteur de contexte correspond `a un vecteur moyen calcul ´e `a partir des vecteurs de chacun des mots lexicaux qui la composent.

La similarit ´e entre le vecteur du terme sources et le vecteur de sa traduction candidate t est calcul ´ee avec le jaccard pond ´er ´e :

C(s, t) = Σm∈s∩tmin(T V (s, mi), T V (t, mi)) Σmi∈s∪tmax(T V (s, mi), T V (t, mi))

(7.1) o `uT V (x, mi) est le nombre de co-occurrences normalis ´e (taux de vraisemblance) entre le

termex et le mot de contexte mi.

7.1.2

Fr ´equence du terme cible

Avec ce crit `ere (not ´eF ), nous faisons l’hypoth `ese que plus le terme cible est fr ´equent, plus il est possible qu’il appartienne `a la th ´ematique du corpus et donc qu’il soit une bonne traduction.

La fr ´equence du terme ciblet est donn ´ee par : F (t) = nbocc(t)

N (7.2)

o `unbocc(t) est le nombre d’occurrences de t dans le corpus cible et N le nombre total de mots dans le corpus cible.

7.1.3

Probabilit ´e de traduction des parties du discours

Ici, nous voulons capturer le fait que, par exemple, il est plus probable qu’un nom soit traduit par un nom ou par une suite Nom Pr´eposition Nomplut ˆot que par un adverbe (du moins pour la

traduction de l’anglais vers le franc¸ais). Ces probabilit ´es de traduction entre parties du discours, not ´eesP , ont ´et ´e acquises `a partir du corpus parall `ele EMEA (Tiedemann, 2009). Ce corpus est constitu ´e de textes parall `eles appartenant `a l’Agence Europ ´eenne des M ´edicaments. Les textes appartiennent au domaine m ´edical. Ces textes sont align ´es au niveau phrastique et disponibles en ligne au format TMX1. Les alignements sous-phrastiques ont ´et ´e r ´ealis ´es avec le

logiciel d’alignement de LINGUA ETMACHINAqui correspond `a une implantation de l’algorithme ANYMALIGN(Lardilleux, 2010).

Nous avons segment ´e en mots, lemmatis ´e et ´etiquet ´e les textes avec l’analyseur XELDApuis extrait les alignements sous-phrastiques. Nous avons obtenu une table d’alignements A dans laquelle chaque alignement a ∈ A = {lems, poss, lemt, post, p(s|t), p(t|s)} o `u lems,

respectivementlemt, sont le(s) lemme(s) du segment sous-phrastique source, respectivement

cible ;poss, respectivement post, sont le(s) partie(s) du discours du segment sous-phrastique

source, respectivement cible ;p(s|t), respectivement p(t|s), est la probabilit ´e de traduction du segment cible vers le source, respectivement source vers le cible.

La probabilit ´e qu’une traduction candidate ayant le(s) partie(s) du discoursy soit la traduction d’un terme source ayant la partie du discoursx correspond `a :

P (y|x) = P a∈A|poss=x,post=yp(t|s) P a∈A|poss=xp(t|s) (7.3)

Pour calculer les probabilit ´es de traduction, nous n’avons retenu que les alignements dans lesquels une unit ´e lexicale source ´etait align ´ee avec une ou plusieurs unit ´es lexicales cibles. Pour les deux couples de langues, nous avons rencontr ´e des unit ´es lexicales cibles d’au maximum cinq mots (mots outils et mots lexicaux)2.

`

A partir d’un corpus anglais-allemand de 363 982 phrases align ´ees, nous avons acquis des probabilit ´es de traduction pour 108 612 paires de suites de parties du discours. Pour l’anglais-franc¸ais, nous avons acquis environ 191 854 paires de suites de parties du discours. Le corpus de d ´epart contenait 373 127 phrases align ´ees. Un extrait du lexique final est donn ´e dans l’annexe B.3.6.

7.1.4

Mode de traduction des composants

Comme certains modes de traduction d’un composant sont plus fiables que d’autres, nous avons d ´efini un crit `ere de fiabilit ´e not ´eM qui prend en compte la fac¸on dont a ´et ´e traduit chacun des composants du terme source. Par exemple, on peut supposer qu’un composant traduit par le dictionnaire g ´en ´eraliste aura une traduction plus correcte qu’un composant traduit avec le dictionnaire de cognats.

Nous distinguons dix modes de traduction : – Le composant correspond `a un mot :

– le mot est traduit directement :

– via le dictionnaire g ´en ´eraliste (modeDICO) ;

– via le dictionnaire de cognats (modeCOGN).

– le mot est traduit indirectement :

1. http ://opus.lingfil.uu.se/EMEA.php

2. Les traductions candidates g ´en ´er ´ees en franc¸ais font au maximum cinq mots ´egalement. En ce qui concerne les traductions candidates en allemand, quatre d’entre elles ont plus de cinq mots, ce qui repr ´esente 0,19% de la totalit ´e des traductions g ´en ´er ´ees en allemand.

– via le dictionnaire g ´en ´eraliste et les familles morphologiques (modeMORPHO) ;

– via le dictionnaire g ´en ´eraliste et le dictionnaire de synonymes (modeSYNO) ;

– via le dictionnaire de cognats et les familles morphologiques (mode

MORPHOCOGN) ;

– via le dictionnaire de cognats et le dictionnaire de synonymes (modeSYNOCOGN).

– Le composant correspond `a un morph `eme li ´e, il est traduit via la table de traduction des morph `emes :

– pr ´efixe traduit par un pr ´efixe (modePREF) ;

– confixe traduit par un confixe (modeCONF) ;

– suffixe traduit par un suffixe (modeSUFF) ;

– pr ´efixe, confixe ou suffixe traduit par un mot (modeFERT).

La traduction d’un terme source peut avoir ´et ´e g ´en ´er ´ee de plusieurs mani `eres. Par exemple, la traductionfa¸con anormal a ´et ´e g ´en ´er ´ee de quatre mani `eres diff ´erentes comme indiqu ´e dans le tableau 7.1 :

d ´ecomposition traduction recomposition 1 {ab, normal, ly} {a:PREF, normal:DICO, fa¸con:FERT} {fa¸con, anormal} 2 {ab, normal, ly} {a:PREF, normal:COGN, fa¸con:FERT} {fa¸con, anormal} 3 {abnormal, ly} {anormal:DICO, fa¸con:FERT} {fa¸con, anormal} 4 {abnormal, ly} {anormal:COGN, fa¸con:FERT} {fa¸con, anormal}

TABLE7.1 – Exemple de traduction candidate issue de multiples g ´en ´erations

– La g ´en ´eration 1 a d ´ecoup ´eabnormally en ab-, normal et -ly. Le pr ´efixe ab- a ´et ´e traduit par le pr ´efixe a-, le mot normal a ´et ´e traduit gr ˆace au dictionnaire g ´en ´eraliste en normal et le suffixe -ly a ´et ´e traduit par le mot fa¸con.

– La g ´en ´eration 2 a suivi le m ˆeme processus si ce n’est que la traduction de normal a ´et ´e obtenue via le dictionnaire de cognats.

– Dans la g ´en ´eration 3, le terme source a ´et ´e d ´ecoup ´e en abnormal et -ly, abnormal a ´et ´e traduit via le dictionnaire g ´en ´eraliste et -ly a ´et ´e traduit par fa¸con.

– Dans la quatri `eme g ´en ´eration, abnormal a ´et ´e traduit par le dictionnaire de cognats. L’ ´etape de recomposition donne le m ˆeme patron de terme cible : fa¸con suivi de anormal. Ce patron est recherch ´e dans le corpus cible et nous obtenons la traduction fa¸con/Nom anormal/Adjectif (≪...des g`enes protecteurs contre le d´eveloppement de tumeurs sont r´eduits

au silence de fa¸con anormale.≫).

Quel que soit le nombre de g ´en ´erations ayant permis d’obtenir le terme ciblefa¸con anormal , au final, nous ne comptons qu’une et une seule traduction :abnormally → fa¸con anormal . Ce ph ´enom `ene de g ´en ´eration multiple est beaucoup plus marqu ´e pour le franc¸ais (4,27 g ´en ´erations diff ´erentes par traduction) que pour l’allemand (2,43).

Lorsque nous calculons le crit `ereM pour un terme cible t, nous prenons en compte tous les modes de traduction utilis ´es par toutes les g ´en ´erations qui ont permis d’obtenir le terme cible :

M (t) = P g∈G(t) P c∈gf iabilite(m(c)) P g∈G(t)|c ∈ g| (7.4) o `uG(t) est l’ensemble des g ´en ´erations ayant donn ´e t, chaque c ∈ g est un des composants de la g ´en ´erationg et f iabilite(m(c)) est la fiabilit ´e du mode de traduction m de c.

Dans notre exemple, siP REF = 0, 6 ; DICO = 0, 5 ; COGN = 0, 6 ; et F ERT = 0, 4 ; alors, le score de fiabilit ´e defa¸con anormal est de 0, 5 :

M (fac¸on anormal) = 2 × 0, 6 + 2 × 0, 5 + 2 × 0, 6 + 4 × 0, 4

10 (7.5)

La fiabilit ´e de chaque mode de traduction a ´et ´e calcul ´ee sur notre jeu de donn ´ees d’entraˆınementT d ´ecrit en section 5.4. Pour un mode de traduction m, sa fiabilit ´e est donn ´ee par :

f iabilite(m) = |{g : m ∈ g, A(t(g)) ∈ {EXACT}}|

|{g : m ∈ g}| (7.6)

o `u{g : m ∈ g} sont toutes les g ´en ´erations qui ont utilis ´e le mode de construction m et A(t(g)) est l’annotation du terme ciblet donn ´e par la g ´en ´eration g.

Les valeurs obtenues sont donn ´ees dans le tableau 7.2.

On observe que les composants traduits avec le dictionnaire g ´en ´eraliste sont moins fiables que ceux traduits avec le dictionnaire de cognats, quelle que soit la langue. Ceci confirme une fois de plus l’int ´er ˆet d’enrichir le dictionnaire bilingue avec des cognats identifi ´es dans le corpus comparable.

Les composants traduits de fac¸on indirecte (ressource bilingue + ressource de variation) sont parmi les moins fiables. La combinaison cognats et variantes morphologiques est la plus s ˆure, suivie par la combinaison dictionnaire g ´en ´eraliste + synonymes, puis la combinaison dictionnaire g ´en ´eraliste + variantes morphologiques. La combinaison cognats + synonymes est le mode de traduction le moins fiable des dix modes de traduction, en particulier pour l’allemand. Les modes de traduction les plus fiables sont les traductions non fertiles des confixes et des suffixes. Les pr ´efixes sont ´egalement tr `es fiables pour l’allemand mais pas pour le franc¸ais. La faible fiabilit ´e des pr ´efixes pour le franc¸ais est surprenante, d’autant plus que les exp ´eriences d ´ecrites en section 6.3.2 indiquaient une bonne pr ´ecision pour la traduction des mots pr ´efix ´es. En analysant des sorties du syst `eme, nous avons observ ´e qu’en franc¸ais, la ou les bases lexicales contenues dans les termes avec pr ´efixe sont dans leur grande majorit ´e (71 %) traduites en utilisant des ressources de variation, ce qui peut faire baisser la qualit ´e de la traduction. Ce ph ´enom `ene est moins marqu ´e en allemand (66 %).

La traduction fertile est le deuxi `eme mode de traduction le moins fiable, particuli `erement pour l’allemand.

7.2

Combinaison de crit `eres

7.2.1

Standardisation des valeurs

Nos crit `eres d’ordonnancement ont tous une valeur entre 0 et 1 mais ils pr ´esentent des ´echelles de valeur tr `es diff ´erentes. Par exemple, pour le crit `ere de la fr ´equence, les valeurs sont tr `es basses (< 0,005) alors que pour la fiabilit ´e des modes de traductions, les valeurs varient entre 0,19 et 0,92. Or si nous combinons les valeurs brutes, les crit `eres avec des valeurs tr `es basses seront compl `etement occult ´es par les crit `eres avec des valeurs plus hautes.

Nous avons standardis ´e nos valeurs en suivant la m ´ethode d ´ecrite par Gendre (1977, p. 48- 50) : les valeurs observ ´ees sont remplac ´ees par leur percentile puis le percentile est transform ´e en score-z `a l’aide de la table de la loi normale. Les d ´etails de la standardisation sont donn ´es dans l’annexe A.4, p. 194.

EN-FR EN-DE DICO 0,49 0,38 COGN 0,57 0,48 MORPHO 0,34 0,29 SYNO 0,43 0,32 MORPHOCOGN 0,41 0,37 SYNOCOGN 0,21 0,05 PREF 0,61 0,79 CONF 0,79 0,67 SUFF 0,63 0,92 FERT 0,37 0,19

TABLE7.2 – Fiabilit ´e des modes de traduction

7.2.2

Combinaison lin ´eaire

Nos premi `eres exp ´eriences ont consist ´e `a combiner chacun des crit `eres :

score(t) = αC + βF + γP + δM (7.7) o `uα, β, γ et δ sont des coefficients pond ´erateurs (0 ≤ α, β, γ, δ ≤ 1 et α + β + γ + δ = 1).

Nous avons r ´ealis ´e deux exp ´eriences. Dans la premi `ere, tous les coefficients pond ´erateurs se valent : nous consid ´erons que les crit `eres sont autant informatifs les uns que les autres. Dans la seconde exp ´erience, nous avons attribu ´e un poids diff ´erent `a chaque crit `ere : ici, nous consid ´erons que certains crit `eres sont plus informatifs que d’autres, ils doivent donc avoir un poids plus fort. Les poids ont ´et ´e appris automatiquement sur le jeu de donn ´ees d’entraˆınement T (cf. section 5.4) en utilisant l’algorithme 6 : nous avons simplement test ´e plusieurs jeux de poids possibles et retenu celui qui donnait la meilleure pr ´ecision sur le Top1.

Les poids obtenus sont consultables dans le tableau 7.3. Fr ´equence du terme cible et partie du discours ont des poids ´equivalents. Le crit `ere ayant rec¸u le meilleur poids est celui des modes de traduction.

La similarit ´e des contextes est le crit `ere ayant rec¸u le plus petit poids. Si ce crit `ere est le moins informatif, c’est probablement parce que les termes sources et cibles sont g ´en ´eralement peu fr ´equents : entre 73 % et 81 % ont 5 occurrences ou moins dans le corpus (cf. tableaux 7.11 et 7.12). Ceci montre l’int ´er ˆet d’avoir recours `a la traduction compositionnelle plut ˆot qu’ `a l’approche distributionnelle pour les termes complexes.

Comme l’atteste l’ ´ecart moyen calcul ´e pour chaque coefficient3, les valeurs des coefficients

sont stables quel que soit le couple de langues. Ceci semble indiquer que l’importance `a donner `a chaque crit `ere d’ordonnancement est ind ´ependante des langues en jeu dans la traduction. Il serait int ´eressant de v ´erifier cette hypoth `ese sur d’autres couples de langues. Si l’hypoth `ese s’av ´erait exacte, il serait alors possible d’utiliser des donn ´ees parall `eles dans des langues bien dot ´ees pour apprendre les coefficients pond ´erateurs et les appliquer `a des langues peu dot ´ees.

3. Moyenne des valeurs absolues des ´ecarts `a la moyenne : 1 n

Pn

i=1|xi− ¯x|.

Il serait ´egalement int ´eressant de voir si les coefficients sont stables pour un m ˆeme couple de langues mais sur des domaines de sp ´ecialit ´e diff ´erents.

Crit `ere EN-FR EN-DE ´ecart moyen

ContexteC (coeff. α) 0,12 0,15 0,015 Fr ´equenceF (coeff. β) 0,24 0,22 0,010 Partie du discoursP (coeff. γ) 0,25 0,26 0,005 Modes de traductionM (coeff. δ) 0,39 0,37 0,010 TABLE7.3 – Poids accord ´es `a chaque crit `ere d’ordonnancement

7.2.3

Apprentissage d’un mod `ele d’ordonnancement

Dans un deuxi `eme temps, nous avons exp ´eriment ´e des algorithmes de learning-to-rank. Pour cela, nous nous sommes bas ´es sur la librairie RankLib4 qui met `a disposition des

implantations de divers algorithmes de learning-to-rank. Parmi les algorithmes implant ´es, nous avons s ´electionn ´e ceux qui appartiennent `a la famille des algorithmes list-wise : ADARANK(Li et Xu, 2007), COORDINATEASCENT(Metzler et Croft, 2000) et LAMBDAMART (Wu et al., 2010).

ADARANKet LAMBDAMART sont bas ´es sur la technique de boosting. Le boosting consiste `a combiner les r ´esultats donn ´es par plusieurs mod `eles habituellement plus simples et moins performants (pris isol ´ement) qu’un mod `ele g ´en ´eral. Ces mod `eles sont appris un par un, le poids de chaque exemple du jeu de donn ´ees ´etant r ´e ´evalu ´e en fonction des erreurs du mod `ele appris pr ´ec ´edemment (les exemples mal classifi ´es voient leur poids augmenter ; les exemples bien classifi ´es voient leur poids diminuer). COORDINATE ASCENT, quant `a lui, apprend un mod `ele

lin ´eaire. Il doit son nom `a la technique employ ´ee pour optimiser le choix des param `etres. Les variables fournies aux algorithmes sont les quatre crit `eres C, F , P et M . Les valeurs ont ´et ´e pr ´ealablement standardis ´ees en suivant la m ´ethode d ´ecrite en section 7.2.1. Les param `etres propos ´es par la librairie RankLib offrent la possibilit ´e de sp ´ecifier une mesure `a optimiser pour les algorithmes list-wise. Nous avons choisi d’optimiser la pr ´ecision sur le Top1. Tous les autres param `etres ont ´et ´e laiss ´es avec leur valeur par d ´efaut. L’apprentissage du mod `ele a ´et ´e fait sur le jeu de donn ´eesT .

7.3

Evaluation´

7.3.1

R ´eference et mesures d’ ´evaluation

Les m ´ethodes d’ordonnancement ont ´et ´e ´evalu ´ees sur le jeu de donn ´ees E (d ´ecrit en section 5.4) qui correspond aux termes sources de la r ´ef ´erence a priori pour lesquels le syst `eme a pu g ´en ´erer une traduction. Les donn ´ees d’entraˆınement (utilis ´ees pour l’apprentissage des scores de fiabilit ´e, des poids de la combinaison lin ´eaire et des mod `eles d’ordonnancement) correspondent au jeu de donn ´eesT , c’est- `a-dire les termes sources n’appartenant pas `a la r ´ef ´erence a priori et pour lesquels le syst `eme a pu g ´en ´erer une traduction. Les ensembles de donn ´eesE et T sont disjoints.

4. http://people.cs.umass.edu/ vdang/ranklib.html

Algorithme 6 Trouver les meilleurs poids Require: training data

step ← 0.01 best precision ← 0 best weight set ← ∅

for α = 0 ; α <= 1 ; α = α + step do for β = 0 ; β <= 1 ; β = β + step do for γ = 0 ; γ <= 1 ; γ = γ + step do for δ = 0 ; δ <= 1 ; δ = δ + step do if not α + β + γ + δ == 1 then continue end if exact ← 0 total ← 0

for all source term, translations in training data do

ranked translations ← rank(translations, {α, β, γ, δ})

if ranked translations[0] isEXACTthen

exact+ = 1

end if

total+ = 1

end for

precision = exact/total

if precision > best precision then

best precision ← precision best weight set ← {α, β, γ, δ}

end if end for end for end for end for

return best weight set

La mesure d’ ´evaluation est la pr ´ecision sur leT opN , soit la fraction de termes sources qui ont au moins une traduction correcte parmi lesN premi `eres traductions candidates :

T opN = 1 |S| |S| X j=1 α(TjN, Rj) (7.8) α(TjN, Rj) =  1 siTjN ∩ Rj6= ∅ 0 sinon o `u :

– S est l’ensemble des termes sources

– TjN est l’ensemble desN premi `eres traductions candidates pour le terme source j

– Rj est l’ensemble des traductions correctes pour le terme sourcej

La d ´efinition d’une traduction “correcte” peut varier : soit ce sont uniquement les traductions donn ´ees par l’UMLS (dans ce cas, la pr ´ecision est not ´ee P) ; soit ce sont les traductions de l’UMLS ou les traductions annot ´ees EXACT par les traducteurs (pr ´ecision not ´ee PE) ; soit ce

sont les traductions de l’UMLS ou les traductions annot ´eesEXACT ouACCEPTABLE(pr ´ecision not ´ee PEA).

7.3.2

Bases de comparaison

Nous avons utilis ´e six bases de comparaison. La base de comparaison basse (ALEATOIRE´ ) correspond `a la pr ´ecision obtenue lorsque les traductions sont ordonn ´ees al ´eatoirement (la pr ´ecision indiqu ´ee est une moyenne sur 100 ordonnancements al ´eatoires). La base de comparaison haute (MEILLEURE PRECISION POSSIBLE´ ) correspond `a la pr ´ecision qui serait obtenue si la meilleure traduction ´etait toujours plac ´ee au rang 1. Les quatres autres bases de comparaisonC, F , P et M correspondent `a chacun des quatres crit `eres utilis ´es s ´epar ´ement. Afin d’appr ´ehender la difficult ´e de la t ˆache, nous indiquons dans la figure 7.1 le nombre de traductions par terme source pour chaque couple de langues.

Pour les traductions anglais → franc¸ais, on observe que presque les deux-tiers (64 %) des termes sources n’ont qu’une seule traduction candidate. 13 % d’entre eux ont deux traductions candidates et 23 % d’entre eux ont plus de deux traductions candidates. Le nombre maximum de traductions candidates est 13.

Pour les traductions anglais → allemand, la t ˆache est un peu plus difficile : seulement une petite moiti ´e (46 %) des termes sources ont une seule traduction candidate, un quart d’entre eux (24 %) ont deux traductions candidates et 29 % ont plus de deux traductions candidates. Le nombre maximum de traductions candidates est 28.

7.3.3

R ´esultats obtenus

Nous donnons, pour chaque couple de langues, la pr ´ecision obtenue sur le Top 1 `a 5. Nous indiquons ´egalement le “Rang pr ´ecision maximum”, c’est- `a-dire le rang `a partir duquel la meilleure pr ´ecision possible a ´et ´e atteinte.

FIGURE7.1 – Nombre de traductions par terme source

7.3.3.1 Ordonnancement des traductions anglais → franc¸ais

Les r ´esultats sont donn ´es dans les tableaux 7.4 (P), 7.5 (PE) et 7.6 (PEA). Les m ´ethodes

sont ordonn ´ees par leur pr ´ecision sur le Top1 d ´ecroissante puis le Top2, puis le Top3.

On observe que, quelle que soit la d ´efinition que l’on a d’une traduction correcte (UMLS, EXACT, ACCEPTABLE...), les m ´ethodes qui se d ´etachent sont la COMBINAISON NON PONDER´ EE´ et la COMBINAISON PONDER´ EE´ suivies de COORDINATEASCENT, LAMBDAMART et le crit `ereM . Nous notons aussi que toutes les m ´ethodes test ´ees font syst ´ematiquement mieux que le classement al ´eatoire. C’est particuli `erement visible avec les traductions de l’UMLS