• Aucun résultat trouvé

Influence des ressources linguistiques utilis´ees

2.4 Evaluation de la traduction automatique

2.4.4 Influence des ressources linguistiques utilis´ees

Influence du nombre d’exemples

On peut s’attendre, pour un syst`eme de traduction automatique par l’exemple, `a ce

que la qualit´e de traduction d´epende beaucoup de la quantit´e et de la qualit´e des

exemples pr´esents dans la ressource utilis´ee. En effet, ce sont eux qui contiennent

implicitement l’int´egralit´e de la connaissance linguistique qui sert au syst`eme `a

traduire. On peut s’attendre intuitivement `a ce qu’un syst`eme disposant de trop peu

de donn´ees voie sa performance brid´ee, et `a l’oppos´e, `a ce qu’un syst`eme disposant de

beaucoup de donn´ees ait une meilleure couverture des variations lexico-syntaxiques

de la langue, pour une meilleure performance finale. Les chiffres donn´es dans le

tableau 2.1, pour la moiti´e et un quart de la ressource BTEC, confirment cette

intuition : dans ce cas, plus on a de donn´ees `a disposition, meilleurs sont les r´esultats.

Utilisation de dictionnaires comme liste d’exemples particuliers

Les phrases enti`eres contenues dans la ressource BTEC (par opposition `a des mots

isol´es) peuvent ne pas permettre d’aboutir `a la traduction de certaines expressions, si

on ne peut trouver de commutations entre elles. Ce cas est particuli`erement fr´equent

si on essaie de traduire des phrases contenant des nombres, ou des expressions

idiomatiques invariables.

コーヒーのおかわりをいただけますか。

2 318 I’d like another cup of coffee.

2 296 May I have another cup of coffee?

1 993 Another coffee, please.

1 982 May I trouble you for another cup

of coffee?

1 982 Can I get some more coffee?

530 Another cup of coffee, please.

516 Another cup of coffee.

466 Can I have another cup of coffee?

337 May I get some more coffee?

205 May I trouble you for another cup

of coffee, please?

Figure 2.3: Exemples de traduction en anglais de la phrase japonaiseコーヒーのおか

わりをいただけますか。.

小銭をまぜてください。

924 Can you include some small change?

922 Can you include some small change,

please?

899 Would you include some small change?

896 Include some small change, please.

895 I’d like to have smaller bills mixed in.

895 Please change this into small money.

895 Will you include some small change?

885 Could you include some small change,

please?

880 May I have some small change, too?

Figure 2.4: Exemples de traduction en anglais de la phrase japonaise小銭をまぜてく

ださい。.

Une solution possible est d’ajouter des entr´ees de dictionnaire `a la ressource

originale afin qu’ils soient vus comme des exemples suppl´ementaires. En r´ealit´e,

dans la m´ethode propos´ee, le syst`eme ne fait pas de diff´erence entre un bicorpus

de phrases align´ees et un dictionnaire, puisque les deux sont vus indiff´eremment

comme des chaines de caract`eres align´ees. Les exemples suivants illustrent le fait

que le syst`eme traite ces exemples de la mˆeme mani`ere :

フィルムを買いたいのですが。 ↔ I’d like a film, please.

三十六枚撮りを二本ください。 ↔ Two rolls of thirty-six exposure

このカメラの電池がほしいのです。 ↔ I’d like a battery for this camera,

please.

フィルム ↔ film

映画 ↔ film

電池 ↔ battery

砲台 ↔ battery

Comme on le voit sur les r´esultats du tableau 2.1, p. 133, on n’obtient pas

de scores significativement meilleurs en ajoutant un dictionnaire `a la ressource, `a

l’exception d’une l´eg`ere am´elioration du score BLEU.

Utilisation de paraphrases g´en´er´ees `a partir de la ressource

Plusieurs ´etudes pass´ees ont montr´e que l’ajout de paraphrases pouvait am´eliorer

la qualit´e des r´esultats de traduction automatique : puisqu’en traduction

automa-tique on travaille sur deux langues, source et cible, on peut choisir d’ajouter des

paraphrases en langue source15, en langue cible16, ou dans les deux `a la fois.

Afin d’augmenter les chances d’une phrase d’entrer en analogie, nous avons

regroup´e les phrases en langue source d’une part, et cible d’autre part, en ensembles

de paraphrases. Pour ce faire, nous avons employ´e la m´ethode expos´ee dans la

section 1.2.2 (p. 109) : nous avons regroup´e les phrases partageant au moins une

traduction commune, en faisant l’hypoth`ese qu’elles sont dans ce cas ´equivalentes en

sens, c’est-`a-dire paraphrases17. On obtient pour la ressource utilis´ee une moyenne

de 3,03 paraphrases mutuelles par phrase source, ce qui permet au syst`eme de

traduction d’avoir plus d’analogies `a former pour une mˆeme phrase `a traduire.

Lorsqu’un couple (A, B) est consid´er´e pour une phrase d’entr´eeDdans une ´equation

analogique, alors le syst`eme essaie de r´esoudre non seulement l’´equation A:B ::

x:D mais aussi toutes les ´equations possibles A :B::x:D o`u A etB sont

paraphrases deAetB respectivement.

Les r´esultats obtenus en rajoutant les paraphrases en langue source sont

rassem-bl´es dans le tableau 2.1, et montrent une l´eg`ere am´elioration en mWER (distance

d’´edition en unit´e de mots). Si on rajoute des paraphrases en langue cible, on

con-state une d´et´erioration des scores BLEU, mais une vraie am´elioration des scores

NIST. Si on ajoute des paraphrases des deux cˆot´es, en source et en cible, on obtient

des scores qui ne sont pas meilleurs que ceux obtenus `a l’aide de la ressource BTEC

seule, `a l’exception des scores NIST : il est en effet possible que les paraphrases

aient introduit des variations lexico-syntaxiques pour l’expression d’un mˆeme sens.

On peut aussi expliquer cette baisse par le fait que l’ajout de nombreux exemples

suppl´ementaires a pu surcharger le syst`eme au niveau calculatoire, un seuil constant

en temps ´etant impos´e au syst`eme pour toutes les exp´eriences. La complexit´e de

l’algorithme ´etant quadratique en fonction du nombre d’exemple que le syst`eme

utilise, l’ajout de paraphrases augmente la charge de calcul : l’imposition d’un seuil

pour limiter le temps de calcul implique que l’algorithme ne peut pas former en

pratique toutes les analogies possibles avec les exemples dont il dispose.

15

Yamamoto, Interaction between paraphraser and transfer for spoken language translation,

2004.

16

Habash,Generation-heavy hybrid machine translation, 2002.

17

En r´ealit´e la relation peut ˆetre moins forte, puisqu’il peut y avoir une simple relation

d’implication, comme on en a discut´e dans la section 1.3.3, p. 114.