2.4 Evaluation de la traduction automatique
2.4.4 Influence des ressources linguistiques utilis´ees
Influence du nombre d’exemples
On peut s’attendre, pour un syst`eme de traduction automatique par l’exemple, `a ce
que la qualit´e de traduction d´epende beaucoup de la quantit´e et de la qualit´e des
exemples pr´esents dans la ressource utilis´ee. En effet, ce sont eux qui contiennent
implicitement l’int´egralit´e de la connaissance linguistique qui sert au syst`eme `a
traduire. On peut s’attendre intuitivement `a ce qu’un syst`eme disposant de trop peu
de donn´ees voie sa performance brid´ee, et `a l’oppos´e, `a ce qu’un syst`eme disposant de
beaucoup de donn´ees ait une meilleure couverture des variations lexico-syntaxiques
de la langue, pour une meilleure performance finale. Les chiffres donn´es dans le
tableau 2.1, pour la moiti´e et un quart de la ressource BTEC, confirment cette
intuition : dans ce cas, plus on a de donn´ees `a disposition, meilleurs sont les r´esultats.
Utilisation de dictionnaires comme liste d’exemples particuliers
Les phrases enti`eres contenues dans la ressource BTEC (par opposition `a des mots
isol´es) peuvent ne pas permettre d’aboutir `a la traduction de certaines expressions, si
on ne peut trouver de commutations entre elles. Ce cas est particuli`erement fr´equent
si on essaie de traduire des phrases contenant des nombres, ou des expressions
idiomatiques invariables.
コーヒーのおかわりをいただけますか。
2 318 I’d like another cup of coffee.
2 296 May I have another cup of coffee?
1 993 Another coffee, please.
1 982 May I trouble you for another cup
of coffee?
1 982 Can I get some more coffee?
530 Another cup of coffee, please.
516 Another cup of coffee.
466 Can I have another cup of coffee?
337 May I get some more coffee?
205 May I trouble you for another cup
of coffee, please?
Figure 2.3: Exemples de traduction en anglais de la phrase japonaiseコーヒーのおか
わりをいただけますか。.
小銭をまぜてください。
924 Can you include some small change?
922 Can you include some small change,
please?
899 Would you include some small change?
896 Include some small change, please.
895 I’d like to have smaller bills mixed in.
895 Please change this into small money.
895 Will you include some small change?
885 Could you include some small change,
please?
880 May I have some small change, too?
Figure 2.4: Exemples de traduction en anglais de la phrase japonaise小銭をまぜてく
ださい。.
Une solution possible est d’ajouter des entr´ees de dictionnaire `a la ressource
originale afin qu’ils soient vus comme des exemples suppl´ementaires. En r´ealit´e,
dans la m´ethode propos´ee, le syst`eme ne fait pas de diff´erence entre un bicorpus
de phrases align´ees et un dictionnaire, puisque les deux sont vus indiff´eremment
comme des chaines de caract`eres align´ees. Les exemples suivants illustrent le fait
que le syst`eme traite ces exemples de la mˆeme mani`ere :
フィルムを買いたいのですが。 ↔ I’d like a film, please.
三十六枚撮りを二本ください。 ↔ Two rolls of thirty-six exposure
このカメラの電池がほしいのです。 ↔ I’d like a battery for this camera,
please.
フィルム ↔ film
映画 ↔ film
電池 ↔ battery
砲台 ↔ battery
Comme on le voit sur les r´esultats du tableau 2.1, p. 133, on n’obtient pas
de scores significativement meilleurs en ajoutant un dictionnaire `a la ressource, `a
l’exception d’une l´eg`ere am´elioration du score BLEU.
Utilisation de paraphrases g´en´er´ees `a partir de la ressource
Plusieurs ´etudes pass´ees ont montr´e que l’ajout de paraphrases pouvait am´eliorer
la qualit´e des r´esultats de traduction automatique : puisqu’en traduction
automa-tique on travaille sur deux langues, source et cible, on peut choisir d’ajouter des
paraphrases en langue source15, en langue cible16, ou dans les deux `a la fois.
Afin d’augmenter les chances d’une phrase d’entrer en analogie, nous avons
regroup´e les phrases en langue source d’une part, et cible d’autre part, en ensembles
de paraphrases. Pour ce faire, nous avons employ´e la m´ethode expos´ee dans la
section 1.2.2 (p. 109) : nous avons regroup´e les phrases partageant au moins une
traduction commune, en faisant l’hypoth`ese qu’elles sont dans ce cas ´equivalentes en
sens, c’est-`a-dire paraphrases17. On obtient pour la ressource utilis´ee une moyenne
de 3,03 paraphrases mutuelles par phrase source, ce qui permet au syst`eme de
traduction d’avoir plus d’analogies `a former pour une mˆeme phrase `a traduire.
Lorsqu’un couple (A, B) est consid´er´e pour une phrase d’entr´eeDdans une ´equation
analogique, alors le syst`eme essaie de r´esoudre non seulement l’´equation A:B ::
x:D mais aussi toutes les ´equations possibles A′ :B′::x:D o`u A′ etB′ sont
paraphrases deAetB respectivement.
Les r´esultats obtenus en rajoutant les paraphrases en langue source sont
rassem-bl´es dans le tableau 2.1, et montrent une l´eg`ere am´elioration en mWER (distance
d’´edition en unit´e de mots). Si on rajoute des paraphrases en langue cible, on
con-state une d´et´erioration des scores BLEU, mais une vraie am´elioration des scores
NIST. Si on ajoute des paraphrases des deux cˆot´es, en source et en cible, on obtient
des scores qui ne sont pas meilleurs que ceux obtenus `a l’aide de la ressource BTEC
seule, `a l’exception des scores NIST : il est en effet possible que les paraphrases
aient introduit des variations lexico-syntaxiques pour l’expression d’un mˆeme sens.
On peut aussi expliquer cette baisse par le fait que l’ajout de nombreux exemples
suppl´ementaires a pu surcharger le syst`eme au niveau calculatoire, un seuil constant
en temps ´etant impos´e au syst`eme pour toutes les exp´eriences. La complexit´e de
l’algorithme ´etant quadratique en fonction du nombre d’exemple que le syst`eme
utilise, l’ajout de paraphrases augmente la charge de calcul : l’imposition d’un seuil
pour limiter le temps de calcul implique que l’algorithme ne peut pas former en
pratique toutes les analogies possibles avec les exemples dont il dispose.
15
Yamamoto, Interaction between paraphraser and transfer for spoken language translation,
2004.
16Habash,Generation-heavy hybrid machine translation, 2002.
17
En r´ealit´e la relation peut ˆetre moins forte, puisqu’il peut y avoir une simple relation
d’implication, comme on en a discut´e dans la section 1.3.3, p. 114.
Dans le document
Méthodes en caractères pour le traitement automatique des langues
(Page 134-137)