Post-édition à partir d’un modèle de traduction générique

3.2 La post-édition pour l’adaptation au domaine médical

3.3.2 Post-édition à partir d’un modèle de traduction générique

B L E U

FIG.3.2 –Progression des scores BLEU et oracle en fonction de la quantité de données dédiées à la construction du modèle de post-édition. Le système de traduction est com, selon con f ig3, avec le

système de post-édition SPEmedLMgen

+

LMmed.

références, peut améliorer des hypothèses de traductions issues d’un système PBMT.

Cependant, nous voulons pouvoir tester plus de configurations, au niveau des données

utilisées pour le système de traduction. Nous proposons dans les sections suivantes

d’étudier l’impact de la post-édition statistique sur des systèmes de traduction par

segments au niveau de l’état-de-l’art.

3.3.2 Post-édition à partir d’un modèle de traduction générique

Pour l’approche de traduction PBMT, nous disposons de plusieurs modèles de

traductions, selon les corpus d’apprentissage utilisés, mais aussi plusieurs modèles de

langages. Nous proposons dans un premier temps d’évaluer l’impact de notre approche

sur le système PBMT basé uniquement sur des données génériques (PBMT

gen

LM

gen

).

Avec un modèle de langage générique

Nous voulons vérifier la possibilité d’adapter un système de traduction construit

sur des données génériques (hors domaine médical) au domaine de la médecine. Nous

utilisons les deux modèles de langages, individuellement ou combinés. Les résultats de

la post-édition de sorties du système générique sont présentés dans le tableau3.12.

S

YSTÈME

SPE S

CORES

BLEU (oracle)

con f ig1 con f ig2 con f ig3

PBMT

gen

LM

gen

27,0 27,9 29,9

+SPE

_med

LM

gen

73,3 (73,3) 56,4 (56,7) 43,6 (43,9)

+SPE

_med

LM

_gen

+LM

_med

78,1 (78,2) 60,6 (61,1) 45,6 (47,0)

+SPE

_med

LM

_med

77,2 (77,4) 60,5 (60,9) 46,1 (47,3)

TAB.3.12 –Résultats de SPE sur des sorties issues d’un système PBMT utilisant un modèle de

traduction et un modèle de langage générique (p-value=0.001).

utilisé. Comme dans les résultats de traduction pourcon f ig3, l’utilisation du modèle

de langage médical permet d’atteindre les scores BLEU les plus élevés. Pourcon f ig2,

l’interpolation des modèles de langage ou le modèle de langage médical permettent

d’atteindre des résultats similaires, car nous considérons qu’une différence de 0, 1% de

BLEU n’est pas significative. Pourcon f ig1, c’est l’interpolation des modèles de langage

qui mène aux meilleurs résultats.

Pour le modèle de langage générique, un gain absolu supérieur à 13% de BLEU est

observé entre la première phase de traduction et l’applicationnaïve de la post-édition

pourcon f ig3. Le scoreoracleindique que la sélection de phrases à post-éditer ne permet

pas d’améliorer de manière significative les résultats, car la différence de scores BLEU

est égale à 0, 3%. Ceci peut provenir de trois phénomènes :

– peu d’erreurs sont introduites par la post-édition,

– peu d’erreurs sont corrigées par la post-édition,

– de manière générale, la post-édition introduit des erreurs, mais en corrige un plus

grand nombre.

L’utilisation des modèles de langage contenant des données médicales permet

une amélioration des résultats de l’ordre de 2 points BLEU environ pour le système

SPE

_med

LM

_gen

+LM

_med

, et de 2,5 points pour SPE

_med

LM

_med

, par rapport au système

SPE

_med

LM

gen

. Ces gains, liés à la post-édition, permettent d’atteindre les scores issus

de la traduction avec un système PBMT construit sur les données médicales. Nous

pouvons comparer les résultats en traduction obtenus par le système PBMT

_med

LM

_med

pour con f ig3 (tableau 3.9), avec la combinaison des systèmes PBMT

gen

LM

gen

et

SPE

_med

LM

_med

. Les scores BLEU sont de 46, 4% et 46, 1% respectivement. La différence

non-significative entre ces deux scores indique la possibilité d’adapter un système

PBMT générique en utilisant SPE. C’est dans cette seconde phase que les données

spécialisées sont introduites.

Cet aspect est très intéressant dans le cas où un système de traduction générique

est déjà disponible et que des données spécialisées sont à traduire. Il est moins coûteux

de combinerPBMT

gen

LM

gen

etSPE

_med

LM

_med

pour atteindre des résultats équivalents

à ceux atteints parPBMT

_med

LM

_med

, plutôt que de construire un système de traduction

utilisant l’ensemble des données (génériques et spécialisées). Cependant, ces systèmes

de traduction combinant les types de données produisent des phrases cibles atteignant

des résultats supérieurs.

3.3. Évaluation de la post-édition

si la post-édition est appliquée uniquement sur certaines phrases. Selon le modèle

de langage utilisé, uniquement médical ou combiné, les scores BLEU peuvent être

améliorés, jusqu’à 1, 5%, par rapport à l’applicationnaïvede la post-édition. La sélection

des phrases à post-éditer permet donc d’atteindre des scores équivalents à ceux issus du

système de traductionPBMT

_gen+med

LM

_med

, et supérieurs à ceux obtenus par le système

PBMT

_med

LM

_med

.

Avec un modèle de langage médical

Lorsque des données spécialisées dans la langue cibles sont disponibles, il est alors

possible de construire un modèle de langage adapté au domaine. Nous effectuons des

expériences de post-édition statistique sur les sorties du système PBMT possédant un

modèle de traduction générique et un modèle de langage médical (PBMT

gen

LM

_med

).

Le modèle de langage utilisé lors de la phase de traduction est identique à celui

utilisé lors de la phase de post-édition. Les résultats obtenus sont présentés dans le

tableau 3.13. Les scores BLEU montrent des gains par rapport à la traduction par

le système PBMT

gen

LM

_med

, compris entre 1,8% et 3,5%. Ces gains sont largement

inférieurs à ceux obtenus lors de la post-édition des sorties de PBMT

_gen

LM

_gen

. Notre

approche permet donc d’améliorer de manière plus significative un système PBMT

générique, par rapport à un système de traduction utilisant un modèle de langage

médical.

S

YSTÈME

SPE S

CORES

BLEU (oracle)

con f ig1 con f ig2 con f ig3

PBMT

_gen

LM

_med

50,4 42,5 39,2

+SPE

_med

LM

_gen

70,6 (70,9) 51,4 (52,1) 41,0 (42,1)

+SPE

_med

LM

_gen

+LM

_med

75,2 (75,9) 55,5 (56,3) 42,5 (44,4)

+SPE

_med

LM

_med

75,2 (75,5) 55,9 (56,6) 42,7 (44,2)

TAB.3.13 –Résultats de SPE sur des sorties issues d’un système PBMT utilisant un modèle de traduction générique et un modèle de langage médical.

Pour les trois configurations, les scores BLEU n’atteignent pas ceux présentés dans

le tableau3.12. De plus, pourcon f ig3 par exemple, les scoresoraclesont à 3 points en

dessous des résultats obtenus par traduction avec le systèmePBMT

_gen+med

LM

_med

, et 2

points sous les résultats dePBMT

_med

LM

_med

. Utiliser des modèles de langage différents,

dans un ordre particulier, entre la phase de traduction et celle de post-édition paraît

donc plus appropriée pour notre approche. Si le système PBMT se base sur un modèle

de langage générique, suivi d’une post-édition utilisant un modèle de langage médical,

les gains sont supérieurs à la configuration inverse.

Avec deux modèles de langage interpolés

Nous pensons qu’il est intéressant de continuer ces expériences, en post-éditant

les sorties du système PBMT générique utilisant des modèles de langage interpolés

(PBMT

_gen

LM

_gen

+LM

_med

). Selon les résultats obtenus précédemment par le système

SPE

_med

LM

gen

, étant les plus bas des trois modèles de langage utilisés, nous décidons

d’étudier la post-édition avec les modèles de langage interpolés, ou le modèle médical

uniquement. Les résultats de ces expériences sont détaillés dans le tableau 3.14.

Cependant, nous observons une dégradation des résultats pour con f ig3, en

post-éditionnaïveet en évaluationoracle.

S

YSTÈME

SPE S

CORES

BLEU (oracle)

con f ig1 con f ig2 con f ig3

PBMT

gen

LM

gen

+LM

_med

49,9 42,2 38,2

+SPE

_med

LM

gen

+LM

_med

76,1 (76,5) 56,1 (57,0) 42,3 (44,0)

+SPE

_med

LM

_med

76,1 (76,4) 56,2 (57,0) 42,4 (44,0)

TAB.3.14 –Résultats de SPE sur des sorties issues d’un système PBMT utilisant un modèle de traduction générique et des modèles de langage interpolés.

Ces résultats sont cohérents par rapport au système PBMT

gen

LM

gen

+LM

_med

, et à

l’utilisation des modèles de langage interpolés. En effet, dans toutes les expériences

menées jusqu’à présent, le modèle de langage médical permet d’atteindre les meilleurs

scores BLEU. Nous pouvons tout de même noter le gain pourcon f ig1 etcon f ig2 par

rapport aux résultats présentés dans le tableau3.13. Ces derniers résultats nous incitent

à penser que les sorties du système PBMT

_med

peuvent difficilement être améliorées,

étant donné les bons scores BLEU obtenus initialement.

Dans le document Traduction automatique statistique et adaptation à un domaine spécialisé (Page 74-77)