Phase 1 (2-6/2013) - Démonstration de l'intérêt de l'apprentissage incrémental en TA statistiqu

Chapitre VI Démonstration de l'intérêt de l'apprentissage incrémental en TA statistique

VI.2 E XPERIMENTATION

VI.2.1 Phase 1 (2-6/2013)

VI.2.1.1 Expérience sur le site du LIG

Notre corpus d'apprentissage initial a été construit en choisissant dans SECTRA deux parties tirées de deux MT différentes : une partie provenait de la MT de LIG-LAB72, qui avait au total 8000 segments en français, dont 2000 étaient déjà post-édités de français en chinois. L'autre partie provenait de la MT DEMO273, qui avait été créée en 2012, et qui contenait 8000 segments post-édités de français en chinois. Ces 10K bisegments post-édités ont été utilisés pour créer la version initiale de notre système Moses français-chinois dédié au sous-langage du LIG. Nous l’avons appelée MOSES-LIG-FR-ZH-V0 (Tableau 46).

Tableau 46 : Statistiques sur les données d'entraînement de la phase 1

Nb de bisegments Nb de mots (source)

Pages standard Caractères chinois

Pages standard

Moses V0 (initial) 10724 160K 644 182K 455

Dans l’expérience, nous avons travaillé seulement sur la MT du LIG-LAB, en post-éditant des segments choisis parmi les 6000 non post-édités, et en faisant les mesures sur les ensembles croissants de segments post-édités.

Nous utilisons les termes et les notations suivants.

• Page standard : texte contenant 250 mots (1400 caractères) en français, ou 400 caractères en chinois.

• Segment : unité de post-édition (phrase ou un titre).

• Page logique : page Web générée par SECTRA_W pour l’interface de PE et contenant N segments. La valeur par défaut est N=20.

LIG-LAB : un projet d'iMAG. LIG-LAB est l'iMAG dédiée au site du LIG.

• MT_LIG : MT de LIG-LAB.

• MT_INC: nouvelle partie de MT à extraire pour l'apprentissage incrémental. • NewPE : ensemble des nouveaux segments post-édités.

• Moses-LIG-fr-zh-VN : N-ième version de Moses-LIG-fr-zh (après N mises à jour de Moses-LIG).

• Moses_INC : opération d'apprentissage incrémental. • SEG[i] : segment i.

• SEGPE[i] : post-édition du segment i.

• ApplyPE (Moses-LIGN, SEG[i]) : post-édition du segment i à partir de sa TA par Moses-LIGN.

Dans cette expérience, j’ai post-édité les segments non post-édités, par pages logiques. SECTra note le temps de post-édition primaire (Tpe_1)74 pour chaque segment. Lorsque 10 pages logiques (200 segments) ont été post-éditées, on les utilise pour mettre à jour Moses-LIG-fr-zh (de VN à VN+1). Nous répétons cela 10 fois de suite (2000 segments), et mesurons le temps moyen de post-édition. Enfin, nous utilisons les segments source du site LIG, leurs post-éditions à partir de la MT de LIG-LAB, et les traductions par Moses-LIG-fr-zh de V1 à V10 pour évaluer la performance de chaque Moses-LIG-fr-zh-VN par BLEU (Papineni, Roukos et al., 2002), NIST (Doddington, 2002) et par TER (Snover et al., 2009).

Il y a finalement 3 opérations essentielles

Opération 1 : post-édition des segments non post-édités, traduits par Moses-LIG-fr-zh-VN.

SEGPE[i] := ApplyPE (Moses-LIG-fr-zh-V_N, SEG[i]) si SEGPE[i]∉MT_LIG_PE

Opération 2 : apprentissage incrémental de Moses-LIG N+1.

MT_INCR:= Extraire (NewPE, Niveau, Score) NewPE _⊆ MT_LIG

Moses-LIG-fr-zh-VN+1 := Moses_INCR (Moses-LIG-fr-zh-VN, MT_INCR);

Opération 3 : mesures (Voir VI.2.1.3). VI.2.1.2 Processus d'AI

À l'itération N du processus, tous les segments de la MT sont traduits par la version N du TA (Moses-VN), y compris, de façon continue, les nouveaux segments créés par le site. Certains segments non encore post-édités sont post-édités à cette itération (de façon opportuniste ou organisée).

Quand on a un certain nombre de nouveaux segments post-édités, jugé "bons" (200 dans notre expérience), on les traite (séparation des mots, nettoyage, traitement de la casse (truecasing), alignement, etc.), et on les ajoute à la table de traductions.

Moses-VN est mis à jour vers Moses-VN+1. À la fin de l'itération N, on met en service Moses-VN+1, et on lui fait traduire tous les segments, post-édités ou non. Cela permet de mesurer la différence de qualité sur la partie déjà post-éditée. On passe alors à l'itération N+1. On obtient ainsi une suite de versions du STA (Moses-V1, ..., Moses-VN, Moses-VN+1, ...), qui ne s'arrête (en usage) que quand tous les segments sont post-édités et qu'il n'en reste pas assez de "bons" pour procéder à l'itération suivante.

VI.2.1.3 Résultats

VI.2.1.3.1 Évolution du temps de post-édition

Ces temps sont ceux mesurés par SECTRA_W. Le temps moyen de post-édition (PE), pour chaque nouvel ensemble de 200 segments, diminue à chaque itération. Après la dixième, le temps moyen de PE par page standard (de 250 mots) a été réduit de 3,8 minutes sur 30,7 au départ, soit 12,4%. Si on le compare avec le temps de PE en partant de résultats de GT, on voit qu’il s’en rapproche. La forme de la courbe faisait penser (à la fin de cette phase 1 de l’expérience) qu'il passerait dessous après environ 30 itérations.

Tableau 47 : Évaluation du temps de post-édition (2-6/2013)

Figure 29 : Diminution de temps moyen de PE (par page standard) avec AI dans la phase 1 de l'expérience

VI.2.1.3.2 Évaluations basées sur des références

On a M segments post-édités, et on a la nouvelle version N de Moses-LIG. On traduit tous les segments avec elle, et on mesure BLEU, NIST et TER sur :

• Origine (OR) : les M segments post-édités.

• Nouveau (NV) : les 200 segments nouvellement post-édités. • Tout (TT): tout ce qui a été post-édité.

Fois Segments Mots/seg page standard temps de PE (min) min/page standard

1 200 4,93 3,9 121,0 30,7 2 200 5,15 4,1 125,7 30,5 3 200 4,95 4,0 119,2 30,1 4 200 5,03 4,0 119,4 29,7 5 200 5,29 4,2 123,5 29,2 6 200 5,15 4,1 118,2 28,7 7 200 5,13 4,1 115,2 28,1 8 200 5,25 4,2 116,8 27,8 9 200 5,15 4,1 112,8 27,4 10 200 5,34 4,3 115,0 26,9 Total 2000 41,1 1186,8 26,9 0 5 10 15 20 25 30 35 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

temps moyen avec Google

Temps moyen avec Moses

mins/page

Tableau 48 : Évaluations basées sur des références (BLEU, NIST, TER) OR NV TT OR NV TT OR NV TT 0 22,10 19,78 21,58 5,8782 5,5122 5,7655 64,32 65,51 65,32 1 22,12 23,31 21,79 5,8823 5,7356 5,8018 64,28 64,89 64,73 2 22,23 24,64 21,87 5,9125 5,8267 5,8230 64,14 64,62 64,21 3 22,37 20,82 21,53 5,9532 5,4112 5,6547 64,02 66,74 64,88 4 22,46 20,08 21,61 5,9708 5,6349 5,7743 63,98 65,63 64,43 5 22,59 21,33 21,65 5,9821 6,1183 5,8312 63,90 64,37 64,06 6 22,64 20,23 21,67 6,0246 5,4721 5,8414 63,85 65,32 64,52 7 22,71 18,92 21,43 6,0412 5,0537 5,5752 63,65 67,58 65,03 8 22,79 22,41 22,57 6,0856 5,8269 5,8763 63,59 64,73 64,31 9 22,84 20,23 21,41 6,0954 5,6412 5,8838 63,46 66,08 65,27 10 22,93 6,1139 63,34 Version de Moses-LIG

BLEU NIST TER

À la 10^ième itération, il n’y avait pas de segments post-édités (assez bons). Au début de la N^ième itération, M=2000+200*N, TT=2000+200*(N+1).

Conclusion

Nous avons fait une première expérience sur l'évaluation et l'amélioration incrémentale de la TA, réalisée avec le système MOSES, basé sur SECTRA_W et MOSES-LIG. Les résultats des mesures montrent que la méthode d'apprentissage incrémental permet de réduire le temps de post-édition de 12,4% en 10 itérations, et d'améliorer les mesures basées sur les références (BLEU : ⇑ 0,83, NIST : ⇑ 0,2357, TER : ⇓ 0,98).

Dans le document Outils et environnements pour l'amélioration incrémentale, la post-édition contributive et l'évaluation continue de systèmes de TA. Application à la TA français-chinois. (Page 110-113)