Systèmes retenus - Corpus et systèmes MTH

4) Corpus et systèmes MTH

4.5 Systèmes retenus

Après avoir entraîné les quatorze systèmes mentionnés précédemment, il a fallu faire un choix et n’en retenir qu’un petit nombre à déployer. Pour cela, nous avons mené une rapide évaluation comparative en deux étapes. Tout d'abord, nous avons évalué automatiquement huit des neuf systèmes listés dans le tableau 6. Le système i), dont les sets de tuning et de testing ont été paramétrés manuellement, a été exclu de l'évaluation

car nous savions déjà que nous voulions le déployer à des fins de comparaison. De même, les premiers systèmes entraînés ont également été exclus car il était évident que leurs performances laissaient à désirer. Le but étant de se faire une idée de la performance des systèmes rapidement, l'évaluation a porté sur le premier tiers (environ 1600 mots) du texte qui sera ensuite soumis à MTH pour une évaluation plus approfondie (cf. chapitre 5).

Nous avons utilisé le site Asiya Online³⁷ pour calculer les scores BLEU et TER (cf. section 2.4.2) des huit systèmes, en utilisant la traduction française mentionnée à la section 4.2, intitulée « Une affaire d’identité », comme référence. Les scores sont donc calculés sur la base d’un texte de Sherlock Holmes, contrairement aux scores du tableau 6 (sauf pour le système i)). Nous avons utilisé la métrique BLEU par défaut, qui prend en compte les N-grammes jusqu'aux quadriN-grammes³⁸, et la métrique TER par défaut également. Cette dernière effectue la racinisation et identifie les synonymes mais ne prend pas en charge les paraphrases³⁹. Les deux métriques sont sensibles à la casse. Le tableau 7 rassemble les scores BLEU et TER obtenus par chacun des huit systèmes. Rappelons que plus le score BLEU est haut, meilleur il est, tandis que l’inverse est valable pour le score TER (plus le score est bas, moins il faut éditer la traduction).

Système Score BLEU Score TER

a) (General) 14.85 75.45

b) (Literature) 15.36 75.38 c) (Literature) 14.78 76.14

d) (General) 14.36 76.21

e) (General) 15.31 74.00

f) (Literature) 14.76 75.66

g) (General) 16.51 71.65

h) (Literature) 16.66 71.85 Tableau 7 : Scores BLEU et TER de l’évaluation rapide

37 Asiya – Online : An Online Toolkit for Automatic Machine Translation Evaluation, disponible en ligne http://asiya.cs.upc.edu/demo/asiya_online.php (consulté le 2 juillet 2016).

38 Asiya Technical Manual, 2013, p. 16.

39 Ibid, p. 15.

On constate que les scores BLEU diminuent radicalement par rapport au tableau 6. Cela est dû au fait que le calcul fait par MTH portait sur des textes de tout type issus du corpus de spécialisation, tandis que l’évaluation dont il est question ici est faite sur la base d’un seul texte Sherlock Holmes. Malgré tout, deux systèmes se distinguent des autres: le g) et le h), catégories « General » et « Literature » respectivement. Rappelons qu’il s’agit des systèmes avec le plus gros corpus de spécialisation et que MTH leur avait attribué un score BLEU de 44.95 et de 44.83 (cf. tableau 6).

Si le système de catégorie « General » a obtenu un meilleur score TER, celui de catégorie

« Literature » a obtenu un meilleur score BLEU. Pour les départager, nous avons nous-même effectué une évaluation comparative manuelle dont le but était de choisir la meilleure traduction pour un segment donné. Nous avons attribué un score de 2 si une traduction était nettement meilleure que l'autre, un score de 1 si elle était légèrement meilleure, et un score de 0 si aucune n'était meilleure. Nous avons parfois attribué un score de 1 ou de 2 aux deux traductions si toutes deux étaient jugées satisfaisantes, qu'elles soient identiques ou non.

Pour l'évaluation manuelle, les 1600 mots ont été répartis en 72 segments, coupés selon la ponctuation. Sur ces 72 segments, les systèmes ont produit une traduction identique pour 28 d'entre eux. Parmi ces 28, 21 ont été jugés insatisfaisants (score de 0 pour les deux traductions). En tout, ce sont 36 segments qui ont été jugés insatisfaisants, soit la moitié. Les systèmes ont donc été évalués sur la base des 36 segments restants, dont 7 avec une traduction identique. Tous deux ont obtenu le même score, soit 28 points.

L'évaluation manuelle confirme bien que ces deux systèmes sont extrêmement proches.

Au vu des résultats des évaluations manuelle et automatique, nous avons décidé de déployer le système h), de catégorie « Literature », pour deux raisons principales: le score BLEU, qui est la référence dans l'évaluation de systèmes de TA, est légèrement plus élevé, et la catégorie, bien qu'à priori sans influence particulière (cf. section 2.3.2.1), correspond mieux au but de notre travail.

En plus de ce système, que nous appellerons « système principal », nous avons choisi de déployer trois systèmes « de comparaison », c’est-à-dire des systèmes qui permettront de relativiser les résultats obtenus par le système principal et de les comparer. Pour cela, nous avons choisi de déployer le système i) (cf. tableau 6), dont nous avons

manuellement paramétré les sets de tuning et de testing, en y mettant uniquement des nouvelles Sherlock Holmes. Cette idée nous est venue en lisant le guide d’utilisation de MTH, qui indique que « [t]he tuning set is used during training to adjust all parameters and weights of the translation system to the optimal values. Choose your tuning set carefully, to be optimally representative of the content of the documents you intend to translate in the future.⁴⁰ » Le testing set, lui, sert uniquement à calculer le score BLEU (cf.

section 2.3.2.1). Ces explications nous ont poussée à tenter l’expérience, afin de voir si un tuning set contenant uniquement des nouvelles Sherlock Holmes pouvait améliorer les résultats obtenus. Les résultats du training, effectué lui aussi sur des nouvelles uniquement, ne laissaient rien présager de bon (score BLEU de 17.87 selon MTH, cf.

tableau 6) mais nous voulions en avoir le cœur net.

Le deuxième système de comparaison que nous avons déployé est un système entraîné sur toutes les données sauf celles qui ont trait à Sherlock Holmes. Nous avons laissé MTH choisir le set de tuning automatiquement et avons mis des nouvelles Sherlock Holmes dans le set de testing, celui-ci ne servant qu’à calculer le score BLEU, et nous avons retiré du set de training toutes les nouvelles bilingues alignées ainsi que les trois nouvelles monolingues. Le but de ce système de comparaison est de voir si les nouvelles influencent réellement les résultats ou, au contraire, s’il suffit de donner suffisamment de corpus au logiciel, indépendamment de leur nature, pour obtenir des résultats satisfaisants sur de la littérature. Ce système est le seul de catégorie « General », pour plusieurs raisons.

Tout d’abord, c’est cette catégorie qui a obtenu le meilleur score BLEU pour ce corpus de spécialisation, bien que la différence soit vraiment minime (16.68 contre 16.43 selon MTH). Ensuite, en comparant les résultats obtenus par les deux systèmes de catégories différentes, il nous est apparu que les phrases venant de celui de catégorie « General » étaient globalement plus compréhensibles et nécessitaient moins de modifications pour être acceptables. Enfin, avoir un système d’une autre catégorie permettra peut-être de relever des points intéressants sur le fonctionnement et l’impact des catégories dans MTH.

40 MTH User Guide, 2015, p. 11

Le troisième et dernier système de comparaison est un système similaire au deuxième en ce qu’il a été entraîné sur toutes les données disponibles, sauf le corpus monolingue de Besacier. En revanche, nous n’avons ici pas touché aux sets de tuning et de testing. Ce système est de catégorie « Literature » et a obtenu, selon MTH, le score de 45.69. Nous avons choisi ce système et non celui de catégorie « General » car, les scores étant presque identiques et les résultats également, nous avons décidé d’opter pour la catégorie la plus pertinente a priori pour notre étude. Le but de ce système est de déterminer si la présence ou l’absence dans le corpus d’un document représentant l’idéal que nous souhaiterions atteindre à terme (une œuvre littéraire traduite automatiquement puis post-éditée afin d’être lisible) aura une influence sur la performance du système.

Ces trois systèmes serviront à mieux évaluer l’impact des catégories et des corpus qui alimentent le logiciel, par comparaison avec le système principal.

4.6 Conclusion

Dans ce chapitre, nous avons d’abord montré comment nous avons construit nos corpus, puis nous avons présenté les nombreux systèmes entraînés et, enfin, nous avons justifié le choix des quatre systèmes sélectionnés pour l’évaluation finale, lesquels sont présentés au tableau 8. Rappelons que le score BLEU selon MTH est calculé sur la base de textes de tout type, à l’exception des scores des systèmes de comparaison 1 et 2, qui sont calculés uniquement sur des textes Sherlock Holmes.

Système Corpus

Score BLEU selon MTH Système

principal Les deux recueils de nouvelles Sherlock Holmes, la première moitié de la nouvelle A Case of Identity/Une affaire d’identité, le corpus EuroParl, le corpus de Potet, le corpus de Besacier, les trois nouvelles Sherlock Holmes monolingues et les corpus EUconst, news-c, TED et UN.

44.83

Système de

comparaison 1 Identique au système principal mais sets de tuning et de testing manuellement choisis par nous-même pour ne contenir que des phrases issues de Sherlock Holmes.

17.87 Système de

comparaison 2 Identique au système principal mais sans les textes

Sherlock Holmes. 16.68

Système de

comparaison 3 Identique au système principal mais sans le corpus de

Besacier. 45.69

Tableau 8 : Systèmes retenus pour l’évaluation

Que donne la traduction d’un texte littéraire effectuée par ces quatre systèmes ? Nous allons tenter de répondre à cette question en détails dans le chapitre suivant.

Dans le document Traduction automatique et littérature : un couple impossible ? : Étude sur l'utilité de la spécialisation d'un traducteur automatique pour traduire une nouvelle de Sherlock Holmes (Page 55-61)