• Aucun résultat trouvé

Si nous regardons les résultats selon le type de texte (description, dialogue ou mélange), la traduction humaine obtient toujours le meilleur résultat. Les valeurs présentes dans le Tableau 12 sont ordonnées selon le score BLEU (Réf vs. TA post-éditée), du plus haut au plus bas.

Numéro extrait

Type de texte

Pourcentage TH

Pourcentage TA + PE

BLEU du plus haut au plus bas (TA PE) Extrait 4 description 37,6 % 25,9 % 27.64

Extrait 6 mélangé 48,9 % 32,5 % 25.44 Extrait 9 mélangé 68,9 % 18,6 % 24.20 Extrait 3 dialogue 50,6 % 26,5 % 23.72 Extrait 5 mélangé 33,6 % 32,5 % 23.35 Extrait 10 dialogue 70,8 % 18,4 % 22.90 Extrait 2 dialogue 51,4 % 30,6 % 21.82 Extrait 7 description 52,9 % 30,6 % 20.43 Extrait 8 dialogue 74,8 % 12,2 % 19.20 Extrait 1 description 73,6 % 19,1 % 15.86 Tableau 12 : Scores BLEU et type de texte

Le fait que les dialogues soient moins linéaires et donc plus compliqués pour la traduction automatique n’a pas d’influence sur les jugements des évaluateurs (car la TH obtient toujours le meilleur résultat), ni sur la qualité de la traduction automatique, ni sur le score BLEU : en effet, le score le plus haut et le score le plus bas est pour deux extraits descriptifs. Toutefois, les scores BLEU des parties dialoguées sont plus bas (avec une exception) par rapport aux autres.

6.6 Conclusion

Nous allons maintenant établir un commentaire final pour ces extraits, en prenant en compte tout ce que nous avons vu dans les sections précédentes (Sections 6.1, 6.2, 6.3, 6.4 et 6.5), avant de tirer des conclusions globales et finales sur l’expérience (Chapitre 7).

Le Tableau 13 ci-dessous résume les résultats obtenus lors de cette étude, et liste le score TER, la moyenne d’effort de post-édition, les deux scores BLEU, le temps de traduction et le temps de post-édition et les moyennes des choix (TA + PE, TH et Aucune différence) de l’évaluation humaine.

Ext. TER

Moyenne effort de

post-édition

BLEU Réf vs.

TH

BLEU Réf vs.

TA brute

Temps de traduction

Temps de post-édition

Moyenne des choix évaluation humaine TA +

PE TH Aucune

diff.

Ext 1 40.918 37,95 % 16.73 11.54 10’800 sec 7’712 sec 19,1 % 73,6 % 7,3 % Ext 2 60.755 46,21 % 26.4 16.38 6’600 sec 3’555 sec 30,6 % 51,4 % 18 % Ext 3 49.385 37,64 % 26.67 18.52 5’400 sec 3’794 sec 26,5 % 50,6 % 22,9 % Ext 4 48.814 36,32 % 16.41 20.39 8’100 sec 6’301 sec 25,9 % 37,6 % 36,6 % Ext 5 54.658 44,08 % 18.29 13.57 18’000 sec 5’334 sec 32,5 % 33,6 % 33,9 % Ext 6 46.680 37,46 % 20.22 16.73 18’000 sec 1’849 sec 32,5 % 48,9 % 18,6 % Ext 7 47.741 40,16 % 16.4 14.51 12’600 sec 3’489 sec 30,6 % 52,9 % 16,5 % Ext 8 40.717 31,8 % 18.97 11.48 8’100 sec 2’956 sec 12,2 % 74,8 % 13 % Ext 9 37.428 26,52 % 16.49 17.04 12’600 sec 3’999 sec 18,6 % 68,9 % 12,5 % Ext 10 35.664 21,77 % 19.3 16.15 5’100 sec 1’721 sec 18,4 % 70,8 % 10,8 % Tot. 36 % 19.67 15.78 105’300 sec 40’710 sec 24,69 % 56,31 % 19,01 %

Tableau 13 : Résumé des résultats par extrait

Pour les dix extraits il y a eu un gain de temps (18h globalement), pour certains important (extraits 5, 6, 7 et 9), pour d’autres moindre (extraits 3, 4). Pour les extraits 7 et 9, la traduction humaine dépasse largement la traduction automatique (environ 20 % pour le premier et environ 40 % pour le deuxième).

Nous remarquons que la moyenne des choix TA + PE des extraits 5 et 6 est la plus élevée des dix (32,5 %). L’extrait 6 est légèrement mieux placé par rapport au 5, mais la moyenne des choix TH (48,9 %) n’est pas si haute par rapport à celle des autres extraits.

Pour ces deux extraits 5 et 6, le gain de temps a été très important (extraits 5, 12’666 secondes et 6, 16’151 secondes), et ces deux extraits sont ceux pour lesquels le flux TA + PE pourrait bien rivaliser avec la traduction humaine en termes de temps. Pour l’extrait 5 ce discours peut se faire aussi en termes de qualité, vu qu’uniquement le 33,6 % des segments traduits humainement a été choisi comme meilleur.

Les scores TER sont un indicateur assez parlant : ils montrent que le résultat brut de la traduction automatique n’est pas du tout à la hauteur d’une possible comparaison, étant donné que les post-éditeurs (avec quelques différences) ont dû travailler amplement sur ces textes

pour les rendre compréhensibles pour un lecteur humain, le score TER le plus haut étant 60.755 (extrait 2) et le plus bas 35.664 (extrait 10), qui est de toute manière un score élevé.

En ce qui concerne les scores BLEU, nous voyons que (avec deux exceptions, extraits 4 et 9) ils sont meilleurs pour la traduction humaine que la traduction automatique, mais ces scores ne sont pas très haut.

En moyenne, la traduction humaine dépasse largement la traduction automatique post-éditée, avec plus de la moitié des jugements (56,31 % contre 24,69 %). Le 19 % des segments a été jugé comme identiques ou similaires.

7 Conclusion

Le but principal de ce mémoire était de comparer la traduction humaine et automatique puis post-éditée d’un texte littéraire, en l’occurrence Wuthering Heights, afin d’établir laquelle est la meilleure parmi les deux, pour répondre à notre question de recherche « la post-édition de Google Translate peut-elle rivaliser avec une traduction humaine pour la traduction littéraire ? ». Pour ce faire, nous avons procédé de la manière suivante : nous avons d’abord réuni dix extraits et les avons fait traduire par des camarades, ensuite ces mêmes extraits ont été traduits automatiquement avec Google Translate, puis post-édités par ces mêmes camarades avec un plan expérimental croisé.

Les textes ont été évalués par des humains (des experts en linguistique et littérature), qui ont non seulement fait une évaluation comparative, mais ont également mentionné dans leurs commentaires les erreurs les plus frappantes qu’ils ont remarqué. Ces appréciations humaines ont été complétées par des métriques automatiques (notamment BLEU et TER), qui nous ont donné une idée de la distance entre ces traductions et de l’effort de post-édition, et par une comparaison au niveau du temps de traduction et de post-édition.

Dans l’ensemble, les résultats sont plutôt clairs et confirment notre hypothèse de départ : 55,3

% des segments préférés par les évaluateurs ont été traduits par un humain, 19,7 % par Google Translate, et les 25 % restants ont été jugés similaires ou identiques. Pour ces extraits, nous avons une corrélation au niveau global, comme par exemple pour ce qui est du temps de travail ou les scores BLEU et TER.

En ce qui concerne le temps de traduction, celui-ci diminue drastiquement avec la post-édition (avec quelques différences entre les dix extraits) et permet de gagner environ 18 heures de travail. Parmi tous les extraits, il n’y a eu qu’un cas pour lequel le flux de travail traduction automatique et post-édition pourrait rivaliser avec la traduction humaine. Pour le moment donc, la traduction automatique n’est pas en mesure de substituer la traduction humaine dans le domaine de la littérature.

En ce qui concerne les scores automatiques BLEU et TER, nous avons montré que BLEU n’est pas une métrique idéale pour la littérature, même si nous avons trouvé une certaine corrélation au niveau de l’ensemble des extraits. Nous avons montré également que plus le score TER est haut, plus la moyenne des choix pour la traduction automatique post-éditée

augmente et la moyenne des choix pour la traduction humaine baisse, et inversement, ce qui donne donc une très haute corrélation avec les jugements humains et montre que la qualité dépend du taux de post-édition.

Nous avons également vu que le type de texte (dialogue ou description) n’a pas d’influence sur les jugements des évaluateurs, car indépendamment du type de texte la traduction humaine obtient toujours le meilleur résultat.

Dans le cadre de cette étude, nous nous sommes adressée à des traducteurs et post-éditeurs en fin de cursus d’études (et non pas des professionnels), et ils n’ont pas été rétribués pour les deux tâches : nous avons donc remarqué que certains ont travaillé mieux que d’autres et qu’ils ont pris plus au sérieux notre recherche (surtout pour ce qui est de la post-édition, notamment le non-respect du temps maximal ou une post-édition mal faite).

Il serait donc intéressant d’effectuer une étude similaire, en faisant appel à des traducteurs et éditeurs professionnels, qui travaillent depuis longtemps dans le domaine. La post-édition, nous avons pu constater, n’est pas un travail que n’importe qui peut entreprendre : dans les dix extraits que nous avons réuni, cette tâche particulière présentait beaucoup de différences, notamment concernant l’effort de post-édition, qui pour un texte était de 46,21 % (extrait 2) et pour un autre de 21,77 % (extrait 10), facteur qui a beaucoup impacté les choix des évaluateurs.

Un point qui est également à améliorer est la mise en place de l’évaluation : les évaluateurs ont dû prendre des décisions sur la meilleure traduction sans avoir à disposition aucun contexte, autre que l’indication de l’extrait qu’ils étaient en train d’évaluer (qui faisait office de texte source) et l’extrait qu’ils allaient évaluer ensuite.

De la même manière, il serait intéressant de tester le flux de travail traduction automatique et post-édition avec une œuvre littéraire publiée récemment et non pas au dix-neuvième siècle, car l’anglais aujourd’hui a changé, ainsi que les corpus qu’un système statistique tel que Google Translate consulte pour proposer ses traductions, ce qui pourrait peut-être se traduire par une meilleure performance de la part de ce logiciel.

Enfin, l’on pourrait aussi mettre à disposition ces donnes (Annexe 7) pour une étude non seulement statistique, mais qualitative, en regardant les changements que les post-éditeurs ont effectués, afin d’étudier le corpus de post-édition et le type d’erreurs commis par Google

Translate (par exemple les calques linguistiques, les traductions littérales, la reprise de mots en langue source quand le logiciel ne connait pas le mot correct en langue cible, etc.).

Mises à part ces limites, nous avons pu bénéficier d’évaluations humaines de la part d’experts en linguistique et littérature, ce qui nous a permis d’obtenir des jugements précis et de qualité.

8 Bibliographie

ALLEN, J. (2003). Post-Editing in Computers and Translation: A Translator’s Guide.

Amsterdam-Philadelphia: John Benjamins, Edited by Harold Somers, pp. 297-318.

ANSA (2017). Google, sbarcano in Italia traduzioni con reti neurali. (Disponible en ligne

http://www.ansa.it/sito/notizie/tecnologia/software_app/2017/04/19/google-in-italia-traduzioni-con-ai_e18d6de6-f8cb-4198-8498-5f8f3ab08013.html)

ARNOLD, D., BALKAN, L., HUMPHREYS, R.L., MEIJER, S., SADLER, L. (1994).

Machine Translation: An Introductory Guide. London: Blackwell.

BESACIER, L. (2014). Traduction automatisée d’une œuvre littéraire: une étude pilote.

Traitement Automatique du Langage Naturel (TALN). Marseille. (Disponible en ligne https://hal.inria.fr/hal-01003944/document)

BOUILLON, P. (2016). Notes de cours TA 1, non publié. Université de Genève.

BOUILLON, P. (2017). Notes de cours TA 2, non publié. Université de Genève.

BRONTË, E. (1847). Wuthering Heights. Londres: Thomas Cautley Newby Publisher.

BRONTË, E. (1847). Wuthering Heights. Londres: Thomas Cautley Newby Publisher.

(Traduction en italien de Anna Luisa Zazo, Cime tempestose, Milano, Mondadori, 2001).

CARL, M., SCHAEFFER, M. J. (2017). Models of the Translation Process. The Handbook of Translation and Cognition, First Edition. Edited by John W. Schwieter and Aline Ferreira.

John Wiley & Sons, Inc, pp. 50-70.

FEDERICO, M., BERTOLDI, N., CETTOLO, M., NEGRI, M., TURCHI, M., TROMBETTI, M., CATTELAN, A., FARINA, A., LUPINETTI, D., MARTINES, A., MASSIDDA, A., SCHWENK, H., BARRAULT, L., BLAIN, F., KOEHN, P., BUCK, C., GERMANN, U.

(2014). The MateCat Tool. Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: System Demonstrations. Dublin, pp. 129-132.

GENZEL, D., USZKOREIT, J., OCH, F. (2010). “Poetic” Statistical Machine Translation:

Rhyme and Meter. Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. MIT, Massachusetts, pp. 158-166.

HEARNE, M., WAY, A. (2011). Statistical Machine Translation: A Guide for Linguists and Translators. Language and Linguistics Compass. Blackwell Publishing Ltd, pp. 205-226.

HUTCHINS, J. (2005). The history of machine translation in a nutshell. Revised 2014.

(Disponible en ligne http://www.mt-archive.info/10/Hutchins-2014.pdf)

IL SOLE 24 ORE (2017). Google Translate: le reti neurali possono migliorare le traduzioni?

(Disponible en ligne http://www.ilsole24ore.com/art/tecnologie/2017-04-19/google-translate-reti-neurali-possono-migliorare-traduzioni--163520.shtml?uuid=AEyd5t7&refresh_ce=1) JURAFSKY, D., MARTIN, J. H. (2000). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition.

Englewood Cliffs, New Jersey: Prentice Hall-Hall, Inc.

JURAFSKY, D., MARTIN, J. H. (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Second edition. Upper Saddle River: Pearson Education, Inc.

KOEHN, P. (2010). Statistical Machine Translation. Cambridge: Cambridge University Press.

KRINGS, P., KOBY, G.S. (2001). Repairing texts. Empirical investigations of machine translation post-editing processes. Kent: The Kent State University Press.

L’HOMME, M.-C. (2008). Initiation à la traductique. Montréal: Linguatech éditeur.

LE, Q. V., SCHUSTER, M. (2016). A Neural Network for Machine Translation, at Production Scale. Google Research Blog. (Disponible en ligne https://ai.googleblog.com/2016/09/a-neural-network-for-machine.html)

McELHANEY T., VASCONCELLOS, M. (1988). The Translator and the Postediting Experience. Technology as Translation Strategy. American Translators Association, Scholarly Monograph Series, Volume 2. State University of New York at Binghamton, p. 140-148.

O’BRIEN S. (2002). Teaching Post-editing: A Proposal for course Content. Sixth EAMT Workshop Teaching machine translation. Manchester, England; pp.99-106. (Disponible en ligne http://www.mt-archive.info/00/EAMT-2002-OBrien.pdf)

O’BRIEN S. (2011). Towards Predicting Post-Editing Productivity. Machine Translation, Vol. 25, Springer Science Business Media, pp. 197-215.

PAPINENI, K., ROUKOS, S., WARD, T., ZHU, W.-J. (2002). BLEU: A Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL). Philadelphia, pp. 311-318.

ROBERT, A.-M. (2010). La post-édition: l’avenir incontournable du traducteur? Traduire, n°222, pp. 137-144.

SAXENA, A. (2017). Cloud Translation API Neural Machine Translation enters GA and adds more languages. Google Cloud Platform Blog. (Disponible en ligne https://cloudplatform.googleblog.com/2017/04/Cloud-Translation-API-adds-more-languages-and-Neural-Machine-Translation-enters-GA.html)

SCHUSTER, M., JOHNSON, M., THORAT, N. (2016). Zero-Shot Translation with Google’s Multilingual Neural Machine Translation System. (Disponible en ligne https://ai.googleblog.com/2016/11/zero-shot-translation-with-googles.html)

SINGH, S.P., KUMAR, A., DARBARI, H., SINGH, L., RASTOGI, A., JAIN, S. (2017).

Machine Translation using Deep Learning: An Overview. 2017 International Conference on Computer, Communications and Electronics (Comptelix). Manipal University Jaipur, Malaviya National Institute of Technology Jaipur & IRISWORLD, pp. 162-167.

SNOVER, M., DORR, B. et al. (2006). A Study of Translation Edit Rate with Targeted Human Annotation. Proceedings of Association for Machine Translation in the Americas, pp.

223-231.

SYSTRAN (2016). Communiqué de presse. SYSTRAN lance son moteur "Purely Neural MT", une révolution pour le marché de la traduction automatique. (Disponible en ligne

http://www.systran.fr/download/press-releases/fr/systran-pr-purely-neural-mt-engine-a-revolution-for-the-machine-translation-market-2016-08-30.pdf)

SYSTRAN (2017). White Paper. Pure Neural Machine Translation. (Disponible en ligne

http://www.systransoft.com/download/white-papers/systran-white-paper-PNMT-12-2016_2.pdf)

TORAL A., WAY, A. (2014). Is Machine Translation Ready for Literature? Translating and the Computer 36: Proceedings. London, pp. 174-176.

TORAL A., WAY, A. (2015a). Translating Literary Text between Related Languages using SMT. Proceedings of NAACL-HLT Fourth Workshop on Computational Linguistics for Literature, pp. 123-132. (Disponible en ligne http://www.aclweb.org/anthology/W15-0714)

TORAL A., WAY, A. (2015b). Machine-assisted translation of literary text: A case study.

Translation Spaces 4:2. John Benjamins Publishing Company, pp. 240-267.

TUROVSKY, B. (2016a). Found in translation: More accurate, fluent sentences in Google Translate. Blog Google. (Disponible en ligne https://blog.google/products/translate/found-translation-more-accurate-fluent-sentences-google-translate/)

TUROVSKY, B. (2016b). Ten years of Google Translate. (Disponible en ligne https://blog.google/products/translate/ten-years-of-google-translate/)

VOIGT, R., JURAFSKY, D. (2012). Towards a Literary Machine Translation: The Role of Referential Cohesion. NAACL-HLT Workshop on Computational Linguistics for Literature.

Montréal, Canada, pp. 18-25.

WAGNER, E. (1985). Post-Editing Systran – A Challenge for Commission Translators.

Terminologie et Traduction, nº3, pp. 1-7. (Disponible en ligne http://www.mt-archive.info/T&T-1985-Wagner.pdf)

WU, Y., SCHUSTER, M., CHEN, Z., LE, Q.V., NOROUZI, M., MACHEREY, W., KRIKUN, M., CAO, Y., GAO, Q., MACHEREY, K., KLINGNER, J., SHAH, A., JOHNSON, M., LIU, X., KAISER, L., GOUWS, S., KATO, Y., KUDO, T., KAZAWA, H., STEVENS, K., KURIAN, G., PATIL, N., WANG, W., YOUNG, C., SMITH, J., RIESA, J., RUDNICK, A., VINYALS, O., CORRADO, G., HUGHES, M., DEAN, J. (2016). Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. (Disponible en ligne https://arxiv.org/pdf/1609.08144v1.pdf)

9 Annexes