Conclusion de la seconde expérience

6. Expérience

6.2 Evaluation quantitative

6.2.2 Les évaluations humaines

6.2.2.2 Seconde évaluation

6.2.2.2.7 Conclusion de la seconde expérience

Notre seconde évaluation a mis en évidence la préférence des utilisateurs pour la traduction humaine, qui a recueilli 61% des votes des évaluateurs. Le score de la traduction automatique n’est cependant pas négligeable, puisqu’il représente un peu plus d’une phrase sur trois avec 35% de votes en sa faveur. Cette technologie reste cependant a priori inexploitable à l’état brut dans le cadre d’une traduction professionnelle. L’un des problèmes fréquemment relevé à son sujet par nos évaluateurs est en effet l’excès de vulgarité ou, au contraire, son manque d’intensité. L’oreille et le jugement humain sont donc pour le moment les meilleurs outils de traduction des gros mots, étant donné que ces derniers nécessitent une excellente compréhension des nuances de chaque langue et des connaissances poussées des règles à appliquer. La post-édition pourrait toutefois permettre de mieux exploiter la traduction automatique ; elle pourrait être un gain de temps par rapport à une traduction effectuée à partir du texte source, il serait toutefois nécessaire d’évaluer concrètement le gain de temps qu’apporterait cette méthode de travail, la traduction des gros mots requérant un travail d’adaptation considérable.

Il est par ailleurs intéressant de relever que 4% des phrases examinées n’ont pas convaincu les juges, quel que soit le mode de traduction utilisé. Il s’agit pour nous d’un signe manifeste que la traduction des gros mots, qu’elle soit automatique ou humaine, requiert une appréciation poussée du contexte dans lequel ils sont proférés. Notre questionnaire a de plus mis en évidence que les opinions concernant la traduction des gros mots dans les productions cinématographiques et vidéo ludiques pouvaient diverger fortement d’une personne à l’autre.

Un dernier point pertinent à relever est que, selon les commentaires de nos évaluateurs et leurs réponses au questionnaire, le public n’est pas toujours satisfait des traductions des gros mots en français, ce dont nous déduisons que la méthode appliquée à ce jour qui consiste à nuancer les gros mots et limiter leur nombre, comme nous l’a expliqué Kathy Way (section 5.4 supra), ne satisfait pas une partie des utilisateurs. L’avenir nous dira si cette méthode perdure ou si d’autres pratiques viendront la remplacer.

7. Conclusion

A l’ère de l’information, la traduction et l’adaptation sont des éléments clé de la diffusion de produits culturels et leur succès à l’international dépend en partie de la qualité de ces deux éléments. De fait, chaque culture a ses règles et ses sensibilités, façonnées par des générations de personnes au sein d’une communauté, et la langue est le vecteur de transmission de cette culture.

Or, s’il est des mots dont le lien avec la culture est des plus forts, ce sont les gros mots. Comme nous l’avons évoqué dans la section 5 les concernant, ils reflètent en effet les interdits et les tabous établis au sein d’une communauté, leur utilisation venant transgresser les règles de bienséance. Leur traduction n’en est donc que plus complexe, car elle doit non seulement transmettre le sens du message mais également l’adapter aux règles de la culture cible qui peuvent différer relativement fortement de celles de la culture source.

Ce travail de traduction est facilité à l’heure actuelle par les nouvelles technologies, mais l’objectif ultime qui serait de produire des traductions entièrement automatiques de qualité afin de réduire drastiquement les délais d’obtention de documents traduits n’est pas encore d’actualité. Si la dernière avancée en la matière, la traduction automatique neuronale, a déjà permis d’améliorer fortement la qualité des traductions automatiques, il reste nécessaire d’évaluer son efficacité pour la traduction de textes complexes dans l’optique de son utilisation professionnelle.

Il apparaît en effet à l’issue de nos expériences que DeepL, le meilleur des trois traducteurs automatiques que nous avions sélectionnés selon le résultat de notre première expérience, ne peut toutefois pas égaler la traduction humaine, quoique le fait que ses traductions aient été validées dans 35% des cas, résultat de notre seconde expérience, démontre un potentiel certain.

Par ailleurs, les réponses à notre questionnaire prouvent que la sensibilité aux gros mots est variable au sein de la population et que la manière dont ils sont traduits à l’heure actuelle, approuvée par une majorité, ne fait pas l’unanimité. Les résultats obtenus, au vu du nombre limité de participants interrogés, ne peuvent toutefois pas être considérés comme totalement représentatifs de la population en général. Il serait toutefois intéressant d’étudier cette question à plus large échelle en effectuant une étude plus étendue, avec la parité entre personnes bilingues et monolingues, laquelle permettrait de vérifier sur un échantillon plus large si le bilinguisme induit effectivement une différence d’opinion, ainsi que cela ressort de nos observations, ou s’il s’est agi d’une coïncidence. De surcroît, une telle étude permettrait de sonder le public afin de cibler ses attentes et d’y répondre de la manière la plus adaptée, ce qui ne pourra qu’amener à une amélioration des traductions.

Liste des figures et tableaux

Figures

Figure 1 : Triangle de Vauquois

(https://fr.wikipedia.org/wiki/Fichier:Triangle_de_vauquois.svg, consulté le 6 mars 2019) Figure 2 : Schéma du processus de traduction dans un système direct (An Introduction to Machine Translation W. John Hutchins, Harold L. Somers, 1992)

Figure 3 : Schéma du processus de traduction d’un système par interlangue (Quah 2006, 72) Figure 4 : Composants d’un système par transfert (Arnold et al., p. 68)

Figure 5 : Schéma du processus de traduction d’un système basé sur l’exemple (Quah 2006, 81)

Figure 6 : Schéma du processus de traduction d’un système statistique (Quah 2006, 78) Figure 7 : Schéma d’architecture basée sur un encodeur et un décodeur (Koehn 2017, 47) Figure 8 : Interface de DeepL (https://www.deepl.com/translator)

Figure 9 : Interface de Google Traduction (https://translate.google.com/?hl=fr) Figure 10 : Interface de Bing Microsoft Translator (https://www.bing.com/translator)

Figure 11 : Exemple d’évaluation humaine basée sur la fluidité et la fidélité (Koehn 2010, 219) Figure 12 : Comparaison des résultats entre juges humains monolingues, bilingues et le score BLEU sur l’évaluation d’une traduction chinois-anglais (Papineni, Roukos et al. 2002, 318) Figure 13 : Exemple d’opération avec le WER (Koehn 2010, 225)

Figure 14 : Extrait d’une partie du jeu Pong (https://fr.wikipedia.org/wiki/Pong, consulté le 20 mai 2019)

Figure 15 : Capture d’écran du jeu Ōkami HD (http://www.total-gamer.com/jeux-video/actualites/7461-okami-une-ressortie-pour-la-fin-d-annee, consulté le 5 juin 2019)

Figure 16 : Pictogrammes du système PEGI (https://www.parentgalactique.fr/2014/09/pegi-dautres-trucs/, consulté le 13 juin 2019)

Figure 17 : Variation du score BLEU selon le registre (van der Wees, Bisazza et al. 2016)

Figure 18 : Capture d’écran de Borderlands 2 (prise le 13 novembre 2018) Figure 19 : Exemple de dialogues dans les fichiers du jeu

Figure 20 : Premières lignes de la première évaluation Figure 21 : Premières lignes de la seconde évaluation

Figure 22 : Questionnaire adressé aux participants à l’expérience

Tableaux

Tableau 1 : Exemple de récapitulatif d’évaluation humaine (basé sur le cours de TA2 de madame P. Bouillon, 2019)

Tableau 2 : Accord des juges selon le score Kappa

(https://www.statisticshowto.datasciencecentral.com/cohens-kappa-statistic/) Tableau 3 : Tableau des scores de chaque traducteur automatique par participant

Tableau 4 : Pourcentage des choix des juges dans la première évaluation à partir des valeurs moyennes du Tableau 3

Tableau 5 : Tableau des scores des traductions humaine et automatique par participant

Tableau 6 : Pourcentage des jugements en faveur de DeepL ou de la traduction humaine à partir des valeurs moyennes du Tableau 5

Bibliographie

Afli, H. (2010). "Approche mixte pour la traduction automatique statistique. ."

Afli, H., et al. (2012). "Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales."

Allan, K. and K. Burridge (2006). Forbidden Words: Taboo and the Censoring of Language.

Cambridge, Cambridge University Press.

Andersson, L.-G. and P. Trudgill (1990). Bad language. Oxford ; Cambridge Mass., B.

Blackwell.

Arnold, D. J. (1994). Machine translation : an introductory guide / D. Arnold... [et al.], Manchester ; Oxford ; Cambridge : NCC Blackwell.

Bouillon, P. (1993). La traductique : études et recherches de traduction par ordinateur.

Montréal, Presses de l'Université de Montréal : AUPELF/UREF.

Bouillon, P. (2019). Accord entre annotateurs. Université de Genève.

Branger, B. (2009). "Accord entre observateurs : indice kappa de Cohen."

Casacuberta Nolla, F. and Á. Peris Abril (2017). "Neural Machine Translation." Tradumàtica:

tecnologies de la traducció(15).

Chris Callison-Burch, M. O., Philipp Koehn (2006). "Re-evaluating the Role ofBLEUin Machine Translation Research."

Dajun, Z. and W. Yun (2015). "Corpus-based Machine Translation: Its Current Development and Perspectives."

Devriendt, J. (2014). "Typologie des jeux vidéo." Lecture Jeune 149.

Fernández Guerra, A. (2000). Machine translation : capabilities and limitations / Ana Fernández Guerra, València : Lengua inglesa Universitat de València.

Foschi, L. (2013). Traduire les "gros mots" d'anglais en français : étude de trois livres de gangsters et de leur adaptation cinématographique, Université de Genève. Maîtrise.

Gadet, F. (1996). "Niveaux de langue et variation intrinsèque." Retrieved 27 mai 2019, from http://journals.openedition.org/palimpsestes/1504.

Gadet, F. (2003). La variation sociale en français. Gap etc., Ophrys.

Gambier, Y. and L. v. Doorslaer (2010). "Handbook of Translation Studies." 2.

Goudet, J.-L. (2008). "La morale actuelle : deux techniques complémentaires valent mieux qu'une !". from https://www.futura-sciences.com/tech/dossiers/informatique-traduction-automatique-annees-tout-change-831/page/3/.

Has, G. (2015). "Le fantasme de la traduction automatique:esquisse d'un imaginaire frelaté."

Sens public.

Hutchins, W. J. and H. Somers (1992). An introduction to machine translation / W. John Hutchins and Harold L. Somers, London ; San Diego [etc.] : Academic Press.

Jollin-Bertocchi, S. (2003). Les niveaux de langage.

Koehn, P. (2010). Statistical machine translation / Philipp Koehn, Cambridge : Cambridge Univ. Press.

Koehn, P. (2017). "Statistical Machine Translation Draft of Chapter 13: Neural Machine Translation."

Lacroix, K. (2013). "L’utilisation des corpus en traduction." L’Actualité langagière 9.

Landis, J. R. and G. G. Koch (1977). "The Measurement of Observer Agreement for Categorical Data." Biometrics: 159-174.

Léon, J. (2015). Histoire de l'automatisation des sciences du langage, ENS Éditions.

Matthew Snover, B. D. (2006). A Study of Translation Edit Rate with Targeted Human Annotation.

Montagu, A. (2001). The Anatomy of Swearing, University of Pennsylvania Press.

Papineni, K., et al. (2002). "BLEU: a Method for Automatic Evaluation of Machine Translation."

Park, D. (2007). "Identifying & usingformal & informal vocabulary."

Perea, F. (2011). "Les gros mots, paradoxes entre subversion et intégration." Revue de l'enfance et de l'adolescence.

Pestov, I. (2018). "A history of machine translation from the Cold War to deep learning."

Prochasson, E. (2009). "Alignement multilingue en corpus comparables spécialisés."

Quah, C. K. (2006). Translation and technology. Basingstoke, Palgrave.

Rey, A. (2005). Dictionnaire culturel en langue française. Dictionnaire culturel en langue française. l. Robert.

Rouayrenc, C. (1997). Les gros mots. Paris, Presses universitaires de France.

Somers, H. (2005). "Machine Translation: Latest Developments."

Steinmetz, K. (2016). "Swearing Is Scientifically Proven to Help You *%$!ing Deal." Time.

Stone, T., et al. (2015). Back to swear one: A review of English language literature on swearing and cursing in Western health settings.

Tatman, R. (2015). "Evaluating Text Output in NLP: BLEU at your own risk." Retrieved 21 mai, 2019, from https://towardsdatascience.com/evaluating-text-output-in-nlp-bleu-at-your-own-risk-e8609665a213.

van der Wees, M., et al. (2016). Measuring the Effect of Conversational Aspects on Machine Translation Quality. Proceedings of {COLING} 2016, the 26th International Conference on Computational Linguistics: Technical Papers, The COLING 2016 Organizing Committee:

2571-2581.

Vidocq, E.-F. (2002). Dictionnaire argot-français. Dictionnaire argot-français. E. d. Boucher.

Watzlawick, P., et al. (1972). "Une logique de la communication."

Way, K. (2019).

Webographie

TLFi : Trésor de la langue Française informatisé, http://www.atilf.fr/tlfi, ATILF - CNRS &

Université de Lorraine.

Annexes

Dans le document La traduction automatique des « gros mots » dans les jeux vidéo : Evaluation de trois systèmes en ligne (Page 85-94)