Résultats - Première évaluation - Les évaluations humaines

6. Expérience

6.2 Evaluation quantitative

6.2.2 Les évaluations humaines

6.2.2.1 Première évaluation

6.2.2.1.3 Résultats

Les résultats de notre première évaluation peuvent être résumés comme suit : Participants DeepL Google

Traduction

Bing

Translator Aucun Total des réponses

1 146 56 32 54 288

2 188 99 62 59 408

3 172 78 52 76 378

4 182 62 36 56 336

5 182 74 46 38 340

6 204 37 14 55 310

7 122 35 21 140 318

8 190 31 17 77 315

Moyenne 173,25 59 35 69,375 336.625

Tableau 3 : Tableau des scores de chaque traducteur automatique par participant

Tableau 4 : Pourcentage des choix des juges dans la première évaluation à partir des valeurs moyennes du Tableau 3

Nous constatons que DeepL a largement obtenu le plus de votes, avec 51% des choix, alors que Google Traduction et Bing Translator n’ont été choisis respectivement que dans 18% et 10%

des cas, ce qui suit la hiérarchie établie par le score BLEU, quoique dans des proportions plus avantageuses pour DeepL. Le fait qu’aucune traduction automatique n’ait été choisie dans 21%

des cas est intéressant, car cela illustre la marge de progression des traducteurs automatiques neuronaux. Nous n’avons pas perçu de tendance particulière des réponses en fonction du profil des évaluateurs, notamment entre les deux étudiantes en traduction (participants 7 et 8), l’une ayant été très peu satisfaite par les traductions automatiques proposées (participant 7). Cela se remarque également entre les participants 4 et 5, qui malgré des scores relativement proches n’ont pas le même profil, l’une étant illustratrice freelance et l’autre étudiante en architecture.

Afin d’analyser et d’interpréter ces résultats plus en détail, nous allons calculer l’accord entre les juges à l’aide du score Kappa (6.1.2.4) puis nous analyserons les commentaires de nos évaluateurs (section 6.1.2.5).

6.2.2.1.4 Le score Kappa

Nous avons utilisé le logiciel R pour calculer automatiquement le score Kappa de Fleiss à partir de nos résultats, soit l’accord entre les juges (section 3.1.1). Nous avons obtenu un score de 0.00238, soit un score léger (slight) selon l’échelle de Landis et al. (1977, 171) ce qui démontre que cette évaluation était très subjective, les juges ayant fait leurs choix sans concertation, à partir de leur ressenti et de leurs connaissances, comme cela arrive souvent lors d’évaluations humaines comparatives.

DeepL 51%

Google Traduction

18%

Bing Translator 10%

Aucun 21%

DeepL Google Traduction Bing Translator Aucun

75 6.2.2.1.5 Commentaires des évaluateurs

Les évaluateurs étaient libres de laisser des commentaires pour donner leurs impressions sur les traductions qu’ils devaient juger ou afin de justifier leurs choix. Certains d’entre eux ont aussi laissé des propositions de traduction, ce qui nous a permis dans certains cas d’observer et de comparer les approches humaines et automatiques.

Quelques commentaires sont d’ailleurs plutôt encourageants pour la traduction automatique.

Un évaluateur qui n’avait été que peu confronté à la traduction automatique jusqu’au moment de l’évaluation a ainsi été très surpris par la qualité de certaines propositions au cours de l’évaluation, notamment en ce qui concerne la traduction de gros mots, car il n’imaginait pas que les systèmes neuronaux étaient aussi bien entraînés à traduire ce type d’expression. Notre évaluateur a tout de même remarqué que, parmi les possibilités de traduction, il y avait très souvent une phrase dont la qualité était bien inférieure aux deux autres.

Le contexte des phrases a parfois été évoqué dans les commentaires pour justifier certains choix, notamment en ce qui concerne le choix des pronoms « tu » et « vous », que ce soit en positif ou en négatif. Un des participants a ainsi estimé que le « en votre honneur » de la phrase « Je me suis creusé la cervelle en essayant de trouver un nom à ce poney diamant que j'ai acheté. J'allais l'appeler '' pisse pour cerveaux '' en votre honneur, mais ça a l'air ... immature. Hey, peut-être '' Butt Stallion ? » était plus drôle qu’une autre traduction pourtant très proche de celle-ci mais où il était écrit « en ton honneur ».

La plupart des commentaires étaient cependant assez critiques envers les traductions automatiques et les participants ont relevé plusieurs problèmes dans les diverses propositions.

Les traductions de « shut up » par « tais-toi » ou « la ferme » ont ainsi suscité les critiques de la majorité des experts, qui ont souvent estimé qu’elles n’étaient pas assez fortes et que dans ces cas de figure, « ta gueule » était plus approprié. La perte d’intensité a aussi été remarquée pour les traductions de la phrase « You kill the crap outta Jack, you hear? » et du mot « jerk ».

Dans d’autres cas, c’est l’excès de vulgarité qui a été critiqué, comme la traduction de « bitch » par « chienne » ou « salope ». Ces commentaires tendent à montrer qu’il manque aux traducteurs automatiques la sensibilité de l’oreille humaine pour trouver le bon mot dans la bonne situation.

Un problème relevé principalement par les experts formés en traduction concerne les fautes typographiques dans les phrases traduites, surtout en ce qui concerne le respect des espaces et des marques de ponctuation comme les points d’exclamation, un problème qui nécessiterait un

travail de relecture obligatoire et donc du temps si la traduction automatique devenait un véritable outil dans l’industrie vidéoludique et demanderait donc du temps en relecture.

Enfin, certains experts ont pointé le manque de créativité dans la traduction de phrases, d’expressions ou de mots qui s’y seraient bien prêtés. Ainsi, la traduction du poème est totalement faussée par le manque de rimes et le fait qu’il n’a pas de chute comme dans la traduction humaine et « bitchy », bien que traduit correctement, aurait mérité une traduction plus « ludique » selon les termes d’un expert. Le fait que les traducteurs automatiques ne soient ainsi pas en mesure de créer, d’inventer et d’utiliser leurs « connaissances » linguistiques à partir des entraînements qu’ils ont reçus (pour les systèmes neuronaux en tout cas) les limite fortement dans le cadre de traductions où la langue est un vecteur d’émotions, comme dans le cadre de ce jeu vidéo. Si nous nous appuyons sur les remarques récoltées auprès de nos évaluateurs, la traduction humaine semble donc, pour le moment, le seul moyen de rendre tous les effets d’une langue à une autre.

6.2.2.1.6 Conclusion de la première expérience

Les résultats de notre première évaluation humaine ont placé DeepL largement en tête des choix de nos évaluateurs avec 51% des votes en faveur de ses traductions, un classement pressenti suite à l’analyse des résultats du score BLEU, même si les chiffres de l’évaluation humaine donnent une victoire bien plus écrasante à DeepL que l’évaluation automatique.

Outre les résultats bruts que nous a apportés cette évaluation, les commentaires des juges nous ont donné un premier aperçu des faiblesses de la traduction automatique au moment de traduire des gros mots, notamment les difficultés qu’ont les traducteurs automatiques à doser les gros mots en français et à trouver les termes les plus adéquats dans chaque situation.

Ayant déterminé le traducteur automatique proposant les traductions les plus adéquates, nous allons procéder à la deuxième évaluation lors de laquelle nous confronterons DeepL à la traduction officielle du jeu. Nous devrions ainsi être en mesure d’identifier encore plus précisément les différences de traductions des gros mots entre les méthodes humaine et automatique.

6.2.2.2 Seconde évaluation

6.2.2.2.1 Mise en place

L’objectif de notre seconde évaluation était d’observer les préférences humaines entre la traduction officielle du jeu et la meilleure traduction automatique choisie au cours de la première évaluation. Cette expérience comporte deux documents : une évaluation comparable

à celle effectuée lors de la première expérience et un questionnaire visant à récolter les opinions des évaluateurs au sujet des gros mots dans les films et les jeux vidéo. L’évaluation consiste en un fichier Excel constitué de trois feuilles qui remplissent des rôles distincts. La première,

« Feuille 1 », contient les formules permettant de mélanger les propositions de l’évaluation et de comptabiliser les résultats donnés dans la troisième feuille. La feuille « Instructions » contient les explications du déroulement de l’évaluation et la marche à suivre pour la remplir, que voici :

« Merci d'avoir accepté de participer à cette évaluation. Vous la trouverez sur la feuille

« Evaluation » de ce document Excel. Veuillez indiquer quelle traduction française du texte en anglais vous paraît la meilleure en tapant « x » dans la ou les colonnes correspondantes. Si vous estimez qu'aucune traduction n'est acceptable, veuillez taper « x » dans la colonne Ø. Vous pouvez commenter vos choix ou faire part de vos observations dans la colonne

« Commentaires ». Cliquez sur l'onglet « Evaluation » pour commencer. ».

L’évaluation à proprement parler se trouve ainsi sur la troisième feuille « Evaluation » dont voici les deux premières lignes :

Texte source 1 2 T1 T2

Ø

Commentaires

" You're the bad guys. And I am the goddamn hero."

" Vous êtes les méchants. Et je suis le putain de héros."

Figure 21 : Premières lignes de la seconde évaluation

Elle est constituée de sept colonnes distinctes contenant diverses informations : le texte source, deux colonnes de propositions où les phrases de DeepL et celles de la version française officielle sont mélangées, trois colonnes de réponses, une pour chaque colonne et une servant à signifier qu’aucune proposition n’est acceptable et une colonne de commentaires pour permettre aux juges de préciser leurs choix ou faire part de leurs observations. Chaque « x » noté par un évaluateur dans les colonnes T1, T2 et Ø rapportait un point à la version choisie.

Le questionnaire tient quant à lui sur une page d’un document Word sur laquelle figurent sept questions concernant les gros mots dans les divertissements et les opinions des juges à ce sujet, que nous étudierons en détail à la section 6.2.2.2.6.

Une fois ces documents élaborés, nous les avons envoyés à nos évaluateurs accompagnés de formulaires de consentement.

6.2.2.2.2 Participants

Nous avions initialement prévu de demander aux juges de la première expérience de participer à la seconde, mais avons dû trouver des remplaçants aux participants 4 et 6 pour des raisons de disponibilité. Dans cette évaluation, le participant 4 est un étudiant diplômé en master de l’EPFL disposant d’excellentes connaissances en anglais et le participant 6 est une étudiante en traduction diplômée en master bilingue anglais-français de naissance.

6.2.2.2.3 Résultats

Les résultats de notre seconde évaluation figurent dans les tableaux suivants. Les fichiers Excel que nous avions envoyés comportaient les formules nécessaires pour effectuer le décompte des points attribués à chaque version de traduction. Nous avons surligné les valeurs maximales en vert et les valeurs minimales en rouge afin de faire ressortir la différence maximale d’attribution des points :

Participants Traduction

humaine DeepL Aucun Total

1 150 136 3 289

2 231 106 0 337

3 222 92 2 316

4 216 76 9 301

5 170 113 11 294

6 185 100 19 304

7 191 69 38 298

8 136 168 28 332

Moyenne 187,625 107,5 13,75 308,875

Tableau 5 : Tableau des scores des traductions humaine et automatique par participant

Tableau 6 : Pourcentage des jugements en faveur de DeepL ou de la traduction humaine à partir des valeurs moyennes du Tableau 5

Nous observons que le rapport entre la traduction humaine et la traduction automatique est proche des deux tiers pour la traduction humaine (61%) et d’un tiers pour la traduction automatique de DeepL (35%), ce qui signifie que la traduction automatique brute de phrases comportant des gros mots serait exploitable pour une phrase sur trois. Cela paraît relativement peu si l’on se place dans l’optique d’utiliser cette technologie dans un milieu professionnel et de se baser exclusivement sur des traductions automatiques. Une solution intermédiaire pourrait être, selon nous, de post-éditer ces dernières. Ce mode opératoire, qui tient compte des limites actuelles des traducteurs automatiques, aurait l’avantage d’accélérer le processus de traduction, certains segments pouvant être conservés tels quels. Il nécessiterait toutefois un passage en revue soigneux par un traducteur humain pour détecter toutes les scories inévitables en l’état actuel de la technique et vérifier la qualité de la traduction. L’utilisation des traducteurs automatiques et de la post-édition pourrait ainsi vraisemblablement représenter un gain de temps par rapport à une traduction exclusivement humaine.

Nous remarquons également qu’en moyenne, les évaluateurs n’ont été satisfaits par aucune proposition dans 4% des cas. Une analyse approfondie des réponses insatisfaites nous a mené à la conclusion que les pertes de sens, notamment lorsqu’un gros mot avait été retiré, était la cause de ce choix. Cela démontre la difficulté que représente le travail de traduction de ce type

Traduction humaine

61%

DeepL 35%

Aucun 4%

Traduction humaine DeepL Aucun

de textes et que même les traductions humaines des gros mots sont perfectibles aux yeux du public.

Enfin, nous remarquons des différences importantes parmi les résultats de nos juges, l’écart des points attribués à une même traduction variant de 95 points pour la traduction humaine et de 101 points pour la traduction automatique de DeepL.

Nous allons calculer le score Kappa (section 6.1.2.4) à partir des résultats de notre seconde expérience afin d’évaluer l’accord entre nos évaluateurs puis analyserons leurs commentaires (6.2.2.5).

6.2.2.2.4 Le score Kappa

Nous avons de nouveau utilisé le logiciel R pour calculer automatiquement le score Kappa de Fleiss (section 3.1.1) à partir des résultats de notre deuxième évaluation. Nous avons obtenu un score de -0.00446, soit un score médiocre (poor) selon l’échelle de Landis et al. (1977, 171), ce qui tend à montrer que les juges n’étaient pas du tout d’accord entre eux dans cette évaluation.

A la vue des scores de chaque juge dans le Tableau 5, nous observons qu’il existe en effet de grandes différences, notamment au niveau des valeurs maximales (en vert) et minimales (en rouge) de chaque catégorie. De plus, le fait qu’un juge a globalement préféré les traductions automatiques à la traduction humaine a potentiellement joué un rôle déterminant dans le résultat de ce score Kappa.

6.2.2.2.5 Commentaires des évaluateurs

Nous relevons tout d’abord que nous avons recueilli beaucoup moins de commentaires dans le cadre de cette seconde évaluation que lors de la première. Nous allons présenter les plus pertinents.

Le manque de contexte a rendu l’évaluation de certaines phrases compliquée selon l’un de nos évaluateurs. De fait, ayant sélectionné exclusivement des phrases qui comprennent des gros mots, ces dernières n’avaient dans leur grande majorité aucun lien les unes avec les autres et n’apportaient pas certaines informations qui auraient pu être nécessaires à une compréhension optimale des phrases présentées. Cependant, notre travail étant centré sur les gros mots, il aurait été hors de propos d’insérer des phrases ne comportant pas ce type de mots.

Malgré la réputation de DeepL et des systèmes neuronaux en général pour produire des phrases qui sonnent plus naturelles et plus humaines, la plupart des traductions humaines ont paru plus fluides que les traductions automatiques, d’après les commentaires que nous avons recueillis.

Les traductions automatiques présentaient d’ailleurs quelques fautes de sens, souvent dans les cas où le français était quelque peu bancal, voire incompréhensible, dans certains cas, comme la phrase : « Je crois que c'est un sac de bite de bouse de fromage, un vrai pantalon de gros lard parade ».

Malgré les qualités indéniables de la traduction humaine, notamment dans la restitution du contexte, de bonnes trouvailles de traduction de certains noms, du poème et de certaines phrases, elle a fait l’objet de quelques critiques, un évaluateur estimant que les gros mots utilisés perdaient parfois trop d’intensité par rapport à l’anglais, que certains, comme « crotte »,

« punaise » et « bon sang », n’étaient pas des mots qu’un francophone utiliserait dans pareille situation et qu’elle s’éloignait parfois trop du texte original.

Outre ces commentaires, nous allons étudier les réponses des évaluateurs au questionnaire concernant les gros mots que nous leur avons soumis. Cela nous permettra d’en apprendre davantage sur leurs opinions concernant les gros mots dans les divertissements.

6.2.2.2.6 Réponses au questionnaire soumis aux juges

Notre questionnaire servait à cerner l’opinion de nos évaluateurs concernant la traduction des gros mots dans les films, les livres et les jeux vidéo afin d’interpréter nos résultats plus efficacement et d’éclairer nos conclusions. Notre questionnaire était constitué de sept questions, que voici :

1. Vous est-il déjà arrivé de regarder un film ou de jouer à un jeu vidéo en plusieurs langues ou en version multilingue (par exemple regarder un film en anglais avec des sous-titres français) ?

2. Quel type de divertissement consommez-vous parmi ceux cités ci-dessous ?

⃝ Jeux vidéo

⃝ Films

⃝ Séries

3. Vous arrive-t-il de regarder/jouer des œuvres où l’on trouve des gros mots ?

⃝ Oui ⃝ Non

4. Avez-vous déjà observé des différences dans l’utilisation des gros mots entre les versions anglaise et française d’un film, d’une série, d’un jeu vidéo ou d’un livre ?

⃝ Oui ⃝ Non

Si oui, lesquelles ?

5. L’utilisation des gros mots en traduction française dans les films et les séries vous semble-t-elle appropriée ? Les mots employés correspondent-ils à la manière dont s’exprimerait selon vous un francophone ?

6. Les traductions françaises de films et séries contiennent souvent moins de gros mots que leur version originale anglaise. Cette façon de procéder vous convient-elle, ou préféreriez-vous que les traducteurs conservent la vulgarité ?

7. Si des gros mots doivent être traduits, préférez-vous que le traducteur :

⃝ Les conserve tous

⃝ Nuance pour s’adapter au public français

⃝ Nuance parce qu’il y a trop de gros mots en anglais (« fuck »)

⃝ Retire une grande partie des gros mots

Figure 22 : Questionnaire adressé aux participants à l’expérience Nous allons à présent analyser les réponses des juges à ce questionnaire.

Les trois premières questions avaient pour but de cerner les habitudes des personnes consultées et de contextualiser notre questionnaire. Elles regardent ainsi toutes des films et des séries et

seules deux sur huit ne jouent pas aux jeux vidéo. Toutes ont déjà regardé un divertissement dans plusieurs langues et ont visionné des œuvres où des gros mots étaient prononcés.

D’après les réponses à la question 4, tous les participants ont constaté des différences d’usage de ces gros mots entre les versions française et anglaise et ce dans tous types de médias. Ils les ont décrits de diverses manières. Les gros mots en version française ont ainsi été qualifiés d’« édulcorés », « effacés » ou encore censurés. Certains évaluateurs ont développé leur propos, l’un décrivant une atténuation ou une timidité dans la traduction française qui lui donne parfois

« un côté ringard », un autre observant que l’on trouvait plus de gros mots en anglais, mais qu’ils semblent plus « normaux », une remarque qui va dans le sens des recherches que nous avons effectuées sur ce sujet.

A partir de la cinquième question, nous avons été surpris de constater que les réponses obtenues dessinaient deux « mouvements de pensée » avec, d’un côté, des personnes bilingues anglais-français (participants 6 et 8 de la seconde évaluation) et, de l’autre, des personnes de langue maternelle française.

Selon le groupe bilingue, les gros mots français sont assez appropriés dans les films et les séries.

Il y a de fait moins de gros mots, mais cela reflète la manière de s’exprimer des francophones.

Les gros mots sont ajustés en fonction du contexte, de l’environnement des personnages et du public francophone, moins habitué aux gros mots, qui paraissent toujours plus vulgaires qu’en anglais. Même une production purement francophone contiendra moins de gros mots qu’une production anglophone comparable. Dans le cas où des gros mots doivent être traduits, nos deux évaluatrices ont estimé que la meilleure solution était de les nuancer aussi bien pour les adapter au public francophone que pour en limiter le nombre lorsque ces derniers sont trop nombreux dans la langue d’origine. L’un des deux membres du groupe explique que le traducteur vers le français ne peut pas conserver tous les gros mots, tout comme il ne peut conserver tous les jeux de mots de la langue d’origine, mais que tout retirer serait également une erreur, car le français est une langue riche, même en gros mots, et qu’il serait dommage de ne pas les utiliser.

Dans le document La traduction automatique des « gros mots » dans les jeux vidéo : Evaluation de trois systèmes en ligne (Page 74-0)