• Aucun résultat trouvé

4 Méthodologie

5.4 Résultats du questionnaire SUS

Nous avions demandé aux participants de l’étude de répondre à un court questionnaire sous forme de System Usability Scale à l’issue de leurs discussions. Les résultats de ce questionnaire nous permettaient d’obtenir une note qui définissait le ressenti des participants quant à l’utilisabilité du système de TA Microsoft Translator.

Nous avons regroupé les évaluations données par les différents participants afin d’obtenir les scores de chaque participant ainsi qu’un score final.

87 Tableau 13: Résultats du questionnaire SUS

J1 J2 J3 J4 Score final

Q1 1 1 5 2

Q2 3 1 1 1

Q3 5 5 5 4

Q4 2 1 1 1

Q5 3 2 5 3

Q6 4 4 1 2

Q7 4 5 5 3

Q8 2 1 1 1

Q9 3 2 5 3

Q10 1 1 1 3

Score 60 77,5 100 67,5 76,25

Les résultats du questionnaire SUS démontrent des scores plutôt hétérogènes mais qui donnent un résultat moyen plutôt positif (76,25) pour le système de TA Microsoft Translator. En nous référant à la figure 8 des directives générales du score SUS (voir section 4.3.4), il convient de noter que pour J1 et J4, le système n’était pas satisfaisant et a obtenu la note D, ce qui équivaut à une note insuffisante. Ces notes sont cependant compensées par la note maximale accordée au système par J3 pour qui le système a donc entièrement répondu à ses attentes en termes d’usabilité. J2 a également attribué la meilleure note au système en lui accordant un score final de 77,5. Nous pouvons aussi constater qu’il n’existe pas de corrélation entre la langue native du participant et le score attribué, puisque J1 et J3 sont de langue maternelle anglaise et J2 et J4 de langue maternelle française.

Certains de ces scores concordent d’ailleurs avec les taux d’intelligibilité et d’exactitude attribués par les évaluateurs (voir section 5.3.2). Par exemple, dans le cas où la

traduction contenait les phrases les plus exactes et les plus intelligibles, les messages traduits de J4 à l’intention de J3 étaient évalués à 68 %. Il convient alors de noter que le

88 score SUS est de 100, démontrant ainsi que J3 a considéré la TA comme efficace,

efficiente et satisfaisante à utiliser.

5.5 Conclusion

Dans l’ensemble, les discussions ont été bien menées et les participants ont pu se comprendre, et ce malgré les erreurs de traductions de certains termes causant des situations de malentendus qui ont finalement pu être vite résolues. Ce bref résumé des conversations donne une suite cohérente aux résultats obtenus lors de nos deux évaluations.

Pour rappel, nous avons effectué une première évaluation automatique sur un corpus de 1300 expressions provenant du jeu, en comparant la qualité de la traduction

automatique avec la traduction officielle du jeu comme référence, un aspect que nous avons ensuite calculé grâce à la mesure du rappel, de la précision et de la F-mesure. Ce corpus était séparé en deux sous-corpus, le premier contenant des catégories

d’expressions plus générales telles que les salutations, les questions, les réponses, l’échange, etc. et le deuxième corpus contenant uniquement les expressions spécifiques au jeu, liste qui recensait les différentes compétences appartenant aux différentes classes du jeu. Cette séparation a été faite afin de pouvoir observer si les diverses

catégories et la spécificité de la terminologie ont un impact sur la qualité de la traduction automatique, ce qui a été démontré : bien que les résultats des mesures de l’évaluation automatique étaient bas dans l’ensemble, nous avons obtenu un score légèrement supérieur pour la première catégorie, celles des termes plus généraux. En comparant les faibles résultats donnés par le score de rappel, de précision et de F-mesure avec les moyennes positives obtenues à la suite des mesures de l’exactitude et de l’intelligibilité de la traduction automatique, il était alors inévitable qu’une grande partie des

problèmes de compréhension rencontrés entre les joueurs soient liés à la terminologie spécifique du jeu, comme nous avons pu l’observer au cours des trois cas analysés à la section 5.3.5.1.

La deuxième évaluation était l’évaluation humaine, qui a servi à définir l’intelligibilité et l’exactitude des phrases traduites grâce à des évaluateurs humains. Nous avons converti ces mesures en pourcentage qui nous ont permis d’observer que les taux d’intelligibilité

89 et d’exactitude de la première discussion entre J1 et J2 sont plus bas que les taux que l’on retrouve lors de la deuxième discussion entre J3 et J4. Cette différence s’est également confirmée dans la section dédiée à analyser les différents problèmes de compréhension rencontrés entre les participants (5.3.5), où nous avons constaté le faible nombre de malentendus liés à la terminologie au cours de la deuxième discussion (section 5.3.5.3).

En plus des problèmes de traductions des termes spécifiques du jeu, les abréviations, les procédés expressifs, les fautes de frappe et les fautes grammaticales ont aussi entraîné des problèmes de compréhension entre les joueurs. Ces fautes involontaires dans la langue de départ s’expliquent par la règle d’écriture imposée aux participants, qui leur demandait expressément d’écrire comme ils en avaient l’habitude lorsqu’ils chattent au quotidien (Annexe VII, section 8.7). Cette règle avait pour but de simuler un

environnement de discussion aussi authentique que possible. La garantie de cette authenticité reposait sur le fait que nous voulions restreindre le moins possible les participants dans leur façon de chatter et leur donner l’impression qu’il ne s’agissait pas juste de tâches imposées à suivre rigoureusement, mais qu’il s’agissait plutôt d’une occasion de participer à une expérience plaisante, à parler d’un thème qui les anime et avec lequel ils se sentent à l’aise. Il est important de noter que certaines de ces fautes étaient aussi corrigées par le système, et nous pensons que ceci est dû à l’entraînement des NMT qui ont pour fonction de prédire le prochain mot qui suivra la discussion. En effet, Forcada (2017, p. 296) déclare à ce propos que la plupart des systèmes de NMT sont construits et entraînés afin de ressembler à un outil de complétion de texte.

Il semble important de noter que les erreurs de pronoms et les choix inconstants entre les différentes traductions choisies par le système, que les évaluateurs ont relevées comme des problèmes de style (voir commentaires en Annexes VI et VII) est un

phénomène connu comme problématique dans la traduction de messages instantanés.

En effet, Farajian et al. (2020) expliquent que la plupart des systèmes fonctionnent au niveau de la phrase et ne prennent pas en compte le contexte donné par les phrases précédentes. Le fait d’ignorer ce contexte peut alors impacter la qualité de la traduction générée et introduire des mauvaises utilisations de pronoms, des choix de lexiques incompatibles et de l’incohérence (Läubli et al. 2018 ; Toral et al., 2018)

90 Finalement, nos différentes évaluations nous ont permis d’observer que les joueurs ont tous pu se comprendre grâce à la TA. Néanmoins, en observant les résultats du

questionnaire SUS, il semble que seulement un joueur sur deux accepterait de

communiquer régulièrement via la fonction du traducteur. Nous pensons que ce résultat est surtout dû au fait que les participants francophones, J2 et J4 comprennent tous deux l’anglais et n’ont pas à avoir recours à la traduction automatique pour la plupart de leurs interactions avec des anglophones. Rappelons-nous aussi que l’utilisation de termes anglais est monnaie courante chez les joueurs francophones, comme le disent Liétard et al. (2020) dans leur analyse terminologique en constatant que presque tous les termes de leur corpus étaient en anglais, alors que le corpus était en français. Avec de telles habitudes, nous pouvons facilement comprendre que les joueurs auront rarement besoin d’utiliser un système de TA pour faire passer un message quant à un terme spécifique du jeu, car ils utiliseraient le terme anglais dans un tel contexte.

91

6 Conclusion de la recherche