Discussion des résultats - Résultats de la traduction automatique

5) Résultats de la traduction automatique

5.4 Discussion des résultats

Au vu des résultats des deux types d’évaluation, la première conclusion qui saute aux yeux est que Google Translate, un système de TA généraliste et non spécialisé pour la tâche que nous lui avons confiée, contrairement à MTH, est bien meilleur que ce dernier.

La deuxième conclusion évidente est qu’un certain nombre de segments n’ont été traduits de manière satisfaisante par aucun des systèmes de TA : en moyenne 141 segments ont été notés, ce qui fait une moyenne de 49 segments insatisfaisants, soit environ le quart (25,8%). Si l’on regarde le nombre de segments sans score selon les groupes (évaluation avec ou sans Google Translate), on constate que le premier groupe a jugé en moyenne 54 segments insatisfaisants (28,4%) et le second groupe a jugé en moyenne 44 segments insatisfaisants (23,2%).

Il semblerait donc que la présence de Google Translate dans l’évaluation permette de réduire le nombre de segments insatisfaisants de 5%, ce qui amène également à la conclusion qu’il est performant.

Après comparaison des évaluations humaines, nous avons constaté que, parmi les segments sans score, un d’entre eux revenait dans les six évaluations, trois revenaient dans cinq évaluations et onze revenaient dans quatre évaluations, ce qui fait quinze segments pour lesquels la majorité des juges s’accorde à dire qu’ils n’ont jamais été traduits de façon satisfaisante.

Nous avons également étudié les segments sans score selon l’évaluation effectuée et avons constaté que douze mêmes segments avaient été jugés insatisfaisants par les trois juges ayant effectué l’évaluation sans Google Translate, et onze mêmes segments l’avaient été par les trois juges ayant effectué l’évaluation avec Google Translate. Les tableaux 12 à 16 rassemblent les segments sans score avec leurs traductions (système principal, systèmes de comparaison 1, 2 et 3, Google Translate) comme énumérés ci-dessus. Nous n’avons reproduit ici que des extraits des tableaux 13 à 16, qui sont disponibles dans leur totalité en annexe.

ID Segment jugé insatisfaisant par les six juges

103 Of course, I did not mind you so much, as you are not connected with the official police, but it is not pleasant to have a family misfortune like this noised abroad.

Bien sûr, je n'ai pas l'esprit vous tellement, que vous n'êtes pas connecté avec la police officielle, mais il n'est pas agréable d'avoir une famille malchance comme ça noised à l'étranger.

Bien sûr, je n'ai pas l'esprit vous tant, comme vous n'êtes pas connecté avec la police, mais il n'est pas agréable d'avoir une famille comme ce malheur noised à l'étranger.

Bien sûr, je n'ai pas l'esprit vous tellement, que vous n'êtes pas connecté avec la police, mais il n'est pas agréable d'avoir une famille malheur comme noised à l'étranger.

Bien sûr, je n'ai pas l'esprit vous tellement, que vous n'êtes pas connecté avec la police, mais il n'est pas agréable d'avoir une famille comme ce malheur noised à l'étranger.

Bien sûr, je ne vous ai pas dérange tellement, que vous n'êtes pas connecté avec la police officielle, mais il est pas agréable d'avoir un malheur de famille comme ce ébruitée.

Tableau 12 : Segment jugé insatisfaisant par les six juges

ID Exemple de segment jugé insatisfaisant par cinq des six juges

175 Then the fact that the two men were never together, but that the one always appeared when the other was away, was suggestive.

Ensuite, le fait que les deux hommes n'ont jamais été ensemble, mais que l'un l'autre était toujours loin quand est apparue, a été riche en enseignements.

Ensuite, le fait que les deux hommes n'ont jamais été ensemble, mais que l'un est apparu quand l'autre était toujours là, a été riche en enseignements.

Alors que les deux hommes n'ont jamais été ensemble, mais quand l'une l'autre était apparu toujours plus loin, était un.

Ensuite, le fait que les deux hommes n'ont jamais été ensemble, mais que l'un l'autre était apparu quand toujours plus loin, a été riche en enseignements.

Ensuite, le fait que les deux hommes étaient jamais ensemble, mais que l'on a toujours apparus quand l'autre était là, était suggestive.

Tableau 13 : Exemple de segment jugé insatisfaisant par cinq des six juges ID Exemple de segment jugé insatisfaisant par quatre des six juges

4 Then he took down from the rack the old and oily clay pipe, which was to him as a counsellor, and, having lit it, he leaned back in his chair, with the thick blue cloud-wreaths spinning up from him, and a look of infinite languor in his face.

Puis il a pris de l'argile et crémaillères, la vieille pipe huileux, ce qui était à lui en tant que conseiller, et, après avoir allumé, il se pencha en arrière dans son fauteuil, avec l'épais nuage bleu-Couronne filature contre lui, et un coup d'oeil de langueur infinie sur son visage.

Puis il a pris le bas du filet la vieille pipe d'argile huileux, ce qui était pour lui en tant que conseiller, et, après avoir allumé, il renversa dans son fauteuil, avec l'épais nuage bleu-Couronne tourner contre lui, et un coup d'oeil de langueur infinie sur son visage.

Puis il a pris le cas de l'ancien et des tuyaux d'argile, qui était de lui en tant que conseiller, et, après avoir allumé, il s'est penché en arrière dans son fauteuil, avec la Couronne des nuages bleu épais tourner contre lui, et un air de languor infinie sur son visage.

Puis il a pris de l'ancien et le cas du tuyau d'argile huileux, qui était de lui en tant que conseiller, et, après avoir allumé, il se pencha dans son fauteuil, avec la

Couronne des nuages bleu épais tourner contre lui, et un coup d'oeil de langueur infinie sur son visage.

Puis il a pris vers le bas de la grille du vieux et gras pipe en terre, ce qui était pour lui comme un conseiller, et, après avoir allumé, il se pencha en arrière sur sa chaise, avec les bleus nuages couronnes épaisses filature à partir de lui, et un coup d'oeil de langueur infinie dans son visage.

Tableau 14 : Exemple de segment jugé insatisfaisant par quatre des six juges ID Exemple de segment jugé insatisfaisant dans l’évaluation sans Google

Translate 47 I held the little printed slip to the light.

J'ai tenu le petit dérapage imprimés à la lumière.

Idem

J'ai tenu un petit glissement imprimés à la lumière.

J'ai tenu le petit dérapage imprimés à la lumière.

Je tenais le petit feuillet imprimé à la lumière.

Tableau 15 : Exemple de segment jugé insatisfaisant dans l’évaluation sans Google Translate (la case grisée contient la traduction fournie par Google Translate, à titre

indicatif)

ID Exemple de segment jugé insatisfaisant dans l’évaluation avec Google Translate

136 Now, let me just run over the course of events, and you will contradict me if I go wrong.”

Maintenant, laissez-moi vous dirigez sur le cours des événements, et vous allez en contradiction avec moi si je vais mal. "

Maintenant, permettez-moi de renverser le cours des événements, et vous allez me contredire si je vais mal. "

Maintenant, je vais courir au cours des événements, et vous allez en contradiction avec moi si j'ai mal. "

Maintenant, laissez-moi vous dirigez sur le cours des évènements, et vous allez en contradiction avec moi si je vais mal. "

Maintenant, permettez-moi de courir sur le cours des événements, et vous me

contredire si je me trompe ".

Tableau 16 : Exemple de segment jugé insatisfaisant dans l’évaluation avec Google Translate

Lorsque l’on analyse ces tableaux, on remarque que les segments sur lesquels une majorité de juges sont d’accord, indépendamment de l’évaluation effectuée, sont des segments qui posent problème aux systèmes de TA surtout en raison du vocabulaire employé (segments 4, 19, 21, 103, 127 et 181) ou de la structure syntaxique (segments 4, 8, 21, 35, 87, 103, 115, 127, 135, 175 et 188). Étonnamment, peut-être, peu de segments ont été mal traduits pour des raisons de longueur (séquences trop longues pour bien être calculées avec le modèle N-grammes).

Si l’on compare les deux évaluations, on constate que les segments sans score diffèrent du tout au tout entre les deux, sauf pour le segment 103, qui est commun aux six juges.

Tout cela soulève plusieurs questions : si le fait que des segments jugés insatisfaisants dans l’évaluation sans Google Translate ont trouvé une bonne traduction dans la seconde évaluation est compréhensible (Google Translate fournit une meilleure traduction), l’inverse est plus étrange. Pourquoi les juges de l’évaluation 1 ont-ils jugé satisfaisantes des traductions qui ne convenaient pas aux juges de l’évaluation 2 ? Les premiers se sont-ils forcés à choisir une traduction satisfaisante ? Les seconds s’étaient-ils habitués à la qualité de Google Translate pendant l’évaluation et ont ainsi refusé de revoir à la baisse leur standard de qualité ? Cette dernière hypothèse est soutenue par le fait que les segments sans score arrivent bien plus tard au cours de l’évaluation 2 (premier segment sans score : n°44) que dans l’évaluation 1 (premier segment sans score : n° 8). Ces questions touchant à la psychologie humaine, nous ne pouvons malheureusement pas y apporter de réponse définitive sans grandement dévier du sujet de notre recherche.

Cependant, ce sont des pistes de réflexion intéressantes pour qui souhaiterait mieux comprendre ce qui se passe dans l’esprit des personnes comparant des traductions.

Passons au cœur de l’évaluation : les segments qui ont reçu un score. Les résultats de l’évaluation 1 montrent qu’en moyenne 136 segments sur 190 ont été notés. Nous avons également remarqué que 42% environ des segments (soit 80) ont été notés par les trois juges, ce qui signifie que 42% des segments avaient au moins une traduction satisfaisante. Pour l’évaluation 2, ce taux se monte à 53% (101 segments notés par les trois juges), pour une moyenne de 145 segments notés. Ces chiffres indiquent une plus

grande satisfaction des juges qui ont pu évaluer Google Translate, car ils ont jugé à la fois plus de segments satisfaisants et, parmi ceux-ci, plus de la moitié font l’unanimité.

Du côté de l’évaluation 1, quelques éléments sont dignes d’intérêt. Tout d’abord, les trois juges semblent être d’accord pour dire que le meilleur des quatre systèmes MTH est celui que nous appelons « système principal », à savoir celui dont le corpus de spécialisation est le plus fourni. Cela voudrait dire que la qualité des données ne suffirait pas à elle seule pour créer un bon système de TA littéraire, la quantité joue aussi un rôle non négligeable. Cela est d’ailleurs confirmé par les résultats de l’évaluation 2, dans lesquels Google Translate, dont le corpus est absolument gigantesque, écrase les systèmes MTH (le plus petit écart de points entre Google Translate et un système MTH, constaté chez le juge 6, est tout de même de 62 points, alors que le plus grand écart constaté dans l’évaluation 1 est à peine plus haut, à 74 points, le plus petit étant de sept points).

Dans le même ordre d’idées, l’évaluation 1 nous apprend également qu’il ne suffit pas de fournir des textes de tout type à MTH pour qu’il produise de bons résultats, car les trois juges s’accordent à dire que le plus mauvais des quatre systèmes est le système de comparaison 2, celui dont le corpus était vide de toute donnée relative à Sherlock Holmes. Ils ne sont toutefois pas d’accord pour compléter le classement, deux juges préférant le système de comparaison 3 (sans l’essai traduit par Besacier) et le troisième préférant le système de comparaison 1 (sets de tuning et testing paramétrés manuellement). Le premier a obtenu un score moyen de 92 points et le second, un score moyen de 84 points. Cela ne fait pas un écart considérable et laisse penser que les deux systèmes sont assez similaires.

L’évaluation 2, bien que non axée sur les systèmes MTH, laisse elle aussi apparaître quelques informations intéressantes sur ces derniers. En effet, en présence de Google Translate, les juges ne s’accordent plus sur le meilleur système MTH, et la majorité pensent même que ce n’est pas le système principal, mais le système de comparaison 3.

L’écart de points entre les deux n’est pas très grand (au maximum dix points), mais il est intéressant de constater que la présence ou l’absence de traductions produites par un système bien différent des quatre autres (et par conséquent différentes des traductions produites par les systèmes MTH) peut biaiser les juges. Il serait intéressant de faire effectuer les deux évaluations à d’autres juges, afin de voir si ce sont des préférences

personnelles qui ont fait pencher la balance en faveur du système de comparaison 3 dans l’évaluation 2 ou s’il s’agit bien de la présence des traductions fournies par Google Translate qui a influencé les juges.

Les scores BLEU corrèlent avec les résultats de l’évaluation humaine en ce qu’ils confirment que le meilleur système est Google Translate, suivi par le système principal MTH. Le plus mauvais système est celui sans données Sherlock Holmes et les deux restants, qui ont divisé les juges de l’évaluation 1, sont extrêmement proches. L’écart entre le score de Google Translate et celui du système principal est plus marqué que tous les autres écarts, ce qui renforce l’impression que le premier est bien meilleur que le second. Les scores TER, quant à eux, désignent aussi Google Translate grand vainqueur, mais selon eux, le deuxième est le système de comparaison 1 et le plus mauvais est le système de comparaison 3. Ces différences par rapport au score BLEU sont dues au fait que ces deux métriques ne calculent pas la même chose. Il est important de noter que les scores BLEU que nous avons calculés sont limités par le fait que nous n’avons utilisé qu’une seule référence. Il est très probable qu’en utilisant plusieurs références, les scores auraient été bien différents.

5.5 Conclusion

Nous avons donc une bonne idée des performances des cinq systèmes les uns par rapport aux autres, mais ces évaluations ne permettent pas de déterminer la qualité absolue de ces systèmes. Rappelons que, pour certains, un score BLEU inférieur à 20 signifie que la traduction n’est pas exploitable dans l’optique de la post-éditer (Toral et Way, 2015b, p. 249). D’autres estiment qu’un score d’au moins 30 reflète une traduction compréhensible et qu’un score d’au moins 50 reflète une traduction de bonne qualité et fluide (Lavie, 2013, p. 9). Si l’on en croit ces estimations, aucun des cinq systèmes n’a produit de bonne traduction, ni même de traduction exploitable (toujours dans l’optique d’un processus de post-édition). Comme nous l’avons dit, ces scores ont des limites (par exemple le fait qu’une seule référence a ici été utilisée) et ne doivent pas être pris comme une confirmation de l’opinion répandue selon laquelle la TA ne pourra jamais être utile pour des textes littéraires, le contraire ayant déjà été prouvé par des chercheurs comme Toral et Way (cf. chapitre 3).

Au niveau humain, deux des six juges qui ont effectué l’évaluation présentée à la section 5.3 nous ont communiqué leurs impressions concernant la lisibilité et la compréhensibilité des textes produits par les cinq systèmes. Il en ressort que Google Translate a produit un texte globalement bien compréhensible et lisible et que le système de comparaison 2 a produit un texte globalement mauvais, que ce soit au niveau de la compréhensibilité ou de la lisibilité. L’un des juges estime que le texte produit par le système principal est mauvais, tandis que l’autre le juge moyen, et inversement pour le système de comparaison 3. Le texte du système de comparaison 1, quant à lui, est jugé moyennement, voire difficilement lisible ou compréhensible.

Que nous apprennent ces impressions sur l’exploitabilité de ces traductions ? La principale difficulté lorsqu’on souhaite estimer si une traduction brute est post-éditable est l’estimation du temps. En effet, théoriquement, toute traduction est post-éditable, mais la post-édition n’est rentable que si elle nécessite moins de temps qu’une traduction humaine à partir de zéro. Si les deux juges sont d’accord pour dire que Google Translate a produit une traduction compréhensible (et nous partageons cet avis), il est difficile de dire si la post-éditer serait moins long et moins contraignant que de produire une traduction soi-même. Il en va de même pour les systèmes MTH, à l’exception du système de comparaison 2, clairement trop mauvais pour être post-édité de façon rentable, car nécessitant trop de modifications radicales. De plus, les avis des juges sont partagés à leur sujet. Il est également difficile de juger ces traductions individuellement, sans les comparer les unes aux autres, même inconsciemment.

En conclusion, notre point de vue purement personnel est que tous les systèmes, sauf celui de comparaison 2, ont produit une traduction post-éditable. Il est toutefois possible que cette impression soit due au fait que nous connaissons désormais le texte original et ses traductions quasiment par cœur et que, malgré l’inintelligibilité de certaines traductions, nous les « comprenions », car nous savons ce qu’elles sont censées dire.

Malgré tout, les juges corroborent cette impression car, pour chacun des systèmes MTH (sauf le système de comparaison 2), au moins l’un d’entre eux a jugé la compréhensibilité moyenne, voire bonne.

Dans le chapitre suivant, nous récapitulerons tout ce que nous a appris notre recherche et nous exposerons les conclusions que nous pouvons en tirer, ainsi que les possibilités d’approfondissement de notre étude.

Dans le document Traduction automatique et littérature : un couple impossible ? : Étude sur l'utilité de la spécialisation d'un traducteur automatique pour traduire une nouvelle de Sherlock Holmes (Page 67-75)