• Aucun résultat trouvé

3) Traduction automatique de la littérature

3.2 État de l’art

La traduction automatique de la littérature est un sujet de recherche encore très récent.

D’ailleurs, en 2015, Toral et Way écrivaient : the applicability of [machine translation] to literature from an empirical point of view is in its infancy (Toral et Way, 2015b, p. 247) et la situation n’a pas beaucoup changé depuis. Par conséquent, peu d’études sur le sujet ont été menées et la plupart l’ont été précisément par Toral et Way de la Dublin City University. Néanmoins, il est intéressant d’étudier ce qui a été fait jusqu’ici afin d’avoir une meilleure idée du contexte dans lequel s’ancre notre recherche.

En 2014, Toral et Way publient un article intitulé « Is Machine Translation Ready for Literature ? » exposant leur avis sur cette question. Ils commencent par y indiquer qu’à leur connaissance, l’applicabilité de la traduction automatique à la littérature n’a pas encore été étudiée d’un point de vue empirique (Toral et Way, 2014, p. 174). Ils y énumèrent ensuite les études dont ils ont connaissance et qui se montent à… deux. Ils citent Genzel et al. (2010) comme étant le premier travail sur la traduction automatique de la littérature et ajoutent le travail de Besacier (2014) à leur courte liste.

Le but de Genzel et al. est de contraindre un système de traduction automatique statistique à ne produire que des traductions qui obéissent à des règles de longueur, de rime et de mètre afin de pouvoir traduire de la poésie du français vers l’anglais.

Cependant, l’évaluation du système ne s’est pas faite sur de la poésie mais sur des articles de journaux (Toral et Way, 2015b, p. 245).

Le second travail, lui, est une étude pilote qui analyse l’applicabilité d’un pipeline de traduction automatique suivie d’une phase de post-édition par des non-professionnels pour traduire un essai de l’anglais vers le français. Besacier y conclut que ce processus peut être une alternative « low-cost » valable à une traduction professionnelle, analogue à ce qui se fait pour le sous-titrage de séries TV sur le Web, bien que la qualité du produit final s’en ressente (calques syntaxiques, anglicismes, références culturelles perdues…).

Toral et Way affirment que l’applicabilité de la TA statistique pour traduire certains types de textes peut être étudiée à travers deux paramètres : le degré de liberté de la traduction et la largeur du domaine. En effet, les traductions libres sont plus difficiles à aligner correctement mot-à-mot au texte original, empêchant le système de bien apprendre les traductions des mots individuels, et un domaine trop vaste n’a pas de lexique assez récurrent. Ils concluent que la TA statistique est d’autant plus applicable que le domaine est restreint et le degré de liberté de la traduction est bas, et que c’est pour cette raison que les systèmes statistiques donnent de si bons résultats sur des textes techniques, contrairement à des textes moins prévisibles et couvrant de plus larges domaines tels que des articles de presse (Toral et Way, 2014, p. 175).

En 2015, ils publient un article développant les idées énoncées en 2014 et tentent de traduire un roman de l’espagnol vers le catalan, deux langues très proches, avec un système de TA statistique. Ils y argumentent que, la TA ayant beaucoup progressé depuis l’apparition des systèmes statistiques et l’industrie ayant adopté cette technologie dans les domaines techniques, le temps est venu d’étudier l’applicabilité de la TA aux textes littéraires, lesquels sont en quelque sorte considérés comme le dernier bastion de la traduction humaine (Toral et Way, 2015, p. 123).

Reprenant l’idée que la traductibilité se mesure à travers le degré de liberté de la traduction et la largeur du domaine, ils comparent ces deux paramètres pour les textes littéraires à ceux de textes techniques et d’articles de presse. Les résultats montrent que les romans couvrent un domaine restreint, comme les textes techniques, mais que leur vocabulaire est plus riche que dans ces derniers. Les articles de presse, quant à eux, couvrent des domaines bien plus vastes que les romans et sont donc moins prévisibles, bien que leur langage soit moins complexe. En ce qui concerne le degré de liberté de la traduction, ils observent que plus les langues en présence sont proches, moins les

traductions sont libres, et vice-versa. Ils concluent de ce qui précède que les romans sont traduisibles par TA entre langues proches (ibid, p. 127).

Satisfaits de ce constat, ils entraînent un système de TA statistique afin de traduire un roman de l’espagnol vers le catalan. Le système qu’ils utilisent est créé ad hoc à l’aide de logiciels spécialisés (Moses 2.115, MERT16 et SRILM17) puis évalué automatiquement et humainement. Les résultats de ces évaluations amènent les auteurs à conclure que la TA statistique peut effectivement être utile pour aider à traduire un roman entre deux langues proches (ibid, pp. 130-131). Cette étude est d’ailleurs la première dans laquelle des systèmes de TA sont entraînés spécifiquement pour traduire des romans (ibid, p.

130 ; Toral et Way, 2015b, p. 247).

Toujours en 2015, Toral et Way ont publié une étude de cas sur la traduction de textes littéraires assistée par la TA (Toral et Way, 2015b). Ils y contredisent ceux qui sont de l’avis que la TA est inutile et qui utilisent souvent l’exemple de la traduction littéraire pour appuyer leurs propos et affirment que la TA est potentiellement utile pour la traduction littéraire, notamment en remaniant une citation de Bellos (2012) comme suit : Taking literary translation as the sole object of [machine translation] skews all arguments about its potential to help with interlingual communication from the start (Toral et Way, 2015b, p. 241).

Les auteurs affirment également, et nous sommes tout à fait d’accord avec eux, que s’il était prouvé que la TA peut être utile en traduction littéraire, elle serait d’une grande aide aux traducteurs littéraires humains, qui sont très peu payés pour leur travail. En permettant d’être plus productifs, ils pourraient ainsi gagner plus d’argent. Dans un autre article, ils citent Kelly et Zetzsche : [T]he person who translates the bestselling literary masterpieces would probably earn more working on a factory assembly line […]

There is very little glamour or money in literary translation, for all but a miniscule percentage of the pool (Toral et Way, 2015b, p. 247). Pour appuyer leurs propos, ceux-ci citent le président du Conseil Européen des Associations de Traducteurs Littéraires (CEATL), qui affirme que la plupart des traducteurs littéraires sont au bord de la pauvreté (ibid, p. 248).

15 http://www.statmt.org/moses/

16 Minimum Error Rate Training (Och, 2003)

17 http://www.speech.sri.com/projects/srilm/

Malgré les protestations de certains traducteurs, les auteurs affirment que l’utilité de la TA n’est plus à prouver, comme le montrent les bons résultats obtenus, par exemple, dans l’industrie de la localisation (ibid, pp. 241-242). De plus, grâce à l’apparition de l’e-book, il est maintenant possible de construire des systèmes de TA statistiques entraînés avec des romans et leurs traductions. C’est entre autres pour cette raison que Toral et Way sont persuadés que le moment est propice à l’étude de la traduction automatique de la littérature. Un point important à retenir cependant est que si la TA, post-éditée ou non, a déjà prouvé son utilité dans de nombreux domaines (modes d’emploi, contrats, contenu généré par les utilisateurs, etc.), la tâche principale de la TA dans ces cas-là était de restituer le sens des textes originaux. Or, dans le cas de la traduction littéraire, un des objectifs principaux est aussi de préserver l’expérience de lecture (ibid, p. 242).

Selon les auteurs, étudier enfin la TA de la littérature permettrait non seulement à la recherche sur la TA en général d’avancer et aux traducteurs humains de gagner plus d’argent, mais aussi d’augmenter les échanges littéraires, surtout pour les communautés linguistiques minoritaires qui n’ont eu accès qu’à bien peu de traductions jusqu’ici (ibid, p. 243). Toujours d’un point de vue pécuniaire, l’e-book a permis de réduire considérablement les coûts de production des livres (impression et distribution) et les coûts restants sont les droits d’édition et les coûts de la traduction. La TA permettrait de réduire ces derniers et les éditeurs pourraient ainsi faire traduire plus de livres. Les lecteurs comme les auteurs en bénéficieraient grandement, les uns car ils auraient accès à plus de livres dans leur langue maternelle, et les autres car ils pourraient partager leur œuvre avec plus de gens (ibid, p. 247).

Heureusement, donc, pour la recherche et pour la société, l’intérêt pour cette question est croissant, comme le montre par exemple la création en 2012 d’un workshop annuel sur la linguistique computationnelle pour la littérature (Workshop on Computational Linguistics for Literature)18. Comme nous l’avons indiqué au début de ce chapitre, cet intérêt est encore très récent, et Toral et Way soulignent qu’en 2015, il n’y avait encore qu’une quantité très limitée de travaux axés sur l’application de la TA à la littérature (Toral et Way, 2015b, p. 245). Ils complètent la courte liste des deux travaux cités dans leur article de 2014 en y ajoutant par exemple le travail de Richardson (2012), qui étudie

18 https://sites.google.com/site/clfl2016/home

l’utilisation de Microsoft Translator Hub au sein de l’Église de Jésus-Christ des saints des derniers jours, ou encore le travail de Jones et Irvine (2013), lequel étudie l’utilisation de systèmes de TA existants pour traduire des échantillons de littérature française vers l’anglais.

Puisque Richardson s’intéresse à l’utilisation de MTH, le logiciel que nous utilisons dans le cadre de ce mémoire, nous avons lu son article avec grand intérêt. Si les textes soumis à MTH par l’Église de Jésus-Christ des saints des derniers jours ne sont pas des textes littéraires, les conclusions de Richardson sont tout de même intéressantes. En effet, il note que l’utilisation de MTH augmente nettement la productivité des traducteurs, qui ne doivent plus traduire de zéro mais post-éditer ce que produit MTH. Avant l’adoption de la TA, les traducteurs mettaient environ deux heures à traduire une page de texte, soit 286 mots, puis à réviser et mettre en page cette même page. Le but de l’introduction de la TA dans leur workflow était de réduire ce temps d’au moins 50%, et ce résultat a été largement atteint : pendant trois mois, trois traducteurs ont mesuré le temps qu’ils passaient à travailler et les résultats montrent qu’ils passent désormais entre 0,39 heure et 0,48 heure sur une page (Richardson, 2012, p. 7). En comparaison, si l’on garde l’idée qu’une page fait 286 mots, l’œuvre traduite et post-éditée par Besacier faisait 37,5 pages (10731 mots). 25 heures de travail au total ayant été nécessaires pour obtenir le résultat final (Besacier, 2014, p.392), cela revient à une heure et demie par page.

En parlant de leurs propres recherches, Toral et Way déclarent que leurs résultats sont un premier pas vers la remise en question de l’idée répandue selon laquelle la TA est inutile pour traduire de la littérature, du moins entre deux langues proches. Il faut tout de même garder à l’esprit que ces résultats, qui comptent parmi les premiers dans ce domaine, sont limités, parce qu’ils ne portent que sur un roman, évalué au niveau de la phrase, et que la TA n’a été testée qu’entre deux langues très proches (Toral et Way, 2015b, pp. 246-247).

Après avoir fait un tour d’horizon de la TA en littérature, Toral et Way, toujours dans leur second article de 2015, commencent leur propre étude de cas par montrer que la TA statistique, contrairement à certaines croyances, a bel et bien progressé au fil des ans, notamment entre 2007 et 2012 et entre 2013 et 2015. Le progrès au cours de la première période a été mesuré par Graham et al. (2014) sur des articles de presse. Afin de vérifier si ce progrès s’applique également aux textes littéraires, Toral et Way

analysent la traduction anglaise produite par Google Translate d’un passage de

« L’Étranger » de Camus, en 2013 et en 2015, et concluent que oui, les progrès de la TA statistique se reflètent aussi dans la traduction de textes littéraires. Par exemple, la phrase « j’ai pensé à maman » avait été traduite I thought mom en 2013 mais est traduite I thought about Mom en 2015, et la phrase « à la limite de la nuit » avait été traduite the limit of the night en 2013 et devient on the edge of the night en 2015 (ibid, pp. 250-252).

La plupart des travaux sur la TA de la littérature ayant étudié des traductions vers l’anglais, les auteurs étudient aussi une traduction vers l’italien. Ils posent l’hypothèse selon laquelle la TA serait plus efficace pour traduire des textes littéraires entre deux langues de la même famille, le nombre de traductions potentielles devant être plus bas dans ce cas, et analysent la traduction produite par Google Translate d’un passage de

« L’Étranger » vers l’italien. Ils en concluent que plus les langues sont proches, plus l’output de la TA sera proche de la référence, en l’occurrence une traduction professionnelle publiée (ibid, pp. 252-253).

Les auteurs comparent ensuite les scores BLEU (cf. section 2.4.2) obtenus par Google Translate sur la traduction de « L’Étranger » en entier, vers l’italien et vers l’anglais.

Contrairement aux attentes, le score est meilleur pour la traduction vers l’anglais (en comparaison avec une des deux références anglaises utilisées), et cela est probablement dû au fait que le modèle du langage de Google Translate est bien meilleur en anglais qu’en italien, beaucoup plus de données monolingues étant disponibles en ligne en anglais qu’en italien. Toral et Way concluent également qu’un facteur majeur de l’utilité de la TA en littérature est le type de traduction que l’on souhaite produire. En effet, plus la traduction est libre, moins la TA sera utile. Ils vont même jusqu’à avancer que le degré de liberté de la traduction souhaitée pèse plus lourd dans la balance que le niveau de parenté entre la langue source et la langue cible (ibid, p. 255).

Après Google Translate, les auteurs passent à un système de TA statistique adapté à la traduction de romans. Leur étude se fonde sur la méthodologie proposée dans leur article précédent (Toral et Way, 2015) afin de traduire un roman de l’espagnol vers le catalan. Ils observent que le score BLEU pour le roman entier, en utilisant la traduction publiée comme référence, est meilleur pour le système adapté (47.2) que pour le système générique (42.9) (Toral et Way, 2015b, p. 256).

Dans leur conclusion, ils relèvent entre autres qu’un des principaux défis de la TA est qu’il n’existe pas de traduction unique de référence à viser. D’ailleurs, différentes traductions professionnelles du même texte peuvent beaucoup diverger. Ils notent également que des traductions entre langues proches sembleraient être plus simples à post-éditer. Ils concluent leur article en faisant valoir que les textes littéraires ne sont pas traduits de la même manière que les textes issus d’autres domaines, par exemple les textes techniques, dans lesquels la TA est utilisée avec succès au niveau commercial. Par conséquent, il est possible que les workflows utilisés dans ces domaines, centrés autour de la post-édition, ne conviennent pas à la traduction littéraire. Les auteurs suggèrent d’explorer des alternatives, telles que la TA interactive, qui fournit des propositions de traduction au traducteur pendant qu’il travaille, qui pourraient être plus adaptées (ibid, pp. 263-264).

3.3 Conclusion

L’étude de la TA de textes littéraires en est donc toujours à ses débuts, mais ceux-ci sont prometteurs. En effet, Toral et Way ont obtenu de bons résultats dans leurs diverses expériences (bons scores BLEU pour la traduction d’un roman entre deux langues proches par un système statistique spécialisé, preuves que la TA statistique s’améliore toujours), tout comme Besacier, qui a réussi le pari de produire une traduction lisible d’un essai de l’anglais vers le français grâce à un processus de traduction automatique et de post-édition. Forte de ce constat, nous allons maintenant procéder à notre propre expérience, qui a pour but de vérifier si la spécialisation en littérature d’un système de traduction automatique grand-public pourrait permettre d’obtenir des résultats exploitables pour la traduction littéraire. Nous allons pour cela utiliser la plateforme Microsoft Translator Hub et nous traduirons entre deux langues assez éloignées, l’anglais et le français. Cette expérience fait l’objet des chapitres suivants.