• Aucun résultat trouvé

2. La traduction automatique (TA)

2.3 Les différents systèmes

2.3.2 Les systèmes basés sur les corpus

2.3.2.2 L’approche statistique

Les systèmes statistiques, quant à eux, extraient des probabilités des corpus bilingues qu’ils utilisent afin de générer la traduction (Bouillon & Clas, 1993). Ils ne se contentent pas de fournir une seule proposition de traduction qui est optimale : « [statistical machine translation] focuses on generating many thousands of hypothetical translations for the input string, and then working out which one of those is most likely. » (Hearne & Way, 2011, p. 2) Ils sont généralement conçus de la façon suivante (voir Figure 7) :

Figure 7 : Exemple d'architecture d'un système statistique (Quah, 2006, p. 78)

Selon Hearne et Way (2011), ces systèmes suivent deux types de processus :

1. L’entraînement : cette étape comprend l’extraction d’un modèle statistique de traduction (appelé « modèle de traduction ») à partir d’un corpus parallèle d’une part, et d’un modèle statistique de la langue cible (appelé « modèle de langue ») à partir d’un corpus monolingue d’autre part.

14 o Modèle de traduction : ce premier modèle contient un dictionnaire bilingue où chaque traduction possible d’un mot source, ou d’une séquence de mots sources, est accompagnée d’une probabilité calculée selon la fréquence d’apparition dans le corpus. Ces données sont présentées sous forme de table de traduction, comme illustré dans l’exemple suivant de Koehn (2010) (voir Figure 8) :

Figure 8 : Exemple probabilités systèmes statistiques (Koehn, 2010, p. 84)

Pour chaque unité lexicale de la langue source (« das » « Haus » « ist »

« klein »), toutes les traductions possibles sont classées selon leur probabilité. Dans le cas de la Figure 8, la traduction proposée sera donc the house is small.

o Modèle de langue : ce second modèle consiste en une base de données comprenant des séquences de mots de la langue cible (appelées aussi « n-grammes »), chacune également accompagnée d’une probabilité. Il permet donc d’évaluer si une séquence donnée est correcte en langue cible. En effet, le fond est certes très important lorsque l’on produit une traduction, mais la forme l’est tout autant. Ainsi, ce modèle sert à rendre la version cible aussi fluide que possible (Koehn, 2010).

2. Le décodage : cette étape traite la traduction comme un problème de recherche.

Selon la séquence à traduire, le système va rechercher, parmi toutes les traductions autorisées par le modèle de traduction, celle qui aura la probabilité générale la plus élevée selon les modèles de langage et de traduction (Hearne &

Way, 2011).

15 2.3.2.3 Les systèmes neuronaux

La traduction neuronale fonctionne sur le même principe que la traduction statistique.

Les systèmes neuronaux sont également entraînés sur des corpus qui contiennent des milliers de données et qui sont composés de segments source et cible (Forcada, 2017).

Dans un système neuronal, les mots et les phrases sont représentés sous forme numérique, à l’aide de vecteurs. Pour extraire ces représentations, ces systèmes utilisent de puissantes techniques d’apprentissage automatique, telles que les « réseaux neuronaux ». Ceux-ci sont composés de neurones artificiels interconnectés qui ont la capacité d’apprendre par l’expérience (Casacuberta Nolla & Peris Abril, 2017). Les neurones qui composent ces réseaux seront activés par stimulation (positive ou négative), ce qui va également affecter les autres neurones auxquels ils sont reliés (Forcada, 2017).

Ces activations serviront à créer des plongements lexicaux, soit des représentations vectorielles des mots. La traduction automatique sera générée à partir de ces représentations.

Forcada (2017) explique le fonctionnement de ces vecteurs en prenant l’exemple d’une pièce rectangulaire qui est parfaitement alignée aux points cardinaux. Tout point dans cette pièce pourrait être localisé à partir du coin sud-ouest de la pièce (soit « l’origine ») à l’aide de trois nombres : le nombre de centimètres côté nord, le nombre de centimètres côté est et le nombre de centimètres en hauteur. Les concepts de la langue (soit les mots, les phrases) peuvent également être placés dans cette même pièce. Les concepts similaires seraient idéalement proches et auraient donc des coordonnées semblables, tandis que les concepts opposés seraient très éloignés et auraient des coordonnées très différentes. La seule différence réside dans la complexité du langage : trois dimensions ne sont pas suffisantes pour encoder tous ces mots et toutes ces représentations.

Afin de produire ces représentations, les systèmes neuronaux doivent être entraînés sur des corpus aussi grands que possible. Lors de cette étape d’entraînement, les algorithmes effectueront des corrections jusqu’à obtenir la traduction la plus proche possible des traductions de référence, généralement produites par des professionnel·le·s (Forcada, 2017).

16 Lors du processus de traduction, les systèmes de TAN utilisent un système d’encodeur et de décodeur pour produire le texte cible. L’encodeur analyse le segment source en procédant mot par mot jusqu’à encoder le segment complet et le transformer en vecteur (Bahdanau, Cho, & Bengio, 2014), comme illustré dans la figure suivante pour la phrase

« My flight is delayed. » (voir Figure 9) :

Figure 9 : Fonctionnement encodeur (Forcada, 2017, p. 20)

Le décodeur utilise le vecteur produit par l’encodeur comme base (Bahdanau et al., 2014) dans sa recherche des traductions les plus probables pour chaque partie du segment, jusqu’à obtenir la traduction finale (voir Figure 10) :

Figure 10 : Fonctionnement du décodeur (Forcada, 2017, p. 21)

La révolution de ces systèmes réside dans la représentation de la phrase complète sous forme vectorielle. La traduction sera donc générée à partir de cette représentation, ce qui permet d’obtenir de bons résultats du point de vue du choix des mots, de la morphologie et des phrases dites « fractionnées » (comme dans le cas de l’allemand et des verbes à particule) (Koehn, 2016).

17 Grâce à cette nouvelle technologie neuronale, les traductions fournies par les systèmes de TAN semblent donc de meilleure qualité que celles fournies par les systèmes de TAS. En effet, de nombreuses études conduites avec des professionnel·le·s l’ont démontré, notamment celle menée par l’équipe de DeepL. Les traducteurs et traductrices préféreraient sensiblement les traductions de ce système à celles d’autres traducteurs automatiques1, comme le montrent les graphiques suivants présentés sur le site officiel2 (voir Figure 11) :

Figure 11 : Résultats évaluation systèmes de traduction automatiques (https://www.deepl.com/press.html, consulté le 20.03.2019)

Nous pouvons remarquer que ce système est considéré comme étant le plus performant quelle que soit la combinaison de langues concernée. Si nous nous penchons sur la combinaison EN-FR, soit celle qui correspond à notre expérience, nous constatons que DeepL surpasse de loin les autres systèmes. D’autres études l’ont également démontré, telles que celle de Volkart (2018) : l’effort de post-édition pour les segments issus de DeepL (système de TAN) était bien moins élevé que celui enregistré pour les segments issus du logiciel Microsoft Translator Hub – MTH (système de TAS).

En outre, une étude destinée uniquement à usage interne a été conduite dans le cadre professionnel de l’Office des Nations Unies de Genève et de New York en 2018. Elle portait sur une évaluation de deux logiciels de TA : DeepL et TAPTA4UN, un logiciel statistique interne. Ce dernier est à la disposition des traducteurs et des traductrices de l’ONU et a

1 https://www.letemps.ch/societe/deepl-meilleur-traducteur-automatique, consulté le 19.03.2019

2 https://www.deepl.com/press.html, consulté le 19.03.2019

18 été entraîné à l’aide d’un corpus de textes représentatifs des différents organes de l’Organisation.

La méthodologie de cette étude était la suivante : 1 000 segments issus de documents traités à l’ONU ont été sélectionnés et ont été traduits à l’aide des deux logiciels de TA ; l’ordre des traductions était aléatoire afin d’éviter de fausser les résultats (voir Annexes 1). Les participant·e·s étaient des collaborateurs ou collaboratrices professionnel·le·s de la traduction et/ou de la révision. L’évaluation s’est effectuée sur un fichier Excel qui se présentait de la façon suivante (voir Figure 12) :

Figure 12 : Fichier Excel évaluation DeepL

Dans la colonne « Segment » se trouvaient les segments sources. Dans les deuxième et cinquième colonnes, les segments cibles. Les colonnes « Expression », « Sens » et

« Préférence » servaient à évaluer chaque segment cible. Les critères d’évaluation étaient les suivants :

• Expression : il était demandé de noter la qualité de l’expression sur une échelle de 1 à 5, où 5=excellent, 4=bon, 3=passable, 2= non satisfaisant, 1=inutilisable.

• Sens : il était demandé de noter la restitution du sens sur une échelle de 1 à 5, où 5=le sens est intégralement restitué, 4=la plupart du sens est restituée, 3=une bonne partie du sens est restituée, 2=une faible partie du sens est restituée, 1=le sens n’est pas du tout restitué.

• Préférence : les participant·e·s devaient indiquer quelle traduction leur paraissait la meilleure en indiquant 1 ou 2 selon la colonne où se trouvait la traduction (1 pour la deuxième colonne et 2 pour la cinquième). Si la qualité des deux traductions était équivalente, les participant·e·s inscrivaient un 0.

19 Dans l’ensemble, les traductions proposées par DeepL ont été préférées à 62 % (voir Figure 13) :

Figure 13 : Résulats évaluation DeepL - TAPTA4UN

Concernant les critères d’évaluation, DeepL a obtenu de meilleures notes d’expression (Fluency) et de sens (Accuracy) que le second logiciel (voir Figure 14) :

Figure 14 : Résultats critères expression et sens

Il est intéressant de constater que même si le second logiciel a été entraîné à l’aide de textes de l’ONU, ce qui devrait être un avantage certain, DeepL est tout de même largement préféré par les participant·e·s. Nous remarquons donc que les résultats obtenus ici concordent avec ceux de l’étude menée par l’équipe de DeepL mentionnée plus haut. Nous tenons toutefois à préciser que l’étude conduite à l’ONU n’avait pas pour objectif d’être rendue publique et que les données présentées ici sont donnée à titre purement informatif.

20 Par ailleurs, la post-édition peut également jouer un rôle dans le processus d’entraînement des systèmes neuronaux : la mémoire de traduction du post-éditeur ou de la post-éditrice qui contient les données post-éditées peut être réintroduite dans le corpus d’entraînement afin que le système « apprenne » de ces changements (Diño, 2019). Même si les systèmes neuronaux sont plus performants que les autres types de systèmes, la tâche de post-édition reste et restera sensiblement la même, du moins dans un futur proche (Guerberof & Moorkens, 2019). Le seul aspect qui pourrait être modifié concerne le type d’erreurs commises par la TAN qui ressemblent davantage à celles de traducteurs et traductrices humain·e·s3 ; les post-éditeurs et post-éditrices devront donc s’éloigner des schémas d’erreurs que l’on retrouve habituellement dans les systèmes de TAS (voir section 2.4.6).

2.4 La post-édition (PE)

Intéressons-nous maintenant au point central de notre travail, la post-édition. Cette dernière s’est introduite dans le travail des traducteurs et des traductrices à la fin des années 1990. La qualité produite par les systèmes automatiques à cette période rendait la tâche particulièrement difficile (Guerberof & Moorkens, 2019). Désormais, la pratique de la post-édition est de plus en plus répandue, aussi bien dans les agences de traduction que dans les organes officiels. De plus, la qualité des traductions fournies automatiquement s’est nettement améliorée, notamment grâce au développement des systèmes neuronaux (voir section 2.3.2.3).

Dans cette section, nous définirons la tâche de post-édition ainsi que ses caractéristiques (section 2.4.1), nous tenterons de dresser le portrait d’un éditeur ou d’une post-éditrice (section 2.4.2), nous passerons en revue les différentes compétences nécessaires à cette pratique (section 2.4.3), nous détaillerons les étapes du processus (section 2.4.4), puis nous aborderons les concepts de productivité et de qualité (section 2.4.5) avant de distinguer la post-édition de la révision (section 2.4.6).

3 https://omniscien.com/riding-machine-translation-hype-cycle/, consulté le 14.06.2019

21 2.4.1 Définition et caractéristiques

Selon L’Homme, la post-édition se définit de la manière suivante : « [elle] consiste à corriger la traduction [automatique] brute afin de la rendre acceptable pour la diffusion. » (2008, p. 264) Il s’agit donc de retravailler une traduction qui a été produite par une machine, quelle qu’elle soit (linguistique, statistique ou encore neuronale) (voir section 2.3). Néanmoins, la post-édition peut également s’effectuer sur un texte cible provenant d’autres sources telles que des segments issus de mémoires de traduction (Saint-André, 2015).

Généralement, nous distinguons deux « types » principaux de post-édition :

Post-édition minimale (light post-editing ou « good enough » quality) : Selon les directives du TAUS4, elle doit être compréhensible (le contenu du message est préservé), et précise (le sens est identique à celui du texte source), mais le style peut être bancal. Les correcteurs et correctrices devraient viser les objectifs suivants :

o Restituer le sens du texte source ;

o Vérifier qu’aucune information n’a été ajoutée ou omise ;

o Retravailler certains passages pouvant être considérés comme inappropriés par la culture cible ;

o Maintenir le maximum de TA brute ;

o Vérifier que les règles d’orthographe sont respectées ; o Éviter de corriger le style.5

Ce type de post-édition ne sera donc pas adaptée à tous types de besoins : « Pour qu’une P[E] minimale convienne, la demande doit être urgente, et la circulation restreinte. De plus, le client [ou la cliente] doit savoir que le texte provient d’une TA suivie d’une P[E]. » (Saint-André, 2015, p. 30) Ainsi, une post-édition minimale peut être suffisante pour ceux et celles qui souhaiteraient simplement se faire une idée de la signification du texte source (Screen, 2019). Dans ce cas-là, le texte cible produit pourra atteindre cet objectif, même si la qualité n’est pas excellente.

4 https://www.taus.net/academy/best-practices/postedit-best-practices/machine-translation-post-editing-guidelines, consulté le 28.02.2019

5 idem

22

Post-édition maximale (full post-editing ou quality similar or equal to human translation) : toujours selon les mêmes directives6, elle doit être compréhensible (le message véhiculé est parfaitement clair) et exacte (le sens du texte cible est identique au texte source). Le style est correct et la qualité devrait être équivalente à celle fournie par un·e professionnel·le. Le texte est conforme aux règles de syntaxe, de grammaire et de ponctuation. Les correcteurs et correctrices devront s’assurer que les points suivants sont respectés :

o La traduction est correcte du point de vue de la grammaire, de la syntaxe et du sens ;

o La terminologie est correcte et les termes spécifiquement désignés par le client ou la cliente ne sont pas traduits ;

o La traduction ne comporte aucune omission et aucun ajout ; o Les possibles chocs culturels sont supprimés ;

o La TA brute a été maintenue au maximum ;

o Les règles de ponctuation, d’orthographe et de césure sont respectées ; o Le formatage est adapté.7

Ce type de post-édition est généralement recommandé pour tout texte officiel et/ou qui vise à être publié (Screen, 2019). Én effet, la qualité attendue d’une post-édition complète devrait être plus élevée que celle d’une post-post-édition minimale (Saint-André, 2015).

Les recommandations pour ces deux types de post-édition sont donc relativement semblables, notamment du point de vue du maintien de la TA brute. Cet aspect est particulièrement important, puisque la post-édition est bien une tâche de « révision » d’un texte produit automatiquement, et non une « (re)traduction ». De plus, le respect du sens est l’un des éléments qui doivent être le plus retravaillés dans les deux cas. La PE maximale, outre ces aspects, doit également tenir compte de toutes les règles régissant la langue cible (syntaxe, grammaire, ponctuation, orthographe, etc.). Comme il n’est fait aucune mention du style et de la fluidité en PE maximale, contrairement à la PE minimale,

6 https://www.taus.net/academy/best-practices/postedit-best-practices/machine-translation-post-editing-guidelines, consulté le 28.02.2019

7 idem

23 ces aspects seront probablement traités par les post-éditeurs et post-éditrices dans le but d’obtenir une qualité comparable à celle d’une traduction humaine.

Afin de mieux différencier ces deux types de post-édition, Deneufbourg (2019) présente les deux exemples concrets suivants (voir Tableau 1) :

N° exemple Texte source Texte cible

1 So our task here in Paris is to turn these achievements into an enduring framework for human progress.

Notre tâche aujourd’hui à Paris est donc de transformer ces réalisations en un cadre durable pour le progrès humain.

2 We stand united in solidarity not only to deliver justice to the solidarité non seulement pour rendre justice au réseau terroriste responsable de ces attentats, mais aussi pour protéger notre peuple et défendre les valeurs durables qui nous gardent forts et libres.

Tableau 1 : Exemples PE de TAN minimale et maximale (Deneufbourg, 2019)

Le segment 1 n’a pas besoin d’être modifié dans le cadre d’une PÉ minimale, car les lecteurs et lectrices sont capables de comprendre le message qui est véhiculé. Néanmoins, des corrections devront être apportées si une PE maximale est demandée, afin d’améliorer la fluidité de la version cible. Quant au segment 2, il doit être modifié dès la PE minimale, car il comporte un contre-sens, soit une erreur grave (voir section 5.4.2) :

« rendre justice » signifie « Reconnaître les droits, les mérites, la valeur de quelqu'un, de quelque chose8 » ; ici, le sens était plutôt celui de « faire justice de ».

Dans la pratique, la distinction entre PE minimale et maximale est parfois difficile à déterminer. Comme l’a constaté Deneufbourg (2019), les professionnel·le·s ont tendance à systématiquement corriger la TA, même dans le cadre d’une PÉ minimale, tandis que les étudiant·e·s sont plus susceptibles d’omettre des erreurs lors d’une PÉ maximale. Ce

8 https://www.cnrtl.fr/definition/justice, consulté le 13.06.2019

24 phénomène transparaît également dans notre expérience, comme nous le verrons à la section 5.4.2. Il paraît donc important d’établir un mandat de post-édition clair avec ses client·e·s plutôt que de convenir simplement d’une PÉ minimale ou maximale, afin d’évaluer plus efficacement le niveau réel d’intervention souhaité.

2.4.2 Qui sont les post-éditeurs et post-éditrices ?

La question ne semble pas encore résolue pour tous les acteurs et toutes les actrices du marché. Comme l’explique Saint-André, plusieurs options sont possibles : « des spécialistes du domaine, des linguistes, des assistants multilingues, des “personne[s]

sensibilisée[s] à l’art de la post-édition” ou même des bénévoles » (2015, p. 33‑34).

Néanmoins, plusieurs auteurs et autrices s’accordent à dire que le personnel de traduction est le plus à même d’effectuer cette tâche (Brunette & O’Brien, 2011). En effet, le TAUS9 mentionne que la post-édition bilingue est généralement confiée à un traducteur ou à une traductrice rémunéré·e (soit professionnel·le), mais que cette tâche peut également être attribuée à des expert·e·s bilingues ou à des volontaires selon les cas.

Si les traducteurs et traductrices semblent représenter les parfait·e·s candidat·e·s, le niveau d’expérience requis pour la post-édition ne constitue pas un consensus. Certain·e·s privilégient les traducteurs et traductrices expérimenté·e·s, car ils et elles sont généralement moins susceptibles d’être influencé·e·s par la TA. D’autres favoriseraient de jeunes professionnel·le·s, car ces derniers et dernières sont plus à l’aise dans l’utilisation d’outils informatiques qui sont indispensables au processus de post-édition (Saint-André, 2015).

Le choix final dépendra donc, d’une part, des préférences des client·e·s et de la politique de leur institution ou de leur entreprise et, d’autre part, du type de mandat dont il est question, du temps à disposition et de la formation suivie par les candidat·e·s.

9 https://www.taus.net/academy/best-practices/postedit-best-practices/machine-translation-post-editing-guidelines, consulté le 28.02.2019

25 2.4.3 Compétences nécessaires pour la PE

Les traducteurs et traductrices qui souhaiteraient s’adonner à la post-édition devront acquérir certaines compétences essentielles au préalable. En effet, cette tâche demande de solides connaissances dans plusieurs aspects de la langue et de la technologie notamment (O’Brien, 2005). Le Tableau 2 regroupe ces compétences dans trois catégories principales : les compétences linguistiques, les compétences informatiques, et les compétences générales et communicationnelles : Maîtrise de la langue source Traitement de texte Solides connaissances de

domaines spécialisés Maîtrise de la langue cible Maîtrise des outils de TAO Maîtrise de la culture

source Notions de terminologie Connaissances en

traduction automatique

Notions de linguistique Création de dictionnaires pour la TA

Respect du mandat

Langage contrôlé Gestion du temps

Usage de macros Attitude positive envers la TA

Connaissances des outils de recherche documentaire

Résolution de problèmes

Tableau 2 : Compétences nécessaires à la PE (O’Brien, 2005 ; Saint-André, 2015)

26 Concernant les compétences linguistiques, nous pouvons remarquer que, comme pour la traduction, la maîtrise des langues source et cible est primordiale. En outre, certaines connaissances en terminologie et en linguistique sont souhaitables, car la TA est susceptible de commettre des erreurs qui appartiennent à ces catégories par exemple.

Pour ce qui est des compétences informatiques, des connaissances de tout type de logiciel ayant trait à la traduction et à sa gestion sont indispensables. En effet, les tâches de

Pour ce qui est des compétences informatiques, des connaissances de tout type de logiciel ayant trait à la traduction et à sa gestion sont indispensables. En effet, les tâches de