MateCat - Logiciels utilisés pour l’expérience

3. Enseignement et PE

4.2 Logiciels utilisés pour l’expérience

4.2.2 MateCat

MateCat est un logiciel de TAO gratuit et en ligne qui fonctionne sur le navigateur Google Chrome. La volonté de ses créateurs et créatrices était d’intégrer au mieux la traduction automatique dans le travail du personnel de traduction qui a recours aux outils de TAO (Tounsi & Rak, 2014). Ainsi, ce système utilise une mémoire de traduction en ligne collaborative, My Memory, que l’on peut alimenter et consulter librement pour ses projets.

En outre, il propose de pré-traduire automatiquement les segments à l’aide d’un module qui conjugue Google Translate à Microsoft Translator (Tounsi & Rak, 2014).

Ces deux options sont à sélectionner lors de la création d’un projet (voir Figures 17 et 18) :

Figure 17: Interface options MateCat

Figure 18 : Interface options MateCat

44 Dans le cadre de notre expérience, nous avons désactivé ces deux options afin de ne pas fausser les résultats, puisque nous allions alimenter les mémoires de traduction avec les textes et leurs traductions. En effet, si nous avions accès à la MT My Memory et que nous la mettions à jour, le premier ou la première étudiant·e qui aurait fini ses révisions alimenterait la mémoire avec ses données, ce qui fausserait toutes les suggestions qui seraient ensuite proposées aux suivant·e·s. En outre, les suggestions proposées ne viendraient pas exclusivement des mémoires que nous avons créées et nous ne pourrions donc pas garantir une répartition des textes traduits manuellement et automatiquement comme nous le souhaitions pour cette expérience (voir section 4.3.3). Pour les mêmes raisons, nous n’avons pas activé l’option de traduction automatique proposée.

De plus, il est également possible de paramétrer l’utilisation des mémoires de traduction importées dans le logiciel (voir Figure 19) :

Figure 19 : Paramétrage MateCat - mémoires de traduction

Pour les besoins de l’expérience, nous avons décoché l’option Update, car celle-ci sert à mettre à jour la mémoire après chaque modification, ce qui va à l’encontre de notre méthodologie pour ce travail. Néanmoins, nous avons coché l’option Lookup pour que les suggestions provenant de la mémoire soient proposées par le logiciel.

En outre, les participant·e·s n’ont pas eu besoin de créer un compte utilisateur pour prendre part à l’expérience. Il leur suffisait de cliquer sur un lien reçu par e-mail, ce qui facilitait grandement la tâche.

45 De plus, MateCat fournit de nombreuses informations utiles sur le travail effectué (voir Tableau 4) :

Tableau 4 : Données fournies par MateCat

Ces données seront utiles lors de l’analyse des résultats (voir section 5.4.1), car elles nous permettront entre autres de comparer le temps passé sur chaque révision et l’effort de post-édition fourni pour une tâche entière.

Il est également possible de télécharger un fichier en format .csv qui détaille ces informations pour chaque segment (voir Tableau 5) :

Tableau 5 : Detailed log fourni par MateCat

Nous nous sommes donc tournée vers ce logiciel de TAO car il est gratuit, accessible en ligne, facile d’utilisation et qu’il fournit des informations pertinentes pour l’analyse que nous souhaitions effectuer.

46 4.3 Démarche

Dans cette section, nous détaillerons l’ensemble des étapes qui ont été suivies pour la mise en place, l’exécution et l’évaluation de l’exercice de post-édition et de révision. L’objectif de cette expérience était de comparer la post-édition et la révision de trois textes différents en cross design. L’expérience s’est déroulée de la façon suivante pour les participant·e·s :

• Introduction au projet

o Présentation PowerPoint (voir Annexes 2)

• Réponse au questionnaire préliminaire

• Tâches de post-édition et de révision

o Guide d’utilisation de MateCat (voir Annexes 10) o Directives du TAUS (voir Annexes 11)

• Réponse au questionnaire de satisfaction

• Test de reconnaissance des segments issus de la TH et de la TA

4.3.1 Calendrier et participant·e·s

Le déroulement de l’expérience s’est effectué en trois parties :

1. Un premier test a été effectué par dix étudiant·e·s qui ont suivi le cours de Traduction et révision EN/FR au semestre de printemps 2019.

2. La même expérience a été effectuée par sept étudiant·e·s ayant suivi le cours au semestre de printemps 2018.

3. Une professionnelle a également participé à l’expérience.

Les résultats de la première partie n’ont pas pu être intégrés à ce travail en raison d’un problème de paramétrage du logiciel MateCat. En effet, pour les tâches destinées au premier échantillon de participant·e·s, les deux paramètres Lookup et Update mentionnés ci-dessus avaient été cochés. Par conséquent, la mémoire de traduction s’est mise à jour à chaque fois qu’un·e étudiant·e révisait l’un des textes, et ce pour tous les projets qui avaient recours à cette mémoire (soit tous) ; les étudiant·e·s se sont en quelque sorte mutuellement révisé·e·s au lieu de réviser les segments que nous avions prédéfinis. Nous

47 nous sommes donc assurée que l’option Update était bien décochée lors de la préparation des tests ultérieurs. Néanmoins, les résultats exploitables de ce groupe ont été intégrés aux Annexes (voir Annexes 22).

Les sept étudiant·e·s de l’expérience ont été réparti·e·s par cross-design en deux groupes, A et B ; le groupe A a révisé des textes dont une moitié provenait de la TA et l’autre de la TH, et le groupe B le contraire. Ainsi, chaque partie des textes à corriger a été à la fois révisée et post-éditée.

Le Tableau 6 récapitule la répartition des participant·e·s : Catégorie participant·e·s Groupe A (nb. de

participant·e·s)

Groupe B (nb. de participant·e·s)

Étudiant·e·s 3 4

Professionnelle 1 -

Tableau 6 : Répartition participant·e·s

Cette répartition nous permettra de comparer la post-édition et la révision entre les groupes A et B, ainsi qu’entre la professionnelle et les étudiant·e·s de chaque groupe.

En outre, les enseignant·e·s ont également apporté leur contribution grâce à un questionnaire (voir Annexes 8).

4.3.2 Choix des textes et traduction

Nous avons choisi de nous concentrer sur trois types de textes différents, chaque texte étant d’une longueur d’environ 300 mots :

• texte littéraire : 289 mots

• texte économique : 265 mots

• texte journalistique : 222 mots

Tout texte ne se traduit pas de la même façon, ne requiert pas les mêmes compétences ni les mêmes connaissances préalables. En sélectionnant trois types distincts, nous avions la

48 possibilité de déterminer si la machine était plus performante pour un certain type ou si la qualité était relativement égale. Nous pouvions également vérifier si la qualité de la post-édition variait entre ces différents types. En outre, les textes étaient relativement courts, car nous souhaitions qu’un maximum d’étudiant·e·s puissent participer au projet sans que leur charge de travail soit insurmontable. De plus, comme il s’agit d’une première expérience de ce type, nous avons préféré nous concentrer sur un volume de données raisonnable afin de garantir une analyse détaillée.

Le premier texte (voir Annexe 12) relève du type littéraire ; il a été écrit par Eoin Colfer et comporte 289 mots. Ce type de textes est particulièrement intéressant à analyser dans le cadre de la traduction automatique, car sa syntaxe et sa formulation imagée notamment pourraient poser plus de problèmes à la machine qu’à un traducteur ou une traductrice.

En effet, les nuances et les spécificités de la langue qui sont caractéristiques des textes littéraires (métaphores, types de discours, personnifications, etc.) sont souvent mal interprétées par un système automatique qui n’a pas la même sensibilité qu’un·e professionnel·le. Ainsi, il nous paraissait pertinent de proposer ce type de textes aux étudiant·e·s, afin d’observer si ceux-ci et celles-ci reconnaîtraient les erreurs typiques commises par la machine dans ce genre de cas. En outre, nous souhaitions observer si, en conséquence, ils et elles adapteraient leur façon de post-éditer en fournissant un effort de post-édition plus élevé par exemple.

Le second texte (voir Annexes 13) traite de l’économie, plus particulièrement du commerce international et du protectionnisme, et comporte 265 mots. Ce type de textes présente plusieurs difficultés, dont deux qui nous intéressent spécifiquement : la terminologie et la phraséologie. Comme il s’agit d’un domaine spécialisé, de nombreux termes sont utilisés dans l’ensemble du texte. Ce point peut être problématique pour les traducteurs ou traductrices n’ayant pas de connaissances préalables de la thématique, car ceux-ci ou celles-ci risquent soit de passer plus de temps à effectuer des recherches terminologiques, soit de ne pas recourir aux termes adéquats. Quant à la machine, elle peut faire face à ces mêmes difficultés, mais dans une moindre mesure : selon les corpus qui ont servi à son entraînement, il est probable qu’elle ait déjà assimilé certains termes et qu’elle soit donc capable de les réutiliser correctement dans d’autres contextes. Nous pourrons nous pencher sur ce point en particulier lors de l’analyse des résultats (voir section 5.4.2). Concernant la phraséologie, les textes économiques en particulier exigent

49 le recours à certaines formulations d’usage ou à certains « mécanismes langagiers » tels que la substantivation. Par exemple, il est préférable de parler d’une « accélération de la croissance » plutôt que d’écrire « la croissance s’accélère », de même que l’on privilégiera la formule « le raffermissement du dollar » à la formule « le dollar se raffermit ». À nouveau, si les traducteurs ou traductrices n’ont pas l’habitude de recourir à ces pratiques, la qualité de la traduction risque de diminuer. La machine est particulièrement concernée par ces problématiques, car elle n’a pas de connaissances de l’usage au sens large de la langue spécialisée et n’est pas en mesure d’effectuer ce type de reformulations pour l’instant. C’est pourquoi ce type de textes nous paraissait adéquat pour notre expérience.

Le troisième et dernier texte (voir Annexe 14) s’inscrit dans le type journalistique et comporte 222 mots. Les journalistes ont souvent recours à un langage très imagé, parfois télégraphique, parfois alambiqué. Tous et toutes ont un style qui leur est propre et qui varie en fonction de l’objectif de communication du texte.

Cet objectif est décrit par la théorie du Skopos :

« According to Skopostheorie, the prime principle determining the choice of method and strategy in any translation process is the purpose (Skopos) of the overall translational interaction, which takes place between cooperating parties across language and culture boundaries. This means that the decisions taken by the participants of the interaction are guided by the communicative intentions of the person initiating the process (client, initiator). » (Nord, 2010)

Les textes journalistiques sont particulièrement concernés par cette théorie, car chaque média aura son public cible et chaque article peut avoir une visée différente. Ainsi, ce type de textes peut être particulièrement intéressant pour notre expérience, car sa révision peut varier selon plusieurs éléments : la sensibilité des traducteurs ou des traductrices au style (sensibilité dont est dépourvue la machine), la perception qu’ont les réviseurs ou réviseuses de l’objectif de communication, ou encore le support sur lequel sera publié le texte.

50 4.3.3 Traduction des textes choisis

Une fois les textes récoltés, nous avons préparé deux versions de traduction : une traduction humaine et une traduction automatique. Les traductions humaines ont été produites par des étudiant·e·s d’années précédentes et ont été anonymisées. Nous avons demandé aux enseignant·e·s de nous fournir des traductions qui soient de qualité moyenne à bonne. Nous souhaitions, d’une part, que les tâches de révision/post-édition soient effectuées en moins d’une heure et trente minutes. D’autre part, nous souhaitions nous rapprocher au maximum d’un contexte de révision réel, à savoir que les traductions humaines produites par des traducteurs ou des traductrices sont généralement de bonne qualité avant même d’être révisées. Néanmoins, chaque traduction sélectionnée comporte des erreurs qui doivent être corrigées, car celles-ci peuvent altérer la compréhension ou la fluidité du texte.

Nous avons également traduit chaque texte entièrement à l’aide du système neuronal DeepL²⁰. Nous avons ensuite téléchargé ces documents et les avons convertis en fichiers .txt afin d’en extraire le contenu, car la version gratuite de DeepL ne permet pas de copier-coller directement le contenu des fichiers en format .docx.

Comme mentionné à la section précédente, afin que l’expérience soit la plus objective possible, nous avons « coupé » chaque traduction (humaine et automatique) en deux et avons créé une nouvelle version qui comporte une partie de TH et une partie de TA. De ce fait, chaque étudiant·e a effectué de la révision et de la post-édition et chaque texte a été à la fois révisé et post-édité.

20 Les traductions ont été effectuées au mois de février 2019.

51 Pour le même texte, les parties de TA pour le groupe A correspondaient aux parties de TH pour le groupe B et inversement (voir Figures 20 et 21) :

Figure 20 : Traduction finale TH-TA groupe A

Figure 21 : Traduction finale TH-TA groupe B

Cet ordre TA-TH varie également entre les textes (si le texte 1 débute par la TA pour le groupe A, le texte 2 débute par la TH, etc.)(voir Annexes 15 à 20), afin d’éviter que les étudiant·e·s ne s’en rendent compte et qu’ils ou elles modifient leur façon de réviser en conséquence, même inconsciemment.

4.3.4 Préparation de MateCat

Une fois les textes sélectionnés, nous avons préparé les tâches de révision dans le logiciel MateCat (voir section 4.2.2). Pour que celui-ci propose des suggestions venant d’une mémoire de traduction aux participant·e·s (qui correspondent aux versions TH-TA des traductions expliquées plus haut), nous avons dû procéder de la manière suivante : créer une première mémoire de traduction pour le groupe A à l’aide du logiciel SDL Trados Studio 2017 qui contient la TA et la TH, l’alimenter avec les textes et les traductions que

52 nous souhaitions faire réviser, aligner les segments sources et cibles et, enfin, télécharger la mémoire en version .tmx, soit un standard d’échange qui permet d’utiliser une mémoire de traduction dans n’importe quel logiciel de traduction. Nous avons procédé de la même manière pour créer une seconde mémoire de traduction pour le groupe B. Les segments de TH de la mémoire A sont donc de la TA dans la mémoire B et inversement. Nous avons ensuite importé ces deux mémoires dans MateCat.

4.3.5 Déroulement de l’expérience

Les participant·e·s ont été contacté·e·s par e-mail et ont reçu un premier questionnaire à compléter (voir Annexes 4 et 5) ainsi qu’un formulaire de consentement (Giroux &

Tremblay, 2009 ; Heritier, 2019) à signer (voir Annexes 3). Les deux versions du questionnaire (étudiant·e et professionnelle) étaient disponibles sur Google docs, car ce système nous permettait d’extraire les réponses directement sur le logiciel Excel et d’obtenir facilement des tableaux exploitables. La première version comportait dix questions pour les sept étudiant·e·s et portait sur leur parcours universitaire, leurs connaissances en traduction, en révision, etc. ainsi que sur leur connaissance du logiciel DeepL. La seconde, destinée à la professionnelle, comportait neuf questions qui ont été adaptées. Ce questionnaire nous a permis de mieux cibler le profil de chaque participant·e et ainsi de mieux interpréter les données extraites de leur travail respectif.

Une fois ces deux étapes effectuées, les participant·e·s ont reçu un e-mail d’explication des tâches à accomplir, soit de corriger des segments qui provenaient de la TH et de la TA (voir Annexes 9). Il leur était demandé de lire entièrement le guide d’utilisation de MateCat (Heritier, 2019) en pièce-jointe (voir Annexes 10) avant de commencer leur travail, ainsi que de se référer aux directives du TAUS²¹ et à la présentation PowerPoint (voir Annexes 2), tous deux en pièces-jointes également. Les instructions étaient exactement les mêmes pour la révision et la post-édition : puisque les participant·e·s ne savaient pas quels segments étaient issus de la TA ou de la TH, nous leur avons demandé de suivre la même marche à suivre pour l’ensemble des tâches.

21 https://www.taus.net/academy/best-practices/postedit-best-practices/machine-translation-post-editing-guidelines, consulté le 28.02.2019

53 Au sein du logiciel MateCat, chaque texte faisait l’objet d’une tâche qui comportait le numéro de participant·e ainsi que le numéro du texte, numéro qui n’a eu aucune influence sur le travail à effectuer. Le texte littéraire portait le numéro un, l’économique portait le numéro deux et le journalistique le numéro trois.

Chaque participant·e a ensuite reçu trois e-mails de MateCat contenant chacun une tâche de révision. Il lui suffisait de cliquer sur le lien pour ensuite être redirigé·e vers l’interface MateCat suivante (voir Figure 22) :

Figure 22 : Interface traduction/révision MateCat

Comme pour chaque logiciel de TAO, le segment source se trouve sur la gauche et le segment cible sur la droite. Chaque proposition de traduction était extraite d’une des mémoires que nous avons créées (« MT Mmoire » sur la Figure 22). Les participant·e·s devaient réviser le document entier avant de valider et de télécharger le fichier révisé.

Une fois les tâches de correction terminées, les participant·e·s ont renvoyé par e-mail leurs versions finales en format .docx, leurs fichiers détaillés proposés par Matecat en format .csv ainsi que les données demandées dans le guide d’utilisation.

54 Il restait ensuite deux dernières tâches aux participant·e·s, à savoir répondre au questionnaire de satisfaction et compléter un test de reconnaissance de TA-TH qui se présentait de la façon suivante (voir Figure 23) :

Figure 23 : Fichier Excel - test de reconnaissance TH-TA

Les participant·e·s devaient déterminer dans la liste déroulante (colonne E) pour chaque segment des trois textes si la traduction proposée (colonne D) était issue de la TA ou de la TH.

Le questionnaire de satisfaction, quant à lui, était également disponible sur Google docs et a été décliné en trois versions : deux versions aux étudiant·e·s A et B (voir Annexes 6), et une version à la professionnelle (voir Annexes 7). Les versions destinées aux étudiant·e·s étaient identiques et ont été séparées pour des raisons purement logistiques.

Elles comportaient chacune neuf questions plus précises sur l’expérience, la façon de réviser et l’opinion des étudiant·e·s sur l’intégration de la TA (post-édition) à l’enseignement de la traduction. Les réponses obtenues ont été fondamentales pour, d’une part, évaluer le ressenti des étudiant·e·s face à la post-édition et, d’autre part, déterminer s’il est effectivement pertinent d’aborder cette thématique dans un cours de traduction

« classique ». Quant à la version destinée à la professionnelle, elle comportait huit questions semblables à celles posées aux étudiant·e·s.

55 Notons que nous avons fait mention de la TA plutôt que de la PE dans les divers questionnaires, car nous n’étions pas certaine que les étudiant·e·s connaissaient le terme de « post-édition ». Ainsi, nous avons préféré recourir à l’appellation générique de « TA » chaque fois qu’il était question de post-édition. En outre, certaines parties du module consacré à la PE pourraient également concerner la TA, si les différents types de systèmes sont présentés, par exemple. Néanmoins, le sujet principal de ce travail demeure l’intégration de la post-édition.

4.3.6 Contribution des enseignant·e·s

Enfin, nous ne nous sommes pas intéressée uniquement à l’avis des étudiant·e·s. En effet, les enseignant·e·s du cours de « Traduction et révision EN/FR » ont également répondu à un questionnaire (voir Annexes 8), disponible sur Google docs, qui portait sur l’intégration de la TA (post-édition) dans un cours de traduction. Ce questionnaire comportait treize questions, dont plusieurs ouvertes qui requéraient des réponses plus exhaustives que celles des étudiant·e·s. Puisque les enseignant·e·s sont ceux et celles qui préparent et conçoivent le programme du cours, ils et elles sont les plus à même de nous renseigner sur l’implémentation d’un tel projet, notamment concernant l’éventuelle formation supplémentaire en TA qu’ils et elles devraient suivre.

56 4.3.7 Données collectées

Cette méthodologie nous a donc permis d’obtenir des données objectives, recueillie lors de l’expérience, et subjectives, extraites de nos différents questionnaires. Le Tableau 7 classe ces résultats en fonction de nos questions de recherche :

Données récoltées

Type Questions de recherche Sections

Questionnaires Subjectif • Perception des étudiant·e·s et des

Expérience Objectif • Comportement des

étudiant·e·s face à la

Tableau 7 : Lien données recueillies et questions de recherche

Ces données nous permettront donc de répondre à nos diverses questions de recherche et seront analysées en détail dans les chapitres suivants.

5. Analyse des résultats

Dans cette section, nous nous pencherons sur l’analyse des différentes données que nous

Dans le document Intégration de la post-édition dans un cours de traduction et révision : Étude de cas d'étudiant·e·s à la Faculté de traduction et d'interprétation (Page 53-0)