L'intégration de la traduction automatique dans le processus de localisation à Autodesk : Étude de cas et enquête auprès des traducteurs

(1)

Master

Reference

L'intégration de la traduction automatique dans le processus de localisation à Autodesk : Étude de cas et enquête auprès des

traducteurs

GIACHETTI, Mary Sue

Abstract

Ce travail vise à décrire et analyser l'intégration de la traduction automatique (TA) et de la post-édition (PE) dans le cadre du processus de localisation. Le but est de décrire une réalité novatrice et de recueillir les opinions des traducteurs quant aux contraintes, aux pratiques de travail et aux outils mis en jeu lors de la PE dans le cadre de la localisation logicielle, à travers une méthodologie composée d'une enquête par questionnaire, un entretien et une session d'observation. Il est composé, d'une part, de l'étude de cas de la société Autodesk, qui emploie la TA et la PE pour localiser les produits logiciels vendus et, d'autre part, d'une enquête auprès de post-éditeurs professionnels.

GIACHETTI, Mary Sue. L'intégration de la traduction automatique dans le processus de localisation à Autodesk : Étude de cas et enquête auprès des traducteurs. Master : Univ. Genève, 2013

Available at:

http://archive-ouverte.unige.ch/unige:33072

Disclaimer: layout of this document may differ from the published version.

1 / 1

(2)

MARY SUE GIACHETTI

L’intégration de la traduction automatique dans le processus de localisation à Autodesk

Etude de cas et enquête auprès des traducteurs

Mémoire présenté à la Faculté de Traduction et d’Interprétation pour l’obtention du Master en traduction, mention technologies de la traduction

Directrice du mémoire : Mme Pierrette Bouillon

Juré : M. Mirko Plitt

Université de Genève Aout 2013

(3)

2

(4)

3

TABLE DES MATIERES

Introduction ...

7

PREMIÈRE PARTIE : Le contexte Chapitre I : Traduction automatique et post-édition A. La traduction automatique ...

10

1. Quelques définitions ...

10

2. L’histoire de la traduction automatique ...

12

3. L’essor actuel ...

13

4. Les applications de la traduction automatique ...

14

5. Les systèmes de traduction automatique ...

15

5.1 Les systèmes à base de règles ...

16

5.1.1 Les systèmes directs ... 16

5.1.2 Les systèmes indirects ... 17

5.1.2 a. Les systèmes par transfert ... 17

5.1.2 b. Les systèmes par interlangue ... 19

5.2 Les systèmes à base de corpus ...

20

5.2.1 Les systèmes basés sur les exemples ... 20

5.2.2 Les systèmes statistiques ... 21

5.2.2 a. Les modèles basés sur les mots ... 21

5.2.2 b. Les modèles basés sur les séquences de mots ... 23

5.3 Les systèmes hybrides ...

23

6. Evaluer la traduction automatique ...

24

B. La post-édition ...

25

1. Quelques définitions ...

25

2. Les degrés de post-édition ...

26

(5)

4

3. L’effort de post-édition ...

27

4. PE vs. Traduction ...

28

5. La formation en post-édition ...

28

6. Les qualités requises ...

29

7. Les directives de post-édition ...

30

8. Les outils de post-édition ...

32

C. Conclusion ...

³²

Chapitre II : La localisation A. « Globalization » et localisation ...

³⁴

B. La localisation ...

35

1. Quelques définitions ...

35

2. Histoire de la localisation ...

35

3. Pourquoi localiser ? ...

36

4. Quoi localiser ? ...

37

5. Le projet de localisation ...

38

C. Conclusion ...

39

DEUXIEME PARTIE : Le cas pratique d’Autodesk Chapitre III : Etude de cas d’Autodesk A. Autodesk ...

41

1. L’entreprise ...

41

2. Le département de localisation ...

42

B. Le processus de localisation : une combinaison gagnante ...

⁴³

1. La gestion des contenus et de la localisation ...

44

1.1 Trisoft ...

45

1.2 WorldServer ...

45

2. Les mémoires de traduction ...

46

(6)

5

3. La traduction automatique ...

47

3.1 Le fonctionnement de Moses ...

48

3.1.1 Le prétraitement du corpus ... 48

3.1.2 L’entraînement du moteur ... 49

3.1.3 Le décodage ... 50

3.1.4 Calibrage et post-traitement ... 50

3.1.5 L’évaluation ... 50

4. La post-édition ...

51

4.1 L’étape de post-édition ...

51

4.1.1 La traduction de la documentation sous WorldServer ... 52

4.1.2 La traduction de l’interface graphique sous Passolo ... 54

4.2 Les ressources à disposition ...

55

4.3 L’assurance qualité ...

56

C. Localisation et TA, d’autres success stories ...

⁵⁶

1. SAP : une application productive ...

56

2. Ford : l’aide à l’assemblage ...

57

3. Océ Technologies ...

58

4. Adobe : un projet ambitieux ...

58

D. Conclusion ...

59

TROISIEME PARTIE : L’expérience Chapitre IV : Les motivations de recherche A. Les motivations ...

⁶⁰

B. Objectifs généraux ...

62

C. Objectifs spécifiques et hypothèses ...

62

1. Ergonomie cognitive ...

62

1.1 Leur vision de la traduction automatique ...

63

1.2 Les procédés mentaux mis en place pendant la tâche ...

64

(7)

6

1.3 La reconnaissance des erreurs de la TA ...

65

1.4 Leur procédé de post-édition ...

66

1.5 Leur opinion quant aux directives et formation en PE ...

67

2. Ergonomie physique ...

67

2.1 L’utilisation des outils et du matériel informatique ...

68

3. Ergonomie organisationnelle ...

69

3.1 La modalité et l’environnement de travail ...

69

3.2 Les relations avec les autres membres de l’équipe ...

70

D. Conclusion ...

70

Chapitre V : La méthodologie utilisée A. Détermination de la méthodologie ...

71

B. Choix du public ...

⁷¹

1. Les agences ...

71

2. Les traducteurs ...

72

C. Description de la méthodologie ...

⁷²

1. L’entretien ...

72

2. Le questionnaire ...

73

2.1 Les types de questions ...

74

3. L’observation ...

76

3.1 Les raisons de notre choix ...

76

3.2 Le participant ...

76

3.3 Le matériel utilisé ...

77

3.4 Le déroulement ...

77

3.5 Les biais ...

77

D. Conclusion ...

78

(8)

7

Chapitre VI : Les résultats

Q.1 ...

79

Q.2 ...

⁸⁴

Q.3 ...

85

Q.4 ...

⁸⁶

Q.5 ...

⁸⁷

Q.6 ...

87

Q.7 ...

⁸⁹

Q.8 ...

95

Q.9 ...

⁹⁵

Q.10 ...

⁹⁵

Q.11 ...

96

Q.12 ...

⁹⁷

Q.13 ...

98

Q14 ...

⁹⁹

Q.15 ...

¹⁰⁰

Q.16 ...

¹⁰¹

Conclusion ...

¹⁰²

Bibliographie...

105

Annexes ...

¹⁰⁹

Remerciements ...

123

(9)

8

Introduction

Ce travail traite de trois activités liées à la traduction qui tentent de combiner au mieux l’effort humain et l’apport de la machine : la traduction automatique (TA), la post-édition (PE) et la localisation. La traduction automatique est probablement la mieux connue des trois, mais elle est généralement l’objet de la méfiance et des moqueries du grand public. En expliquant l’effort technologique qu’elle implique, nous espérons lui rendre ne serait-ce qu’un peu ses lettres de noblesse. La post-édition est le complément indispensable de la TA, puisqu’elle consiste en la « réparation » des erreurs de la TA par un traducteur humain. La localisation, quant à elle, est la traduction de contenus digitaux, tels que les sites web, les logiciels et les applications.

Depuis quelques années, le paradigme traditionnel de la localisation s’est vu progressivement modifié par les impératifs de la concurrence et de la productivité. C’est alors que la traduction automatique est entrée dans l’équation. La combinaison magique pour les sociétés multinationales qui souhaitent se développer efficacement à l’international est dorénavant L10N = MT + TA + PE¹. Cependant, peu d’entreprises ont adopté l’intégration des mémoires de traduction, de la traduction automatique et de la post-édition à leur flux de travail de localisation.

La société Autodesk, leader dans le secteur des logiciels de dessin et contenu numérique, est l’une d’elles. Ce mémoire a été réalisé à la suite d’un stage au sein du siège neuchâtelois de l’entreprise américaine, lors duquel nous avons commencé à nous intéresser à la post-édition et à son intégration dans le processus de localisation. En particulier, l’idée nous est venue d’aller faire des recherches sur le terrain, en consultant directement les traducteurs quant à la pratique de cette facette de leur métier encore peu connue du grand public, même spécialisé.

En effet, déjà pendant le stage, épaulée par nos collègues et grâce aux outils et aux ressources disponibles sur place, nous avions pu entamer nos recherches par un exercice de mise en situation. Nous avions commencé par simuler un projet de localisation qui comprenait, d’une part, la post-édition par le programme SDL Passolo d’une série de chaînes

1 Localisation = mémoires de traduction + traduction automatique + post-édition

(10)

9

de caractères de l’interface du logiciel AutoCAD et, de l’autre, celle de la documentation du même produit, à l’aide de la plateforme SDL WorldServer. Le but était d’essayer de reproduire les mêmes conditions que celles qui se seraient présentées dans le cadre d’un vrai projet, à savoir le mode d’envoi des fichiers source, leur formatage ou encore les outils utilisés. Par la suite, nous avions organisé des entretiens individuels avec trois traducteurs salariés de l’un des fournisseurs de traductions d’Autodesk. Le but de cette enquête était d’interroger les traducteurs quant aux points négatifs, aux difficultés, mais aussi aux côtés positifs des différentes étapes du processus de localisation adoptées au sein d’Autodesk.

Certaines des remarques recueillies, une fois remontées au département de localisation d’Autodesk, avaient permis à l’entreprise de constater certaines faiblesses jusqu’alors inconnues et d’y pallier.

Dans ce travail, nous avons voulu reproduire cette expérience, en élargissant l’échantillon de public cible et en augmentant le nombre de paramètres analysés. En nous laissant guider par le concept d’ergonomie et ses trois composantes (ergonomie cognitive, physique et organisationnelle), nous avons consulté un total de 8 traducteurs professionnels travaillant en PE que nous avons interrogés pour connaître leurs opinions par rapport à leur métier et pour recueillir des informations sur les stratégies qu’ils emploient lors d’une tâche de PE.

Dans les chapitres qui suivent, nous introduirons d’abord les concepts de traduction automatique, de post-édition et de localisation (chapitres I et II), puis nous présenterons le cas pratique que nous avons choisi, à savoir celui de la société Autodesk, avec la description du flux de travail adopté par le département de localisation et les fournisseurs externes de services linguistiques (chapitre III). Dans le chapitre IV, nous exposerons les motivations qui nous ont poussée à entreprendre nos recherches ; nous allons définir nos hypothèses et résumer ce que nous espérions vérifier par cette étude. Le chapitre V présentera la méthodologie de recherche et, finalement, au chapitre VI nous décrirons les résultats recueillis.

(11)

10

PREMIÈRE PARTIE : Le contexte Chapitre I : Traduction automatique et post-édition

La post-édition est une activité strictement liée à la traduction automatique, puisqu’elle en découle naturellement. Dans les sections qui suivent, nous définirons ces deux activités et présenterons les types de système de traduction automatique, ainsi que son histoire et ses applications (section A.) ; nous ferons ensuite de même pour la post-édition (section B.).

A. La traduction automatique

Dans cette section, nous définirons d’abord la traduction automatique et nous verrons en quoi elle se différencie de la traduction assistée par ordinateur (section 1.) ; ensuite, nous parcourrons l’histoire de la TA (section 2.) jusqu’à aujourd’hui (section 3.). Nous verrons pour quelles applications elle est indiquée (section 4.) et nous passerons en revue les différents types de système (section 5.). Finalement, nous aborderons brièvement le sujet de l’évaluation (section 6.).

1. Quelques définitions

TA, TAAH, TEAHQ

D’après l’Association européenne de traduction automatique (EAMT), la traduction automatique (TA) consiste en :

« […] the application of computers to the task of translating texts from one natural language to another.² »

Hutchins et Somers (1992, p. 3), quant à eux, définissent les systèmes de TA comme des

2 http://www.eamt.org/mt.php

(12)

11

« […] computerised systems responsible for the production of translations from one natural language into another, with or without human assistance. »

Le concept de traduction automatique revêt deux réalités différentes : la traduction automatique assistée par l’humain (TAAH) et la traduction entièrement automatique de haute qualité (TEAHQ). La première nécessite obligatoirement l’intervention de l’homme, tandis que la deuxième désigne une TA qui permettrait d’obtenir une qualité finale comparable à celle d’une traduction faite par l’homme sans aucune intervention de sa part (Bouillon et Clas 1993).

TA et TAO

Il ne faut pas confondre la traduction automatique (TA) avec la traduction assistée par ordinateur (TAO), aussi appelée traduction humaine assistée par ordinateur (THAO) (Bouillon et Clas 1993). Même si la frontière entre les deux disciplines est floue, lorsque l’on parle de TA, on tend à faire référence à l’automatisation de l’ensemble du processus, tandis que pour la TAO, l’automatisation concerne des parties ou des tâches précises de celui-ci (L’Homme 2008).

Parmi les outils de TAO, les mémoires de traduction sont les plus utilisées. Elles permettent de sauvegarder les traductions faites par un humain sous la forme de couples de segments parallèles source-cible. Lorsque le traducteur rencontre une deuxième fois le même segment source, ou un segment similaire, dans son texte à traduire, la mémoire lui

« rappelle » la traduction qu’il avait insérée auparavant, de manière à ce que, s’il la juge convenable, il n’ait pas à le retraduire entièrement.

Le rôle principal des logiciels de TAO est de faire gagner du temps au traducteur, tout en permettant au client de faire des économies d’argent. En effet, les répétitions ne sont pas payées au tarif plein, mais en fonction du pourcentage de correspondance avec les mémoires. Cela dit, Trados et ses confrères aident, bien entendu, aussi à assurer la cohérence terminologique et l’homogénéité du texte cible.

(13)

12

Aujourd’hui, afin de maximiser ces résultats, certaines entreprises et organismes à vocation internationale ont fait le choix d’intégrer les technologies de TAO et de traduction automatique. C’est le cas de l’entreprise Autodesk, que nous décrirons dans le chapitre III.

2. L’histoire de la traduction automatique

« The attached memorandum on translation from one language to another, and on the possibility of contributing to this process by the use of modern computing devices of very high speed, capacity, and logical flexibility, has been written with one hope only - that it might possibly serve in some small way as a stimulus to someone else, who would have the techniques, the knowledge, and the imagination to do something about it. » (Weaver 1955, p. 1)

Depuis la publication de l’article visionnaire de Warren Weaver dont la préface est reproduite ci-dessus, les recherches sur la traduction automatique ont toujours été liées intérêts stratégiques et économiques des Etats-Unis et de l’Europe (Bouillon et Clas 1993).

En 1949, Weaver lança l’idée audacieuse d’une analogie entre la traduction et le décryptage des messages codés qui aurait permis de traduire automatiquement un texte d’une langue à l’autre. Les Etats-Unis jugèrent cette idée intéressante, notamment dans le contexte de l’après-guerre ; les premières recherches, entreprises avec enthousiasme aux Etats-Unis, se focalisèrent en effet sur le russe et l’anglais (Arnold 1994).

Cependant, en 1960, l’on se rendit compte que les connaissances limitées en informatique et en linguistique de l’époque rendaient impossible l’idée d’une traduction automatique de qualité. En 1966, le rapport défaitiste de l’ALPAC (Automatic Language Processing Advisory Committee), qui mettait en doute les perspectives et l’utilité de la TA, donna le coup de grâce aux recherches dans la discipline. Tous les fonds destinés à la recherche furent coupés, en ignorant le fait qu’à l’époque, des systèmes de traduction automatiques étaient opérationnels, notamment, à la base aérienne Wright-Patterson, au laboratoire d’Oak Ridge de la Commission pour l’énergie atomique américaine et au centre EURATOM d’Ispra, en Italie (Arnold 1994).

(14)

13

Les recherches se concentrèrent alors sur d’autres aspects plus théoriques, notamment l’analyse syntaxique du langage dans la lignée de Chomsky. Entretemps, des entreprises privées européennes et canadiennes continuaient les recherches sur la TA (Bouillon et Clas 1993).

Les années 70 voient se dissiper ce pessimisme : la Communauté européenne adopte le système de traduction automatique Systran pour la combinaison français-anglais, puis français-anglais et italien-anglais ; la Pan American Health Organization (PAHO) commence à développer un système de TA espagnol-anglais (SPANAM) ; les forces aériennes des Etats- Unis financent le projet METAL de l’Université de Texas ; le groupe TAUM (Traduction automatique à l’Université de Montréal) crée le système METEO pour la traduction automatique des bulletins météorologiques ; au Japon les recherches sur la TA se multiplient (Arnold 1994).

Pendant les années 80, en Europe, au Japon et aux Etats-Unis, on concentre les recherches sur l’application de l’intelligence artificielle à la traduction, avec notamment la naissance de l’approche par interlangue (Hutchins et Somers 1992).

Depuis lors, les évolutions ont été nombreuses et rapides. Aujourd’hui, de nombreux systèmes commerciaux de TA ont été développés et commencent à être connus et utilisés par le grand public et par les traducteurs, non sans débat.

3. L’essor actuel

L’essor actuel de la traduction automatique s’explique, entre autres, par la mondialisation des échanges et de la communication, par le multilinguisme engendré notamment par l’élargissement de l’Union européenne et nouvellement adopté par les entreprises et, par conséquent, par l’augmentation constante des contenus publiés sur le web (Robert 2010). Afin d’en tirer le profit maximal, ces contenus doivent être traduits le plus rapidement possible.

Prenons l’exemple des grandes entreprises spécialisées dans la conception de logiciels.

Celles-ci publient désormais toutes les versions localisées de leurs produits au même moment que la version en langue originale (simultaneous shipping) (Allen 2003). Elles sont

(15)

14

donc obligées de trouver un moyen d’accélérer la traduction, tout en réduisant idéalement les coûts. De plus, vu le rythme soutenu de publication de matériel sur le web, il arrive parfois qu’un contenu source devienne obsolète avant même que sa traduction soit complète.

L’emploi de systèmes de TA les aide à atteindre ces objectifs. Le rôle de la TA est de rendre plus rapide la production de matériel traduit, en fournissant au traducteur une base brute à partir de laquelle il peut travailler. La qualité des résultats, souvent critiquée, voire caricaturée par les non-initiés, peut toutefois atteindre des niveaux très élevés, à condition de garder en tête certaines questions importantes.

4. Les applications de la traduction automatique

La viabilité de l’utilisation d’un système de TA dépend fortement du contexte dans lequel il est utilisé et du but de son application.

D’un côté, on assiste actuellement à une envolée de la demande de traduction à des fins d’information (gist translation) (O’Brien 2004). Son emploi n’est légitime que si le but est d’extraire le sens d’un texte source relativement court et simple et si l’on est prêt à s’adapter à des niveaux de qualité finale très variables. D’ailleurs, aussi étonnant que cela puisse paraître, même l’Union européenne emploie la traduction automatique dans le but d’extraire la teneur d’un texte et déterminer s’il vaut la peine d’être traduit (Wagner 1985).

C’est aussi le type de TA utilisée le plus souvent par les visiteurs de sites web dont le contenu n’est pas disponible dans leur langue.

D’un autre côté, dans un contexte de production, la traduction automatique a comme but la publication des contenus traduits. Elle nécessite donc forcément la contribution d’un être humain soit avant la TA (pré-édition), soit durant celle-ci (traduction interactive), soit après (post-édition) (Bouillon et Clas 1993).

Les résultats obtenus avec un système de traduction automatique peuvent être d’autant plus améliorés que le domaine d’application est restreint. Par exemple, le système Météo, développé par le groupe TAUM de l’Université de Montréal en 1976, traduit automatiquement depuis cette date tous les bulletins météorologiques canadiens de

(16)

15

l’anglais au français (Hutchins et Somers 1992). Comme observé par O’Brien et al. (2009), l’emploi du langage contrôlé pendant la phase de rédaction des textes améliore aussi considérablement les performances du système et les rend particulièrement adaptés à la traduction automatique.

Finalement, il faut souligner que l’emploi de la TA pour des textes « hautement rédactionnels » (Robert 2012) ou à structure libre tels que les œuvres littéraires ou les supports marketing, n’est absolument pas indiqué (Robert 2010).

Dans la section suivante nous allons décrire les différents types de systèmes de traduction automatique.

5. Les systèmes de traduction automatique

Une première distinction classifie traditionnellement les systèmes au niveau des langues impliquées (Hutchins et Somers 1992) : ils peuvent être conçus pour une paire de langues en particulier (systèmes bilingues) ou pour plus de deux langues (systèmes multilingues), pour une seule direction de traduction (systèmes unidirectionnels) ou pour les deux (systèmes bidirectionnels).

Une deuxième distinction subdivise les systèmes de TA selon leur architecture : les systèmes directs, aussi appelés minimalistes, et les systèmes indirects, ou maximalistes (Arnold 1994).

Depuis l’essor de la traduction automatique statistique, une nouvelle distinction est devenue nécessaire : pour les types de systèmes que nous venons de mentionner et qui utilisent en priorité les connaissances linguistiques (Bouillon et Clas 1993), l’on parlera dorénavant de systèmes de TA à base de règles (Mellinger 2010) (section 5.1) ; à l’opposé, l’on regroupera sous les systèmes analogiques ou à base de corpus (Bouillon et Clas 1993) (section 5.2) les systèmes à base d’exemples et les systèmes statistiques, dont la dénomination date de l’année 1993 (Brown et al. 1993).

(17)

16

Figure 1 : Le « triangle de Vauquois » comparant le fonctionnement des systèmes de TA à base de règles

5.1 Les systèmes basés sur les règles

5.1.1 Les systèmes directs

Parmi les systèmes à base de règles, nous mentionnons en premier les directs, ou minimalistes, des systèmes de première génération qui remontent aux années 1950. Les systèmes minimalistes reposent sur une compréhension minimale et s’aident d’un dictionnaire bilingue pour opérer une traduction de type mot-à-mot (voir premier niveau de la figure 1).

Le dictionnaire bilingue contient, en plus de la forme de base des mots avec la traduction correspondante, des informations sur les flexions des mots source et cible qui lui permettent, d’un côté, de reconnaître dans la source les verbes conjugués ou les substantifs déclinés et de l’autre, d’effectuer les accords et les conjugaisons nécessaires en langue cible (Arnold 1994). Le dictionnaire bilingue contient également des expressions, appelées tests, qui permettent de choisir la bonne traduction parmi les choix proposés, ainsi qu’une liste d’actions à effectuer en cas de divergence, lorsqu’un même contenu est exprimé par des moyens syntaxiques différents (Bouillon et Clas 1993). Un exemple de divergence est celle que l’on trouve entre la phrase anglaise He swam across the river et sa traduction française Il a traversé la rivière à la nage.

Après avoir trouvé la traduction de chaque mot dans le dictionnaire bilingue, leur ordre est réarrangé et la phrase cible est générée (Hutchins et Somers 1992).

(18)

17

Toutefois, cela ne peut pas produire de traductions acceptables, premièrement parce que les systèmes linguistiques varient d’une langue à l’autre et deuxièmement car chaque mot peut avoir plusieurs connotations qui dépendent du contexte dans lequel le terme est employé. Le contexte est ignoré par les systèmes directs. En effet, les logiciels de ce type ne peuvent pas effectuer une analyse de la structure interne de la phrase source, en particulier des relations grammaticales et sémantiques des différents éléments qui la composent (Hutchins et Somers 1992).

5.1.2 Les systèmes indirects

L’approche indirecte ou maximaliste, qui fait partie elle aussi des systèmes à base de règles, était encore la plus utilisée pour la traduction automatique il y a quelques années.

Elle s’appuie sur l’idée que, pour bien traduire, un système de traduction automatique doit posséder des connaissances linguistiques approfondies à la fois sur la langue de départ et sur celle d’arrivée, mais aussi leurs différences (Arnold et al., 1994). Comme son nom l’indique, elle aspire à introduire une étape intermédiaire qui sert à représenter le sens de la phrase source pour ensuite générer la phrase cible (Hutchins et Somers 1992).

Il existe deux types de systèmes indirects : les systèmes par transfert et par interlangue (voir figure 1). Ils se différencient par le niveau de compréhension du texte source.

5.1.2 a. Les systèmes par transfert

Le fonctionnement des systèmes par transfert est articulé en trois phases : l’analyse, le transfert et la génération ou synthèse (voir figure 2).

(19)

18

Figure 2 : Les trois phases du fonctionnement des systèmes maximalistes par transfert

Pendant la phase d’analyse, le système fait une analyse morphologique et syntaxique des mots de la phrase source en se servant de la grammaire de cette langue et d’un dictionnaire pour en produire une représentation abstraite.

Lors de l’analyse morphologique, le système détecte, entre autres, les homographes catégoriels (ex. : ‘Fumer nuit à la santé’ où ‘nuit’ peut être un verbe ou un nom). Il extrait aussi des informations comme le genre, le nombre etc. Lors de l’analyse syntaxique, le logiciel résout les ambiguïtés catégorielles soulevées auparavant et, sur la base de toutes les informations réunies, il crée des représentations de la structure sous-jacente, montrant notamment les relations syntaxiques entre les éléments de la phrase.

La phase de transfert sert à mettre en relation cette représentation du texte source avec la représentation de la structure du texte cible. C’est lors de cette phase que sont traitées les divergences.

Finalement, pendant la phase de génération, ou synthèse, le système produit la phrase cible correspondante en se servant du dictionnaire et de la grammaire de la langue cible.

Comme les systèmes directs, les indirects contiennent des tests et des actions, mais beaucoup plus développés, puisqu’ils reposent sur une analyse plus profonde. En effet, ils permettent de traiter tous les types de divergences : thématique, catégorielle, syntagmatique, de densité lexicale et d’ordre des mots.

(20)

19 5.1.2 b. Les systèmes par interlangue

Figure 3 : Le fonctionnement des systèmes maximalistes par interlangue

Les systèmes par interlangue effectuent une analyse de la phrase source qui leur permet de créer une représentation abstraite du contenu propositionnel de celle-ci pour ensuite générer la phrase cible. Cette représentation reflète à la fois la phrase source et cible et est totalement indépendante des langues employées, d’où l’avantage de pouvoir théoriquement appliquer cette approche à un grand nombre de langues (Hutchins et Somers 1992).

Le fonctionnement de ces systèmes se décompose en seulement deux étapes : l’analyse lexicale, morphologique, syntaxique, pragmatique et sémantique qui produit une représentation du sens de la phrase source ; la génération de la phrase cible (voir figure 3).

La traduction produite est une paraphrase du texte source au contenu pragmatiquement équivalent (Hutchins et Somers 1992).

L’avantage principal des systèmes par interlangue est qu’une nouvelle langue peut- être ajoutée assez facilement. Cependant, il est difficile de définir toutes les différentes facettes d’une langue, d’autant plus que « different languages carve the world up differently » (Arnold et al. 1994, p. 78). Autrement dit, à chaque fois que l’on ajoute une langue, les décalages se multiplient exponentiellement. Dans un système par interlangue français-anglais-japonais, les nombreux décalages, notamment entre le japonais et les deux autres langues, obligent à faire des distinctions entre les concepts qui ne seraient pas nécessaires entre les deux langues européennes (Arnold et al. 1994). Un autre désavantage

(21)

20

de ce type de système est que la représentation de la langue doit contenir toutes les informations nécessaires de la langue cible (Hutchins et Somers 1992).

5.2 Les systèmes basés sur les corpus

La généralisation des connexions à internet à très haut débit, les systèmes de stockage de données bon marché et le volume impressionnant de données de qualité générées par des humains qui sont disponibles ont favorisé l’essor des systèmes de TA fondés sur les corpus, (Mayer 2012).

5.2.1 Les systèmes basés sur les exemples

L’approche à base d’exemples est souvent utilisée pour enrichir les systèmes linguistiques. Le fonctionnement de ce type de systèmes se base sur un corpus parallèle d’exemples, c’est-à-dire un ensemble de phrases sources alignées aux phrases cibles préalablement traduites par un humain (Bouillon et Clas 1994).

Prenons la phrase The oat fields are seeded et imaginons qu’elle ne figure pas dans la liste d’exemples du logiciel. Le système va tout d’abord chercher des phrases sources similaires qui contiennent des fragments communs et retient les plus semblables en fonction de la catégorie grammaticale et sémantique des éléments ou de la structure de la phrase (Hutchins et Somers 1992). Parmi les exemples ci-dessous, par exemple, il retiendrait the corn fields, oat is a cereal et the rice is seeded. Une fois chaque fragment aligné avec sa traduction, les fragments sont unis et la phrase cible est générée.

A titre d’illustration, voici une série d’exemples alignés contenant le mot field, tels qu’ils pourraient apparaître dans un corpus³ :

the main fields les principaux domaines the following fields les domains suivants the para-medical fields activités paramédicales the corn fields les champs de blé

the rice fields are flooded les champs de riz sont inondés

3 Les quatre premiers exemples sont tirés de Hutchins et Somers 1992, p. 28.

(22)

21 the rice is seeded le riz est semé

oat is a cereal l’avoine est une céréale 5.2.2 Les systèmes statistiques

Dans cette section, nous verrons le fonctionnement des systèmes statistiques⁴. Pour fonctionner, ceux-ci doivent être préalablement entraînés, à partir d’un corpus de textes d’où le système extrait le modèle de traduction et de langage.

Le modèle de langage est un modèle n-grammes qui décrit la probabilité qu’une chaîne de caractères en une langue déterminée soit correcte. Le modèle n-grammes le plus utilisé est le modèle trigramme qui sert à indiquer la probabilité que deux mots soient suivis par un troisième (d’où le préfixe tri-) dans une chaîne de caractères. Ces informations sont extraites d’un corpus de textes monolingue (Koehn 2010). Quant au modèle de traduction, celui-ci est calculé à partir d’un corpus bilingue aligné, à partir duquel le système déduit le taux de probabilité que chaque mot, ou groupe de mots, de la langue source soit traduit par un autre de la langue cible. Ces statistiques sont ensuite résumées sous la forme d’une table de traduction, ou T-table (Statmt 2013). Pour un exemple pratique du fonctionnement de ces deux modèles, se référer au chapitre III, section 3.1. Dans la section suivante, nous décrirons les deux types de système statistique, les modèles basés sur les mots (section 5.2.2 a.) et les modèles basés sur les séquences de mots (section 5.2.2 b.).

5.2.2 a. Les modèles basés sur les mots

Le fonctionnement des modèles statistiques basés sur les mots se fonde sur la probabilité qu’un mot source soit traduit par un mot cible, déterminée en calculant l’estimation du maximum de vraisemblance.

Pour extraire les données de probabilité pour chaque mot, les systèmes statistiques exploitent un corpus de textes sources-cibles alignés phrase par phrase, qui leur fournirait donc des données incomplètes. Cependant, l’algorithme espérance-maximisation (EM) leur permet de calculer la probabilité de chaque mot, même si les phrases du corpus sont

4 Les références consultées pour la rédaction de cette section sont les chapitre 4 et 5 du livre de Philipp Koehn Statistical Machine Translation.

(23)

22

alignées uniquement au niveau des phrases. En effet, a travers un processus itératif, le système apprend progressivement le modèle de traduction en reconstituant les données manquantes : dans une première phase, le système applique le modèle connu (phase d’espérance) ; ensuite, il apprend le modèle à partir de ces données (phase de maximisation) ; finalement, il répète ces deux opérations jusqu’à ce que les données soient complètes.

Ces données sont organisées en forme de tables de traduction (T-tables).Dans la figure 4, les lettres e et f désignent respectivement le mot anglais et le mot étranger, tandis que la fonction t(e|f) indique la probabilité que e soit traduit par f ; les chiffres indiquent le nombre d’occurrence de chaque traduction, exprimée en décimales, pour 10 000 occurrences du mot source.

Figure 4 : Les T-tables des quatre mots composant la phrase allemande Das Haus ist klein

Sur la base de ces probabilités, un système de TAS basé sur les mots traduirait la phrase source allemande Das Haus ist klein par la phrase cible anglaise The house is small, formée par les traductions les plus probables de chaque mot source.

L’exemple ci-dessus est relativement simple car les 4 mots de la langue source correspondent à 4 mots dans la langue cible ; le système n’a pas eu besoin d’insérer de mots vides (NULL), ce qui est souvent nécessaire. De plus, les structures des deux langues sont, ici, pratiquement équivalentes, ce qui n’est pas souvent le cas entre l’allemand et l’anglais. Mais l’approche statistique basée sur les mots est plutôt limitée dès que les phrases à traduire se compliquent ; c’est pourquoi elle a été dépassée par l’approche basée sur les séquences de mots que nous verrons ci-dessous.

(24)

23 5.2.2 b. Les modèles basés sur les séquences de mots

Ces modèles statistiques, actuellement les plus performants, traduisent les phrases séquence par séquence. Les séquences, comme il est évident dans la figure 5 ci-dessous, ne sont pas définies selon les syntagmes. Les tables de traduction n’affichent plus maintenant des mots mais des segments de phrase.

Figure 5 : La phrase de départ est segmentée, puis les segments sont traduits et ensuite réordonnés.

L’approche basée sur les mots ne permet pas de traiter les divergences entre deux langues. L’approche par séquences de mots, quant à elle, évite cette impasse et permet également de résoudre ce type de problème. Aussi, la qualité des traductions s’améliore progressivement avec l’enrichissement des corpus.

5.3 Les systèmes hybrides

Des études récentes (Callison-Burch et al. 2009 dans Thurmair 2009) ont montré que les deux types de systèmes de TA, ceux à base de règles et à base de corpus, produisent des traductions de qualité comparable, mais dont le niveau de compréhensibilité ne dépasse pas le 50%. Les systèmes hybrides essayent de profiter des bénéfices de l’approche linguistique et basée sur corpus, en évitant ainsi les erreurs pour lesquelles une solution existe déjà dans l’une des deux approches (Thurmair 2009).

Après avoir passé en revue les différents types de système de TA qui existent sur le marché, nous aborderons brièvement ci-dessous l’évaluation de la TA. Nous verrons dans la section suivante que la qualité de la TA détermine l’effort de post-édition ; c’est pourquoi il est important de pouvoir établir objectivement et rapidement la qualité de la TA brute produite par un système déterminé.

(25)

24

6. Evaluer la traduction automatique

L’évaluation de la traduction automatique représente actuellement un domaine de recherche très actif. La qualité des résultats d’un système de TA peut, bien entendu, être mesurée manuellement, en la comparant à celle d’une traduction faite par un humain ou en demandant à celui-ci de l’évaluer, en fonction, par exemple, de sa lisibilité et de sa fidélité ; elle peut aussi être évaluée sur la base de son utilité pour la réalisation d’une tâche déterminée (Koehn 2010).

Il existe aussi des systèmes d’évaluation automatique qui permettent d’éviter d’avoir recours à des êtres humains. Ils reposent toujours sur des traductions humaines de référence.

L’algorithme BLEU (Bilingual Evaluation Understudy), par exemple, est actuellement l’un des plus utilisés dans le secteur de la TA et c’est celui qui est intégré au système de TA statistique Moses (nous le verrons dans le détail dans le chapitre III). Avec ce système, un score individuel est calculé pour chaque phrase, la moyenne globale donnant le score final.

BLEU se base sur l’idée que « The closer a machine translation is to a professional human translation, the better it is. » (Papineni et al. 2002, p. 311). Une étude de Papineni et al.

(2002) aurait comparé la perception humaine de la qualité d’un groupe de traductions à leur scores BLEU et aurait démontré qu’elles étaient statistiquement comparables. Ces résultats sont cependant très contestés (Koehn 2010).

D’autres métriques existent aujourd’hui. Nous citons METEOR5, TER (Translation Edit Rate)6, le taux d’erreurs au niveau des mots (Word Error Rate), GTM (General Text Matcher) et la métrique NIST (du National Institute of Standards and Technology étatsunien) (Yvon 2011).

Le fonctionnement de BLEU et METEOR est fondé sur les critères de précision et de rappel. Le premier indique le nombre d’éléments pertinents parmi le total des éléments retrouvés ; le deuxième désigne le nombre d’éléments pertinents par rapport au total des

5 Téléchargeable à l’adresse : http://www.cs.cmu.edu/~alavie/METEOR/

6 Téléchargeable à l’adresse : http://www.cs.umd.edu/~snover/tercom/

(26)

25

éléments pertinents (Koehn 2010). Pour évaluer la traduction automatique les deux critères sont combinés grâce à la F-mesure dont la formule est la suivante :

F-mesure = précision x rappel (précision + rappel) / 2

Plusieurs d’entre elles peuvent être appliquées en ligne sur la plateforme TAUS7.

Nous verrons comment les résultats d’un système de traduction automatique statistique peuvent être améliorés à travers des réglages (tuning) dans le chapitre III qui décrit le processus de localisation adopté à Autodesk. Dans la section suivante nous verrons ce que l’on entend par post-édition.

B. La post-édition

Dans cette section, nous verrons ce que l’on entend par post-édition (PE) (section 1.), les types de PE qui existent (section 2.), de quoi dépend l’effort de post-édition (section 3.), quelles sont les différences avec la traduction et la révision traditionnelles (section 4.), la formation en PE (section 5.), les qualités requises par cette activité (section 6.) et le rôle des directives de PE (7.).

1. Quelques définitions

La post-édition est une discipline assez récente qui est née dans le contexte de la traduction automatique et lui est donc intimement liée. Ce terme, tout comme les mots dérivés post-éditeur et post-éditer, viennent du verbe anglais to postedit⁸.

Post-éditer, selon Allen (2003), c’est réviser, modifier et/ou corriger un texte pré- traduit par un système de traduction automatique à partir d’une langue source vers une ou plusieurs langues cibles. Le but est d’obtenir une qualité finale du texte qui soit « acceptable and end-user friendly » (Schäfer, 2003). Krings (2001), quant à lui, la définit comme une forme de « réparation » de la traduction automatique. Une définition encore plus précise est

7 http://translationautomation.com/events/taus-dynamic-quality-framework-users-call

8 Dans un contexte traductionnel, to edit signifie « réviser », tandis qu’en informatique, il prend l’acception de « modifier » (ROBERT, 2010).

(27)

26

celle de O’Brien (2012 b) qui précise que la correction doit prendre en compte les directives et les critères de qualité spécifiques au projet.

2. Les degrés de PE

Wagner (1985) définit deux types de post-édition : la PE complète et la PE rapide. Le but de la première est que le produit final obtenu ne puisse pas être distingué d’une traduction humaine, tandis que la deuxième consiste en une correction superficielle des erreurs les plus graves de la TA afin de rendre le texte final compréhensible et correct, sans trop se soucier de la qualité.

Choisir un type de PE plutôt qu’un autre, selon elle, dépend du temps que l’on veut ou peut dédier à la tâche et de la qualité que l’on veut ou doit obtenir.

Allen (2003) reprend la subdivision de Wagner, mais ajoute à cette typologie la post- édition minimale, qui vise à produire une qualité finale acceptable avec le minimum de modifications. Selon Allen, le niveau de post-édition dépend de plusieurs facteurs : l’utilisateur final ou le client, le volume de documentation à traiter, le niveau de qualité attendu, le temps à disposition du post-éditeur, la durée de vie du document et, comme expliqué plus haut, s’il s’agit de matériel informatif ou destiné à la publication.

Quant à Robert (2013), elle distingue deux types de post-édition : la post-édition brute et la post-édition évoluée professionnelle. Selon elle, la première consiste en la révision, modification, correction, remaniement et relecture directe d’un texte traduit par un moteur de TA ; la seconde, en revanche, est le résultat de ces mêmes opérations appliquées à un texte produit par la combinaison de plusieurs technologies de traduction automatique et de traduction assistée par ordinateur (Robert, 2010).

Actuellement, la post-édition brute est souvent effectuée par des non professionnels dans le cadre de projets collaboratifs, comme dans le cas du projet de post-édition par crowdsourcing⁹ de Microsoft (Aikawa et al, 2012) et relève le plus souvent du bénévolat.

9 En français, externalisation ouverte

(28)

27

3. L’effort de PE

L’effort de post-édition, tel qu’il est définit par Allen (2003), est l’effort cognitif nécessaire pour identifier les corrections à effectuer et l’effort manuel requis pour les réaliser. L’effort dépend de la traduisibilité du texte pré-traduit par TA (O’Brien 2004).

En termes quantitatifs, d’après Vasconcellos et León (1985), un post-éditeur expérimenté devrait pouvoir post-éditer entre 4 000 et 10 000 mots de qualité par jour.

Selon Wagner (1985), en post-édition rapide, il est possible de traiter 4 pages par heure.

Comme l’explique O’Brien (2004), l’effort de PE peut être réduit en adoptant certaines stratégies. En premier lieu, l’emploi de la TA peut être combiné à des mémoires de traduction. On propose alors les segments d’un texte précédemment traduits (et corrigés par un humain) en tant que correspondances partielles, évitant ainsi de devoir les traduire automatiquement, ce qui réduit le taux d’erreur. En deuxième lieu, l’on obtiendra de bien meilleurs résultats en intégrant au système des dictionnaires terminologiques spécifiques au domaine, s’il s’agit de systèmes à base de règle, ou en augmentant le corpus, s’il s’agit de systèmes statistiques. Finalement, il est aussi possible de travailler en amont, c’est-à-dire en rédigeant le texte d’origine selon les règles des langages contrôlés pour en améliorer la traduisibilité.

Selon Robert (2013), la post-édition comprend quatre types d'activités :

o Révision des phrases provenant des MT préalablement traduites par des traducteurs (correspondances parfaites ou 100 %) ;

o Mise à jour des phrases qui sont des correspondances partielles des MT (de 75 % à 99 %) ;

o Post-édition des phrases produites par la TA (de 0 % à 74 %) ;

o Relecture du texte final afin d’harmoniser, articuler et finaliser l’ensemble.

Que la PE soit une activité exigeante aux multiples facettes, c’est ce que pensent aussi Brunette et O’Brien (2011). Toutefois, elles croient que l’effort dû à l’alternance de toutes ces tâches différentes n’a pas été encore suffisamment décrit.

(29)

28

4. PE vs. traduction

Les systèmes de TA statistique n’avaient pas encore été introduits lorsque, dans son article de 1985 « Post-editing Systran: A Challenge for Commission Translators », Wagner arguait que, comme la traduction brute d’un système de TA n’est pas le produit du cerveau humain, elle contient des erreurs que même un enfant ne ferait pas. De plus, selon elle, le traducteur qui est habitué à avoir une certaine marge de liberté lorsqu’il traduit, se retrouve à devoir réparer des phrases dont la plupart des mots sont incorrects ou induisent en erreur.

Mais il doit en tout cas résister à la tentation de tout effacer, car la PE doit rester rentable par rapport à la TH.

Krings et Koby (2001) ont également noté des différences entre la PE et la traduction/révision au niveau cognitif. Lors d’une étude pratique, ils ont remarqué que l’approche du traducteur/réviseur change face à un texte produit par TA, vu qu’il est poussé à se référer constamment au texte source, et cela l’oblige a « deal with lower level text comprehension processes in the source text to a much greater extent than would be the case in a normal translation task » (p. 360).

O‘Brien (2002), quant à elle, voit des différences au niveau pratique : tout d’abord, lors d’une tâche de post-édition, l’on travaille sur trois textes et non pas deux comme en traduction ; ensuite, ce que normalement l’on attend d’un traducteur, c’est qu’il produise un texte de qualité impeccable, tandis qu’un post-éditeur adapter la qualité du texte cible en fonction de sa finalité ou des exigences du client.

Nous venons de voir que, selon certains auteurs, la traduction et la post-édition diffèrent beaucoup l’une de l’autre. On pourrait donc déduire que, come en traduction, il faudrait mettre en place des formations en post-édition. C’est ce que pensent les auteurs que nous verrons ci-dessous.

5. La formation en PE

Comme nous l’avons vu, l’effort de post-édition, et par conséquent la stratégie que l’on décide d’adopter (PE complète, minimale, rapide…), dépendent du résultat auquel on aspire. Cependant, la définition et la délimitation des typologies de PE est encore

(30)

29

aujourd’hui source de débat dans l’industrie et dans le contexte académique (Depraetere 2010).

Certains auteurs considèrent que les traducteurs qui se dédient à la tâche de PE pourraient tirer profit d’une formation spécifique ou de directives claires de PE.

D’après O’Brien (2002) un module d’enseignement dédié à la PE devrait inclure une introduction à la post-édition, à la traduction automatique et aux langages contrôlés, un cours approfondi de gestion terminologique et de linguistique, ainsi que des bases de programmation.

Selon O’Brien et Brunette (2011), la PE devrait tendre vers la qualité et, par conséquent, rester entre les mains des professionnels.

O’Brien et Brunette ne sont pas les seules à préconiser une formation préalable en post-édition pour les traducteurs. Robert (2013), déjà citée, dispense des cours de sensibilisation à la post-édition à l’université, en France.

Lavault-Olléon (2011, p.9), quant à elle, est convaincue qu’une « meilleure connaissance des compétences et stratégies mobilisées en post-édition, de son organisation matérielle, des délais qu’elle nécessite et des degrés de qualité attendus permettrait aux traducteurs de l’accepter comme une tâche faisant partie intégrante de leur métier et aux formateurs de l’enseigner de façon plus organisée ».

6. Les qualités requises

Malgré les différences entre l’activité de post-édition et de traduction, les meilleurs candidats à travailler en post-édition semblent être les traducteurs mêmes (Krings et Koby 2001, O’Brien 2002, Rico et Torrejón 2012), car le traducteur est celui qui, comme personne d’autre, peut reconnaître l’exactitude d’un texte et les erreurs de la TA, transférer au mieux un concept d’une langue à l’autre et tirer profit des ressources techniques à sa disposition (Krings et Koby 2001).

Déjà en 1985, Vasconcellos et León (1985) identifiaient comme fondamentale une attitude positive envers la TA. Rico et Torrejón (2012) mentionnent aussi la capacité de

(31)

30

répondre de manière adéquate aux attentes du client, avoir des capacités décisionnelles développées et tolérer des niveaux de qualité très bas.

Du point de vue technique, une liste des habilités et connaissances préalables est présentées O’Brien (2002) qui met en avant la connaissance des bases du fonctionnement des systèmes de TA, incluant le codage des dictionnaires, la gestion terminologique et tous les formats de données nécessaires, de l’expérience en rédaction par langage contrôlé et des notions de base de programmation.

7. Les directives de PE

Réviseuse à la Commission européenne, Wagner détaillait dans son article de 1985

« Post-editing Systran : A Challenge for Commission Translators » une série de directives concernant la post-édition de type rapide. Les voici : toujours faire référence au texte source ; ne corriger que les phrases qui sont erronées ou sans sens et, s’il y a le temps, les phrases ambiguës ; résister à la tentation de tout effacer ; ne pas hésiter, marquer la phrase pour y revenir après ; ne pas se soucier du style ni des répétitions ; refuser la tâche si l’on n’est pas à l’aise avec le sujet ; éviter les recherches terminologiques chronophages ; refuser de faire de la post-édition, tout court, si l’on est dérangé à l’idée de produire des traductions de mauvaise qualité.

Il est intéressant, cependant, de voir que l’une des règles qu’elle indique, moins rigoureuse que les autres, incite presque à faire usage de sa créativité : « Do save time by giving a 'free' translation or even a colloquial expression which would not normally be acceptable in Commission usage. This is justifiable because the main aim is to convey the information content of the text. » (Wagner 1985, p. 6)

Si l’objectif n’est pas de produire un texte de qualité comparable à une traduction humaine, la post-édition, d’après Guzmán (2007) peut se limiter à corriger les erreurs grammaticales, syntaxiques, orthographiques, de ponctuation et factuelles.

Rico et Torrejón (2002), quant à eux, ajoutent à ces catégories la réparation des segments ou des mots manquants.

(32)

31

La plateforme TAUS offre aussi de nombreux types de directives concernant la post- édition mais aussi l’évaluation de la TA, la traduction collaborative, les typologies d’erreurs de la TA et la productivité. Les directives de PE¹⁰, disponibles en 11 langues, principalement asiatiques, différencient entre ce qui est nécessaire pour obtenir une traduction de qualité acceptable et une de qualité humaine. D’une part, une traduction de qualité acceptable peut être obtenue, d’après les auteurs de ces directives, avec les règles suivantes :

 Viser une traduction correcte au niveau sémantique

 Vérifier qu’aucune information n’a été accidentellement ajoutée ou oubliée

 Modifier le contenu injurieux, inapproprié ou culturellement inacceptable

 Exploiter au maximum le résultat brut de la traduction automatique

 Appliquer les règles d’orthographe fondamentales

 Inutile d’effectuer des corrections d’ordre uniquement stylistique

 Inutile de modifier la structure des phrases dans le seul but d’améliorer la fluidité du texte

D’autre part, une qualité comparable à celle d’une traduction humaine nécessite plus de soins, comme il est expliqué ici :

 Viser une traduction correcte au niveau grammatical, syntaxique et sémantique

 Vérifier que la terminologie importante est correctement traduite et que les termes non traduits font partie de la liste des termes à ne pas traduire du client

 Vérifier qu’aucune information n’a été accidentellement ajoutée ou oubliée

 Réviser le contenu injurieux, inapproprié ou culturellement inacceptable

 Exploiter au maximum le résultat brut de la traduction automatique

 Appliquer les règles fondamentales d’orthographe, de ponctuation et de coupure des mots

 Vérifier que la mise en forme est correcte

Nous mentionnons aussi les directives de PE rédigées par Autodesk et destinées aux traducteurs des produits de la société. En plus de règles générales comme celles indiquées par TAUS, elles présentent de nombreuses phrases d’exemple servant à illustrer les différents cas de figure face auxquels les traducteurs pourraient se retrouver pendant la post-édition.

10 Les directives TAUS sont consultables ici : https://www.taus.net/postediting/machine-translation- post-editing-guidelines

(33)

32

8. Les outils de post-édition

Aujourd’hui, les outils de TAO, comme les mémoires de traduction, permettent aujourd’hui de post-éditer dans le même environnement les remontées de mémoires de traduction et les segments provenant de la TA (ex. : Trados et Wordfast).

Les outils de TA permettent aussi d’intégrer les mémoires de traduction (ex. : Google Translate, avec son Google Translator Toolkit et Systran). Généralement, les systèmes de ce type permettent de connaître la provenance de chaque segment à post-éditer, à savoir les MT ou la TA. Trados offre en plus une fonctionnalité d’interaction MT + TA qui permet de pré-traduire par TA les segments pour lesquels on n’a pas trouvé de remontées (Specia et Vieira 2011).

Certains outils, comme Google Translate et Systran, offrent des fonctionnalités spécifiques pour la post-édition, à savoir la possibilité de déplacer et inverser des mots ou de choisir entre plusieurs alternatives. Aussi, des outils de traitement de texte comme Textpad ou EditPad permettent d’utiliser des expressions régulières afin de pouvoir identifier et remplacer des mots tout le long d’un texte (Bouillon 2013).

Afin d’extraire des statistiques sur la post-édition effectuée et donc également sur la qualité de la traduction, des outils spécifiquement conçus pour la PE sont également disponibles. Nous citons par exemple PET (Post-Editing Tool)¹¹, un outil gratuit développé par l’université de Wolverhampton qui permet de recueillir des informations sur le temps de post-édition, la distance d’édition, les opérations au clavier etc (Aziz et al. 2012).

C. Conclusion

Dans ce premier chapitre, nous avons abordé les différents aspects de deux activités, la traduction automatique et la post-édition, qui sont en train de gagner de plus en plus de terrain dans le panorama actuel de l’industrie de la langue.

Dans le prochain chapitre, nous verrons en quoi consiste la localisation. Nous verrons ensuite comment ces deux activités peuvent être intégrées avec succès en exposant, dans la

11 Téléchargeable à l’adresse : http://pers-www.wlv.ac.uk/~in1676/pet/

(34)

33

deuxième partie de ce travail, le cas pratique d’une entreprise, Autodesk, qui a su relever ce challenge.

(35)

34

Chapitre II : La localisation

Si les sociétés multinationales, ou celles qui aspirent à le devenir, ont une chance sur le marché global des produits informatiques, c’est grâce à la localisation. Cela est d’autant plus évident sachant que parmi les langues utilisées sur le web, l’anglais ne compte désormais que pour 27% du total (GALA 2013).

Dans ce chapitre nous verrons tout d’abord en quoi consistent la « globalization » et l’internationalisation (section A.), puis nous nous concentrerons sur la localisation (section B.). Nous en donnerons d’abord quelques définitions (section 1.), nous parcourrons

brièvement son histoire (section 2.), puis nous expliquerons pourquoi la localisation est importante aujourd’hui (section 3.) et quels sont les différents aspects à prendre en compte lors de la localisation d’un produit (section 4.) et finalement nous décrirons les différentes étapes et les personnes impliquées dans un projet de localisation (section 5.).

A. « Globalization » et internationalisation

Le terme anglais « globalization » désigne la stratégie qui opère en amont de la localisation. Comme l’expliquait l’Association pour les Standards des Métiers de la Localisation (LISA, Localisation Industry Standards Association), aujourd'hui dissoute, la globalisation aborde toutes les questions relatives à la vente d’un produit à l’international.

Lorsqu’il s’agit de produits de haute technologie, cela inclut une internationalisation et une conception du produit appropriées, ainsi qu’un effort marketing et de force de vente adéquats au marché global12. Ce concept, qui englobe celui de la localisation et de l’internationalisation, est surtout utilisé dans le contexte des ventes et du marketing (Esselink 2000).

L’internationalisation est la phase préalable et indispensable à la localisation. LISA la définissait en tant que processus de généralisation d’un produit afin qu’il puisse supporter de multiples langues et conventions culturelles sans devoir être modifié¹³.

12 La citation de LISA est reproduite dans Esselink 2000, p. 4.

13 La citation de LISA est reproduite dans Esselink 2000, p. 2.

(36)

35

Une bonne internationalisation permet aussi de réduire les coûts de localisation successifs, car d’éventuels problèmes techniques comme un mauvais affichage des caractères provoquerait des retards ; elle permet en outre de maintenir l’image de marque de l’entreprise, comme c’est le cas du système opératif Windows qui, depuis la version Vista, présente un bouton de démarrage internationalisé, identique pour toutes les versions puisqu’il ne contient pas de texte (voir figure 6).

Figure 6: Le bouton de démarrage d’une version précédente et celui de Windows 7.

B. La localisation 1. Quelques définitions

D’après LISA,

« Localization involves taking a product and making it linguistically and culturally appropriate to the target locale (country/region and language) where it will be used and sold. »

Généralement, l’on parle de localisation pour se référer à l’adaptation des produits informatiques, tels que les logiciels, les applications web et la documentation qui les accompagne, ainsi que les sites web et les jeux vidéos. Le terme vient du terme anglais locale, qui désigne, dans ce contexte, la combinaison de trois éléments : la région géographique, la langue et le type de caractères employés (Esselink 2000).

2. Histoire de la localisation

La localisation telle que nous l’entendons aujourd’hui nait vers la fin des années 1970 quand les traducteurs commencent à s’organiser entre eux afin d’élargir leur offre de

(37)

36

services linguistiques. Aux services traditionnels de traduction viennent s’ajouter la relecture, la publication et la mise en page de contenus en format texte et graphique et la gestion de projet et des ressources humaines spécialisées. Ensuite, avec la croissance du secteur, les traducteurs adoptent les technologies de TAO, de TA et de gestion informatisée du flux de travail.

Mais c’est avec la mondialisation, l’essor d’internet et son accessibilité généralisée que nait le besoin d’adapter les nouveaux contenus multimédia à la région cible où l’on veut les faire connaître et les vendre. L’industrie de la localisation, terme souvent abrégé avec le numéronyme L10N, vaut aujourd’hui plusieurs milliards de dollars et n’est pas près de décélérer sa croissance.

Aujourd’hui, l’on compte plus de 5 000 fournisseurs de services linguistiques dans le monde. Certains se concentrent seulement sur 2 langues et l’on parle alors de single- language vendor (SLV), tandis que d’autres sont des sociétés multinationales, telles que Lionbridge ou SDL, qui ont la capacité de couvrir n’importe quelle langue et sont définis multi-language vendors (MLV) (GALA 2013). D’après les données du Common Sense Advisory citées sur le site de GALA¹⁴, le marché mondial des services linguistiques connait actuellement une croissance annuelle de 7,4% et l’on estime qu’en 2014 le secteur vaudra quelques 39 milliards de dollars.

3. Pourquoi localiser ?

D’après une enquête auprès des consommateurs de 8 pays sur 3 continents réalisée par le Common Sense Advisory, au moment de l’achat d’un produit étranger, 56,2 % des interviewés jugent plus important le fait de disposer d’informations dans leur langue plutôt que le prix¹⁵ (De Palma et al. 2006a). Quant aux consommateurs de logiciels les utilisant dans le cadre de leur activité professionnelle, plus de 9 sur 10 (sur un échantillon de 351 personnes interviewées) préfèrent acheter un produit qui a été adapté à leur marché et listent, parmi les éléments les plus importants à traduire, d’abord les supports marketing et

14 http://www.gala-global.org/index.php?q=translation-global-business

15 L’article est consultable ici :

http://www.commonsenseadvisory.com/Portals/_default/Knowledgebase/ArticleImages/060926_R_global_co nsumer_Preview.pdf

(38)

37

les spécifications techniques et ensuite l’interface logicielle et la documentation (De Palma et al. 2006b).

Il apparaît donc évident que l’effort de localisation est une stratégie indispensable à l’exportation. La figure 7 montre l’évolution de la répartition des langues sur la Toile en 2001, quand les internautes anglophones représentaient presque la moitié du total et en 2011, avec une population d’internautes quadrupliquée et une montée en puissance du chinois.

Figure 7 : La répartition des langues sur la Toile en 2001 et 2011

4. Quoi localiser ?

Le but de la localisation, nous l’avons vu, c’est qu’un produit (logiciel, application, site web) soit adapté aux exigences du public cible. Pour un logiciel, il faudra localiser principalement son interface graphique, composée des menus, des boîtes de dialogue et des messages d’erreur, l’aide en ligne et la documentation qui accompagne le produit. La localisation ne se limite pas uniquement au côté linguistique, mais englobe plusieurs aspects pas immédiatement évidents. Voici tout ce qu’il faut prendre en compte lorsqu’on décide de localiser un produit.

L&#039;intégration de la traduction automatique dans le processus de localisation à Autodesk : Étude de cas et enquête auprès des traducteurs

Master

Reference

L'intégration de la traduction automatique dans le processus de localisation à Autodesk : Étude de cas et enquête auprès des

traducteurs

L’intégration de la traduction automatique dans le processus de localisation à Autodesk

Etude de cas et enquête auprès des traducteurs

TABLE DES MATIERES

Introduction ...

PREMIÈRE PARTIE : Le contexte Chapitre I : Traduction automatique et post-édition A. La traduction automatique ...

1. Quelques définitions ...

2. L’histoire de la traduction automatique ...

3. L’essor actuel ...

4. Les applications de la traduction automatique ...

5. Les systèmes de traduction automatique ...

5.1 Les systèmes à base de règles ...

5.2 Les systèmes à base de corpus ...

5.3 Les systèmes hybrides ...

6. Evaluer la traduction automatique ...

B. La post-édition ...

1. Quelques définitions ...

2. Les degrés de post-édition ...

3. L’effort de post-édition ...

4. PE vs. Traduction ...

5. La formation en post-édition ...

6. Les qualités requises ...

7. Les directives de post-édition ...

8. Les outils de post-édition ...

C. Conclusion ...

Chapitre II : La localisation A. « Globalization » et localisation ...

B. La localisation ...

1. Quelques définitions ...

2. Histoire de la localisation ...

3. Pourquoi localiser ? ...

4. Quoi localiser ? ...

5. Le projet de localisation ...

C. Conclusion ...

DEUXIEME PARTIE : Le cas pratique d’Autodesk Chapitre III : Etude de cas d’Autodesk A. Autodesk ...

1. L’entreprise ...

2. Le département de localisation ...

B. Le processus de localisation : une combinaison gagnante ...

1. La gestion des contenus et de la localisation ...

1.1 Trisoft ...

1.2 WorldServer ...

2. Les mémoires de traduction ...

3. La traduction automatique ...

3.1 Le fonctionnement de Moses ...

4. La post-édition ...

4.1 L’étape de post-édition ...

4.2 Les ressources à disposition ...

4.3 L’assurance qualité ...

C. Localisation et TA, d’autres success stories ...

1. SAP : une application productive ...

2. Ford : l’aide à l’assemblage ...

3. Océ Technologies ...

4. Adobe : un projet ambitieux ...

D. Conclusion ...

TROISIEME PARTIE : L’expérience Chapitre IV : Les motivations de recherche A. Les motivations ...

B. Objectifs généraux ...

C. Objectifs spécifiques et hypothèses ...

1. Ergonomie cognitive ...

1.1 Leur vision de la traduction automatique ...

1.2 Les procédés mentaux mis en place pendant la tâche ...

1.3 La reconnaissance des erreurs de la TA ...

1.4 Leur procédé de post-édition ...

1.5 Leur opinion quant aux directives et formation en PE ...

2. Ergonomie physique ...

2.1 L’utilisation des outils et du matériel informatique ...

3. Ergonomie organisationnelle ...

3.1 La modalité et l’environnement de travail ...

3.2 Les relations avec les autres membres de l’équipe ...

D. Conclusion ...

Chapitre V : La méthodologie utilisée A. Détermination de la méthodologie ...

B. Choix du public ...

1. Les agences ...

2. Les traducteurs ...

C. Description de la méthodologie ...

1. L’entretien ...

2. Le questionnaire ...

2.1 Les types de questions ...

L'intégration de la traduction automatique dans le processus de localisation à Autodesk : Étude de cas et enquête auprès des traducteurs