Le fonctionnement de Moses - La traduction automatique

Chapitre II : La localisation

B. Le processus de localisation : une combinaison gagnante

3. La traduction automatique

3.1 Le fonctionnement de Moses

Moses est un système de traduction automatique (voir section 5.2.2, chapitre I) statistique à base de séquences de mots. Sa configuration par défaut comprend les deux composantes indispensables d’un moteur de TA : un outil d’entraînement du moteur, à partir duquel on définit le modèle de langage et le modèle de traduction, ainsi qu’un décodeur. De plus, le système permet de réaliser des réglages de ces modèles en fonction des résultats obtenus, appelés en anglais tuning, et d’évaluer la traduction d’arrivée à l’aide du score BLEU (Koehn 2007).

Maintenant nous allons voir en détail les différentes phases de la mise en marche d’un système de traduction automatique statistique : le prétraitement du corpus, l’entraînement du moteur, le décodage, les réglages et l’évaluation.

3.1.1 Le prétraitement du corpus

Le matériel source et cible qui va servir à alimenter le moteur de TA doit être préparé avant de pouvoir être utilisé. Il faut en effet le convertir en un format compatible avec les outils d’entraînement et de décodage. Cette conversion commence par la tokenisation, c’est-à-dire la subdivision des chaînes de caractères en sous-éléments sur la base des espaces blancs, des nombres et de la ponctuation (Sadat et al. 2006). Ensuite, pour faciliter l’utilisation des données, on peut choisir de convertir tous les mots des segments source et cible en minuscules, une opération appelée lowercasing, ou alors selon leur usage le plus

21 www.statmt.org/moses/

probable, ce que l’on appelle en anglais truecasing (Statmt 2013). D’autres améliorations qui peuvent être apportées au matériel afin de faciliter l’entraînement du moteur et le décodage concernent les balises et l’alignement des segments source et cible : quant aux premières, il est recommandé de les supprimer et quant au deuxième, il faut veiller à ce qu’il soit le plus correct possible. Finalement, il est aussi important d’éliminer les segments trop longs ou les segments vides (Statmt 2013). Plus les données sont « propres », meilleurs seront les résultats de la traduction automatique.

3.1.2 L’entraînement du moteur

Comme mentionné ci-dessus, en tant que système statistique, Moses nécessite d’être préalablement entraîné, c’est-à-dire qu’il doit apprendre, d’un côté, comment traduire les segments de la langue source vers la langue cible et, de l’autre, comment cette dernière est structurée. Autrement dit, il doit disposer à la fois d’un modèle de traduction et d’un modèle de langage (Koehn 2007) (voir chapitre I, section 5.2.2 pour la description des modèles).

D’une part, pour pouvoir créer le modèle de traduction, le moteur de traduction automatique statistique a besoin d’être alimenté avec une quantité considérable de données parallèles, c’est-à-dire un corpus bilingue de textes source et leurs traductions dont les segments ont été préalablement alignés mot-à-mot grâce au logiciel GIZA ++ (Statmt). La figure 10 montre un exemple de T-Table.

Figure 10 : Deux exemples d’entrées de la table de traduction créée à partir du corpus parallèle

Ce sont ces données qui vont servir au décodeur pour effectuer la traduction. Les meilleurs résultats sont obtenus avec un corpus parallèle de plusieurs centaines de millions de segments. En principe, plus le corpus est grand mieux c’est, même si parfois l’ajout de nouvelles données peut ne plus avoir d’impact sur la qualité, notamment si ces données ne sont pas adaptées au domaine.

D’autre part, pour la création du modèle de langage, une quantité de données encore plus importante, cette fois monolingues, est nécessaire pour que le système puisse estimer les séquences de mots les plus probables dans la langue cible, créant ainsi un modèle de la langue cible (Statmt 2013).

Moses permet d’employer deux types de modèles de traduction : un premier modèle basé sur les segments (phrase-based) et un deuxième basé sur la syntaxe (tree-based). De plus, il est possible d’intégrer à son modèle basé sur les segments des informations linguistiques additionnelles (factors), par exemple le genre d’un substantif ou le temps verbal d’un verbe (Statmt 2013). Autodesk utilise un système basé sur les segments, sans l’inclusion de factors, entraîné exclusivement sur ses propres données (Plitt et Masselot 2010).

3.1.3 Le décodage

Le décodage s’appuie sur 4 types de données : celles contenues dans le ou les modèles de langage trigrammes de la langue cible, le ou les modèles de traduction des segments des deux langues, un modèle de distorsion qui décrit les différences dans l’ordre des mots enter les deux langues et un modèle de longueur qui décrit les différences de longueur. Sur la base de ces informations, le système génère la traduction du texte cible, en recherchant en langue cible les traductions les plus probables du texte source (Sadat et al. 2006).

3.1.4 Calibrage et post-traitement

Le calibrage, appelé en anglais tuning, sert à prioriser les meilleures traductions parmi les plus probables, afin qu’elles apparaissent en premières et soit donc utilisées prioritairement par le système (Koehn 2007). Après le décodage, le post-traitement des données de sortie s’avère nécessaire. Il consiste en la réintroduction des majuscules, le recasing, aux endroits où elles sont requises et la detokenization (Sadat et al. 2006).

La qualité finale du matériel traduit automatiquement dépend bien entendu de nombreux facteurs. Comme déjà expliqué dans le chapitre I, plus le domaine de spécialisation est restreint, meilleurs seront les résultats de la TA. De plus, comme mentionné ci-dessus, la qualité et la pertinence des données est cruciale si l’on veut obtenir de bons résultats en termes d’exactitude terminologique et convenance stylistique.

Cependant, comme le matériel crée par Autodesk est destiné à accompagner les produits vendus par l’entreprise, l’utilisation de la TA brute n’est pas une option viable. Le département de localisation fait donc appel à des traducteurs professionnels qui assurent la post-édition des textes dans le but d’obtenir un niveau de qualité comparable à celles d’une traduction faite par un humain.

Dans la section suivante, nous allons voir comment le matériel à localiser est post-édité par les traducteurs.

4. La post-édition

Pendant la première décennie de l’existence d’Autodesk, la traduction se faisait en interne. Aujourd’hui la gestion de projet ainsi que la post-édition sont confiées à des agences externes à l’entreprise.

Chaque année, de nouveaux logiciels et de nouvelles versions des produits existants sont lancés. Pour faire en sorte que la version anglaise et les versions localisées soient publiées au même moment, les mois qui précèdent la sortie des produits sont dédiés à la localisation.

Dans le document L'intégration de la traduction automatique dans le processus de localisation à Autodesk : Étude de cas et enquête auprès des traducteurs (Page 49-52)