Systèmes basés sur les règles - Les systèmes de traduction automatique

2 La traduction automatique

2.3 Les systèmes de traduction automatique

2.3.1 Systèmes basés sur les règles

La traduction basée sur les règles connaît trois variantes : les systèmes directs, les systèmes par interlangue et les systèmes par transfert. Les deux dernières variantes sont regroupées dans les systèmes indirects (section 2.3.1.2) et appartiennent à la deuxième génération des traducteurs automatiques (Hutchins, 2003). Bien que ces trois

15 systèmes se basent sur des règles, ils diffèrent en termes de profondeur d’analyse de la langue source et par la façon dont chaque système tente de représenter la langue (Okpor, 2014), ce qui est parfaitement représenté dans le triangle de Vauquois (Figure 1).

Figure 1 : Triangle de Vauquois (1968) (Raybaud, 2012, p. 3)

Dans les sections suivantes (2.3.1.1 et 2.3.1.2), nous explorons le fonctionnement de ces systèmes, ainsi que leurs avantages, leurs désavantages et l’impact qu’ils ont sur la traduction générée.

2.3.1.1 Systèmes directs

Pour tout type de progrès, il a tout d’abord fallu un point de départ. Pour la traduction automatique, ce sont les systèmes directs qui étaient les tout premiers systèmes mis en place et représentaient la première génération de systèmes de TA, des années 50 aux années 70 (Hutchins, 2003, p. 504). Ils étaient les moins sophistiqués et les plus simples possibles (Bouillon, 2020) mais étaient les systèmes dominants pendant des décennies et sont encore utilisés aujourd’hui (Poibeau, 2017). Leur simplicité vient du fait que ces systèmes cherchent une compréhension minimale et traduisent du mot à mot à l’aide de dictionnaires bilingues. Ces derniers sont d’ailleurs la ressource principale des systèmes.

La traduction se fait par le remplacement des unités sources par l’équivalent en langue cible grâce à un grand dictionnaire bilingue et chacune des entrées de ce dictionnaire est programmée pour traduire un mot (Jurafsky et Martin, 2014).

16 Du fait de la compréhension minimale, l’analyse est très limitée et ne permet pas de rendre explicite toutes les informations nécessaires pour la traduction. Par exemple, Hutchins et Somers (1992, cités dans ibid), donnent l’exemple de leg en anglais qui peut avoir plusieurs significations en français selon le contexte : étape (leg of journey en anglais), jambe (appartenant à l’humain), patte (appartenant à l’animal), pied

(appartenant à la chaise). Comme le système ne fait pas d’analyse sémantique, il ne peut pas prendre en compte ces différences et donnera en général toutes les traductions possibles.

L’avantage de cette compréhension minimaliste et traduction très littérale est qu’elle convient aux langues proches. Ces deux aspects limitent toutefois l’utilisation des sous-langages et demande une spécialisation obligatoire du dictionnaire en fonction du contexte dans lequel la traduction est utilisée (ibid).

Le désavantage des systèmes directs est qu’ils s’arrêtent à la traduction du mot à mot, ce qui impacte directement la qualité de la traduction générée, parfois considérée comme de mauvaise qualité (Okpor, 2014), les erreurs de traduction au niveau lexical et syntaxique étant fréquentes (ibid).

2.3.1.2 Systèmes indirects

La deuxième génération des systèmes de TA date des années 70 et 80 (Hutchins, 2003).

Contrairement aux systèmes directs, qui sont les plus minimalistes au niveau de la compréhension, les systèmes indirects se veulent maximalistes et vont accomplir une compréhension plus poussée (Bouillon, 2020). Avec ces systèmes, on s’appuie sur l’idée que pour une bonne traduction, un système de TA doit détenir des connaissances

approfondies sur la langue de départ et d’arrivée, ainsi que sur leurs différences (Arnold et al., 1994). Pour pallier ces différences interlinguistiques, que l’on appelle divergences liées à la traduction (ou translation divergences) (Dorr, 1994), des modèles ont été mis en place pour les traiter correctement lors de générations faites par les systèmes de TA (Jurafsky et Martin, 2014). Ces modèles sont des systèmes indirects qui se divisent en deux types : les systèmes par transfert et les systèmes par interlangue.

17 2.3.1.2.1 Les systèmes par transfert

Une des stratégies employées pour éviter les différences entre les langues consiste en une approche de connaissance contrastive³ (contrastive knowledge) (ibid). En ayant connaissance des différences entre les deux langues, le système transforme la structure de la phrase de départ pour qu’elle soit conforme aux règles de la langue d’arrivée (ibid).

Cette méthode est utilisée par les systèmes de transfert qui fonctionnent en trois étapes distinctes : l’analyse, le transfert et la génération (ou synthèse). Selon le type de système, ces trois étapes prennent des formes différentes (L’Homme, 2001, p. 314).

La première étape établit une analyse morphologique et syntaxique des mots dans la phrase source et fait usage de la grammaire et d’un dictionnaire de la langue source.

Dans l’analyse morphologique, le système segmente les phrases en mots et identifie les formes de base (ibid). L’analyse syntaxique « sert à lever les ambiguïtés catégorielles [et]

à obtenir une représentation des rapports entre les mots de la phrase source » (ibid, p.

307).

L’opération de transfert permet d’établir des correspondances entre les éléments trouvés dans le texte source et ceux du texte cible (ibid). Au cours de cette étape, les problèmes de différences lexicales entre les langues sont également résolus (Hutchins, 2003). Pour résoudre ces problèmes de correspondances interlinguistiques, plusieurs règles de transfert sont alors mises en place pour effectuer « […] des opérations de transfert particulières […] sur des mots isolés ou des parties de phrases » (L’Homme, 2001, p. 310). Selon la situation, le transfert tient compte de plusieurs éléments comme, par exemple, les différents fonctionnements syntaxiques des mots ou les structures syntaxiques divergentes d’une langue à l’autre (ibid).

La dernière étape est la génération, soit la production du texte cible à partir de la

représentation cible ; la génération fléchit les mots cibles et les ordonne selon les règles propres à la langue d’arrivée (ibid).

Bien que les traductions générées par les systèmes de transfert soient de meilleure qualité que celles des systèmes directs (Okpor, 2014), cette approche présente aussi des

3 Notre traduction

18 difficultés. L’un des problèmes de cette approche est que ces systèmes nécessitent des règles pour chaque étape de la traduction ; il y a donc des règles pour l’étape de l’analyse de la langue source, l’étape de transfert et l’étape de la génération dans la langue cible (ibid).

2.3.1.2.2 Les systèmes par interlangue

Dans le cas des systèmes par interlangue, les trois étapes distinctes qui font partie du fonctionnement du système de transfert, soit l’analyse, le transfert et la génération ou synthèse, n’en comprennent que deux. En effet, la TA fondée sur l’interlangue ne passe pas par la phase de transfert. Ici, le résultat de l’analyse « du texte source serait

directement l’entrée du composant de génération du texte cible » (Lavecchia, 2010, p.

17). Boualem explique le fonctionnement des deux modules de la manière suivante : « Le module d’analyse transforme le texte source en une description interlangue. Le module de génération transforme cette description en texte dans la langue cible » (2001, p. 6).

Pour aller plus loin, Jurafsky et Martin (2014) déclarent que les systèmes par

interlangue établissent une analyse du texte source, créant ainsi une représentation abstraite à partir de la langue de départ pour ensuite générer le texte en langue cible.

Cette représentation est indépendante des langues utilisées et peut être appliquée à n’importe quelle langue une fois qu’elle est bien mise en place, d’où le terme

d’interlangue (Hutchins et Somers, 1992).

Ainsi, l’approche par interlangue évite le problème que présente le système par transfert car ce système ne nécessite pas de règles définies pour chaque paire de langue et chaque étape de la traduction. Cependant, certains concepts doivent tout de même être définis lorsque l’on traduit d’une langue à l’autre (Jurafsky et Martin, 2014). Jurafsky et Martin (ibid) donnent l’exemple de la traduction du « elder-brother » et de « younger-brother » (p. 892), qui sont des concepts qui nécessitent une définition plus précise lors d’une traduction du japonais vers le chinois. Ce type de problème de concept entre les langues demande alors une analyse sémantique plus approfondie. Cette analyse est

généralement possible que pour des domaines simples, limitant ainsi l’utilisation des systèmes par interlangue (ibid).

Dans le document Microsoft Translator et le jargon vidéoludique : Evaluation de l’impact de la traduction automatique sur une conversation entre joueurs de jeux vidéo (Page 17-22)