• Aucun résultat trouvé

2) La traduction automatique

2.3 Systèmes de traduction automatique

2.3.1 Systèmes linguistiques

2.3.1.2 Systèmes maximalistes

Les systèmes maximalistes, aussi appelés systèmes indirects, sont, comme leur nom l’indique, plus poussés que leurs homologues minimalistes. En effet, ils ne se contentent pas d’une désambiguïsation syntaxique (« tagging »), mais font au moins une véritable analyse syntaxique des phrases à l’aide d’une grammaire, générant ainsi des représentations syntaxiques, comme illustré par la figure 1.

Figure 1 : Un exemple de représentation syntaxique sous forme d’arbre5

Ce sont ensuite ces représentations qu’ils mettent en relation pour comprendre le sens des phrases à traduire. Ainsi, grâce à leur grammaire et aux représentations syntaxiques, ces systèmes sont capables de traduire correctement une phrase telle que Clean reservoir system car ils savent qu’une phrase qui n’est pas un titre contient généralement un verbe et donc que clean ne peut pas ici être un adjectif.

C’est également grâce aux représentations syntaxiques que les tests et actions sont plus sophistiqués dans un système maximaliste que dans un système minimaliste, car ils peuvent opérer sur les relations syntaxiques. Par exemple, les actions permettront d’inverser le sujet et l’objet d’une phrase lors de la traduction ; ainsi, I miss you deviendra « Tu me manques » et non « Je te manque ».

Il existe deux grands groupes de systèmes maximalistes, qui diffèrent par le niveau d’abstraction de leurs représentations syntaxiques : les systèmes par transfert et les systèmes par interlangue.

2.3.1.2.1 Systèmes maximalistes par transfert

Les systèmes par transfert possèdent, tout comme les systèmes minimalistes, des dictionnaires au cœur de leur fonctionnement. Ils sont au nombre de trois par paire de langues : deux dictionnaires monolingues (un pour chaque langue) et un dictionnaire bilingue, aussi appelé « de transfert ». Les informations monolingues sont donc partagées par toutes les paires de langues, contrairement à ce que l’on observe dans les systèmes minimalistes.

5 Image du domaine public, disponible en ligne https://commons.wikimedia.org/wiki/File:ParseTree.svg, consulté le 23 juin 2016.

Les systèmes maximalistes par transfert reposent sur les représentations syntaxiques des phrases à traduire. Le processus de traduction comporte trois étapes : l’analyse, le transfert et la génération (Jurafsky et Martin, 2007, p. 1002).

Comme dit plus haut, l’analyse sert à extraire la représentation syntaxique de la phrase source. Cette représentation peut être un arbre syntaxique annoté avec les fonctions grammaticales de chaque mot. L’analyse sert à identifier le prédicat, le sujet et les compléments de la phrase. En effet, ce sont ces représentations des relations entre les mots d’une phrase que les systèmes par transfert traduisent, et non pas les mots. Cela permet d’obtenir une traduction grammaticale et affranchie du mot-à-mot.

La deuxième étape, le transfert, est la transformation de la représentation source en une représentation cible, autrement dit, la « traduction » des représentations syntaxiques sources en représentations syntaxiques cibles (Arnold, 1993, p. 65). Le transfert s’effectue au moyen de règles de transfert, qui peuvent être de diverses sortes : règles lexicales, règles structurales et règles semi-lexicales. C’est dans cette dernière catégorie de règles que l’on retrouve les tests et actions, bien plus poussés que dans un système direct.

La tâche des règles lexicales est tout simplement de traduire les mots lexicaux. Une telle règle pourrait par exemple indiquer que le mot anglais computer se traduit en français par « ordinateur ».

Les règles structurales, elles, sont chargées de traduire les éléments de structure, en indiquant au système que, par exemple, subject en anglais correspond à « sujet » dans la représentation française.

Enfin, les règles semi-lexicales traduisent également des mots lexicaux, mais sous certaines conditions précisées dans les tests et les actions. Par exemple, une règle semi-lexicale pourrait indiquer que le verbe anglais miss se traduit par « manquer » si l’objet direct de miss est un être animé ou un lieu (test), et que, dès lors, il faut transformer le sujet anglais en objet indirect en français, et transformer l’objet direct anglais en sujet français (action). Grâce à ces indications, le système serait capable de traduire I miss my mother (sujet-verbe-objet direct) par « Ma mère me manque » (sujet-verbe-objet indirect).

La figure 2 montre un exemple de transfert simple, inspiré de Jurafsky et Martin, 2007, p.

1002.

Figure 2 : Exemple de transfert dans un système linguistique

Après avoir obtenu une représentation cible, la dernière étape, la génération, permet d’extraire un texte cible de cette représentation, à l’aide d’une grammaire et d’un lexique monolingues. Ces derniers sont souvent utilisables à la fois à cette étape et à celle de l’analyse.

Ces systèmes sont fiables et donnent de bons résultats, mais puisqu’il est très difficile d’écrire une grammaire complète pour la langue générale, ils restent, comme beaucoup de systèmes de traduction automatique, plus performants dans un domaine spécialisé avec un vocabulaire bien délimité. Il est également impossible de traiter tous les problèmes de traduction avec des tests et des actions, car ces derniers deviendraient vite extrêmement complexes.

D’aucuns estiment que les traducteurs humains ne fonctionnent pas comme les systèmes par transfert, qu’ils n’extraient pas des représentations spécifiques à chaque langue mais qu’ils dégagent un sens indépendant de la langue. Cette idée a donné naissance à l’approche interlingue.

2.3.1.2.2 Systèmes maximalistes par interlangue

Les systèmes maximalistes par interlangue ne se fondent pas sur un transfert de représentations syntaxiques, mais sur une interlangue, indépendante des langues, qui contient les concepts de toutes les langues. Celle-ci devrait pouvoir représenter toutes les phrases qui signifient la même chose de la même façon, quelles que soient les langues dans lesquelles elles sont formulées (Jurafsky et Martin, 2007, p. 1005). Ainsi, l’étape de transfert disparaît car on analyse vers l’interlangue, et on génère à partir de cette même interlangue (Jurafsky et Martin, 2007, p. 998). Par conséquent, l’analyse devient bien plus compliquée, mais la génération peut s’effectuer directement depuis l’interlangue

sans devoir passer par des transformations syntaxiques (Jurafsky et Martin, 2007, p.

1006).

Si l’on reprend l’exemple cité précédemment, I miss my mother, un système par interlangue n’en extrait pas des fonctions grammaticales et ne possède pas d’instructions « inverser le sujet et l’objet » ; il sait que dans toutes les langues, pour le concept du manque, il y a quelqu’un qui ressent le manque (l’expérient) et quelque chose qui manque (l’objet du manque, le thème). Il se fonde donc sur des concepts indépendants des langues et non plus sur des mots, ce qui lui permet de dégager les rôles sémantiques des éléments de la phrase.

Les systèmes par interlangue sont le plus utiles dans des sous-domaines bien limités (Jurafsky et Martin, 2007, p. 1006) et dans des cas où l’on doit traduire entre des langues très différentes. Ces systèmes vont jusqu’à analyser le sens des phrases à traduire et l’un de leurs avantages est donc de produire des traductions fidèles au sens de l’original. Au niveau du développement, un autre avantage est que les équipes de travail n’ont plus besoin de comporter un expert par paire de langue : puisque chacun travaille de sa langue vers l’interlangue, il n’y a plus besoin de règles de transfert et le problème des paires de langues rares ne se pose plus.

Puisque ces systèmes ne font plus de représentations syntaxiques, ils traduisent par paraphrase, contrairement aux systèmes par transfert, et, si l’on peut dire qu’un traducteur humain paraphrase de toute façon lorsqu’il traduit, on peut également penser qu’un système qui paraphrase tout ce qu’il traduit perd des informations potentiellement importantes sur la structure de la phrase source. Par exemple, un système qui ne garde aucune information sur la structure source ne pourrait pas comprendre qu’il faudrait une traduction différente pour chacune de ces phrases, dans lesquelles l’emphase change :

I ate an apple an hour ago.

It was an apple that I ate an hour ago.

It was an hour ago that I ate an apple.

On peut citer d’autres problèmes liés à ce genre de systèmes, notamment le fait qu’ils nécessitent un répertoire des concepts pour fonctionner, ce qui n’est peut-être pas

faisable pour la langue générale. Il y a aussi le problème des phrases ambiguës, qui exigent du système qu’il puisse choisir le bon concept dans son répertoire selon le contexte, et ce, quelle que soit la paire de langues en jeu. De plus, toutes les langues ne découpent pas les concepts de la même façon, ce qui oblige un système par interlangue à parfois faire des distinctions qui n’ont pas lieu d’être dans une langue. Par exemple, le japonais n’a pas de mot pour désigner le concept « frère », il fait toujours la distinction entre le grand frère et le petit frère, ce qui n’est pas le cas du français ou de l’anglais (Jurafsky et Martin, 2007, p. 1006).