• Aucun résultat trouvé

Les enjeux et les limites de la traduction automatique

L’alignement automatique des corpus

2.1 La traduction automatique et l’alignement des textes

2.2.1 Les enjeux et les limites de la traduction automatique

Les tentatives de traduction automatique ont vu le jour dans les années cinquante. L’objectif essentiel était alors de traduire des articles scientifiques et techniques 4. Ces systèmes pionniers traduisent pratiquement mot à mot, utilisant de manière annexe quelques stratégies rudimentaires d’analyse linguistique pour traiter des problèmes tels que l’ordre des mots et les flexions 5. Les méthodes de programmation restent rudimentaires, les capacités de mémoire des ordinateurs sont insuffisantes pour enregistrer les quantités nécessaires d’information linguistique.

2

Sur l’émergence et le développement de méthodes d’alignement de corpus parallèles au fil des vingt dernières années, on consultera Véronis [2000a] ; Somers [2001].

3

Voir Hutchins [1998] ainsi que les autres publications de ce même auteur sur le site : http://ourworld.compuserve.com/homepages/WJHutchins/

4 Voir [Hutchins, 1994, 2001] pour un exposé sur l’histoire de la traduction automatique. 5

Dans le contexte d’après-guerre, la possibilité de traduire automatiquement ce type de textes a un intérêt stratégique. Il intéresse au plus haut niveau l’armée et les services d’espionnage en Union Soviétique et aux États Unis. Les deux pays favorisent le développement des programmes de recherches sur l’automatisation de la traduction du russe vers l’anglais et l’inverse [Bouillon, 1998, p. 9].

Chapitre 2 : L’alignement automatique des corpus 40

Dans un compte-rendu sur les progrès de la traduction automatique, Bar-Hillel [1960] 6 estime qu’il est impossible de concevoir une traduction entièrement automatique de haute qualité sans prendre en compte le sens. Dominée alors par le structuralisme, la théorie linguistique ne s’intéresse que très peu aux problèmes de représentation de sens et ne permet pas la création de modèles conceptuels pour le développement de systèmes informatiques de traduction.

Les recherches dans ce domaine sont alors rapidement stoppées. En 1966, les défauts majeurs des systèmes de traduction automatique de l’époque sont sévèrement critiqués dans le rapport ALPAC (Automatic Language Processing Advisory Committee) 7 qui conclut que les recherches en cours ne sont pas rentables pour l’État américain.

A partir des années soixante-quinze, les recherches en traduction automatique reprennent de l’importance en Europe. La Communauté Européenne déclanche un plan d’action dont le but est de coordonner différents projets qui traitent du multilinguisme et de la traduction automatique [Bouillon, 1998, pp. 11-12]. Le recours au système de traduction automatique Systran 8 pour aider les experts humains à faire face à l’accroissement alarmant du besoin de traductions au sein de la Communauté Européenne, stimule les investissements dans ce domaine dans le secteur privé. Les outils de traduction automatique commerciaux se multiplient.

Dans son article « Vers une nouvelle époque en traduction automatique », Hutchins [1994, p. 1] constate que de 1975 à 1988 la plupart des systèmes commerciaux disponibles sur le marché utilisent la méthode « directe » de traduction et quelques éléments de la méthode de « transfert syntaxique ». Ces

6

Voir aussi la présentation du compte-rendu de Bar-Hillel sur le site de John Hutchins : http://ourworld.compuserve.com/homepages/WJHutchins/Miles-3.pdf

7

ALPAC [1966]. Language and machines: computers in translation and linguistics. A report by the Automatic Language Processing Advisory Committee (ALPAC), Washington, DC, National Academy of Sciences. Sur les principales conclusions de ce rapport, cf. Hutchins [2001].

8

Voir Hutchins et Somers [1992] :

Chapitre 2 : L’alignement automatique des corpus 41

systèmes se fondent sur des dictionnaires bilingues relativement riches, assortis d’une analyse linguistique assez superficielle. Dans le milieu de la recherche, domine une approche basée sur des règles linguistiques telles que les règles morphologiques et syntaxiques de génération, les règles de transfert lexical, les règles de désambiguïsation, etc. 9

L’utilisation des méthodes de « transfert syntaxique » pour la traduction automatique est influencée par le développement des théories syntaxiques

formelles 10 dans la recherche linguistique. Le trait caractéristique de ces

systèmes basés sur des règles linguistiques est le codage des représentations sous forme d’arbres étiquetés. Ces systèmes s’appuient sur des grammaires et des règles de transformation qui déterminent les contraintes et limitent les possibilités de transfert aux différents niveaux linguistiques (d’un arbre morphologique à un arbre syntaxique, d’un arbre syntaxique à un arbre sémantique, d’un arbre d’interface du texte source à un arbre équivalent du texte cible, etc.). Des formalismes complexes fondés sur ces types de contraintes ont été développés pour définir les systèmes de règles abstraites dirigeant ces transformations. [Hutchins, 1994, pp. 4-8] 11.

Pour dépasser les limites mises en évidence par cette deuxième génération de traducteurs automatiques, les recherches successives se sont orientées vers des stratégies de dissociation partielle de l’approche sémantique et de l’approche syntaxique. Avec le temps, l’approche sémantique s’est beaucoup rapprochée des

9 Vers le milieu des années quatre-vingt, on assiste à l’émergence de systèmes basés sur des connaissances directement issues du domaine des textes à traduire, voir, par exemple, [Brachman et Schmolze, 1985].

10 Sur la présentation de divers formalismes syntaxiques qui servent de base au traitement automatique des langues, y compris en traduction automatique, voir [Miller et Torris, 1990]. 11

Citons, à titre d’exemple, le système Ariane (GETA – Groupe d'étude pour la traduction automatique) qui fait partie des traducteurs automatiques de la deuxième génération relevant de l’approche de transfert. Voir la présentation de Blanchon à l’adresse suivante :

Chapitre 2 : L’alignement automatique des corpus 42

recherches sur la modélisation des connaissances menées dès cette époque en

intelligence artificielle 12.

Progressivement, l’orientation syntaxique des premiers systèmes de transfert perd de son importance et on voit croître l’intérêt porté à la construction de lexiques spécifiquement conçus pour la traduction automatique. Le processus de traduction est vu comme une identification et une sélection progressive d’unités lexicales de la langue cible satisfaisant à des contraintes sémantiques liées aux points de départ lexicaux de la langue source 13. L’acquisition de ressources lexicales devient alors un objectif prioritaire pour un large panel d’applications. Cependant, l’acquisition de ce type de ressources se révèle rapidement une opération relativement complexe et coûteuse car les sources lexicographiques existantes ne couvrent pas toujours les besoins des domaines particuliers. Ces circonstances font apparaître plus clairement la nécessité d’exploiter les corpus de textes bilingues. L’intérêt pour les ressources traductionnelles existantes est stimulé par le rapide succès des expérimentations à base de corpus de textes 14. L’efficacité des nouveaux systèmes basés sur des collections « d’exemples de traductions » entraîne dans les années suivantes l’expérimentation de méthodes statistiques [Habert et al., 1997].

12

Le domaine de l’Intelligence Artificielle (IA) rassemble des courants de recherches dont l’objectif est de rendre les machines capables d’imiter certains des comportements humains. L’approche IA est souvent utilisée pour le dialogue homme-machine au moyen de la parole, de l’écrit, etc. Par exemple, certaines procédures d’Intelligence Artificielle sont actuellement utilisées dans la recherche documentaire, pour des fonctions d’aide au diagnostic (diagnostic industriel, diagnostic médical, etc.). En traduction automatique, l’approche IA a pour objectif de construire une représentation des univers extralinguistiques dans lesquels on plongera les textes à étudier et de tenter de simuler le raisonnement humain dans le cadre de ces univers, afin d’effectuer des tâches élémentaires liées à leur interprétation dans une autre langue.

13

Cette conception de la traduction automatique implique l’intégration de différentes connaissances relatives à la langue : « /…/ quels sont les différents mots, comment ils se prononcent, ce qu’ils signifient, comment ils se combinent pour former une phrase et comment le sens des différents mots contribue au sens de la phrase. » [Bouillon, 1998, p. 12-13].

14

L’approche à base de corpus est présentée dans [Leech, 1987] ; [Aijmer et Altenberg, 1991], [Habert et al., 1997] ; [Bourigault et Slodzian, 1999].

Chapitre 2 : L’alignement automatique des corpus 43

L’apparition de méthodes et de stratégies « à base de corpus » vers la fin des années quatre-vingt représente une approche radicalement nouvelle des problèmes de la traduction automatique. Depuis, cette nouvelle tendance basée sur l’exploitation des exemples de traduction n’a fait que se renforcer, elle est actuellement dominante en traduction assistée par ordinateur 15.