• Aucun résultat trouvé

Introduction : la Traduction Automatique

Chapitre III : Pensée traductionnelle humaine et Pensée traductionnelle machine

III.1 Introduction : la Traduction Automatique

Aujourd’hui il existe de plus en plus de systèmes de traduction automatique (TA) qui se caractérisent par une grande variété d’approches essayant de répondre aux nombreuses exigences du marché de la traduction.

Comme Hutchins&Somers l’expliquent dans leur ouvrage157 (1992 : 5) c’est à partir des années 30

que l’on voit l’apparition de premièrs essais d’automatisation du processus traductionnel, ce début étant conventionnellement associé au dictionnaire multilingue automatique du franco-arménien George Artsrouni et au prototype de traducteur automatique de Petr Smirnov-Troyanskii basé sur le principe de l’analyse logique de lexèmes et de phrases à traduire. C’est au cours des années 40 que l’on commence à appliquer à l’automatisation du processus traductionnel les princpes issus de la cryptographie adoptée dans les intérêts des conflits mondiaux de l’époque. Le recours à la cryptographie et à l’analyse statistique a été enrichi, par la suite, par les nouvelles pistes de recherches émergeant de la première conférence organisée au sujet de la traduction automatique auprès du MIT par Yehoshua Bar-Hillel.

Le résultat représentatif de ce stade de recherche vivace est le prototype nait de la collaboration entre Leon Dostert de l’université de Georgetown et l’IBM. Le prototype a fait l’objet d’une démonstration publique en janvier 1954 au cours de laquelle il a traduit publiquement une sélection très réduite de phrases du russe en anglais : ce système se basait sur l’adoption d’un vocabulaire de 250 entrées et sur six règles de traduction à peine. La simplicité de ce prototype a notamment frappé

la communauté de l’époque158 et aujourd’hui encore on le considère comme le système de TA

représentatif des traducteurs automatiques de première génération. De la moitié des années 50 à la moitié des années 60 l’optimisme s’était bien imposé au sein de la communauté scientifique, jusqu’au premier constat des limites dépendant des ambitions trop élevées poursuivies par les divers centres de recherche. Tout comme indiqué par Hutchins&Somers (1992 :7) le rapport de l’ALPAC de 1966 a eu un impact très fort qui est résulté en un processus de spécialisation globale où chaque nation a su s’approprier des avancements en TA dans le but de répondre aux exigences

157 Hutchins W.John and Somers Harold L., An Introduction to machine translation, London: Academic Press, 1992. [ISBN: 0-12-362830-X] http://www.hutchinsweb.me.uk/IntroMT-TOC.htm

158 Comme indiqué également par Jacqueline Léon (2002 : 1) dans son article : « Le CNRS et les débuts de la traduction automatique en France », La revue pour l’histoire du CNRS [En ligne], 6 | 2002, mis en ligne le 23 février 2006, consulté le 15 mars 2015. URL : http://histoire-cnrs.revues.org/3461

152

nationales159. Entre la fin des années 60 et les années 80, l’on assiste à une foisonnante production

de systèmes parmi lesquels « Systran », développé aux origines par Peter Toma pour la paire de langues Russe-Anglais. Au cous de ces mêmes années, l’on oppose à l’approche directe de première génération, les systèmes basés sur une approche indirecte, i.e. comprenant une phase intermédiaire de représentation linguistique. En fait, comme décrit par Hutchins&Somers (1992 : 72 à 77) l’approche directe impliquait tout simplement une première phase d’analyse morphologique visant l’association entre le lemme et ses tags relatifs et la forme lexicale correspondante ; cette étape était suivie par une deuxième étape de mise en correspondance effectuée par un dictionnaire bilingue fournissant les formes lexicales équivalentes en langue d’arrivée. L’approche indirecte a été en revanche basée d’abord sur l’interlingua et ensuite sur le trasfert, les deux constituant une troisième étape intermédiaire où la représentation de l’information linguistique en langue source permettait la mise en correspondance avec la représentation équivalente en langue cible.

Voici les trois schémas proposés par Hutchins&Somers où l’on peut observer l’introduction de l’étape intermédiaire des approches indirectes qui a intégré la simple adoption du dictionnaire bilingue prévue par l’approche directe :

Figure 8. Hutchins&Somers : approche directe

159 «American activity had concentrated on English translations of Russian scientific and technical materials. In Canada and Europe the needs were quite different: the Canadian bicultural policy created a demand for English-French (and to a less extent French-English) translation beyond the capacity of the market, and the European Economic Community (as it was then known) was demanding translations of scientific, technical, administrative and legal documentation from and into all the Community languages.» Hutchins&Somers (1992 :7).

153

Figure 9. Hutchins&Somers : interlingua.

Figure 10. Hutchins&Somers : transfert.

Il faut noter que le système Apertium que nous avons choisi aux fins de notre expérimentation est conforme à l’approche indirecte basée sur le trasfert (troisième schéma).

Il faut souligner, d’ailleurs, que cette opposition entre approche directe et indirecte ne représente que les différences de base existant dans le domaine de la conception de traducteurs automatique. À la suite des évolutions sociales et économiques des années 80 et 90, le marché de la traduction automatique a su offrir un large éventail de choix de systèmes de TA opérant dans des buts

différents, soit dans l’optique de l’open source pour répondre aux besoins du grand public (Google

Translate160) soit à caractère spécialisé et propriétaire pour assurer des prestations sectorielles de

plus haut niveau (MT@EC161, le système de traduction automatique utilisé à la Commission

européenne).

160https://translate.google.com/

154

Comme indiqué par Baisa Vít dans son article (2011 : 14)162, c’est justement entre les années 80 et

les années 90 que les deux méthodes, TA basée sur des règles et TA statistique, ont dominé le marché. Une préférence générale était accordée à cette dernière en raison de son principe d’élaboration plus simple basé sur l’alignement de textes parallèles par rapport à la création laborieuse de véritables grammaires bilingues imposée par la première méthode. Baisa passe en révue les nombreux modèles de TA (2011 : 14 à 19), du modèle de l’IBM basé essentiellement sur une traduction mot-à-mot jusqu’aux modèles les plus récents, comme : la TA basée sur des phrases (« phrase-based MT »), la TA basée sur des exemples (« exemple-based MT »), la TA basée sur des

chunk (« chunk-based MT »)163.

Les modèles les plus récents qui sont à la base de systèmes de TA prévoient aujourd’hui l’intégration de ces deux méthodes (règles et statistiques), ce qui se traduit par la réalisation de

systèmes hybrides164, parmi lesquels l’on retrouve Systran, dans sa version la plus moderne.