LA TRADUCTION AUTOMATIQUE ET LE PROBLEME MORPHOLOGIQUE

(1)

149

LA TRADUCTION AUTOMATIQUE ET LE PROBLEME MORPHOLOGIQUE

GHENIMI Abdelouafi (Université d’Oran)

Parmi les problèmes courants et récurant en traduction automatique (TA) et qui influent négativement sur la qualité de toute production traductique, il y a en effet, le problème de choix du lexique. Lors de passage d’une langue dans une autre sur ordinateur on constate un choix souvent aléatoire des mots de toutes catégories grammaticales : noms, verbes, adjectifs, adverbes, prépositions, etc.

La machine réussit facilement quand il y a une bijection entre signifiants et signifiés. Or, le langage naturel est loin d’être ainsi. Tous les mots sont pratiquement polysémiques : sens propre, sens figuré, sèmes multiples dont une partie seulement s’actualise dans un contexte.

Dans cet article, j’essaie de montrer comment, lors de la phase d’analyse morphologique, la polysémie provoque des ambiguïtés et par conséquent des erreurs qui se propagent aux autres étapes du traitement d’un texte soumis à l’ordinateur pour traduction.

(2)

150 INTRODUCTION

Les dernières décennies de ce siècle ont connu l’avènement spectaculaire de l’ordinateur et des autoroutes de l’information¹, chose qui élève la quantité de messages échangés à travers la planète à l’exponentiel.

La traduction, par conséquent, ne peut que suivre et prendre des dimensions proportionnelles avec les masses d’informations et de gens qu’elle concerne.

Les traducteurs humains s’avèrent souvent incapables de parvenir à satisfaire les besoins quantitatifs de documents à traduire dans les délais souhaités. Dans une époque où la réussite est évaluée en termes de rentabilité et la rentabilité en termes de coûts et de délais, la logique de se tourner vers la machine - cet instrument infatigable -, va de soi. En effet, il n’est pas étonnant que l’ordinateur qui était principalement à l’origine de la révolution informationnelle et communicationnelle se voit sollicité pour apporter des solutions à ce dilemme.

Toutefois, en traduisant avec des logiciels sur ordinateur, pour éventuellement gagner du temps, on découvre des réalités décevantes. Celui qui croit à la publicité des firmes qui commercialisent ces produits s’attend à ce que la machine fasse le travail à sa place.

Mais en lui soumettant un texte écrit en langue naturelle,

1. Le mariage de l’informatique et des télécommunications a donné naissance aux réseaux télématiques (autoroutes de l’information) : réseaux InterNet qui se tissent actuellement à travers le monde et se propagent avec un taux non constant mais incroyablement élevé d’abonnés par mois. Ce fait est entrain de changer radicalement les habitudes des gens, les relations entre institutions ainsi que l’accès à l’information.

(3)

151

il réalise que l’ordinateur est encore loin d’être en mesure de remplacer le traducteur humain dans ses fonctions. Il y a déception parce qu’entre le texte source et le texte produit par ces machines il y a :

- un choix apparemment aléatoire du lexique, des prépositions, des articles, du genre, du nombre, de la personne, etc.

- il y a rarement concordance de temps, de modes et de voix…

- la grammaire de la langue cible est rarement respectée dans le texte produit.

Grosso modo, il y a des erreurs à tous les niveaux.

Mais, ces erreurs ne peuvent-elles pas servir de point de départ pour un réajustement ou une mise au point de ces applications mécaniques ? Ne dit-on pas que «L’erreur est le tremplin vers l’expression juste » ?

La TA est une application du domaine du Traitement Automatique des Langues (TAL), appelé aussi ‘industrie de langue’ qui est lui, une sous discipline de la linguistique et de l’informatique, c’est de « la linguistique-informatique ». Les erreurs en TA peuvent donc être aussi bien d’origines informatiques que d’origines linguistiques. Mais avant de pencher sur leurs causes ou leurs origines, il est utile de donner un aperçu historique de cette discipline.

(4)

152

APERÇU HISTORIQUE DE LA TA

La TA fut une des premières applications informatiques non numériques. Depuis la fin de la seconde guerre mondiale, elle a connu une histoire tumultueuse, je ne reprends ici que les faits essentiels.

Cette histoire oscille entre des périodes de déclin et de popularité, de réussite et d’échec, d’espoir et de désespoir.

Presque simultanément aux USA et en ex-URSS, les premières réflexions sur le sujet eurent lieu dès la première moitié des années 1950 ; c’est-à-dire avec la parution de la première génération des ordinateurs. A cette époque - la fin de la deuxième guerre mondiale - la progression du nombre des traductions avait pris une allure vertigineuse. Il était donc naturel que l’idée de la TA fasse son chemin.

Les efforts furent concentrés, dans un premier temps, sur la confrontation des lexiques. Ce fut la première génération de la TA. Et les pionniers dans ce domaine ont assimilé le processus de la traduction au décryptage des messages ennemis durant la guerre. Un imminent ingénieur américain : Warren Weaver, de la Fondation Rockefeller, influencé par les théories de Shannon en statistiques, conçut l’idée que les langues étrangères pourraient être considérées comme des messages codés dont la traduction pourrait être effectuée

(5)

153

selon les mêmes principes que le décryptage². (cf.

Weaver W. et Shannon C.E., 1949)

La TA consistait en deux étapes et semblait pouvoir livrer les résultats escomptés : le remplacement des mots d’un texte par des mots correspondants, puis la restructuration des phrases produites dans la langue d’arrivée selon les règles syntaxiques de cette dernière.

L’espoir qu’on en y attendait fut inestimable. On espérait qu’une fois les lexiques pertinents établis, les règles syntaxiques et morphologiques respectives mises en mémoire, la conversion d’une langue dans une autre sera réalisable avec des ordinateurs suffisamment puissants.

Cependant, en 1960, Y. Bar Hillel, un des pionniers de la TA, dressa un diagnostic décevant, à ce propos. Il exposa les limites de la machine ‘incapable de raisonner comme le cerveau humain car elle ne possède pas son intuition.

En cas de polysémie, elle ne peut trier en fonction de la situation. Elle ne dispose pas de pré-acquis cognitifs et sémantiques’.

Le rapport ALPAC

Le diagnostic de Bar Hillel ne laissa pas indifférents les autorités qui ont investi les sommes considérables dans les recherches en TA. Ils désirent des résultats concrets et chargent, en 1964, le comité

2 . « when I look at an article in Russian, I say : "this is really written in English, but it has been coded in some strange symbols. I will now proceed to decode" ». (in Loke and MT of languges, New York, 1955).

(6)

154

ALPAC (Automatic Language Processing Advisory Committee) d’évaluer les progrès faits dans le domaine.

Sans doute, influencé par les nombreux critiques qui tournent en ridicule le domaine entier, l’effet du rapport est désastreux. Il conclut que ‘les recherches dans leur état actuel ne sont pas rentables pour l’Etat américain’.

Les subsides sont donc coupés aux USA du jour au lendemain, mettant ainsi fin aux centres créés à cet effet et aux espoirs escomptés.

Le manque de moyens n’a pas eu de répercussions catastrophiques, pour autant. Les recherches se tournent vers deux directions différentes :

1- Des recherches théoriques en syntaxe : les théories de Z. Harris et N. Chomsky sur les grammaires génératives et transformationnelles se développent fructueusement. Ce fut un pas capital dans la linguistique formelle.

2- De côté informatique, les études se tournent vers le problème de la représentation du sens, parallèlement à la recherche plus générale consacrée à la représentation des connaissances en intelligence artificielle. Ce fut également un pas de géant.

Les centres rescapés, principalement conçus et financés par des militaires pour servir des fins militaires, s’attachaient surtout à étudier les modalités et les problèmes de transfert (russes/anglais) – guerre froide - en se concentrant sur les textes scientifiques et

(7)

155

techniques. C’est à dire, limitation du domaine d’application. C’est la deuxième génération de la TA.

En Europe

En Europe, dès 1975, la CEE, qui doit faire face à un accroissement alarmant du nombre de traduction, entrevoit la nécessité de recourir à la TA. En 1976, elle déclenche un plan d’action dans le but est de coordonner différents projets qui traitent du multilinguisme et notamment de la TA. Au cours de la même année (1976), elle annonce l’installation d’un système de TA commercial, nommé SYSTRAN, la TA devient une entreprise connue du grand public. Ce fait suscite à nouveau l’intérêt des firmes privées. La TA est désormais une application rentable et les systèmes commerciaux se multiplient. Cet aspect économique est le même en Europe, aux USA, au Japon et au Canada.

Au Canada

Au Canada, TAUM (Traduction Automatique à l’Université de Montréal) fut lancé par l’Université de Montéal il y a plus de trois décennies (1966), restreint au domaine météorologique. Il est opérationnel depuis lors.

Il diffuse chaque jour des milliers de bulletins météo traduits de l’anglais vers le français. Il constitue un prototype des systèmes de la deuxième génération de la TA.

(8)

156

Les problèmes qui semblaient insolubles à l’époque, à l’origine de l’échec de la TA, trouvent de nombreuses explications : tout d’abord, l’informatique était à ses débuts et à ses premiers pas (les mémoires limitées, les textes et les données linguistiques furent introduits dans la machine sur cartes perforées. E. Cary (Seleskovitch, D. 1979) note que 12000 opérateurs devraient travailler simultanément pour ‘satisfaire’ une machine de rapidité moyenne de quantité nécessaire d’information qu’elle est en état de traiter.

Les méthodes de programmation furent également primitives. La linguistique fut peu subséquente et les recherches ne rendaient pas tout à fait compte des problèmes que posait la traduction.

L’avènement de l’intelligence artificielle vers 1976 suscita les experts, armés de cette nouvelle technologie, à se pencher de nouveau sur le problème de la traduction multilingue. Elle donna naissance à la troisième génération de la TA. Une de ses illustrations fut la tentative du système ‘EUROTRA’ où la machine se charge du dépouillement rapide des documents très spécialisés, rédigés dans une langue naturelle et donne une traduction brute qui permet d’évaluer l’intérêt du document, d’en retirer les informations principales et d’établir des bibliographies par sujet. Le programme EUROTRA fut lancé au Luxembourg, avec de lourds investissements, par les services de traduction de la CEE, en collaboration avec 10 universités européennes.

(9)

157 Années 1980 et suivantes

Dans les années 1980, ils existaient au moins quatre compagnies fabriquant de gros ordinateurs traducteurs à travers le monde (Nixdorf, IBM, Siemens, HP, etc.), et plus d’une vingtaine de centres de recherche.

Certaines théories telles que la Grammaire Lexicale Fonctionnelle, la Grammaire d’Unification Catégorielle et la Grammaire Syntagmatique Guidée par la Tête, ont consolidé l’infrastructure théorique des systèmes de TA dont l’approche est linguistique

L’approche Intelligence Artificielle de la TA parut dès les années 60 (voir Witkam, 1983) soutenue par le courant de recherche en TA qui repose sur le principe que pour traduire, il faut comprendre. KBMT-89, ULTRA sont des illustrations de systèmes qui font usage des primitives conceptuelles et sémantiques et des ontologies relatives aux domaines particuliers.

L’ANALYSE EN TA

Depuis la première phase de lecture d’une phrase en entrée à la dernière étape avant de passer à la génération d’une réponse, l’analyseur effectue plusieurs tâches. Ces tâches peuvent être groupées en six catégories :

le découpage, l’analyse lexicale, l’analyse syntaxique,

l’analyse sémantique, l’analyse pragmatique, l’analyse discursive.

(10)

158 LA SEGMENTATION

Cette phase sert à découper (ou à segmenter) le texte en unités d’analyse plus brèves ; en phrases afin de mettre en évidence les séparateurs logiques, puis en mots ou groupes de mots pour pouvoir passer à l’analyse lexicale.

Pour traduire, l’humain repère les mots, les mots composés et les expressions figées pour pouvoir découper le texte en unités de traduction. Ces unités sont facilement repérables pour un individu qui a une bonne connaissance de la langue du texte qu’il traite, contrairement à la machine, pour qui ‘un message n’a aucune signification inhérente mais représente seulement un modèle de signaux codés’. [J. E. Hulett³, 1966, p206].

Martinet (1965) propose d’aller au-delà de ‘l’écran du mot’ pour analyser les unités minimales de signification.

L’unité de signification (US) est la plus petite fraction signifiante. Elle peut comprendre un ou plusieurs mots.

Autrement-dit, elle peut être un mot simple ou un mot composé.

Le mot composé est une expression obtenue par combinaison d’au moins deux mots simples et qui n’est pas nécessairement compositionnelle d’un point de vue syntaxique ou sémantique.

3. J. Eduard Hulett, 1966, « A Symbolic interactionist Model of Human Communication », in Communication de masse, A.

Silbermann, Paris, Hachette, 1981, p.28.

(11)

159

Il existe des mots composés appartenant à toutes les parties du discours :

- Noms composés :

Fr : Pomme de terre, coupe-papier, compte courant..

En : flesh and blood, fish and ships,..

Ar :،زاىلا قلاطإ فقو ،ديسثلا يعاس..

- Noms propres composés :

Fr: Côte d’Ivoire, Sainte Marie de la mer, Bouches du Rhône,..

En: New York, Salt Lake City,..

Ar: ،نازيملا عازذ ،زاتخم يجات جست ،حلاص هيع..

- Adverbes composés (ou locutions adverbiales):

Fr: en effet, de temps à autre, au moyen de..

En: a lot of, as a matter of fact, ..

Ar: ..،نأ ديت

- Conjonctions composées : Fr : parce que, tant et si bien que..

En : because of, as much,..

Ar : ..،امثيح ،امدىع

- Prépositions composées : Fr : en face de, au-dessus de..

En : in front of,

Ar : ،خيزاتلا لثق ام ،دعتام يف ،هيسوق باق..

L’ANALYSE MORPHOLOGIQUE

Cette phase permet de reconnaître les mots constituant le texte à analyser et de leur attribuer des propriétés linguistiques qui seront utilisées dans les analyses ultérieures.

L’analyseur procédera à la recherche des mots ou unités lexicales repérées lors de la phase de segmentation de la

(12)

160

phrase traitée dans le dictionnaire afin de pouvoir construire les représentations de ces mots pour permettre à la suite du traitement de se dérouler correctement.

Chaque mot de la phrase, ainsi que les informations relatives à ce mot doivent figurer dans le dictionnaire.

Les informations du dictionnaire fournissent les catégories possibles des mots de la phrase telles que verbe, nom, adjectif, article, pronom. Le processeur doit identifier les mots qu’il traite sinon il ne peut pas dégager une réponse appropriée.

La segmentation la plus simple à faire est celle basée sur les espaces. Cependant, ce procédé n’est pas tout à fait fiable dans la mesure où les langues contiennent des mots, composés de plus d’une unité lexicale, séparées par des espaces ou des traits d’union ; par exemple : pomme de terre, coupe-papier, dors et déjà.

La segmentation, en effet, n’est pas le seul problème pour la machine. La catégorisation syntaxique en est peut-être plus ardue, et susceptible d’engendrer des ambiguïtés lexicales de catégorie grammaticale, comme dans les phrases suivantes où l’analyseur illustre au moins deux interprétations, morphologiquement et grammaticalement correctes, pour chacune.

1- La voiture entre au garage

la = {article, pronom}, voiture = {nom},

entre = {verbe, préposition}, au = {préposition}, garage

= {nom}

- Art N V Prép N

(13)

161 2- Le pilote ferme la porte

Le = {article, pronom}, pilote = {verbe, nom}, ferme = {adjectif, nom, verbe}, la = {article, pronom}, porte = {verbe, nom}

a) Art N V Art N (le pilote pratique l’action de fermer la porte)

b) Art N Adj Pro V (le pilote porte avec fermeté une personne ou une chose de genre féminin)

3- La petite brise la glace

a) Art N V Art N (la fillette fait l’action de briser la glace)

b) Art Adj N Pro V (la brise, de taille petite, fait l’action de glacer une personne ou une chose)

4- En : We can fish

a) Pron Mod V (nous pouvons pêcher)

b) Pron V N (nous mettons du poisson en bites) 5- ‘je suis une jolie fille’.

Suis = {verbe être, verbe suivre}

- Ambiguïtés morphologiques

Dans la mesure où la machine ne reconnaît que des signes graphiques et où les mots sont pratiquement tous polysémiques dans toutes les langues ; sens propre, sens figuré, mais aussi sèmes multiples dont une partie seulement s’actualise dans un contexte, elle doit actualiser leur signification pertinente. Pour un mot tel que ‘pièce’, par exemple, comment la machine pourra-t- elle choisir le terme qui traduit ‘morceau’, ‘pièce de

(14)

162

mariage’, ‘pièce de théâtre’, ‘pièce montée’, ‘pièce d’un appartement’, ‘pièce d’artillerie’, ‘pièce de musée’,

‘pièce de monnaie’, ‘pièce de rechange’, ‘pièce d’un dossier’, etc ? De même, si on lui présente le mot anglais

‘box’, comment saura-t-elle choisir le mot qui convient pour ‘coffre’, ‘coffret’, ‘malle’, ‘buis’, ‘corps de pompe’,

‘banc des témoins/accusés’, ‘loge de théâtre’, etc ? Puisque dans chaque cas c’est un champ sémantique où un sens différent qui s’impose, donc un terme différent.

Ceci explique les erreurs commises par la machine⁴. En: ‘Lila works for . ..’  Fr: ‘Lila traveaux pour ..’, En: ‘when we go to parties..’  Ar: بازحلأا’ ةهرو امدىع ىلإ’

CONCLUSION

Le lexique que le traducteur, qui fait métier de parole comme l’écrivain, sait est estimé à peu près à une dizaine de milliers de mots, soient autant contenus dans le vocabulaire de base d’un ordinateur. « L’individu les emploie dans une signification unique pour communiquer sa pensée et celle des auteurs qu’il traduit. Il a rarement l’occasion de s’interroger dans l’abstrait sur leur potentiel de signification. Mais il n’en va pas de même pour la machine qui a en mémoire, sur un pied d’égalité, les diverses significations des mots et doit trouver, parmi elles, celle qui convient de transcoder dans une phrase donnée. » [Lederer, 1994, p. 178].

4 . Anglais  français : sur Power Translator, 1995.

. Anglais  arabe : sur AL WAFI (ةمجستلل يفاولا), version 2, 1996/1997.

(15)

163 BIBLIOGRAPHIE

BAR HILLEL Y., «The Present Etatus of Automatic Translation of Languages», in F.L. Alt (Ed.) Advances in computers, vol.1, New York, Academic Press, 1964,

GHENIMI A., « TRADUCTION AUTOMATIQUE, français-anglais-arabe : problèmes et perspectives », mémoire de magistère, Université d’Oran, 2000.

LEDERER Mariane, « La traduction automatique dans la perspective de la traduction humaine » in « La traduction aujourd’hui », Paris, Hachette FLE, 1994.

MARTINET A., «La linguistique synchronique », Paris, PUF, 1965.

«Traduction et mécanisme du langage » ), in parallèle 2, université of GENOVA., 1979.

WITCAM A.P.M., «Distributed language translation », Utrecht, BSO, 1983.