Principe de la traduction compositionnelle

2.2 Conception et exp ´erimentation d’un protocole d’ ´evaluation applicative

3.1.1 Principe de la traduction compositionnelle

3.1.3 Traduction compositionnelle d’unit és monolexicales . . . 74 3.1.4 Filtrage des traductions g én ér ées . . . 78

3.2 Approches empiriques . . . . 81

3.2.1 Traduction par inf érence analogique . . . 81 3.2.2 Apprentissage de r ègles de r é écriture de caract ères . . . 83 3.2.3 Traitement de la variation morphologique . . . 84

3.3 Evaluation des m éthodes de g én ération de traductions . . . .´ 86 3.4 Perspectives de recherche . . . . 90

Introduction

Dans ce chapitre, nous pr ésentons des m éthodes de g én ération de traduction. Contrairement à des approches cherchant à aligner des termes pr éd éfinis sur la base d’une similarit é, la g én ération consiste à produire une traduction à partir de connaissances sur les équivalences traductionnelles d’une langue à une autre et sur les r éalisations possibles en langue cible.

Une approche possible est de se baser sur la s émantique compositionnelle : l’unit é à traduire est d écompos ée en sous-unit és porteuses de sens puis ces sous-unit ées sont traduites et recompos ées de façon à former un terme en langue cible (section 3.1). Une seconde famille d’approches consiste à s’appuyer sur des connaissances empiriques (section 3.2). Ces approches envisagent l’unit é à traduire plus comme une chaˆıne de caract ères à r é écrire que comme une unit é linguistique. La traduction est effectu ée gr âce à des connaissances apprises automatiquement à partir d’exemples de paires de traductions.

3.1 Approches compositionnelles

Dans cette section, nous d écrivons des approches expertes bas ées sur le principe de compositionnalit é. Dans ce paradigme, les recherches se pr éoccupent avant tout de g érer des ph énom ènes de variation morphologique, lexicale, morphosyntaxique et de fertilit é. Ces approches sont utilis ées pour traduire des unit és polylexicales, qui sont d écoup ées en mots (3.1.2), ainsi que des unit és monolexicales morphologiquement complexes qui sont d écoup ées en morph èmes (3.1.3). Dans ce dernier cas, la difficult é est de pouvoir traiter les diff érentes constructions morphologiques, en plus des cas de variation et de fertilit é. Une fois les traductions g én ér ées, il convient de s’assurer qu’elles sont possibles en langue cible. Pour cela, diverses m éthodes de s élection et de filtrage ont ét é mises au point (3.1.3).

3.1.1 Principe de la traduction compositionnelle

Le principe de compositionnalit é peut être énonc é ainsi (Keenan et Faltz, 1985, pp. 24-25) :

≪Le sens du tout est fonction du sens de ses constituants≫1

Ce principe sous-tend qu’il est possible de comprendre le sens d’une expression inconnue, pour peu que le sens de ses composants soit connu et qu’il soit possible d’en d’interpr éter sa structure. En se basant sur le principe de compositionnalit é pour g én érer des traductions, on suppose qu’il est possible de traduire une unit é lexicale inconnue, pour peu que l’on sache interpr éter sa structure, traduire chacun de ses composants et les recombiner en langue cible.

Le processus de traduction compositionnelle peut- ˆetre formalis ´e ainsi : CT (“ab”) = S(R(T (D(“ab”)))) = S(R(T ({a, b}))) = S(R({T (a) × T (b)})) = S(R({A,B})) = S({A,B}, {B,A}) = “BA”

o ù “ab” est un terme source compos é de a et b, “BA” est un terme cible compos é deBetAet il

existe une ressource bilingue liant a `aAet b `aB.

En pratique, la traduction compositionnelle (CT ) revient donc `a : 1. D ´ecomposer le terme source en composants “atomiques” (D) 2. Traduire ces composants en langue cible (T )

3. Recomposer les constituants traduits de façon à former des traductions candidates (R) 4. Filtrer les traductions candidates à l’aide d’une fonction de s élection (S) de façon à ne

retenir que les traductions correctes

La premi ère impl émentation apparaˆıt à la fin des ann ées 90 avec la publication de Grefenstette (1999). Le but de cette publication est avant tout de d émontrer l’int ér êt du Web comme ressource pour le Traitement Automatique des Langues. Toutefois, c’est aussi une d émonstration de la pertinence de l’approche compositionnelle pour g én érer la traduction d’expressions complexes. Dans son exp érience, G. Grefenstette utilise un lexique de r éf érence

1. ≪The meaning of the whole is a function of the meaning of the parts≫

construit à partir d’une ressource bilingue. Il s électionne pour l’exp érimentation 724 compos és nominaux allemands et 1 140 compos és nominaux espagnols destin és à être traduits en anglais. Pour chaque compos é nominal à traduire l’auteur s’assure que :

– il est possible de traduire le compos ´e `a partir des traductions de ses composants (mots) – la ressource bilingue contient les traductions des composants

– il est possible de construire plus d’une traduction candidate – la traduction correcte du compos ´e nominal est connue

En traduisant les compos és allemands et espagnols de façon compositionnelle, G. Grefenstette obtient 3556 traductions candidates pour l’allemand et 6186 pour l’espagnol. Les traductions candidates sont requ êt ées sur le moteur AltaVista, qui donne pour chaque requ ête, son nombre d’occurrences dans les pages index ées par le moteur. La traduction candidate retenue est celle ayant le plus grand nombre d’occurrences. En suivant cette m éthodologie, G. Grefenstette obtient respectivement 87 % et 86 % de traductions correctes pour l’allemand et l’espagnol.

Cette version de la traduction compositionnelle est él émentaire : on se contente simplement d’effectuer une traduction mot à mot, un peu à la mani ère des premiers traducteurs automatiques. Cette approche par traduction directe suppose un fort parall élisme entre langue source et langue cible et ne prend pas en compte divers ph énom ènes qui peuvent subvenir lors de la traduction.

Ces ph énom ènes sont bien connus et sont fr équemment list és dans la litt érature :

Variation morpho-syntaxique Termes source et cible ont des structures morphosyntaxiques

diff érentes, il y notamment un changement au niveau des cat égories grammaticales. Par exemple, un nom peut être traduit par un adjectif :

– thérapie génique (Nom Adjectif) → gene therapy (Nom Nom) – anti-cancer (Nom) → anti-cancéreux (Adjectif)

Variation lexicale Les langues source et cible utilisent des mots s ´emantiquement proches

mais qui ne sont pas des traductions exactes l’un de l’autre : – traduction automatique → machine translation

– mixed departmentalization → structuration mixte

Variation terminologique Un terme source peut ˆetre traduit par un terme cible ayant plusieurs

variantes, plusieurs traductions sont donc possibles :

– mixed departmentalization → d´epartementalisation mixte, structuration mixte – oophorectomy → ablation des ovaires, ovariectomie

Fertilit ´e Les termes source et cible sont de longueur diff ´erente2_:

– isothermal snowpack → manteau neigeux isotherme – oophorectomy → ablation des ovaires

Dans la suite, nous montrons comment ces ph énom ènes de variation ont ét é trait és dans les travaux exploitant le principe de compositionnalit é.

Dans le document Traduction assistée par ordinateur et corpus comparables : contributions à la traduction compositionnelle (Page 88-90)