• Aucun résultat trouvé

2.2 Conception et exp ´erimentation d’un protocole d’ ´evaluation applicative

3.1.1 Principe de la traduction compositionnelle

3.1.3 Traduction compositionnelle d’unit ´es monolexicales . . . 74 3.1.4 Filtrage des traductions g ´en ´er ´ees . . . 78

3.2 Approches empiriques . . . . 81

3.2.1 Traduction par inf ´erence analogique . . . 81 3.2.2 Apprentissage de r `egles de r ´e ´ecriture de caract `eres . . . 83 3.2.3 Traitement de la variation morphologique . . . 84

3.3 Evaluation des m ´ethodes de g ´en ´eration de traductions . . . .´ 86 3.4 Perspectives de recherche . . . . 90

Introduction

Dans ce chapitre, nous pr ´esentons des m ´ethodes de g ´en ´eration de traduction. Contrairement `a des approches cherchant `a aligner des termes pr ´ed ´efinis sur la base d’une similarit ´e, la g ´en ´eration consiste `a produire une traduction `a partir de connaissances sur les ´equivalences traductionnelles d’une langue `a une autre et sur les r ´ealisations possibles en langue cible.

Une approche possible est de se baser sur la s ´emantique compositionnelle : l’unit ´e `a traduire est d ´ecompos ´ee en sous-unit ´es porteuses de sens puis ces sous-unit ´ees sont traduites et recompos ´ees de fac¸on `a former un terme en langue cible (section 3.1). Une seconde famille d’approches consiste `a s’appuyer sur des connaissances empiriques (section 3.2). Ces approches envisagent l’unit ´e `a traduire plus comme une chaˆıne de caract `eres `a r ´e ´ecrire que comme une unit ´e linguistique. La traduction est effectu ´ee gr ˆace `a des connaissances apprises automatiquement `a partir d’exemples de paires de traductions.

3.1

Approches compositionnelles

Dans cette section, nous d ´ecrivons des approches expertes bas ´ees sur le principe de compositionnalit ´e. Dans ce paradigme, les recherches se pr ´eoccupent avant tout de g ´erer des ph ´enom `enes de variation morphologique, lexicale, morphosyntaxique et de fertilit ´e. Ces approches sont utilis ´ees pour traduire des unit ´es polylexicales, qui sont d ´ecoup ´ees en mots (3.1.2), ainsi que des unit ´es monolexicales morphologiquement complexes qui sont d ´ecoup ´ees en morph `emes (3.1.3). Dans ce dernier cas, la difficult ´e est de pouvoir traiter les diff ´erentes constructions morphologiques, en plus des cas de variation et de fertilit ´e. Une fois les traductions g ´en ´er ´ees, il convient de s’assurer qu’elles sont possibles en langue cible. Pour cela, diverses m ´ethodes de s ´election et de filtrage ont ´et ´e mises au point (3.1.3).

3.1.1

Principe de la traduction compositionnelle

Le principe de compositionnalit ´e peut ˆetre ´enonc ´e ainsi (Keenan et Faltz, 1985, pp. 24-25) :

Le sens du tout est fonction du sens de ses constituants≫1

Ce principe sous-tend qu’il est possible de comprendre le sens d’une expression inconnue, pour peu que le sens de ses composants soit connu et qu’il soit possible d’en d’interpr ´eter sa structure. En se basant sur le principe de compositionnalit ´e pour g ´en ´erer des traductions, on suppose qu’il est possible de traduire une unit ´e lexicale inconnue, pour peu que l’on sache interpr ´eter sa structure, traduire chacun de ses composants et les recombiner en langue cible.

Le processus de traduction compositionnelle peut- ˆetre formalis ´e ainsi : CT (“ab”) = S(R(T (D(“ab”)))) = S(R(T ({a, b}))) = S(R({T (a) × T (b)})) = S(R({A,B})) = S({A,B}, {B,A}) = “BA”

o `u “ab” est un terme source compos ´e de a et b, “BA” est un terme cible compos ´e deBetAet il

existe une ressource bilingue liant a `aAet b `aB.

En pratique, la traduction compositionnelle (CT ) revient donc `a : 1. D ´ecomposer le terme source en composants “atomiques” (D) 2. Traduire ces composants en langue cible (T )

3. Recomposer les constituants traduits de fac¸on `a former des traductions candidates (R) 4. Filtrer les traductions candidates `a l’aide d’une fonction de s ´election (S) de fac¸on `a ne

retenir que les traductions correctes

La premi `ere impl ´ementation apparaˆıt `a la fin des ann ´ees 90 avec la publication de Grefenstette (1999). Le but de cette publication est avant tout de d ´emontrer l’int ´er ˆet du Web comme ressource pour le Traitement Automatique des Langues. Toutefois, c’est aussi une d ´emonstration de la pertinence de l’approche compositionnelle pour g ´en ´erer la traduction d’expressions complexes. Dans son exp ´erience, G. Grefenstette utilise un lexique de r ´ef ´erence

1. ≪The meaning of the whole is a function of the meaning of the parts

construit `a partir d’une ressource bilingue. Il s ´electionne pour l’exp ´erimentation 724 compos ´es nominaux allemands et 1 140 compos ´es nominaux espagnols destin ´es `a ˆetre traduits en anglais. Pour chaque compos ´e nominal `a traduire l’auteur s’assure que :

– il est possible de traduire le compos ´e `a partir des traductions de ses composants (mots) – la ressource bilingue contient les traductions des composants

– il est possible de construire plus d’une traduction candidate – la traduction correcte du compos ´e nominal est connue

En traduisant les compos ´es allemands et espagnols de fac¸on compositionnelle, G. Grefenstette obtient 3556 traductions candidates pour l’allemand et 6186 pour l’espagnol. Les traductions candidates sont requ ˆet ´ees sur le moteur AltaVista, qui donne pour chaque requ ˆete, son nombre d’occurrences dans les pages index ´ees par le moteur. La traduction candidate retenue est celle ayant le plus grand nombre d’occurrences. En suivant cette m ´ethodologie, G. Grefenstette obtient respectivement 87 % et 86 % de traductions correctes pour l’allemand et l’espagnol.

Cette version de la traduction compositionnelle est ´el ´ementaire : on se contente simplement d’effectuer une traduction mot `a mot, un peu `a la mani `ere des premiers traducteurs automatiques. Cette approche par traduction directe suppose un fort parall ´elisme entre langue source et langue cible et ne prend pas en compte divers ph ´enom `enes qui peuvent subvenir lors de la traduction.

Ces ph ´enom `enes sont bien connus et sont fr ´equemment list ´es dans la litt ´erature :

Variation morpho-syntaxique Termes source et cible ont des structures morphosyntaxiques

diff ´erentes, il y notamment un changement au niveau des cat ´egories grammaticales. Par exemple, un nom peut ˆetre traduit par un adjectif :

– th´erapie g´enique (Nom Adjectif) → gene therapy (Nom Nom) – anti-cancer (Nom) → anti-canc´ereux (Adjectif)

Variation lexicale Les langues source et cible utilisent des mots s ´emantiquement proches

mais qui ne sont pas des traductions exactes l’un de l’autre : – traduction automatique → machine translation

– mixed departmentalization → structuration mixte

Variation terminologique Un terme source peut ˆetre traduit par un terme cible ayant plusieurs

variantes, plusieurs traductions sont donc possibles :

– mixed departmentalization → d´epartementalisation mixte, structuration mixte – oophorectomy → ablation des ovaires, ovariectomie

Fertilit ´e Les termes source et cible sont de longueur diff ´erente2:

– isothermal snowpack → manteau neigeux isotherme – oophorectomy → ablation des ovaires

Dans la suite, nous montrons comment ces ph ´enom `enes de variation ont ´et ´e trait ´es dans les travaux exploitant le principe de compositionnalit ´e.