Les triggers inter-langues de séquences

Partie II Contributions à la Traduction Automatique Statistique

Chapitre 6 La traduction par séquence de mots : les triggers m-n 95

6.2 Les triggers inter-langues de séquences

6.2.1 Définition

Comme nous l’avons présenté dans le chapitre 4, les triggers inter-langues sont sélectionnés

selon la valeur de l’Information Mutuelle (IM) entre deux variables aléatoires X,Y :

IM(X =x,Y =y) =P((X =x,Y =y)log ^P⁽⁽^X ⁼^x,^Y ⁼^y⁾

P((X =x)P(Y =y) (6.1)

Dans le cas des triggers de mots (ou triggers 1-1 comme nous les avons appelés), x est un mot

de la langue source ety un mot de la langue cible. Nous avons montré dans les chapitres

précé-dents que les triggers 1-1 permettaient d’établir des correspondances lexicales de mots de bonne

qualité.

Au vu de son potentiel à établir de bonnes correspondances lexicales de mots, nous proposons

de généraliser le concept de triggers inter-langues et de l’étendre aux séquences de mots. Pour ce

faire, nous ne nous bornons plus à ce que x ety soient des mots appartenant aux vocabulaires,

mais au contraire ils peuvent tout aussi bien être une séquence de mots apparaissant dans le

corpus d’apprentissage. Ainsi, pour chaque séquence source d’au moins un mot et d’au plus m

mots, nous calculons son Information Mutuelle avec chaque séquence cible d’au moins un mot

et d’au plusn. Nous retenons alors comme triggers inter-langues, lesk séquences cibles ayant la

meilleure IM avec la séquence source. L’ensemble des k triggers m-n d’une séquence de mots f

est noté Trig-m-n

(f).

Dans la section suivante, nous menons une première étude sur les couples de séquences ainsi

révélés par les triggers de séquences.

6.2.2 Etude préalable

L’Information Mutuelle est une mesure de corrélation entre les mots. Dans le cas des triggers

1-1, nous avons vu qu’elle permettait de sélectionner des correspondances lexicales équivalentes

à des traductions. Mais cette mesure présente également le désavantage de mettre en avant des

associations dites indirectes entre les mots qui ne sont pas des traductions. C’est le cas, comme

nous l’avons vu, pour le mot français “ monsieur “ dont le premier trigger inter-langue est “ mr

“ et le deuxième “ president “. Si le premier constitue bien une traduction du mot français, en

revanche le deuxième est qualifié d’association indirecte dû au fait de rencontrer très souvent “

mr “ suivi de “ president “ dans le corpus EUROPARL (cf. figure 4.3). Calculer l’information

mutuelle entre des groupes de mots pour sélectionner des triggers de séquences permet de limiter

ce problème liée aux associations indirectes comme le montre le tableau 6.1. Il indique les 10

meilleurs triggers inter-langues de la séquence françaisemonsieur le président parmi les séquences

anglaises d’au moins un mot et d’au plus trois. Nous remarquons que monsieur le président est

plus fortement corrélé avec le groupe de mots mr president en tant qu’unité qu’avec chacun de

ses constituants pris séparément. Dans ce cas présent, l’utilisation des séquences règle également

le problème lié au fait que le motle de la séquence n’est pas traduit en Anglais.

Comme il a été dit, un des avantages que présente les séquences par rapport aux mots pour la

traduction automatique est qu’elles capturent le contexte. Par conséquent, lorsqu’un mot possède

plusieurs traductions, le problème de choisir celle qui convient ne se pose pas, puisque le mot

est considéré avec son contexte et non plus seul. Le tableau 6.2 présente les correspondances

lexicales proposées par les triggers inter-langues pour le motpièces considéré seul puis au sein de

6.2. Les triggers inter-langues de séquences 97

f e∈ Trig-m-n

k=10

(f) IM

mr president 0,078

president 0,068

mr 0,061

mr president I 0,025

monsieur le président president I 0,023

I 0,010

mr president the 0,009

president the 0,008

like to 0,006

like 0,006

Tab. 6.1 – Les 10meilleurs triggers inter-langues de la séquence monsieur le président

f e∈ Trig-m-n

(f) IM

coins 37,52

pièces notes 9,51

spare 9,39

parts 8,78

pièces justificatives receipts 0,29

spare parts 0,58

pièces détachées parts 0,40

spare 0,39

of coins 0,46

pièces de monnaies number of coins 0,33

national currency 0,28

Tab.6.2 – Triggers de séquences sélectionnés sur le corpus EUROPARL

séquences. Seul il correspond le plus fortement avec le mot anglaiscoins et avec le motnotes qui

signifiebillets en français et qui relève ici d’une association dite indirecte. Pourtant, en dehors de

son contexte,pièces peut aussi bien indiquer une pièce de monnaie, une pièce d’une maison, une

pièce automobile ou encore une pièce d’identité par exemple. A chaque contexte y correspond

une traduction différente. En procédant mot-à-mot, un système de traduction ferait difficilement

la différence entre toutes ces possibilités. Si maintenant, le système dispose de correspondances

lexicales au niveau de groupes de mots le problème est simplifié. D’après les triggers de séquences

du tableau 6.2, établir les correspondances par groupe de mot enlève toute ambiguïté en cas de

sens multiples. Ainsipièces justificatives est le plus fortement associé àreceipts,pièces détachées

à spare parts et pièces de monnaies à of coins. Même si cette dernière correspondance lexicale

ne constitue pas vraiment une traduction à cause du bruit généré par le mot outilof, elle permet

toutefois de retrouver la bonne signification en anglais et de restituer le bon contexte depièces.

D’après l’étude que nous avons menée sur les corpus EUROPARL et SSTITRES, les triggers

inter-langues de séquences semblent capables, tout comme les triggers inter-langues de mots,

d’établir des correspondances lexicales de bonne qualité. Les tableaux 6.3 et 6.4 montrent des

exemples de triggers inter-langues de séquences caractéristiques, extraits des corpus

EURO-98 Chapitre 6. La traduction par séquence de mots : les triggers m-n

PARL et SSTITRES. La première colonne montre les suites de mots déclenchentes en français.

La deuxième colonne montre les meilleures séquences anglaises déclenchées correspondantes en

utilisant les triggers inter-langues. Nous avons comparé les couples d’équivalences proposés par

les triggers inter-langues, avec ceux extraits à partir de l’alignement des mots, comme proposé

par [Koehn 03]. La troisième colonne liste les séquences les plus probables obtenues par cette

méthode de l’état de l’art appelée la méthode “ Référence ”. Pour chaque case du tableau, les

traductions sont données de la plus pertinente à la moins pertinente selon le critère utilisé

(l’In-formation Mutuelle pour les triggers de séquences, les probabilités pour la méthode de référence).

f e ∈Trig-m-n

_k₌₃

(f) Référence

let’s go let’s go

allons y ’s go let’s

let’s let

light

allumer to turn on turn

turn on

hi hi

bonjour hello good

good morning good morning

good night good night

bonne nuit good good

night good night buddy

it depends schedule I will check

ça dépend depends schedule I will

to her it depends

calm down

calme toi calm I promise

down

ok okay I

d’accord o. k. o. k. stand over

all right o.k. stand

happened get

passé what happened get pass

past get pass my

breakfast

petit déjeuner to breakfast breakfast sunday

say breakfast

press charges

porter plainte charges but you

press

Tab.6.3 – Comparaison des traductions obtenues à partir du corpus SSTITRES avec les triggers

de séquences et avec la méthode référence proposée par Koehn

Une analyse qualitative montre que les séquences déclenchées que nous obtenons sont souvent

pertinentes en terme de traduction. Par ailleurs, les triggers permettent de retrouver les sens

dif-6.3. Modèles de traduction de séquences : les triggers m-n 99

Dans le document Les Triggers Inter-langues pour la Traduction Automatique Statistique (Page 107-110)

Partie II Contributions à la Traduction Automatique Statistique

Chapitre 6 La traduction par séquence de mots : les triggers m-n 95

6.2 Les triggers inter-langues de séquences

6.2.1 Définition

Comme nous l’avons présenté dans le chapitre 4, les triggers inter-langues sont sélectionnés

selon la valeur de l’Information Mutuelle (IM) entre deux variables aléatoires X,Y :

IM(X =x,Y =y) =P((X =x,Y =y)log P((X =x,Y =y)

P((X =x)P(Y =y) (6.1)

Dans le cas des triggers de mots (ou triggers 1-1 comme nous les avons appelés), x est un mot

de la langue source ety un mot de la langue cible. Nous avons montré dans les chapitres

précé-dents que les triggers 1-1 permettaient d’établir des correspondances lexicales de mots de bonne

qualité.

Au vu de son potentiel à établir de bonnes correspondances lexicales de mots, nous proposons

de généraliser le concept de triggers inter-langues et de l’étendre aux séquences de mots. Pour ce

faire, nous ne nous bornons plus à ce que x ety soient des mots appartenant aux vocabulaires,

mais au contraire ils peuvent tout aussi bien être une séquence de mots apparaissant dans le

corpus d’apprentissage. Ainsi, pour chaque séquence source d’au moins un mot et d’au plus m

mots, nous calculons son Information Mutuelle avec chaque séquence cible d’au moins un mot

et d’au plusn. Nous retenons alors comme triggers inter-langues, lesk séquences cibles ayant la

meilleure IM avec la séquence source. L’ensemble des k triggers m-n d’une séquence de mots f

est noté Trig-m-n

(f).

Dans la section suivante, nous menons une première étude sur les couples de séquences ainsi

révélés par les triggers de séquences.

6.2.2 Etude préalable

L’Information Mutuelle est une mesure de corrélation entre les mots. Dans le cas des triggers

1-1, nous avons vu qu’elle permettait de sélectionner des correspondances lexicales équivalentes

à des traductions. Mais cette mesure présente également le désavantage de mettre en avant des

associations dites indirectes entre les mots qui ne sont pas des traductions. C’est le cas, comme

nous l’avons vu, pour le mot français “ monsieur “ dont le premier trigger inter-langue est “ mr

“ et le deuxième “ president “. Si le premier constitue bien une traduction du mot français, en

revanche le deuxième est qualifié d’association indirecte dû au fait de rencontrer très souvent “

mr “ suivi de “ president “ dans le corpus EUROPARL (cf. figure 4.3). Calculer l’information

mutuelle entre des groupes de mots pour sélectionner des triggers de séquences permet de limiter

ce problème liée aux associations indirectes comme le montre le tableau 6.1. Il indique les 10

meilleurs triggers inter-langues de la séquence françaisemonsieur le président parmi les séquences

anglaises d’au moins un mot et d’au plus trois. Nous remarquons que monsieur le président est

plus fortement corrélé avec le groupe de mots mr president en tant qu’unité qu’avec chacun de

ses constituants pris séparément. Dans ce cas présent, l’utilisation des séquences règle également

le problème lié au fait que le motle de la séquence n’est pas traduit en Anglais.

Comme il a été dit, un des avantages que présente les séquences par rapport aux mots pour la

traduction automatique est qu’elles capturent le contexte. Par conséquent, lorsqu’un mot possède

plusieurs traductions, le problème de choisir celle qui convient ne se pose pas, puisque le mot

est considéré avec son contexte et non plus seul. Le tableau 6.2 présente les correspondances

lexicales proposées par les triggers inter-langues pour le motpièces considéré seul puis au sein de

6.2. Les triggers inter-langues de séquences 97

f e∈ Trig-m-n

(f) IM

mr president 0,078

president 0,068

mr 0,061

mr president I 0,025

monsieur le président president I 0,023

I 0,010

mr president the 0,009

president the 0,008

like to 0,006

like 0,006

Tab. 6.1 – Les 10meilleurs triggers inter-langues de la séquence monsieur le président

f e∈ Trig-m-n

(f) IM

coins 37,52

pièces notes 9,51

spare 9,39

parts 8,78

pièces justificatives receipts 0,29

spare parts 0,58

pièces détachées parts 0,40

spare 0,39

of coins 0,46

pièces de monnaies number of coins 0,33

national currency 0,28

Tab.6.2 – Triggers de séquences sélectionnés sur le corpus EUROPARL

séquences. Seul il correspond le plus fortement avec le mot anglaiscoins et avec le motnotes qui

signifiebillets en français et qui relève ici d’une association dite indirecte. Pourtant, en dehors de

son contexte,pièces peut aussi bien indiquer une pièce de monnaie, une pièce d’une maison, une

pièce automobile ou encore une pièce d’identité par exemple. A chaque contexte y correspond

une traduction différente. En procédant mot-à-mot, un système de traduction ferait difficilement

la différence entre toutes ces possibilités. Si maintenant, le système dispose de correspondances

IM(X =x,Y =y) =P((X =x,Y =y)log ^P⁽⁽^X ⁼^x,^Y ⁼^y⁾