Partie II Contributions à la Traduction Automatique Statistique
Chapitre 6 La traduction par séquence de mots : les triggers m-n 95
6.2 Les triggers inter-langues de séquences
6.2.1 Définition
Comme nous l’avons présenté dans le chapitre 4, les triggers inter-langues sont sélectionnés
selon la valeur de l’Information Mutuelle (IM) entre deux variables aléatoires X,Y :
IM(X =x,Y =y) =P((X =x,Y =y)log P((X =x,Y =y)
P((X =x)P(Y =y) (6.1)
Dans le cas des triggers de mots (ou triggers 1-1 comme nous les avons appelés), x est un mot
de la langue source ety un mot de la langue cible. Nous avons montré dans les chapitres
précé-dents que les triggers 1-1 permettaient d’établir des correspondances lexicales de mots de bonne
qualité.
Au vu de son potentiel à établir de bonnes correspondances lexicales de mots, nous proposons
de généraliser le concept de triggers inter-langues et de l’étendre aux séquences de mots. Pour ce
faire, nous ne nous bornons plus à ce que x ety soient des mots appartenant aux vocabulaires,
mais au contraire ils peuvent tout aussi bien être une séquence de mots apparaissant dans le
corpus d’apprentissage. Ainsi, pour chaque séquence source d’au moins un mot et d’au plus m
mots, nous calculons son Information Mutuelle avec chaque séquence cible d’au moins un mot
et d’au plusn. Nous retenons alors comme triggers inter-langues, lesk séquences cibles ayant la
meilleure IM avec la séquence source. L’ensemble des k triggers m-n d’une séquence de mots f
est noté Trig-m-n
k(f).
Dans la section suivante, nous menons une première étude sur les couples de séquences ainsi
révélés par les triggers de séquences.
6.2.2 Etude préalable
L’Information Mutuelle est une mesure de corrélation entre les mots. Dans le cas des triggers
1-1, nous avons vu qu’elle permettait de sélectionner des correspondances lexicales équivalentes
à des traductions. Mais cette mesure présente également le désavantage de mettre en avant des
associations dites indirectes entre les mots qui ne sont pas des traductions. C’est le cas, comme
nous l’avons vu, pour le mot français “ monsieur “ dont le premier trigger inter-langue est “ mr
“ et le deuxième “ president “. Si le premier constitue bien une traduction du mot français, en
revanche le deuxième est qualifié d’association indirecte dû au fait de rencontrer très souvent “
mr “ suivi de “ president “ dans le corpus EUROPARL (cf. figure 4.3). Calculer l’information
mutuelle entre des groupes de mots pour sélectionner des triggers de séquences permet de limiter
ce problème liée aux associations indirectes comme le montre le tableau 6.1. Il indique les 10
meilleurs triggers inter-langues de la séquence françaisemonsieur le président parmi les séquences
anglaises d’au moins un mot et d’au plus trois. Nous remarquons que monsieur le président est
plus fortement corrélé avec le groupe de mots mr president en tant qu’unité qu’avec chacun de
ses constituants pris séparément. Dans ce cas présent, l’utilisation des séquences règle également
le problème lié au fait que le motle de la séquence n’est pas traduit en Anglais.
Comme il a été dit, un des avantages que présente les séquences par rapport aux mots pour la
traduction automatique est qu’elles capturent le contexte. Par conséquent, lorsqu’un mot possède
plusieurs traductions, le problème de choisir celle qui convient ne se pose pas, puisque le mot
est considéré avec son contexte et non plus seul. Le tableau 6.2 présente les correspondances
lexicales proposées par les triggers inter-langues pour le motpièces considéré seul puis au sein de
6.2. Les triggers inter-langues de séquences 97
f e∈ Trig-m-n
k=10(f) IM
mr president 0,078
president 0,068
mr 0,061
mr president I 0,025
monsieur le président president I 0,023
I 0,010
mr president the 0,009
president the 0,008
like to 0,006
like 0,006
Tab. 6.1 – Les 10meilleurs triggers inter-langues de la séquence monsieur le président
f e∈ Trig-m-n
k(f) IM
coins 37,52
pièces notes 9,51
spare 9,39
parts 8,78
pièces justificatives receipts 0,29
spare parts 0,58
pièces détachées parts 0,40
spare 0,39
of coins 0,46
pièces de monnaies number of coins 0,33
national currency 0,28
Tab.6.2 – Triggers de séquences sélectionnés sur le corpus EUROPARL
séquences. Seul il correspond le plus fortement avec le mot anglaiscoins et avec le motnotes qui
signifiebillets en français et qui relève ici d’une association dite indirecte. Pourtant, en dehors de
son contexte,pièces peut aussi bien indiquer une pièce de monnaie, une pièce d’une maison, une
pièce automobile ou encore une pièce d’identité par exemple. A chaque contexte y correspond
une traduction différente. En procédant mot-à-mot, un système de traduction ferait difficilement
la différence entre toutes ces possibilités. Si maintenant, le système dispose de correspondances
lexicales au niveau de groupes de mots le problème est simplifié. D’après les triggers de séquences
du tableau 6.2, établir les correspondances par groupe de mot enlève toute ambiguïté en cas de
sens multiples. Ainsipièces justificatives est le plus fortement associé àreceipts,pièces détachées
à spare parts et pièces de monnaies à of coins. Même si cette dernière correspondance lexicale
ne constitue pas vraiment une traduction à cause du bruit généré par le mot outilof, elle permet
toutefois de retrouver la bonne signification en anglais et de restituer le bon contexte depièces.
D’après l’étude que nous avons menée sur les corpus EUROPARL et SSTITRES, les triggers
inter-langues de séquences semblent capables, tout comme les triggers inter-langues de mots,
d’établir des correspondances lexicales de bonne qualité. Les tableaux 6.3 et 6.4 montrent des
exemples de triggers inter-langues de séquences caractéristiques, extraits des corpus
EURO-98 Chapitre 6. La traduction par séquence de mots : les triggers m-n
PARL et SSTITRES. La première colonne montre les suites de mots déclenchentes en français.
La deuxième colonne montre les meilleures séquences anglaises déclenchées correspondantes en
utilisant les triggers inter-langues. Nous avons comparé les couples d’équivalences proposés par
les triggers inter-langues, avec ceux extraits à partir de l’alignement des mots, comme proposé
par [Koehn 03]. La troisième colonne liste les séquences les plus probables obtenues par cette
méthode de l’état de l’art appelée la méthode “ Référence ”. Pour chaque case du tableau, les
traductions sont données de la plus pertinente à la moins pertinente selon le critère utilisé
(l’In-formation Mutuelle pour les triggers de séquences, les probabilités pour la méthode de référence).
f e ∈Trig-m-n
k=3(f) Référence
let’s go let’s go
allons y ’s go let’s
let’s let
light
allumer to turn on turn
turn on
hi hi
bonjour hello good
good morning good morning
good night good night
bonne nuit good good
night good night buddy
it depends schedule I will check
ça dépend depends schedule I will
to her it depends
calm down
calme toi calm I promise
down
ok okay I
d’accord o. k. o. k. stand over
all right o.k. stand
happened get
passé what happened get pass
past get pass my
breakfast
petit déjeuner to breakfast breakfast sunday
say breakfast
press charges
porter plainte charges but you
press
Tab.6.3 – Comparaison des traductions obtenues à partir du corpus SSTITRES avec les triggers
de séquences et avec la méthode référence proposée par Koehn
Une analyse qualitative montre que les séquences déclenchées que nous obtenons sont souvent
pertinentes en terme de traduction. Par ailleurs, les triggers permettent de retrouver les sens
dif-6.3. Modèles de traduction de séquences : les triggers m-n 99
Dans le document
Les Triggers Inter-langues pour la Traduction Automatique Statistique
(Page 107-110)