1.2 M´ethode propos´ee
1.3.4 Mesure de la variation lexico-syntaxique des paraphrases
Mesures objectives
La raison premi`ere de notre ´etude sur la production automatique de paraphrases
´etait de produire des ensembles de phrases r´ef´erences utilisables dans l’´evaluation
automatique de la traduction automatique, par des m´ethodes fond´ees uniquement
sur l’unit´e de caract`ere. On d´esire donc que les ensembles de phrases r´ef´erences
produits pr´esentent le plus de variations lexico-syntaxiques possibles.
Nous avons ´evalu´e la variation lexico-syntaxique des paraphrases produites sur
un ´echantillon de 400 phrases d’origine, `a l’aide des mesures BLEU et NIST. Dans
le cas de la traduction automatique, on ´evalue une phrase candidate afin de juger
de la qualit´e de sa traduction par un syst`eme : le but est d’obtenir une grande
similarit´e avec les phrases de r´ef´erence. Des scores ´elev´es en BLEU ou en NIST
refl`etent pour une phrase une bonne corr´elation avec ses r´ef´erences. `A l’inverse du
cas de l’´evaluation de la traduction automatique, o`u l’on cherche `a maximiser BLEU
En effet, dans le cas de la production de paraphrases, la situation est diff´erente :
on a d´ej`a v´erifi´e, via une ´evaluation manuelle, que l’´equivalence en sens ´etait
con-serv´ee. Les mesures d’´evaluation objective ne vont donc pas ˆetre utilis´ees pour juger
la qualit´e en sens puisque cela a d´ej`a ´et´e fait. Nous d´esirons en revanche qu’au sein
d’un ensemble produit, les phrases pr´esentent le plus possible de variations
lexico-syntaxiques entre elles. Nous pr´ef´erons donc qu’elles soient le moins similaires
possi-bles entre elles afin de refl´eter l’ensemble des expressions possipossi-bles d’un mˆeme sens.
C’est pourquoi nous recherchons les scores en BLEU et en NIST les plus faibles.
Cette d´emarche n’est valable que dans le cas o`u les phrases jug´ees sont
gram-maticalement correctes, et sont r´eellement paraphrases les unes des autres. Nous
avons v´erifi´e que c’´etait le cas, les ´evaluations pr´ec´edentes ayant montr´e d’une part
que les phrases produites par notre m´ethode sont correctes grammaticalement dans
99% des cas, et d’autre part qu’elles sont des paraphrases valides de leurs phrases
d’origine dans 94% des cas.
Les mesures BLEU et NIST sont suppos´ees mesurer deux aspects
compl´emen-taires d’une traduction : respectivement lafluidit´e, et lafid´elit´e(ou l’informativit´e).
BLEU refl´eterait plutˆot la qualit´e dans la forme de l’expression20 alors que NIST
a tendance `a mesurer la qualit´e informationnelle de la traduction. En pratique, un
score BLEU est compris entre 0 et 1, alors qu’un score NIST n’est pas de born´e : il
est donc difficile de comparer des scores pour des phrases d’origine diff´erentes. Afin
de pouvoir ´etablir une telle comparaison, nous normalisons donc tout score NIST
obtenu ici par le score NIST de la phrase d’origine obtenu par calcul sur elle-mˆeme.
R´esultats
Les scores en BLEU et NIST pr´esent´es sur les figures 1.5 et 1.6, p. 122 peuvent ˆetre
interpr´et´es comme des mesures de la variation lexico-syntaxiques entre paraphrases,
comme on l’a montr´e dans le paragraphe pr´ec´edent. Sur ces figures, chaque point
repr´esente le score d’un ensemble de paraphrases calcul´e sur la phrase d’origine
correspondante (la moyenne est trac´ee en pointill´es). Plus un score est bas, et plus
grandes sont les variations dans l’ensemble de paraphrases. Les graphes de la
fi-gure 1.5 montrent que cette variation d´epend beaucoup de la longueur des phrases
d’origine. Plus les phrases d’origine sont courtes et plus la variation produite est
importante. Comme on l’a vu plus haut avec l’exemple de la phraseSure., la phase
de d´etection introduit un certain biais dans la m´ethode.
Les graphes de la figure 1.6 montrent que la variation ne d´epend pas du
nom-bre de paraphrases produites par phrase d’origine. `A l’oppos´e d’une m´ethode qui
produirait plus de variations lorsque plus de paraphrases sont produites, dans notre
m´ethode la variation ne semble pas changer significativement lorsqu’on produit des
paraphrases suppl´ementaires (mais la qualit´e grammaticale ou en ´equivalence de
sens peut varier).
La m´ethode est donc param´etrable : il est envisageable de choisir le nombre de
paraphrases `a produire `a l’avance, sans influencer les variations lexico-syntaxiques.
Comparaison avec des ensembles de paraphrases produits `a la main
La m´ethode pr´esent´ee ici permet de produire des ensembles de paraphrases pouvant
ˆetre utilis´es par exemple comme phrases r´ef´erences dans une tˆache d’´evaluation de la
20
traduction automatique. Nous avons de plus montr´e comment quantifier les variation
lexico-syntaxiques de ces paraphrases. Afin d’ˆetre complet, il ne reste donc plus qu’`a
comparer les variations lexico-syntaxiques d’ensembles produits automatiquement
par notre m´ethode, avec celles d’ensembles constitu´es `a la main pour une campagne
d’´evaluation de la traduction automatique ayant eu lieu dans le pass´e21 pour deux
paires de langues : japonais-anglais, et chinois-anglais.
Pour tous les ensembles de r´ef´erence, nous ´evaluons le score de chaque phrase
sur une phrase choisie au hasard et laiss´ee de cˆot´e22. La moyenne de ces scores
donne une indication de la variation lexico-syntaxique globale dans les ensembles
de r´ef´erences. Plus les scores sont faibles, et plus cette variation est importante.
On applique cette m´ethode aux ensembles constitu´es `a la main d’une part, et
pro-duits automatiquement d’autre part. Les scores sont rassembl´es ci-dessous dans le
tableau 1.7.
Tableau 1.7: Mesure des variations lexico-syntaxiques d’ensembles de r´ef´erences
pro-duits `a la main, et propro-duits automatiquement.
Ensemble de Moyenne Moyenne
r´ef´erences BLEU NIST
Produit automatiquement 0,11 0,39
Produit `a la main 1 0,10 0,49
Produit `a la main 2 0,11 0,49
Les scores BLEU sont comparables pour tous les ensembles de r´ef´erences. Il n’y a
donc pas de diff´erence flagrante en terme de fluidit´e de l’expression. En revanche, la
moyenne des scores NIST est plus faible : les ensembles produits automatiquement
par notre m´ethode semblent donc pr´esenter plus de variations lexico-syntaxiques
que les ensembles constitu´es `a la main.
Conclusion
Nous avons propos´e dans ce chapitre une m´ethode de production de paraphrases,
en particulier en vue de leur utilisation dans une tˆache d’´evaluation automatique
de la qualit´e de la traduction automatique avec des mesures telles que BLEU ou
NIST. La m´ethode op`ere int´egralement en caract`eres : apr`es une premi`ere d´etection
de paraphrases dans la ressource de d´epart, l’analogie proportionnelle appliqu´ee sur
les chaines de caract`eres permet de produire une grande quantit´e de phrases
can-didates. De telles phrases sont ensuite elles mˆemes filtr´ees par une m´ethode fond´ee
sur l’attestation de chaines deN caract`eres23. Dans une exp´erience, et en partant
d’une ressource de d´epart de 97 769 phrases uniques, le BTEC, nous avons ´et´e en
mesure de produire en moyenne 8,65 paraphrases pour 16 153 phrases d’origine.
Nous avons ´evalu´e par ´echantillonnage la qualit´e grammaticale des phrases
pro-duites. Elle est correcte dans au moins 99% des cas, avec un taux de confiance de
98%, et a donc une qualit´e comparable `a celle de la ressource BTEC. De plus, au
21
Il s’agit de la campagne d’´evaluation IWSLT 2004 (International Workshop for Spoken
Lan-guage Translation), qui a pris place `a Keihanna, au Japon en septembre 2004. VoirAkibaet al.,
Overview of the IWSLT04 evaluation campaign, 2004 pour plus de d´etails.
22Principe plus connu sous l’appelationleaving one out.
23moins 96% des ces phrases sont v´eritablement paraphrases et elles entretiennent
avec la phrase d’origine une relation d’´equivalence en sens ou d’implication, avec un
taux de confiance de 97%.
Enfin, nous avons propos´e une m´ethode permettant de quantifier les variations
lexico-syntaxiques d’un ensemble de paraphrases `a l’aide des mesures BLEU et NIST
calcul´ees sur la phrase d’origine. Nous avons montr´e que la quantit´e de variations
lexico-syntaxiques ne d´ependait pas du nombre de paraphrases produites, mais de
la longueur de la phrase de d´epart : plus cette phrase est courte, plus elle peut ˆetre
interpr´et´ee de fa¸cons diff´erentes en fonction du contexte o`u elle est employ´ee, ce qui
explique le nombre important de paraphrases pouvant ˆetre produites dans ce cas.
L’avantage de cette m´ethode de production de paraphrases, dans le cas o`u l’on
veut produire des phrases r´ef´erences pour l’´evaluation de la traduction automatique,
est le suivant : non seulement elle produit des phrases qui sont correctes en forme,
et qui sont v´eritablement des paraphrases, mais en outre les ensembles de
para-phrases produits pr´esentent des variations lexico-syntaxiques internes l´eg`erement
sup´erieures `a celles observ´ees dans des ensembles constitu´es manuellement.
La m´ethode fonctionne sur les caract`eres, mais les bons r´esultats obtenus le sont
dans des dimensions bien sup´erieures. Nous obtenons en effet de bons r´esultats en
termes de variation lexico-syntaxique. On attribue d’habitude de telles variations
au niveau des mots (lexique) ou des groupes de mots (syntaxe). Nous parvenons de
plus `a obtenir de vraies paraphrases, c’est-`a-dire `a agir au niveau du sens, et de la
signification (`a l’´echelle des mots et des phrases).
Une m´ethode en caract`eres a ´et´e capable de toucher `a ces niveaux, que l’on a
l’habitude de traiter par les mots et les groupes de mots, voire par des repr´esentations
s´emantiques.
0
100
200
300
400
500
600
1 10 100 1000 10000 100000
Nombre de paraphrases detectees
Nombre de phrases d’origine (log)
Figure 1.1: Nombre de paraphrases d´etect´ees, par phrase de la ressource originale.
0
50
100
150
200
250
300
350
1 10 100 1000 10000
Nombre de paraphrases generees
Nombre de phrases d’origine (log)
Figure 1.2: Nombre de phrases d’origine produisant un mˆeme nombre de
paraphra-ses.
0
50
100
150
200
250
300
350
0 10 20 30 40 50 60 70 80 90 100
Nombre de paraphrases generees
Longueur en caracteres de la phrase d’origine
Figure 1.3: Nombre de paraphrases produites en fonction de la longueur de la phrase
d’origine en caract`eres.
0
50
100
150
200
250
300
350
0 2 4 6 8 10 12 14 16 18
Nombre de paraphrases generees
Longueur en mots de la phrase d’origine
Figure 1.4: Nombre de paraphrases produites en fonction de la longueur de la phrase
d’origine en mots.
0
0.2
0.4
0.6
0.8
1
0 2 4 6 8 10 12 14
Score BLEU moyen
Longueur en mots de la phrase d’origine
0
0.2
0.4
0.6
0.8
1
0 2 4 6 8 10 12 14
Score NIST moyen
Longueur en mots de la phrase d’origine
Figure 1.5: Scores BLEU et NIST en fonction de la longueur en mots de la phrase
d’origine.
0
0.2
0.4
0.6
0.8
1
0 20 40 60 80 100 120
Score BLEU moyen
Nombre de paraphrases generees par phrase source
0
0.2
0.4
0.6
0.8
1
0 20 40 60 80 100 120
Score NIST moyen
Nombre de paraphrases generees par phrase source
Figure 1.6: Scores BLEU et NIST en fonction du nombre de paraphrases produites
par phrase d’origine.
Chapitre 2
Traduction automatique
2.1 Introduction aux probl`emes g´en´eraux de la
traduc-tion automatique
En recherche en traduction automatique, la tendance dominante actuellement est
l’approche fond´ee sur les donn´ees. L’approche fond´ee sur les donn´ees se partage
elle mˆeme entre deux sous-approches aux conceptions de d´epart tr`es diff´erentes1:
l’approche par l’exemple, et l’approche statistique. Bien qu’on assiste dans les faits
`a une tendance `a la convergence des syst`emes par l’exemple et statistiques2, les
fa¸cons de concevoir et d’approcher le probl`eme de la traduction automatique y sont
radicalement diff´erentes.
`
A l’oppos´e de l’attitude adopt´ee en traduction automatique par l’exemple, les
diff´erentes approches actuelles fond´ees sur les statistiques traitent les donn´ees
lin-guistiques comme des donn´ees quelconques, probablement parce qu’historiquement
elles utilisent des techniques provenant du domaine de la reconnaissance
automati-que de parole. Paradoxalement, alors qu’en reconnaissance automatiautomati-que de parole
on tente de reconnaitre des unit´es coh´erentes (phon`emes), qui sont en quelque sorte
la base du travail en linguistique g´en´erale, et auxquelles on applique avec plus ou
moins de bonheur des techniques de traitement du signal, en traduction
automati-que par approche statistiautomati-que, on traite traditionnellement les donn´ees en unit´e de
mot. La phrase est toujours vue comme une suite de mots, s´epar´es par des blancs
ou de la ponctuation. Dans le cas o`u ces s´eparateurs n’existent pas dans le syst`eme
d’´ecriture de la langue consid´er´ee, les donn´ees sont segment´ees pr´ealablement par
des outils sp´ecifiques.
En traduction automatique par approche statistique, la tendance la plus r´ecente
de ces derni`eres ann´ees est de travailler sur une unit´e encore plus grande que celle des
mots : apr`es une segmentation en mots, les atomes sont regroup´es statistiquement
en groupes de mots, intuitivement proches du syntagme. Ces groupes de mots sont
couramment appel´es en anglais phrases, bien que ce terme ne recouvre pas le sens
linguistique qu’il a en anglais. Unephrase statistique est une simple suite de mots.
Cette approche cherche par l`a `a g´erer des d´ependances `a plus longue distance, ainsi
qu’`a traduire des expressions complexes autrement que mot `a mot.
Le domaine de la traduction automatique statistique se heurte entre autres au
1
Pour ne pas dire antagonistes.
2On rel`eve de plus en plus d’usages d’appellations du typeExample-based SMT et mˆeme
Statis-tical EBMT, voir par exempleWu,MT model space : statistical vs. compositional vs. example-based
machine translation (EBMT-II panel on future directions of EBMT), 2005.
fait qu’elle consid`ere le mot comme atome de base. Comme nous l’avons vu, cette
unit´e n’a d’une part pas de r´ealit´e en linguistique g´en´erale, et d’autre part n´ecessite
invariablement des pr´etraitements pour ˆetre d´egag´ee. Ce probl`eme se r´epercute
comme on l’a vu dans la section 2.3 jusqu’au domaine de l’´evaluation de la
tra-duction automatique.
Apr`es avoir appliqu´e l’unit´e de caract`ere `a diverses tˆaches du traitement
automa-tique des langues, `a l’´evaluation automaautoma-tique, `a la d´etection de grammaticalit´e, `a la
caract´erisation de donn´ees et `a la g´en´eration de paraphrases, on peut l´egitimement
imaginer que l’utilisation d’une unit´e plus ´el´ementaire, incontestable et donc plus
universelle pourra de la mˆeme fa¸con apporter une plus grande simplicit´e au domaine
de la traduction automatique. L’int´erˆet de l’´etude d´ecrite ci-dessous est de proposer
une approche pour la traduction automatique enti`erement fond´ee sur le traitement
de chaines de caract`eres, et qui ne n´ecessite aucun pr´etraitement des donn´ees.
`
A la suite des travaux sur la sur la traduction automatique par analogie effectu´es
par Yves Lepage3, nous allons pr´esenter des exp´eriences qui mettent en lumi`ere les
performances d’un syst`eme de traduction automatique op´erant sur les chaines
carac-t`eres.
2.1.1 Sp´ecificit´e des donn´ees linguistiques
Nous sommes convaincu que les tˆaches de traitement automatique des langues sont
sp´ecifiques, car les donn´ees qu’on y manipule sont sp´ecifiques. Nous allons
mon-trer qu’une op´eration sp´ecifique r´ealis´ee uniquement entre chaines de caract`eres,
l’analogie, permet de traiter ´el´egamment la traduction automatique et en plus
d’arriver `a un bon compromis entre le temps de calcul et la qualit´e des r´esultats.
Contrairement `a l’approche statistique qui n´ecessite l’application de traitements
pr´ealables intensifs, cette m´ethode a l’avantage de ne n´ecessiter aucun pr´etraitement
particulier.
Toute donn´ee linguistique appartient de fait `a une langue particuli`ere, qui
cons-titue un syst`eme au sens de Saussure. Il serait plus logique de traiter des donn´ees
linguistiques par une op´eration qui saisisse la syst´ematicit´e de la langue. Une telle
syst´ematicit´e apparait de fa¸con explicite dans les commutations que pr´esentent des
analogies comme :
Je voudrais
ouvrir cette
fenˆetre.
:
Pourriez
vous ouvrir
la fenˆetre ?
::
Je voudrais
encaisser ces
ch`eques de
voyage.
:
Pourriez
vous
encaisser les
ch`eques de
voyage ?
De telles commutations font apparaitre des variations paradigmatiques et
syn-tagmatiques, et rendent possibles des variations lexicales et syntaxiques qui peuvent
ˆetre utilis´ees dans un syst`eme de traduction automatique.
Dans le document
Méthodes en caractères pour le traitement automatique des langues
(Page 117-127)