• Aucun résultat trouvé

Mesure de la variation lexico-syntaxique des paraphrases

1.2 M´ethode propos´ee

1.3.4 Mesure de la variation lexico-syntaxique des paraphrases

Mesures objectives

La raison premi`ere de notre ´etude sur la production automatique de paraphrases

´etait de produire des ensembles de phrases r´ef´erences utilisables dans l’´evaluation

automatique de la traduction automatique, par des m´ethodes fond´ees uniquement

sur l’unit´e de caract`ere. On d´esire donc que les ensembles de phrases r´ef´erences

produits pr´esentent le plus de variations lexico-syntaxiques possibles.

Nous avons ´evalu´e la variation lexico-syntaxique des paraphrases produites sur

un ´echantillon de 400 phrases d’origine, `a l’aide des mesures BLEU et NIST. Dans

le cas de la traduction automatique, on ´evalue une phrase candidate afin de juger

de la qualit´e de sa traduction par un syst`eme : le but est d’obtenir une grande

similarit´e avec les phrases de r´ef´erence. Des scores ´elev´es en BLEU ou en NIST

refl`etent pour une phrase une bonne corr´elation avec ses r´ef´erences. `A l’inverse du

cas de l’´evaluation de la traduction automatique, o`u l’on cherche `a maximiser BLEU

En effet, dans le cas de la production de paraphrases, la situation est diff´erente :

on a d´ej`a v´erifi´e, via une ´evaluation manuelle, que l’´equivalence en sens ´etait

con-serv´ee. Les mesures d’´evaluation objective ne vont donc pas ˆetre utilis´ees pour juger

la qualit´e en sens puisque cela a d´ej`a ´et´e fait. Nous d´esirons en revanche qu’au sein

d’un ensemble produit, les phrases pr´esentent le plus possible de variations

lexico-syntaxiques entre elles. Nous pr´ef´erons donc qu’elles soient le moins similaires

possi-bles entre elles afin de refl´eter l’ensemble des expressions possipossi-bles d’un mˆeme sens.

C’est pourquoi nous recherchons les scores en BLEU et en NIST les plus faibles.

Cette d´emarche n’est valable que dans le cas o`u les phrases jug´ees sont

gram-maticalement correctes, et sont r´eellement paraphrases les unes des autres. Nous

avons v´erifi´e que c’´etait le cas, les ´evaluations pr´ec´edentes ayant montr´e d’une part

que les phrases produites par notre m´ethode sont correctes grammaticalement dans

99% des cas, et d’autre part qu’elles sont des paraphrases valides de leurs phrases

d’origine dans 94% des cas.

Les mesures BLEU et NIST sont suppos´ees mesurer deux aspects

compl´emen-taires d’une traduction : respectivement lafluidit´e, et lafid´elit´e(ou l’informativit´e).

BLEU refl´eterait plutˆot la qualit´e dans la forme de l’expression20 alors que NIST

a tendance `a mesurer la qualit´e informationnelle de la traduction. En pratique, un

score BLEU est compris entre 0 et 1, alors qu’un score NIST n’est pas de born´e : il

est donc difficile de comparer des scores pour des phrases d’origine diff´erentes. Afin

de pouvoir ´etablir une telle comparaison, nous normalisons donc tout score NIST

obtenu ici par le score NIST de la phrase d’origine obtenu par calcul sur elle-mˆeme.

R´esultats

Les scores en BLEU et NIST pr´esent´es sur les figures 1.5 et 1.6, p. 122 peuvent ˆetre

interpr´et´es comme des mesures de la variation lexico-syntaxiques entre paraphrases,

comme on l’a montr´e dans le paragraphe pr´ec´edent. Sur ces figures, chaque point

repr´esente le score d’un ensemble de paraphrases calcul´e sur la phrase d’origine

correspondante (la moyenne est trac´ee en pointill´es). Plus un score est bas, et plus

grandes sont les variations dans l’ensemble de paraphrases. Les graphes de la

fi-gure 1.5 montrent que cette variation d´epend beaucoup de la longueur des phrases

d’origine. Plus les phrases d’origine sont courtes et plus la variation produite est

importante. Comme on l’a vu plus haut avec l’exemple de la phraseSure., la phase

de d´etection introduit un certain biais dans la m´ethode.

Les graphes de la figure 1.6 montrent que la variation ne d´epend pas du

nom-bre de paraphrases produites par phrase d’origine. `A l’oppos´e d’une m´ethode qui

produirait plus de variations lorsque plus de paraphrases sont produites, dans notre

m´ethode la variation ne semble pas changer significativement lorsqu’on produit des

paraphrases suppl´ementaires (mais la qualit´e grammaticale ou en ´equivalence de

sens peut varier).

La m´ethode est donc param´etrable : il est envisageable de choisir le nombre de

paraphrases `a produire `a l’avance, sans influencer les variations lexico-syntaxiques.

Comparaison avec des ensembles de paraphrases produits `a la main

La m´ethode pr´esent´ee ici permet de produire des ensembles de paraphrases pouvant

ˆetre utilis´es par exemple comme phrases r´ef´erences dans une tˆache d’´evaluation de la

20

traduction automatique. Nous avons de plus montr´e comment quantifier les variation

lexico-syntaxiques de ces paraphrases. Afin d’ˆetre complet, il ne reste donc plus qu’`a

comparer les variations lexico-syntaxiques d’ensembles produits automatiquement

par notre m´ethode, avec celles d’ensembles constitu´es `a la main pour une campagne

d’´evaluation de la traduction automatique ayant eu lieu dans le pass´e21 pour deux

paires de langues : japonais-anglais, et chinois-anglais.

Pour tous les ensembles de r´ef´erence, nous ´evaluons le score de chaque phrase

sur une phrase choisie au hasard et laiss´ee de cˆot´e22. La moyenne de ces scores

donne une indication de la variation lexico-syntaxique globale dans les ensembles

de r´ef´erences. Plus les scores sont faibles, et plus cette variation est importante.

On applique cette m´ethode aux ensembles constitu´es `a la main d’une part, et

pro-duits automatiquement d’autre part. Les scores sont rassembl´es ci-dessous dans le

tableau 1.7.

Tableau 1.7: Mesure des variations lexico-syntaxiques d’ensembles de r´ef´erences

pro-duits `a la main, et propro-duits automatiquement.

Ensemble de Moyenne Moyenne

r´ef´erences BLEU NIST

Produit automatiquement 0,11 0,39

Produit `a la main 1 0,10 0,49

Produit `a la main 2 0,11 0,49

Les scores BLEU sont comparables pour tous les ensembles de r´ef´erences. Il n’y a

donc pas de diff´erence flagrante en terme de fluidit´e de l’expression. En revanche, la

moyenne des scores NIST est plus faible : les ensembles produits automatiquement

par notre m´ethode semblent donc pr´esenter plus de variations lexico-syntaxiques

que les ensembles constitu´es `a la main.

Conclusion

Nous avons propos´e dans ce chapitre une m´ethode de production de paraphrases,

en particulier en vue de leur utilisation dans une tˆache d’´evaluation automatique

de la qualit´e de la traduction automatique avec des mesures telles que BLEU ou

NIST. La m´ethode op`ere int´egralement en caract`eres : apr`es une premi`ere d´etection

de paraphrases dans la ressource de d´epart, l’analogie proportionnelle appliqu´ee sur

les chaines de caract`eres permet de produire une grande quantit´e de phrases

can-didates. De telles phrases sont ensuite elles mˆemes filtr´ees par une m´ethode fond´ee

sur l’attestation de chaines deN caract`eres23. Dans une exp´erience, et en partant

d’une ressource de d´epart de 97 769 phrases uniques, le BTEC, nous avons ´et´e en

mesure de produire en moyenne 8,65 paraphrases pour 16 153 phrases d’origine.

Nous avons ´evalu´e par ´echantillonnage la qualit´e grammaticale des phrases

pro-duites. Elle est correcte dans au moins 99% des cas, avec un taux de confiance de

98%, et a donc une qualit´e comparable `a celle de la ressource BTEC. De plus, au

21

Il s’agit de la campagne d’´evaluation IWSLT 2004 (International Workshop for Spoken

Lan-guage Translation), qui a pris place `a Keihanna, au Japon en septembre 2004. VoirAkibaet al.,

Overview of the IWSLT04 evaluation campaign, 2004 pour plus de d´etails.

22

Principe plus connu sous l’appelationleaving one out.

23

moins 96% des ces phrases sont v´eritablement paraphrases et elles entretiennent

avec la phrase d’origine une relation d’´equivalence en sens ou d’implication, avec un

taux de confiance de 97%.

Enfin, nous avons propos´e une m´ethode permettant de quantifier les variations

lexico-syntaxiques d’un ensemble de paraphrases `a l’aide des mesures BLEU et NIST

calcul´ees sur la phrase d’origine. Nous avons montr´e que la quantit´e de variations

lexico-syntaxiques ne d´ependait pas du nombre de paraphrases produites, mais de

la longueur de la phrase de d´epart : plus cette phrase est courte, plus elle peut ˆetre

interpr´et´ee de fa¸cons diff´erentes en fonction du contexte o`u elle est employ´ee, ce qui

explique le nombre important de paraphrases pouvant ˆetre produites dans ce cas.

L’avantage de cette m´ethode de production de paraphrases, dans le cas o`u l’on

veut produire des phrases r´ef´erences pour l’´evaluation de la traduction automatique,

est le suivant : non seulement elle produit des phrases qui sont correctes en forme,

et qui sont v´eritablement des paraphrases, mais en outre les ensembles de

para-phrases produits pr´esentent des variations lexico-syntaxiques internes l´eg`erement

sup´erieures `a celles observ´ees dans des ensembles constitu´es manuellement.

La m´ethode fonctionne sur les caract`eres, mais les bons r´esultats obtenus le sont

dans des dimensions bien sup´erieures. Nous obtenons en effet de bons r´esultats en

termes de variation lexico-syntaxique. On attribue d’habitude de telles variations

au niveau des mots (lexique) ou des groupes de mots (syntaxe). Nous parvenons de

plus `a obtenir de vraies paraphrases, c’est-`a-dire `a agir au niveau du sens, et de la

signification (`a l’´echelle des mots et des phrases).

Une m´ethode en caract`eres a ´et´e capable de toucher `a ces niveaux, que l’on a

l’habitude de traiter par les mots et les groupes de mots, voire par des repr´esentations

s´emantiques.

0

100

200

300

400

500

600

1 10 100 1000 10000 100000

Nombre de paraphrases detectees

Nombre de phrases d’origine (log)

Figure 1.1: Nombre de paraphrases d´etect´ees, par phrase de la ressource originale.

0

50

100

150

200

250

300

350

1 10 100 1000 10000

Nombre de paraphrases generees

Nombre de phrases d’origine (log)

Figure 1.2: Nombre de phrases d’origine produisant un mˆeme nombre de

paraphra-ses.

0

50

100

150

200

250

300

350

0 10 20 30 40 50 60 70 80 90 100

Nombre de paraphrases generees

Longueur en caracteres de la phrase d’origine

Figure 1.3: Nombre de paraphrases produites en fonction de la longueur de la phrase

d’origine en caract`eres.

0

50

100

150

200

250

300

350

0 2 4 6 8 10 12 14 16 18

Nombre de paraphrases generees

Longueur en mots de la phrase d’origine

Figure 1.4: Nombre de paraphrases produites en fonction de la longueur de la phrase

d’origine en mots.

0

0.2

0.4

0.6

0.8

1

0 2 4 6 8 10 12 14

Score BLEU moyen

Longueur en mots de la phrase d’origine

0

0.2

0.4

0.6

0.8

1

0 2 4 6 8 10 12 14

Score NIST moyen

Longueur en mots de la phrase d’origine

Figure 1.5: Scores BLEU et NIST en fonction de la longueur en mots de la phrase

d’origine.

0

0.2

0.4

0.6

0.8

1

0 20 40 60 80 100 120

Score BLEU moyen

Nombre de paraphrases generees par phrase source

0

0.2

0.4

0.6

0.8

1

0 20 40 60 80 100 120

Score NIST moyen

Nombre de paraphrases generees par phrase source

Figure 1.6: Scores BLEU et NIST en fonction du nombre de paraphrases produites

par phrase d’origine.

Chapitre 2

Traduction automatique

2.1 Introduction aux probl`emes g´en´eraux de la

traduc-tion automatique

En recherche en traduction automatique, la tendance dominante actuellement est

l’approche fond´ee sur les donn´ees. L’approche fond´ee sur les donn´ees se partage

elle mˆeme entre deux sous-approches aux conceptions de d´epart tr`es diff´erentes1:

l’approche par l’exemple, et l’approche statistique. Bien qu’on assiste dans les faits

`a une tendance `a la convergence des syst`emes par l’exemple et statistiques2, les

fa¸cons de concevoir et d’approcher le probl`eme de la traduction automatique y sont

radicalement diff´erentes.

`

A l’oppos´e de l’attitude adopt´ee en traduction automatique par l’exemple, les

diff´erentes approches actuelles fond´ees sur les statistiques traitent les donn´ees

lin-guistiques comme des donn´ees quelconques, probablement parce qu’historiquement

elles utilisent des techniques provenant du domaine de la reconnaissance

automati-que de parole. Paradoxalement, alors qu’en reconnaissance automatiautomati-que de parole

on tente de reconnaitre des unit´es coh´erentes (phon`emes), qui sont en quelque sorte

la base du travail en linguistique g´en´erale, et auxquelles on applique avec plus ou

moins de bonheur des techniques de traitement du signal, en traduction

automati-que par approche statistiautomati-que, on traite traditionnellement les donn´ees en unit´e de

mot. La phrase est toujours vue comme une suite de mots, s´epar´es par des blancs

ou de la ponctuation. Dans le cas o`u ces s´eparateurs n’existent pas dans le syst`eme

d’´ecriture de la langue consid´er´ee, les donn´ees sont segment´ees pr´ealablement par

des outils sp´ecifiques.

En traduction automatique par approche statistique, la tendance la plus r´ecente

de ces derni`eres ann´ees est de travailler sur une unit´e encore plus grande que celle des

mots : apr`es une segmentation en mots, les atomes sont regroup´es statistiquement

en groupes de mots, intuitivement proches du syntagme. Ces groupes de mots sont

couramment appel´es en anglais phrases, bien que ce terme ne recouvre pas le sens

linguistique qu’il a en anglais. Unephrase statistique est une simple suite de mots.

Cette approche cherche par l`a `a g´erer des d´ependances `a plus longue distance, ainsi

qu’`a traduire des expressions complexes autrement que mot `a mot.

Le domaine de la traduction automatique statistique se heurte entre autres au

1

Pour ne pas dire antagonistes.

2

On rel`eve de plus en plus d’usages d’appellations du typeExample-based SMT et mˆeme

Statis-tical EBMT, voir par exempleWu,MT model space : statistical vs. compositional vs. example-based

machine translation (EBMT-II panel on future directions of EBMT), 2005.

fait qu’elle consid`ere le mot comme atome de base. Comme nous l’avons vu, cette

unit´e n’a d’une part pas de r´ealit´e en linguistique g´en´erale, et d’autre part n´ecessite

invariablement des pr´etraitements pour ˆetre d´egag´ee. Ce probl`eme se r´epercute

comme on l’a vu dans la section 2.3 jusqu’au domaine de l’´evaluation de la

tra-duction automatique.

Apr`es avoir appliqu´e l’unit´e de caract`ere `a diverses tˆaches du traitement

automa-tique des langues, `a l’´evaluation automaautoma-tique, `a la d´etection de grammaticalit´e, `a la

caract´erisation de donn´ees et `a la g´en´eration de paraphrases, on peut l´egitimement

imaginer que l’utilisation d’une unit´e plus ´el´ementaire, incontestable et donc plus

universelle pourra de la mˆeme fa¸con apporter une plus grande simplicit´e au domaine

de la traduction automatique. L’int´erˆet de l’´etude d´ecrite ci-dessous est de proposer

une approche pour la traduction automatique enti`erement fond´ee sur le traitement

de chaines de caract`eres, et qui ne n´ecessite aucun pr´etraitement des donn´ees.

`

A la suite des travaux sur la sur la traduction automatique par analogie effectu´es

par Yves Lepage3, nous allons pr´esenter des exp´eriences qui mettent en lumi`ere les

performances d’un syst`eme de traduction automatique op´erant sur les chaines

carac-t`eres.

2.1.1 Sp´ecificit´e des donn´ees linguistiques

Nous sommes convaincu que les tˆaches de traitement automatique des langues sont

sp´ecifiques, car les donn´ees qu’on y manipule sont sp´ecifiques. Nous allons

mon-trer qu’une op´eration sp´ecifique r´ealis´ee uniquement entre chaines de caract`eres,

l’analogie, permet de traiter ´el´egamment la traduction automatique et en plus

d’arriver `a un bon compromis entre le temps de calcul et la qualit´e des r´esultats.

Contrairement `a l’approche statistique qui n´ecessite l’application de traitements

pr´ealables intensifs, cette m´ethode a l’avantage de ne n´ecessiter aucun pr´etraitement

particulier.

Toute donn´ee linguistique appartient de fait `a une langue particuli`ere, qui

cons-titue un syst`eme au sens de Saussure. Il serait plus logique de traiter des donn´ees

linguistiques par une op´eration qui saisisse la syst´ematicit´e de la langue. Une telle

syst´ematicit´e apparait de fa¸con explicite dans les commutations que pr´esentent des

analogies comme :

Je voudrais

ouvrir cette

fenˆetre.

:

Pourriez

vous ouvrir

la fenˆetre ?

::

Je voudrais

encaisser ces

ch`eques de

voyage.

:

Pourriez

vous

encaisser les

ch`eques de

voyage ?

De telles commutations font apparaitre des variations paradigmatiques et

syn-tagmatiques, et rendent possibles des variations lexicales et syntaxiques qui peuvent

ˆetre utilis´ees dans un syst`eme de traduction automatique.