• Aucun résultat trouvé

2.3 Illustration pr´eliminaire de l’int´erˆet des m´ethodes en caract`eres

2.3.4 Discussion

Dans cette ´etude pr´eliminaire, nous avons ´etudi´e l’application d’une m´ethode bien

connue d’´evaluation de la traduction automatique en prenant le caract`ere au lieu

du mot comme unit´e55. Nous avons recherch´e une ´equivalence entre une m´ethode

53

C’est mˆeme l`a que r´eside l’int´erˆet de notre ´etude : transposer une m´ethode d’´evaluation

au-tomatique dans une langue o`u elle ´etait jusque l`a inapplicable.

54

La ressource BTEC ´etant constitu´ee de couples de phrases recueillis dans des livrets publi´es au

Japon, il est en effet probable que l’int´egralit´e du contenu ait ´et´e traduit du japonais `a l’anglais.

55

Denoual & Lepage, BLEU in characters: towards automatic MT evaluation in languages

appliqu´ee en chaines deN mots, puis la mˆeme en chaines deM caract`eres. Cela nous

a permis de mettre en ´evidence une forte corr´elation, un bon accord de jugement

grˆace au calcul du Kappa, ainsi qu’une similarit´e de comportement vis-`a-vis du rang

inf´erieur, pour des valeurs correspondantes deM et N.

Pour la valeur la plus couramment utilis´ee pour l’anglais N = 4, nous avons

d´etermin´e une valeur correspondante en caract`eres de M = 18. D’autre part, en

examinant la granulation apparente de la mesure en mots, nous avons d´etermin´e de

fa¸con exp´erimentale une proc´edure de conversion pour des phrases individuelles :

BLEUc18≃BLEUw4±0,078

Cette ´etude pr´eliminaire ouvre donc le chemin `a l’application de la m´ethode

BLEU d’´evaluation de la traduction automatique `a des langues d´epourvues de

seg-mentation imm´ediate en mots, telles que le chinois, le japonais, ou le tha¨ı. Cela

ouvre aussi des perpectives de travaux futurs : au del`a des r´esultats donn´es en fin de

section 2.3.3, il restera `a ´evaluer de mani`ere extensive et dans chaque langue cible

consid´er´ee la corr´elation entre jugement humain et la m´ethode BLEU en caract`eres.

Il serait d’autre part int´eressant de v´erifier la possibilit´e d’une transposition

simi-laire des autres mesures automatiques fond´ees sur l’attestation de chaines de N

unit´es, telles que NIST ou mWER56.

Conclusion

Dans ce chapitre, apr`es avoir fait une revue des probl`emes li´es `a l’atomicit´e des

donn´ees en traitement automatique des langues, nous avons examin´e une tˆache

pr´ecise au cours d’une exp´erience pr´eliminaire. Pour la tˆache d’´evaluation

automa-tique de la traduction automaautoma-tique, notre ´etude a montr´e que l’utilisation d’un

atome plus petit que le mot, en l’occurrence le caract`ere, permettait de contourner

les probl`emes de segmentation du texte `a traiter tout en produisant des r´esultats

corr´el´es `a ceux obtenus en unit´e de mot. Ces r´esultats encourageants justifient donc

une ´etude plus large sur d’autres applications en traitement automatique des

lan-gues.

56

En ce qui concerne une transposition de la m´ethode NIST, voir les r´eserves exprim´ees en

conclusion de l’annexe B.

Partie II

Introduction

Nous avons vu dans la partie I que les applications du traitement automatique des

langues sont diverses, et qu’elles mettent en relation des comp´etences

pluridisci-plinaires. `A travers une classification des m´ethodes utilis´ees en traitement

auto-matique des langues, nous avons mis en ´evidence des diff´erences m´ethodologiques

importantes au sein mˆeme des m´ethodes fond´ees sur les donn´ees : ces diff´erences

tiennent notamment aux divers degr´es de pr´etraitement qui sont appliqu´es aux

donn´ees utilis´ees.

Les m´ethodes par mod`eles de Markov, les m´ethodes classificatoires, ainsi que

les m´ethodes statistiques n´ecessitent toutes des pr´etraitements importants sur les

donn´ees avant d’ˆetre mises en œuvre : compilation pour les mod`eles de Markov,

extraction de traits pour les m´ethodes classificatoires, et phase d’apprentissage pour

les m´ethodes statistiques. Une id´ee r´epandue est que les m´ethodes fond´ees sur les

donn´ees sont moins couteuses en temps et en travail humain que les m´ethodes

fond´ees sur la connaissance, puisqu’elles visent `a ˆetre enti`erement automatiques,

et non supervis´ees. Pourtant, bien qu’il soit vrai que ces m´ethodes soient moins

couteuses en intervention humaine lors de l’ex´ecution, les pr´etraitements qu’elles

n´ecessitent sont en revanche extrˆemement couteux. En premier lieu, ces

pr´etraite-ments n´ecessitent une d´ecoupe en unit´es textuelles de base. Nous avons montr´e que

la n´ecessit´e d’une telle d´ecoupe engendre plusieurs probl`emes m´ethodologiques, et

avons propos´e l’utilisation d’une autre unit´e plus petite afin de les contourner : le

caract`ere. Dans une exp´erience pr´eliminaire portant sur l’´evaluation automatique

de la traduction automatique, nous avons montr´e l’int´erˆet de l’utilisation du

carac-t`ere qui, parce qu’elle produit des r´esultats comparables `a ceux obtenus avec l’unit´e

traditionnelle du mot, ´elimine donc la n´ecessit´e de pr´etraiter les donn´ees.

Nous proposons dans cette partie d’appliquer l’unit´e de caract`ere au

traite-ment automatique des donn´ees linguistiques. L’´etude pr´eliminaire en ´evaluation

de la traduction automatique pr´esentant des r´esultats prometteurs, nous essayons

d’´elargir nos r´esultats prometteurs `a d’autres tˆaches. Nous examinons donc deux

autres tˆaches de traitement des donn´ees linguistiques : le filtrage de la

grammati-calit´e, et la caract´erisation automatique de donn´ees linguistiques.

Ces deux applications utilisent l’unit´e de caract`ere dans le cadre des m´ethodes

N-grammes. `A cet effet, nous faisons tout d’abord en annexe C une introduction et

des rappels en th´eorie de l’information appliqu´ee au traitement des langues : nous

exposons ainsi l’int´erˆet que peut avoir une mod´elisation statistique en traitement

automatique des langues, et clarifions des m´ethodes souvent utilis´ees mais parfois

mal comprises. Ensuite, nous ´etudions l’utilisation de l’unit´e de caract`ere dans le

cadre du filtrage automatique de grammaticalit´e : nous montrons que des techniques

simples fond´ees sur l’unit´e de caract`ere permettent d’arriver `a des performances

satisfaisantes, tout en r´eduisant le probl`eme de la raret´e des donn´ees et en

permet-tant l’application de la technique ind´ependamment de la langue consid´er´ee, sans

n´ecessit´e de pr´etraitement. Les r´esultats de cette ´etude sont appliqu´es par la suite,

dans le cadre de la g´en´eration automatique de donn´ees linguistiques particuli`eres,

des paraphrases (voir partie III, chapitre 1).

Enfin, nous nous int´eressons `a un probl`eme souvent n´eglig´e alors mˆeme que la

tendance actuelle en traitement automatique des langues est d’utiliser intensivement

de grandes quantit´es de donn´ees : la caract´erisation automatique et multilingue de

donn´ees linguistiques. Nous montrons que l’application de techniques en unit´e de

caract`ere permet le profilage rapide de grandes quantit´es de donn´ees sur des langues

comme l’anglais ou le japonais. Nous d´efinissons une mesure de similarit´e des

en-sembles de donn´ees textuelles, que nous comparons `a des mesures d´ej`a existantes et

qui op`erent en mots. Nous montrons ainsi qu’en plus d’ˆetre ´equivalente en terme de

performance, la mesure propos´ee a l’avantage d’ˆetre applicable `a toute langue sans

n´ecessit´e de pr´etraitement, `a la diff´erence des autres techniques, qui n´ecessitent

une segmentation pr´ealable des textes `a comparer en mots ou en lex`emes. Cette

approche de la quantification de la similarit´e de ressources textuelles est ´etendue

`a celle de l’homog´en´eit´e interne des grandes bases de donn´ees. Nous ´etudions en

dernier lieu l’influence de l’homog´en´eit´e de telles ressources sur la performance de

plusieurs syst`emes de traitement automatique des langues fond´es sur les donn´ees.

Chapitre 1

Filtrage de la grammaticalit´e