2.3 Illustration pr´eliminaire de l’int´erˆet des m´ethodes en caract`eres
2.3.4 Discussion
Dans cette ´etude pr´eliminaire, nous avons ´etudi´e l’application d’une m´ethode bien
connue d’´evaluation de la traduction automatique en prenant le caract`ere au lieu
du mot comme unit´e55. Nous avons recherch´e une ´equivalence entre une m´ethode
53
C’est mˆeme l`a que r´eside l’int´erˆet de notre ´etude : transposer une m´ethode d’´evaluation
au-tomatique dans une langue o`u elle ´etait jusque l`a inapplicable.
54
La ressource BTEC ´etant constitu´ee de couples de phrases recueillis dans des livrets publi´es au
Japon, il est en effet probable que l’int´egralit´e du contenu ait ´et´e traduit du japonais `a l’anglais.
55
Denoual & Lepage, BLEU in characters: towards automatic MT evaluation in languages
appliqu´ee en chaines deN mots, puis la mˆeme en chaines deM caract`eres. Cela nous
a permis de mettre en ´evidence une forte corr´elation, un bon accord de jugement
grˆace au calcul du Kappa, ainsi qu’une similarit´e de comportement vis-`a-vis du rang
inf´erieur, pour des valeurs correspondantes deM et N.
Pour la valeur la plus couramment utilis´ee pour l’anglais N = 4, nous avons
d´etermin´e une valeur correspondante en caract`eres de M = 18. D’autre part, en
examinant la granulation apparente de la mesure en mots, nous avons d´etermin´e de
fa¸con exp´erimentale une proc´edure de conversion pour des phrases individuelles :
BLEUc18≃BLEUw4±0,078
Cette ´etude pr´eliminaire ouvre donc le chemin `a l’application de la m´ethode
BLEU d’´evaluation de la traduction automatique `a des langues d´epourvues de
seg-mentation imm´ediate en mots, telles que le chinois, le japonais, ou le tha¨ı. Cela
ouvre aussi des perpectives de travaux futurs : au del`a des r´esultats donn´es en fin de
section 2.3.3, il restera `a ´evaluer de mani`ere extensive et dans chaque langue cible
consid´er´ee la corr´elation entre jugement humain et la m´ethode BLEU en caract`eres.
Il serait d’autre part int´eressant de v´erifier la possibilit´e d’une transposition
simi-laire des autres mesures automatiques fond´ees sur l’attestation de chaines de N
unit´es, telles que NIST ou mWER56.
Conclusion
Dans ce chapitre, apr`es avoir fait une revue des probl`emes li´es `a l’atomicit´e des
donn´ees en traitement automatique des langues, nous avons examin´e une tˆache
pr´ecise au cours d’une exp´erience pr´eliminaire. Pour la tˆache d’´evaluation
automa-tique de la traduction automaautoma-tique, notre ´etude a montr´e que l’utilisation d’un
atome plus petit que le mot, en l’occurrence le caract`ere, permettait de contourner
les probl`emes de segmentation du texte `a traiter tout en produisant des r´esultats
corr´el´es `a ceux obtenus en unit´e de mot. Ces r´esultats encourageants justifient donc
une ´etude plus large sur d’autres applications en traitement automatique des
lan-gues.
56
En ce qui concerne une transposition de la m´ethode NIST, voir les r´eserves exprim´ees en
conclusion de l’annexe B.
Partie II
Introduction
Nous avons vu dans la partie I que les applications du traitement automatique des
langues sont diverses, et qu’elles mettent en relation des comp´etences
pluridisci-plinaires. `A travers une classification des m´ethodes utilis´ees en traitement
auto-matique des langues, nous avons mis en ´evidence des diff´erences m´ethodologiques
importantes au sein mˆeme des m´ethodes fond´ees sur les donn´ees : ces diff´erences
tiennent notamment aux divers degr´es de pr´etraitement qui sont appliqu´es aux
donn´ees utilis´ees.
Les m´ethodes par mod`eles de Markov, les m´ethodes classificatoires, ainsi que
les m´ethodes statistiques n´ecessitent toutes des pr´etraitements importants sur les
donn´ees avant d’ˆetre mises en œuvre : compilation pour les mod`eles de Markov,
extraction de traits pour les m´ethodes classificatoires, et phase d’apprentissage pour
les m´ethodes statistiques. Une id´ee r´epandue est que les m´ethodes fond´ees sur les
donn´ees sont moins couteuses en temps et en travail humain que les m´ethodes
fond´ees sur la connaissance, puisqu’elles visent `a ˆetre enti`erement automatiques,
et non supervis´ees. Pourtant, bien qu’il soit vrai que ces m´ethodes soient moins
couteuses en intervention humaine lors de l’ex´ecution, les pr´etraitements qu’elles
n´ecessitent sont en revanche extrˆemement couteux. En premier lieu, ces
pr´etraite-ments n´ecessitent une d´ecoupe en unit´es textuelles de base. Nous avons montr´e que
la n´ecessit´e d’une telle d´ecoupe engendre plusieurs probl`emes m´ethodologiques, et
avons propos´e l’utilisation d’une autre unit´e plus petite afin de les contourner : le
caract`ere. Dans une exp´erience pr´eliminaire portant sur l’´evaluation automatique
de la traduction automatique, nous avons montr´e l’int´erˆet de l’utilisation du
carac-t`ere qui, parce qu’elle produit des r´esultats comparables `a ceux obtenus avec l’unit´e
traditionnelle du mot, ´elimine donc la n´ecessit´e de pr´etraiter les donn´ees.
Nous proposons dans cette partie d’appliquer l’unit´e de caract`ere au
traite-ment automatique des donn´ees linguistiques. L’´etude pr´eliminaire en ´evaluation
de la traduction automatique pr´esentant des r´esultats prometteurs, nous essayons
d’´elargir nos r´esultats prometteurs `a d’autres tˆaches. Nous examinons donc deux
autres tˆaches de traitement des donn´ees linguistiques : le filtrage de la
grammati-calit´e, et la caract´erisation automatique de donn´ees linguistiques.
Ces deux applications utilisent l’unit´e de caract`ere dans le cadre des m´ethodes
N-grammes. `A cet effet, nous faisons tout d’abord en annexe C une introduction et
des rappels en th´eorie de l’information appliqu´ee au traitement des langues : nous
exposons ainsi l’int´erˆet que peut avoir une mod´elisation statistique en traitement
automatique des langues, et clarifions des m´ethodes souvent utilis´ees mais parfois
mal comprises. Ensuite, nous ´etudions l’utilisation de l’unit´e de caract`ere dans le
cadre du filtrage automatique de grammaticalit´e : nous montrons que des techniques
simples fond´ees sur l’unit´e de caract`ere permettent d’arriver `a des performances
satisfaisantes, tout en r´eduisant le probl`eme de la raret´e des donn´ees et en
permet-tant l’application de la technique ind´ependamment de la langue consid´er´ee, sans
n´ecessit´e de pr´etraitement. Les r´esultats de cette ´etude sont appliqu´es par la suite,
dans le cadre de la g´en´eration automatique de donn´ees linguistiques particuli`eres,
des paraphrases (voir partie III, chapitre 1).
Enfin, nous nous int´eressons `a un probl`eme souvent n´eglig´e alors mˆeme que la
tendance actuelle en traitement automatique des langues est d’utiliser intensivement
de grandes quantit´es de donn´ees : la caract´erisation automatique et multilingue de
donn´ees linguistiques. Nous montrons que l’application de techniques en unit´e de
caract`ere permet le profilage rapide de grandes quantit´es de donn´ees sur des langues
comme l’anglais ou le japonais. Nous d´efinissons une mesure de similarit´e des
en-sembles de donn´ees textuelles, que nous comparons `a des mesures d´ej`a existantes et
qui op`erent en mots. Nous montrons ainsi qu’en plus d’ˆetre ´equivalente en terme de
performance, la mesure propos´ee a l’avantage d’ˆetre applicable `a toute langue sans
n´ecessit´e de pr´etraitement, `a la diff´erence des autres techniques, qui n´ecessitent
une segmentation pr´ealable des textes `a comparer en mots ou en lex`emes. Cette
approche de la quantification de la similarit´e de ressources textuelles est ´etendue
`a celle de l’homog´en´eit´e interne des grandes bases de donn´ees. Nous ´etudions en
dernier lieu l’influence de l’homog´en´eit´e de telles ressources sur la performance de
plusieurs syst`emes de traitement automatique des langues fond´es sur les donn´ees.
Chapitre 1
Filtrage de la grammaticalit´e
Dans le document
Méthodes en caractères pour le traitement automatique des langues
(Page 57-64)