A titre d’exemple, la phrase :
I’d like to have some strong tea.
obtient un score NIST de 20,26 alors qu’elle est visiblement incorrecte, et la phrase :
Pour me a cup of strong coffee.
obtient un score NIST de 5,17 tr`es inf´erieur alors qu’elle est correcte. Bien que les
calculs aient ´et´e effectu´es `a l’ordre minimalN = 1, et que la corr´elation d’une telle
mesure avec le jugement humain doive en r´ealit´e ˆetre ´evalu´ee sur un grand nombre
de phrases choisies au hasard pour que les r´esultats soient probants, on remarque
qu’il est extrˆemement ais´e de trouver des exemples sur lesquels la mesure ne donne
pas de r´esultats satisfaisants.
B.3 Conclusion
Nous avons rappel´e dans cette annexe les m´ethodes de calcul des m´ethodes BLEU
et NIST, et donn´e des exemples de leur application. `A travers des exemples nous
avons expos´e l’utilit´e, mais aussi les limites de ces mesures dites
¿objectives
À.
Tout d’abord, ces mesures sont fond´ees sur le comptage d’occurrences de mots, et
une simple permutation, ou un simple ajout ne p´enalisent pas beaucoup une phrase
candidate longue. La m´ethode NIST essaie toutefois de r´epondre `a ce probl`eme en
affectant une pond´eration aux mots.
Enfin, BLEU et NIST doivent disposer de paraphrases r´ef´erences pour chaque
phrase `a juger afin d’ˆetre mises en œuvre. La quantit´e de variation lexico-syntaxique
pr´esente dans ces r´ef´erences est difficilement quantifiable, et rien ne nous assure que
les paraphrases r´ef´erences apportent une couverture suffisante.
La m´ethode BLEU est utilis´ee dans une exp´erience pr´eliminaire en partie I,
chapitre 2, afin de voir si une m´ethode utilisant une d´ecoupe en mots peut ˆetre
transpos´ee eficacement `a une d´ecoupe en caract`eres. Bien que les r´esultats soient
probants en ce qui concerne BLEU, nous aurions aim´e effectuer une exp´erience
similaire sur la m´ethode NIST : on peut l´egitimement penser6 que cel`a marcherait
moins bien. En effet, NIST attribue des pond´erations aux mots en calculant une
6
valeur d’informativit´e pour chacun d’entre eux. Il parait risqu´e d’attribuer une
informativit´e `a des caract`eres, au moins en anglais o`u le caract`ere n’est pas une
unit´e signifiante. Nous d´eveloppons ces consid´erations dans les conclusions de notre
´etude.
Annexe C
Mod´elisation stochastique de
langue
Nous pr´esentons dans cette annexe plusieurs notions th´eoriques li´ees `a la th´eorie
de l’information et aux mod`eles statistiques des langues. Nous faisons une br`eve
introduction sur le traitement statistique des langues, puis nous rappelons diverses
notions de mod´elisation du langage et d´ecrivons plusieurs m´ethodes de lissage
pro-babiliste ; enfin nous proposons l’usage d’outils issus de la th´eorie de l’information.
Nous montrons comment leur application en traitement automatique des langues
peut nous aider `a mettre au point des mesures qualitatives.
C.1 Introduction au traitement statistique des langues
Qu’est ce que la statistique ? Si l’on se r´ef`ere `a la d´efinition propos´ee par le Tr´esor
de la langue fran¸caise1, la statistique est la branche des math´ematiques ayant pour
objet l’analyse (g´en´eralement non exhaustive) et l’interpr´etation de donn´ees
quan-tifiables. La statistique d´efinie par Efron2 est la science de l’apprentissage par
l’ob-servation et l’exp´erience. Elle permet, avec une exp´erience forc´ement limit´ee d’un
ph´enom`ene, de produire une pr´ediction sur ce qui va survenir. L’approche
statis-tique est, dans ces conditions, indispensable et partie int´egrante de tout syst`eme
fond´e sur l’apprentissage.
La statistique est souvent utilis´ee dans le cadre du traitement des langues avec
l’interpr´etation bay´esienne, c’est-`a-dire que l’on s’en sert pour mettre en ´evidence
des relations causales sous-jacentes entre les ´ev´enements de la langue. Ces ´ev´enements
sont vus comme ´etant d´ependants les uns des autres, et la mise en ´evidence des
re-lations de causalit´e permet de r´ealiser des pr´edictions sur les ´ev´enements futurs : la
statistique est ici envisag´ee sous l’angle de la th´eorie probabiliste, utilis´ee pour son
caract`ere pr´edictif, et par
¿statistique
Àon entend alors implicitement
¿inf´erence
statistique
À. Le terme d´esigne un ensemble de m´ethodes permettant d’extraire de
la connaissance et de prendre des d´ecisions `a partir de donn´ees tir´ees d’´echantillons.
Le traitement statistique des langues a pour particularit´e de se baser sur des
quantit´es importantes de donn´ees : la connaissance est vue comme ´etant contenue
implicitement dans ces donn´ees observables. Ainsi, le traitement statistique des
1
Plus pr´ecis´ement dans sa version informatis´ee par l’ATILF (CNRS), voir
http://atilf.inalf.fr/tlfv3.htm .
2
langues fait le postulat que la langue est r´egie par des mod`eles cach´es. L’observation
de grandes quantit´es de donn´ees permettrait d’approcher le comportement de ces
mod`eles. Une fois les mod`eles obtenus, ils peuvent ˆetre utilis´es pour r´ealiser des
pr´edictions.
Nous pr´ef´erons au termestatistiquele termestochastiquequi, dans sa concision,
ne laisse pas d’ambig¨uit´e : un processus stochastique est de mani`ere g´en´erale un
processus qui utilise la th´eorie des probabilit´es. Par la suite, on se r´ef`erera donc
aux mod`eles statistiques de langue par
¿mod`eles stochastiques de langue
À, ou
¿
mod`eles de langue
Àpour abr´eger.
Dans le document
Méthodes en caractères pour le traitement automatique des langues
(Page 155-159)