Conclusion

A titre d’exemple, la phrase :

I’d like to have some strong tea.

obtient un score NIST de 20,26 alors qu’elle est visiblement incorrecte, et la phrase :

Pour me a cup of strong coffee.

obtient un score NIST de 5,17 tr`es inf´erieur alors qu’elle est correcte. Bien que les

calculs aient été effectués à l’ordre minimalN = 1, et que la corrélation d’une telle

mesure avec le jugement humain doive en réalité être évaluée sur un grand nombre

de phrases choisies au hasard pour que les r´esultats soient probants, on remarque

qu’il est extrˆemement ais´e de trouver des exemples sur lesquels la mesure ne donne

pas de r´esultats satisfaisants.

B.3 Conclusion

Nous avons rappelé dans cette annexe les méthodes de calcul des méthodes BLEU

et NIST, et donn´e des exemples de leur application. `A travers des exemples nous

avons expos´e l’utilit´e, mais aussi les limites de ces mesures dites

objectives

.

Tout d’abord, ces mesures sont fond´ees sur le comptage d’occurrences de mots, et

une simple permutation, ou un simple ajout ne p´enalisent pas beaucoup une phrase

candidate longue. La méthode NIST essaie toutefois de répondre à ce problème en

affectant une pond´eration aux mots.

Enfin, BLEU et NIST doivent disposer de paraphrases r´ef´erences pour chaque

phrase à juger afin d’être mises en œuvre. La quantité de variation lexico-syntaxique

présente dans ces références est difficilement quantifiable, et rien ne nous assure que

les paraphrases r´ef´erences apportent une couverture suffisante.

La méthode BLEU est utilisée dans une expérience préliminaire en partie I,

chapitre 2, afin de voir si une méthode utilisant une découpe en mots peut être

transposée eficacement à une découpe en caractères. Bien que les résultats soient

probants en ce qui concerne BLEU, nous aurions aim´e effectuer une exp´erience

similaire sur la méthode NIST : on peut légitimement penser⁶ que celà marcherait

moins bien. En effet, NIST attribue des pond´erations aux mots en calculant une

valeur d’informativit´e pour chacun d’entre eux. Il parait risqu´e d’attribuer une

informativité à des caractères, au moins en anglais où le caractère n’est pas une

unité signifiante. Nous développons ces considérations dans les conclusions de notre

´etude.

Annexe C

Mod´elisation stochastique de

langue

Nous présentons dans cette annexe plusieurs notions théoriques liées à la théorie

de l’information et aux mod`eles statistiques des langues. Nous faisons une br`eve

introduction sur le traitement statistique des langues, puis nous rappelons diverses

notions de modélisation du langage et décrivons plusieurs méthodes de lissage

pro-babiliste ; enfin nous proposons l’usage d’outils issus de la th´eorie de l’information.

Nous montrons comment leur application en traitement automatique des langues

peut nous aider `a mettre au point des mesures qualitatives.

C.1 Introduction au traitement statistique des langues

Qu’est ce que la statistique ? Si l’on se réfère à la définition proposée par le Trésor

de la langue fran¸caise¹, la statistique est la branche des math´ematiques ayant pour

objet l’analyse (généralement non exhaustive) et l’interprétation de données

quan-tifiables. La statistique d´efinie par Efron2 est la science de l’apprentissage par

l’ob-servation et l’expérience. Elle permet, avec une expérience forcément limitée d’un

phénomène, de produire une prédiction sur ce qui va survenir. L’approche

statis-tique est, dans ces conditions, indispensable et partie int´egrante de tout syst`eme

fond´e sur l’apprentissage.

La statistique est souvent utilis´ee dans le cadre du traitement des langues avec

l’interprétation bayésienne, c’est-à-dire que l’on s’en sert pour mettre en évidence

des relations causales sous-jacentes entre les événements de la langue. Ces événements

sont vus comme étant dépendants les uns des autres, et la mise en évidence des

re-lations de causalité permet de réaliser des prédictions sur les événements futurs : la

statistique est ici envisagée sous l’angle de la théorie probabiliste, utilisée pour son

caract`ere pr´edictif, et par

statistique

on entend alors implicitement

inf´erence

statistique

. Le terme d´esigne un ensemble de m´ethodes permettant d’extraire de

la connaissance et de prendre des décisions à partir de données tirées d’échantillons.

Le traitement statistique des langues a pour particularit´e de se baser sur des

quantités importantes de données : la connaissance est vue comme étant contenue

implicitement dans ces donn´ees observables. Ainsi, le traitement statistique des

Plus précisément dans sa version informatisée par l’ATILF (CNRS), voir

http://atilf.inalf.fr/tlfv3.htm .

langues fait le postulat que la langue est régie par des modèles cachés. L’observation

de grandes quantit´es de donn´ees permettrait d’approcher le comportement de ces

modèles. Une fois les modèles obtenus, ils peuvent être utilisés pour réaliser des

pr´edictions.

Nous pr´ef´erons au termestatistiquele termestochastiquequi, dans sa concision,

ne laisse pas d’ambigüité : un processus stochastique est de manière générale un

processus qui utilise la théorie des probabilités. Par la suite, on se réfèrera donc

aux mod`eles statistiques de langue par

mod`eles stochastiques de langue

, ou

mod`eles de langue

pour abr´eger.

Dans le document Méthodes en caractères pour le traitement automatique des langues (Page 155-159)

A titre d’exemple, la phrase :

I’d like to have some strong tea.

obtient un score NIST de 20,26 alors qu’elle est visiblement incorrecte, et la phrase :

Pour me a cup of strong coffee.

obtient un score NIST de 5,17 tr`es inf´erieur alors qu’elle est correcte. Bien que les

calculs aient été effectués à l’ordre minimalN = 1, et que la corrélation d’une telle

mesure avec le jugement humain doive en réalité être évaluée sur un grand nombre

de phrases choisies au hasard pour que les r´esultats soient probants, on remarque

qu’il est extrˆemement ais´e de trouver des exemples sur lesquels la mesure ne donne

pas de r´esultats satisfaisants.

B.3 Conclusion

Nous avons rappelé dans cette annexe les méthodes de calcul des méthodes BLEU

et NIST, et donn´e des exemples de leur application. `A travers des exemples nous

avons expos´e l’utilit´e, mais aussi les limites de ces mesures dites

objectives

.

Tout d’abord, ces mesures sont fond´ees sur le comptage d’occurrences de mots, et

une simple permutation, ou un simple ajout ne p´enalisent pas beaucoup une phrase

candidate longue. La méthode NIST essaie toutefois de répondre à ce problème en

affectant une pond´eration aux mots.

Enfin, BLEU et NIST doivent disposer de paraphrases r´ef´erences pour chaque

phrase à juger afin d’être mises en œuvre. La quantité de variation lexico-syntaxique

présente dans ces références est difficilement quantifiable, et rien ne nous assure que

les paraphrases r´ef´erences apportent une couverture suffisante.

La méthode BLEU est utilisée dans une expérience préliminaire en partie I,

chapitre 2, afin de voir si une méthode utilisant une découpe en mots peut être

transposée eficacement à une découpe en caractères. Bien que les résultats soient

probants en ce qui concerne BLEU, nous aurions aim´e effectuer une exp´erience

similaire sur la méthode NIST : on peut légitimement penser6 que celà marcherait

moins bien. En effet, NIST attribue des pond´erations aux mots en calculant une

valeur d’informativit´e pour chacun d’entre eux. Il parait risqu´e d’attribuer une

informativité à des caractères, au moins en anglais où le caractère n’est pas une

unité signifiante. Nous développons ces considérations dans les conclusions de notre

´etude.

Annexe C

Mod´elisation stochastique de

langue

Nous présentons dans cette annexe plusieurs notions théoriques liées à la théorie

de l’information et aux mod`eles statistiques des langues. Nous faisons une br`eve

introduction sur le traitement statistique des langues, puis nous rappelons diverses

notions de modélisation du langage et décrivons plusieurs méthodes de lissage

pro-babiliste ; enfin nous proposons l’usage d’outils issus de la th´eorie de l’information.

Nous montrons comment leur application en traitement automatique des langues

peut nous aider `a mettre au point des mesures qualitatives.

C.1 Introduction au traitement statistique des langues

Qu’est ce que la statistique ? Si l’on se réfère à la définition proposée par le Trésor

de la langue fran¸caise1, la statistique est la branche des math´ematiques ayant pour

objet l’analyse (généralement non exhaustive) et l’interprétation de données

quan-tifiables. La statistique d´efinie par Efron2 est la science de l’apprentissage par

l’ob-servation et l’expérience. Elle permet, avec une expérience forcément limitée d’un

phénomène, de produire une prédiction sur ce qui va survenir. L’approche

statis-tique est, dans ces conditions, indispensable et partie int´egrante de tout syst`eme

fond´e sur l’apprentissage.

La statistique est souvent utilis´ee dans le cadre du traitement des langues avec

l’interprétation bayésienne, c’est-à-dire que l’on s’en sert pour mettre en évidence

des relations causales sous-jacentes entre les événements de la langue. Ces événements

sont vus comme étant dépendants les uns des autres, et la mise en évidence des

re-lations de causalité permet de réaliser des prédictions sur les événements futurs : la

statistique est ici envisagée sous l’angle de la théorie probabiliste, utilisée pour son

caract`ere pr´edictif, et par

statistique

on entend alors implicitement

inf´erence

statistique

. Le terme d´esigne un ensemble de m´ethodes permettant d’extraire de

la connaissance et de prendre des décisions à partir de données tirées d’échantillons.

Le traitement statistique des langues a pour particularit´e de se baser sur des

quantités importantes de données : la connaissance est vue comme étant contenue

implicitement dans ces donn´ees observables. Ainsi, le traitement statistique des

Plus précisément dans sa version informatisée par l’ATILF (CNRS), voir

http://atilf.inalf.fr/tlfv3.htm .

langues fait le postulat que la langue est régie par des modèles cachés. L’observation

de grandes quantit´es de donn´ees permettrait d’approcher le comportement de ces

modèles. Une fois les modèles obtenus, ils peuvent être utilisés pour réaliser des

pr´edictions.

Nous pr´ef´erons au termestatistiquele termestochastiquequi, dans sa concision,

ne laisse pas d’ambigüité : un processus stochastique est de manière générale un

processus qui utilise la théorie des probabilités. Par la suite, on se réfèrera donc

aux mod`eles statistiques de langue par

similaire sur la méthode NIST : on peut légitimement penser⁶ que celà marcherait

de la langue fran¸caise¹, la statistique est la branche des math´ematiques ayant pour