Discussion

2.3 Illustration préliminaire de l’intérêt des méthodes en caractères

2.3.4 Discussion

Dans cette étude préliminaire, nous avons étudié l’application d’une méthode bien

connue d’´evaluation de la traduction automatique en prenant le caract`ere au lieu

du mot comme unité⁵⁵. Nous avons recherché une équivalence entre une méthode

C’est même là que réside l’intérêt de notre étude : transposer une méthode d’évaluation

au-tomatique dans une langue où elle était jusque là inapplicable.

La ressource BTEC étant constituée de couples de phrases recueillis dans des livrets publiés au

Japon, il est en effet probable que l’intégralité du contenu ait été traduit du japonais à l’anglais.

Denoual & Lepage, BLEU in characters: towards automatic MT evaluation in languages

appliquée en chaines deN mots, puis la même en chaines deM caractères. Cela nous

a permis de mettre en ´evidence une forte corr´elation, un bon accord de jugement

grâce au calcul du Kappa, ainsi qu’une similarité de comportement vis-à-vis du rang

inf´erieur, pour des valeurs correspondantes deM et N.

Pour la valeur la plus couramment utilis´ee pour l’anglais N = 4, nous avons

déterminé une valeur correspondante en caractères de M = 18. D’autre part, en

examinant la granulation apparente de la mesure en mots, nous avons d´etermin´e de

fa¸con exp´erimentale une proc´edure de conversion pour des phrases individuelles :

BLEU_c18≃BLEU_w4±0,078

Cette étude préliminaire ouvre donc le chemin à l’application de la méthode

BLEU d’évaluation de la traduction automatique à des langues dépourvues de

seg-mentation imm´ediate en mots, telles que le chinois, le japonais, ou le tha¨ı. Cela

ouvre aussi des perpectives de travaux futurs : au delà des résultats donnés en fin de

section 2.3.3, il restera à évaluer de manière extensive et dans chaque langue cible

considérée la corrélation entre jugement humain et la méthode BLEU en caractères.

Il serait d’autre part intéressant de vérifier la possibilité d’une transposition

simi-laire des autres mesures automatiques fond´ees sur l’attestation de chaines de N

unit´es, telles que NIST ou mWER⁵⁶.

Conclusion

Dans ce chapitre, après avoir fait une revue des problèmes liés à l’atomicité des

données en traitement automatique des langues, nous avons examiné une tâche

précise au cours d’une expérience préliminaire. Pour la tâche d’évaluation

automa-tique de la traduction automaautoma-tique, notre ´etude a montr´e que l’utilisation d’un

atome plus petit que le mot, en l’occurrence le caract`ere, permettait de contourner

les problèmes de segmentation du texte à traiter tout en produisant des résultats

corrélés à ceux obtenus en unité de mot. Ces résultats encourageants justifient donc

une ´etude plus large sur d’autres applications en traitement automatique des

lan-gues.

En ce qui concerne une transposition de la méthode NIST, voir les réserves exprimées en

conclusion de l’annexe B.

Partie II

Introduction

Nous avons vu dans la partie I que les applications du traitement automatique des

langues sont diverses, et qu’elles mettent en relation des comp´etences

pluridisci-plinaires. À travers une classification des méthodes utilisées en traitement

auto-matique des langues, nous avons mis en évidence des différences méthodologiques

importantes au sein même des méthodes fondées sur les données : ces différences

tiennent notamment aux divers degrés de prétraitement qui sont appliqués aux

donn´ees utilis´ees.

Les méthodes par modèles de Markov, les méthodes classificatoires, ainsi que

les méthodes statistiques nécessitent toutes des prétraitements importants sur les

données avant d’être mises en œuvre : compilation pour les modèles de Markov,

extraction de traits pour les m´ethodes classificatoires, et phase d’apprentissage pour

les méthodes statistiques. Une idée répandue est que les méthodes fondées sur les

donn´ees sont moins couteuses en temps et en travail humain que les m´ethodes

fondées sur la connaissance, puisqu’elles visent à être entièrement automatiques,

et non supervis´ees. Pourtant, bien qu’il soit vrai que ces m´ethodes soient moins

couteuses en intervention humaine lors de l’ex´ecution, les pr´etraitements qu’elles

n´ecessitent sont en revanche extrˆemement couteux. En premier lieu, ces

prétraite-ments nécessitent une découpe en unités textuelles de base. Nous avons montré que

la nécessité d’une telle découpe engendre plusieurs problèmes méthodologiques, et

avons propos´e l’utilisation d’une autre unit´e plus petite afin de les contourner : le

caractère. Dans une expérience préliminaire portant sur l’évaluation automatique

de la traduction automatique, nous avons montré l’intérêt de l’utilisation du

carac-tère qui, parce qu’elle produit des résultats comparables à ceux obtenus avec l’unité

traditionnelle du mot, élimine donc la nécessité de prétraiter les données.

Nous proposons dans cette partie d’appliquer l’unit´e de caract`ere au

traite-ment automatique des données linguistiques. L’étude préliminaire en évaluation

de la traduction automatique pr´esentant des r´esultats prometteurs, nous essayons

d’élargir nos résultats prometteurs à d’autres tâches. Nous examinons donc deux

autres tˆaches de traitement des donn´ees linguistiques : le filtrage de la

grammati-calité, et la caractérisation automatique de données linguistiques.

Ces deux applications utilisent l’unité de caractère dans le cadre des méthodes

N-grammes. `A cet effet, nous faisons tout d’abord en annexe C une introduction et

des rappels en th´eorie de l’information appliqu´ee au traitement des langues : nous

exposons ainsi l’intérêt que peut avoir une modélisation statistique en traitement

automatique des langues, et clarifions des m´ethodes souvent utilis´ees mais parfois

mal comprises. Ensuite, nous étudions l’utilisation de l’unité de caractère dans le

cadre du filtrage automatique de grammaticalit´e : nous montrons que des techniques

simples fondées sur l’unité de caractère permettent d’arriver à des performances

satisfaisantes, tout en réduisant le problème de la rareté des données et en

permet-tant l’application de la technique indépendamment de la langue considérée, sans

nécessité de prétraitement. Les résultats de cette étude sont appliqués par la suite,

dans le cadre de la génération automatique de données linguistiques particulières,

des paraphrases (voir partie III, chapitre 1).

Enfin, nous nous intéressons à un problème souvent négligé alors même que la

tendance actuelle en traitement automatique des langues est d’utiliser intensivement

de grandes quantités de données : la caractérisation automatique et multilingue de

donn´ees linguistiques. Nous montrons que l’application de techniques en unit´e de

caractère permet le profilage rapide de grandes quantités de données sur des langues

comme l’anglais ou le japonais. Nous d´efinissons une mesure de similarit´e des

en-sembles de données textuelles, que nous comparons à des mesures déjà existantes et

qui opèrent en mots. Nous montrons ainsi qu’en plus d’être équivalente en terme de

performance, la mesure proposée a l’avantage d’être applicable à toute langue sans

nécessité de prétraitement, à la différence des autres techniques, qui nécessitent

une segmentation préalable des textes à comparer en mots ou en lexèmes. Cette

approche de la quantification de la similarit´e de ressources textuelles est ´etendue

à celle de l’homogénéité interne des grandes bases de données. Nous étudions en

dernier lieu l’influence de l’homogénéité de telles ressources sur la performance de

plusieurs systèmes de traitement automatique des langues fondés sur les données.

Chapitre 1

Filtrage de la grammaticalit´e

Dans le document Méthodes en caractères pour le traitement automatique des langues (Page 57-64)

2.3 Illustration préliminaire de l’intérêt des méthodes en caractères

2.3.4 Discussion

Dans cette étude préliminaire, nous avons étudié l’application d’une méthode bien

connue d’´evaluation de la traduction automatique en prenant le caract`ere au lieu

du mot comme unité55. Nous avons recherché une équivalence entre une méthode

C’est même là que réside l’intérêt de notre étude : transposer une méthode d’évaluation

au-tomatique dans une langue où elle était jusque là inapplicable.

La ressource BTEC étant constituée de couples de phrases recueillis dans des livrets publiés au

Japon, il est en effet probable que l’intégralité du contenu ait été traduit du japonais à l’anglais.

Denoual & Lepage, BLEU in characters: towards automatic MT evaluation in languages

appliquée en chaines deN mots, puis la même en chaines deM caractères. Cela nous

a permis de mettre en ´evidence une forte corr´elation, un bon accord de jugement

grâce au calcul du Kappa, ainsi qu’une similarité de comportement vis-à-vis du rang

inf´erieur, pour des valeurs correspondantes deM et N.

Pour la valeur la plus couramment utilis´ee pour l’anglais N = 4, nous avons

déterminé une valeur correspondante en caractères de M = 18. D’autre part, en

examinant la granulation apparente de la mesure en mots, nous avons d´etermin´e de

fa¸con exp´erimentale une proc´edure de conversion pour des phrases individuelles :

BLEUc18≃BLEUw4±0,078

Cette étude préliminaire ouvre donc le chemin à l’application de la méthode

BLEU d’évaluation de la traduction automatique à des langues dépourvues de

seg-mentation imm´ediate en mots, telles que le chinois, le japonais, ou le tha¨ı. Cela

ouvre aussi des perpectives de travaux futurs : au delà des résultats donnés en fin de

section 2.3.3, il restera à évaluer de manière extensive et dans chaque langue cible

considérée la corrélation entre jugement humain et la méthode BLEU en caractères.

Il serait d’autre part intéressant de vérifier la possibilité d’une transposition

simi-laire des autres mesures automatiques fond´ees sur l’attestation de chaines de N

unit´es, telles que NIST ou mWER56.

Conclusion

Dans ce chapitre, après avoir fait une revue des problèmes liés à l’atomicité des

données en traitement automatique des langues, nous avons examiné une tâche

précise au cours d’une expérience préliminaire. Pour la tâche d’évaluation

automa-tique de la traduction automaautoma-tique, notre ´etude a montr´e que l’utilisation d’un

atome plus petit que le mot, en l’occurrence le caract`ere, permettait de contourner

les problèmes de segmentation du texte à traiter tout en produisant des résultats

corrélés à ceux obtenus en unité de mot. Ces résultats encourageants justifient donc

une ´etude plus large sur d’autres applications en traitement automatique des

lan-gues.

En ce qui concerne une transposition de la méthode NIST, voir les réserves exprimées en

conclusion de l’annexe B.

Partie II

Introduction

Nous avons vu dans la partie I que les applications du traitement automatique des

langues sont diverses, et qu’elles mettent en relation des comp´etences

pluridisci-plinaires. À travers une classification des méthodes utilisées en traitement

auto-matique des langues, nous avons mis en évidence des différences méthodologiques

importantes au sein même des méthodes fondées sur les données : ces différences

tiennent notamment aux divers degrés de prétraitement qui sont appliqués aux

donn´ees utilis´ees.

Les méthodes par modèles de Markov, les méthodes classificatoires, ainsi que

les méthodes statistiques nécessitent toutes des prétraitements importants sur les

données avant d’être mises en œuvre : compilation pour les modèles de Markov,

extraction de traits pour les m´ethodes classificatoires, et phase d’apprentissage pour

les méthodes statistiques. Une idée répandue est que les méthodes fondées sur les

donn´ees sont moins couteuses en temps et en travail humain que les m´ethodes

fondées sur la connaissance, puisqu’elles visent à être entièrement automatiques,

et non supervis´ees. Pourtant, bien qu’il soit vrai que ces m´ethodes soient moins

couteuses en intervention humaine lors de l’ex´ecution, les pr´etraitements qu’elles

n´ecessitent sont en revanche extrˆemement couteux. En premier lieu, ces

prétraite-ments nécessitent une découpe en unités textuelles de base. Nous avons montré que

la nécessité d’une telle découpe engendre plusieurs problèmes méthodologiques, et

avons propos´e l’utilisation d’une autre unit´e plus petite afin de les contourner : le

caractère. Dans une expérience préliminaire portant sur l’évaluation automatique

de la traduction automatique, nous avons montré l’intérêt de l’utilisation du

carac-tère qui, parce qu’elle produit des résultats comparables à ceux obtenus avec l’unité

traditionnelle du mot, élimine donc la nécessité de prétraiter les données.

Nous proposons dans cette partie d’appliquer l’unit´e de caract`ere au

traite-ment automatique des données linguistiques. L’étude préliminaire en évaluation

de la traduction automatique pr´esentant des r´esultats prometteurs, nous essayons

d’élargir nos résultats prometteurs à d’autres tâches. Nous examinons donc deux

autres tˆaches de traitement des donn´ees linguistiques : le filtrage de la

grammati-calité, et la caractérisation automatique de données linguistiques.

Ces deux applications utilisent l’unité de caractère dans le cadre des méthodes

N-grammes. `A cet effet, nous faisons tout d’abord en annexe C une introduction et

des rappels en th´eorie de l’information appliqu´ee au traitement des langues : nous

exposons ainsi l’intérêt que peut avoir une modélisation statistique en traitement

automatique des langues, et clarifions des m´ethodes souvent utilis´ees mais parfois

mal comprises. Ensuite, nous étudions l’utilisation de l’unité de caractère dans le

cadre du filtrage automatique de grammaticalit´e : nous montrons que des techniques

du mot comme unité⁵⁵. Nous avons recherché une équivalence entre une méthode

BLEU_c18≃BLEU_w4±0,078

unit´es, telles que NIST ou mWER⁵⁶.