M´ethodes hybrides

La tendance actuelle est à la convergence entre les méthodes fondées uniquement

sur les données et les méthodes fondées sur les théories linguistiques : on assiste

ainsi à une explosion des méthodes hybrides. Hybrides, ces méthodes peuvent en

fait l’être de deux manières : au niveau du calcul, ou au niveau des représentations.

`

A l’origine, les m´ethodes statistiques ont pour vocation de n’utiliser aucune

représentation intermédiaire, pourtant dans la pratique beaucoup de systèmes en

ont r´eintroduit : on peut citer par exemple le syst`eme MASTOR d’IBM⁴¹, qui

réalise une analyse sémantique et syntaxique des énoncés avant l’application de

m´ethodes statistiques, celui de Ney⁴² pour le projet Verbmobil, qui apprend des

grammaires de surface, ou encore celui de l’´equipe de l’ISI⁴³, qui introduit une

approche statistique fond´ee sur la syntaxe, et l’alignement automatique d’arbres

d’analyse dans plusieurs langues. On peut aussi concilier une approche linguistique

avec une méthode non statistique fondée sur les données : le système de traduction

par l’exemple de Microsoft Research44 extrait des règles à partir des données, qui

permettent de s’abstraire en partie de la structure sp´ecifique des langues `a traduire.

Il est aussi possible d’apprendre des automates d’arbres⁴⁵automatiquement dans le

cadre d’une approche statistique.

Planas,TELA : Structure et algorithmes pour la traduction fond´ee sur la m´emoire, 1998.

Och,Statistical machine translation: Foundations and recent advances, 2005.

Przybocki,The 2005 NIST machine translation evaluation plan (MT-05), 2004.

De l’aveu même de Franz Joseph Och, la méthode est extrèmement gourmande : disposant

d’une ferme de 1 000 ordinateurs, il fait traduire chacune des 1 000 phrases du jeu de test par l’un

des ordinateurs.

Voir http://domino.watson.ibm.com/comm/research.nsf/pages/r.uit.innovation.html

Neyet al.,Statistical translation of spoken dialogues in the Verbmobil system, 2000.

Germannet al.,Fast decoding and optimal decoding for machine translation, 2003.

Brockettet al.,English-Japanese example-based machine translation using abstract linguistic

representations, 2002.

Thatcher &Wright, Generalized finite automata theory with an application to a decision

Conclusion

Nous avons brossé dans cette introduction un panorama des différentes méthodes

employ´ees en traitement automatique des langues. Nous avons vu que la raison de

la diversité des méthodes était d’une part historique, et d’autre part théorique, car

liée au niveau de représentation linguistique considéré. Dans l’approche fondée sur

les r`egles, la connaissance linguistique est explicit´ee sous la forme de grammaires

ou d’automates et de dictionnaires, alors qu’`a l’autre extrˆeme, dans l’approche

fondée sur les données, elle est extraite des données via une modélisation

statis-tique, indépendamment de tout phénomène linguistique proprement dit, les données

pouvant ˆetre aussi bien num´eriques que linguistiques. C’est principalement sur ce

point que s’affrontent les tenants des approches symboliques, et ceux des approches

fondées sur les données. Un tel débat est particulièrement actuel dans le domaine

de la traduction automatique, qui après avoir été longtemps dominé par les

ap-proches par règles, a été le témoin d’importants tranferts depuis le domaine de la

reconnaissance automatique de parole dans les ann´ees 1980.

Les méthodes pouvant être appliquées sur les données brutes, sans nécessité

de prétraitement, sont minoritaires. Les méthodes fondées sur les données, comme

l’approche statistique, travaillent en effet sur des unités, en général les mots, qu’il

faut extraire des données. Cette extraction nécessite des connaissances pour être

effi-cace, et va `a l’encontre du caract`ere

universel

que visent les m´ethodes fond´ees sur

les données. Dans le chapitre suivant, nous mettons en relief les différents problèmes

liés à cette nécessité de découper les données linguistiques en unités de traitement,

et proposons d’y rem´edier en utilisant un atome plus petit et imm´ediatement

ac-cessible : le caract`ere.

Chapitre 2

Mise en relief des probl`emes

actuels et des axes prometteurs

Introduction

Comme nous l’avons mentionn´e dans l’introduction, le traitement automatique des

langues fondé sur les données bute actuellement sur un certain nombre de problèmes

difficiles. Ces problèmes sont liés aux données utilisées, de fa¸con à la fois quantitative

et qualitative.

Il y a tout d’abord un probl`eme de pertinence vis-`a-vis du domaine que

l’ap-plication doit traiter. Une apl’ap-plication de traitement automatique des langues est

con¸cue pour opérer dans des domaines où la langue se comporte de manière plus ou

moins libre. Des applications peuvent avoir pour ambition de couvrir des domaines

vastes comme des domaines restreints (on dit alors qu’on ´evolue dans un ou des

sous-langages au sens de Kittredge1). On rencontre alors deux probl`emes majeurs :

soit on vise à couvrir un grand domaine de la langue, et la quantité de données

linguistiques disponibles est insuffisante pour assurer au syst`eme de traitement

au-tomatique des langues une couverture n´ecessaire (probl`eme bien connu de

raret´e

des donn´ees

) ; soit on vise `a couvrir des domaines restreints de la langue (donc

le système évolue dans un sous-language), et la quantité de données linguistiques

nécessaires est trop importante, les données sont trop générales pour obtenir des

performances optimales dans de tels domaines, car on ne dispose pas de m´ethode

pour les caract´eriser ou les trier.

Le deuxi`eme probl`eme que l’on rencontre est fondamental car il est

méthodo-logique : lorsqu’on traite un document, un prétraitement est nécessaire afin de le

d´ecouper en unit´es ou atomes de base2. Habituellement, dans l’approche du

trai-tement automatique des langues fondée sur les données, le texte est découpé en ce

qu’on a coutume d’appeler des mots. Le traitement réservé à la ponctuation varie,

mais si le plus souvent la phrase est considérée comme une entité bien délimitée,

il est fait assez peu de cas de sa ponctuation interne3. Cette approche est `a notre

sens malheureuse, car la ponctuation constitue une information linguistique non

Kittredge & Lehrberger, Sublanguage. Studies of language in restricted semantic

do-mains, 1982, c’est-`a-dire des domaines limit´es en termes de variations lexicales, syntaxiques, et

s´emantiques.

Unetokenization, en anglais.

Les campagnes d’´evaluation de syst`emes de traduction automatique IWSLT-2004 et 2005

exi-geaient des phrases sans ponctuation en sortie des syst`emes !

n´egligeable sur la structure du texte.

D’autre part, la question de la division en mots est sujette `a d´ebat : le mot est

une unité significative de la grammaire traditionnelle, empiriquement liée à la forme

écrite de la langue considérée. Sur le plan linguistique, on peut tout à fait penser

qu’il n’existe pas un mais des mots à différents niveaux de représentation : le mot

oral

phonétique (ou groupe accentuel) correspond mal au critère de séparabilité

fonctionnelle, et aux crit`eres de d´elimitation intonative ; le mot

´ecrit

graphique,

s’il peut paraitre plus accessible dans des langues comme le fran¸cais ou l’anglais par

exemple, ne l’est pas dans les langues d´epourvues d’espace comme le chinois ou le

japonais ou dans d’autres d´epourvues de ponctuation.

Si le mot orthographique peut représenter à première vue la brique de base qui

relie le signifiant au signifi´e, l’atome d’une analyse en constituants imm´ediats4, il

est en réalité impossible à définir de fa¸con satisfaisante et générale. Tout au plus

pourra-t-on tenter de le faire dans le cadre d’une langue en particulier.

C’est sur un tel probl`eme que nous nous proposons de diriger notre attention

tout au long de cette ´etude.

Dans le document Méthodes en caractères pour le traitement automatique des langues (Page 34-37)

La tendance actuelle est à la convergence entre les méthodes fondées uniquement

sur les données et les méthodes fondées sur les théories linguistiques : on assiste

ainsi à une explosion des méthodes hybrides. Hybrides, ces méthodes peuvent en

fait l’être de deux manières : au niveau du calcul, ou au niveau des représentations.

`

A l’origine, les m´ethodes statistiques ont pour vocation de n’utiliser aucune

représentation intermédiaire, pourtant dans la pratique beaucoup de systèmes en

ont r´eintroduit : on peut citer par exemple le syst`eme MASTOR d’IBM41, qui

réalise une analyse sémantique et syntaxique des énoncés avant l’application de

m´ethodes statistiques, celui de Ney42 pour le projet Verbmobil, qui apprend des

grammaires de surface, ou encore celui de l’´equipe de l’ISI43, qui introduit une

approche statistique fond´ee sur la syntaxe, et l’alignement automatique d’arbres

d’analyse dans plusieurs langues. On peut aussi concilier une approche linguistique

avec une méthode non statistique fondée sur les données : le système de traduction

par l’exemple de Microsoft Research44 extrait des règles à partir des données, qui

permettent de s’abstraire en partie de la structure sp´ecifique des langues `a traduire.

Il est aussi possible d’apprendre des automates d’arbres45automatiquement dans le

cadre d’une approche statistique.

Planas,TELA : Structure et algorithmes pour la traduction fond´ee sur la m´emoire, 1998.

Och,Statistical machine translation: Foundations and recent advances, 2005.

Przybocki,The 2005 NIST machine translation evaluation plan (MT-05), 2004.

De l’aveu même de Franz Joseph Och, la méthode est extrèmement gourmande : disposant

d’une ferme de 1 000 ordinateurs, il fait traduire chacune des 1 000 phrases du jeu de test par l’un

des ordinateurs.

Voir http://domino.watson.ibm.com/comm/research.nsf/pages/r.uit.innovation.html

Neyet al.,Statistical translation of spoken dialogues in the Verbmobil system, 2000.

Germannet al.,Fast decoding and optimal decoding for machine translation, 2003.

Brockettet al.,English-Japanese example-based machine translation using abstract linguistic

representations, 2002.

Thatcher &Wright, Generalized finite automata theory with an application to a decision

Conclusion

Nous avons brossé dans cette introduction un panorama des différentes méthodes

employ´ees en traitement automatique des langues. Nous avons vu que la raison de

la diversité des méthodes était d’une part historique, et d’autre part théorique, car

liée au niveau de représentation linguistique considéré. Dans l’approche fondée sur

les r`egles, la connaissance linguistique est explicit´ee sous la forme de grammaires

ou d’automates et de dictionnaires, alors qu’`a l’autre extrˆeme, dans l’approche

fondée sur les données, elle est extraite des données via une modélisation

statis-tique, indépendamment de tout phénomène linguistique proprement dit, les données

pouvant ˆetre aussi bien num´eriques que linguistiques. C’est principalement sur ce

point que s’affrontent les tenants des approches symboliques, et ceux des approches

fondées sur les données. Un tel débat est particulièrement actuel dans le domaine

de la traduction automatique, qui après avoir été longtemps dominé par les

ap-proches par règles, a été le témoin d’importants tranferts depuis le domaine de la

reconnaissance automatique de parole dans les ann´ees 1980.

Les méthodes pouvant être appliquées sur les données brutes, sans nécessité

de prétraitement, sont minoritaires. Les méthodes fondées sur les données, comme

l’approche statistique, travaillent en effet sur des unités, en général les mots, qu’il

faut extraire des données. Cette extraction nécessite des connaissances pour être

effi-cace, et va `a l’encontre du caract`ere

universel

que visent les m´ethodes fond´ees sur

les données. Dans le chapitre suivant, nous mettons en relief les différents problèmes

liés à cette nécessité de découper les données linguistiques en unités de traitement,

et proposons d’y rem´edier en utilisant un atome plus petit et imm´ediatement

ac-cessible : le caract`ere.

Chapitre 2

Mise en relief des probl`emes

actuels et des axes prometteurs

Introduction

Comme nous l’avons mentionn´e dans l’introduction, le traitement automatique des

langues fondé sur les données bute actuellement sur un certain nombre de problèmes

difficiles. Ces problèmes sont liés aux données utilisées, de fa¸con à la fois quantitative

et qualitative.

Il y a tout d’abord un probl`eme de pertinence vis-`a-vis du domaine que

l’ap-plication doit traiter. Une apl’ap-plication de traitement automatique des langues est

con¸cue pour opérer dans des domaines où la langue se comporte de manière plus ou

moins libre. Des applications peuvent avoir pour ambition de couvrir des domaines

vastes comme des domaines restreints (on dit alors qu’on ´evolue dans un ou des

sous-langages au sens de Kittredge1). On rencontre alors deux probl`emes majeurs :

soit on vise à couvrir un grand domaine de la langue, et la quantité de données

linguistiques disponibles est insuffisante pour assurer au syst`eme de traitement

au-tomatique des langues une couverture n´ecessaire (probl`eme bien connu de

raret´e

des donn´ees

) ; soit on vise `a couvrir des domaines restreints de la langue (donc

le système évolue dans un sous-language), et la quantité de données linguistiques

nécessaires est trop importante, les données sont trop générales pour obtenir des

performances optimales dans de tels domaines, car on ne dispose pas de m´ethode

ont r´eintroduit : on peut citer par exemple le syst`eme MASTOR d’IBM⁴¹, qui

m´ethodes statistiques, celui de Ney⁴² pour le projet Verbmobil, qui apprend des

grammaires de surface, ou encore celui de l’´equipe de l’ISI⁴³, qui introduit une

Il est aussi possible d’apprendre des automates d’arbres⁴⁵automatiquement dans le