• Aucun résultat trouvé

La tendance actuelle est `a la convergence entre les m´ethodes fond´ees uniquement

sur les donn´ees et les m´ethodes fond´ees sur les th´eories linguistiques : on assiste

ainsi `a une explosion des m´ethodes hybrides. Hybrides, ces m´ethodes peuvent en

fait l’ˆetre de deux mani`eres : au niveau du calcul, ou au niveau des repr´esentations.

`

A l’origine, les m´ethodes statistiques ont pour vocation de n’utiliser aucune

repr´esentation interm´ediaire, pourtant dans la pratique beaucoup de syst`emes en

ont r´eintroduit : on peut citer par exemple le syst`eme MASTOR d’IBM41, qui

r´ealise une analyse s´emantique et syntaxique des ´enonc´es avant l’application de

m´ethodes statistiques, celui de Ney42 pour le projet Verbmobil, qui apprend des

grammaires de surface, ou encore celui de l’´equipe de l’ISI43, qui introduit une

approche statistique fond´ee sur la syntaxe, et l’alignement automatique d’arbres

d’analyse dans plusieurs langues. On peut aussi concilier une approche linguistique

avec une m´ethode non statistique fond´ee sur les donn´ees : le syst`eme de traduction

par l’exemple de Microsoft Research44 extrait des r`egles `a partir des donn´ees, qui

permettent de s’abstraire en partie de la structure sp´ecifique des langues `a traduire.

Il est aussi possible d’apprendre des automates d’arbres45automatiquement dans le

cadre d’une approche statistique.

37

Planas,TELA : Structure et algorithmes pour la traduction fond´ee sur la m´emoire, 1998.

38

Och,Statistical machine translation: Foundations and recent advances, 2005.

39

Przybocki,The 2005 NIST machine translation evaluation plan (MT-05), 2004.

40

De l’aveu mˆeme de Franz Joseph Och, la m´ethode est extr`emement gourmande : disposant

d’une ferme de 1 000 ordinateurs, il fait traduire chacune des 1 000 phrases du jeu de test par l’un

des ordinateurs.

41

Voir http://domino.watson.ibm.com/comm/research.nsf/pages/r.uit.innovation.html

42

Neyet al.,Statistical translation of spoken dialogues in the Verbmobil system, 2000.

43

Germannet al.,Fast decoding and optimal decoding for machine translation, 2003.

44

Brockettet al.,English-Japanese example-based machine translation using abstract linguistic

representations, 2002.

45

Thatcher &Wright, Generalized finite automata theory with an application to a decision

Conclusion

Nous avons bross´e dans cette introduction un panorama des diff´erentes m´ethodes

employ´ees en traitement automatique des langues. Nous avons vu que la raison de

la diversit´e des m´ethodes ´etait d’une part historique, et d’autre part th´eorique, car

li´ee au niveau de repr´esentation linguistique consid´er´e. Dans l’approche fond´ee sur

les r`egles, la connaissance linguistique est explicit´ee sous la forme de grammaires

ou d’automates et de dictionnaires, alors qu’`a l’autre extrˆeme, dans l’approche

fond´ee sur les donn´ees, elle est extraite des donn´ees via une mod´elisation

statis-tique, ind´ependamment de tout ph´enom`ene linguistique proprement dit, les donn´ees

pouvant ˆetre aussi bien num´eriques que linguistiques. C’est principalement sur ce

point que s’affrontent les tenants des approches symboliques, et ceux des approches

fond´ees sur les donn´ees. Un tel d´ebat est particuli`erement actuel dans le domaine

de la traduction automatique, qui apr`es avoir ´et´e longtemps domin´e par les

ap-proches par r`egles, a ´et´e le t´emoin d’importants tranferts depuis le domaine de la

reconnaissance automatique de parole dans les ann´ees 1980.

Les m´ethodes pouvant ˆetre appliqu´ees sur les donn´ees brutes, sans n´ecessit´e

de pr´etraitement, sont minoritaires. Les m´ethodes fond´ees sur les donn´ees, comme

l’approche statistique, travaillent en effet sur des unit´es, en g´en´eral les mots, qu’il

faut extraire des donn´ees. Cette extraction n´ecessite des connaissances pour ˆetre

effi-cace, et va `a l’encontre du caract`ere

¿

universel

À

que visent les m´ethodes fond´ees sur

les donn´ees. Dans le chapitre suivant, nous mettons en relief les diff´erents probl`emes

li´es `a cette n´ecessit´e de d´ecouper les donn´ees linguistiques en unit´es de traitement,

et proposons d’y rem´edier en utilisant un atome plus petit et imm´ediatement

ac-cessible : le caract`ere.

Chapitre 2

Mise en relief des probl`emes

actuels et des axes prometteurs

Introduction

Comme nous l’avons mentionn´e dans l’introduction, le traitement automatique des

langues fond´e sur les donn´ees bute actuellement sur un certain nombre de probl`emes

difficiles. Ces probl`emes sont li´es aux donn´ees utilis´ees, de fa¸con `a la fois quantitative

et qualitative.

Il y a tout d’abord un probl`eme de pertinence vis-`a-vis du domaine que

l’ap-plication doit traiter. Une apl’ap-plication de traitement automatique des langues est

con¸cue pour op´erer dans des domaines o`u la langue se comporte de mani`ere plus ou

moins libre. Des applications peuvent avoir pour ambition de couvrir des domaines

vastes comme des domaines restreints (on dit alors qu’on ´evolue dans un ou des

sous-langages au sens de Kittredge1). On rencontre alors deux probl`emes majeurs :

soit on vise `a couvrir un grand domaine de la langue, et la quantit´e de donn´ees

linguistiques disponibles est insuffisante pour assurer au syst`eme de traitement

au-tomatique des langues une couverture n´ecessaire (probl`eme bien connu de

¿

raret´e

des donn´ees

À

) ; soit on vise `a couvrir des domaines restreints de la langue (donc

le syst`eme ´evolue dans un sous-language), et la quantit´e de donn´ees linguistiques

n´ecessaires est trop importante, les donn´ees sont trop g´en´erales pour obtenir des

performances optimales dans de tels domaines, car on ne dispose pas de m´ethode

pour les caract´eriser ou les trier.

Le deuxi`eme probl`eme que l’on rencontre est fondamental car il est

m´ethodo-logique : lorsqu’on traite un document, un pr´etraitement est n´ecessaire afin de le

d´ecouper en unit´es ou atomes de base2. Habituellement, dans l’approche du

trai-tement automatique des langues fond´ee sur les donn´ees, le texte est d´ecoup´e en ce

qu’on a coutume d’appeler des mots. Le traitement r´eserv´e `a la ponctuation varie,

mais si le plus souvent la phrase est consid´er´ee comme une entit´e bien d´elimit´ee,

il est fait assez peu de cas de sa ponctuation interne3. Cette approche est `a notre

sens malheureuse, car la ponctuation constitue une information linguistique non

1

Kittredge & Lehrberger, Sublanguage. Studies of language in restricted semantic

do-mains, 1982, c’est-`a-dire des domaines limit´es en termes de variations lexicales, syntaxiques, et

s´emantiques.

2

Unetokenization, en anglais.

3

Les campagnes d’´evaluation de syst`emes de traduction automatique IWSLT-2004 et 2005

exi-geaient des phrases sans ponctuation en sortie des syst`emes !

n´egligeable sur la structure du texte.

D’autre part, la question de la division en mots est sujette `a d´ebat : le mot est

une unit´e significative de la grammaire traditionnelle, empiriquement li´ee `a la forme

´ecrite de la langue consid´er´ee. Sur le plan linguistique, on peut tout `a fait penser

qu’il n’existe pas un mais des mots `a diff´erents niveaux de repr´esentation : le mot

¿

oral

À

phon´etique (ou groupe accentuel) correspond mal au crit`ere de s´eparabilit´e

fonctionnelle, et aux crit`eres de d´elimitation intonative ; le mot

¿

´ecrit

À

graphique,

s’il peut paraitre plus accessible dans des langues comme le fran¸cais ou l’anglais par

exemple, ne l’est pas dans les langues d´epourvues d’espace comme le chinois ou le

japonais ou dans d’autres d´epourvues de ponctuation.

Si le mot orthographique peut repr´esenter `a premi`ere vue la brique de base qui

relie le signifiant au signifi´e, l’atome d’une analyse en constituants imm´ediats4, il

est en r´ealit´e impossible `a d´efinir de fa¸con satisfaisante et g´en´erale. Tout au plus

pourra-t-on tenter de le faire dans le cadre d’une langue en particulier.

C’est sur un tel probl`eme que nous nous proposons de diriger notre attention

tout au long de cette ´etude.