• Aucun résultat trouvé

2.3 Autres pratiques de l’analyse pr´esyntaxique

2.3.3 La segmentation du tha¨ı

On a vu la segmentation en phrases dans la section pr´ec´edente, mais il y a des langues ou la distinction des phrases est beaucoup moins marqu´ees. Le tha¨ı en est un excellent exemple.

Dans la plupart des syst`emes d’analyse pr´esyntaxique en tha¨ı, la distinction entre phrases ne se fait pas. Le texte est trait´e par paragraphes entiers, ou par segments qui se situent entre la phrase et le syntagme, d´elimit´e par des espacements. Ces espacements ne d´elimitent pas toujours des phrases, mais ´egalement des nombres, des clauses, les ´el´ements d’une ´enum´eration, etc.

56 Des approches sp´ecifiques de l’analyse morphologique en g´en´eral...

L’approche la plus courante est donc l’it´emisation directe, sans passer par une segmentation en phrases. Elle n’est en r´ealit´e pas surprenante, car c’est ´egalement cette approche qui est choisie majo-ritairement mˆeme dans les langues ou la segmentation en phrases n’est pas aussi probl´ematique.

Les multiples solutions pour l’it´emisation en tha¨ı sont d´esormais famili`eres [Sornlertlamvanich et al., 2000b] : heuristiques de plus longue chaˆıne, heuristique d’it´emisation minimale, techniques probabilistes, etc. Des syst`emes assez sophistiqu´es ont ´et´e d´evelopp´es, comme par exemple [Meknavin et al., 1997], o`u des m´ethodes d’apprentissage de r`egles de r´esolution d’ambigu¨ıt´es de segmentation sont appliqu´ees pour am´eliorer le r´esultat des m´ethodes pr´ec´edentes. Les m´ethodes d’apprentissage telles que l’algorithme C4.5 sont ´egalement employ´ees par [Sornlertlamvanich et al., 2000a].

La segmentation en phrases. L’espace comme s´eparateur est ambigu au mˆeme titre que la ponc-tuation en fran¸cais ou en anglais. Dans [Mittrapiyanuruk et Sornlertlamvanich, 2000], un algorithme de classification des espacements entre s´eparateur de phrases ou non est propos´e. Le probl`eme est re-formul´e en terme de l’´etiquetage syntaxique (part-of-speech tagging) : si un blanc peut avoir deux ´etiquettes, SBS (sentence-breaking space, s´eparateur de phrases) ou NSBS (non-sentence-breaking space, non-s´eparateur de phrases), alors la distinction des phrases consiste simplement `a identifier correctement la cat´egorie syntaxique d’un blanc dans le texte.

La segmentation en phrases repose sur une premi`ere ´etape d’it´emisation et de lemmatisation. Ensuite, pour chaque couple d’items, un espace virtuel est ins´er´e; celui-ci peut avoir pour cat´egorie SBS ou NSBS. C’est au processus d’´etiquetage syntaxique (donc de d´esambigu¨ısation des ´etiquettes) de trancher selon un mod`ele classique de trigrammes. Chaque espace virtuel ou non de cat´egorie SBS constitue alors un s´eparateur de phrases.

Conclusion

Encore une fois, les syst`emes expos´es ici ne sont qu’une partie la plus repr´esentative possible de tout ce qui existe dans le domaine, mais on commence maintenant `a avoir une id´ee plus claire des pratiques actuelles de l’analyse pr´esyntaxique, mˆeme si la premi`ere id´ee semble ˆetre qu’il y a autant d’approches que de syst`emes existants... Cela n’est pas totalement faux, car mˆeme si deux analyseurs morphologiques sont r´ealis´es avec le mˆeme formalisme, des strat´egies parfois fort diff´erentes sont n´ecessaires selon la langue analys´ee. Par exemple, le traitement des entit´es compos´ees dans la morphologie `a deux niveaux n’est pas forc´ement la mˆeme en fran¸cais et en allemand.

Chapitre 3

Une synth`ese des travaux actuels en analyse pr´esyntaxique

Introduction

Apr`es avoir essay´e de pr´esenter un panorama assez large des travaux actuels dans le domaine de l’analyse pr´esyntaxique, il est utile de donner une version plus synth´etique des avanc´ees r´ealis´ees jusqu’`a pr´esent et surtout du chemin restant `a parcourir. Dans cette synth`ese, on propose de remettre en perspective les id´ees les plus int´eressantes vues pr´ec´edemment par un comparatif syst´ematique (section 3.1), ainsi que les probl`emes qui sont encore loin d’ˆetre r´esolus (section 3.2).

De cette ´etude synth´etique, on retire des points cl´es qui se d´egagent d’approches d’apparences diff´erentes. L’unification de tous ces outils n’est sans doute pas la meilleure solution pour la construc-tion d’un outil g´en´erique destin´e `a la segmentaconstruc-tion et aux applicaconstruc-tions pr´esyntaxiques, mais en d´efinissant un sous-ensemble de caract´eristiques et de fonctionnalit´es propres `a de nombreux outils (m´ecanismes fond´es sur les ´etats finis, possibilit´e d’utiliser des statistiques, m´ecanismes d’extension, etc.), on est en mesure de d´efinir une sorte de cahier des charges pour un formalisme r´eellement universel, donc dont les fondements soient compl`etement ind´ependants d’une langue ou d’une autre (section 3.3).

3.1 Comparatif syst´ematique des approches pr´esent´ees

Cette section consiste en un comparatif syst´ematique de lex, Segdict, SMorph, Satz, XFST, ATEF, les syst`emes-Q, FSM et Chasen selon les crit`ere suivants.

Niveaux de segmentation. Quel est le niveau des unit´es trait´ees ? Y a-t-il plusieurs niveaux de traitements ?

Traitement des ambigu¨ıt´es. Comment sont r´esolues les ambigu¨ıt´es de segmentation et d’analyse ? Sont-elles toutes conserv´ees ou sont-elles r´esolues ? Si oui, comment se fait cette r´esolution ? Formats d’entr´ee et de sortie. Sous quelle forme est attendu le texte `a ´evaluer ? Et surtout, quelle

est la forme du r´esultat de l’analyse ?

Mod`ele sous-jacent. Quelles sont les techniques qui gouvernent l’analyse ?

Programmabilit´e. Quelle est la latitude de l’auteur pour modifier le comportement du syst`eme avec lequel il ´ecrit un analyseur ?

R´eversibilit´e. Si l’on a surtout parl´e d’analyse jusqu’`a pr´esent, la g´en´eration (dans le domaine de la morphologie par exemple) n’est pas `a n´egliger. Un syst`eme est-il utilisable dans les deux sens ? Y a-t-il beaucoup de modifications `a faire pour que ce soit le cas ?

58 Une synth`ese des travaux actuels en analyse pr´esyntaxique

Traitement des mots inconnus. Comme les ressources linguistiques disponibles sont forc´ement in-suffisantes pour des applications robustes, comment g´erer la pr´esence de formes inconnues dans le texte `a analyser ?

Langues couvertes. Pour quelle(s) langue(s) ont ´et´e ´ecrits des analyseurs selon cette m´ethode ? Y a-t-il des aspects techniques, th´eoriques ou pratiques, qui empˆecheraient ou faciliteraient l’´ecriture d’analyseurs dans d’autres langues ?

Ces crit`eres sont appliqu´es aussi bien aux outils pour programmeur (lex, section 3.1.1), qu’aux syst`emes g´en´eriques (comme Segdict, section 3.1.2 ou ATEF, section 3.1.6), qu’aux analyseurs sp´ecifiques (comme l’analyseur du chinois par unigrammes section 3.1.8 ou l’analyseur du japonais par bigrammes Chasen, section 3.1.9). Ainsi, une comparaison devient plus ais´ee.

Cependant, il semble encore manquer un point important : il n’a encore pratiquement pas ´et´e question d’´evaluation. Quelles sont les performances de ces analyseurs ? Quel est celui qui donne les meilleurs r´esultats ? Quelle est la technique la plus pr´ecise ? L’utilisation de statistiques donne-t-elle de meilleurs r´esultats que des heuristiques ? Comme on le verra un peu plus bas dans la section 3.2.3, l’´evaluation d’un segmenteur ou d’un analyseur morphologique est une tˆache particuli`erement ardue, et la comparaison quantitative de plusieurs syst`emes est quasiment impossible. Aussi, ce sont uniquement des crit`eres qualitatifs qui sont appliqu´es ici.