• Aucun résultat trouvé

1.3 Des formalismes pour l’analyse morphologique

1.3.3 Transduction de graphes de chaˆınes avec les syst`emes-Q

Les syst`emes-Q [Colmerauer, 1970] constituent un syst`eme de r`egles de transduction de graphes de chaˆınes. Contrairement aux autres formalismes d´ecrits dans ce chapitre, son champ d’application n’est pas limit´e `a la morphologie, et les syst`emes-Q n’ont pas de lien particulier avec les th´eories morphologiques vues ici, et sont beaucoup plus abstraits.

Le principe de ces syst`emes-Q est de repr´esenter les diff´erentes analyses possibles d’un texte sous la forme d’un graphe de chaˆınes, et de se doter d’un syst`eme de r`egles pour manipuler ces graphes. Un traitement-Q est alors l’application successive d’un ou de plusieurs syst`emes-Q manipulant un texte repr´esent´e sous cette forme.

1.3.3.1 Les graphes de chaˆınes

La factorisation choisie pour repr´esenter les ambigu¨ıt´es d’analyse du texte dans les syst`emes-Q est le graphe de chaˆıne. Ces graphes sont ´equivalents `a des DAG, car ils n’admettent pas de circuit. Ils poss`edent en outre la particularit´e, comme les treilles, d’avoir un unique nœud « initial » et un unique nœud « final ». Les nœuds sont num´erot´es pour pouvoir y faire r´ef´erence dans la repr´esentation textuelle d’un graphe. La figure 1.8 montre un graphe de chaˆınes.

SN(PAUL) EST VENU HIER

V(MANGER,3PSII) 8 JOUE MARDI A 3 4 6 . NON 2 OUI 1 7 5 9

Fig. 1.8 – Un graphe de chaˆınes

Les graphes de chaˆınes repr´esentent les donn´ees d’un traitement-Q. Les ´etiquettes des arcs ne sont cependant pas de simples chaˆınes, mais une repr´esentation textuelle d’arbre. En effet, les syst`emes-Q d´efinissent trois types de donn´ees :

1. les ´etiquettes, qui sont de simples chaˆınes de caract`eres (e.g.PAUL) ;

2. les listes, dont les ´el´ements sont des ´etiquettes ou des arbres, s´epar´es par une virgule (e.g.MANGER, 3PSII) ;

36 Une ´etude de l’analyse pr´esyntaxique...

Une chaˆıne est une concat´enation dont les symboles sont des arbres ou des ´etiquettes, s´epar´es par le caract`ere +. Dans la figure 1.8, le graphe porte par exemple la chaˆıne OUI + SN(PAUL) + A + JOUE + MARDI + ..

1.3.3.2 Les syst`emes-Q simplifi´es

Un syst`eme-Q est un ensemble de r`egles de transduction de chaˆınes. Dans leur forme la plus simple, sans param`etres, les r`egles d’un syst`eme-Q sont de la forme :

a1+ a2+ . . . + am== b1+ b2+ . . . + bn.

Cette r`egle indique que ce syst`eme-Q doit transformer toute occurrence de la chaˆıne de gauche en la chaˆıne de droite.

Exemple : le syst`eme-Q suivant reconnaˆıt les chaˆınes des la forme AnBnCn en les r´e´ecrivant en S . Il est compos´e des quatre r`egles :

A + B + C == S.

A + S + B(*) + C == S. B(*) + C == C + B(*). B + B == B + B(*).

L’application des r`egles s’effectue en deux ´etapes. La premi`ere est l’ajout de nouvelles chaˆınes. Lorsqu’une chaˆıne dans le graphe correspond au membre gauche d’une r`egle, alors une nouvelle chaˆıne est ajout´ee dans le graphe, commen¸cant et terminant `a la mˆeme position. Ce processus est r´ep´et´e jusqu’`a la convergence ´eventuelle en prenant simplement soin de ne pas appliquer deux fois la mˆeme r`egle `a la mˆeme chaˆıne. La figure 1.9 repr´esente deux applications successives de r`egle, la premi`ere `a s’appliquer est la r`egle B + B == B + B(*), la seconde est B(*) + C == C + B(*), dont l’application est rendue possible par l’ajout d’une chaˆıne par la r`egle pr´ec´edente.

A A B B C C

C

B B(*)

B(*)

Fig. 1.9 – Ajouts de chaˆınes

La deuxi`eme phase consiste ensuite `a effacer chaque transition qui a ´et´e utilis´ee pour au moins une r`egle (les transitions utilis´ees sont repr´esent´ees en pointill´es). Une fois ces transitions ´elimin´ees, toutes les transitions qui ne font pas partie d’un chemin reliant les deux extr´emit´es du graphe sont elles aussi ´elimin´ees (ce qui peut avoir pour effet de produire un graphe vide). Dans la figure 1.10, la seule transition qui subsiste est celle marqu´ee S et qui t´emoigne du succ`es de la reconnaissance de la chaˆıne AABBCC.

1.3.3.3 Les syst`emes-Q g´en´eriques et les traitements-Q

Dans un syst`eme-Q « g´en´eral », les r`egles admettent param`etres et conditions. Les symboles d’une chaˆıne peuvent en fait ˆetre des ´etiquettes, listes et arbres param´etr´es ; et une r`egle peut ˆetre compl´et´ee par une condition d’application.

Exemple : le syst`eme-Q pr´ec´edent peut ˆetre r´ealis´e plus simplement : A* + A*(U*) == A*(1, U*) / A* -DANS- A, B, C.

1.3 Des formalismes pour l’analyse morphologique 37

A A B B C C C B B(*) B(*) S S

Fig. 1.10 – Suppression des arcs utilis´es

Les param`etres de ces deux r`egles sont A* (´etiquette param´etr´ee) et U* (liste param´etr´ee). La premi`ere r`egle s’applique si le param`etre ´etiquette A* est A, B, ou C ; la deuxi`eme r`egle s’applique sans condition. La figure 1.11 montre l’application de ces r`egles `a la chaˆıne A+A+A+B+B+B+C+C+C, juste avant la suppression des arcs ; le dernier arc restant est l’arc S(1,1). La liste domin´ee par S « compte » donc le nombre d’occurrence de chacun des A, B et C dans l’expression reconnue.

B B C C C A A B A A(1) B(1) C(1) A(1) A(1,1) B(1) B(1,1) C(1) C(1,1) S(1,1)

Fig. 1.11 – Syst`eme-Q g´en´erique

Un traitement-Q consiste en une s´erie de syst`emes-Q qui s’appliquent en cascade. Les donn´ees en entr´ee sont pr´esent´ees sous la forme de graphes de chaˆınes, et chaque syst`eme-Q est appliqu´e sur le r´esultat du syst`eme-Q pr´ec´edent pour obtenir le r´esultat final. Par exemple, Colmerauer a construit un paraphraseur « jouet » du fran¸cais en quatre phases : une phase d’analyse, suivie d’une phase de synth`ese (la g´en´eration des paraphrases) et de deux phases de normalisation o`u les arbres sont « aplatis » pour obtenir un r´esultat lisible.

Conclusion

La vue de l’analyse morphologique offerte par ce chapitre est n´ecessairement partielle et ne pr´etend absolument pas ˆetre exhaustive. Les formalismes et les structures pr´esent´es sont surtout du niveau trois selon la classification de Chomsky, c’est-`a-dire de l’ordre des langages rationnels. Un avantage certain est que l’on dispose pour ces langages d’outils d’analyse efficaces, mais que leur puissance expressive est relativement limit´ee.

Des outils de plus haut niveau existent : les syst`emes-Q, par exemple, mˆeme si ceux-ci ne sont pas sp´ecifiquement destin´es `a la morphologie. Des approches hors-contexte ont ´et´e employ´ees dans les ann´ees 1970, comme par exemple dans le syst`eme METAL, ou dans les ATN (Augmented Transition

38 Une ´etude de l’analyse pr´esyntaxique...

Networks, r´eseaux de transition augment´es : les arc portent des conditions sur l’entr´ee et sur des « registres » de travail, ainsi que des actions sur ces registres et sur le contrˆole de haut niveau du syst`eme).

Parmi les langages de programmation, on aurait pu ´egalement citer comme exemple int´eressant Prolog, dont le formalisme de DCG se prˆete `a toutes sortes d’analyse linguistiques, y compris en ce qui concerne l’analyse morphologique.

Chapitre 2

Des approches sp´ecifiques de l’analyse morphologique en g´en´eral,

et de l’it´emisation en particulier

Introduction

Si le chapitre 1 s’est attach´e `a montrer la vari´et´e des techniques pour l’analyse morphologique, il est temps de s’attacher `a des analyseurs sp´ecifiques actuellement utilis´es. C’est l’occasion de voir `a l’œuvre les machines d’´etats finis, pond´er´ees ou non, et le formalisme ATEF, pour une vari´et´e de langues qui va du fran¸cais au chinois.

Plutˆot que de faire la distinction classique « langue avec s´eparateurs » / « langue sans s´eparateurs », il est plus int´eressant de faire une distinction selon l’utilisation ou non de donn´ees statistiques pour l’it´emisation et l’analyse. On trouvera des exemples de chacune de ces deux ap-proches dans les sections 2.1 (pour le fran¸cais et le japonais en particulier) et 2.2 (pour le chinois et le japonais).

Afin de ne pas se focaliser uniquement sur l’analyse morphologique, la section 2.3 met ces m´ethodes stochastiques ou non en perspective en voyant leur application `a d’autres applications pr´esyntaxiques, comme la segmentation en phrases ou le pr´etraitement du texte, ainsi qu’`a des langues `a la morphologie plus exotique, comme le tha¨ı.