Article pp.7-14 du Vol.44 n°3 (2003)

(1)

syntaxique

Éric Villemonte de la Clergerie

^* —

Martin Rajman

^**

* INRIA Rocquencourt Domaine de Voluceau 78160 Le Chesnay cedex Eric.De_La_Clergerie@inria.fr

** Laboratoire d’Intelligence Artificielle - École Polytechnique Fédérale de Lausanne CH-1015 Lausanne, Suisse

Martin.Rajman@epfl.ch

RÉSUMÉ.Cet éditorial propose un bref survol des enjeux et des multiples approches se dessinant en analyse syntaxique. Au travers des articles sélectionnés, nous illustrons une partie de cette diversité tout en signalant les points de convergence qu’ils introduisent.

ABSTRACT. This editorial proposes a brief survey of the objectives and multiple approaches emerging in Parsing. Through the selected papers, we illustrate a part of this diversity while pointing out some convergence points they introduce.

MOTS-CLÉS :analyse syntaxique, historique.

KEYWORDS:parsing, history.

(2)

1. Quels enjeux

L’analyse syntaxique constitue une étape essentielle dans le traitement linguistique dès lors qu’est recherchée une connaissance relativement fine des relations grammaticales présentes dans une phrase. Cela concerne, par exemple, la traduction, la cor- rection grammaticale, voire même l’extraction d’information (fouille de texte) ou les applications de type questions-réponses.

Étant donné une phrase, le rôle d’un analyseur est de vérifier sa grammaticalité par rapport à une grammaire de référence et surtout de fournir l’ensemble des relations grammaticale qui ont été identifiées. Traditionnellement, cet ensemble de rela- tions s’exprime sous forme de structures arborescentes profondes (arbres ou forêts d’analyse) qui indiquent le découpage récursif de la phrase en constituants gramma- ticaux (par exemple des groupes nominaux ou des groupes verbaux). Cependant, certaines constructions syntaxiques, comme des phénomènes de déplacement à longue distance, mettent à mal cette notion de constituant. De plus, pour des raisons de couverture grammaticale, il n’est pas toujours possible d’obtenir un découpage com- plet des phrases. Enfin, les structures arborescentes ne sont pas toujours adaptées aux traitements en aval de l’analyse syntaxique. Ces remarques expliquent, en par- tie, l’émergence de représentations sous formes de dépendances [KAH 00] entre mots (par exemple entre un verbe et son sujet) qui semblent mieux adaptées aux traitements applicatifs. Plus souples, les dépendances permettent de représenter des analyses plus ou moins superficielles et partielles. À mi-chemin entre arbres d’analyse et représen- tation par dépendances, on peut également mentionner les arbres de dérivations qui indiquent comment combiner des structures grammaticales partielles pour former une analyse complète.

2. Quels défis

L’analyse syntaxique suscite encore de nombreux problèmes, mais beaucoup de développements récents s’attaquent, directement ou indirectement, aux défis majeurs posés par la couverture des analyseurs et l’ambiguïté des analyses.

2.1. Améliorer la couverture grammaticale

Il reste encore difficile (voire impossible) de définir une grammaire couvrant l’ensemble des phrases admissibles d’une langue, sans surgénérer pour autant. Cette dif- ficulté explique peut-être en partie la très grande profusion de formalismes grammaticaux actuellement disponibles, ces formalismes reflétant des visions différentes des phénomènes grammaticaux et de la manière de les représenter.

Une première famille comprenant les HPSG [POL 94] et les LFG [KAP 82] s’appuient sur la réécriture de clauses, complétée par l’emploi de l’unification pour mo- déliser des informations partielles (sous-spécification) pouvant être progressivement

(3)

instanciées en cours d’analyse. Une autre famille comprenant par exemple les Gram- maires d’Arbres Adjoints [TAG] [JOS 87] et ses nombreuses variantes repose sur la combinaison de structures grammaticales élémentaires, en l’occurrence des arbres, à l’aide de divers opérateurs de dérivation, comme l’adjonction. Sans règles ni structures élémentaires, les approches par contrainte [BLA 01] expriment l’analyse comme un ensemble de contraintes apportées par les mots et devant être vérifiées sur une phrase.

Enfin, l’hypothèse même d’une grammaire générale peut être contestée pour être rem- placée par une hiérarchie de grammaires simples [ABN 96]. Cette diversité de formalismes suscite le développement de nombreux algorithmes d’analyse, difficiles à comparer à la fois en performance et en couverture, et nuit peut-être également au développement de grammaires à large couverture. Savoir comparer les formalismes et éventuellement proposer des mécanismes de conversion entre eux est donc une tâche importante.

Cependant, l’utilisation de l’analyse syntaxique dans des contextes applicatifs sug- gère que la recherche d’une couverture parfaite est sûrement illusoire, en particulier pour l’oral, à cause, entre autres, des variations syntaxiques, des « erreurs » grammaticales fréquentes mais tolérées, des mots inconnus, des incises ou de la ponctuation.

Le problème de couverture est alors géré par l’utilisation d’analyseurs syntaxiques ro- bustes, sachant ignorer certaines portions de phrases ou relâcher certaines contraintes.

Enfin, le choix d’une analyse plus superficielle sur l’ensemble d’une phrase ou sur des segments de celle-ci permet d’éviter la résolution de phénomènes syntaxiques com- plexes. Notons que couverture et robustesse ne sont pas deux notions antagonistes. Il est raisonnable de toujours chercher à améliorer la couverture et la richesse syntaxique des analyseurs, tout en conservant des mécanismes de robustesse [BAL 02, GIG 97].

2.2. Maîtriser l’ambiguïté

L’ambiguïté inhérente au langage et l’amélioration de la couverture ont souvent pour effet de multiplier le nombre d’analyses possibles par phrase, difficiles à éli- miner sans informations complémentaires (sémantiques, pragmatiques). La maîtrise des ambiguïtés constitue le deuxième défi majeur de l’analyse syntaxique et plusieurs approches sont explorées.

2.2.1. Les analyseurs tabulaires

Les approches traditionnelles pour des analyses profondes s’appuient générale- ment sur des algorithmes d’analyse par chartes dérivés de l’algorithme Cocke Ka- sami Younger [KAS 65] et de l’algorithme d’Earley [EAR 70]. Ces algorithmes main- tiennent une table des constituants syntaxiques partiellement ou totalement reconnus.

La tabulation permet un partage des calculs et également la représentation de l’en- semble des analyses ou des dérivations sous la forme compacte de forêts partagées.

De nombreuses variantes d’analyseurs à chartes ont été proposées pour toutes sortes de stratégies d’analyse et toutes sortes de formalismes grammaticaux. Néanmoins, des méthodologies ont été proposées pour présenter ces analyseurs de manière plus

(4)

uniforme [SHI 95, SIK 97, VIL 02] et un cadre formel permet d’expliquer ces algorithmes comme construisant l’intersection d’une grammaire et d’un automate à états finis (ou plus exactement des langages associés), cette intersection étant la forêt par- tagée de dérivation [LAN 91]. En corollaire, ce résultat implique que les analyseurs tabulaires peuvent prendre en entrée un automate à états finis, par exemple un treillis de mots en reconnaissance vocale.

2.2.2. Guider les analyseurs

Même en utilisant des algorithmes tabulaires, l’exploration de l’espace des analyses possibles reste souvent trop coûteuse. Toutes sortes de techniques plus ou moins sophistiquées sont donc mises en œuvre pour réduire les espaces de recherche, par exemple en utilisant des stratégies par coin-gauche ou des stratégies bidirectionnelles dirigées par les têtes. Cependant, une approche déjà ancienne consiste à enchaîner plusieurs passes de traitement syntaxique de complexité croissante, chacune guidant la suivante. Ainsi, une analyse LFG peut s’appuyer sur une analyse plus simple fon- dée sur le squelette non contextuel de la grammaire, une deuxième passe calculant les structures fonctionnelles par unification. Une analyse non contextuelle avec une complexité enn³peut elle-même être guidée par une approximation régulière dont la complexité d’analyse est linéaire [BOU 03, MOH 01]. Pareillement, des approximations non contextuelles ou régulières peuvent être utilisées pur des grammaires TAG.

La complexité théorique de l’ensemble ne change pas, mais, en pratique, les résultats sont bien meilleurs que sans guidage, car les premières passes éliminent beaucoup d’ambiguïtés à moindre coût.

2.2.3. Les approches incrémentales

Cette vision de l’analyse par guidage peut être rapprochée des approches récentes dites incrémentales. Elles mettent en œuvrent des cascades de traitements, générale- ment à base d’automates finis de complexité linéaire [ABN 96, AÏT 97]. Ces phases d’analyse superficielle comprennent par exemple l’étiquetage morpho-syntaxique (tag- ging) ou le découpage en syntagme non récursifs (chunking [ABN 91]). Au fur et à mesure des phases de traitement, l’analyse devient plus complète et plus profonde [AÏT 02, GIG 97]. Si les approches incrémentales semblent similaires aux approches par guidage, elles en diffèrent sur deux points principaux. Premièrement, chaque phase de traitement possède sa propre grammaire, généralement peu complexe. Ceci permet en partie d’éviter de concevoir une unique grammaire complexe de grande couverture d’où sont dérivées des approximations pour des phases de guidage. Deuxièmement, chaque phase incrémentale est généralement déterministe, quitte à revenir sur certains choix lors d’une phase ultérieure. Ces choix rendent ces analyseurs très performants, mais il reste à prouver que cette hiérarchisation et cette indépendance des grammaires n’introduisent pas des problèmes de cohérence et d’interaction entre les différents ni- veaux de traitement.

(5)

2.2.4. Réduire les ambiguïtés en lexicalisant

Réduire les ambiguïtés peut aussi s’effectuer en lexicalisant les grammaires pour mieux guider les analyses par les propriétés syntaxiques spécifiques à chaque mot.

Ainsi, un arbre élémentaire d’une grammaire TAG lexicalisée exprime le domaine de localité d’un mot, par exemple un verbe, en spécifiant les arguments requis par celui ci, en particulier au travers de son cadre de catégorisation. Une telle information permet, dans certains cas, de lever une ambiguïté entre un complément du verbe et un attachement propositionnel.

Cependant la lexicalisation accroît grandement la taille des grammaires, avec bien sûr un impact sur les performances des analyseurs, dont la complexité est en général linéaire vis-à-vis de la taille des grammaires. Ce problème est partiellement contré par l’utilisation d’une phase préliminaire de filtrage, comme le «supertagging» pour les TAG [JOS 94], consistant à sélectionner une sous-grammaire restreinte de la grammaire complète en fonction des mots de la phrase à analyser.

Un problème majeur des approches lexicalisées reste néanmoins l’obtention de lexiques suffisamment riches en information sur chaque mot, en sachant, de plus, que l’usage d’un mot n’est pas parfaitement régulier mais dépend largement de son contexte d’utilisation.

2.2.5. Affiner avec des probabilités

La dépendance des mots à leur contexte est capturée par les approches stochas- tiques [CHA 93], fondées sur l’apprentissage de lexiques et de grammaires stochas- tiques à partir de corpus arborés (tree banks) [BOD 99, CHA 97], qui restent mal- heureusement peu répandus. Les probabilités calculées sur corpus et associées aux usages des mots ou aux constructions syntaxiques possibles permettent de réduire les ambiguïtés en ne conservant que l’analyse la plus probable ou, éventuellement, lesn plus probables. Ces probabilités peuvent être exploitées soit en cours d’analyse pour conserver ou guider à chaque instant les analyses candidates localement les plus pro- metteuses (sans certitude en général d’obtenir la meilleure analyse globale), soit après analyse pour extraire les analyses les plus probables de la forêt partagée d’analyses ou de dérivations. Les approches stochastiques peuvent s’utiliser avec divers formalismes grammaticaux [SCH 92, BOD 98], mais il n’est pas toujours immédiat de satisfaire les propriétés formelles des probabilités pour un formalisme donné. De plus, il faut être capable d’apprendre, à partir d’un corpus fini, une distribution de probabilités équi- table pour l’ensemble infini des structures syntaxiques possibles.

3. Présentation du numéro

Ce bref tour d’horizon, forcement incomplet, illustre la diversité des approches ac- tuelles en analyse syntaxique, approches qui ne sont pas nécessairement antagonistes et sont parfois combinées. Les articles retenus pour ce numéro sont loin de couvrir

(6)

le spectre des travaux actuels en analyse syntaxique mais permettent déjà d’illustrer certains des points mentionnés précédemment.

L’article de Yoshinaga et al. « Parsing comparison across grammar formalisms using strongly equivalent grammars » illustre les liens existant entre deux formalismes a priori assez éloignés, à savoir les TAG et les HPSG, en proposant une conversion forte des TAG vers HPSG. Outre une meilleure compréhension des principes guidant ces deux formalismes, un tel travail permet de comparer, sur une même grammaire, des analyseurs conçus pour des formalismes différents, afin de mieux comprendre la raison de différences en performance. Il devient également envisageable de transposer des méthodes d’analyse efficaces pour un formalisme vers un autre formalisme et plus généralement d’identifier des méthodes d’analyse génériques et efficaces.

Poursuivant cette approche multiformalisme, l’article de M. Alonso et V. Dìaz

« Variants of mixed parsing of TAG and TIG » montre qu’il est possible de gérer plusieurs formalismes au sein d’un même analyseur, même si ces formalismes restent assez proches dans le cas considéré. Cette hybridation permet d’utiliser le formalisme de complexité minimale pour chaque partie de grammaire. Or, en pratique, les grammaires TAG avec une complexité enn⁶comportent de très larges composantes expri- mables par des grammaires TIG avec des complexités enn³. Savoir identifier dans une grammaire des parties de complexités différentes et adapter les techniques d’analyse en conséquence nous semble une démarche prometteuse.

L’approche par Méta-Grammaires [CAN 99] qui postule un niveau de description des grammaires plus abstrait et (peut-être) plus proche du sens linguistique motive l’article de B. Crabbé et al. « Représentation et gestion de grammaires TAG lexicali- sées ». Ces méta-grammaires peuvent ensuite être expansées vers divers formalismes grammaticaux, comme les TAG et les LFG [CLÉ 03], et leur conception modulaire facilite le développement et la maintenance de grammaires à large couverture. Les méta-grammaires apportent également un nouvel éclairage sur la lexicalisation au tra- vers de la notion d’hypertag [KIN 00].

L’article de G. Bonfante et al. « Analyse syntaxique électrostatique » présente un nouveau formalisme grammatical original et lexicalisé, qui, au passage, reprend certaines idées présentes dans les méta-grammaires. En particulier, ce formalisme propose une vision orientée contraintes des grammaires. L’article décrit également comment des approximations de ce formalisme, obtenues en relâchant des contraintes, peuvent être utilisées pour étiqueter les mots d’une phrase.

Au travers de techniques très différentes, l’article de R. Prins et G. van Noord

« Reinforcing Parser Preferences through Tagging » explore également comment une grammaire peut être utilisée pour l’étiquetage, en l’occurrence en entraînant un éti- queteur sur un corpus automatiquement annoté par un analyseur syntaxique.

Dans le cadre d’approches lexicalisées, l’article de C. Frérot et al. « Marier appren- tissage endogène et ressources exogènes dans un analyseur syntaxique de corpus » montre comment réduire les ambiguïtés lors de l’analyse en combinant des informations sur les mots provenant d’un lexique et d’un contexte étendu, à savoir le corpus.

(7)

L’article de A. Rozenknop et al. « Polynomial Discriminant Tree Substitution Grammars » étudie, sur le plan formel et expérimental, certaines difficultés liées aux approches stochastiques pour un formalisme syntaxique situé à mi-chemin entre CFG et TAG. Ces difficultés portent sur la définition de classes de grammaires assurant l’extraction efficace de la meilleure analyse à partir d’une forêt partagée d’analyse et sur des modèles probabilistes assurant une distribution équitable.

Enfin, l’article de L. Monceaux et A. Vilnat « Évaluation, projection et combinaison d’analyses syntaxiques robustes » s’intéresse à la question de la comparaison des sorties d’analyseurs syntaxiques. C’est une étape essentielle pour pouvoir ensuite éva- luer les performances en termes de couverture des analyseurs. Les auteurs vont plus loin en proposant de combiner les éléments d’information produits par les différents analyseurs pour obtenir une meilleure couverture et une meilleure précision. Une telle approche peut se révéler particulièrement utile pour construire à moindre coût des corpus arborés.

4. Bibliographie

[ABN 91] ABNEYS. P., « Parsing by chunks », BERWICKR., ABNEYS., TENNYC., Eds., Principled-Based Parsing, Kluwer Academic Publishers, Dordrecht, 1991.

[ABN 96] ABNEYS. P., « Partial Parsing Via Finite-State Cascades », ESSLLI’96 Workshop on Robust Parsing, Prague, Czech Republic, 1996.

[AÏT 97] AÏT-MOKHTARS., CHANODJ.-P., « Incremental finite-state parsing », Proceedings of the 5th Conference on Applied Natural Language Processing (ANLP-97), Washington, DC, 1997.

[AÏT 02] AÏT-MOKHTARS., CHANODJ.-P., ROUXC., « Robustness beyond shallowness : incremental deep parsing », Natural Language Engineering, vol. 8, n^o 2, 2002, p. 121-144, Cambridge University Press.

[BAL 02] BALFOURIERJ.-M., BLACHEP.,VANRULLENT., « From Shallow to Deep Parsing Using Constraint Satisfaction », Proceedings of COLING-2002, 2002.

[BLA 01] BLACHE P., Les Grammaires de Propriétés : des contraintes pour le traitement automatique des langues naturelles, Hermès Publications, 2001.

[BOD 98] BODR., KAPLANR., « A Probabilistic Corpus-Driven Model for Lexical Functio- nal Analysis », Proceedings of COLING-ACL’98, Montreal, Canada, 1998.

[BOD 99] BOD R., « Extracting Stochastic Grammars from Treebanks », Proceedings of VEXTAL’99 Conference, Venice, Italy, 1999.

[BOU 03] BOULLIERP., « Guided Earley Parsing », Proceedings of the 8th International Workshop on Parsing Technologies (IWPT 03), Nancy, France, avril 2003, p. 43–54.

[CAN 99] CANDITO M.-H., « Organisation modulaire et paramétrable de grammaires élec- troniques lexicalisées », PhD thesis, Université Paris 7, janvier 1999.

[CHA 93] CHARNIAKE., Statistical Language Learning, The MIT Press, 1993.

[CHA 97] CHARNIAKE., « Statistical Parsing with a Context-Free Grammar and Word Sta- tistics », AAAI/IAAI, 1997, p. 598-603.

(8)

[CLÉ 03] CLÉMENTL., KINYONA., « Generating parallel multilingual LFG-TAG grammars from a MetaGrammar », Proceedings of ACL’03, 2003.

[EAR 70] EARLEYS., « An Efficient Context-Free Parsing Algorithm », Communications ACM 13(2), p. 94-102, ACM, 1970.

[GIG 97] GIGUETE., VERGNEJ., « From Part of Speech Tagging to Memory-based Deep Syntactic Analysis », Proceedings of the Fifth International Workshop on Parsing Techno- logies, Boston, 1997.

[JOS 87] JOSHI A. K., « An Introduction to Tree Adjoining Grammars », MANASTER- RAMERA., Ed., Mathematics of Language, p. 87–115, John Benjamins Publishing Co., Amsterdam/Philadelphia, 1987.

[JOS 94] JOSHIA. K., SRINIVASB., « Disambiguation of Super Parts of Speech (or Super- tags) : Almost Parsing », Proceedings of COLING’94, 1994.

[KAH 00] KAHANE S., Ed., Dependency Grammars, vol. 41 de TAL, Hermes, novembre 2000.

[KAP 82] KAPLANR. M., BRESNANJ., « Lexical-Functional Grammar : A formal system for grammatical representation », BRESNANJ., Ed., The Mental Representation of Gram- matical Relations, p. 173-281, The MIT Press, Cambridge, MA, 1982, Reprinted in Mary Dalrymple, Ronald M. Kaplan, John Maxwell, and Annie Zaenen, eds., Formal Issues in Lexical-Functional Grammar, 29-130. Stanford : Center for the Study of Language and Information. 1995.

[KAS 65] KASAMI T., « An efficient recognition and syntax analysis algorithm for context- free languages », rapport n^oR-257, 1965, University of Hawaii, Also AFCRL-65-758, Air Force Cambridge Research Laboratory, Bedford, MA.

[KIN 00] KINYONA., « Hypertags », Proceedings of COLING’2000, Sarrebrucken, 2000.

[LAN 91] LANGB., « Towards a Uniform Formal Framework for Parsing », TOMITAM., Ed., Current issues in Parsing Technology, chapitre 11, Kluwer Academic Publishers, 1991.

[MOH 01] MOHRI M., NEDERHOFM.-J., « Robustness in Language and Speech Techno- logy », chapitre Regular approximation of context-free grammars through transformation, Kluwer Academic Publishers, 2001.

[POL 94] POLLARDC., SAGI. A., Head-Driven Phrase Structure Grammar, University of Chicago Press, Chicago, 1994.

[SCH 92] SCHABESY., « Stochastic Lexicalized Tree-Adjoining Grammars », Proceedings of COLING’92, Nantes, France, août 1992, p. 426–432.

[SHI 95] SHIEBER S. M., SCHABES Y., PEREIRA F., « Principles and Implementation of Deductive Parsing », Journal of Logic Programming, vol. 24, n^o 1 & 2, 1995, p. 3-36.

[SIK 97] SIKKELK., Parsing Schemata – a framework for specification and analysis of par- sing algorithms, EATCS, Springer-Verlag, 1997.

[VIL 02] VILLEMONTE DE LACLERGERIEE., « Parsing Mildly Context-Sensitive Languages with Thread Automata », Proceedings of COLING’02, août 2002.