• Aucun résultat trouvé

Article pp.167-168 du Vol.44 n°1 (2003)

N/A
N/A
Protected

Academic year: 2022

Partager "Article pp.167-168 du Vol.44 n°1 (2003)"

Copied!
2
0
0

Texte intégral

(1)

Résumés de thèses

Rubrique préparée par Anne Condamines (ERSS-CNRS)

Nuria Gala Pavia

Un modèle d’analyseur syntaxique robuste basé sur la modularité et la lexicalisation de ses grammaires.

Thèse d’informatique, Université de Paris-Sud, Orsay, le 21 mars 2003.

Jury : Christian Jacquemin (directeur), Christian Boitet et Eric Wehrli (rapporteurs), Salah Aït-Moktar et Gregory Grefenstette (examinateurs), Gérard Ligozat (président).

La notion d’analyse syntaxique robuste s’est répandue à la suite d’une effervescence générale pour les techniques informatiques d’analyse de corpus. Dans cette optique, l’analyse syntaxique consiste à associer automatiquement à la chaîne découpée en unités, une représentation des groupements structurels et/ou des relations fonctionnelles existant entre ces unités.

L’enjeu auquel les analyseurs se heurtent est souvent le maintien d’un équilibre entre la finesse de la description linguistique et l’efficacité de l’analyseur, ainsi qu’entre cette finesse descriptive et leur adéquation empirique. En effet, on retrouve des phénomènes généralement bien modélisés par la plupart des analyseurs (marquage de syntagmes de base – syntagmes nominaux, verbaux, etc. –, extraction de la dépendance sujet et objet, etc.) mais un bon nombre d’autres structures ne sont pas prises en compte par leurs grammaires, ce qui fait diminuer considérablement leurs performances.

Plusieurs raisons justifient ceci. D’une part, quelle que soit leur approche, les analyseurs robustes ont souvent été développés en utilisant des corpus standard, principalement des corpus journalistiques, car ce type de corpus a été très tôt accessible électroniquement. Par conséquent, des phénomènes absents ou peu fréquents dans ce type de corpus ont été souvent « oubliés » lors de la création des grammaires (propositions à l’impératif, constructions interrogatives, structures alphanumériques complexes, etc.). D’autre part, les analyseurs ont parfois négligé des phénomènes traditionnellement peu étudiés en linguistique, à savoir des phénomènes considérés à la frontière entre ce qui est « linguistique » et ce qui a trait à d’autres domaines proches (par exemple, la ponctuation ou la disposition visuelle de certaines parties du texte). A ces carences, s’ajoute la difficulté du traitement avec des moyens uniquement syntaxiques des structures complexes du

Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com

(2)

168 TAL. Volume 44 – n° 1/2003

point de vue linguistique (notamment le rattachement prépositionnel et la coordination). En effet, ces phénomènes mettent en jeu des ambiguïtés (de rattachement, de portée...) qui peuvent difficilement être bien résolues avec les techniques actuelles.

Tous ces aspects nous ont amenée à réfléchir sur un modèle d’analyseur robuste qui puisse traiter avec précision une grande variété de corpus et phénomènes, ceci tout en conservant une architecture efficace pour le traitement de grands volumes de données.

L’objectif a été de proposer un modèle d’analyseur robuste qui maîtrise la variété des phénomènes présents dans des corpus tout venant (quel que soit leur genre ou leur domaine) et qui garantit la qualité des analyses produites. Pour ce faire, l’analyseur s’articule autour de deux notions fondamentales : spécialisation et modularité des grammaires et lexicalisation des grammaires de dépendance par un mécanisme d’apprentissage non supervisé.

D’une part, notre modèle est composé de plusieurs grammaires qui s’appliquent en deux niveaux d’analyse, selon un diagnostic préalable fondé sur les caractéristiques linguistiques et structurelles de chaque phrase en entrée. Il n’y a pas une seule grammaire mais plutôt un ensemble de grammaires (une grammaire noyau et plusieurs grammaires spécialisées pour le traitement de certains phénomènes liés à la ponctuation et à la visualisation de certaines parties du document). La création de plusieurs grammaires rend l’ensemble modulaire et favorise plus d’efficacité du point de vue informatique : plutôt que concevoir une seule grammaire dont la taille s’agrandit avec la modélisation de nouveaux phénomènes, les règles sont regroupées dans des modules différents, qui s’appliquent seulement si le phénomène qu’ils décrivent existe dans la phrase en entrée.

D’autre part, l’incorporation d’informations d’ordre lexical, puisées automatiquement dans le web, permet d’enrichir la grammaire et de traiter de façon pondérée l’extraction de dépendances liées au rattachement prépositionnel.

Concrètement, des poids sur des cooccurrences syntaxiques sont associés à des mots apparaissant initialement dans une même relation de dépendance (des attachements produits par l’analyseur lors d’une première analyse). Ces informations sont alors utilisées lors de la levée d’ambiguïtés de rattachement prépositionnel. Dans l’ensemble, la combinaison d’une description structurale riche (une première sortie produite par l’analyseur à base de règles) avec des informations lexicales et statistiques obtenues à partir du web par un mécanisme d’apprentissage permet d’améliorer la précision finale des dépendances liées au rattachement prépositionnel.

Le résultat de notre travail est un modèle d’analyseur robuste et modulaire avec la particularité de donner des indices de fiabilité sur l’ensemble de structures et phénomènes analysés. Une telle approche est susceptible d’améliorer l’exploitation des sorties de l’analyseur dans des applications comme la désambiguïsation sémantique ou l’extraction d’informations grâce à la différente pondération des résultats selon leur degré de fiabilité.

Nuria.Gala@limsi.fr

Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com

Références

Documents relatifs

Les objectifs d’activité y sont définis : nombre de représentations par sai- son, à Bastille comme à Garnier, nombre de spectacles lyriques et chorégraphiques dans l’un et

Polyarthrite rhumatoïde – Calcaneal involvement in rheu- matoid arthritis and in a control group (X-ray study), 52 Pseudarthrose – Fracture de fatigue du naviculaire tarsien

Ces probabilités peuvent être exploitées soit en cours d’analyse pour conserver ou guider à chaque instant les analyses candidates localement les plus pro- metteuses (sans certitude

En fait la plus grande partie du chapitre est consacrée à un ensemble de questions méthodologiques importantes : place de l’utilisateur et définition rigoureuse de la tâche ;

Ce groupe prend le nom de « groupe international d’études sur la traduction automatique » et se réunit régulièrement à l’Unesco (voir l’article d’André Lentin dans TAL

L’informatique nous libère donc de la camisole papier (accès basé sur l’orthographe parfaite et l’ordre alphabétique 4 ), mettant l’information recherchée à la portée

Philippe Blache propose dans le chapitre central du livre (Présentation des grammaires de propriétés) un « nouveau formalisme pour le traitement automatique des langues »,

Le premier article (Allauzen et al.) de ce numéro spécial montre que l’adaptation dynamique d’un modèle de langage pour la reconnaissance de la parole de type 4-grammes peut