Extraction et stockage de l'information issue de l'analyse syntaxique

coucher /kuSe/ 1 I vtr

5. Enrichissement des documents

5.2. Extraction et stockage de l'information issue de l'analyse syntaxique

La structure de l’information contenue dans un texte correspond dans notre ap-proche à l’ensemble des résultats que nous pouvons obtenir suite à une analyse linguistique de ce texte additionné de l’enrichissement que nous avons pu y ap-porter. L’analyse que nous effectuons repose sur un groupe d’outils – NTM et XIP – décrits dans la section2.2 page 40. Cette analyse est fonction de la qualité du lexique morphologique et du niveau de compétences de la grammaire de XIP. Le lexique morphologique permet le découpage du document en unités lexicales. La grammaire effectue la désambiguïsation morpho-syntaxique des interprétations morphologiques proposées par NTM, construit un arbre d’analyse qui constitue les unités lexicales de chaque phrase en syntagmes minimaux et enﬁn établit les dé-pendances syntaxiques entre les lexèmes et entre les syntagmes.

L’information qui nous est proposée à l’issue de cette phase d’analyse est donc lexicale, puisque le découpage en mots est réalisé, elle est aussi morphologique à travers l’analyse de la forme des mots et leur désambiguïsation catégorielle, elle est enﬁn syntaxique grâce aux syntagmes minimaux et dépendances. Parmi ces différentes données, nous devons déterminer celles qui composent une part de la structure informationnelle du texte aﬁn de la stocker et de l’indexer pour y avoir accès lors d’une recherche d’information.

Ces données sont d’abord lexicales et le lemme de chaque unité lexicale doit im-pérativement être conservé en tant qu’entité porteuse de l’information sémantique de base dans le texte. D’un point de vue morphologique, il est important également de préserver la catégorie grammaticale de chaque lexème, car cette donnée est une 138

5.2. Stockage de l’information syntaxique

indication importante pour toute la consultation ultérieure d’une ressource lexi-cale, et elle peut permettre de distinguer une interprétation parmi plusieurs pro- positions.Cetteinformationmorphologiquenedoitêtreconservéequedanslame-sure où la désambiguïsation catégorielle a déjà été effectuée.

Enfin,nousconservons principalementlesdonnéessyntaxiquesquidoiventser-vir de support aux relations syntaxico-sémantiques entre les concepts actualisés par les lexèmes. Dès lors, les syntagmes ne présentent pas un intérêt déterminant pour notre objectif contrairement aux dépendances qui sont porteuses de liens si-gnificatifs entre les concepts. Certaines de ces dépendances sont toutefois pure-ment « fonctionnelles », et ne devront pas être stockées¹, tandis que d’autres sont plus significatives et doivent impérativement être conservées dans une perspective de relations syntaxico-sémantiques.

Ainsi, une dépendance DET(detX,nomY), qui indique qu’un article X déter-mine une unité nominale Y, ne doit pas être considérée comme une relation im-portante pour notre application. A contrario, la relation SUBJ(verbeA,nomB), qui indique que le nom B est sujet d’un verbe A, relie souvent un actant à une ac-tion, comme une dépendance VARG[DIR](verbeA,nomC), pour indiquer que le nom C est le complément d’objet direct du verbe A, relie souvent l’action au patient qui la subit.

Cependant, nous avons décidé de ne pas trop préjuger de l’intérêt ou non de telle ou telle dépendance. Pour les relations de type sujet et objet direct dont nous ve-nons de parler, leurs caractéristiques syntaxico-sémantiques ne dénotent pas sys-tématiquement des qualités d’actant, d’action ou de patient. Le lexique peut faire varier ces opérateurs, ainsi que le reste de la structure syntaxique de la phrase. Dès lors, nous éliminons les seules dépendances qui concernent des mots purement grammaticaux², partant du principe que ces mots vides ne sont pas descriptifs d’entités contenues dans le texte (Martinet,1960). Nous conservons toutefois les dépendances prépositionnelles, c’est-à-dire les dépendances permettant de relier la tête du groupe prépositionnel à la tête du groupe dont dépend ce groupe prépo-sitionnel (NMOD[INDIR](X,prep,Y)). En effet, même si c’est la préposition qui est fondatrice de cette dépendance, la relation unit en réalité la tête des autres syn-tagmes décrite par chacun des autres arguments de la dépendance (X et Y).

1. Nous avons choisi d’éliminer les dépendances fonctionnelles de la structure informationnelle car elle n’étaient pas utiles pour l’application que nous faisons de cette structure. Cette éviction est débrayable, de telle sorte qu’il est possible de maintenir ces dépendances dans la structure.

2. On appelle mots grammaticaux (ou mots-outils ou mots vides,Martinet,1960;Grevisse et Goosse,1991) les mots dont le rôle dans la phrase est plus grammatical que lexical. Leur nombre est limité et ils rassemble les pronoms, les conjonctions, les introducteurs, les prépositions, les pronoms, les déterminants, les auxiliaires et les copules.

5. Enrichissement des documents

Grâce aux possibilités de la méthode de stockage de Claude Roux (cf.Roux et Jacquemin,2002et annexeA page 239), chaque élément d’information est classé dans une base de données. Cet élément reçoit une indexation à différents niveaux de découpage du document : dépendance, phrase, paragraphe, texte. Cette clas-siﬁcation à différents niveaux permet de déﬁnir, lors de la phase d’interrogation, une échelle d’exigence dans l’étendue de la fenêtre dans laquelle les éléments de la réponse communs avec ceux de la requête doivent être trouvés.

Le stockage de l’information obtenue au niveau de l’analyse syntaxique n’est pas cependant la seule opération que nous effectuons à cette étape de notre méthode. En effet, dès ce niveau, nous entrons dans un domaine proche de la sémantique et certaines distinctions entre des dépendances, pertinentes dans le cadre stricte-ment syntaxique, ne le sont plus en ce qui concerne le sens de l’énoncé.

Toutefois, notre action à ce stade de la méthode ne se limite pas au seul stockage de l’information obtenue au travers de l’analyse syntaxique. En effet, dès ce niveau, ilestpossibledetoucheràcertainsaspectsplussémantiquesdesrésultatscollectés. Il s’agit de mettre en correspondance certaines dépendances syntaxiques dont la distinction pour notre application n’est pas pertinente, aﬁn de préserver une unité dans le sens plutôt qu’une distinction dans la structure syntaxique.

Ainsi, certaines relations syntaxiques construites par XIP et bien distinctes dans sa grammaire sont considérées comme équivalentes du point de vue du sens. Les dépendances syntaxiques différentes mais équivalentes que l’analyse syntaxique génère doivent donc être fusionnées sous une seule dénomination avant d’être stockées dans la base de données qui conserve l’information identiﬁée ou extraite du texte. Les équivalences de dépendances syntaxiques que nous avons constatées correspondent à une amélioration que nous avions réalisée sur le module de dés-ambiguïsation sémantique développé à XRCE (Xerox Research Centre Europe), et qui avait été testé avec succès (Brun et al.,2001). Elles ont toutefois été adaptées à la grammaire de XIP et sont exposées dans le tableau5.1 page suivante.

Dans ce tableau, on peut voir que certaines constructions sont sémantiquement équivalentes à d’autres. Par exemple, la mise en correspondance des deux relations SUBJ[PASS](X,Y)et VARG[DIR](X,Y) permet d’inférer la conformité séman-tique entre les énoncés Constantin fut proclamé auguste par les troupes de Bretagne , où

proclamé et Constantin sont unis par une dépendance SUBJ[PASS](proclamé,

Constantin)et un énoncé Les troupes de Bretagne proclamèrent Constantin auguste, dans lequel les mêmes lemmes sont associés par la dépendance VARG[DIR](pro-clamèrent,Constantin). Il en va de même pour les autres dépendances mises en correspondance. Du fait de ces rassemblement de dépendances sous une seule dénomination, c’est un fragment de la sémantique de la phrase elle-même qui est emmagasinée au travers de ces relations syntaxiques.

5.3. Un nouveau désambiguïsateur sémantique

Dépendance

syntaxique ^Exemple ^{Dénomination équivalente}

SUBJ Une partie des troupes se rallia à Élagabal.

SUBJ(rallia, partie) ^{SUBJ(rallia, partie)}

DEEPSUBJ Constantin fut proclamé auguste

par les troupes de Bretagne. DEEP-SUBJ(proclamé, troupes)

SUBJ(proclamé, troupes)

SUBJCLIT

« Qu’ils me haïssent, pourvu qu’ils me craignent », disait-il. SUBJCLIT(disait, il)

SUBJ(disait, il)

VARG[DIR]

César […] écrase une armée des partisans de Pompée à Thapsus. VARG[DIR](écrase, armée)

VARG[DIR](écrase, armée)

SUBJ[PASS] Constantin fut proclamé

au-guste par les troupes de Bretagne. SUBJ[PASS](proclamé, Constantin)

VARG[DIR](proclamé, Constantin)

NMOD[NOUN, SPRED]

Antoine fut l’ami et le second de César. NMOD[NOUN, SPRED](Antoine, ami)

NMOD[NOUN,

SPRED](Antoine, ami)

SEQNP

Constance III épousa Galla Placidia, sœur d’Honorius. SEQNP(Galla Placida, sœur)

NMOD[NOUN, SPRED](Galla Placida, sœur)

a. Une dépendance SUBJ(X, Y) relie un verbe X à son sujet Y.

b. Une dépendance DEEPSUBJ(X, Y) relie un verbe X et un mot Y considéré comme son sujet

Dans le document Construction et interrogation de la structure informationnelle d'une base documentaire en français (Page 153-156)