• Aucun résultat trouvé

Proposition de format : extension du sch´ ema d’annotation en d´ ependances de

prochaine section, nous d´efinissons une extension du sch´ema d’annotation du ftb qui permet

d’enrichir l’annotation en d´ependances de surface par les relations de contrˆole et d’ant´ec´edents.

8.4 Proposition de format : extension du sch´ema d’annotation

en d´ependances de surface du ftb

Nous pr´esentons enfin dans cette section le format des structures syntaxiques que nous

uti-lisons pour calculer la s´emantique. Ce format ´etend le sch´ema d’annotation en d´ependances de

surface duftb, par l’ajout de relations grammaticales dont les ´etiquettes sont, d`es que possible,

tr`es proches des d´ependances de surface ´equivalentes duftb.

Les relations grammaticales que nous ajoutons d´esignent :

– les arguments profonds, lexicalement ou grammaticalement d´etermin´es, des verbes `a

l’in-finitif ou au participe, lorsqu’ils sont pr´esents dans la phrase ;

– les ant´ec´edents d’anaphores syntaxiquement d´etermin´es ;

– les sujets des syntagmes adjectivaux ;

– les arguments manquant aux conjoints d’une coordination.

Le premier point regroupe les relations de contrˆole au sens large (verbes `a contrˆole, `a mont´ee

et modaux, g´erondifs) et le tough-movement. Nous reviendrons au chapitre10 sur l’attribution

de sujets aux syntagmes adjectivaux.

Au final, les graphes syntaxiques que nous manipulons sont d´efinis sur une signature de

graphes compos´ee pour les nœuds, de la signature de traits de la figure 8.6, et pour les arˆetes,

de l’ensemble d’´etiquettes de relations de d´ependance de la figure 8.5 augment´e de l’ensemble

d’´etiquettes de relations grammaticales de la figure 8.7.

Conclusion

Nous avons construit progressivement dans ce chapitre la d´emarche que nous adoptons pour

calculer une repr´esentation s´emantique `a partir d’une analyse syntaxique. Nous avons d’abord

pr´esent´e le type de structures s´emantiques que nous voulons construire. Nous avons ensuite

examin´e les grandes approches du lien entre analyse syntaxique et s´emantique et avons ´evalu´e

leur pertinence dans le contexte de notre travail, qui est le d´eveloppement d’une chaˆıne de

traitement linguistique autour de l’analyseur LEOPAR des IG, avec la grammaire FRIGRAM

du fran¸cais. Cela nous a amen´es `a adopter une perspective s´equentielle dans laquelle le calcul

de la s´emantique se fait `a partir d’une structure syntaxique d´ej`a construite. Nous avons ensuite

cherch´e `a d´eterminer les structures syntaxiques que nous pouvions utiliser. Pour cela, nous

avons list´e les informations syntaxiques dont nous avons besoin. Nous avons ensuite observ´e la

fa¸con dont elles ´etaient repr´esent´ees dans les analyses produites dans les diff´erents formalismes,

dans les structures utilis´ees pour l’´evaluation et la comparaison des analyseurs, et dans les

Nom du trait Valeurs possibles Signification

cat cat´egorie syntaxique

adj adjectif

adv adverbe

det d´eterminant

n nom commun

np nom propre

prep pr´eposition

pro pronom

prorel pronom relatif

v verbe

frame cadre verbal

* toute chaˆıne de caract`eres

gen genre

m masculin

f f´eminin

lemma lemme

* toute chaˆıne de caract`eres

mood mode

ind indicatif

imp imp´eratif

inf infinitif

cond conditionnel

presp participe pr´esent

pastp participe pass´e

num nombre

sg singulier

pl pluriel

phon forme phonologique

* toute chaˆıne de caract`eres

prep pr´eposition

* toute chaˆıne de caract`eres

tense temps verbal

cond conditionnel pr´esent

cond past conditionnel pass´e

futur futur

futur ant futur ant´erieur

imparfait imparfait

passe ant pass´e ant´erieur

passe comp pass´e compos´e

past pass´e simple

plus que parfait plus que parfait

prst pr´esent

voice voix

active active

middle moyenne

passive passive

8.4. Proposition de format : extension du sch´ema d’annotation en d´ependances de surface duftb143

Relations profondes pour gouverneurs verbaux

sujp sujet

objp objet

a-objp argument pr´epositionnel introduit par «`a», non locatif

de-objp argument pr´epositionnel introduit par «de», non locatif

p-objp autre argument pr´epositionnel

atsp attribut du sujet

atop attribut de l’objet

Relations pour gouverneurs non verbaux

sujp sujet d’un adjectif

Relations d’ant´ec´edents

ant app ant´ec´edent d’un pronom r´elatif dans une relative en apposition

ant refl ant´ec´edent d’un pronom r´efl´echi

ant rel ant´ec´edent d’un pronom relatif dans une relative adnominale

ant rep ant´ec´edent d’un pronom sujet r´ep´et´e

Figure8.7 – ´Etiquettes des relations grammaticales du sch´ema ´etendu

structures d’annotation des corpus. Nous avons finalement propos´e un format de structures

syntaxiques pour le fran¸cais qui ´etend le format en d´ependances de surface du ftb par des

relations grammaticales de contrˆole et d’ant´ec´edent.

Dans les chapitres suivants, nous montrons comment construire une interface syntaxe - s´

e-mantique g´en´erique pour les formalismes lexicalis´es, `a partir d’une telle structure en d´

epen-dances. Dans le chapitre9, nous proposons un calcul de r´e´ecriture de graphes adapt´e `a la

trans-formation de structures de d´ependances et un programme de r´e´ecriture qui produit une structure

s´emantique sous-sp´ecifi´ee `a partir d’une structure dans notre format ´etendu. Au chapitre10, nous

proposons un programme de r´e´ecriture pour ajouter aux structures de d´ependance syntaxique

de surface duftbles relations grammaticales suppl´ementaires de notre format ´etendu. Ce

pro-gramme garantit la g´en´eralit´e de notre d´emarche, en la rendant compatible avec tous les

forma-lismes capables de produire une structure de d´ependance syntaxique de surface. La composition

de ces deux programmes nous permet de produire des structures s´emantiques sous-sp´ecifi´ees `a

partir des structures de d´ependance de surface duftb.

Chapitre 9

R´e´ecriture de graphes modulaire

pour l’interface syntaxe - s´emantique

Dans le chapitre pr´ec´edent, nous avons propos´e de calculer des repr´esentations s´emantiques

sous-sp´ecifi´ees `a partir de structures de d´ependance syntaxique enrichies avec des relations

gram-maticales suppl´ementaires. Dans ce chapitre, nous montrons comment r´ealiser concr`etement ce

calcul `a l’aide de la r´e´ecriture de graphes. Dans la section 9.1, nous motivons notre utilisation

de la r´e´ecriture de graphes et nous donnons l’intuition du type de r´e´ecriture de graphes que

nous utilisons. Dans la section 9.2, nous pr´esentons le format des structures s´emantiques que

nous voulons produire. Dans la section 9.3, nous d´efinissons le calcul de r´e´ecriture de graphes

modulaire que nous utilisons. Dans la section9.4, nous proposons un programme de r´e´ecriture de

graphes qui calcule une repr´esentation s´emantique sous-sp´ecifi´ee `a partir d’une structure de d´

e-pendance syntaxique enrichie. Dans la section9.5, nous appliquons ce programme de r´e´ecriture

aux phrases du guide d’annotation du ftb en d´ependances. Dans la section 9.6, nous

discu-tons des limites et des perspectives imm´ediates ouvertes par l’utilisation de ce programme de

r´e´ecriture, et nous le situons par rapport aux travaux les plus proches.

9.1 Motivation

Nous avons propos´e au chapitre pr´ec´edent de consid´erer des structures syntaxiques qui sont

des arbres de d´ependances de surface, auxquels sont ajout´ees d’autres relations grammaticales

qui d´enotent une information plus profonde : relations de contrˆole, arguments d’infinitifs d´

eter-min´es par les constructions de tough-movement, sujets des syntagmes adjectivaux, ant´ec´edents

d’anaphores d´etermin´es par la syntaxe et arguments manquants aux conjoints d’une

coordina-tion. L’ajout de ces relations grammaticales a pour effet de transformer l’arbre de d´ependance

syntaxique de surface d’une phrase en un graphe syntaxique. Notre objectif ´etant de calculer des

repr´esentations s´emantiques sous-sp´ecifi´ees `a partir de ces structures syntaxiques, nous devons

maintenant choisir un mod`ele de calcul adapt´e aux structures de graphes.

9.1.1 R´e´ecriture de graphes

Le mod`ele de calcul le plus utilis´e en s´emantique formelle est le λ-calcul. Ce mod`ele est

adapt´e au calcul sur des arbres mais moins sur des graphes. Nos structures de d´epart ´etant des

graphes syntaxiques, leλ-calcul n’est donc pas un bon candidat pour calculer la s´emantique dans

notre approche. Le mod`ele de calcul le plus naturel sur ces structures semble ˆetre lar´e´ecriture

de graphes [Roz97]. Un syst`eme de r´e´ecriture de graphes est d´efini par un ensemble de r`egles

de r´e´ecriture de graphes. L’application d’une r`egle `a un graphe est d´eclench´ee par le filtrage

(pattern matching en anglais) d’un motif de graphe. Le sous-graphe correspondant au motif est

alors isol´e de son contexte pour ˆetre modifi´e localement, puis recoll´e dans le graphe. Appliquer

une r`egle de r´e´ecriture a donc pour effet de transformer le graphe. Un calcul est une s´equence

d’applications de r`egles de r´e´ecriture sur un graphe donn´e.

Alors que la r´e´ecriture de mots, la r´e´ecriture d’arbres et la r´e´ecriture de termes peuvent ˆetre

d´efinies de fa¸con directe et canonique [BN99], la r´e´ecriture de graphes est bien plus probl´

ema-tique [Roz97]. Deux points en particulier posent probl`eme : la d´efinition de la fonction de filtrage,

qui reconnaˆıt un motif dans un graphe, et la d´efinition de la fonction de recollement, qui recolle le

sous-graphe modifi´e dans son contexte. Ainsi, il n’existe pas de d´efinition canonique d’un syst`eme

de r´e´ecriture de graphes. La r´e´ecriture de graphes peut ˆetre d´efinie dans un cadre cat´egorique,

comme dans les approches parsingle pushout (SPO) et double pushout (DPO) [Roz97]. En

pra-tique, il est cependant bien plus facile d’adopter une vision plus op´erationnelle de la r´e´ecriture,

dans laquelle la modification du graphe (la partie droite de la r`egle de r´e´ecriture) est d´efinie par

une s´equence de commandes [Ech08] ; le contrˆole de la fa¸con dont les r`egles sont appliqu´ees (la

partie gauche de la r`egle) utilise, comme dans les approches classiques en r´e´ecriture de graphes,

le filtrage de motifs. Nous nous inscrivons dans cette deuxi`eme perspective et nous d´efinissons,

dans la section9.3, un calcul de r´e´ecriture de graphes `a base de commandes.

9.1.2 R´e´ecriture de graphes modulaire

Dans un syst`eme de traitement linguistique, la localit´e des r`egles de r´e´ecriture permet de

traiter chaque ph´enom`ene linguistique s´epar´ement. La r´e´ecriture de graphes est cependant tr`es

peu utilis´ee en TAL, parmi les exceptions figurent [Hyv84,BW01,Cro05,JdR07,BG09,CK10].

Cela peut s’expliquer par la difficult´e de g´erer de grands ensembles de r`egles. Lors de l’application

d’un syst`eme de r´e´ecriture, l’utilisateur a peu de contrˆole sur la s´equence de pas de r´e´ecriture.

Chaque pas de calcul est d´eclench´e par des conditions locales sur le graphe entier et donc,

plus il y a de r`egles, plus l’interaction entre les r`egles et la coh´erence du syst`eme tout entier

deviennent difficiles `a maintenir. Pour r´esoudre ce probl`eme, nous proposons d’organiser les

r`egles enmodules.

Un module est un ensemble de r`egles coh´erent d’un point de vue linguistique, et qui repr´esente

une ´etape donn´ee de la transformation globale. Par exemple, le programme de r´e´ecriture que

nous proposons `a la section9.4, comporte un module dont les r`egles ont pour effet de remplacer

9.2. Structure s´emantique produite 147