AVERTISSEMENT. D'autre part, toute contrefaçon, plagiat, reproduction encourt une poursuite pénale. LIENS

247  Download (0)

Texte intégral

(1)

AVERTISSEMENT

Ce document est le fruit d'un long travail approuvé par le jury de soutenance et mis à disposition de l'ensemble de la communauté universitaire élargie.

Il est soumis à la propriété intellectuelle de l'auteur. Ceci implique une obligation de citation et de référencement lors de l’utilisation de ce document.

D'autre part, toute contrefaçon, plagiat, reproduction illicite encourt une poursuite pénale.

Contact : ddoc-theses-contact@univ-lorraine.fr

LIENS

Code de la Propriété Intellectuelle. articles L 122. 4

Code de la Propriété Intellectuelle. articles L 335.2- L 335.10 http://www.cfcopies.com/V2/leg/leg_droi.php

http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm

(2)

Institut National Polytechnique de Lorraine

D´ epartement de formation doctorale en informatique Ecole doctorale IAEM Lorraine ´

La coordination dans les grammaires d’interaction

TH` ESE

pr´esent´ee et soutenue publiquement le 17 octobre 2007

pour l’obtention du

Doctorat de l’Institut National Polytechnique de Lorraine

(sp´ ecialit´ e informatique)

par

Joseph Le Roux

Composition du jury

Rapporteurs : Professeur Alain Lecomte, Universit´e de Paris 8 Professeur Aarne Ranta, Universit´e de G¨oteborg

Examinateurs : Professeur Denys Duchier, Universit´e d’Orl´eans Professeur Owen Rambow, Universit´e de Columbia Professeur Fran¸coise Simonot-Lion, Ecole des Mines de Nancy ´

Professeur Guy Perrier, Nancy Universit´e (directeur de th`ese)

Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503

(3)
(4)

Cette thèse présente une modélisation des prinipaux aspets syntaxiques de la o-

ordination dans les grammaires d'interation de Guy Perrier [

Per03

. Les grammaires

d'interation permettent d'expliiter la valene des groupes onjoints. C'est préisément

sur ette notionqu'est fondée notre modélisation.

Nousprésentonségalementtous lestravauxautourdeettemodélisationquinousont

permis d'aboutir à une implantation réaliste : le développement du logiiel Xmg et son

utilisation pour l'ériture de grammaires lexialisées, le ltrage lexial par intersetion

d'automates et l'analysesyntaxique.

Mots-lés: linguistique omputationnelle, traitement automatique des langues, syntaxe

formelle, oordination, grammaires d'interation, analyse syntaxique, théorie des auto-

mates

Abstrat

This thesispresentsa modelisationofthe main syntatialaspets ofoordination

using Guy Perrier's Interation Grammars

[Per03℄

as the target formalism. Interation

Grammars make it possible to expliitly dene onjunts' valenies. This is preisely

what our modelisationisbased upon.

We also present work around this modelisation that enabled us to provide a realisti

implementation : lexializedgrammar development (using our tool Xmg), lexialdisam-

biguationbased on automata intersetion and parsing.

Keywords: omputationallinguistis,natural languageproessing,formalsyntax,oor-

dination,interation grammars, parsing,automata theory

(5)
(6)

Je tiens à remerier en premier lieu mon enadrant, Guy Perrier, qui m'a toujours

soutenuetenouragé durant es quatre années. Il m'abeauoup aidé dansmes réexions

et je lui dois beauoup. Je le remerie également d'avoir relu ave attention les versions

suessives de e doument et d'avoir à haque fois supporter les approximations, les

erreurs et lesfautes d'orthographe.

Jeremerieégalementlesrapporteurs,AlainLeomteetAarne Ranta,d'avoiraepté

de s'intéresser àmontravailetd'avoirindiquéaveune granderigueurleursobservations.

Je veux aussi remerier les autres membres du jury. En partiulier, je remerie Denys

Duhier qui a initié le travail sur Xmg. Son trop bref passage à Nany a donné lieu à

trois thèses,dontelle-i.JeremerieOwenRambowd'avoirspontanémentjouélerle de

obayeen installanteten utilisantXmg.Sesourrielsnousontsouventpermisdetrouver

etdans la plupartdes as, de orriger des bogues.

Durantquatreans,j'aipuappréierlaompagniedesmembresduprojetCalligramme.

Je remerie en partiulier les développeurs de leopar de première génération : Bruno

Guillaume, Sylvain Pogodalla et Guillaume Bonfante. C'est en utilisant leur logiiel que

j'aiomprislaméaniquedesgrammairesd'interation.Lehapitre6etl'annexeAdoivent

énormémentà GuillaumeBonfante.

Au ours de e dotorat, j'ai partiipé au développement de deux logiiels. Je tiens

à remerier haleureusement les personnes ave qui j'ai ollaboré étroitement : Yannik

Parmentier, le développement de Xmg a vraiment été fait en tandem , et Jonathan Mar-

hand,quis'estoupédelapartievraimentdiilede l'algorithmedeEarley(lagestion

des environnements).

Une thèse, 'est aussi des disussions et des éhanges passionnants ave les autres

dotorantsou ingénieurs. Je tiens don àsaluer tous eux qui m'ont fait aimer Nanyet

le LORIA :Sylvain, Benjamin, Benoît, Eri, Haène,Laïka,Sébastien, Dmitry,Mathieu,

Sarah, Karen... et tous eux que j'oublie.

Je remerie mes amis, là bas en Bretagne, dont laompagnie m'a si souvent manqué

durant es long hivers lorrains, pour leur joie de vivre ommuniative et leur amitié

toujours intate à haque visitemalgré lesannées etla distane.

Je remerie mes parents qui ont toujours ru en moiquand moi même je n'y royais

plus.

Enn, je remerie Gwen de merendre heureux en omplétantl'irréalitédu réel.

(7)
(8)

have alwaysfound the best solutionof the diulties. Still Ithought it better togive my

own attempts forwhat they areworth than to shirk the task.

Otto Jespersen, Analyti Syntax

(9)
(10)

Introdution

1 La oordination :pourquoi? . . . 1

2 La modélisationproposée . . . 2

2.1 Le prinipe . . . 2

2.2 Extension . . . 3

2.3 Résultats . . . 4

3 Travauxrelatifs àl'implantation. . . 5

3.1 Ériture de grammaires lexialisées . . . 5

3.2 Filtragelexial . . . 6

3.3 Analyse syntaxique . . . 6

4 Plan de lathèse . . . 7

Chapitre 1 Les grammaires d'interation 1.1 Un formalismepolarisé . . . 12

1.1.1 La notion de valene en syntaxe . . . 12

1.1.2 La logique linéaireintuitionnisteimpliative . . . 13

1.1.3 Grammaires d'interation primitives . . . 14

1.2 Les desriptionsd'arbres polarisées . . . 15

1.2.1 Utilisation de desriptions . . . 15

1.2.2 Polarités . . . 16

1.2.3 Traits, valeurs etenvironnements . . . 17

1.2.4 Les desriptions d'arbres . . . 20

1.2.5 Exemple . . . 23

1.3 Modèles et interprétations des desriptions . . . 25

1.3.1 Modèles saturés . . . 26

1.3.2 Modèles minimaux . . . 27

(11)

1.4 Langage engendré . . . 28

1.5 Conlusion . . . 28

Partie I Éritureetmaintenane desgrammaireslexialisées 31 Chapitre 2 Des règles lexiales à Xmg 2.1 Introdution. . . 33

2.2 Le besoin de produtionautomatique . . . 34

2.3 L'approhe métagrammatiale . . . 36

2.3.1 Un problème majeur :la redondane . . . 36

2.3.2 Héritageou réutilisation . . . 37

2.3.3 Règles lexiales . . . 38

2.4 Unesolution :la métagrammaire . . . 39

2.4.1 Laproposition originale . . . 40

2.4.2 Unepremière révision . . . 42

2.4.3 Uneapprohe orientée besoins etressoures . . . 43

2.4.4 Lanouvelle éole :MgComp etXmg . . . 43

2.5 Conlusion . . . 45

Chapitre 3 Xmg 3.1 Prinipesgénéraux . . . 48

3.1.1 Relationave laprogrammationlogique . . . 48

3.1.2 Types d'informations etdimensions . . . 52

3.1.3 Post-traitement de dimension . . . 52

3.2 Langagenoyau . . . 53

3.2.1 Combinaison de fragments . . . 53

3.2.2 Contenu des dimensions . . . 54

3.3 Unearhiteture modulaire inspiréede laprogrammationlogique . . . 56

3.3.1 Des modules dédiés . . . 56

3.3.2 Extensibilité . . . 57

3.4 Compilation . . . 57

(12)

3.6 Un résolveur extensible . . . 59

3.6.1 Prinipedu résolveur d'arbres . . . 60

3.6.2 Contraintes additionnelles . . . 61

3.6.3 Implantation . . . 63

3.7 Conlusion . . . 63

Chapitre 4 Une petite métagrammaire de la oordination 4.1 Version initiale . . . 66

4.1.1 Délaration des traits . . . 66

4.1.2 La première lasse . . . 66

4.2 Héritage etorganisation des lasses . . . 68

4.2.1 La superlasse . . . 68

4.2.2 Ajout de traits . . . 68

4.2.3 Spéialisationet disjontion . . . 69

4.3 Utilisationd'une lasse paramétrée . . . 70

4.4 Conlusion . . . 73

Partie II Analyse de la oordination 75 Chapitre 5 Modélisation de la oordination 5.1 Introdution. . . 78

5.2 Les phénomènesétudiés . . . 79

5.2.1 Coordination de onstituants . . . 79

5.2.2 Coordination de non-onstituants . . . 80

5.2.3 Cironsription des phénomènestraités . . . 84

5.3 Modélisation dans lesgrammaires d'interation . . . 84

5.3.1 Les diérentes approhes du phénomène . . . 84

5.3.2 Le prinipe de superposition des interfaes . . . 86

5.3.3 Les oordinations de onstituantssimples . . . 89

5.3.4 La oordination de modiateurs . . . 90

5.3.5 La oordination de non-onstituants . . . 92

(13)

5.3.6 Laoordination ave ellipse ougapping. . . 99

5.3.7 Remarquessur lesoordinations

n

-aires . . . . . . . . . . . . . 100

5.4 Extension pour laoordination disparate . . . 101

5.4.1 Struture des domaines de valeurs. . . 102

5.4.2 Révision de la notionde modèle . . . 104

5.4.3 Modélisationde laoordination disparate . . . 105

5.4.4 Limites de laproposition . . . 106

5.5 Comparaisonave d'autres modélisations . . . 108

5.5.1 Grammairesatégorielles ombinatoires . . . 108

5.5.2 Hpsg etapprohe elliptique . . . 113

5.5.3 Hpsg etapprohe par fatorisation . . . 117

5.5.4 lfg . . . 118

5.6 Implantation de la grammaire . . . 121

5.6.1 Organisationdes lasses . . . 122

5.6.2 Forme générale des DAP . . . 122

5.6.3 Coordination nominale . . . 123

5.6.4 Coordination verbale . . . 124

5.6.5 Séquenes et trou verbal . . . 124

5.6.6 Bilande l'implantation . . . 124

5.7 Bilan. . . 125

Partie III Filtrage lexial et oordination 129 Chapitre 6 Automates de ltrage lexial 6.1 Introdution. . . 132

6.2 Automates à états nis déterministesayliques . . . 134

6.2.1 Dénition . . . 134

6.2.2 Opérationd'intersetion . . . 134

6.2.3 Automatesde segmentation . . . 135

6.3 Automatesde polarités. . . 136

6.3.1 Séletions lexiales . . . 136

6.3.2 Critèrede orretion . . . 137

6.3.3 Arithmétiqued'intervalles . . . 139

(14)

6.3.5 Modélisationàl'aide d'automates . . . 140

6.4 Intersetion d'automates . . . 142

6.4.1 Algorithmede ltrage . . . 142

6.5 Complexité de l'intersetion des automates de ltrage . . . 145

6.5.1 Rle de lastruture des automates . . . 145

6.5.2 Importanede l'ambiguïté lexiale . . . 146

6.6 NP-Complétude de l'optimisationd'intersetion . . . 148

6.6.1 Exemple . . . 148

6.6.2 Problème du voyageur de ommere . . . 148

6.6.3 Énoné des problèmes . . . 150

6.6.4 NP-Complétude. . . 151

6.6.5 Conlusion . . . 151

6.7 Choix des valeurs de traits pour leltrage . . . 151

6.8 Informations syntaxiques etltrage: le as de laoordination . . . 155

6.8.1 Un ritère sur les séletions . . . 155

6.8.2 Un ritère sur les automates . . . 157

6.9 Patrons interdits . . . 157

6.10 Résultats expérimentaux . . . 158

6.10.1 Importanedu hoixdes valeurs. . . 159

6.10.2 Rle des patrons . . . 159

6.10.3 Coordination . . . 161

6.11 Conlusion . . . 162

Partie IV L'analyse syntaxique dans les grammaires d'inter- ation 163 Chapitre 7 L'analyse syntaxique 7.1 Introdution. . . 165

7.2 Complexité du problème de l'analyse . . . 166

7.3 L'algorithme shift-redue . . . 166

7.3.1 DAP étendues . . . 167

(15)

7.3.2 Règles de simpliation . . . 168

7.3.3 Rledes polarités. . . 169

7.3.4 Uneheuristique psyho-linguistique . . . 170

7.3.5 Exemple . . . 171

7.3.6 Conlusion . . . 176

Chapitre 8 Un algorithme d'analyse dédutif à la Earley 8.1 L'algorithme d'Earley . . . 182

8.1.1 Grammaireshors-ontexte . . . 182

8.1.2 Analyse dédutive . . . 184

8.1.3 Items . . . 184

8.1.4 Règles de dédution . . . 185

8.2 Exemple d'analyse . . . 186

8.3 Complexité etextension . . . 187

8.4 Unalgorithme de type Earley pour lesGI . . . 187

8.4.1 Intuition . . . 187

8.4.2 Ensembles saturésn÷uds . . . 191

8.4.3 Forme des items etinvariant. . . 193

8.4.4 Règles . . . 196

8.4.5 Corretion etomplétude . . . 198

8.4.6 Exemple . . . 199

8.4.7 Complexité . . . 201

8.5 Appliationàla oordination . . . 203

8.5.1 Présentation . . . 203

8.5.2 Modiation de l'algorithme . . . 203

8.5.3 Exemple . . . 205

8.5.4 Conlusion . . . 206

Conlusion et perspetives

Bibliographie 213

Annexe A

NP-Complétude de l'optimisation d'intersetions

(16)

A.2 Énoné des problèmes . . . 221

A.3 Algorithmesnon déterministes. . . 222

A.4 NP-Complétude. . . 223

(17)
(18)

Dansette thèse,nous proposons de modéliserlephénomènede oordination dansles

grammaires d'interation. Qu'entendons nous par ela? Il s'agit d'une part d'un travail

de modélisationd'unphénomènelinguistique,'est-à-direde proposerun adrethéorique

qui permette de prédire la grammatialité (ou l'agrammatialité) de ertaines onstru-

tions syntaxiques. Nousutiliseronslesgrammairesd'interation pourréaliserette modé-

lisation. Ces grammaires nous permettront d'exprimer failement deux aspets de notre

modélisation:lavalenedesgroupesonjoints,àtravers lespolarités,etledomainede lo-

alité étendu d'un groupeonjoint,grâe auxlesdesriptions d'arbres. Notre proposition

prendra don la forme d'une grammaire d'interation, en fait d'un fragment d'une telle

grammaire qui s'insèrera dans une grammaire générale du français développée par Guy

Perrier, de manière à pouvoir vérier notre modélisationexpérimentalement sur orpus.

La démarhe expérimentale nous semble très importante pour valider les modélisations

linguistiques. D'autre part, nous voulons intégrer ette grammaire dans un système de

traitement automatique des langues naturelles, e qui suppose de disposer d'outils e-

aes qui mettront en ÷uvre notre proposition. C'est pourquoiune partie importante de

lathèseest onsaréeàdes aspetsquivontau-delàde notremodélisation,danslebut de

laonfronter àdesorpus.Nousavons travaillésurlestehniquesde oneptionde gram-

maires lexialisées,sur leltragelexialen vuede l'analyse,ainsi quesurdes algorithmes

d'analysesyntaxique. Ainsi,nousproposonsune arhiteture omplète pourvalidernotre

proposition théorique.

Nous nous onsarons entièrement à l'aspet syntaxique de la oordination, pour la

simple raison qu'il n'existe pas enore de onsensus sur la manière de représenter la sé-

mantique dans les grammaires d'interation. Évidemment, nous sommes onsients que

notremodélisationdoitpouvoirs'étoer d'uneomposantesémantiqueetnousavons pris

soin de modéliser laoordination ave lasémantique omme ligne de mire.

1 La oordination : pourquoi?

Laoordinationest unphénomènesyntaxiqueomniprésent,quelquesoitleregistrede

langue onsidéré. Cela amène deux réexions.Premièrement,une grammaire du français

ne peut êtreomplète sans prendre en omptee phénomène.Passer sous silenelaoor-

dinationrevientànemodéliserqu'unepartielimitéedelalangue.Deuxièmement,etpour

les mêmes raisons, un système de traitement automatique de la langue ne peut pas faire

l'éonomie de laoordination.Auunorpusréel n'enest exempt. Don,pourdes raisons

à la foislinguistiques etpragmatiques, ilnous faut tenir ompte de laoordination.

(19)

Laoordinationestunphénomènediileàmodéliser.Elleremetenauselanotionde

onstituane, puisque l'on peut oordonner des non-onstituants, 'est-à-dire des onsti-

tuants auxquels une partie fait défaut. Elle remet également en ause la notion d'arbre

syntaxique. On peut voirles onjontions de oordination omme des éléments qui auto-

risent un partagesesous-arbres etlesgraphesayliquessemblentalors plus adaptésque

lesarbres.Deplus,l'ellipseest souventassoiée àlaoordinationetilest souvent diile

de déterminer, de la oordination oude l'ellipse,qui ommande l'autre.

En onséquene, la plupart des formalismes grammatiaux peinent à en fournir une

analyse onvenable. Dans la plupart des as, on étend les formalismes ave des opéra-

tionsspéialiséesouonautorisedesstrutures exeptionnellespour modéliserlesgroupes

oordonnés.Nousrejetonsetteapprohear ellenoussembleen ontraditionavel'om-

niprésene du phénomène.

Nous insistons don sur le fait que le prinipe de notre proposition peut se formuler

danslesgrammairesd'interation,sans ajoutd'opérationspéique.Biensûr, nousavons

souvent été onfrontés durant la oneption de notre modélisation aux rigidités ou aux

manques dont sourent es grammaires. En partiulier, un système de omposition syn-

taxiqueplus souple, nous aurait permis d'exprimer plus failementertainsaspets de la

oordination.

2 La modélisation proposée

Nousneprétendonspasdansettethèseprésenterunethéorielinguistiquenovatriede

laoordination:ei n'estpas une thèsede linguistique.Nousreprenonsl'idéedéjà déve-

loppéequelesonjointssontaumêmeniveauparrapportàlaonjontiondeoordination

etqueleonjontionde oordination n'estpas latête dela onstrution.Cette modélisa-

tion peut être exprimée selon un point de vue lexialiste, qui onvient parfaitement aux

grammaires d'interation.

Cependant, notre proposition fait tout de même preuve d'originalité dans le sens où

la valene des onjoints y joue un grand rle. Nous rejoignons en ela la modélisation

de la oordination dans les grammaires atégorielles, tout en expliitant omplètement

l'importanede la valene expriméeà l'aide des polarités des grammaires d'interation.

2.1 Le prinipe

Deuxgroupespeuventêtreonjointss'ilsontlemêmeomportementsyntaxique.Ainsi,

nous rendons ompte de la loi de Wasow qui stipule que deux groupes peuvent être

oordonnés si haun d'entre eux peut être utilisé dans le ontexte oert par le reste de

la phrase, voir les exemples 1. Dans les grammaires d'interation, ela veut dire que les

deux onjoints ont lamême interfae. L'interfae est la partie de la struture syntaxique

qui n'est pas enore saturée et qui peut don interagir ave le reste de la phrase. Nous

pouvons ainsi déterminer sideux groupes peuvent être oordonnés.

(1) (a) Jean aompagne [Marie℄.

(b) Jean aompagne [lefrère de Pierre℄.

() Jean aompagne [Marie etle frèrede Pierre℄.

(20)

(d) [Jean aime℄Chomsky.

(e) [Marie déteste℄ Chomsky.

(f) [Jean aime mais Marie déteste℄ Chomsky.

Legroupeonstitué de la onjontion etdes deux onjointsdoit enore interagirave

le reste de la phrase pour donner une struture nale grammatiale. Le segment oor-

donné doit interagir ave le reste de la phrase omme le ferait haun des onjoints. La

onjontion doit en quelque sorte fusionner lesinterfaes des onjointspour lereste de la

phrase.

Commenousn'avons pas voulu faireévoluer lesgrammairesd'interation, nousavons

dû traduire ette idée de modélisation dans le formalisme existant. La onjontion a

alors deux rles dans les grammaires d'interation. D'une part elle doit s'assurer que les

onjoints-andidats présentent la même interfae et d'autre part orir une interfae uni-

ée au reste de la phrase. La première étape se fait grâe à l'opération de omposition

syntaxiquepropreauxgrammairesd'interation,lasuperpositionpartiellededesriptions

d'arbres. Sihaque onjoint peut se superposer omplètement sur laonjontion en don-

nantunestruturesaturée,alorslapremièreétapeest réalisée.Ladeuxièmeétapeindique

que la desription assoiée à une onjontion de oordination dispose, en plus des deux

parties hargées de saturer les onjoints, d'une troisième partie qui doit se superposer

omplètementsur leontexte oert par lereste de laphrase.

Il faut don que les desriptions d'arbres assoiées aux onjontions de oordination

répondent àunshémaassez strit.Ellessont omposées detrois parties:une partiedite

haute etdeux partiesdites basses.Lapartie hauteest hargée d'interagir ave lereste de

la phrase. Cette partie orrespond don à l'interfae des onjoints que ette onjontion

doit oordonner. Les deux partiesbasses ont deux rles : vérier que les onjointsont la

mêmeinterfaeetempêher esonjointsd'interagirave lerestelaphraseen lessaturant

omplètement.Cesdeux partiesbassessontdonidentiques pourvérierquelesonjoints

sont semblables etelles orrespondent à la desription duale de la partie haute. C'est-à-

dire quelapartiehaute etlespartiesbassesont lamêmeformearboresente maisqueles

polaritéssont inversées entre la première etles dernières.

Cette proposition permet déjà de rendre ompte de nombreux as de oordinations :

la oordination de onstituants et la oordination de non-onstituants ave montée de

n÷uds. Ces deux sous-phénomènes onstituent lamajoritédes as de oordination.

2.2 Extension

Pour d'autres phénomènes, omme la oordinations de séquenes ou la oordination

ave trou verbal, notreproposition ne sut pas.

(2) (a) Il adonné raison [àJean pour sa perspiaité℄ et[à Pierre pour sa franhise℄.

(b) [Jean viendra toutela semaine℄mais [Marie seulement le merredi℄.

Pour la oordination de séquenes, exemple (2a) , où haque onjoint est formé par

plusieurs onstituants, nous sommes limités par la forme arboresente des desriptions

d'arbres des grammaires d'interation. Quant au trou verbal, exemple (2b), il ontredit

l'hypothèse qui établit que les onjoints ont la même valene, si on l'interprète dans un

(21)

senselliptique.Maislesgrammairesd'interationsontsusammentexpressivespour per-

mettre de modéliser es phénomènes, mais en abandonnant la simpliité de la première

modélisation.Nousutiliseronsalorslespolaritésvirtuellesetneutres desgrammairesd'in-

teration.Onpourraainsireonstruireleontextemanquantauxonjointspourretrouver

la symétrie de la première proposition. Pour es phénomènes, les grammaires d'intera-

tion possèdent déjà l'expressivité adéquate et il n'est pas néessaire de les étendre pour

en tenir ompte.

Jusqu'àprésent,nous avonssupposéquelesonjointssontsemblables.Toutdu moins,

ils doivent avoir exatement la même interfae. Ce n'est pas toujours le as : 'est e

que l'on appelle la oordination disparate. C'est un phénomène assez rare en français

mais plus ourant dans les langues à as. L'exemple 3 illustre la oordination de deux

verbes, l'un requérantun omplémentà l'indiatif,l'autre ausubjontif.Nous proposons

pour modélisere phénomène,touten gardantnotreproposition,d'enrihirlesystème de

traits des grammairesd'interation, de manièreàmodéliser lesynrétisme etl'ambiguïté

devaleurspouruntrait.C'estdonuniquementpoure dernieras quenous étendonsles

grammaires d'interation pour donner plus de souplesse àl'opérationde superposition.

(3) a Le sénateur délare etregrette tout àla fois qu'une nouvelleloi reste

envisageable.

a *Le sénateur délare etregrette tout àla fois qu'une nouvelle loiest/soit

envisageable.

2.3 Résultats

Nous pouvons prédire lagrammatialitédes oordinations de onstituants etde leurs

modiateurs, des oordinations de non-onstituants ave montée de n÷uds, à droite

ommeàgauhe. Nouspouvonsaussi vérierlaorretiondes oordinationsde séquenes

et des oordinations ave trou verbal, bien que dans e as l'implantation ne ouvre pas

tous les as existant.

Notre traitement des oordinations disparates n'est qu'une proposition théorique. Le

nouveau système de traits demande un travail de réériture important de l'analyseur

leopar .

Nous ouvrons don la plupart des as de oordinations. Il nous reste ependant

quelques onstrutions non supportées. C'est en partie dû au fait que notre grammaire

de la oordination s'insère dans une grammaire générale du français, etque notre modé-

lisation est don dépendante de ette grammaire. Par exemple, puisque les superlatifs et

lesomparatifs ne sont pas modélisés dans lagrammaire prinipale, leur oordination ne

l'est pas non plus. Pour d'autres aspets, omme la oordination de verbes à des temps

omposés (sous laforme de partiipes passés), la grammaire prinipale évolue assez vite

et leur modélisation est trop réente pour que nous ayons eu le temps de proposer une

modélisationde leur oordination.

D'un pointde vue quantitatif, nous avons onfronté notre modélisation à la TSNLP,

qui est un jeu de phrases tests pour les analyseurs syntaxiques, omprenant des phrases

positives et des phrases négatives. Nous aeptons 85% des phrases positives ontenant

desoordinationsetnousrejetonsl'intégralitédes phrasesnégatives.Les15%restantsqui

(22)

ne sont pas analysés sont des oordinations soit de phénomènes qui ne sont pas pris en

ompte par la grammaire prinipale (les superlatifs par exemple), soitdes oordinations

qui ontredisent l'hypothèse faite sur le régime des verbes par la grammaire prinipale

(par exemple, parler à ou de l'entreprise n'est pas modélisable pour l'instant ar les

onstrutions parler à etparler de sont deux entrées diérentes du verbe parler).

3 Travaux relatifs à l'implantation

Pour développernotremodélisationetlatestersur des orpus,nous avons dûétendre

le domaine de nos reherhes à toute la haîne qui va de la oneption de grammaires

jusqu'à l'analyse syntaxique. Comme nous voulons insister sur l'aspet expérimental de

notre approhe, es travaux onttoute leur plae dans e doument.

Undes traits distintifsdes grammaires d'interation est ertainement leurlexialisa-

tion omplète. Il n'existe qu'une opération de omposition syntaxique, la superposition

de desriptions d'arbres ettoutelaonnaissanelinguistiqueest reportée danslelexique,

'est-à-dire dansl'ensembledes desriptionsd'arbres quipeuventêtre assoiées auxmots

pour en dérire les diérents usages. Cette lexialisation apporte deux problèmes pour

le traitement automatique des langues : lapréservation de laohérene de la grammaire

en ours de développement et l'aroissement de la taille du lexique qui a un impat

importantsur lesperformanes de l'analyse.

La oordination omplique l'analyse syntaxique. Tout d'abord, les oordinations al-

longent les phrases. Ensuite, le polymorphisme des onjontions rend l'analyse très am-

biguë. Nousavons dondéveloppéun nouvelalgorithme d'analyseinspiréde l'algorithme

d'Earleypourlesgrammaireshors-ontexte. Cetalgorithmerendplusfaileladéomposi-

tion de l'analyse d'unephraseen plusieurssous-analyses. Nousutiliserons ette propriété

pour proposer d'analyserles groupes oordonnées avant le reste de la phrase.

3.1 Ériture de grammaires lexialisées

Lepremierproblème vientde l'érituredes grammaireselles-mêmes.Eneet, puisque

laonnaissanelinguistiqueest reportéedanslelexique,'est àdiredansdes entaines de

desriptionsd'arbres,etteonnaissaneestprésentedemanièreextrêmementredondante.

L'extension oulamodiation d'unetellegrammaire devienttrès diileàmesurequele

lexique ontient de nombreuses desriptions. Il faut s'assurer à haque modiation que

la ohérene interne de lagrammaire est préservée. En partiulier,il fauts'assurer qu'un

phénomène linguistiqueest traité de manièreuniforme à travers lelexique.

Ilfautdonpouvoirvérierlaohérenedelagrammaire.Latendanelaplusourante

dans le domaine de l'ériture de la grammaire onsiste à ne plus érire diretement la

grammairemaispluttd'érireunedesriptiondelagrammairequinesoitpasredondante,

est de générer automatiquement la grammaire nale. Pour les grammaires lexialisées,

ette desription omprend des fragments de strutures syntaxiques qui orrespondent à

lamodélisationdephénomènessyntaxiquesetdesindiationspourombineresfragments

pour produire lesstrutures syntaxiques omplètes.

(23)

C'estdanseontextequenousavonspartiipéaudéveloppementde l'outilXmg.Cet

outilpermet justementde générerdes grammairesd'interationainsi quedes grammaires

d'arbres adjoints à partir des desriptions des strutures de la grammaire nale. C'est

grâe à l'utilisation de e formalisme que nous avons développé notre grammaire de la

oordination.C'estaussiaveetoutilqu'estéritelagrammairedufrançaisdanslaquelle

s'insère notre grammaire. Une partie de la thèse est onsarée à la présentation de et

outil etdes onepts qui luisont propres.

3.2 Filtrage lexial

Grâe à Xmg, nous pouvons nous aranhirdes problèmes liésà lataillede la gram-

mairelorsde saoneption. Enrevanhe, lataillede lagrammaire gardeune importane

lors de l'analyse syntaxique. Plus le nombre de strutures syntaxiques qui peuvent être

assoiées àun mot est grand, plus il est diile de déterminer quelle est lastruture qui

doitluiêtreassoiéedansleontexted'unephraseàanalyser.L'étapequionsisteàhoi-

sir pour haque mot d'une phrase la struture s'appelle la séletion lexiale. Le nombre

de mots dans une phrase et le nombre de strutures syntaxiques assoiées par le lexique

àhaque mot de laphrasesontlesdeux fateursquiompliquentette étape.Eneet, le

nombre de séletions lexiales pour une phrase est le produit du nombre de desriptions

d'arbres assoiées à haque mot de laphrase par le lexique.

Or les phrases qui présentent le phénomène de oordination sont en général plus

longues que les autres la oordination peut être vue omme un moyen d'exprimer

plusieurs phrases en une. De plus, à ause de notre modélisationentièrement lexialiste

de la oordination, on assoie de très nombreuses strutures syntaxiques aux onjon-

tions de oordinations. L'étiquetage est don une étape diile pour les phrases ave

oordination.

Nous avons don été amenés à nous intéresser au moyen d'éliminer le plus d'étique-

tages qui ne peuvent pas donnerd'analyse. C'est e quel'on appelle leltrage lexialou

désambiguïsation. Nousavons reprisles tehniques eaes de ltragedéjà déniesdans

lesgrammairesd'interationdontnousavonsmontrélaomplexité,toutenproposantdes

lesétendre de deux manières. D'une partnous proposons une méthode pour désambiguï-

ser plus eaement lesonjontions de oordination fondée sur la valene des onjoints

qui est la base de notre modélisation syntaxique. Cette méthode permet également de

distinguer préisément la position des groupes oordonnés en fontion de ette valene.

D'autre part,nous avons généraliséette approhe quionsisteàdonnerde l'information

syntaxiquepour désambiguïserleplus tt possible souslaformede e quenous appelons

lespatrons interdits , quiorrespondent àdes séletions lexialesquine peuventaboutir à

une analyse et quidoivent don être éliminés.

3.3 Analyse syntaxique

Nous avons également travaillé sur l'amélioration de l'analyse syntaxique dans les

grammairesd'interation, pourdeux raisonsliéesànotremodélisationde laoordination.

Premièrement,lesalgorithmes d'analysedéjàexistant ommeleshift-redue,sonttrès

sensibles à la longueur de la phrase et au nombre de polarités porté par les strutures

(24)

syntaxiques.Ce sontjustementdeux aratéristiquesdes phrasesqui présentent desoor-

dinations.Nousavonsdondéveloppéunnouvelalgorithmequiyestmoinssensible.C'est

un algorithme de type desendant inspiré de l'algorithme d'Earley des grammaires hors-

ontexte. Bien que leprinipe de et algorithme soitrelativement simple,son exposition

est rendue arduearellene orrespondpas àl'intuitionderrièrelesgrammairesd'intera-

tion qui est de superposer partiellementdes desriptions d'arbres. Cet algorithme utilise

les desriptions d'arbres omme des guides pour onstruire l'arbre d'analyse diretement

par laraine.

Deuxièmement,notreméthode de ltragelexialnouspermetde distinguerleslimites

dessegmentsoordonnés.D'aprèsnotremodélisation,essegmentssontautonomes,'est-

à-dire que l'on peut les analyser hors-ontexte. Notre algorithme a don été envisagé de

manière à pouvoir assembler des sous-analyses orrespondant à des parties autonomes

pour onstruire l'analyse omplète. Nous développons une extension de notre algorithme

pour e faire. Bien que pour l'instant es sous-analyses portent exlusivement sur des

groupesoordonnés, ilest tout àfait envisageable de généraliser ette approhe.

4 Plan de la thèse

Entenantomptedes travauxeetué, nousavons struturésledoumentde lafaçon

suivante :

Chapitre 1. Les grammaires d'interation. Nous présentons dans e premier ha-

pitre le formalisme des grammaires d'interation. En eet, e formalisme est jeune et

enoremalonnu.Ilévolue vite,et'estpourquoinous avonsessayé dedonnerunprésen-

tation générale de la version laplus réente. Ce formalisme permet de dérire failement

et nement la notion de valene en syntaxe. La grammaire y est envisagée omme un

système de ontraintes imposées par haque mot du langage. La struture syntaxique

assoiée à une phrase (l'arbre syntaxique) doit alors vérier l'ensemble des ontraintes

apportées par les mots qui laomposent.

Chapitres 2, 3 et 4. L'ériture de grammaires lexialisées et Xmg. Avant de

nous attaqueràla modélisationproprementdite,nous présentons laproblématiqueliéeà

l'ériture desgrammairesfortementlexialisées,en nousintéressantplus partiulièrement

aux grammaires d'arbres adjoints et aux grammaires d'interation. La redondane de

l'informationlinguistiquedans esgrammairesrendtrès diilelaoneptionetlamain-

tenane des grammaires à large ouverture. Dans e adre, nous présentons égalementla

solution qui a été proposée par Benoît Crabbé, Denys Duhier, Yannik Parmentier et

nous-mêmes, Xmg, qui permet d'exprimer une grammaire fortement lexialiséesous une

forme onise, et don sans redondane. Nous terminerons ette partie par un exemple-

jouet de grammaire de la oordination pour illustrer lespossibilitésoertes par l'outil.

Chapitre 5. La modélisation de la oordination Dans e hapitre, nous présen-

terons notre modélisation de la oordination qui est la prinipale ontribution de e do-

ument. Ce hapitre est relativement long, à la mesure de l'ampleur de la tâhe. Pour

(25)

ommener, nous donnerons un ertain nombre d'exemples de oordinations signia-

tifs de ertaines propriétés intrinsèques à e phénomène. Ainsi, en nous fondant sur es

exemples,nous pourronsproposernotre proposition demodélisationquiest fondée sur la

valene des groupesoordonnés.

Dans une seonde partie, nous montreronsomment le prinipe de notre proposition

doits'adapter àlaréalitéde lagrammairedanslaquelle notremodélisationdoit s'insérer.

Nous détaillerons ainsi sous-phénomène par sous-phénomène omment nous modélisons

laoordination.

Ensuite nous présenterons une extension des strutures de traits polariséesdes gram-

mairesd'interationpourteniromptedes oordinationsdisparates.Cetteextensionn'est

pas enoreimplantéeetn'a donpas pu fairel'objetd'évaluation.Cette partiepermetde

modéliserdes oordinationsdisparates dansle asdu synrétisme de as quel'on observe

dans des langues à délinaisons,omme leslangues slaves par exemple.

Ensuite, nous évoquons d'autres modélisations de la oordination dans d'autres for-

malismes, les grammaires atégorielles, les grammaires syntagmatiques dirigées par les

têtes etlesgrammaires lexiales fontionnelles. Nousexpliquons leur prinipeet nous les

omparons ànotre approhe.

Finalement,nous expliquons en détail ommentnous avons érit notre grammaire de

la oordination sous la formed'une métagrammaire traitéepar Xmg. Nousdétaillons la

méthodologie etl'organisationde notre proposition.

Chapitre 6. Filtrage lexial. À partir de e hapitre, nous développons les travaux

qui ont eu pour but de pouvoir tester notre proposition sur orpus. Tout d'abord, nous

aborderonsleproblèmedeladésambiguïsationlexialedanslesgrammairesd'interation.

Des tehniques originalesont été élaborées pour améliorerle ltragelors de l'étiquetage.

Nousen aratériserons la omplexité. Malheureusement,es tehniques ne sont pas suf-

santes pour les phrases qui présentent le phénomène de oordination. En eet, notre

grammairede laoordinationassoieune soixantainede desriptionsauxonjontionsde

oordinationsetlesphrasesonernéessontpluslonguesen moyennequelesphrasessans

oordination.

Nous présentons don deux nouvelles méthodes de désambiguïsation. La première se

onentre sur les oordinations et permet de d'améliorer l'eaité du ltrage tout en

délimitantlespositions desgroupesonjoints.Cettepropriété nous servira dansla partie

onsaréeà l'analysesyntaxique. L'originalitéde ette méthode est qu'ellesefonde sur la

modélisationsyntaxiqueque nousproposons. Desonnaissanes linguistiquespermettent

donde ltrerplus eaement.Ladeuxièmeméthode est plus générale,maisellerepose

aussi sur des onnaissanes linguistiques. Si l'on sait que des strutures syntaxiques ne

peuvent pas être présentes simultanément dans l'étiquetage d'une phrase, alors on peut

éliminerdiretement es étiquetages pour ne pas avoirà lesonsidérer lorsdes étapes de

ltragesultérieures.

Chapitres7 et8.Analyse syntaxique. Ladernièrepartiedeedoumentest onsa-

rée à l'analysesyntaxiquedans les grammaires d'interation.

Nousprésenterons toutd'abordl'algorithmehistoriqued'analysedans lesgrammaires

(26)

d'interation que l'on nomme shift-redue . Cet algorithme repose sur la notion de ra-

nementde desriptions d'arbres. On herhe en eet àsimplierune desriptiond'arbres

pour qu'elleserapprohe petit à petit d'unarbre quisera lerésultatde l'analyse. Cet al-

gorithmede baseest rendueae parl'utilisationd'uneheuristique psyho-linguistique.

Le nombre de polarités non-saturées est borné. On lit la phrase de gauhe à droite en

aumulant les desriptions lues dans la mémoire. Tant que la borne n'est pas atteinte,

on lit des mots de la phrase d'entrée (shift). Ensuite, on herhe à saturer les polarités

des mots déjàlus (redue). Ces deux étapessont réitérées tant qu'ilreste des mots à lire

et que lamémoiren'est pas vide.

Il y a deux problèmes pour et algorithme et notre modélisation. Tout d'abord, et

algorithme est sensible au nombre de polarités présentes dans les desriptions d'arbres.

Ensuite, il est diile de trouver une notion de sous-analyse qui permette de onstruire

une analyse omplète àpartir de sous-analyses oud'analyses partielles.

Pour es raisons, nous présenterons un nouvel algorithme d'analyse syntaxique, qui

est moins sensible au nombre de polarités présentes et qui permette de présenter des

sous-analyses que l'on peut ensuite ombiner pour obtenir une analyse omplète. Cet

algorithmes'inspirede eluid'Earley pourlesgrammaireshors-ontextes. Cetalgorithme

a fait l'objet d'une implantation et es résultats, bien qu'enourageants, doivent enore

être améliorés.

Nousproposons don pour nir une modiation de notre algorithme pour déompo-

ser une analyse en plusieurs sous-analyses indépendantes que l'on peut ombiner. Pour

l'instant nous n'envisageons de l'appliquer qu'aux groupes onjoints, mais il est tout à

fait possible de l'appliquer à tous les types de segments qui peuvent être analysés indé-

pendamment du reste de laphrase.

(27)
(28)

Les grammaires d'interation

Sommaire

1.1 Un formalisme polarisé . . . 12

1.1.1 La notion devalene en syntaxe . . . 12

1.1.2 La logiquelinéaire intuitionniste impliative . . . 13

1.1.3 Grammaires d'interation primitives . . . 14

1.2 Les desriptionsd'arbres polarisées . . . 15

1.2.1 Utilisationde desriptions. . . 15

1.2.2 Polarités . . . 16

1.2.3 Traits, valeursetenvironnements. . . 17

1.2.4 Lesdesriptions d'arbres . . . 20

1.2.5 Exemple . . . 23

1.3 Modèles et interprétations des desriptions. . . 25

1.3.1 Modèles saturés . . . 26

1.3.2 Modèles minimaux. . . 27

1.4 Langage engendré . . . 28

1.5 Conlusion . . . 28

Dans e premier hapitre, nous allons présenter le formalismes des grammaires d'in-

teration (Gi)

[Per03℄.

Ce formalisme est assez réent mais il s'anre à la fois dans la

tradition des grammaires atégorielles (G) et elles des grammaires syntagmatiques.

Des premières les Gi reprennent la notion de valene des strutures qui guide la ompo-

sition syntaxique. Desseondes on retrouvela notiond'arbred'analyse quireprésenteles

relations de onstituane entre syntagmes.

En revanhe, les Gi apportent un ertain nombre de nouveautés. La notion de va-

lene est ii expliite. Elle est exprimée à l'aide de polarités attahées aux traits mor-

phosyntaxiques des strutures syntaxiques. On peut diretement lirelespolaritéssur es

strutures. Laompositionsyntaxiqueelleaussi est originale.Toutd'abord lesstrutures

syntaxiques que l'on manipulene sont pas des arbres mais des desriptions d'arbres, que

l'onprésentegénéralementommedesarbressous-spéiés.Ensuitel'opérationdeompo-

sition elle-mêmeest nouvelle: 'est l'opérationde superposition partielle de desriptions

d'arbres.

(29)

Nous allons dans un premier temps souligner l'importane de la valene en syntaxe

quiaamenéàunepremièreversiondesGi.Puisdansun seondtemps,nousprésenterons

les Gi dans leur version atuelle qui ont évolué d'une théorie logique vers un formalisme

grammatialà part entière.

1.1 Un formalisme polarisé

L'importanede lavaleneensyntaxene datepas desgrammairesd'interation.Nous

revenons brièvement sur ette histoire pour aboutir aux premières Gi. Nous appelons

valene d'un élémentsyntaxique, par analogieave la valene des éléments himiques, le

fait que es éléments fournissent ou demandent une ontribution au reste de la phrase

pour former des éléments plus importants.

1.1.1 La notion de valene en syntaxe

Tesnière

[Tes59℄

a développé une théoriede lavalenepour expliquerlabonneforma-

tion syntaxique. Danssa théorie,ildénomme valenele nombre d'arguments,ouatants ,

dont a besoin un verbe, un nom ou un adjetif. C'est e que l'on appelle ouramment

le régime ou le adre de sous-atégorisation. Tesnière distingue les verbes monovalent,

bivalent,trivalentouquadrivalent.Lesverbesimpersonnels ontune valenenulle, ilssont

dits avalents. La valene orrespond don au nombre d'atants mis en jeu dans l'ation

déritepar un verbe (le petit drame de Tesnière).

Le onept de valene s'étend aux noms prédiatifs ainsi qu'aux adjetifs. On peut

don voir un nom omme une entité ayant besoin de es atants pour à son tour fournir

un atant àun verbede la phrasequilui-mêmeattend un ertainnombred'atants pour

fournir une proposition.

Depuis, la valene est devenue un onept de première importane en syntaxe. En

témoigne les dernières avanées des grammaires transformationnelles qui se fondent sur

lavalene: le programmeminimalistede [

Cho95

, aussi formalisé par [

Sta96

.

Danslatraditiondes grammairesatégorielles,onfaitgénéralementremonter àAjdu-

kiewiz

[Ajd35℄

lapremière modélisationde lavalenedes élémentssyntaxiques. On peut

aussiy voirunegénéralisationde l'approhede Tesnière oùtous lesmots ontunevalene

qui exprime à la fois leurs besoins et leurs ontributions. À haque mot du langage, on

assoieun ensemblede atégoriessyntaxiques atomiques,notamment

gn

pour lesgroupes

nominaux,

n

pour les noms ommuns et

s

pour les phrases, oudes frations onstruites

de manière indutive à partir de es atégories. Le dénominateur représente le besoin

exprimé par l'élément syntaxique et le numérateur indique e que l'élément fournit au

restelaphrase.Pour vérierqu'une phraseappartientaulangage,ilfautdansun premier

tempsattribuer à haque mot une fration. Il fautensuiteque leproduit de es frations

sesimplieverslaatégorie

s

.Parexemple,àlaphraseLe petithatestnoir,onassoie

lastruture suivante:

gn n × n

n × n × s gn n

n

× n

n

(30)

quise réduit en

s

.Cette phrase appartient au langage.

La valene donne des informations linguistiques pertinentes, mais elle ne sut pas.

Elleneditriensur l'intérieur d'unélémentsyntaxique, maisseontentede direomment

il peut interagir, 'est-à-dire son interfae extérieure, e qu'il attend du monde extérieur

et e qu'il luifournit.

Dans e premier alul par exemple, toute permutation d'une phrase orrete est

également orrete. On a don développé des formalismes, les grammaires atégorielles

(onpeutiterparexempleBar-HillelouSteedman

[BH53;SB07℄),

quiontreprisetteidée

fondamentalede valene,touten ajoutantunontrle toujoursplusn de laomposition

syntaxique, notammenten ontrlant l'assoiativité et laommutativitédu produit.

1.1.2 La logique linéaire intuitionniste impliative

Uneautre proposition, elle de Lambek

[Lam58℄,

onsiste àprésenter les grammaires

atégoriellesommeunalullogique.Maisilfaudraattendreunetrentained'annéespour

omprendre le lienentre ette logique partiulière etla logique mathématique.

Girard

[Gir87℄

a dénilalogique linéaire,quiest une logique sensibleauxressoures :

les hypothèses sont onsommées pour produire les onlusions et leur nombre est don

signiatif, ontrairement à e qui se passe dans les logiques plus usuelles que sont la

logique lassique et la logique intuitionniste. En eet, es logiques ont été largement

utilisées pour modéliser le raisonnement mathématique dans lequel une hypothèse peut

être utiliséead libitum .

Le fragment multipliatif impliatif de ette logique a donné un adre formel géné-

ral aux grammaires atégorielles. La logique linéaire a permis également de donner un

paradigme pour l'analyse syntaxique, l'analyse omme dédution (parsing as dedution).

L'analyse d'une phraseest vue omme une démonstrationlogique. L'interfae entre syn-

taxe et sémantiquedevient naturel grâe à l'isomorphisme de Curry-Howard, qui dénit

une orrespondane entre la démonstration d'un séquent intuitionniste, qui représente

l'analysesyntaxique, etun lambda-termetypé,quireprésentelasémantiquede laphrase.

Pour notre exemple, Le petit hat est noir., il fautdon donner une démonstration du

séquent :

n ⊸ gn, n ⊸ n, n, (n ⊸ n) ⊸ (gn ⊸ s), n ⊸ n ⊢ s

Maisettelogiqueest ommutativeetassoiative,etleproblème des permutationsde

mots est toujours présent. Pour palliere problème,plusieurs solutionsontété proposées

que l'on peut lasser en deux atégories :

ajouter des modalités à la logique utilisée pour ontrler l'assoiativité et la om-

mutativitédes onneteurs logiques omme lefait

[Moo96℄,

déléguer lagestionde l'ordredes mots àun niveau subalterne, ommedans les G

modernes que sont lesgrammairesatégorielles abstraites [

de 01

,les

λ

-grammaires de

[

Mus03

,lesgrammairesatégoriellesminimalistes [

AL06

oul'environnement de

développementde grammaires(grammatial framework) de

[Ran07℄.

Lesgrammairesd'interationprésententune troisièmesolutionàe problème:l'ordre

des mots etleur valene sont indiquéssur lesmêmes struturesmais onpeut parler d'un

(31)

typed'informationindépendammentdel'autre.Enpartiulier,onpeutétablirunerelation

de domination sans préiser sile dominéest en périphérie droiteou gauhe.

1.1.3 Grammaires d'interation primitives

Les grammaires d'interation naissent de l'observation faite dans [

Per01

qu'une dé-

monstrationdanslalogiquelinéaireintuitionnisteimpliative,quiest souventreprésentée

sous la forme d'un réseau de preuve, revient à superposer des desriptions d'arbre qui

orrespondent àlaformuleàdémontrer pour obtenirun arbre.Les n÷udsde es desrip-

tions d'arbres sont polarisés, 'est-à-dire qu'ils sont déorés d'une polarité

+

ou

. La

superposition des desriptions d'arbres doit vérier quehaque n÷udsétiqueté par

+

est

superposé à un n÷ud étiqueté par

.

np+

n−

n+

n− n+

s+

np− n−

n+

n+

n− s−

Fig.1.1 Desriptions d'arbreassoiées aux motsde laphraseLe petit hat est noir..

Cette équivalene est fondamentale : elle permet de passer d'une vision opératoire

issue de la théorie de la preuve à une vision délarative issue de la théorie des modèles

dans laquelle onpeut envisager lagrammaire omme un système de ontraintes.

Comme ette observation est diretement issue de la logique linéaire intuitionniste

impliative, l'ordre des ls (daughter nodes) d'un n÷ud dans les desriptions d'arbres

est libre, e qui orrespond à l'assoiativité et la ommutativité de ette logique. L'idée

naturellepour tenir ompte de l'ordre des mots est dond'ajouter un ordre entre es ls

pour ontraindrel'ordre des dépendanes.

À haque mot de la langue, es premières Gi [

Per00a

assoient un ensemble de des-

riptionsd'arbresdontlesn÷udssontpolarisés.Analyserune phraserevientàonstruire

unarbreensuperposantlesdesriptionsd'arbresassoiéesauxmotsdelaphrase.Siuntel

arbre existe, alors laphrase appartient aulangageengendrée par la gramaire.C'est don

l'idée essentielle des grammaires d'interation : superposer des desriptions d'arbres qui

indiquentlaontributiondes motsàlaonstrutiond'une phrase.Pour obtenirlesgram-

maires d'interation atuelles, il faut étendre ette première proposition. Tout d'abord il

estnéessaired'enrihirlesrelationsquipeuventexisterentre lesn÷udsd'unedesription

pour notamment tenir ompte de l'ordre des mots. Ensuite, plutt que de polariser les

n÷uds, il a été déidé de munir es n÷uds de strutures de traits qui eux sont polari-

sés. On obtient ainsi un système de polarité très n mais toujours faile à omprendre.

Enn, on étend le système des polarités pour ajouter plus de souplesse à l'opération de

superposition.

(32)

1.2 Les desriptions d'arbres polarisées

En setion 1.1.3, nous avons dérit les premières grammaires d'interation. Dans le

reste de e hapitre nous présentons les grammaires d'interation dans leur version a-

tuelle quiontévolué d'unethéoriede lalogique linéaire [

Per00b

vers un formalismepour

modéliserla syntaxe etla sémantiquedes languesnaturelles

[Per04℄.

Lesstrutures de base manipuléespar notre formalismesontles desriptionsd'arbres

polarisées,notées DAP dans lasuite.

1.2.1 Utilisation de desriptions

Avant de donner une dénition préise des DAP, nous essayons de motiver leur uti-

lisation. Pour l'instant, on se ontentera de dire que e sont des arbres sous-spéiés ou

inomplets.L'intérêtdespolaritésdans letraitementdes languesaétévupréédemment,

danslasetion1.1.1.Celuidemanipulerdesdesriptionsd'arbresaulieudesimplesarbres

est présenté ii.

Tout d'abord, l'utilisation de desriptions omme strutures syntaxiques dont les

arbres modèles seront des résultats d'analyse, nous permettra de nous insrire dans un

adre formelonnu,la syntaxe vueà travers la théoriedes modèles (model theoreti syn-

tax)

[CR98; PS01℄.

Outre e hangement de paradigme, on peut s'intéresser à l'intérêt

onret des desriptions en e qui onerne l'expression de faitslinguistiques.

D'une part, une desription d'arbre peut dérire une famille d'arbres prohes. L'uti-

lisation de desriptions nous permet don de fatoriser la grammaire, 'est-à-dire ii de

réduire la taille du lexique, notamment sa redondane. Nous verrons que le problème

de redondane n'est pas spéique aux Gi. Plus généralement, 'est un problème des

grammaires fortement lexialisées que nous avons tenté de résoudre ave Xmg (voir le

hapitre 3). Linguistiquement, des phénomènes prohes peuvent être représentés par les

mêmes DAP. En d'autres termes, le formalisme évite ainsi de réer artiiellement trop

de diérenes que l'on ne retrouve pas au niveau linguistique.Il rée moins d'artefats.

D'autrepart,l'utilisationdedesriptionsauxrelationssous-spéiéespermetd'étendre

le domaine de loalité. Ainsi on va pouvoir dérire des phénomènes linguistiques qui ne

sont ni simplement des rapports de onstituants à sous-onstituants direts, ni des rap-

ports de onaténation entre syntagmes. C'est e que [

MHF83

appelle l'approhe dé-

terministe 1

de ertains phénomènes omme le rattahement prépositionnel ou, dans le

as qui nous intéressera plus tard, la oordination. C'est la même struture qui indique

tous les rattahements possibles, et sans transformation indéterministe. Pour la oordi-

nationde non-onstituants(f. partieII),ettepropriété nouspermettrade modéliserles

dépendanes non-bornées des onjointssans multiplierlesstrutures.

Ces avantages par rapport auxarbres simples sont à mettreen balaneave une plus

grande omplexité des algorithmes de manipulation. On verra dans le hapitre 7 que le

problème de l'analyse est un problème diile,plus préisément NP-omplet.

1

Le terme déterministe de [

MHF83

nous semble peu opportun. On lui préfèrerait aujourd'hui le

terme monotone . Auune transformation de strutures ne ontreditune information présente dans es

strutures.

(33)

+ → ← = ≈ ↔ ⊥

→ ⊥ ↔ → → ⊥ ⊥

← ↔ ⊥ ← ← ⊥ ⊥

= → ← = = ↔ ⊥

≈ → ← = ≈ ↔ ⊥

↔ ⊥ ⊥ ↔ ↔ ⊥ ⊥

⊥ ⊥ ⊥ ⊥ ⊥ ⊥ ⊥

Tab. 1.1 Sommede polarités

1.2.2 Polarités

Le formalisme des grammaires d'interation est fondé sur la notion de valene des

éléments syntaxiques. Cette valene est représentée par les polarités, non au niveau des

syntagmes mais au niveau des traits morphosyntaxiques attahés à es syntagmes. Une

polarité est un élément de

P = {→, ←, =, ≈, ↔, ⊥}

. Plus préisément, il y a un pre- mier groupe de polarités utilisé dans les desriptions que nous nommerons les polarités

élémentaires :

, lapolarité positive, indique quele trait fournit sa valeur;

, lapolarité négative, indique que letrait requiert sa valeur;

=

, la polarité neutreindépendante, indiqueque le trait ne se omporte pas omme uneressoure onsommable,qu'ilsutàdonneruneinformationlinguistiquevalide

omme un trait dans une grammaire d'uniation, ou en d'autres termes qu'il est

autonome, etenn

,la polarité virtuelle,indique que letrait n'est pas autonome, qu'il abesoin d'un

autretraitdeonrmationde l'informationmorpho-syntaxiquemuni d'unepolarité

diérente de

.

D'autrepart, ondistingueun seondgroupedepolaritésquin'apparaîtraquedansles

alulsdesommesdepolarités.Lasommedepolaritésnouspermettradedonnerunstatut

enterme devaleneauxstrutures intermédiairesde l'analysesyntaxique(f.hapitre7).

Ce seond groupe omprend :

, ette polarité indique la saturation du trait. On ne peut plus onsommer ou

fournir e trait. Elle provient d'une somme dans laquelle il existe exatement un

terme

et exatementun terme

.

est la polarité inohérente. Elle indique que les ressoures que onstituent les polaritésn'ont pas été gérées orretement. Elleprovientd'une somme omportant

plus d'une polarité

ouplus d'une polarité

.

Nous pouvons maintenant dénir la somme de polarités, notée

+

. Cette opération

permet de gérer les ressoures portées par les polarités. Le résultat de ette opération

est présentée dans la table 1.1. On remarque que ette opération est ommutative et

assoiative.Cette propriété nous donnera une plus grande liberté pour l'analyse.

On dira qu'une polarité est saturée sielleest égale à

ou

=

.

(34)

Le système de polarités n'est pas gé et rien n'empêhe d'étendre les Gi en en ajou-

tant d'autres, ommepar exemple lespolarités absorbantes des grammairesd'uniation

polariséesproposées par

[Kah04℄.

1.2.3 Traits, valeurs et environnements

Nousvoulons munirlesn÷udsde nos desriptionsde struturesde traits etnous vou-

lons être apables de partager des valeurs de traits entre plusieurs n÷uds d'une même

desription : notre modélisationde laoordination repose en partie sur ette possibilité.

C'est pourquoi, nous empruntons aux langages de programmation la notion d'environ-

nement d'évaluation, ou simplement d'environnement. Les traits n'auront de valeur que

relativementàunenvironnement.Intuitivement,unenvironnementestunelisted'assoia-

tions faitede ouples nomsde variables/valeurs . Diérents traits pourront faire mention

à des mêmes noms de variables de l'environnement. Ainsi, ils partageront les valeurs as-

soiées àes variables.

Soit

F

unensembleni denomsde traits(morpho-syntaxiques).Chaquenomde trait

f

de

F

représente un type d'information porté par un n÷ud. À haque nom de trait

f

est assoié un ensemble de valeurs atomiques

V f

. Les valeurs que peut prendre un trait

sont dénies pour haque nom

f

sur ledomaine

D f

onstruit à partir de

V f

.

Dans notre version des grammaires d'interation 2

, une valeur du domaine

D f

est un

sous-ensemble d'éléments de

V f

, soit

D f = 2 V f

. L'ensemble vide

est appelée valeur

inohérente. Les ensembles sont utiles ar ils permettront de représenter la disjontion

des élémentsqui laomposent.La valeur de

D f

onstituée de tousles élémentsde

V f

est

érite par abus de notation?, quel quesoit

V f

. Lessingletons

{v}

seront notés

v

.

Exemple 1. On peut par exemple prendre

F = {cat, f unct}

et

V cat = {np, n, s, adj }

,

V f unct = {subj, obj, attr, deobj }

. Dans e as

{np, s} ∈ D cat

et

subj ∈ D f unct

.

Pour pouvoir donner une valeur partageable à un trait, nous devons d'abord dénir

la notion d'environnement d'évaluationd'un trait. Nous aurons besoin des ensembles de

variablesdénombrables

X f

pour haque nom de trait

f

et

X = S

f ∈F X f

.

Dénition 1 (Environnement) . Un environnement

Γ

est déni par

son support

S

, 'est-à-dire une partie nie de

X

une fontion d'assignation qui assoie à toute variable

x ∈ S ∩ X f

un élément de

D f

noté

Γ.x

unerelationd'équivalenesurlesupport,ompatibleavelesnomsdetraits assoiés.

Si deux variables sont équivalentes alors elles ont la même image par la fontion

d'assignation 3

. La lasse d'équivalene à laquelle appartient

x

est notée

hxi

. Enn,

on étend lafontion d'assignation aux lasses d'équivalene :

Γ.hxi = Γ.x

Exemple 2. Nous donnons

Γ

, l'environnement suivant, pour

x 1 , x 2 ∈ D cat

et

x 3 , x 4 ∈ D f unct

. La relation d'équivalene est la relation d'équivalene disrète (la plus petite rela- tion d'équivalene).

2

Nousverronsparlasuiteommentlastruturedesdomainesseraenrihie

3

Attention : la réiproque n'est pas vraie. Deux variables peuvent avoir la même valeur sans être

équivalentes.

(35)

x x 1 x 2 x 3 x 4

Γ.x {np, n} {np, s} subj obj

Nous dénissons également une opération sur es environnements, l'identiation de

variables.

Dénition 2 (Identiation) . Soient

x, y ∈ X f

deux variables appartenant à un même environnement

Γ

. L'identiation de

x

et

y

dans

Γ

, notée

Γ[x ≡ y]

, produit un nouvel

environnement de même support que

Γ

, tel que:

la relation d'équivalene est la plus petite extension de la relation d'équivalene sur

Γ

telle que

x

et

y

soient équivalentes, et

la fontion d'assignation est elle de

Γ

mais :

Γ[x ≡ y].hxi = Γ[x ≡ y].hyi = Γhxi ∩ Γhyi

L'opérationd'identiationestassoiativeetommutative.Onpeutdondénirl'iden-

tiationde

n

variables dans un environnement, notée

Γ[≡ {x 1 , . . . , x n }]

.

Exemple 3. Si l'on reprend l'exemple préédent,

Γ[x 1 ≡ x 2 ]

donne :

Γ[x 1 ≡ x 2 ] : x 1 , x 2 x 3 x 4

np subj obj

On note les variableséquivalentes dans la même ase.

Deux environnements peuvent aussi être onaténés pour réer un nouvel environne-

ment,àonditionquelesensemblesdevariablesdesdeuxenvironnementssoientdisjoints.

La onaténation revient à juxtaposer les deux environnements.

Nous avons désormais tous les éléments pour dénir les traits polarisés propres aux

grammaires d'interation.

Dénition 3 (Trait polarisé) . Un trait polarisé

t

sur un environnement

Γ

est un triplet

onstitué d'un nom de trait, d'unepolarité et d'une variable

t = (f, p, hxi) ∈ F × P × 2 X f

x

est une valeur du support de

Γ

.

Une struture de traits

S

est un ensemble de traits

{(f 1 , p 1 , hx 1 i), . . . , (f n , p n , hx n i)}

où les

f i

sonttous diérents. Une struture de trait est dite saturée si lapolarité assoiée

à un nom de trait est saturée,pour haquenom de trait.

À haque struture de traits

S

sur un environnement

Γ

, on peut assoier la struture

de traits eetive

S!

qui remplae les (lasses d'équivalene des) variables par leur image par lafontion d'assignation de

Γ

, 'est-à-dire :

S! = {(f 1 , p 1 , Γ.hx 1 i), (f 2 , p 2 , Γ.hx 2 i), . . . , (f n , p n , Γ.hx n i)}

Ces traits polarisés sont très semblables aux traits habituellement manipulés par les

formalismes linguistiques à base d'uniation

[Car92℄.

D'ailleurs, nous dénissons une

opérationprohe de l'uniation sur es strutures de traits, la superposition.

(36)

Dénition 4 (Superposition) . Soient deux strutures de traits

T 1

et

T 2

dénies sur un

même environnement

Γ

:

T 1 = {(f 1 , p 1 , hx 1 i), (f 2 , p 2 , hx 2 i), . . . , (f n , p n , hx n i)} ∪ T 1 T 2 = {(f 1 , q 1 , hy 1 i), (f 2 , q 2 , hy 2 i), . . . , (f n , q n , hy n i)} ∪ T 2

où les noms de traits de

T 1

(resp.

T 2

) sont absents de

T 2

(resp.

T 1

).

La superposition de

T 1

et

T 2

est une struture de traits notée

T 1 + T 2

sur un environ-

nement

Γ

telle que :

T 1 + T 2 = {(f 1 , p 1 + q 1 , hx 1 i), (f 2 , p 2 + q 2 , hx 2 i), . . . , (f n , p n + q n , hx n i)} ∪ T 1 ∪ T 2

et

Γ = Γ[x 1 ≡ y 1 ][x 2 ≡ y 2 ] · · · [x n ≡ y n ]

Attention, la superposition n'est pas une uniation, notamment pare qu'elle n'est

pas idempotente(la sommedes polaritésn'est pas idempotente).

On peut généraliser ette opération en une opération

n

-aire de superposition de

n

strutures de traits.

Une struture de traits qui possède un trait ayant une valeur interprétée par

dans

son environnement ouqui assoie à un nom de trait une polarité

est dite inohérente.

Deux strutures de traits

S

et

T

sontnon superposables si

S + T

est inohérente.

Exemple 4. Soient

t 1

,

t 2

et

t 3

troisstrutures de traits polariséesdéniesrespetivement sur

Γ 1

,

Γ 2

et

Γ 3

.

t 1 = {(cat, ←, x 1 ), (f unct, →, x 2 ), (nb, =, x 3 )}

Γ 1 : x 1 x 2 x 3

{np, s} subj pl t 2 = {(cat, →, x 4 ), (f unct, ←, x 5 ), (nb, =, x 6 )}

Γ 2 : x 4 x 5 x 6

np ? pl t 3 = {(cat, ≈, x 7 ), (f unct, =, x 8 )}

Γ 3 : x 7 x 8

{np, s} {subj, obj}

On veut superposer es troisstrutures de traits polarisés. Dans un premier temps,on

va onaténer les environnements

Γ 1 , Γ 2 , Γ 3

en un seul environnement

Γ

.

Γ : x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8

{np, s} subj pl np ? pl {np, s} {subj, obj}

Ensuite on va réaliser l'opération

t 1 + t 2 + t 3

. L'opération

+

étant ommutative et

assoiative, on peut réordonner les termes. Ii, on va réaliser

(t 2 + t 3 ) + t 1

.

t 2 + t 3 = {(cat, →, hx 4 i), (f unct, ←, hx 5 i), (nb, =, hx 6 i)} + {(cat, ≈, hx 7 i), (f unct, =, hx 8 i)}

= {(cat, → + ≈, hx 4 i), (f unct, ← + =, hx 5 i), (nb, =, hx 6 i)}

= {(cat, →, hx 4 i), (f unct, ←, hx 5 i), (nb, =, hx 6 i)}

Figure

Updating...

Sujets connexes :