HAL Id: tel-01752899
https://tel.archives-ouvertes.fr/tel-01752899v2
Submitted on 5 Nov 2007
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Joseph Le Roux
To cite this version:
Joseph Le Roux. La coordination dans les grammaires d’interaction. Génie logiciel [cs.SE]. Institut
National Polytechnique de Lorraine - INPL, 2007. Français. �NNT : 2007INPL063N�. �tel-01752899v2�
Institut National Polytechnique de Lorraine
D´ epartement de formation doctorale en informatique Ecole doctorale IAEM Lorraine ´
La coordination dans les grammaires d’interaction
TH` ESE
pr´esent´ee et soutenue publiquement le 17 octobre 2007
pour l’obtention du
Doctorat de l’Institut National Polytechnique de Lorraine
(sp´ ecialit´ e informatique)
par
Joseph Le Roux
Composition du jury
Rapporteurs : Professeur Alain Lecomte, Universit´e de Paris 8 Professeur Aarne Ranta, Universit´e de G¨oteborg
Examinateurs : Professeur Denys Duchier, Universit´e d’Orl´eans Professeur Owen Rambow, Universit´e de Columbia Professeur Fran¸coise Simonot-Lion, Ecole des Mines de Nancy ´
Professeur Guy Perrier, Nancy Universit´e (directeur de th`ese)
Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503
Cette thèse présente une modélisation des prinipaux aspets syntaxiques de la o-
ordination dans les grammaires d'interation de Guy Perrier [
Per03
℄
. Les grammaires
d'interation permettent d'expliiter la valene des groupes onjoints. C'est préisément
sur ette notion qu'est fondée notre modélisation.
Nousprésentonségalementtous lestravauxautourde ettemodélisationquinousont
permis d'aboutir à une implantation réaliste : le développement du logiiel Xmg et son
utilisation pour l'ériture de grammaires lexialisées, le ltrage lexial par intersetion
d'automateset l'analysesyntaxique.
Mots-lés: linguistique omputationnelle, traitement automatique des langues, syntaxe
formelle, oordination, grammaires d'interation, analyse syntaxique, théorie des auto-
mates
Abstrat
This thesispresents amodelisationofthe mainsyntatialaspetsof oordination
using Guy Perrier's Interation Grammars
[Per03℄
as the target formalism. Interation
Grammars make it possible to expliitly dene onjunts' valenies. This is preisely
whatour modelisationisbased upon.
We also present work around this modelisation that enabled us toprovide a realisti
implementation: lexializedgrammar development (using our tool Xmg), lexialdisam-
biguationbased onautomata intersetion and parsing.
Keywords: omputationallinguistis,natural languageproessing,formalsyntax, oor-
dination,interation grammars, parsing,automata theory
Je tiens à remerier en premier lieu mon enadrant, Guy Perrier, qui m'a toujours
soutenuetenouragé durant es quatre années. Il m'abeauoup aidédans mes réexions
et je lui dois beauoup. Je le remerie également d'avoir relu ave attention les versions
suessives de e doument et d'avoir à haque fois supporter les approximations, les
erreurset lesfautes d'orthographe.
Jeremerieégalementlesrapporteurs,AlainLeomteetAarne Ranta,d'avoiraepté
des'intéresser àmontravailetd'avoirindiquéaveune granderigueurleursobservations.
Je veux aussi remerier les autres membres du jury. En partiulier, je remerie Denys
Duhier qui a initié le travail sur Xmg. Son trop bref passage à Nany a donné lieu à
troisthèses,dontelle-i.JeremerieOwenRambowd'avoirspontanémentjouélerlede
obayeeninstallanteten utilisantXmg.Sesourrielsnousontsouvent permisdetrouver
etdans laplupartdes as, de orriger des bogues.
Durantquatreans,j'aipuappréierlaompagniedesmembresduprojetCalligramme.
Je remerie en partiulier les développeurs de leopar de première génération : Bruno
Guillaume,Sylvain Pogodalla et Guillaume Bonfante. C'est en utilisant leur logiiel que
j'aiomprislaméaniquedesgrammairesd'interation.Lehapitre6etl'annexeAdoivent
énormément àGuillaumeBonfante.
Au ours de e dotorat, j'ai partiipé au développement de deux logiiels. Je tiens
à remerier haleureusement les personnes ave qui j'ai ollaboré étroitement : Yannik
Parmentier, ledéveloppement de Xmg a vraiment été fait en tandem, et Jonathan Mar-
hand,quis'estoupédelapartievraimentdiilede l'algorithmede Earley(lagestion
des environnements).
Une thèse, 'est aussi des disussions et des éhanges passionnants ave les autres
dotorants ouingénieurs. Je tiens don àsaluer tous eux qui m'ont fait aimer Nanyet
leLORIA :Sylvain, Benjamin, Benoît, Eri, Haène,Laïka,Sébastien, Dmitry,Mathieu,
Sarah,Karen... et tous eux que j'oublie.
Je remerie mes amis, là bas en Bretagne, dont laompagnie m'a si souvent manqué
durant es long hivers lorrains, pour leur joie de vivre ommuniative et leur amitié
toujoursintate àhaque visitemalgré lesannées etla distane.
Je remerie mes parents qui ont toujours ru en moiquand moi même je n'y royais
plus.
Enn, je remerie Gwen de merendre heureux en omplétantl'irréalitédu réel.
have alwaysfound the best solutionof the diulties. Still Ithought it better to give my
own attempts forwhat they areworth than to shirk the task.
Otto Jespersen, Analyti Syntax
Introdution
1 La oordination :pourquoi? . . . 1
2 La modélisationproposée . . . 2
2.1 Le prinipe . . . 2
2.2 Extension . . . 3
2.3 Résultats . . . 4
3 Travauxrelatifs àl'implantation. . . 5
3.1 Ériture de grammaires lexialisées . . . 5
3.2 Filtragelexial . . . 6
3.3 Analyse syntaxique . . . 6
4 Plan de lathèse . . . 7
Chapitre 1 Les grammaires d'interation 1.1 Un formalismepolarisé . . . 12
1.1.1 La notion de valene en syntaxe . . . 12
1.1.2 La logique linéaireintuitionnisteimpliative . . . 13
1.1.3 Grammaires d'interation primitives . . . 14
1.2 Les desriptionsd'arbres polarisées . . . 15
1.2.1 Utilisation de desriptions . . . 15
1.2.2 Polarités . . . 16
1.2.3 Traits, valeurs etenvironnements . . . 17
1.2.4 Les desriptions d'arbres . . . 20
1.2.5 Exemple . . . 23
1.3 Modèles et interprétations des desriptions . . . 25
1.3.1 Modèles saturés . . . 26
1.3.2 Modèles minimaux . . . 27
1.4 Langageengendré . . . 28
1.5 Conlusion . . . 28
Partie I Éritureetmaintenane desgrammaireslexialisées 31 Chapitre 2 Des règles lexiales à Xmg 2.1 Introdution. . . 33
2.2 Lebesoinde produtionautomatique . . . 34
2.3 L'approhe métagrammatiale . . . 36
2.3.1 Un problème majeur :la redondane . . . 36
2.3.2 Héritage ouréutilisation . . . 37
2.3.3 Règles lexiales . . . 38
2.4 Unesolution :la métagrammaire . . . 39
2.4.1 Laproposition originale . . . 40
2.4.2 Unepremière révision . . . 42
2.4.3 Uneapprohe orientée besoinset ressoures . . . 43
2.4.4 Lanouvelle éole :MgComp etXmg . . . 43
2.5 Conlusion . . . 45
Chapitre 3 Xmg 3.1 Prinipesgénéraux . . . 48
3.1.1 Relationave laprogrammationlogique . . . 48
3.1.2 Types d'informations etdimensions . . . 52
3.1.3 Post-traitement de dimension . . . 52
3.2 Langagenoyau . . . 53
3.2.1 Combinaison de fragments . . . 53
3.2.2 Contenu des dimensions . . . 54
3.3 Unearhiteture modulaire inspiréede la programmationlogique . . . 56
3.3.1 Des modules dédiés . . . 56
3.3.2 Extensibilité . . . 57
3.4 Compilation . . . 57
3.6 Un résolveur extensible . . . 59
3.6.1 Prinipedu résolveur d'arbres . . . 60
3.6.2 Contraintes additionnelles . . . 61
3.6.3 Implantation . . . 63
3.7 Conlusion . . . 63
Chapitre 4 Une petite métagrammaire de la oordination 4.1 Version initiale . . . 66
4.1.1 Délaration des traits . . . 66
4.1.2 La première lasse . . . 66
4.2 Héritage etorganisation des lasses . . . 68
4.2.1 La superlasse . . . 68
4.2.2 Ajout de traits . . . 68
4.2.3 Spéialisationet disjontion . . . 69
4.3 Utilisationd'une lasse paramétrée . . . 70
4.4 Conlusion . . . 73
Partie II Analyse de la oordination 75 Chapitre 5 Modélisation de la oordination 5.1 Introdution. . . 78
5.2 Les phénomènesétudiés . . . 79
5.2.1 Coordination de onstituants . . . 79
5.2.2 Coordination de non-onstituants . . . 80
5.2.3 Cironsription des phénomènestraités . . . 84
5.3 Modélisation dans lesgrammaires d'interation . . . 84
5.3.1 Les diérentes approhes du phénomène . . . 84
5.3.2 Le prinipe de superposition des interfaes . . . 86
5.3.3 Les oordinations de onstituantssimples . . . 89
5.3.4 La oordination de modiateurs . . . 90
5.3.5 La oordination de non-onstituants . . . 92
5.3.6 Laoordination ave ellipse ougapping. . . 99
5.3.7 Remarquessur lesoordinations
n
-aires . . . . . . . . . . . . . 1005.4 Extensionpour laoordination disparate . . . 101
5.4.1 Struture des domaines de valeurs. . . 102
5.4.2 Révision de la notionde modèle . . . 104
5.4.3 Modélisationde laoordination disparate . . . 105
5.4.4 Limites de laproposition . . . 106
5.5 Comparaisonave d'autres modélisations . . . 108
5.5.1 Grammairesatégorielles ombinatoires . . . 108
5.5.2 Hpsg etapprohe elliptique . . . 113
5.5.3 Hpsg etapprohe par fatorisation . . . 117
5.5.4 lfg . . . 118
5.6 Implantation de la grammaire . . . 121
5.6.1 Organisationdes lasses . . . 122
5.6.2 Forme générale des DAP . . . 122
5.6.3 Coordination nominale . . . 123
5.6.4 Coordination verbale . . . 124
5.6.5 Séquenes et trou verbal . . . 124
5.6.6 Bilande l'implantation . . . 124
5.7 Bilan. . . 125
Partie III Filtrage lexial et oordination 129 Chapitre 6 Automates de ltrage lexial 6.1 Introdution. . . 132
6.2 Automatesà états nis déterministesayliques . . . 134
6.2.1 Dénition . . . 134
6.2.2 Opérationd'intersetion . . . 134
6.2.3 Automatesde segmentation . . . 135
6.3 Automatesde polarités. . . 136
6.3.1 Séletions lexiales . . . 136
6.3.2 Critèrede orretion . . . 137
6.3.3 Arithmétiqued'intervalles . . . 139
6.3.5 Modélisationàl'aide d'automates . . . 140
6.4 Intersetion d'automates . . . 142
6.4.1 Algorithmede ltrage . . . 142
6.5 Complexité de l'intersetion des automates de ltrage . . . 145
6.5.1 Rle de lastruture des automates . . . 145
6.5.2 Importanede l'ambiguïté lexiale . . . 146
6.6 NP-Complétude de l'optimisationd'intersetion . . . 148
6.6.1 Exemple . . . 148
6.6.2 Problème du voyageur de ommere . . . 148
6.6.3 Énoné des problèmes . . . 150
6.6.4 NP-Complétude. . . 151
6.6.5 Conlusion . . . 151
6.7 Choix des valeurs de traits pour leltrage . . . 151
6.8 Informations syntaxiques et ltrage: le as de la oordination . . . 155
6.8.1 Un ritère sur lesséletions . . . 155
6.8.2 Un ritère sur lesautomates . . . 157
6.9 Patrons interdits . . . 157
6.10 Résultats expérimentaux . . . 158
6.10.1 Importanedu hoix des valeurs. . . 159
6.10.2 Rle des patrons . . . 159
6.10.3 Coordination . . . 161
6.11 Conlusion . . . 162
Partie IV L'analyse syntaxique dans les grammaires d'inter- ation 163 Chapitre 7 L'analyse syntaxique 7.1 Introdution. . . 165
7.2 Complexité du problème de l'analyse . . . 166
7.3 L'algorithme shift-redue . . . 166
7.3.1 DAP étendues . . . 167
7.3.2 Règles de simpliation . . . 168
7.3.3 Rledes polarités. . . 169
7.3.4 Uneheuristique psyho-linguistique . . . 170
7.3.5 Exemple . . . 171
7.3.6 Conlusion . . . 176
Chapitre 8 Un algorithme d'analyse dédutif à la Earley 8.1 L'algorithmed'Earley . . . 182
8.1.1 Grammaireshors-ontexte . . . 182
8.1.2 Analyse dédutive . . . 184
8.1.3 Items . . . 184
8.1.4 Règles de dédution . . . 185
8.2 Exemple d'analyse . . . 186
8.3 Complexité etextension . . . 187
8.4 Unalgorithme de type Earleypour lesGI . . . 187
8.4.1 Intuition . . . 187
8.4.2 Ensembles saturésn÷uds . . . 191
8.4.3 Forme des items etinvariant. . . 193
8.4.4 Règles . . . 196
8.4.5 Corretion etomplétude . . . 198
8.4.6 Exemple . . . 199
8.4.7 Complexité . . . 201
8.5 Appliationàla oordination . . . 203
8.5.1 Présentation . . . 203
8.5.2 Modiation de l'algorithme . . . 203
8.5.3 Exemple . . . 205
8.5.4 Conlusion . . . 206
Conlusion et perspetives
Bibliographie 213
Annexe A
NP-Complétude de l'optimisation d'intersetions
A.2 Énoné des problèmes . . . 221
A.3 Algorithmesnon déterministes. . . 222
A.4 NP-Complétude . . . 223
Dansette thèse,nous proposons de modéliserlephénomènede oordination dansles
grammaires d'interation. Qu'entendons nous par ela? Il s'agit d'une part d'un travail
demodélisationd'unphénomènelinguistique,'est-à-direde proposerun adrethéorique
qui permette de prédire la grammatialité (ou l'agrammatialité) de ertaines onstru-
tionssyntaxiques. Nousutiliseronslesgrammairesd'interation pourréaliserettemodé-
lisation. Ces grammaires nous permettront d'exprimer failement deux aspets de notre
modélisation:lavalenedesgroupesonjoints,àtravers lespolarités,etledomainedelo-
alitéétendu d'un groupeonjoint,grâe auxlesdesriptions d'arbres.Notre proposition
prendra don la forme d'une grammaire d'interation, en fait d'un fragment d'une telle
grammaire qui s'insèrera dans une grammaire générale du français développée par Guy
Perrier, de manière à pouvoir vérier notre modélisationexpérimentalement sur orpus.
La démarhe expérimentale nous semble très importante pour valider les modélisations
linguistiques. D'autre part, nous voulons intégrer ette grammaire dans un système de
traitement automatique des langues naturelles, e qui suppose de disposer d'outils e-
aes qui mettronten ÷uvre notre proposition.C'est pourquoiune partieimportantede
lathèseest onsaréeàdes aspetsquivontau-delàde notremodélisation,danslebutde
laonfronter àdesorpus.Nousavons travaillésurlestehniquesde oneptionde gram-
maireslexialisées,sur leltragelexialen vuede l'analyse,ainsi quesurdes algorithmes
d'analysesyntaxique. Ainsi,nousproposonsune arhiteture omplètepourvalidernotre
proposition théorique.
Nous nous onsarons entièrement à l'aspet syntaxique de la oordination, pour la
simple raison qu'il n'existe pas enore de onsensus sur la manière de représenter la sé-
mantique dans les grammaires d'interation. Évidemment, nous sommes onsients que
notremodélisationdoitpouvoirs'étoerd'uneomposantesémantiqueetnousavons pris
soin de modéliser laoordination ave lasémantique omme lignede mire.
1 La oordination : pourquoi?
Laoordinationest unphénomènesyntaxiqueomniprésent,quelquesoitleregistrede
langueonsidéré. Cela amènedeux réexions.Premièrement,une grammaire du français
ne peut être omplètesans prendre en omptee phénomène.Passer sous silenelaoor-
dinationrevientànemodéliserqu'unepartielimitéedelalangue.Deuxièmement,etpour
lesmêmes raisons, un système de traitement automatique de lalangue ne peut pas faire
l'éonomiede laoordination.Auunorpusréel n'enest exempt. Don,pourdes raisons
àla fois linguistiquesetpragmatiques, ilnous faut tenir ompte de laoordination.
Laoordinationestunphénomènediileàmodéliser.Elleremetenauselanotionde
onstituane, puisque l'on peut oordonner des non-onstituants, 'est-à-dire des onsti-
tuants auxquels une partie fait défaut. Elle remet également en ause la notion d'arbre
syntaxique. On peut voirles onjontions de oordination omme des éléments quiauto-
risentun partagesesous-arbres etlesgraphesayliquessemblentalors plusadaptés que
lesarbres.Deplus, l'ellipseest souventassoiée àlaoordinationetilestsouvent diile
de déterminer, de laoordination oude l'ellipse,qui ommande l'autre.
En onséquene, la plupart des formalismes grammatiaux peinent à en fournir une
analyse onvenable. Dans la plupart des as, on étend les formalismes ave des opéra-
tionsspéialiséesouonautorisedesstrutures exeptionnellespour modéliserlesgroupes
oordonnés.Nousrejetonsetteapprohear ellenoussembleen ontraditionavel'om-
niprésene du phénomène.
Nous insistons don sur le fait que le prinipe de notre proposition peut se formuler
danslesgrammairesd'interation,sans ajoutd'opérationspéique.Biensûr, nousavons
souvent été onfrontés durant la oneption de notre modélisation aux rigidités ou aux
manques dont sourent es grammaires. En partiulier, un système de ompositionsyn-
taxiqueplus souple,nous aurait permis d'exprimer plus failement ertainsaspets de la
oordination.
2 La modélisation proposée
Nousneprétendonspasdansettethèseprésenterunethéorielinguistiquenovatriede
laoordination:ei n'est pasune thèsede linguistique.Nousreprenonsl'idéedéjàdéve-
loppéequelesonjointssontaumêmeniveauparrapportàlaonjontiondeoordination
etqueleonjontion deoordinationn'estpas latête dela onstrution.Cette modélisa-
tion peut être exprimée selon un point de vue lexialiste, qui onvient parfaitement aux
grammaires d'interation.
Cependant, notre proposition fait tout de même preuve d'originalité dans le sens où
la valene des onjoints y joue un grand rle. Nous rejoignons en ela la modélisation
de la oordination dans les grammaires atégorielles, tout en expliitant omplètement
l'importanede la valene expriméeà l'aide des polarités des grammaires d'interation.
2.1 Le prinipe
Deuxgroupespeuventêtreonjointss'ilsontlemêmeomportementsyntaxique.Ainsi,
nous rendons ompte de la loi de Wasow qui stipule que deux groupes peuvent être
oordonnés si haun d'entre eux peut être utilisé dans le ontexte oertpar le reste de
la phrase, voir les exemples 1. Dans les grammaires d'interation, ela veut dire que les
deux onjoints ont la mêmeinterfae. L'interfae est la partie de la struture syntaxique
qui n'est pas enore saturée et qui peut don interagir ave le reste de la phrase. Nous
pouvons ainsi déterminer sideux groupes peuvent être oordonnés.
(1) (a) Jean aompagne [Marie℄.
(b) Jean aompagne [lefrère de Pierre℄.
() Jean aompagne [Marie etle frèrede Pierre℄.
(d) [Jean aime℄Chomsky.
(e) [Marie déteste℄ Chomsky.
(f) [Jean aime mais Marie déteste℄ Chomsky.
Legroupeonstitué de la onjontion etdes deux onjointsdoit enore interagirave
le reste de la phrase pour donner une struture nale grammatiale. Le segment oor-
donné doit interagir ave le reste de la phrase omme le ferait haun des onjoints. La
onjontiondoit en quelque sortefusionner lesinterfaes des onjointspour lereste de la
phrase.
Commenousn'avons pas voulu faireévoluer lesgrammairesd'interation, nousavons
dû traduire ette idée de modélisation dans le formalisme existant. La onjontion a
alors deux rles dans les grammaires d'interation. D'une part elle doit s'assurer que les
onjoints-andidats présentent la même interfae et d'autre part orir une interfae uni-
ée au reste de la phrase. La première étape se fait grâe à l'opération de omposition
syntaxiquepropreauxgrammairesd'interation,lasuperpositionpartiellededesriptions
d'arbres. Sihaque onjoint peut se superposer omplètementsur laonjontion en don-
nantunestruturesaturée,alorslapremièreétapeest réalisée.Ladeuxièmeétapeindique
que la desription assoiée à une onjontion de oordination dispose, en plus des deux
parties hargées de saturer les onjoints, d'une troisième partie qui doit se superposer
omplètementsur leontexte oert par lereste de laphrase.
Il faut don que les desriptions d'arbres assoiées aux onjontions de oordination
répondentàun shémaassez strit.Ellessontomposéesde trois parties:unepartie dite
hauteetdeux partiesdites basses.Lapartie hauteest hargéed'interagirave lerestede
la phrase. Cette partie orrespond don à l'interfae des onjoints que ette onjontion
doit oordonner. Les deux partiesbasses ont deux rles : vérier que les onjointsont la
mêmeinterfaeetempêher esonjointsd'interagirave lerestelaphraseenlessaturant
omplètement.Cesdeux partiesbassessontdonidentiques pourvérierquelesonjoints
sont semblables et elles orrespondent à la desription duale de la partie haute. C'est-à-
direquelapartie hauteetlespartiesbassesont lamêmeformearboresentemais queles
polaritéssont inversées entre la première etles dernières.
Cette proposition permet déjà de rendre ompte de nombreux as de oordinations :
la oordination de onstituants et la oordination de non-onstituants ave montée de
n÷uds.Ces deux sous-phénomènes onstituent lamajoritédes as de oordination.
2.2 Extension
Pour d'autres phénomènes, omme la oordinations de séquenes ou la oordination
ave trou verbal, notreproposition ne sut pas.
(2) (a) Il adonné raison [àJean pour sa perspiaité℄ et[à Pierrepour safranhise℄.
(b) [Jean viendra toutela semaine℄mais [Marie seulement lemerredi℄.
Pour la oordination de séquenes, exemple (2a) , où haque onjoint est formé par
plusieurs onstituants, nous sommes limités par la forme arboresente des desriptions
d'arbres des grammaires d'interation. Quant au trou verbal, exemple (2b), il ontredit
l'hypothèse qui établit que les onjoints ont la même valene, si on l'interprète dans un
senselliptique.Maislesgrammairesd'interationsontsusammentexpressivespour per-
mettre de modéliser es phénomènes, mais en abandonnant la simpliité de la première
modélisation.Nousutiliseronsalorslespolaritésvirtuellesetneutres desgrammairesd'in-
teration.Onpourraainsireonstruireleontextemanquantauxonjointspourretrouver
la symétrie de la première proposition. Pour es phénomènes, les grammaires d'intera-
tion possèdent déjà l'expressivité adéquate et il n'est pas néessaire de les étendre pour
en tenir ompte.
Jusqu'à présent,nousavonssupposéquelesonjointssontsemblables.Toutdumoins,
ils doivent avoir exatement la même interfae. Ce n'est pas toujours le as : 'est e
que l'on appelle la oordination disparate. C'est un phénomène assez rare en français
mais plus ourant dans les langues à as. L'exemple 3 illustre la oordination de deux
verbes, l'un requérant un omplément àl'indiatif,l'autre ausubjontif.Nous proposons
pour modélisere phénomène,touten gardantnotreproposition,d'enrihirlesystème de
traits des grammairesd'interation, de manièreàmodéliser lesynrétisme etl'ambiguïté
devaleurspouruntrait.C'estdonuniquementpoure dernieras quenous étendonsles
grammaires d'interation pour donner plus de souplesse àl'opérationde superposition.
(3) a Lesénateur délare etregrette tout àla fois qu'une nouvelleloireste
envisageable.
a *Lesénateur délare etregrette tout àla foisqu'une nouvelle loiest/soit
envisageable.
2.3 Résultats
Nous pouvons prédire lagrammatialitédes oordinations de onstituantset de leurs
modiateurs, des oordinations de non-onstituants ave montée de n÷uds, à droite
ommeàgauhe. Nouspouvonsaussi vérierlaorretiondes oordinationsde séquenes
et des oordinations ave trou verbal, bien que dans e as l'implantation ne ouvre pas
tous les as existant.
Notre traitement des oordinations disparates n'est qu'une proposition théorique. Le
nouveau système de traits demande un travail de réériture important de l'analyseur
leopar.
Nous ouvrons don la plupart des as de oordinations. Il nous reste ependant
quelques onstrutions non supportées. C'est en partie dû au fait que notre grammaire
de laoordination s'insère dans une grammaire générale du français, etque notre modé-
lisation est don dépendante de ette grammaire. Par exemple, puisque lessuperlatifs et
les omparatifsne sont pas modélisés dans lagrammaire prinipale, leur oordination ne
l'est pas non plus. Pour d'autres aspets, omme la oordination de verbes à des temps
omposés (sous la formede partiipespassés), la grammaire prinipale évolue assez vite
et leur modélisation est trop réente pour que nous ayons eu le temps de proposer une
modélisationde leur oordination.
D'un point de vuequantitatif, nous avons onfronté notre modélisation àla TSNLP,
qui est un jeu de phrases tests pour les analyseurs syntaxiques, omprenant des phrases
positives et des phrases négatives. Nous aeptons 85% des phrases positives ontenant
desoordinationsetnous rejetonsl'intégralitédes phrasesnégatives.Les15%restantsqui
ne sont pas analysés sont des oordinations soit de phénomènes qui ne sont pas pris en
omptepar la grammaire prinipale (les superlatifs par exemple),soit des oordinations
qui ontredisent l'hypothèse faite sur le régime des verbes par la grammaire prinipale
(par exemple, parler à ou de l'entreprise n'est pas modélisable pour l'instant ar les
onstrutionsparler à etparler de sont deux entrées diérentes du verbe parler).
3 Travaux relatifs à l'implantation
Pour développernotremodélisationetlatestersur des orpus,nous avonsdû étendre
le domaine de nos reherhes à toute la haîne qui va de la oneption de grammaires
jusqu'à l'analyse syntaxique. Comme nous voulons insister sur l'aspet expérimental de
notreapprohe, es travaux onttoute leur plae dans e doument.
Undes traits distintifsdes grammairesd'interation est ertainementleur lexialisa-
tion omplète. Il n'existe qu'une opération de omposition syntaxique, la superposition
dedesriptions d'arbres ettoutelaonnaissanelinguistiqueest reportée danslelexique,
'est-à-diredans l'ensembledes desriptionsd'arbres quipeuventêtre assoiéesaux mots
pour en dérire les diérents usages. Cette lexialisation apporte deux problèmes pour
letraitement automatique des langues : lapréservation de la ohérene de la grammaire
en ours de développement et l'aroissement de la taille du lexique qui a un impat
importantsur lesperformanes de l'analyse.
La oordination omplique l'analyse syntaxique. Tout d'abord, les oordinations al-
longent les phrases. Ensuite, le polymorphisme des onjontions rend l'analyse très am-
biguë.Nousavons dondéveloppéun nouvelalgorithme d'analyseinspiréde l'algorithme
d'Earleypourlesgrammaireshors-ontexte. Cetalgorithmerendplusfaileladéomposi-
tionde l'analyse d'unephrase en plusieurssous-analyses. Nousutiliserons ette propriété
pour proposer d'analyserles groupes oordonnées avant le reste de la phrase.
3.1 Ériture de grammaires lexialisées
Lepremierproblèmevientde l'érituredes grammaireselles-mêmes.Eneet, puisque
laonnaissanelinguistiqueest reportéedanslelexique,'est àdire dansdesentainesde
desriptionsd'arbres,etteonnaissaneestprésentedemanièreextrêmementredondante.
L'extension oulamodiation d'unetellegrammaire devienttrès diileàmesurequele
lexique ontient de nombreuses desriptions. Il faut s'assurer à haque modiation que
laohérene interne de lagrammaire est préservée. En partiulier,il fauts'assurer qu'un
phénomènelinguistiqueest traité de manièreuniforme à travers lelexique.
Ilfautdonpouvoirvérierlaohérenedelagrammaire.Latendanelaplusourante
dans le domaine de l'ériture de la grammaire onsiste à ne plus érire diretement la
grammairemaispluttd'érireunedesriptiondelagrammairequinesoitpasredondante,
est de générer automatiquement la grammaire nale. Pour les grammaires lexialisées,
ette desription omprend des fragments de strutures syntaxiques qui orrespondent à
lamodélisationdephénomènessyntaxiquesetdesindiationspourombineresfragments
pour produire lesstrutures syntaxiques omplètes.
C'estdanseontextequenousavonspartiipéaudéveloppementde l'outilXmg.Cet
outilpermetjustementde générerdes grammairesd'interationainsi quedesgrammaires
d'arbres adjoints à partir des desriptions des strutures de la grammaire nale. C'est
grâe à l'utilisation de e formalisme que nous avons développé notre grammaire de la
oordination.C'estaussiaveetoutilqu'estéritelagrammairedufrançaisdanslaquelle
s'insère notre grammaire. Une partie de la thèse est onsarée à la présentation de et
outil et des onepts qui luisont propres.
3.2 Filtrage lexial
Grâe à Xmg, nous pouvons nous aranhirdes problèmes liésà lataillede la gram-
mairelorsde sa oneption.Enrevanhe, lataillede lagrammaire gardeune importane
lors de l'analyse syntaxique. Plus le nombre de strutures syntaxiques qui peuvent être
assoiées à un mot est grand,plus il est diile de déterminer quelle est lastruture qui
doitluiêtreassoiéedansleontexted'unephraseàanalyser.L'étapequionsisteàhoi-
sir pour haque mot d'une phrase la struture s'appelle la séletion lexiale. Le nombre
de mots dans une phrase et le nombre de strutures syntaxiques assoiées par le lexique
àhaque mot de laphrasesontlesdeux fateursquiompliquentette étape.Eneet, le
nombre de séletions lexiales pour une phrase est le produit du nombre de desriptions
d'arbres assoiées à haque mot de laphrase par le lexique.
Or les phrases qui présentent le phénomène de oordination sont en général plus
longues que les autres la oordination peut être vue omme un moyen d'exprimer
plusieurs phrases en une. De plus, à ause de notre modélisationentièrement lexialiste
de la oordination, on assoie de très nombreuses strutures syntaxiques aux onjon-
tions de oordinations. L'étiquetage est don une étape diile pour les phrases ave
oordination.
Nous avons don été amenés à nous intéresser au moyen d'éliminer le plus d'étique-
tages qui ne peuvent pas donnerd'analyse. C'est e quel'on appelle leltrage lexialou
désambiguïsation. Nousavons reprisles tehniques eaes de ltragedéjà déniesdans
lesgrammairesd'interationdontnousavonsmontrélaomplexité,toutenproposantdes
lesétendre de deux manières. D'une partnous proposons une méthode pour désambiguï-
ser plus eaement les onjontions de oordination fondée sur la valene des onjoints
qui est la base de notre modélisation syntaxique. Cette méthode permet également de
distinguer préisément la position des groupes oordonnés en fontion de ette valene.
D'autre part,nous avons généraliséette approhe quionsisteàdonnerde l'information
syntaxique pour désambiguïserleplus ttpossible souslaformede e que nousappelons
lespatrons interdits, quiorrespondent àdes séletions lexialesquine peuventaboutir à
une analyse et quidoiventdon être éliminés.
3.3 Analyse syntaxique
Nous avons également travaillé sur l'amélioration de l'analyse syntaxique dans les
grammairesd'interation,pourdeux raisonsliéesànotremodélisationde laoordination.
Premièrement,lesalgorithmes d'analysedéjàexistant ommeleshift-redue,sonttrès
sensibles à la longueur de la phrase et au nombre de polarités porté par les strutures
syntaxiques.Ce sontjustementdeux aratéristiquesdesphrasesqui présentent desoor-
dinations.Nousavons dondéveloppéunnouvelalgorithmequiyestmoinssensible.C'est
un algorithme de type desendant inspiré de l'algorithme d'Earley des grammaires hors-
ontexte. Bien que le prinipe de et algorithme soitrelativement simple, son exposition
estrendue arduearelleneorrespondpas àl'intuitionderrièrelesgrammairesd'intera-
tion qui est de superposer partiellementdes desriptions d'arbres. Cet algorithme utilise
lesdesriptions d'arbres ommedes guides pour onstruire l'arbre d'analyse diretement
par laraine.
Deuxièmement,notreméthode de ltragelexialnouspermetde distinguerleslimites
dessegmentsoordonnés.D'aprèsnotremodélisation,essegmentssontautonomes,'est-
à-dire que l'on peut les analyser hors-ontexte. Notre algorithme a don été envisagé de
manière à pouvoir assembler des sous-analyses orrespondant à des parties autonomes
pour onstruire l'analyse omplète. Nous développons une extension de notre algorithme
pour e faire. Bien que pour l'instant es sous-analyses portent exlusivement sur des
groupes oordonnés, ilest tout àfait envisageable de généraliser ette approhe.
4 Plan de la thèse
Entenantomptedes travauxeetué, nousavons struturésledoumentdelafaçon
suivante:
Chapitre 1. Les grammaires d'interation. Nous présentons dans e premier ha-
pitre le formalisme des grammaires d'interation. En eet, e formalisme est jeune et
enoremalonnu.Ilévolue vite,et'estpourquoinous avons essayé dedonnerunprésen-
tationgénérale de la version laplus réente. Ce formalisme permet de dérire failement
et nement la notion de valene en syntaxe. La grammaire y est envisagée omme un
système de ontraintes imposées par haque mot du langage. La struture syntaxique
assoiée à une phrase (l'arbre syntaxique) doit alors vérier l'ensemble des ontraintes
apportées par les mots qui laomposent.
Chapitres 2, 3 et 4. L'ériture de grammaires lexialisées et Xmg. Avant de
nousattaquer àlamodélisationproprementdite,nous présentons laproblématiqueliéeà
l'érituredesgrammairesfortementlexialisées,en nousintéressantplus partiulièrement
aux grammaires d'arbres adjoints et aux grammaires d'interation. La redondane de
l'informationlinguistiquedans esgrammairesrendtrès diilelaoneptionetlamain-
tenane des grammaires à large ouverture.Dans e adre, nous présentons égalementla
solution qui a été proposée par Benoît Crabbé, Denys Duhier, Yannik Parmentier et
nous-mêmes,Xmg, qui permet d'exprimer une grammaire fortement lexialiséesous une
forme onise, et don sans redondane. Nous terminerons ette partie par un exemple-
jouetde grammaire de laoordination pour illustrer lespossibilitésoertes par l'outil.
Chapitre 5. La modélisation de la oordination Dans e hapitre, nous présen-
terons notre modélisation de la oordination qui est laprinipale ontributionde e do-
ument. Ce hapitre est relativement long, à la mesure de l'ampleur de la tâhe. Pour
ommener, nous donnerons un ertain nombre d'exemples de oordinations signia-
tifs de ertaines propriétés intrinsèques à e phénomène. Ainsi, en nous fondant sur es
exemples,nous pourronsproposernotre proposition demodélisationquiest fondée sur la
valene des groupesoordonnés.
Dans une seonde partie, nous montreronsomment le prinipe de notre proposition
doit s'adapteràlaréalitéde lagrammairedanslaquelle notremodélisationdoit s'insérer.
Nous détaillerons ainsi sous-phénomène par sous-phénomène omment nous modélisons
la oordination.
Ensuite nous présenterons une extension des strutures de traits polariséesdes gram-
mairesd'interationpour teniromptedes oordinationsdisparates.Cetteextensionn'est
pas enoreimplantéeetn'a donpas pu fairel'objetd'évaluation.Cettepartiepermetde
modéliserdes oordinationsdisparates dansle asdu synrétisme de as quel'on observe
dans des langues à délinaisons,omme leslangues slaves par exemple.
Ensuite, nous évoquons d'autres modélisations de la oordination dans d'autres for-
malismes, les grammaires atégorielles, les grammaires syntagmatiques dirigées par les
têtes etles grammaireslexiales fontionnelles. Nousexpliquons leur prinipeet nous les
omparons à notreapprohe.
Finalement,nous expliquons en détail ommentnous avons érit notre grammaire de
la oordination sous la formed'une métagrammaire traitéepar Xmg. Nous détaillons la
méthodologie etl'organisation de notre proposition.
Chapitre 6. Filtrage lexial. À partir de e hapitre, nous développons les travaux
qui ont eu pour but de pouvoir tester notre proposition sur orpus. Tout d'abord, nous
aborderonsleproblèmedeladésambiguïsationlexialedanslesgrammairesd'interation.
Des tehniques originalesont été élaborées pour améliorerle ltragelors de l'étiquetage.
Nous en aratériserons la omplexité. Malheureusement,es tehniques ne sont pas suf-
santes pour les phrases qui présentent le phénomène de oordination. En eet, notre
grammairede laoordinationassoieune soixantainede desriptionsauxonjontions de
oordinationsetlesphrasesonernéessontpluslonguesen moyennequelesphrasessans
oordination.
Nous présentons don deux nouvelles méthodes de désambiguïsation. La première se
onentre sur les oordinations et permet de d'améliorer l'eaité du ltrage tout en
délimitantlespositions des groupesonjoints.Cettepropriété nous servira dansla partie
onsarée àl'analysesyntaxique. L'originalitéde ette méthode est qu'ellesefonde sur la
modélisationsyntaxiqueque nousproposons. Desonnaissanes linguistiquespermettent
donde ltrerplus eaement.Ladeuxièmeméthode est plusgénérale, maisellerepose
aussi sur des onnaissanes linguistiques. Si l'on sait que des strutures syntaxiques ne
peuvent pas être présentes simultanément dans l'étiquetage d'une phrase, alors on peut
éliminerdiretementes étiquetages pour ne pas avoirà lesonsidérer lorsdes étapes de
ltragesultérieures.
Chapitres7 et8.Analyse syntaxique. Ladernièrepartiede edoumentestonsa-
rée à l'analyse syntaxiquedans les grammaires d'interation.
Nousprésenterons toutd'abordl'algorithmehistoriqued'analysedans lesgrammaires
d'interation que l'on nomme shift-redue. Cet algorithme repose sur la notion de ra-
nementde desriptions d'arbres. On herhe en eet àsimplierune desriptiond'arbres
pour qu'ellese rapprohe petità petit d'unarbre quisera lerésultatde l'analyse. Cetal-
gorithmede baseest rendueae parl'utilisationd'uneheuristique psyho-linguistique.
Le nombre de polarités non-saturées est borné. On lit la phrase de gauhe à droite en
aumulant les desriptions lues dans la mémoire. Tant que la borne n'est pas atteinte,
on lit des mots de la phrase d'entrée (shift). Ensuite, on herhe à saturer les polarités
des mots déjàlus (redue). Ces deux étapessont réitérées tant qu'ilreste des mots à lire
etque lamémoiren'est pas vide.
Il y a deux problèmes pour et algorithme et notre modélisation. Tout d'abord, et
algorithme est sensible au nombre de polarités présentes dans les desriptions d'arbres.
Ensuite, il est diile de trouver une notion de sous-analyse qui permette de onstruire
une analyse omplète à partirde sous-analyses oud'analyses partielles.
Pour es raisons, nous présenterons un nouvel algorithme d'analyse syntaxique, qui
est moins sensible au nombre de polarités présentes et qui permette de présenter des
sous-analyses que l'on peut ensuite ombiner pour obtenir une analyse omplète. Cet
algorithmes'inspirede eluid'Earley pourlesgrammaireshors-ontextes. Cetalgorithme
a fait l'objet d'une implantation et es résultats, bien qu'enourageants, doivent enore
être améliorés.
Nousproposons don pour nir une modiation de notre algorithme pour déompo-
ser une analyse en plusieurs sous-analyses indépendantes que l'on peut ombiner. Pour
l'instant nous n'envisageons de l'appliquer qu'aux groupes onjoints, mais il est tout à
fait possible de l'appliquer à tous les types de segments qui peuvent être analysés indé-
pendamment du reste de laphrase.
Les grammaires d'interation
Sommaire
1.1 Un formalisme polarisé . . . 12
1.1.1 La notion devalene ensyntaxe . . . 12
1.1.2 La logiquelinéaire intuitionniste impliative . . . 13
1.1.3 Grammaires d'interation primitives . . . 14
1.2 Les desriptionsd'arbres polarisées . . . 15
1.2.1 Utilisationde desriptions. . . 15
1.2.2 Polarités . . . 16
1.2.3 Traits,valeursetenvironnements. . . 17
1.2.4 Lesdesriptions d'arbres . . . 20
1.2.5 Exemple . . . 23
1.3 Modèles et interprétations des desriptions. . . 25
1.3.1 Modèles saturés . . . 26
1.3.2 Modèles minimaux. . . 27
1.4 Langage engendré . . . 28
1.5 Conlusion . . . 28
Dans e premier hapitre, nous allons présenter le formalismes des grammaires d'in-
teration (Gi)
[Per03℄.
Ce formalisme est assez réent mais il s'anre à la fois dans la
tradition des grammaires atégorielles (G) et elles des grammaires syntagmatiques.
Des premières les Gi reprennent la notion de valene des strutures qui guide la ompo-
sitionsyntaxique. Desseondes on retrouvela notiond'arbred'analyse quireprésenteles
relationsde onstituane entre syntagmes.
En revanhe, les Gi apportent un ertain nombre de nouveautés. La notion de va-
lene est ii expliite. Elle est exprimée à l'aide de polarités attahées aux traits mor-
phosyntaxiques des strutures syntaxiques. On peut diretement lirelespolarités sur es
strutures.Laompositionsyntaxiqueelleaussi est originale.Tout d'abord lesstrutures
syntaxiques que l'on manipulene sont pas des arbres mais des desriptions d'arbres, que
l'onprésentegénéralementommedesarbressous-spéiés.Ensuitel'opérationdeompo-
sition elle-mêmeest nouvelle :'est l'opérationde superposition partielle de desriptions
d'arbres.
Nous allons dans un premier temps souligner l'importane de la valene en syntaxe
quiaamenéàunepremièreversiondesGi.Puisdansun seondtemps,nousprésenterons
les Gi dans leur version atuelle qui ont évolué d'une théorie logique vers un formalisme
grammatialà part entière.
1.1 Un formalisme polarisé
L'importanedelavaleneensyntaxene datepas desgrammairesd'interation.Nous
revenons brièvement sur ette histoire pour aboutir aux premières Gi. Nous appelons
valene d'un élémentsyntaxique, par analogieave la valene des éléments himiques, le
fait que es éléments fournissent ou demandent une ontribution au reste de la phrase
pour former des éléments plus importants.
1.1.1 La notion de valene en syntaxe
Tesnière
[Tes59℄
a développé une théoriede lavalenepour expliquerlabonneforma-
tion syntaxique. Dans sathéorie,ildénomme valenele nombre d'arguments,ouatants,
dont a besoin un verbe, un nom ou un adjetif. C'est e que l'on appelle ouramment
le régime ou le adre de sous-atégorisation. Tesnière distingue les verbes monovalent,
bivalent,trivalentouquadrivalent.Lesverbesimpersonnels ontune valenenulle, ilssont
dits avalents. La valene orrespond don au nombre d'atants mis en jeu dans l'ation
dérite par un verbe(le petit drame de Tesnière).
Le onept de valene s'étend aux noms prédiatifs ainsi qu'aux adjetifs. On peut
don voir un nom ommeune entité ayant besoin de es atants pour à son tour fournir
un atantàun verbede la phrasequilui-mêmeattendun ertainnombred'atants pour
fournir une proposition.
Depuis, la valene est devenue un onept de première importane en syntaxe. En
témoigne les dernières avanées des grammaires transformationnelles qui se fondent sur
la valene: le programmeminimalistede [
Cho95
℄
, aussi formalisé par [
Sta96
℄
.
Danslatraditiondesgrammairesatégorielles,onfaitgénéralementremonter àAjdu-
kiewiz [
Ajd35
℄
lapremière modélisationde lavalenedes élémentssyntaxiques. On peut
aussi yvoirunegénéralisationde l'approhede Tesnière oùtous lesmotsont unevalene
qui exprime à la fois leurs besoins et leurs ontributions. À haque mot du langage, on
assoieun ensemblede atégoriessyntaxiques atomiques,notamment
gn
pour lesgroupesnominaux,
n
pour lesnoms ommuns ets
pour les phrases, oudes frations onstruitesde manière indutive à partir de es atégories. Le dénominateur représente le besoin
exprimé par l'élément syntaxique et le numérateur indique e que l'élément fournit au
restelaphrase.Pour vérierqu'une phraseappartientaulangage,ilfautdansun premier
temps attribuer àhaque mot une fration. Il fautensuiteque leproduit de es frations
sesimplieverslaatégorie
s
.Parexemple,àlaphraseLepetithatestnoir,onassoiela struture suivante:
gn n × n
n × n × s gn n
n
× n
n
qui seréduit en
s
.Cette phrase appartient au langage.La valene donne des informations linguistiques pertinentes, mais elle ne sut pas.
Ellene ditriensur l'intérieur d'unélémentsyntaxique, maisseontentede direomment
ilpeut interagir,'est-à-dire son interfae extérieure, e qu'il attend du monde extérieur
ete qu'illuifournit.
Dans e premier alul par exemple, toute permutation d'une phrase orrete est
également orrete. On a don développé des formalismes, les grammaires atégorielles
(onpeutiterparexempleBar-HillelouSteedman [
BH53;SB07
℄
),quiontreprisetteidée
fondamentalede valene,tout enajoutantunontrle toujoursplusn de laomposition
syntaxique, notammenten ontrlant l'assoiativité et laommutativitédu produit.
1.1.2 La logique linéaire intuitionniste impliative
Une autre proposition, elle de Lambek
[Lam58℄,
onsiste àprésenter les grammaires
atégoriellesommeunalullogique.Maisilfaudraattendreunetrentained'annéespour
omprendrele lienentre ette logique partiulière etla logique mathématique.
Girard
[Gir87℄
adénilalogique linéaire,quiest une logique sensibleauxressoures :
les hypothèses sont onsommées pour produire les onlusions et leur nombre est don
signiatif, ontrairement à e qui se passe dans les logiques plus usuelles que sont la
logique lassique et la logique intuitionniste. En eet, es logiques ont été largement
utilisées pour modéliser le raisonnement mathématique dans lequel une hypothèse peut
être utiliséead libitum.
Le fragment multipliatif impliatif de ette logique a donné un adre formel géné-
ral aux grammaires atégorielles. La logique linéaire a permis également de donner un
paradigmepour l'analyse syntaxique, l'analyse omme dédution (parsing as dedution).
L'analyse d'une phraseest vue omme une démonstrationlogique. L'interfae entre syn-
taxe etsémantique devient naturel grâe à l'isomorphisme de Curry-Howard, qui dénit
une orrespondane entre la démonstration d'un séquent intuitionniste, qui représente
l'analysesyntaxique, etun lambda-termetypé,quireprésentelasémantiquedelaphrase.
Pour notre exemple, Le petit hat est noir., il fautdon donner une démonstrationdu
séquent :
n ⊸ gn, n ⊸ n, n, (n ⊸ n) ⊸ (gn ⊸ s), n ⊸ n ⊢ s
Maisettelogique estommutativeetassoiative,etleproblème despermutationsde
motsest toujours présent. Pour palliere problème,plusieurssolutions ontété proposées
quel'on peut lasser en deux atégories :
ajouter des modalités à la logique utilisée pour ontrler l'assoiativité et la om-
mutativitédes onneteurs logiques omme lefait
[Moo96℄,
déléguer lagestionde l'ordredes mots àun niveau subalterne, ommedans lesG
modernes que sont lesgrammairesatégoriellesabstraites [
de 01
℄
,les
λ
-grammaires de[Mus03℄,
lesgrammairesatégoriellesminimalistes
[AL06℄
oul'environnementde
développementde grammaires(grammatial framework)de [
Ran07
℄
.
Lesgrammairesd'interationprésententune troisièmesolutionàe problème:l'ordre
des mots etleur valene sont indiquéssur lesmêmesstrutures mais on peut parler d'un
typed'informationindépendammentdel'autre.Enpartiulier,onpeutétablirunerelation
de domination sans préiser sile dominéest en périphérie droiteou gauhe.
1.1.3 Grammaires d'interation primitives
Les grammaires d'interation naissent de l'observation faite dans [
Per01
℄
qu'une dé-
monstrationdanslalogiquelinéaireintuitionnisteimpliative,quiest souventreprésentée
sous la forme d'un réseau de preuve, revient à superposer des desriptions d'arbre qui
orrespondent àlaformuleàdémontrerpour obtenirun arbre.Les n÷udsde es desrip-
tions d'arbres sont polarisés, 'est-à-dire qu'ils sont déorés d'une polarité
+
ou−
. Lasuperpositiondes desriptions d'arbres doit vérier quehaque n÷udsétiqueté par
+
estsuperposé à un n÷ud étiqueté par
−
.np+
n−
n+
n− n+
s+
np− n−
n+
n+
n− s−
Fig. 1.1 Desriptionsd'arbreassoiées aux motsde laphraseLe petit hat est noir..
Cette équivalene est fondamentale : elle permet de passer d'une vision opératoire
issue de la théorie de la preuve à une vision délarative issue de la théorie des modèles
dans laquelle onpeut envisager lagrammaire omme un système de ontraintes.
Comme ette observation est diretement issue de la logique linéaire intuitionniste
impliative, l'ordre des ls (daughter nodes) d'un n÷ud dans les desriptions d'arbres
est libre, e qui orrespond à l'assoiativité et la ommutativité de ette logique. L'idée
naturellepour tenir omptede l'ordre des mots est dond'ajouter un ordre entre es ls
pour ontraindre l'ordredes dépendanes.
À haque mot de la langue, es premières Gi [
Per00a
℄
assoient un ensemble de des-
riptionsd'arbres dont lesn÷udssont polarisés.Analyserune phraserevientàonstruire
unarbreensuperposantlesdesriptionsd'arbresassoiéesauxmotsdelaphrase.Siuntel
arbre existe, alors laphrase appartient aulangageengendrée par la gramaire.C'est don
l'idée essentielle des grammaires d'interation : superposer des desriptions d'arbres qui
indiquent laontributiondes motsàlaonstrutiond'une phrase.Pour obtenirlesgram-
maires d'interation atuelles, il faut étendre ette première proposition. Tout d'abord il
estnéessaired'enrihirlesrelationsquipeuventexisterentre lesn÷udsd'unedesription
pour notamment tenir ompte de l'ordre des mots. Ensuite, plutt que de polariser les
n÷uds, il a été déidé de munir es n÷uds de strutures de traits qui eux sont polari-
sés. On obtient ainsi un système de polarité très n mais toujours faile à omprendre.
Enn, on étend le système des polarités pour ajouter plus de souplesse à l'opération de
superposition.
1.2 Les desriptions d'arbres polarisées
En setion 1.1.3, nous avons dérit les premières grammaires d'interation. Dans le
reste de e hapitre nous présentons les grammaires d'interation dans leur version a-
tuellequiontévoluéd'unethéoriede lalogique linéaire [
Per00b
℄
vers unformalismepour
modéliserla syntaxe etla sémantiquedes languesnaturelles
[Per04℄.
Lesstrutures de base manipuléespar notre formalismesont les desriptionsd'arbres
polarisées,notées DAP dans lasuite.
1.2.1 Utilisation de desriptions
Avant de donner une dénition préise des DAP, nous essayons de motiver leur uti-
lisation. Pour l'instant, on se ontentera de dire que e sont des arbres sous-spéiés ou
inomplets.L'intérêtdespolaritésdans letraitementdes languesaétévupréédemment,
danslasetion1.1.1.Celuidemanipulerdesdesriptionsd'arbresaulieudesimplesarbres
est présenté ii.
Tout d'abord, l'utilisation de desriptions omme strutures syntaxiques dont les
arbres modèles seront des résultats d'analyse, nous permettra de nous insrire dans un
adreformelonnu,la syntaxe vueà travers lathéorie des modèles (model theoreti syn-
tax)
[CR98; PS01℄.
Outre e hangement de paradigme, on peut s'intéresser à l'intérêt
onret des desriptions en e qui onerne l'expression de faitslinguistiques.
D'une part, une desription d'arbre peut dérire une famille d'arbres prohes. L'uti-
lisation de desriptions nous permet don de fatoriser la grammaire, 'est-à-dire ii de
réduire la taille du lexique, notamment sa redondane. Nous verrons que le problème
de redondane n'est pas spéique aux Gi. Plus généralement, 'est un problème des
grammaires fortement lexialisées que nous avons tenté de résoudre ave Xmg (voir le
hapitre 3). Linguistiquement, des phénomènes prohes peuvent être représentés par les
mêmes DAP. En d'autres termes, le formalisme évite ainsi de réer artiiellement trop
de diérenes que l'on ne retrouve pas au niveau linguistique.Il rée moins d'artefats.
D'autrepart,l'utilisationdedesriptionsauxrelationssous-spéiéespermetd'étendre
le domaine de loalité. Ainsi on va pouvoir dérire des phénomènes linguistiques qui ne
sont ni simplement des rapports de onstituants à sous-onstituants direts, ni des rap-
ports de onaténation entre syntagmes. C'est e que [
MHF83
℄
appelle l'approhe dé-
terministe 1
de ertains phénomènes omme le rattahement prépositionnel ou, dans le
as qui nous intéressera plus tard, la oordination. C'est la même struture qui indique
tous les rattahements possibles, et sans transformation indéterministe. Pour la oordi-
nationdenon-onstituants(f. partieII),ettepropriété nouspermettrade modéliserles
dépendanes non-bornées des onjointssans multiplierlesstrutures.
Ces avantages par rapport auxarbres simples sont à mettreen balaneave une plus
grande omplexité des algorithmes de manipulation. On verra dans le hapitre 7 que le
problème de l'analyse est un problème diile,plus préisément NP-omplet.
1
Le terme déterministe de
[MHF83℄
nous semble peu opportun. On lui préfèrerait aujourd'hui le
terme monotone. Auune transformation de strutures ne ontreditune information présente dans es
strutures.
+ → ← = ≈ ↔ ⊥
→ ⊥ ↔ → → ⊥ ⊥
← ↔ ⊥ ← ← ⊥ ⊥
= → ← = = ↔ ⊥
≈ → ← = ≈ ↔ ⊥
↔ ⊥ ⊥ ↔ ↔ ⊥ ⊥
⊥ ⊥ ⊥ ⊥ ⊥ ⊥ ⊥
Tab. 1.1 Sommede polarités
1.2.2 Polarités
Le formalisme des grammaires d'interation est fondé sur la notion de valene des
éléments syntaxiques. Cette valene est représentée par les polarités, non au niveau des
syntagmes mais au niveau des traits morphosyntaxiques attahés à es syntagmes. Une
polarité est un élément de
P = {→, ←, =, ≈, ↔, ⊥}
. Plus préisément, il y a un pre- mier groupe de polarités utilisé dans les desriptions que nous nommerons les polaritésélémentaires :
→
, lapolarité positive, indique quele trait fournit savaleur;
←
, lapolarité négative,indique que letrait requiert sa valeur;
=
,la polarité neutreindépendante, indiqueque le trait ne se omporte pas omme uneressoure onsommable,qu'ilsutàdonneruneinformationlinguistiquevalideomme un trait dans une grammaire d'uniation, ou en d'autres termes qu'il est
autonome, etenn
≈
, lapolarité virtuelle,indique que letrait n'est pas autonome, qu'il abesoin d'unautretraitdeonrmationde l'informationmorpho-syntaxiquemuni d'unepolarité
diérente de
≈
.D'autre part,ondistingueun seondgroupedepolaritésquin'apparaîtraquedansles
alulsdesommesdepolarités.Lasommedepolaritésnouspermettradedonnerunstatut
en termedevaleneauxstruturesintermédiairesde l'analysesyntaxique(f.hapitre7).
Ce seond groupeomprend :
↔
, ette polarité indique la saturation du trait. On ne peut plus onsommer oufournir e trait. Elle provient d'une somme dans laquelle il existe exatement un
terme
→
et exatement un terme←
.
⊥
est la polarité inohérente. Elle indique que les ressoures que onstituent les polarités n'ont pas été gérées orretement. Elleprovientd'une somme omportantplus d'une polarité
→
ouplus d'une polarité←
.Nous pouvons maintenant dénir la somme de polarités, notée
+
. Cette opérationpermet de gérer les ressoures portées par les polarités. Le résultat de ette opération
est présentée dans la table 1.1. On remarque que ette opération est ommutative et
assoiative.Cette propriété nous donnera une plus grande liberté pour l'analyse.
On dira qu'une polarité est saturée sielleest égale à
↔
ou=
.Le système de polaritésn'est pas gé et rien n'empêhe d'étendre les Gi en en ajou-
tant d'autres, ommepar exemple lespolarités absorbantes des grammairesd'uniation
polariséesproposées par
[Kah04℄.
1.2.3 Traits, valeurs et environnements
Nousvoulons munirlesn÷udsde nos desriptionsde struturesde traitsetnous vou-
lons être apables de partager des valeurs de traits entre plusieurs n÷uds d'une même
desription : notre modélisationde laoordination repose en partie sur ette possibilité.
C'est pourquoi, nous empruntons aux langages de programmation la notion d'environ-
nement d'évaluation, ou simplement d'environnement. Les traits n'auront de valeur que
relativementàunenvironnement.Intuitivement,unenvironnementest unelisted'assoia-
tions faitede ouples noms de variables/valeurs. Diérents traits pourront faire mention
à des mêmes noms de variables de l'environnement. Ainsi, ils partageront les valeurs as-
soiées àes variables.
Soit
F
unensembleni denomsde traits(morpho-syntaxiques).Chaquenomde traitf
deF
représente un type d'information porté par un n÷ud. À haque nom de traitf
est assoié un ensemble de valeurs atomiques
V f
. Les valeurs que peut prendre un traitsont dénies pour haque nom
f
sur ledomaineD f
onstruit à partir deV f
.Dans notre version des grammaires d'interation 2
, une valeur du domaine
D f
est unsous-ensemble d'éléments de
V f
, soitD f = 2 V f
. L'ensemble vide∅
est appelée valeurinohérente. Les ensembles sont utiles ar ils permettront de représenter la disjontion
des élémentsqui laomposent. Lavaleur de
D f
onstituée de tous les élémentsdeV f
estéritepar abus de notation?, quel quesoit
V f
. Lessingletons{v}
seront notésv
.Exemple 1. On peut par exemple prendre
F = {cat, f unct}
etV cat = {np, n, s, adj }
,V f unct = {subj, obj, attr, deobj }
. Dans e as{np, s} ∈ D cat
etsubj ∈ D f unct
.Pour pouvoir donner une valeur partageable à un trait, nous devons d'abord dénir
lanotion d'environnement d'évaluationd'un trait. Nous aurons besoin des ensembles de
variablesdénombrables
X f
pour haque nom de traitf
etX = S
f∈F X f
.Dénition 1 (Environnement). Un environnement
Γ
est déni parson support
S
, 'est-à-dire une partie nie deX
une fontion d'assignation qui assoie à toute variable
x ∈ S ∩ X f
un élément deD f
notéΓ.x
unerelationd'équivalenesurlesupport,ompatibleavelesnomsdetraitsassoiés.
Si deux variables sont équivalentes alors elles ont la même image par la fontion
d'assignation 3
. La lasse d'équivalene à laquelle appartient
x
est notéehxi
. Enn,on étend la fontion d'assignation aux lasses d'équivalene :
Γ.hxi = Γ.x
Exemple 2. Nous donnons
Γ
, l'environnement suivant, pourx 1 , x 2 ∈ D cat
etx 3 , x 4 ∈ D f unct
. La relation d'équivalene est la relation d'équivalene disrète (la plus petite rela- tion d'équivalene).2
Nousverronsparlasuiteommentlastruturedesdomainesseraenrihie
3
Attention : la réiproque n'est pas vraie. Deux variables peuvent avoir la même valeur sans être
équivalentes.
x x 1 x 2 x 3 x 4
Γ.x {np, n} {np, s} subj obj
Nous dénissons également une opération sur es environnements, l'identiation de
variables.
Dénition 2 (Identiation). Soient
x, y ∈ X f
deux variables appartenant à un même environnementΓ
. L'identiation dex
ety
dansΓ
, notéeΓ[x ≡ y]
, produit un nouvelenvironnement de même support que
Γ
, tel que:la relationd'équivalene est la plus petite extension de larelation d'équivalene sur
Γ
tellequex
ety
soient équivalentes, etla fontion d'assignation est elle de
Γ
mais :Γ[x ≡ y].hxi = Γ[x ≡ y].hyi = Γhxi ∩ Γhyi
L'opérationd'identiationestassoiativeetommutative.Onpeutdondénirl'iden-
tiationde
n
variables dans un environnement, notéeΓ[≡ {x 1 , . . . , x n }]
.Exemple 3. Si l'on reprend l'exemple préédent,
Γ[x 1 ≡ x 2 ]
donne :Γ[x 1 ≡ x 2 ] : x 1 , x 2 x 3 x 4
np subj obj
On note les variableséquivalentesdans la même ase.
Deux environnements peuvent aussi être onaténés pour réer un nouvel environne-
ment,àonditionquelesensemblesdevariablesdesdeuxenvironnementssoientdisjoints.
La onaténation revientà juxtaposer les deux environnements.
Nous avons désormais tous les éléments pour dénir les traits polarisés propres aux
grammaires d'interation.
Dénition 3 (Traitpolarisé). Un trait polarisé
t
sur un environnementΓ
est un tripletonstitué d'unnom de trait, d'unepolarité et d'une variable
t = (f, p, hxi) ∈ F × P × 2 X f
où
x
est une valeur du support deΓ
.Une struture de traits
S
est un ensemble de traits{(f 1 , p 1 , hx 1 i), . . . , (f n , p n , hx n i)}
où les
f i
sont tous diérents. Une struture de trait est dite saturée si lapolarité assoiéeà un nom de trait est saturée,pour haquenom de trait.
À haque struture de traits
S
sur un environnementΓ
, on peut assoier la struturede traits eetive
S!
qui remplae les (lasses d'équivalene des) variables par leur image par la fontion d'assignation deΓ
, 'est-à-dire :S! = {(f 1 , p 1 , Γ.hx 1 i), (f 2 , p 2 , Γ.hx 2 i), . . . , (f n , p n , Γ.hx n i)}
Ces traits polarisés sont très semblables aux traits habituellement manipulés par les
formalismes linguistiques à base d'uniation
[Car92℄.
D'ailleurs, nous dénissons une
opération prohe de l'uniationsur es strutures de traits, la superposition.
Dénition 4 (Superposition). Soient deux strutures de traits
T 1
etT 2
dénies sur unmême environnement
Γ
:T 1 = {(f 1 , p 1 , hx 1 i), (f 2 , p 2 , hx 2 i), . . . , (f n , p n , hx n i)} ∪ T 1 ′ T 2 = {(f 1 , q 1 , hy 1 i), (f 2 , q 2 , hy 2 i), . . . , (f n , q n , hy n i)} ∪ T 2 ′
où les noms de traits de
T 1 ′
(resp.T 2 ′
) sont absents deT 2
(resp.T 1
).La superpositionde
T 1
etT 2
est une struture de traits notéeT 1 + T 2
sur un environ-nement
Γ ′
telleque :T 1 + T 2 = {(f 1 , p 1 + q 1 , hx 1 i), (f 2 , p 2 + q 2 , hx 2 i), . . . , (f n , p n + q n , hx n i)} ∪ T 1 ′ ∪ T 2 ′
et
Γ ′ = Γ[x 1 ≡ y 1 ][x 2 ≡ y 2 ] · · · [x n ≡ y n ]
Attention, la superposition n'est pas une uniation, notamment pare qu'elle n'est
pas idempotente(la sommedes polaritésn'est pas idempotente).
On peut généraliser ette opération en une opération
n
-aire de superposition den
strutures de traits.
Une struture de traits qui possède un trait ayant une valeur interprétée par
∅
dansson environnement ouqui assoie à un nom de trait une polarité
⊥
est dite inohérente.Deux strutures de traits
S
etT
sontnon superposables siS + T
est inohérente.Exemple4. Soient
t 1
,t 2
ett 3
troisstrutures detraits polariséesdéniesrespetivement surΓ 1
,Γ 2
etΓ 3
.t 1 = {(cat, ←, x 1 ), (f unct, →, x 2 ), (nb, =, x 3 )}
Γ 1 : x 1 x 2 x 3
{np, s} subj pl t 2 = {(cat, →, x 4 ), (f unct, ←, x 5 ), (nb, =, x 6 )}
Γ 2 : x 4 x 5 x 6 np ? pl t 3 = {(cat, ≈, x 7 ), (f unct, =, x 8 )}
Γ 3 : x 7 x 8
{np, s} {subj, obj}
On veut superposer es troisstrutures de traits polarisés. Dans un premiertemps, on
va onaténer les environnements
Γ 1 , Γ 2 , Γ 3
en un seul environnementΓ
.Γ : x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8
{np, s} subj pl np ? pl {np, s} {subj, obj}
Ensuite on va réaliser l'opération
t 1 + t 2 + t 3
. L'opération+
étant ommutative etassoiative, on peut réordonner les termes. Ii, on va réaliser