• Aucun résultat trouvé

Étiquetage grammatical symbolique et interface syntaxe-sémantique des formalismes grammaticaux lexicalisés polarisés

N/A
N/A
Protected

Academic year: 2021

Partager "Étiquetage grammatical symbolique et interface syntaxe-sémantique des formalismes grammaticaux lexicalisés polarisés"

Copied!
223
0
0

Texte intégral

(1)

HAL Id: tel-00640561

https://tel.archives-ouvertes.fr/tel-00640561

Submitted on 13 Nov 2011

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

syntaxe-sémantique des formalismes grammaticaux lexicalisés polarisés

Mathieu Morey

To cite this version:

Mathieu Morey. Étiquetage grammatical symbolique et interface syntaxe-sémantique des formalismes grammaticaux lexicalisés polarisés. Informatique et langage [cs.CL]. Université de Lorraine, 2011.

Français. �tel-00640561�

(2)

D´ epartement de formation doctorale en informatique Ecole doctorale IAEM Lorraine ´ UFR math´ ematiques et informatique

Etiquetage grammatical symbolique et ´

interface syntaxe-s´ emantique des formalismes grammaticaux lexicalis´ es

polaris´ es

TH` ESE

pr´ esent´ ee et soutenue publiquement le 3 novembre 2011 pour l’obtention du

Doctorat de l’universit´ e Nancy 2

(sp´ ecialit´ e informatique) par

Mathieu Morey

Composition du jury

Rapporteurs : Philippe Blache Directeur de Recherche au CNRS, Aix-en-Provence Alexis Nasr Professeur ` a l’Universit´ e de la M´ editerran´ ee, Marseille

Examinateurs : Guillaume Bonfante Maˆıtre de Conf´ erences ` a l’INPL, Nancy

G´ erard Huet Directeur de Recherche ` a l’INRIA, Rocquencourt Sylvain Kahane Professeur ` a l’Universit´ e Paris Ouest, Nanterre Guy Perrier (directeur) Professeur ` a l’Universit´ e Nancy 2, Nancy Alain Polgu` ere Professeur ` a l’Universit´ e Nancy 2, Nancy

Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503

(3)
(4)

i

Remerciements

Je tiens ` a remercier en premier lieu Philippe Blache et Alexis Nasr de m’avoir fait l’honneur d’accepter de rapporter mon manuscrit et d’avoir eu la gentillesse de tol´ erer les multiples retards qui ont parsem´ e sa finalisation. Je remercie tout autant G´ erard Huet et Alain Polgu` ere d’avoir accept´ e de participer ` a mon jury de th` ese. Je remercie particuli` erement Sylvain Kahane pour l’attention qu’il a t´ emoign´ ee depuis plusieurs ann´ ees maintenant ` a mon travail et les discussions, peu nombreuses mais fructueuses, que nous avons eues ` a ce sujet.

Je remercie ´ egalement Guy Perrier d’avoir dirig´ e mon stage de master puis cette th` ese.

Depuis le d´ ebut, Guy m’a toujours t´ emoign´ e la mˆ eme confiance et m’a toujours laiss´ e la mˆ eme libert´ e. Sa t´ enacit´ e et son pragmatisme m’ont beaucoup appris. Je remercie Guillaume Bonfante d’avoir apport´ e autant d’id´ ees et de s’ˆ etre autant investi dans l’´ elaboration et le d´ eroulement de mon travail. Le contenu scientifique de cette th` ese doit ´ enorm´ ement ` a sa rigueur formelle et

`

a sa cr´ eativit´ e, bien que ce manuscrit ne rende justice ni ` a l’une, ni ` a l’autre. Je remercie enfin Bruno Guillaume d’avoir rendu cette th` ese possible. Sa capacit´ e ` a mener de front formalisation et exp´ erimentation avec la mˆ eme efficacit´ e est aussi impressionnante que pr´ ecieuse.

Je remercie Maxime Amblard et Joseph Le Roux d’avoir donn´ e de leur temps pour relire des version pr´ eliminaires de ce manuscrit. Je remercie les membres de l’´ equipe-projet Calligramme puis S´ emagramme de m’avoir fourni un environnement scientifique et humain de grande qualit´ e pendant quatre ans et demi. Je remercie en particulier Paul Masson, dont le travail de d´ evelop- pement logiciel a ´ et´ e primordial. Je remercie ´ egalement Novak Novakovic pour avoir support´ e de partager le mˆ eme bureau que moi pendant trois ans tout en m’accordant son amiti´ e.

A l’UHP, je remercie les membres du d´ ` epartement informatique de l’UFR STMIA de m’avoir accueilli en tant que moniteur puis ATER, notamment Didier Galmiche et Odile Mella.

Je remercie tous les stagiaires, les doctorants, les ing´ enieurs, les permanents, les assistantes, les techniciens et les membres du service de restauration que j’ai eu la chance de croiser au LO- RIA, ` a l’INRIA Nancy Grand Est, au CIES de Lorraine et aux diff´ erentes conf´ erences auxquelles j’ai assist´ e, et qui m’ont accord´ e leur consid´ eration ou leur amiti´ e.

Je remercie ceux aupr` es desquels j’ai contract´ e, faute de disponibilit´ e, de temps ou de pr´ e- sence, des dettes morales immenses : ma famille et mes amis, qui m’ont toujours entour´ e et soutenu. Je remercie en particulier ceux qui forment, depuis neuf ans pour certains, ma grande famille lorraine. C’est grˆ ace ` a eux que je me sens chez moi ` a Nancy.

Enfin, je remercie Anne-Sophie de m’avoir port´ e durant la bien trop longue p´ eriode de r´ e-

daction de ce manuscrit, et plus globalement de partager ma vie et mes rˆ eves. C’est grˆ ace ` a elle

que je me sens chez moi.

(5)
(6)

iii

A Th´ ` er` ese et Michel, ` a C´ ecile et Jean, mes grands-parents,

A Fran¸ ` coise et Didier, mes parents

(7)
(8)

Table des mati` eres

Introduction 1

1 Contexte et motivation de la th` ese . . . . 1

1.1 Les formalismes grammaticaux lexicalis´ es . . . . 1

1.2 Les formalismes grammaticaux polaris´ es . . . . 1

1.3 Les Grammaires d’Interaction . . . . 2

1.4 Etiquetage grammatical symbolique pour les formalismes polaris´ ´ es . . 2

1.5 Interface syntaxe - s´ emantique . . . . 3

2 Probl` emes . . . . 4

2.1 Limites du filtrage par bilan de polarit´ es . . . . 4

2.2 Interface syntaxe - s´ emantique . . . . 4

3 Contributions de la th` ese . . . . 5

3.1 Publications . . . . 6

I Formalismes grammaticaux lexicalis´ es polaris´ es 7 1 Polarisation des formalismes grammaticaux lexicalis´ es 9 1.1 Formalismes grammaticaux lexicalis´ es . . . . 9

1.1.1 Un tr` es bref aper¸ cu de l’origine informatique des formalismes gram- maticaux . . . . 9

1.1.2 Lexicalisation des formalismes grammaticaux . . . . 10

1.1.3 Pr´ esentation formelle des formalismes grammaticaux lexicalis´ es . . . . 11

1.2 Polarit´ es . . . . 13

1.2.1 G´ en´ eralit´ es . . . . 13

1.2.2 Syst` emes de polarit´ es . . . . 14

1.2.3 Syst` emes de polarit´ es monotones . . . . 15

1.2.4 Classification des polarit´ es . . . . 16

1.2.5 Interpr´ etation des polarit´ es par des polarit´ es composites . . . . 17

1.3 Formalismes grammaticaux lexicalis´ es polaris´ es . . . . 18

v

(9)

1.4 Exemples de formalismes grammaticaux polaris´ es . . . . 19

1.4.1 Arbres de d´ ependance de Nasr . . . . 19

1.4.2 Calcul de Lambek et Grammaires Cat´ egorielles . . . . 20

1.4.3 Grammaires d’Arbres Adjoints polaris´ ees . . . . 20

1.4.4 Grammaires d’Unification Polaris´ ees . . . . 20

2 Les Grammaires d’Interaction 23 2.1 Les IG : un formalisme syntaxique fond´ e sur la th´ eorie des mod` eles . . . . . 24

2.1.1 Arbre syntaxique . . . . 24

2.1.2 Description d’arbre polaris´ ee . . . . 25

2.1.3 L’arbre syntaxique et la fonction d’interpr´ etation comme mod` ele d’une description d’arbre polaris´ ee . . . . 27

2.2 D´ efinition formelle des IG . . . . 28

2.2.1 Arbre syntaxique . . . . 28

2.2.2 Syst` eme de polarit´ es . . . . 29

2.2.3 Description d’arbre polaris´ ee . . . . 31

2.2.4 Fonction d’interpr´ etation . . . . 33

2.2.5 Grammaires d’interaction . . . . 35

2.3 La vision op´ erationnelle des IG . . . . 36

2.3.1 Fusion de nœuds . . . . 36

2.3.2 Polarit´ es . . . . 37

2.3.3 Superposition d’arbres . . . . 39

2.3.4 Structures sous-sp´ ecifi´ ees . . . . 40

2.4 Implantation . . . . 43

3 Le compagnonnage 45 3.1 Dans une analyse : les compagnons . . . . 45

3.1.1 La notion de compagnon . . . . 46

3.1.2 Analyse syntaxique dirig´ ee par les compagnons . . . . 47

3.2 Dans une grammaire : les compagnons potentiels . . . . 47

3.2.1 La notion de compagnon potentiel . . . . 47

3.2.2 R´ eduction des grammaires polaris´ ees . . . . 48

3.3 Dans une grammaire : les compagnons hypoth´ etiques . . . . 49

3.3.1 La notion de compagnon hypoth´ etique . . . . 49

3.3.2 Cas d’´ echec de la composition de deux polarit´ es . . . . 49

3.3.3 Quasi-r´ eduction des grammaires polaris´ ees . . . . 51

3.4 Int´ egration de la directionnalit´ e dans les compagnons hypoth´ etiques . . . . . 52

(10)

vii

3.4.1 Illustration de l’impact de la directionnalit´ e . . . . 53

3.5 Utilisation de la grammaire non ancr´ ee pour le calcul des compagnons hypo- th´ etiques . . . . 54

3.6 Exemples de compagnons hypoth´ etiques . . . . 55

3.7 Utilisation des compagnons dans les chaˆınes d’analyse syntaxique . . . . 56

3.7.1 Correction et compl´ etude d’une grammaire . . . . 57

3.7.2 Sp´ ecificit´ e des compagnons hypoth´ etiques pour l’analyse syntaxique . 57 3.7.3 D´ etection d’incoh´ erences dans une grammaire . . . . 58

3.7.4 Int´ egration ` a l’´ etiquetage grammatical et ` a l’analyse syntaxique . . . 59

3.8 Annexe : grammaire jouet non ancr´ ee . . . . 60

II Etiquetage grammatical symbolique pour les formalismes lexicalis´ ´ es po- laris´ es 65 4 Etiquetage grammatical symbolique pour les formalismes polaris´ ´ es 67 4.1 Etiquetage grammatical ´ . . . . 67

4.1.1 Origine . . . . 67

4.1.2 Jeux d’´ etiquettes grammaticales . . . . 68

4.2 Etiquetage grammatical symbolique ´ . . . . 68

4.2.1 Approches statistique et symbolique . . . . 68

4.2.2 Etiquetage symbolique par approximation surensembliste ´ . . . . 69

4.2.3 Repr´ esentation des ´ etiquetages par des automates . . . . 70

4.3 Exemple d’´ etiquetage grammatical en Grammaires d’Interaction . . . . 70

4.4 Etiquetage symbolique par comptage de polarit´ ´ es . . . . 72

4.4.1 L’invariant de comptage de van Benthem . . . . 73

4.4.2 Filtrage par bilan de polarit´ es . . . . 74

5 Filtrage bool´ een des ´ etiquetages grammaticaux fond´ e sur les compagnons 77 5.1 Principe du compagnonnage . . . . 77

5.1.1 Le principe du compagnonnage . . . . 77

5.1.2 Exemple . . . . 78

5.2 Le langage du principe du compagnonnage pour les ´ etiquetages . . . . 79

5.3 Filtrage bool´ een fond´ e sur le Principe du Compagnonnage (BCP ) . . . . 83

5.3.1 Intuition . . . . 83

5.3.2 Implantation sur automate . . . . 83

5.4 Approximation du filtrage bool´ een fond´ e sur les compagnons (QCP ) . . . . . 86

(11)

5.4.1 Motivation . . . . 86

5.4.2 Intuition . . . . 87

5.4.3 Implantation sur automate . . . . 87

5.4.4 Exemple . . . . 87

6 Filtrage entier des ´ etiquetages grammaticaux fond´ e sur les compagnons 91 6.1 Principe du filtrage entier fond´ e sur les compagnons . . . . 91

6.1.1 Polarit´ es lin´ eaires et concurrentes . . . . 91

6.1.2 Filtrage pour les polarit´ es concurrentes . . . . 94

6.2 Notions pr´ eliminaires et notations . . . . 97

6.2.1 Mots . . . . 97

6.2.2 Fonctions enti` eres . . . . 97

6.3 Le langage des compagnons . . . . 98

6.4 Pr´ esentation alg´ ebrique . . . . 99

6.5 Algorithme par flot (Streaming algorithm) . . . 101

6.5.1 Probl` eme d’appartenance . . . 101

6.5.2 Lemmes techniques . . . 101

6.5.3 L’algorithme . . . 104

6.6 Filtrage des ´ etiquetages par appartenance au langage des compagnons . . . . 106

6.6.1 Projection d’un ´ etiquetage pour une polarit´ e . . . 106

6.6.2 Principe du compagnonnage entier . . . 107

6.6.3 Implantation sur automate du filtrage . . . 107

7 Bilan des m´ ethodes de filtrage fond´ ees sur les compagnons 109 7.1 Dispositif d’´ evaluation . . . 109

7.1.1 Ressources . . . 109

7.1.2 Pr´ eparatifs . . . 110

7.1.3 M´ ethode . . . 111

7.2 R´ esultats exp´ erimentaux . . . 112

7.2.1 Applicabilit´ e des m´ ethodes de filtrage . . . 112

7.2.2 Coˆ ut en temps des m´ ethodes de filtrage . . . 112

7.2.3 Efficacit´ e des m´ ethodes de filtrage . . . 114

7.3 Apport ` a l’existant . . . 116

7.4 Limites . . . 117

7.5 Perspectives . . . 118

7.5.1 Application ` a d’autres formalismes . . . 118

(12)

ix

7.5.2 Affinement des contraintes ` a la vol´ ee . . . 118

7.5.3 Int´ egration ` a l’analyse profonde . . . 118

7.5.4 Unification et g´ en´ eralisation des m´ ethodes de filtrage . . . 119

7.5.5 Approximations par morphismes d’abstraction . . . 119

7.5.6 Caract´ erisations des langages LXR . . . 119

III Interface syntaxe-s´ emantique pour les formalismes lexicalis´ es polari- s´ es 121 8 Interface syntaxe-s´ emantique g´ en´ erique pour les formalismes lexicalis´ es123 8.1 Repr´ esentation s´ emantique vis´ ee . . . 124

8.1.1 Niveau de d´ etail de la repr´ esentation s´ emantique . . . 124

8.1.2 Structures de repr´ esentation s´ emantique . . . 125

8.2 Nature du lien entre syntaxe et s´ emantique . . . 127

8.2.1 Architectures int´ egr´ ees . . . 127

8.2.2 Architectures parall` eles . . . 128

8.2.3 Architectures s´ equentielles . . . 131

8.2.4 Bilan . . . 132

8.3 El´ ´ ements pour le choix du format des structures syntaxiques . . . 133

8.3.1 Information syntaxique n´ ecessaire au calcul de la s´ emantique . . . 133

8.3.2 Structures syntaxiques produites par les formalismes grammaticaux . 134 8.3.3 Structures syntaxiques utilis´ ees pour la comparaison et l’´ evaluation d’analyses . . . 135

8.3.4 Structures utilis´ ees pour l’annotation de corpus . . . 138

8.3.5 Bilan . . . 140

8.4 Proposition de format : extension du sch´ ema d’annotation en d´ ependances de surface du ftb . . . 141

9 R´ e´ ecriture de graphes modulaire pour l’interface syntaxe - s´ emantique 145 9.1 Motivation . . . 145

9.1.1 R´ e´ ecriture de graphes . . . 146

9.1.2 R´ e´ ecriture de graphes modulaire . . . 146

9.2 Structure s´ emantique produite . . . 147

9.2.1 Choix du format . . . 147

9.2.2 Description du format . . . 148

9.3 Calcul de r´ e´ ecriture modulaire de graphes . . . 151

(13)

9.3.1 Graphes . . . 151

9.3.2 Motifs et filtres . . . 152

9.3.3 Commandes . . . 154

9.3.4 R´ e´ ecriture . . . 155

9.3.5 Modules, formes normales et programmes . . . 157

9.4 Des graphes syntaxiques aux graphes de d´ ependance s´ emantique . . . 157

9.4.1 Un programme de r´ e´ ecriture pour le calcul de la s´ emantique . . . 157

9.4.2 Suite de l’application du programme ` a un exemple . . . 161

9.4.3 Utilisation de Dicovalence pour les pr´ edicats verbaux . . . 166

9.5 Exp´ erimentation . . . 167

9.6 Discussion . . . 168

9.6.1 Limites et perspectives . . . 168

9.6.2 Travaux apparent´ es . . . 170

10 Enrichissement de structures de d´ ependance syntaxique de surface 173 10.1 Position du probl` eme . . . 174

10.1.1 Ant´ ec´ edents d’anaphores syntaxiquement d´ etermin´ es . . . 174

10.1.2 Arguments profonds . . . 175

10.2 Exemple de r´ e´ ecriture . . . 175

10.3 R` egles utilis´ ees pour l’enrichissement . . . 177

10.3.1 R` egles grammaticales d’actants . . . 177

10.3.2 R` egles lexicales d’actants . . . 178

10.3.3 Les ant´ ec´ edents d’anaphores syntaxiquement d´ etermin´ es . . . 179

10.3.4 La coordination . . . 181

10.4 Modules . . . 182

10.5 Exp´ erimentation . . . 183

10.6 Discussion . . . 184

10.6.1 Travaux apparent´ es . . . 184

10.6.2 Limites . . . 185

10.6.3 Perspectives . . . 185

Conclusion 189 1 Contributions . . . 189

2 Perspectives . . . 191

Bibliographie 193

(14)

Table des figures

1.1 Syst` emes de polarit´ es . . . . 15

1.2 Ordre partiel sur les polarit´ es . . . . 16

1.3 Ordre partiel sur les polarit´ es composites . . . . 18

2.1 Arbre d’analyse pour « Paul le voit. » . . . . 24

2.2 DAP pour « Paul le voit. » . . . . 26

2.3 Fonction d’interpr´ etation des nœuds de la figure 2.2 aux nœuds de la figure 2.1 . 28 2.4 Syst` eme de polarit´ es des IG . . . . 30

2.5 Configurations de multi-ensembles de polarit´ es ´ equilibr´ es en IG . . . . 30

2.6 DAP pour « pense que . . . vient » . . . . 39

2.7 DAP pour « pense que . . . vient » apr` es fusion de trois nœuds . . . . 40

2.8 DAP ´ el´ ementaire pour « demande » . . . . 41

2.9 DAP ´ el´ ementaire pour « que » . . . . 42

3.1 Structures de traits non composables . . . . 50

3.2 Contextes non composables . . . . 51

3.3 DAP pour « chien . . . le » . . . . 53

3.4 DAP pour « chien . . . le » apr` es fusion des nœuds (0,3) et (1,3) . . . . 54

3.5 Compagnons hypoth´ etiques des polarit´ es de la DAP Det . . . . 55

3.6 Det . . . . 56

3.4 Grammaire jouet non ancr´ ee . . . . 63

4.1 Ancrage de la grammaire jouet . . . . 71

4.2 Automate des ´ etiquetages initiaux de « la belle ferme la porte » . . . . 72

4.3 Automate des ´ etiquetages analys´ es de l’exemple 4.1 . . . . 73

5.1 Etiquetages grammaticaux qui respectent les contraintes des d´ ´ eterminants . . . . 80

5.2 Le langage P pour la grammaire jouet G . . . . 82

5.3 Automate des bool´ eens pour le filtrage BCP . . . . 84

5.4 Etiquetages grammaticaux qui respectent le principe du compagnonnage pour la ´ polarit´ e 1 de Det . . . . 85

5.5 Automate produit par le filtrage BCP . . . . 86

xi

(15)

5.6 Automate des ´ etiquetages initiaux de « la belle ferme la porte » . . . . 88

5.7 Automate produit par le filtrage QCP . . . . 88

6.1 Descriptions pour les pr´ epositions . . . . 92

6.2 Etiquetages restants avant le filtrage entier ´ . . . . 93

6.3 Etiquetages corrects ´ . . . . 94

6.4 . . . . 94

6.5 Mots correspondant aux ´ etiquetages dans le langage des compagnons . . . . 96

6.6 Mot correspondant ` a un ´ etiquetage incorrect . . . . 96

6.7 Mot correspondant ` a un ´ etiquetage correct . . . . 96

7.1 Applicabilit´ e des m´ ethodes de filtrage selon la longueur des phrases . . . 113

7.2 Coˆ ut en temps des m´ ethodes de filtrage selon la longueur des phrases . . . 114

7.3 Nombre d’´ etiquetages apr` es application des m´ ethodes de filtrage . . . 115

7.4 Ambigu¨ıt´ e moyenne par mot au fur et ` a mesure des m´ ethodes appliqu´ ees . . . . 116

7.5 R´ esum´ e des m´ ethodes de filtrage symbolique pour les formalismes polaris´ es . . . 119

8.1 Formules logiques pour les deux lectures de « Tout homme gentil aime une femme »124 8.2 Structure mrs pour « Tout homme gentil aime une femme » . . . 127

8.3 Phrase annot´ ee au format passage . . . 137

8.4 Fonctions grammaticales du ftb . . . 138

8.5 Etiquettes de relations de d´ ´ ependance du sch´ ema du ftb . . . 139

8.6 Traits utilis´ es pour les informations morphosyntaxiques . . . 142

8.7 Etiquettes des relations grammaticales du sch´ ´ ema ´ etendu . . . 143

9.1 Structures syntaxique et s´ emantiques de « Tout homme gentil aime une femme » 149 9.2 Analyses syntaxique et s´ emantique de « Jean donne un livre » . . . 150

9.3 R` egle de l’auxiliaire passif . . . 155

9.4 R` egle de reformulation du passif avec attribut du sujet sans agent . . . 155

9.5 Deux pas de r´ e´ ecriture pour « Marie est consid´ er´ ee comme brillante. » . . . 156

9.6 D´ ependances entre les modules . . . 159

9.7 Structure dmrs pour « Marie est consid´ er´ ee comme brillante » . . . 166

9.8 [057] « J’encourage Marie ` a venir. » . . . 169

9.9 [106] « La s´ erie dont Pierre connaˆıt la fin » . . . 170

10.1 Exemple d’enrichissement des d´ ependances de surface . . . 174

10.2 « Je trouve ce livre difficile ` a lire. » . . . 176

10.3 Analyse des configurations suspectes . . . 184

(16)

Introduction

Les travaux expos´ es dans ce manuscrit se situent dans le domaine du Traitement Automatique des Langues (TAL) et portent plus pr´ ecis´ ement sur la tˆ ache de l’analyse syntaxique et s´ emantique de la phrase. L’objectif est de faire de l’analyse syntaxique et s´ emantique ` a grande ´ echelle sur des corpus ´ ecrits, journalistiques et litt´ eraires, sans sacrifier la pr´ ecision et la finesse des analyses produites. L’accent mis sur la pr´ ecision justifie l’emploi de m´ ethodes symboliques.

Plus concr` etement, ce travail s’inscrit dans le contexte du d´ eveloppement d’une chaˆıne d’ana- lyse linguistique autour de l’analyseur syntaxique LEOPAR pour les Grammaires d’Interaction (IG). Les IG sont un formalisme grammatical lexicalis´ e dans lequel la notion de polarit´ e joue un rˆ ole central.

1 Contexte et motivation de la th` ese

1.1 Les formalismes grammaticaux lexicalis´ es

Les formalismes grammaticaux lexicalis´ es fournissent un cadre de mod´ elisation de la syntaxe des langues naturelles qui ancre la grammaire dans le lexique. Dans un formalisme grammatical lexicalis´ e, une grammaire est compos´ ee de descriptions syntaxiques ´ el´ ementaires qui sont toutes ancr´ ees par (au moins) un mot. Dans ce cadre, une phrase est grammaticale si et seulement si (1) l’on peut associer une description syntaxique ´ el´ ementaire ` a chacun de ses mots (2) de telle fa¸con que la s´ equence de ces descriptions syntaxiques ´ el´ ementaires ait pour mod` ele une structure syntaxique dont la forme phonologique est ´ egale ` a la phrase. Les deux points de cette formulation de la grammaticalit´ e correspondent aux deux phases de l’analyse syntaxique pour les grammaires lexicalis´ ees : l’´ etiquetage grammatical (ou supertagging), qui associe une description ` a chaque mot, et l’analyse syntaxique proprement dite, qui compose ces descriptions [SAJ88].

1.2 Les formalismes grammaticaux polaris´ es

Les formalismes grammaticaux polaris´ es mettent l’accent sur l’´ etat de saturation de l’in- formation syntaxique. Ils utilisent pour cela un syst` eme de polarit´ es [Kah06]. Ce syst` eme de polarit´ es varie selon les formalismes mais les polarit´ es les plus r´ epandues sont les polarit´ es po- sitives, n´ egatives et satur´ ees. Les polarit´ es positives mod´ elisent les informations disponibles, les polarit´ es n´ egatives les informations attendues, et les polarit´ es satur´ ees les informations satur´ ees.

1

(17)

Le but du processus d’analyse est de produire par composition des polarit´ es une structure totale- ment neutre, qui ne contient plus aucune polarit´ e positive ou n´ egative. Pour saturer une polarit´ e positive, il faut la composer avec une polarit´ e n´ egative. Pour saturer une polarit´ e n´ egative, il faut la composer avec une polarit´ e positive.

Les polarit´ es ont ´ emerg´ e dans les travaux men´ es sur les logiques de ressources [Gir87]. Elles sont donc pr´ esentes de fa¸ con sous-jacente dans les formalismes grammaticaux de la famille des Grammaires Cat´ egorielles (CG) [Ret96, Ret00]. Les CG utilisent les polarit´ es pour mo- d´ eliser l’´ etat de saturation des syntagmes. En r´ ealit´ e, des travaux subs´ equents ont montr´ e que d’autres formalismes, dont les Grammaires d’Arbres Adjoints (TAG) [JS97] les Grammaires Syn- tagmatiques Guid´ ees par les Tˆ etes (HPSG) [PS94] et les Grammaires Lexicales Fonctionnelles (LFG) [KB95], peuvent ˆ etre vus comme des formalismes polaris´ es [BGP04, Kah06, Kow07].

1.3 Les Grammaires d’Interaction

Les Grammaires d’Interaction (IG) sont un formalisme grammatical lexicalis´ e polaris´ e qui appartient au courant de description syntaxique fond´ e sur la th´ eorie des mod` eles, appel´ e en anglais Model-Theoretic Syntax (MTS) [PS01]. Dans ce paradigme, une grammaire est un en- semble de contraintes et une phrase est grammaticale si elle admet un mod` ele qui satisfait les contraintes de la grammaire.

Les IG reposent sur deux id´ ees principales que sont la polarisation des traits et la sous- sp´ ecification structurelle. Alors que la plupart des formalismes, comme les CG et les TAG pola- ris´ ees, utilisent les polarit´ es pour mod´ eliser l’´ etat de saturation des syntagmes, la particularit´ e des IG est de descendre la polarisation au niveau des traits. La sous-sp´ ecification structurelle, quant

`

a elle, permet de repr´ esenter en une seule structure g´ en´ erale plusieurs structures construites

`

a partir des mˆ emes fragments, en sous-sp´ ecifiant les relations que ces fragments entretiennent entre eux [VS92].

1.4 Etiquetage grammatical symbolique pour les formalismes polaris´ ´ es

Approches statistique et symbolique

Les travaux sur l’´ etiquetage grammatical dessinent deux perspectives tr` es distinctes sur ce probl` eme. L’approche majoritaire est l’approche statistique [BJ10], qui voit l’´ etiquetage comme un probl` eme de classification. Ces m´ ethodes visent ` a associer ` a la s´ equence des mots de la phrase la ou les bonnes s´ equences d’´ etiquettes. L’approche statistique est extrˆ emement efficace, cependant elle est susceptible d’´ ecarter des ´ etiquetages peu probables et n´ eanmoins corrects.

La deuxi` eme approche, ` a la suite des travaux de Boullier [Bou10], est l’approche symbolique,

qui refuse de perdre la moindre analyse possible pour une phrase et voit l’´ etiquetage comme un

probl` eme de filtrage. L’objectif de ces m´ ethodes est d’´ ecarter, parmi l’ensemble des ´ etiquetages

na¨ıvement possibles pour la phrase, tous ceux qui sont en fait absolument impossibles. La diffi-

cult´ e consiste alors ` a trouver les crit` eres exacts de filtrage les plus discriminants possibles. C’est

(18)

1. Contexte et motivation de la th` ese 3 cette seconde perspective que nous adoptons.

Filtrage par bilan de polarit´ es

En IG, l’analyse syntaxique proprement dite est un probl` eme NP-difficile [BGP03]. Concr` e- tement, cela signifie que la dur´ ee de l’analyse augmente exponentiellement avec la longueur de la phrase. Le refus d’´ ecarter la moindre analyse possible pour une phrase a alors un coˆ ut po- tentiel important. Il est donc d’une importance cruciale que la phase d’´ etiquetage grammatical soit la plus discriminante possible : plus elle est efficace, plus l’espace de recherche du processus d’analyse syntaxique est restreint.

Les m´ ethodes de filtrage d´ evelopp´ ees jusqu’` a pr´ esent pour les formalismes grammaticaux polaris´ es en g´ en´ eral [BGP04] et pour les IG en particulier [BLRP06], exploitent l’id´ ee qu’un

´ etiquetage grammatical ne peut avoir de solution si son bilan de polarit´ es n’est pas ´ equilibr´ e.

En effet, dans les formalismes grammaticaux polaris´ es, le produit de l’analyse est une structure neutre. Cela signifie que toutes les polarit´ es non neutres d’un ´ etiquetage grammatical doivent ˆ etre neutralis´ ees. En particulier, les polarit´ es positives et n´ egatives se neutralisent en formant des couples. Pour pouvoir produire une structure neutre, un ´ etiquetage grammatical doit donc contenir autant de polarit´ es positives que n´ egatives. Cette propri´ et´ e est un invariant du processus d’analyse, elle peut donc ˆ etre utilis´ ee pour filtrer les ´ etiquetages grammaticaux possibles d’une phrase.

1.5 Interface syntaxe - s´ emantique

Dans la plupart des formalismes grammaticaux, l’analyse syntaxique et l’analyse s´ emantique sont ´ etroitement li´ ees. Les deux analyses peuvent ˆ etre conduites dans un mˆ eme processus, c’est ce que nous qualifions d’architecture int´ egr´ ee, ou dans deux processus men´ es en parall` ele qui se contraignent mutuellement, c’est ce que nous qualifions d’architecture parall` ele. Une troisi` eme possibilit´ e consiste ` a appliquer les processus d’analyse de fa¸ con s´ equentielle, l’analyse s´ emantique

´ etant effectu´ ee ` a partir du r´ esultat de l’analyse syntaxique.

On distingue principalement deux niveaux d’analyse s´ emantique. Le premier est celui de l’analyse s´ emantique superficielle, o` u la question est d’identifier les pr´ edicats d’un texte, et pour chacun de ces pr´ edicats, arriver ` a d´ eterminer qui a fait quoi ` a qui, o` u et comment. Cette d´ e- termination n’est pas fine, l’enjeu est de retrouver le groupe de mots qui contient chacune de ces informations. Le deuxi` eme niveau est celui de l’analyse s´ emantique profonde, qui associe

`

a une phrase une ou plusieurs structures qui repr´ esentent le sens de la phrase. Ces structures contiennent la contribution s´ emantique de chacun des mots qui composent la phrase. La s´ e- mantique profonde qui nous int´ eresse ici est la s´ emantique v´ ericonditionnelle compositionnelle.

Une phrase est caract´ eris´ ee par ses conditions de v´ erit´ e logique, c’est-` a-dire que son sens est

repr´ esent´ e par une formule logique. Cette formule logique est construite de fa¸ con composition-

nelle, ` a partir de la contribution du sens des mots de la phrase et du mode de composition

syntaxique de ces mots. Plus encore que l’analyse syntaxique, l’ambigu¨ıt´ e inh´ erente ` a l’analyse

(19)

s´ emantique pose des probl` emes d’ing´ enierie linguistique complexes. Afin de limiter l’explosion de l’ambigu¨ıt´ e s´ emantique d’une phrase, l’une des solutions les plus r´ epandues en linguistique informatique consiste ` a repr´ esenter un ensemble de formules logiques par une seule structure.

Une telle structure est qualifi´ ee de repr´ esentation s´ emantique sous-sp´ ecifi´ ee. Il est possible d’uti- liser ces structures de fa¸ con compacte, sans ´ enum´ erer les formules qu’elles repr´ esentent, pour des tˆ aches de raisonnement et d’inf´ erence.

2 Probl` emes

2.1 Limites du filtrage par bilan de polarit´ es

La capacit´ e discriminante des m´ ethodes de filtrage par bilan de polarit´ es est encore insuffi- sante pour les phrases longues et ambigu¨ es rencontr´ ees dans les corpus comme le French Tree- Bank [ACT03]. Cela constitue un frein important ` a l’utilisation des Grammaires d’Interaction ` a grande ´ echelle.

Les m´ ethodes de filtrage par bilan de polarit´ es r´ eduisent les descriptions syntaxiques ´ el´ emen- taires ` a l’ensemble de leurs polarit´ es positives et n´ egatives. Elles ignorent donc les autres polarit´ es insatur´ ees, comme les polarit´ es virtuelles en IG ou les polarit´ es blanches de Kahane [Kah06] qui doivent ˆ etre compos´ ees avec une polarit´ e satur´ ee. Ces polarit´ es mod´ elisent un contexte obliga- toire, ce qui permet par exemple de repr´ esenter la relation entre un modifieur et son gouverneur en grammaires de d´ ependances. Le modifieur requiert la pr´ esence de son gouverneur mais ne change pas l’´ etat de saturation de ce dernier. Les m´ ethodes de filtrage par bilan de polarit´ es oublient ´ egalement les structures qui organisent l’information syntaxique : structures de traits, arbres, connecteurs logiques orient´ es. . . En orientant les polarit´ es les unes par rapport aux autres et par rapport ` a l’ancre, ces structures permettent de contrˆ oler la directionnalit´ e des compl´ e- ments d’un mot et l’ordre de ces compl´ ements. En regroupant les polarit´ es, elles permettent de sp´ ecifier le genre et le nombre de ces compl´ ements. Le filtrage par bilan de polarit´ es est donc incapable de filtrer un ´ etiquetage qui ne respecte pas les contraintes de contexte, l’ordre des mots ou l’accord en genre et en nombre. La prise en compte de ces informations constitue une piste int´ eressante d’am´ elioration de l’efficacit´ e de la phase d’´ etiquetage grammatical.

2.2 Interface syntaxe - s´ emantique

La plupart des propositions d’interface syntaxe - s´ emantique pr´ esentent deux limites. Pre- mi` erement, elles n’utilisent qu’une partie de l’information produite par l’analyse syntaxique.

Ainsi, de nombreuses grammaires calculent les relations grammaticales de contrˆ ole ou les sujets

profonds des infinitifs et des participes, mais cette information est ignor´ ee par l’interface syntaxe

- s´ emantique. Deuxi` emement, le lien entre les processus d’analyse syntaxique et s´ emantique est

tr` es fort, ce qui signifie que l’interface syntaxe - s´ emantique elle-mˆ eme est tr` es li´ ee au forma-

lisme ou ` a la grammaire. Ces deux points signifient que l’effort de d´ eveloppement d’une interface

syntaxe - s´ emantique est cons´ equent et peu g´ en´ erique.

(20)

3. Contributions de la th` ese 5 Or, la composition de structures syntaxiques est tr` es souple en IG et la grammaire FRI- GRAM du fran¸ cais est en d´ eveloppement constant. Cela signifie qu’il n’est possible de poser d’hypoth` ese forte ni sur le formalisme, ni sur la grammaire, pour d´ evelopper une interface syn- taxe - s´ emantique. Par ailleurs, il n’existe pas pour le fran¸ cais de corpus de r´ ef´ erence annot´ e avec des structures s´ emantiques. Cela rench´ erit d’autant le coˆ ut potentiel de d´ eveloppement d’une interface syntaxe - s´ emantique.

3 Contributions de la th` ese

Les contributions de cette th` ese s’articulent en trois parties.

Dans la premi` ere partie, nous exploitons les propri´ et´ es de lexicalisation et de polarisation des formalismes grammaticaux pour extraire des informations statiques de la grammaire. Plus pr´ e- cis´ ement, nous exploitons les besoins exprim´ es par les polarit´ es attach´ ees aux structures d’une grammaire pour calculer, pour chaque structure de la grammaire, l’ensemble des structures de la grammaire qui sont capables de r´ epondre ` a l’un de ses besoins de composition. Nous d´ efinissons ainsi la notion de compagnon hypoth´ etique d’une polarit´ e, que nous exploitons imm´ ediatement pour d´ efinir la notion de quasi-r´ eduction d’une grammaire polaris´ ee. Quasi-r´ eduire une gram- maire consiste ` a en ˆ oter toutes les structures qui ne peuvent pas participer ` a une analyse, car elles ont au moins un besoin de composition qui ne peut ˆ etre rempli par aucune structure de la grammaire. La quasi-r´ eduction est applicable ` a toute grammaire polaris´ ee. Cette notion, ainsi que celle de compagnon hypoth´ etique, trouve des applications dans le d´ eveloppement et la main- tenance de grammaires.

Dans la deuxi` eme partie, nous proposons des m´ ethodes qui am´ eliorent l’efficacit´ e de la pre- mi` ere phase de l’analyse syntaxique des formalismes lexicalis´ es : l’´ etiquetage grammatical. Nous exploitons la notion de compagnon hypoth´ etique pour formuler un crit` ere de correction des

´ etiquetages grammaticaux, le principe du compagnonnage, et nous en d´ erivons deux m´ ethodes de filtrage symbolique. De ces m´ ethodes d´ erive une troisi` eme m´ ethode de filtrage, qui est elle r´ eserv´ ee ` a certaines polarit´ es : les polarit´ es lin´ eaires. Nous implantons ces trois m´ ethodes sur automates et nous montrons que, combin´ ees aux m´ ethodes existantes, elles am´ eliorent grande- ment l’efficacit´ e de la phase d’´ etiquetage grammatical. Ces m´ ethodes sont applicables ` a tout formalisme grammatical lexicalis´ e polaris´ e.

Dans la troisi` eme partie, nous adoptons une perspective s´ equentielle sur l’interface syntaxe

- s´ emantique. Nous proposons de calculer une repr´ esentation s´ emantique ` a partir d’une struc-

ture de d´ ependance syntaxique enrichie de relations grammaticales. Ce choix a l’avantage d’ˆ etre

neutre par rapport au formalisme et ` a la grammaire utilis´ es. Pour cela, nous proposons un

calcul de r´ e´ ecriture de graphes modulaire ` a base de commandes et nous l’utilisons pour d´ efi-

nir un programme de r´ e´ ecriture qui calcule des repr´ esentations s´ emantiques sous-sp´ ecifi´ ees au

format Dependency mrs [Cop09] ` a partir de structures de d´ ependance syntaxique au format

du French Treebank [CCD10] enrichies de relations grammaticales. Ces relations grammati-

(21)

cales repr´ esentent des informations syntaxiques profondes, comme les sujets des infinitifs. Nous proposons ensuite un deuxi` eme programme de r´ e´ ecriture qui enrichit un arbre de d´ ependance syntaxique de surface en lui ajoutant ces relations grammaticales. En composant ces deux pro- grammes de r´ e´ ecriture, il est possible de produire des repr´ esentations s´ emantiques sous-sp´ ecifi´ ees

`

a partir de phrases annot´ ees par des d´ ependances syntaxiques de surface.

3.1 Publications

Les r´ esultats contenus dans ce manuscrit ont ´ et´ e obtenus et publi´ es en collaboration avec Guillaume Bonfante, Bruno Guillaume et Guy Perrier. J’ai d´ evelopp´ e, int´ egr´ e et remis en pers- pective ces r´ esultats pour ce manuscrit.

– Word Order Constraints for Lexical Disambiguation of Interaction Grammars. ESSLLI Workshop on Parsing with Categorial Grammars. Bordeaux, France, 2009. Travail r´ ealis´ e en collaboration avec Guillaume Bonfante et Bruno Guillaume.

– Dependency Constraints for Lexical Disambiguation. 11th International Conference on Parsing Technology (IWPT’09). Paris, France, 2009. Travail r´ ealis´ e en collaboration avec Guillaume Bonfante et Bruno Guillaume.

– R´ e´ ecriture de graphes de d´ ependances pour l’interface syntaxe-s´ emantique. 17e Conf´ erence sur le Traitement Automatique des Langues Naturelles (TALN 2010). Montr´ eal, Canada, 2010. Travail r´ ealis´ e en collaboration avec Guillaume Bonfante, Bruno Guillaume et Guy Perrier.

– Modular Graph Rewriting to Compute Semantics. 9th International Conference on Com- putational Semantics (IWCS 2011). Oxford, Royaume-Uni, 2011. Travail r´ ealis´ e en colla- boration avec Guillaume Bonfante, Bruno Guillaume et Guy Perrier.

– Enrichissement de structures en d´ ependances par r´ e´ ecriture de graphes. 18e Conf´ erence

sur le Traitement Automatique des Langues Naturelles (TALN 2011). Montpellier, France,

2011. Travail r´ ealis´ e en collaboration avec Guillaume Bonfante, Bruno Guillaume et Guy

Perrier.

(22)

Premi` ere partie

Formalismes grammaticaux lexicalis´ es polaris´ es

7

(23)
(24)

Chapitre 1

Polarisation des formalismes grammaticaux lexicalis´ es

Dans ce chapitre, nous posons le cadre g´ en´ eral dans lequel s’inscrit notre travail : les for- malismes grammaticaux lexicalis´ es polaris´ es. Nous pr´ esentons en section 1.1 les formalismes grammaticaux lexicalis´ es, en d´ egageant leur origine informatique et leurs caract´ eristiques g´ en´ e- rales puis en les d´ efinissant formellement. Nous introduisons ensuite, en section 1.2, la notion de polarit´ e que nous int´ egrons aux formalismes grammaticaux lexicalis´ es, pour aboutir en sec- tion 1.3 aux formalismes grammaticaux lexicalis´ es polaris´ es. Nous pr´ esentons enfin en section 1.4 quelques formalismes grammaticaux lexicalis´ es polaris´ es.

1.1 Formalismes grammaticaux lexicalis´ es

1.1.1 Un tr` es bref aper¸ cu de l’origine informatique des formalismes gramma- ticaux

Les formalismes propos´ es pour la mod´ elisation informatique de la syntaxe des langues natu- relles forment trois grands courants qui correspondent aux trois sous-domaines de l’informatique th´ eorique et des math´ ematiques dont ils adoptent le point de vue, les outils et les techniques.

Historiquement, le premier courant ` a s’ˆ etre d´ evelopp´ e est issu de l’alg` ebre, puis de la logique et plus pr´ ecis´ ement de la th´ eorie de la d´ emonstration : ce sont les Grammaires Cat´ egorielles (CG), d´ evelopp´ ees ` a partir des travaux alg´ ebriques d’Ajdukiewicz [Ajd35] et Bar-Hillel [BH53]

puis formalis´ ees en un syst` eme d´ eductif par Lambek [Lam58]. Un formalisme grammatical est assimil´ e ` a une logique, les op´ erations de composition grammaticale sont les r` egles de d´ eduction.

Analyser une phrase revient ` a construire une d´ emonstration de sa grammaticalit´ e. Ce courant est repr´ esent´ e par les Grammaires Cat´ egorielles (CG) [Mon70] et ses principales variantes que sont les Grammaires de Types Logiques (TLG) [Mor94] et les Grammaires Cat´ egorielles Com- binatoires (CCG) [SB09], ainsi que les grammaires de pr´ egroupes [Lam99].

Le deuxi` eme courant est issu de la Grammaire G´ en´ erative de Chomsky qui utilise, dans

9

(25)

la perspective de la linguistique structuraliste am´ ericaine, des travaux sur les langages formels et les syst` emes de r´ e´ ecriture [Cho02]. Une grammaire formelle est assimil´ ee ` a un syst` eme de r´ e´ ecriture, les op´ erations de composition syntaxique sont les r` egles de r´ e´ ecriture. Analyser une phrase revient ` a d´ eriver cette phrase d’un symbole de d´ epart, en un nombre fini de r´ e´ ecritures.

Appartiennent ` a ce courant des formalismes comme le Programme Minimaliste [Cho95] et les Grammaires d’Arbres Adjoints (TAG) [JS97].

Ces deux premiers cadres permettent de g´ en´ erer tous les ´ enonc´ es bien-form´ es selon la gram- maire fournie ; ils forment ce que Pullum [PS01] appelle le courant g´ en´ eratif-´ enum´ eratif de la syntaxe des langues naturelles (en anglais Generative-Enumerative Syntax, GES).

Le troisi` eme cadre rompt avec ce cˆ ot´ e proc´ edural, calculatoire en consid´ erant la syntaxe sous l’angle de la th´ eorie des mod` eles ; c’est ce que Pullum, apr` es Rogers [Rog96], appelle la syntaxe fond´ ee sur la th´ eorie des mod` eles

1

(en anglais Model-Theoretic Syntax, MTS). Une grammaire formelle est assimil´ ee ` a un syst` eme de contraintes, la composition syntaxique est la r´ esolution de contraintes. Analyser une phrase revient ` a construire un mod` ele de cette phrase qui respecte les contraintes de la grammaire [Bla07]. En termes logiques, un formalisme gram- matical est une th´ eorie logique, et analyser une phrase revient ` a construire un mod` ele dans cette th´ eorie [BGM03]. Ce courant est repr´ esent´ e par les formulations les plus r´ ecentes des Gram- maires Syntagmatiques Guid´ ees par les Tˆ etes (HPSG) [Pol99] et des Grammaires Lexicales Fonctionnelles (LFG) [KB95], ainsi que des formalismes purement MTS comme les Grammaires de D´ ependances eXtensibles (XDG) [Deb06], les Grammaires de Propri´ et´ es (GP) [Bla05] et les Grammaires d’Interaction (IG) [Per03] que nous pr´ esentons au chapitre 2.

1.1.2 Lexicalisation des formalismes grammaticaux

La classification de Pullum fournit une grille de lecture pertinente des formalismes d’analyse syntaxique, fond´ ee sur diff´ erentes visions du calcul : le calcul comme d´ emonstration, le calcul comme r´ e´ ecriture, et le calcul comme construction d’un mod` ele. Ces trois courants ne sont cependant pas irr´ econciliables et les structures que leurs formalismes produisent ne sont pas incomparables, notamment car ces formalismes ont tous ´ et´ e travers´ es par un mouvement de lexicalisation.

La lexicalisation consiste ` a ancrer la majeure partie de l’information et de la variabilit´ e syntaxique dans le lexique. Concr` etement, une grammaire est lexicalis´ ee si elle est constitu´ ee de (i) un ensemble fini de structures qui sont chacune associ´ ees ` a un ´ el´ ement lexical appel´ e l’ancre de la structure, et (ii) une ou des op´ erations de composition de ces structures [SAJ88].

L’adoption commune de cette division du travail syntaxique facilite l’´ etablissement de liens formels et la comparaison d’analyses entre formalismes qui reposent sur des principes calcula- toires diff´ erents ou qui construisent des structures syntaxiques diff´ erentes.

Ainsi, la lexicalisation des Grammaires d’Arbres Adjoints (TAG), qui sont issues de la r´ e´ ecri-

1. Nous reprenons ici la traduction de l’expression anglaise utilis´ ee par Denys Duchier et ses coll` egues dans

[DDPL10].

(26)

1.1. Formalismes grammaticaux lexicalis´ es 11 ture, a favoris´ e la comparaison d’analyses et le partage de techniques d’analyse et d’´ etiquetage grammatical avec les Grammaires Cat´ egorielles (CG) [BJ10], qui sont issues de la th´ eorie de la d´ emonstration. Le nombre restreint d’op´ erations de composition sur les structures induit par la lexicalisation a ´ egalement favoris´ e l’´ emergence de la syntaxe MTS, par la reformulation MTS de formalismes GES lexicalis´ es [PS01].

De mˆ eme, la lexicalisation facilite la comparaison d’analyses entre les grammaires syntag- matiques et les grammaires de d´ ependance. Les grammaires syntagmatiques, comme les CFG, les TAG et les CG, mod´ elisent la phrase comme une boˆıte divis´ ee r´ ecursivement en boˆıtes de plus en plus petites : les syntagmes. Si l’on renverse la perspective, cette mod´ elisation corres- pond ` a la formation de paquets de mots de plus en plus gros. Les grammaires de d´ ependance (DG) [Mel88, Hud84] mod´ elisent quant ` a elles la phrase comme un r´ eseau de d´ ependances entre mots, dans lequel chaque mot permet ou requiert la pr´ esence d’autres mots. La lexicalisation des grammaires syntagmatiques a pour effet de rattacher l’information syntagmatique aux mots.

Analyser une phrase consiste alors ` a combiner les structures syntagmatiques associ´ ees aux mots de cette phrase, ce qui produit par effet de bord une structure de d´ ependance entre les mots de la phrase [Kah01].

Enfin, la lexicalisation de la grammaire permet de garantir qu’une phrase de longueur finie est finiment ambigu¨ e, du point de vue de l’analyse syntaxique [SAJ88]. Cette propri´ et´ e a des r´ epercussions importantes sur la complexit´ e de l’analyse.

Pour ces raisons, tant linguistiques que calculatoires, les formalismes grammaticaux lexicali- s´ es occupent actuellement une place centrale en analyse syntaxique.

1.1.3 Pr´ esentation formelle des formalismes grammaticaux lexicalis´ es

D´ efinition 1.1.1 (Vocabulaire). Un vocabulaire est un ensemble fini de mots du langage naturel mod´ elis´ e.

D´ efinition 1.1.2 (Phrase). Une phrase est une liste finie, not´ ee [w

1

, . . . , w

n

], de mots du vocabulaire.

Nous d´ efinissons ensuite ce qu’est une structure, sur le mod` ele de la d´ efinition de Ka- hane [Kah06].

D´ efinition 1.1.3 (Structure). Une structure est compos´ ee de : – un ensemble d’objets, not´ e O,

– et un ensemble d’applications de O dans O, not´ e π.

Par exemple, un graphe orient´ e est constitu´ e de deux types d’objets : un ensemble X de nœuds et un ensemble U d’arˆ etes, tels que X ∪ U = O. La structure de graphe est alors d´ efinie par deux applications π

1

et π

2

de U dans X, qui associent ` a toute arˆ ete respectivement son nœud source et son nœud destination [Kah06].

Nous d´ efinissons les formalismes grammaticaux lexicalis´ es de fa¸ con suffisamment abstraite

pour que cette d´ efinition s’applique ` a tous les formalismes GES et MTS. L’abstraction de cette

(27)

d´ efinition implique que les op´ erations de composition de structures, mentionn´ ees dans la d´ e- finition originale des grammaires lexicalis´ ees [SAJ88], ne soient pas explicitement d´ efinies ici.

La d´ efinition des op´ erations de composition de structures est en fait incluse dans la d´ efinition concr` ete de l’ensemble de fonctions d’interpr´ etation J .

D´ efinition 1.1.4 (Formalisme grammatical lexicalis´ e). Un formalisme grammatical lexica- lis´ e est un 6-uplet (V, S , G, anc, SF , J ) o` u :

– V est le vocabulaire ;

– S est l’ensemble des structures syntaxiques utilis´ ees par le formalisme ;

– G ⊂ S est la grammaire : l’ensemble fini de structures syntaxiques initiales ; une liste finie [t

1

, . . . , t

n

] d’´ el´ ements de G est appel´ ee un ´ etiquetage grammatical ;

– anc : G → V est une application des structures syntaxiques initiales vers leurs ancres ; – SF ⊂ S est l’ensemble des structures syntaxiques finales que le processus d’analyse

construit (par exemple des arbres) ;

– J = {I : O

E

→ O

F

} est l’ensemble des fonctions d’interpr´ etation I des objets d’un

´ etiquetage grammatical (ensemble not´ e O

E

) vers les objets d’une structure finale (ensemble not´ e O

F

).

Chaque fonction d’interpr´ etation I met en correspondance un ´ etiquetage et une structure finale. Pour un formalisme donn´ e, l’ensemble J est d´ efini en intension par un ensemble de contraintes que toute fonction d’interpr´ etation de ce formalisme doit v´ erifier.

Notons que la fonction anc impose la lexicalisation de la grammaire : toute structure initiale dans G est associ´ ee ` a un ´ el´ ement de V. S’ensuit la d´ efinition du lexique.

D´ efinition 1.1.5 (Lexique). Le lexique est la fonction, not´ ee `, de V vers des sous-ensembles de G d´ efinie par :

`(w) = {t ∈ G | anc(t) = w}.

La d´ efinition de la fonction anc impose qu’une structure syntaxique initiale n’a qu’une seule ancre. Dans certains formalismes, comme les LTAG, les structures syntaxiques peuvent conte- nir, en plus, d’autres mots du vocabulaire, qui sont appel´ es des co-ancres. Dans les grammaires LTAG, les co-ancres sont utilis´ ees couramment pour repr´ esenter les particules verbales ou les pr´ epositions r´ egies. Dans ce qui suit, afin de garder des d´ efinition simples, nous ne consid´ ere- rons que des grammaires qui n’emploient pas de co-ancres. Nous qualifions ces grammaires de strictement lexicalis´ ees

2

.

D´ efinition 1.1.6 ( ´ Etiquetage grammatical d’une phrase). Un ´ etiquetage grammatical E = [t

1

, . . . , t

n

] est un ´ etiquetage grammatical de la phrase [anc(t

1

), . . . , anc(t

n

)].

2. Notre emploi de ce qualificatif est plus restreint que celui que l’on trouve dans la litt´ erature LTAG, o` u une

grammaire strictement lexicalis´ ee est une grammaire dont absolument tous les arbres respectent la contrainte de

lexicalisation.

(28)

1.2. Polarit´ es 13 D´ efinition 1.1.7 (Solutions de l’analyse d’une phrase). L’ensemble des solutions de l’analyse d’un ´ etiquetage E, not´ e p(E), est form´ e des structures finales F ∈ SF telles qu’il existe une fonction d’interpr´ etation I : O

E

→ O

F

qui appartienne ` a J .

D´ efinition 1.1.8 (Analyse d’une phrase). Une analyse d’une phrase [w

1

, . . . , w

n

] est un triplet (E, F, I), avec :

– E = [t

1

, . . . , t

n

] un ´ etiquetage grammatical de [w

1

, . . . , w

n

] ; – F une structure syntaxique finale solution de E ;

– I : O

E

→ O

F

une fonction d’interpr´ etation qui associe aux objets de E leurs objets correspondants dans F .

La fonction d’interpr´ etation I contient une forme d’historique, qui est la trace de l’analyse.

D´ efinition 1.1.9 (Langage engendr´ e par une grammaire lexicalis´ ee). Le langage engendr´ e par une grammaire lexicalis´ ee G est :

L = {[w

1

, . . . , w

n

] | ∃E = [t

1

, . . . , t

n

] tel que ∀i, 1 ≤ i ≤ n, t

i

∈ `(w

i

) et p(E) ⊂ SF } Intuitivement, le langage engendr´ e par une grammaire lexicalis´ ee est l’ensemble des phrases pour lesquelles il existe un ´ etiquetage grammatical qui a une solution.

1.2 Polarit´ es

Nous introduisons dans cette section la notion de polarit´ e, qui est employ´ ee dans de nombreux formalismes grammaticaux.

1.2.1 G´ en´ eralit´ es

Les polarit´ es sont indissociables de la notion de ressource, qui est fondamentale tant en logique lin´ eaire qu’en syntaxe des langues [Ret00].

A l’origine, les polarit´ ` es en syntaxe mod´ elisent la notion de valence, qui a ´ et´ e transpos´ ee de la chimie au cours des ann´ ees 1930 par les travaux de Tesni` ere [Tes34], Jespersen [Jes37] et Ajdukiewicz [Ajd35]. Dans la m´ etaphore chimique, les mots sont des atomes, ils ont une valence qui exprime leur capacit´ e ` a se combiner ` a d’autres mots. Le processus de composition syntaxique correspond ainsi ` a une r´ eaction chimique dont le r´ esultat ultime est la formation d’une mol´ ecule : la phrase, dans laquelle les valences de tous les atomes sont satur´ ees.

Cette m´ etaphore, ` a travers les travaux d’Ajdukiewicz, est ` a l’œuvre dans les Grammaires Ca-

t´ egorielles (CG), dont les Grammaires Cat´ egorielles Combinatoires (CCG) [SB09] et les Gram-

maires de Types Logiques (TLG) [Ret00, Mor10]. Les CG utilisent la valence pour mod´ eliser

le type des constituants. Par exemple, si on associe aux phrases le type s et aux groupes no-

minaux le type np, alors on peut voir les verbes intransitifs comme des phrases auxquelles il

(29)

manque un groupe nominal : leur type est np\s

3

, qui correspond ` a la formule logique polaris´ ee

−np ` +s [Ret00].

De fa¸con g´ en´ erale, pour mod´ eliser l’´ etat de saturation de l’information syntaxique, on utilise un ensemble de polarit´ es P, dont un sous-ensemble N est distingu´ e qui correspond aux polarit´ es neutres [Kah06]. Le but du processus d’analyse est de produire par composition des polarit´ es une structure totalement neutre.

Remarquons enfin que les polarit´ es ont ´ egalement ´ et´ e utilis´ ees pour contrˆ oler la compilation de m´ eta-grammaires [DLP05a].

1.2.2 Syst` emes de polarit´ es

D´ efinition 1.2.1 (Syst` eme de polarit´ es). Un syst` eme de polarit´ es Q est un triplet (P , ⊕, N ) tel que :

– P est un ensemble fini de polarit´ es ;

– ⊕ est une op´ eration binaire associative et commutative sur P ; – N ⊂ P est le sous-ensemble fini des polarit´ es neutres.

Certains syst` emes de polarit´ es permettent de composer plus de deux polarit´ es. Dans les for- malismes qui utilisent ces syst` emes, une analyse peut donc composer plusieurs objets polaris´ es. Il est alors n´ ecessaire de d´ efinir une op´ eration de composition sur des multi-ensembles de polarit´ es.

Or, l’op´ eration de composition de polarit´ es ⊕ est associative et commutative. Par cons´ equent, elle peut sans risque ˆ etre g´ en´ eralis´ ee en une op´ eration L

sur des multi-ensembles non vides de polarit´ es, par it´ eration de l’op´ eration binaire :

– L ({p}) = p pour les singletons, – L

(M ] p) = L

(M) ⊕ p .

Un multi-ensemble M de polarit´ es est dit ´ equilibr´ e si L

(M) ∈ N .

Comme le but de l’analyse syntaxique dans les formalismes polaris´ es est de produire une structure neutre, il faut que le processus d’analyse forme des multi-ensembles de polarit´ es ´ equi- libr´ es.

Exemples de syst` emes de polarit´ es Le syst` eme de polarit´ es utilis´ e varie selon les forma- lismes. La figure 1.1a pr´ esente la d´ efinition de l’op´ eration de composition du syst` eme de polarit´ es des IG et la figure 1.1b pr´ esente celle du syst` eme de polarit´ es des Grammaires d’Unification Po- laris´ ees (GUP) [Kah06]. Les GUP sont un formalisme g´ en´ erique de combinaison de structures. Le syst` eme de polarit´ es de [Kah06] est l’ensemble P = { , , −, +, } avec N = { , }, les polarit´ es

´

etant appel´ ees comme suit :

3. Nous utilisons la notation fractionnaire et non celle des Grammaires Cat´ egorielles Combinatoires (CCG) :

ici, les cat´ egories des arguments sont au d´ enominateur et le r´ esultat au num´ erateur.

(30)

1.2. Polarit´ es 15 : grise (absolument neutre) ;

: blanche (contexte obligatoire ) ;

− : n´ egative ;

+ : positive ; : noire (satur´ ee ).

Sur cette figure, ⊥ d´ enote l’impossibilit´ e de composer deux polarit´ es.

⊕ = ∼ ← → ↔ ⊥

= = ⊥ ⊥ ⊥ ⊥ ⊥

∼ ⊥ ∼ ← → ↔ ⊥

← ⊥ ← ⊥ ↔ ⊥ ⊥

→ ⊥ → ↔ ⊥ ⊥ ⊥

↔ ⊥ ↔ ⊥ ⊥ ⊥ ⊥

⊥ ⊥ ⊥ ⊥ ⊥ ⊥ ⊥

(a) IG

⊕ − + ⊥

− + ⊥

− + ⊥

− − − ⊥ ⊥ ⊥

+ + + ⊥ ⊥ ⊥

⊥ ⊥ ⊥ ⊥

⊥ ⊥ ⊥ ⊥ ⊥ ⊥ ⊥

(b) GUP

Figure 1.1 – Syst` emes de polarit´ es

Le syst` eme de polarit´ es des GUP est tr` es semblable ` a celui des IG, o` u { , , −, +, } corres- pond ` a {=, ∼, ←, →, ↔}, ` a une diff´ erence pr` es. Alors qu’en GUP toutes les polarit´ es peuvent interagir avec la polarit´ e grise , le syst` eme de polarit´ es des IG est constitu´ e de deux sous- syst` emes distincts qui ne peuvent pas ˆ etre compos´ es : la polarit´ e = d’un cˆ ot´ e, les autres polarit´ es de l’autre. Ainsi, un trait est soit « r´ eellement polaris´ e », soit absolument neutre.

Dans ces deux syst` emes, les polarit´ es absolument neutres (grise des GUP et = des IG)

´ equivalent en fait ` a une absence de polarit´ e. C’est pourquoi, comme Lareau [Lar08], nous ne d´ esignerons, dans la suite de ce manuscrit, par « syst` eme de polarit´ es » que son sous-syst` eme r´ eellement polaris´ e.

1.2.3 Syst` emes de polarit´ es monotones

La monotonie de l’analyse est une propri´ et´ e formelle importante, que certains formalismes comme les IG ou les GUP rendent obligatoire. Pour que l’analyse syntaxique dans un formalisme polaris´ e soit monotone, il faut que le syst` eme de polarit´ es utilis´ e soit monotone. Pour qu’un syst` eme de polarit´ es soit monotone, l’ensemble P des polarit´ es du syst` eme doit ˆ etre muni d’un ordre partiel, qui est tel que l’op´ eration de composition des polarit´ es, qui est associative et commutative, v´ erifie ´ egalement une propri´ et´ e de monotonie [Kah06].

D´ efinition 1.2.2 (Syst` eme de polarit´ es monotone). Un syst` eme de polarit´ es monotone est un quadruplet (P, ⊕, ≤, N ) tel que :

(i) (P , ⊕, N ) est un syst` eme de polarit´ es ; (ii) ≤ est un ordre partiel sur P ;

(iii) ⊕ v´ erifie la propri´ et´ e de monotonie sur ≤ :

∀p, q ∈ P, p ≤ (p ⊕ q) ;

(31)

(iv) tout ´ el´ ement maximal g de ≤ est une polarit´ e neutre :

∀g, ∀x ∈ P , (g ≤ x ⇒ g = x) ⇒ g ∈ N ;

Exemple d’ordre partiel sur des syst` emes de polarit´ es

Pour les IG et les GUP, l’ordre ≤ sur l’ensemble des polarit´ es P est d´ efini par les treillis de la figure 1.2. Dans chaque treillis, le sous-ensemble N des polarit´ es neutres est constitu´ e des nœuds entour´ es.

→ ←

(a) IG

+ −

(b) GUP

Figure 1.2 – Ordre partiel sur les polarit´ es

L’ordre partiel sur le syst` eme de polarit´ es des IG est donn´ e en figure 1.2a. L’´ el´ ement maximal est la polarit´ e ↔ qui est une polarit´ e neutre. Il est trivial de v´ erifier que la propri´ et´ e de monotonie est respect´ ee.

Pour le syst` eme de polarit´ es des GUP dont l’ordre partiel est d´ efini figure 1.2b, l’´ el´ ement maximal est la polarit´ e qui est une polarit´ e neutre. L` a encore, il est trivial de v´ erifier que la propri´ et´ e de monotonie est respect´ ee.

1.2.4 Classification des polarit´ es

Les syst` emes de polarit´ es des IG et des GUP combinent deux sous-syst` emes de polarit´ es dis- tincts : les polarit´ es lin´ eaires et les polarit´ es non lin´ eaires. Ces deux sous-syst` emes ont d’ailleurs

´

emerg´ e dans deux traditions formelles distinctes de la syntaxe des langues, que nous avons

´

evoqu´ ees pr´ ec´ edemment : les grammaires de d´ ependance et les grammaires de types logiques.

Ressources consommables et r´ eutilisables

Les polarit´ es des grammaires de types logiques mod´ elisent des ressources consommables [Mor10].

Le syst` eme de polarit´ es est constitu´ e des polarit´ es positive, n´ egative et satur´ ee : P = {+, −, } et N = { }. La polarit´ e positive correspond ` a une ressource disponible, la polarit´ e n´ egative ` a une ressource attendue et la polarit´ e satur´ ee au r´ esultat de la consommation d’une ressource disponible par une ressource attendue.

Les polarit´ es des grammaires de d´ ependance mod´ elisent des ressources r´ eutilisables. Les

arbres de d´ ependance de Nasr [Nas95, Nas96] utilisent un syst` eme de polarit´ es constitu´ e des

(32)

1.2. Polarit´ es 17 polarit´ es blanche et noire : P = { , }, N = { }. La polarit´ e blanche utilise une polarit´ e noire sans la consommer. Une polarit´ e noire peut donc ˆ etre utilis´ ee par plusieurs polarit´ es blanches.

Illustration linguistique

Cette diff´ erence entre ressources consommables et r´ eutilisables est illustr´ ee par la fa¸ con dont les grammaires de types logiques et les grammaires de d´ ependance mod´ elisent respectivement les modifieurs, par exemple les adjectifs ´ epith` etes.

En grammaires de d´ ependance, deux ´ epith` etes utilisent, sans le consommer, le mˆ eme nom gouverneur. Dans les grammaires de types logiques, le nom est consomm´ e par son premier

´ epith` ete, qui produit imm´ ediatement un nouveau nom. Ce nouveau nom est consomm´ e par le deuxi` eme ´ epith` ete, qui produit ` a son tour un nouveau nom.

Cette diff´ erence a un parall` ele dans les grammaires d’arbres : la consommation correspond ` a l’op´ eration d’adjonction des TAG et l’utilisation sans consommation ` a l’op´ eration d’adjonction de sœur (sister-adjunction ) des D-Tree Grammars (DTG) [RVSW95], Grammaires ` a Insertion d’Arbres Lexicalis´ ees (LTIG) [Chi00] et LTAG-spinal [SCJ08].

Terminologie : polarit´ es lin´ eaires et non lin´ eaires

La distinction entre ressources consommables et r´ eutilisables s´ epare les polarit´ es non neutres en deux cat´ egories, selon leur capacit´ e de combinaison.

Dans le syst` eme de polarit´ es des GUP (et des IG), la premi` ere cat´ egorie est constitu´ ee des polarit´ es + et −. Il est impossible de composer deux polarit´ es + avec la mˆ eme polarit´ e − ; il est

´ egalement impossible de composer deux polarit´ es − avec la mˆ eme polarit´ e +. Toute polarit´ e + doit se composer avec exactement une polarit´ e − et r´ eciproquement. Par analogie avec la logique lin´ eaire [Gir87], nous qualifions les polarit´ es + et − de lin´ eaires.

La seconde cat´ egorie est constitu´ ee par les polarit´ es . Plusieurs polarit´ es peuvent ˆ etre compos´ ees ensemble, et avec, soit une polarit´ e , soit deux polarit´ es et . Les polarit´ es sont donc qualifi´ ees de non lin´ eaires.

1.2.5 Interpr´ etation des polarit´ es par des polarit´ es composites

Les interactions entre ressources consommables et r´ eutilisables, polarit´ es lin´ eaires et non lin´ eaires, sont ´ eclair´ ees par l’interpr´ etation des polarit´ es des GUP et des IG par des polarit´ es composites.

D´ efinition 1.2.3 (Polarit´ e composite). Une polarit´ e composite p de taille n est un n-uplet de polarit´ es atomiques : p = (p

1

, . . . , p

n

) avec 1 ≤ i ≤ n, p

i

∈ P

A

.

L’op´ eration de composition sur les polarit´ es composites fonctionne composante par compo-

sante.

(33)

D´ efinition 1.2.4 (Composition de polarit´ es composites). La composition de m polarit´ es com- posites p

1

, . . . , p

m

de taille n est d´ efinie par :

M (p

1

, . . . , p

m

) = ( M

(p

11

, . . . , p

m1

), . . . , M

(p

1n

, . . . , p

mn

))

Comme l’indique Kahane [Kah06], le syst` eme de polarit´ es P

GU P

= { , −, +, } peut ˆ etre interpr´ et´ e par le syst` eme de polarit´ es composites P

0

= {( , ), ( , ), ( , ), ( , )} d´ efini sur P

A

= { , }. Le syst` eme de polarit´ es des IG P

IG

= {∼, ←, →, ↔} peut ˆ etre interpr´ et´ e, lui aussi, par le syst` eme P

0

. Le treillis de la figure 1.3 repr´ esente l’ordre sur les polarit´ es composites qui interpr` etent les polarit´ es des IG et des GUP.

( , )

( , ) ( , )

( , )

Figure 1.3 – Ordre partiel sur les polarit´ es composites

En d’autres termes, le (sous-)syst` eme de polarit´ es {−, +, } qui mod´ elise des ressources consom- mables peut ˆ etre interpr´ et´ e ` a l’aide du seul (sous-)syst` eme de polarit´ es { , }, qui mod´ elise des ressources r´ eutilisables. Dans la suite de ce manuscrit, nous utiliserons cette interpr´ etation des syst` emes de polarit´ es des IG et des GUP : les polarit´ es utilis´ ees dans ces formalismes sont des couples de polarit´ es atomiques sur { , }.

De plus, le terme « polarit´ e » r´ ef´ erera, selon le contexte, soit aux polarit´ es qui sont des

´

el´ ements d’un syst` eme de polarit´ es, soit aux instances de ces polarit´ es qui sont attach´ ees ` a des objets syntaxiques.

1.3 Formalismes grammaticaux lexicalis´ es polaris´ es

Int´ egrer les polarit´ es ` a un formalisme grammatical revient ` a attacher des polarit´ es aux objets des structures syntaxiques du formalisme.

D´ efinition 1.3.1 (Formalisme grammatical lexicalis´ e polaris´ e). Un formalisme grammatical lexicalis´ e polaris´ e est un 8-uplet (V , S, G, anc, SF, J , Q, pol) o` u :

– (V , S, G, anc, SF , J ) est un formalisme grammatical ;

– Q = (P , ⊕, ≤, N ) est un syst` eme de polarit´ es monotone ;

Références

Documents relatifs

Si cette question a ´ et´ e correctement trait´ ee par la majorit´ e des candidats, nous rappelons qu’un r´ esultat sans aucune justification n’a pas de valeur.. On lit parfois que

Dans chacune des deux situations donn´ ees plus bas, comment placer 20 boules dont 10 sont noires et 10 sont blanches dans deux urnes de mani` ere ` a maximiser la probabilit´ e

La qualit´ e de r´ edaction et de la pr´ esentation entreront pour une part importante dans l’appr´ eciation des copies.. Ne pas oublier pas de marquer le num´ ero de

´ Ecrire l’´equation de la tangente `a la courbe repr´esentative de f en 0, et pr´eciser la position de la courbe par rapport `a la tangente en ce point.. f admet-elle des extrema

4) Sous la contrainte g(x, y) = 0, f admet-elle un minimum global et un maximum global ? 5) Pr´eciser les points pour lesquels ces extrema globaux sous contrainte sont atteints..

La syntaxe g´en´erale des fonctions utilis´ees peut ˆetre obtenue au moyen de l’aide en ligne, en faisant pr´ec´eder le nom de la fonction par un point d’interrogation.

Par hypoth` ese, et comme G ne se scinde pas au-dessus d’un groupe fini, les stabilisateurs des arˆ etes de T i sont virtuellement cyliques, et contenus dans ceux de T.. F EIGHN

pour L n,p tel que deux éléments suessifs dièrent d'une et une seule position. L ′ n,p ) est l'ensemble des mots de Fibonai (resp. Luas) ayant.. un nombre impair