• Aucun résultat trouvé

Analyse syntaxique ` a l’aide des tables du Lexique-Grammaire du fran¸cais

N/A
N/A
Protected

Academic year: 2022

Partager "Analyse syntaxique ` a l’aide des tables du Lexique-Grammaire du fran¸cais"

Copied!
51
0
0

Texte intégral

(1)

Analyse syntaxique ` a l’aide des tables du Lexique-Grammaire du fran¸cais

Elsa Tolone

Soutenance de th` ese, LIGM, Universit´ e Paris-Est, France

31 mars 2011

(2)

Analyse syntaxique

I

Construire la structure grammaticale d’une phrase pour lui donner du sens

→ expliciter les relations de d´ ependance entre les mots (entre sujet et verbe, verbe et objet, etc.)

Difficult´ e : Complexit´ e et grandeur de la langue

I

Applications :

I

Compr´ ehension de texte

I

Extraction d’information

I

Traduction

(3)

Analyseurs syntaxiques

I

Analyseurs :

I

symboliques = grammaire + lexique syntaxique qui sp´ ecifie le comportement grammatical de chaque mot de la langue

I

probabilistes = mod` ele acquis ` a partir d’un corpus annot´ e manuellement

I

Analyseur syntaxique symbolique retenu : FRMG [Thomasset & de La Clergerie 2005]

→ formalisme lexical utilis´ e par FRMG : Alexina, format du

lexique Lefff [Sagot 2010]

(4)

Exemple de d´ ependances avec FRMG

Paul s’adresse ` a Max

(5)

Tables du Lexique-Grammaire

I

Les tables du Lexique-Grammaire du fran¸cais = ressource lexicale tr` es riche

→ informations syntaxiques et syntaxico-s´ emantiques

I

Mais pas directement exploitables telles quelles dans un analyseur syntaxique

I

informations importantes non repr´ esent´ ees car implicites pour une table donn´ ee

I

format de repr´ esentation des informations lexicales non formalis´ e

I

il faut interfacer ces informations avec un analyseur syntaxique

symbolique r´ eel

(6)

Objectifs

Triple objectif :

I

convertir les tables du Lexique-Grammaire en un format TAL

→ permettre la diffusion dans des formats adapt´ es pour les futures utilisations

I

coupler le lexique syntaxique obtenu, nomm´ e LGLex

Lefff

, avec un analyseur syntaxique

→ avoir un format directement utilisable par un analyseur

I

´ evaluer l’analyseur obtenu en comparant FRMG

Lefff

et FRMG

LGLex

→ savoir si le Lexique-Grammaire peut ˆ etre utilis´ e dans un

analyseur syntaxique

(7)

1. Les tables du Lexique-Grammaire 2. Le lexique LGLex

3. Conversion de LGLex en un lexique au format Alexina 4. Int´ egration dans l’analyseur syntaxique FRMG

5. ´ Evaluation et discussion

(8)

1 Les tables du Lexique-Grammaire

(9)

Tables du Lexique-Grammaire

D´ evelopp´ ees manuellement depuis plus de 40 ans par le LADL [Gross 1975] , puis l’Equipe d’Informatique Linguistique du LIGM (Universit´ e Paris-Est)

I

Etude de la syntaxe d’une phrase ´ ´ el´ ementaire (ou cadre de sous-cat´ egorisation)

ex : N0 V ` a N1

I

Cat´ egories concern´ ees : verbes, adverbes, noms et adjectifs pr´ edicatifs et expressions fig´ ees pour le fran¸ cais

→ certaines propri´ et´ es en commun = classes

I

Les diff´ erents emplois sont distingu´ es (ex : cuisiner)

(10)

Principe

I

Chaque classe est cod´ ee dans une table :

I

lignes = entr´ ees lexicales (mots)

I

colonnes = propri´ et´ es syntaxico-s´ emantiques

I

Propri´ et´ es :

I

constructions

I

autres propri´ et´ es (distributionnelles, morphologiques, transformationnelles, s´ emantiques, etc.)

ex : N0 = : Nhum → nom humain

I

Chaque propri´ et´ e test´ ee pour chaque entr´ ee

→ codage binaire :

I

+ : propri´ et´ e accept´ ee

I

− : propri´ et´ e non accept´ ee

I

Propri´ et´ es d´ efinitoires pour chaque classe

dont une construction de base

(11)

Extrait de la table des verbes de la classe 33

Construction de base : N0 V ` a N1

(12)

Bilan

I

Inventaire [Tolone 2009] :

I

67 classes de verbes simples

I

13 867 entr´ ees pour 5 738 lemmes distincts

I

78 classes de noms pr´ edicatifs simples et compos´ es (noms avec argument(s) qui sont ´ etudi´ es avec leur verbes support)

I

12 696 entr´ ees pour 8 531 lemmes distincts ex : Luc monte une attaque contre le fort

I

69 classes d’expressions fig´ ees, principalement verbales et adjectivales

I

39 628 entr´ ees pour 38 658 lemmes distincts ex : arriver ` a la cheville de qq’un, ˆ etre ` a la retraite

I

32 classes d’adverbes simples et (semi-)fig´ es (adverbes en -ment et locutions adverbiales)

I

10 488 entr´ ees pour 9 326 lemmes distincts

ex : [changer] du jour au lendemain

(13)

Historique des versions

Lexique riche ` a large couverture disponible sur http://infolingu.univ-mlv.fr/

I

version 1 = format d’origine

I

version 2 = 1` eres tables en ligne (60% seulement)

I

version 3 = depuis ma th` ese, dans les diff´ erents formats de lexique :

I

tables → lisibilit´ e pour les linguistes

I

LGLex → format d’´ echange

I

LGLex

Lefff

→ format d’int´ egration dans un analyseur

(14)

Probl` emes

I

Noms diff´ erents pour une mˆ eme propri´ et´ e

→ Harmonisation des intitul´ es de colonnes ex : [extrap] et il V N0 W

I

Propri´ et´ es pas d´ efinies clairement

→ Documentation des propri´ et´ es

I

Propri´ et´ es d´ efinitoires implicites (litt´ erature)

→ Constante + ou − pour l’ensemble de la table

I

Entr´ ees pas ` a jour dans les tables

→ Ajout des entr´ ees manquantes

I

Entr´ ees non cod´ ees (∼)

→ Codage d’entr´ ee

(15)

Tables des classes

Propri´ et´ es d´ efinitoires → ` a d´ ecrire dans des tables des classes (1 par cat´ egorie) :

I

colonnes = toutes les propri´ et´ es syntaxiques r´ epertori´ ees pour la cat´ egorie concern´ ee (apr` es harmonisation)

I

lignes = classes d´ efinies pour cette cat´ egorie

I

intersection ligne/colonne :

I

o = propri´ et´ e explicitement cod´ ee dans la table concern´ ee

I

+ (resp. −) = la propri´ et´ e correspondante est v´ erifi´ ee (resp.

non v´ erifi´ ee) par tous les ´ el´ ements de la classe

I

? = non encore renseign´ e

Table des classes cr´ e´ ee pour chaque cat´ egorie [Tolone et al. 2010]

(16)

Extrait de la tables des classes des verbes

(17)

Verbes simples : les compl´ etives et les infinitives

I

Modifications de la construction de base [Tolone 2010]

Tables Construction de base Construction de base Colonnes cod´ees

d’origine actuelle dans la table

6, 7, N0 V Qu P N0 V N1 N1 = : Qu Pind

8, 9, N1 = : Qu Psubj

10, 14, N1 = : si P ou si P

15 N1 = : ce(ci+la)

N1 = : Nhum N1 = : N-hum N1 = : le fait Qu P I Max croit que Luc est malade

I Max craint qu’Ida ne parte

[Gross 1975]

(18)

Verbes de BGL (2)

I

Eclatement en plusieurs classes ´ [Tolone et al. 2010]

Table Construction de base d’origine Construction de base actuelle

35L N0 V Loc N1 N0 V Loc N1 source Loc N2 destination I Paul a bondi du tabouret sur la table

I Paul a bondi du tabouret I Paul a bondi sur la table

Table Construction de base actuelle 35LS N0 V Loc N1 source

I Le train a d´eraill´e de la voie Table Construction de base actuelle 35LD N0 V Loc N1 destination

I Le bateau s’enfonce dans les flots

[Boons et al. 1976a]

(19)

Expressions fig´ ees (M. Gross)

I

Reconstitution des constructions de base ` a partir des colonnes lexicales apr` es avoir ´ et´ e harmonis´ ees [Tolone et al. 2010]

Table Construction de base

EPCPN N0 ˆetre Pr´ep1 Det1 C1 Pr´ep2 N2

<ENT>ˆetre <ENT>Pr´ep1 <ENT>Det1 <ENT>C1 <ENT>Pr´ep2

ˆ

etre en <E> accord avec

ˆ

etre de la mˆeme force que

ˆ

etre `a la fronti`ere entre

Table: Extrait de la table EPCPN des expressions fig´ ees (colonnes

lexicales)

(20)

Adverbes en -ment

I

Clarification des constructions de base [Tolone et al. 2010]

Table Construction de base Exemple

ADVM... N0 V Adv W Ce livre est en venteexclusivementsur ce site

*Exclusivement, ce livre est en vente sur ce site ADVMP Adv, N0 V W Ce livre est en venter´eguli`erementsur ce site ADVMS R´eguli`erement, ce livre est en vente sur ce site ADVMTF *R´eguli`erement, ce livre n’est pas en vente

sur ce site

ADVMP Adv, N0 ne V pas W Ce concert estmusicalementune r´eussite Musicalement, ce concert est une r´eussite Musicalement, ce concert n’est pas une r´eussite

[Molinier & Levrier 2000]

(21)

Adverbes (semi-)fig´ es

I

Reconstitution de la structure de l’adverbe ` a partir des colonnes lexicales apr` es avoir ´ et´ e harmonis´ ees [Tolone et al.

2010]

Table Structure de l’adverbe Exemple

PCPC Pr´ep1 Det1 C1 Pr´ep2 Det2 C2 [changer] du jour au lendemain

I

D´ efinition des constructions de base (approximation)

Table Construction de base P... N0 V Adv W

Adv, N0 V W Adv, N0 ne V pas W

[Gross 1986]

(22)

2. Le lexique LGLex

(23)

LGLex

Table des classes → possibilit´ e d’extraire un lexique syntaxique pour chaque cat´ egorie ` a partir des tables [Constant & Tolone 2010] :

I

nomm´ e lexique LGLex

I

conversion depuis les tables Excel ou CSV grˆ ace ` a l’outil LGExtract

I

format d’´ echange, reposant sur les mˆ emes concepts linguistiques que ceux qui sont manipul´ es dans les tables

I

format textuel ou XML

I

version 3.3 contenant LGLex pour chaque cat´ egorie disponible

sur http://infolingu.univ-mlv.fr/

(24)

Format du lexique LGLex

I

ID=cat´ egorie numTable numEntr´ ee

I

lexical-info=[...] → lemme et ses informations lexicales (auxiliaires, verbes supports, d´ eterminants, pr´ epositions)

I

args=(...) → arguments et leurs distributions accompagn´ ees d’autres informations (traits s´ emantiques, mode de la compl´ etive, argument contrˆ ol´ e par l’infinitive, pr´ epositions)

I

all-constructions=[absolute=(...), relative=(...)] → liste des constructions accept´ ees (soit nomm´ ees de fa¸ con compl` ete avec tous les ´ el´ ements dans l’ordre, soit transformations ` a partir de la construction de base, mais aussi r´ eductions de GN, structures des adverbes fig´ es, etc.)

I

example=[...] → exemple illustrant l’entr´ ee

(25)

Extrait du lexique LGLex (verbe)

ID=V 36SL 28

lexical-info=[cat=”verb”,verb=[lemma=”clouer”],prepositions=(preposition=[id=”2”,list=(prep=”avec”)]) locatifs=(locatif=[id=”2”,list=()],aux-list=())]

args=(

const=[pos=”0”,dist=(comp=[cat=”NP”,hum=”true”,introd-prep=(),introd-loc=(), origin=(orig=”N0 = : Nhum”)],

const=[pos=”1”,dist=(comp=[cat=”NP”,nothum=”true”,introd-prep=(),introd-loc=(), origin=(orig=”N1 = : N-hum”)])])

const=[pos=”2”,dist=(comp=[cat=”NP”,destination=”true”,introd-prep=(),introd-loc=(prep=”`a”,prep=”sur”), origin=(orig=”Loc N2 = : `a N2 destination”,orig=”Loc N2 = : sur N2 destination”)])],

all-constructions=[absolute=(construction=”true : :N0 V N1 Loc N2”,construction=”o : :N0 V N1”, construction=”true : :N0 V N1 Pr´ep N2”, construction=”true : :N0 V N1 et N2”

construction=”o : :N0 V N1 de N3 attache”,construction=”o : :N0 V N1hum Loc N2abs”, construction=”o : :N3 attache V N1”,construction=”o : :N0 V N1 + 2”),

relative=(construction=”[passif par]”)]

example=[example=”Max a clou´e cette planche(avec+contre+sur)celle-l`a”]

I

entr´ ee clouer V 36SL 28

I

Reste ` a faire : interpr´ eter les constructions

(26)

3. Conversion de LGLex en un lexique au format

Alexina

(27)

L’analyseur syntaxique FRMG

FRMG est un analyseur TAG du fran¸cais [Thomasset & de La Clergerie 2005] :

I

issu de la compilation d’une m´ eta-grammaire

I

tr` es compacte grˆ ace ` a la factorisation des arbres

I

exploitant les fonctionnalit´ es de DyALog (environnement de programmation en logique) FRMG s’int` egre dans une chaˆıne de traitement :

I

en amont

I

SXPipe : segmentation, token, corrections, entit´ es nomm´ ees

I

Lefff : lexique morphosyntaxique et syntaxique du fran¸ cais

I

en aval, module de d´ esambigu¨ısation (bas´ e sur des

heuristiques)

(28)

Le Lefff

I

Le Lefff (Lexique des Formes Fl´ echies du Fran¸ cais) est un lexique morphologique et syntaxique pour le fran¸ cais [Sagot 2010]

I

` a large couverture (536 375 entr´ ees correspondant ` a 110 477 lemmes distincts couvrant toutes les cat´ egories)

I

librement distribu´ e (licence LGPL-LR)

I

Il repose sur l’architecture Alexina de mod´ elisation et d’acquisition de lexiques morphologiques et syntaxiques

→ valid´ e ensuite tr` es largement manuellement, notamment

pour les verbes

(29)

Alexina

Architecture ` a deux niveaux

I

Le lexique intensionnel

I

associe ` a chaque entr´ ee (emploi d’un lemme) un cadre de sous-cat´ egorisation canonique

I

liste les redistributions possibles ` a partir de ce cadre

I

Le processus de compilation du lexique intensionnel en

lexique extensionnel construit diff´ erentes entr´ ees pour chaque

forme fl´ echie du lemme et chaque redistribution possible

(30)

Alexina sur un exemple

I

Exemple d’entr´ ee intentionnelle : clarifier 1 v-er:std

100;Lemma;v;

<Suj:cln|scompl|sinf|sn,Obj:(cla|scompl|sn)>;

%ppp employ´ e comme adj,%actif,%se moyen impersonnel,

%passif impersonnel,%passif

I

Fonctions syntaxiques (cf. Dicovalence) : Suj, Obj, Obj` a, Objde, Loc, Dloc, Att, Obl/Obl2

I

R´ ealisations : directes (sn, sa, sinf, scompl, qcompl) ;

clitiques (cln, cla, cld, y, en) ; pr´ epositionnelles (prep+directe, p.ex. par-sn, ` a-sinf, de-scompl)

I

Redistributions : %actif, %passif, %se neutre,

%actif impersonnel, etc.

(31)

Le processus de conversion

I

Conversion des tables du Lexique-Grammaire vers le formalisme Alexina pas directe [Tolone & Sagot 2011]

I

definition formelle ou interpr´ etation dynamique de tous les noms de propri´ et´ es

Exemple :

I

N0 V N1 → construction de base

I

N0 V → effacement du N1

I

N0 V N1 ` a N2 → allongement de la construction de base

I

N0 V Qu P → r´ ealisation du N1

I

[passif par] → redistribution passive

I

informations additionnelles importantes compl´ et´ ees grˆ ace ` a des heuristiques ou ` a partir d’autres ressources lexicales

I

le nom de chaque fonction syntaxique, les ph´ enom` enes

d’attribution, les informations morphologiques, etc.

(32)

L’exemple pr´ ec´ edent du lexique LGLex (verbe)

ID=V 36SL 28

lexical-info=[cat=”verb”,verb=[lemma=”clouer”],prepositions=(preposition=[id=”2”,list=(prep=”avec”)]) locatifs=(locatif=[id=”2”,list=()]),aux-list=()]

args=(

const=[pos=”0”,dist=(comp=[cat=”NP”,hum=”true”,introd-prep=(),introd-loc=(), origin=(orig=”N0 = : Nhum”)],

comp=[cat=”NP”,introd-prep=(),introd-loc=(),nothum=”true”, origin=(orig=”N0 = : N-hum”)])],

const=[pos=”1”,dist=(comp=[cat=”NP”,nothum=”true”,introd-prep=(),introd-loc=(), origin=(orig=”N1 = : N-hum”)])])

const=[pos=”2”,dist=(comp=[cat=”NP”,destination=”true”,introd-prep=(),introd-loc=(prep=”`a”,prep=”sur”), origin=(orig=”Loc N2 = : `a N2 destination”,orig=”Loc N2 = : sur N2 destination”)])],

all-constructions=[absolute=(construction=”true : :N0 V N1 Loc N2”,construction=”o : :N0 V N1”, construction=”true : :N0 V N1 Pr´ep N2”, construction=”true : :N0 V N1 et N2”

construction=”o : :N0 V N1 de N3 attache”,construction=”o : :N0 V N1hum Loc N2abs”, construction=”o : :N3 attache V N1”,construction=”o : :N0 V N1 + 2”),

relative=(construction=”[passif par]”)]

example=[example=”Max a clou´e cette planche(avec+contre+sur)celle-l`a”]

I

entr´ ee clouer V 36SL 28

(33)

R´ esultat de la conversion sur l’exemple pr´ ec´ edent

clouer V 36SL 28 v-er :std 100 ;Lemma ;v ;

<Suj :cln|sn,Obj :sn,Loc :(` a-sn|sur-sn|avec-sn)> ;

cat=v ;@SujNhum ;@ObjN-hum ;

%actif,%passif,%ppp employ´ e comme adj

I

Max a clou´ e ces planches au mur

I

Max a clou´ e ces planches

I

Cette planche a ´ et´ e clou´ ee au mur par Max

I

Cette planche est clou´ ee au mur par Max

I

etc.

(34)

Autre extrait du lexique LGLex (nom)

ID=N aa 18

lexical-info=[cat=”noun”,noun=[notperm=[complete=”consid´eration”],noun1=”consid´eration”]], Vsup=[cat=”verb”,list=(value=”ressentir”,value=”´eprouver”,value=”avoir”)],

Vsup2=[cat=”verb”,list=(value=”avoir”,value=”ˆetre l’objet de”,value=”faire l’objet de”)], detN=[list-det-modif=(det-modif=[det=”du+de l’+de la”,modif=”false”],

det-modif=[det=”un+une”,modif=”true”]),prepositions=(preposition=[id=”1”,list=(prep=”pour”)])]

args=(

const=[pos=”0”,dist=(comp=[cat=”NP”,hum=”true”])],

const=[pos=”1”,dist=(comp=[cat=”NP”,nothum=”true”],comp=[cat=”NP”,hum=”true”])]) all-constructions=[absolute=(construction=”true::N0 avoir Det N Pr´ep N1”),

construction=”true::N1 avoir Det N de N0”, reductionsGN=(construction=”::le N de N0 Pr´ep N1”),relative=(),verbales=()]

example=[example=”Max a de la consid´eration pour (ce geste+Luc)”]

I

Max a de la consid´ eration pour (ce geste+Luc)

I

(Ce geste+Luc) a la consid´ eration de Max

[G. Gross 1989]

(35)

R´ esultat de la conversion

consid´ eration N aa 18 nc-2f

100;Lemma;cf;

<Suj:cln|sn,Obl:pour-sn>;

cat=nc;@SujNhum;@OblN-hum;@OblNhum;

lightverb=avoir|ressentir|´ eprouver;

%default consid´ eration N aa 18 nc-2f

100;Lemma;cf;

<Suj:cln|sn,Objde:de-sn>;

cat=nc;@SujNhum;

lightverb=avoir;

%default

Version 3.3 contenant les verbes et les noms disponible sur http://infolingu.univ-mlv.fr/

I

Reste ` a convertir : expressions fig´ ees et adverbes

(36)

Lexique obtenu : LGLex Lefff

I

verbes : LGLex

Lefff

contient 16 955 entr´ ees pour 5 723 lemmes verbaux diff´ erents (2,96 entr´ ees/lemme)

I

A titre de comparaison, le ` Lefff contient seulement 7 072 entr´ ees verbales pour 6 818 lemmes verbaux distincts (1,04 entr´ ees/lemme)

I

noms pr´ edicatifs : LGLex

Lefff

contient 17 517 entr´ ees pour 8 363 lemmes diff´ erents (2,09 entr´ ees/lemme)

I

Le Lefff ne contient que 218 entr´ ees de noms pr´ edicatifs

(1 entr´ ee/lemme)

(37)

4. Int´ egration dans l’analyseur syntaxique FRMG

(38)

Int´ egration dans l’analyseur syntaxique FRMG

Il faut donc :

I

remplacer les entr´ ees verbales du Lefff par LGLex

Lefff

I

ajouter les entr´ ees nominales de LGLex

Lefff

I

conserver les autres entr´ ees du Lefff

I

compl´ eter le r´ esultat par diverses entr´ ees verbales venant du Lefff, qui ne font pas partie du lexique LGLex

I

entr´ ees pour les auxiliaires et semi-auxiliaires

I

certains verbes ` a mont´ ee

I

les verbes impersonnels

I

construire la base de donn´ ees lexicales correspondantes

I

sp´ ecifier ` a FRMG d’utiliser cette derni` ere

(39)

5. ´ Evaluation et discussion

(40)

Protocole utilis´ e

I

Nous avons ´ evalu´ e FRMG

Lefff

et FRMG

LGLex

en analysant la partie annot´ ee manuellement de la 1` ere campagne Passage de 2007 [Hamon et al. 2008]

I

4 306 phrases du corpus EASy annot´ e en 2004 + 500 nouvelles phrases : styles vari´ es (journalistique, m´ edical, oral, questions, litt´ eraire, etc.)

I

m´ etriques utilis´ ees : celles d´ efinies ` a l’occasion de la campagne EASy d’´ evaluation des analyseurs syntaxiques [Paroubek et al.

2006]

I

´ evaluation en chunks et en relations (∼ d´ ependances entre

mots pleins)

(41)

Pr´ ecautions

I

FRMG utilise les entr´ ees converties ` a partir des tables, et non pas les entr´ ees telles qu’elles sont dans les tables

→ erreurs dˆ ues ` a la conversion

I

la majorit´ e des noms pr´ edicatifs n’ont pas pu ˆ etre ´ evalu´ es car FRMG ne prend que ceux n’ayant pas de d´ eterminant

I

Passage ne permet pas d’´ evaluer toutes les informations contenues dans les tables (informations s´ emantiques par ex.)

I

le Lefff a ´ et´ e d´ evelopp´ e en parall` ele aux campagnes EASy et Passage, contrairement aux tables

I

LGLex

Lefff

ne contient pas toutes les entr´ ees verbales

n´ ecessaires, puisque tous les verbes ne sont pas cod´ es

(42)

R´ esultats

R´ esultats comparatifs Passage de FRMG

Lefff

et FRMG

LGLex

(pourcentages de f-mesure) :

Chunks Relations

Sous-corpus FRMGLefff FRMGLGLex FRMGLefff FRMGLGLex

general_lemonde 88.22% 84.60% 62.73% 59.01%

litteraire_2 88.91% 88.46% 65.28% 62.43%

mail_9 82.60% 81.90% 58.55% 56.00%

medical_3 85.04% 85.89% 64.79% 65.26%

oral_delic_4 78.80% 81.79% 51.67% 51.14%

questions_amaryllis 91.30% 90.73% 66.56% 64.77%

total 87.05% 85.53% 63.10% 60.25%

Temps d’analyse plus ´ elev´ es avec FRMG

LGLex

qu’avec FRMG

Lefff

: temps m´ edian par phrase de 0,62 s contre 0,26 s

I

ceci provient du nombre d’entr´ ees par lemme 3 plus ´ elev´ e dans

LGLex que dans le Lefff

(43)

I

FRMG

LGLex

donne de meilleurs r´ esultats que FRMG

Lefff

pour certaines relations

I

relations « classiques » MOD A (modifieur-adjectif) et MOD R (modifieur-adverbe)

I

relations « difficiles » MOD P (modifieur-pr´ eposition) et APP (apposition)

I

la relation ATB SO (attribut du sujet ou de l’objet) est celle pour laquelle la diff´ erence en rappel est la plus importante (34,0% contre 58,4%) ;

I

les tables du Lexique-Grammaire encodent tr` es peu

d’informations sur les ph´ enom` enes d’attribution, mais cela

peut aussi ˆ etre dˆ u aux erreurs de la r´ ef´ erence Passage

(44)

Conclusions et perspectives

(45)

Version 3.3 des tables du Lexique-Grammaire

L’ensemble des tables disponible sous licence LGPL-LR sur http://infolingu.univ-mlv.fr/

I

Verbes simples :

I

67 tables + la table des classes (551 propri´ et´ es)

I

index de toutes les entr´ ees

I

documentation des propri´ et´ es

I

formules d´ efinitoires de chaque table

I

arbre classification

I

Noms pr´ edicatifs simples et compos´ es :

I

78 tables + la table des classes (496 propri´ et´ es)

I

Expressions fig´ ees :

I

69 tables + la table des classes (276 propri´ et´ es)

I

Adverbes simples et (semi-)fig´ ees :

I

32 tables + la table des classes (159 propri´ et´ es)

(46)

Poursuite de la m´ ethode

Optimiser l’utilisation des donn´ ees lexicales du Lexique-Grammaire pour l’analyse syntaxique

I

coder les entr´ ees manquantes ou non cod´ ees dans les tables

I

coder la table des classes pour chaque cat´ egorie

I

am´ eliorer/corriger le processus de conversion

I

appliquer cette technique aux tables du Lexique-Grammaire pour les autres cat´ egories

I

g´ en´ eraliser cette m´ ethode pour les autres langues pour

lesquelles des tables du Lexique-Grammaire ` a large-couverture

sont disponibles (par exemple, le grec)

(47)

Am´ elioration de FRMG LGLex et de LGLex

I

Am´ elioration de FRMG

LGLex

:

I

coupler les 2 variantes de l’analyseur pour garder un maximum d’analyses compl` etes, bien meilleures que les analyses partielles

I

d´ etecter des erreurs, notamment au moyen de techniques automatiques, telles que la fouille d’erreurs dans les sorties d’analyseurs syntaxiques [Sagot & de La Clergerie 2008])

I

int´ egrer les noms pr´ edicatifs avec d´ eterminants

I

Am´ elioration du lexique obtenu :

I

grˆ ace ` a un corpus annot´ e, d´ eduire les poids permettant de rep´ erer les emplois rares

I

fusionner avec d’autres ressources lexicales

I

utilisation du lexique dans d’autres syst` emes de TAL

(48)

R´ ef´ erences

I

[Boons et al. 1976a] Boons J.-P., Guillet A. et Lecl` ere C. La structure des phrases simples en fran¸ cais : Classes de constructions transitives. Rapport interne, LADL, CNRS, Paris 7. 1976.

I

[Constant & Tolone 2010] Matthieu Constant et Elsa Tolone. A generic tool to generate a lexicon for NLP from Lexicon-Grammar tables. Lingue d’Europa e del Mediterraneo, Grammatica comparata, vol. 1, pages 79-93. Aracne. 2010.

I

[Gross 1989] Gaston Gross. Les constructions converses du fran¸ cais.

Droz. Gen` eve, Suisse.

I

[Gross 1986] Maurice Gross. Grammaire transformationnelle du fran¸ cais : Syntaxe de l’adverbe, volume 3. Paris : ASSTRIL. 1986.

I

[Gross 1975] Maurice Gross. M´ ethodes en syntaxe : R´ egime des constructions compl´ etives. Hermann. Paris, France. 1975.

I

[Hamon et al. 2008] Hamon O., Mostefa D., Ayache C., Paroubek

P., Vilnat A. et La Clergerie E. Passage : from French Parser

Evaluation to Large Sized Treebank. Actes de LREC’08. Maroc.

(49)

R´ ef´ erences (2)

I

[Molinier & Levrier 2000] Molinier C. et Levrier F. Grammaire des adverbes : description des formes en -ment. Gen` eve : Droz. 2000.

I

[Paroubek et al. 2006] Patrick Paroubek, Isabelle Robba, Anne Vilnat et Christelle Ayache. Data, Annotations and Measures in EASy : the Evaluation Campaign for Parsers of French. Actes de LREC’06. Gˆ enes, Italie. 2006.

I

[Sagot 2010] Benoˆıt Sagot. The Lefff, a freely available and

large-coverage morphological and syntactic lexicon for French. Actes de LREC’10, 8 pages. La Valette, Malte. 2010.

I

[Sagot et de La Clergerie 2008] Benoˆıt Sagot et ´ Eric de La Clergerie. Fouille d’erreurs sur les sorties d’analyseurs syntaxiques.

Traitement Automatique des Langues (T.A.L.), vol.49, num.1,

pages 41-60. Herm` es. Paris, France. 2008.

(50)

R´ ef´ erences (3)

I

[Thomasset & de La Clergerie 2005] Fran¸ cois Thomasset et ´ Eric de La Clergerie. Comment obtenir plus des m´ eta-grammaires. Actes de TALN’05. Dourdan, France. 2005.

I

[Tolone 2010] Elsa Tolone. Constructions d´ efinitoires des tables du Lexique-Grammaire : Le cas ds compl´ etives et des infinitives. Actes de MajecSTIC’10 (session poster), 4 pages. Bordeaux, France. 2010.

I

[Tolone et al. 2010] Elsa Tolone, Stavroula Voyatzi et Christian Lecl` ere. Constructions d´ efinitoires des tables du Lexique-Grammaire.

Actes de LGC’10, pages 321-331. Belgrade, Serbie. 2010.

I

[Tolone 2009] Elsa Tolone. Les tables du Lexique-Grammaire au format TAL. Actes de MajecSTIC’09, 8 pages. Avignon, France.

2009.

I

[Tolone & Sagot 2011] Elsa Tolone et Benoˆıt Sagot. Using

Lexicon-Grammar tables for French verbs in a large-coverage parser.

LNAI. Springer Verlag. 2011. ` A paraˆıtre.

(51)

Liens

I

Manuscrit :

http://www-igm.univ-mlv.fr/~tolone/phd.pdf

I

Ressources : http://infolingu.univ-mlv.fr/

> Ressources Linguistiques > Lexique-Grammaire

> T´ el´ echargement

Références

Documents relatifs

(p.212) avec les mêmes distributions concernant l’argument N3 codées dans la table ; il est vrai que pour la majorité des entrées, la propriété N1 = : Qu Psubj est codée + et que

Pour identifier les entrées au format Lefff à créer à partir d’une entrée lglex , il faut donc identifier, parmi les constructions listées dans la section all-constructions ,

En particulier, nous restons convaincus que l’utilisation d’une ressource lexicale aussi riche que possible reste un moyen efficace pour améliorer la qualité d’un

Ce format facilite notamment la discussion scientifique sur la construction manuelle de lexiques pour le traitement des langues, discussion qui a besoin de se développer

Par ailleurs, plusieurs classes ont la même construction de base N0 V N1 de N2 mais ont été découpées selon d’autres propriétés définitoires pour éviter qu’une même

Grâce à l'élaboration de la table des classes, regroupant l'ensemble des propriétés, nous avons pu envisager la conversion des tables en un lexique syntaxique : LGLex.. C'est un

Tout d’abord, la section 2 présente les tables elles-mêmes, les différentes versions existantes et la documentation complète de toutes les propriétés des verbes. Ensuite,

En particulier, nous restons convaincus que l’utilisation d’une ressource lexicale aussi riche que possible reste un moyen efficace pour améliorer la qualité d’un