• Aucun résultat trouvé

Nous effectuons un bilan sur notre outil LGExtract (7.5.1), avant de conclure (7.5.2).

7.5.1 Avantages et inconv´enients de LGExtract

La construction du lexique LGLex nous a permis d’identifier clairement les avantages et inconv´enients de notre outil. Son avantage principal est l’utilisation de la table des classes. En pratique, toute l’information manquante est rassembl´ee dans un seul fichier et non dans autant de fichiers que de classes, comme dans l’approche deGardent et al.

(2006). De plus, il apporte une vision linguistique plus globale : auparavant, la m´ethode pour g´en´erer un lexique syntaxique `a partir des tables du Lexique-Grammaire ´etait de trouver les propri´et´es d´efinitoires de chaque classe et de les rendre explicites. Maintenant, avec la table des classes, on peut chercher si une propri´et´e donn´ee est int´eressante pour

16. Le code dedetN(comme vu pr´ec´edemment) et deleest : define detN detN [noun=[],list-det-modif=()] ;

7.5 Discussion une classe donn´ee, et cela pour l’ensemble des propri´et´es de toutes les classes de la cat´egorie concern´ee. Ceci fait apparaˆıtre de nouvelles questions linguistiques dans le cadre des tables du Lexique-Grammaire.

De plus, la combinaison de LGExtract avec la table des classes simplifie la maintenance du lexique syntaxique. D’abord, toutes les op´erations de chaque propri´et´e sont encod´ees une seule fois dans le script, ind´ependamment de chaque classe. Ensuite, s’il survient qu’une nouvelle propri´et´e est constante sur toute une classe, il faut simplement ajouter un symbole + dans la case correspondante de la table des classes. Le script n’a pas besoin d’ˆetre modifi´e pour ajouter cette information dans le lexique g´en´er´e, ´etant donn´e que toutes les op´erations concernant cette propri´et´e ont d´ej`a ´et´e cod´ees.

Le syst`eme n´ecessite que chaque propri´et´e poss`ede exactement une signification dans toutes les classes. L’emploi de cet outil nous a permis de garder la table des classes coh´erente. C’est ainsi qu’auparavant, la propri´et´e zone ´etait une zone de texte dans plusieurs classes mais avec des interpr´etation diff´erentes :

– dans la plupart des tables, elle fournissait la valeur lexicale des pr´epositions introdui- sant les compl´ements verbaux ind´ependamment de leur position dans la construction canonique (que nous avons renomm´ee Pr´ep1,Pr´ep2ou Pr´ep3selon les cas) ;

– dans la table 38L0, elle indiquait le suffixe `a ajouter au verbe afin d’obtenir son nom d´eriv´e (renomm´eesuffixeN) ;

– dans les tables 32R3 et 35R, elle donnait un exemple de compl´ement (renomm´ee th`emeN1).

Nous avons dˆu ajouter de nouvelles propri´et´es afin qu’il y en ait une par sens. En parti- culier, les pr´epositions ont ´et´e num´erot´ees pour qu’il soit possible d’identifier directement les compl´ements qu’elles introduisent.

Toutefois, certaines limitations sont clairement apparues. Il est parfois n´ecessaire de r´ep´eter des dizaines d’op´erations similaires sur des ensembles de propri´et´es. Par exemple, il est n´ecessaire de cr´eer manuellement pour chaque propri´et´e des objets linguistiques diff´erents seulement par leur num´erotation. Cela est dˆu au fait que le script ne permet pas de faire des boucles, des fonctions avec param`etres, des tableaux et de la cr´eation dynamique d’objets linguistiques. De plus, le programme n’est pas capable d’effectuer des op´erations dans un ordre requis. Par exemple, dans les classes dont l’entr´ee comporte plusieurs mots, comme les classes de noms compos´es, d’expressions fig´ees ou d’adverbes (semi-)fig´es, les diff´erents composants de l’entr´ee sont cod´es dans plusieurs colonnes successives selon leur ordre d’apparition. Mais il est impossible d’obtenir le nom complet sans en indiquer l’ordre dans le script lui-mˆeme (cf. section7.2). Il serait donc int´eressant d’impl´ementer des macros permettant de telles op´erations.

7.5.2 Conclusion

Nous avons d´evelopp´e un outil pour g´en´erer des lexiques syntaxiques pour le TAL `

a partir des tables du Lexique-Grammaire nomm´e LGExtract. Une table des classes est utilis´ee pour fournir les informations manquantes dans les classes : cela rend expli- cite toutes les informations implicites sous-jacentes `a ces classes. Un script d’extraction par cat´egorie associe `a chaque propri´et´e un ensemble d’op´erations qui est activ´e pour

chaque entr´ee lorsque la propri´et´e est vraie. Appliqu´e aux tables du Lexique-Grammaire du fran¸cais de toutes les cat´egories (verbes distributionnels, noms pr´edicatifs, expres- sions fig´ees et adverbes), cet outil produit un lexique syntaxique exploitable dans les applications de TAL, telles que l’analyse syntaxique.

C’est `a partir des entr´ees de la version textuelle du lexique LGLex que nous avons ef- fectu´e une conversion vers le format Alexina, c’est-`a-dire le format du lexique syntaxique Lefff, pour permettre son int´egration dans l’analyseur syntaxique frmg.

8

Conversion au format Lefff

La cr´eation du lexique LGLex nous a permis d’envisager l’utilisation des tables du Lexique-Grammaire dans un analyseur syntaxique `a grande ´echelle, l’analyseur frmg (Thomasset et de La Clergerie,2005). L’exploitation de l’ensemble des informations lexi- cales repr´esent´ees dans les tables du Lexique-Grammaire dans le contexte d’un analyseur syntaxique n´ecessite de r´epondre `a trois d´efis :

– repr´esentation enti`erement formalis´ee de ces informations lexicales ; – couplage avec un analyseur syntaxique ;

– ´evaluation comparative avec d’autres ressources lexicales, `a la fois au niveau des entr´ees et au niveau des performances de l’analyseur.

Ce chapitre et les suivants d´ecrivent la fa¸con dont nous avons r´epondu `a ces d´efis, en commen¸cant tout d’abord par la conversion des verbes et des noms pr´edicatifs du lexique LGLex au format Lefff (cf. section4.1), comme nous l’avons d´ecrit dansSagot et Tolone

(2009b); Tolone et Sagot (2011). La section 8.1 pr´esente les fondements linguistiques et la m´ethodologie pratique de la conversion de LGLex au format Lefff, en terminant par les probl`emes que posent la conversion des expressions fig´ees. Enfin, la section 8.2

pr´esente le lexique obtenu.

8.1 Conversion du lexique LGLex en un lexique au

format Alexina

Comme nous l’avons mentionn´e en 2.2.2, la plupart des lexiques syntaxiques ne contiennent que des entr´ees verbales, `a l’exception des tables du Lexique-Grammaire et du Lefff, ce dernier ´etant dans un format TAL directement exploitable dans un ana- lyseur syntaxique, ce qui n’est pas le cas des tables. Le format Lefff est donc le plus adapt´e. C’est pourquoi nous avons r´ealis´e la conversion des tables des verbes simples

et des noms pr´edicatifs au format Lefff `a partir du lexique LGLex. Le mˆeme travail est ´egalement en cours pour les tables d’expressions fig´ees (voir 8.1.6)1. Le script ´ecrit en

Perl effectuant cette conversion se nomme LGLex2ilex et fait partie de la distribution actuelle du Lefff2.

La conversion se fait en quatre ´etapes : identification de la construction de base et de ses variantes (8.1.1), construction des cadres de sous-cat´egorisation au format Lefff (8.1.2), construction des listes de redistributions associ´ees `a chaque entr´ee (8.1.3), ajout aux entr´ees des informations compl´ementaires (8.1.4), que nous illustrons par des exemples d’entr´ees compl`etes (8.1.5). Enfin, nous d´etaillons le travail amorc´e pour les expressions fig´ees (8.1.6).

8.1.1 D´ecoupage en entr´ees : la construction de base et ses

variantes

Une entr´ee donn´ee dans le lexique LGLex est associ´ee `a diverses constructions. Parmi celles-ci, on peut distinguer plusieurs types de constructions :

1. la construction de base choisie comme r´ef´erence pour le calcul des autres ;

2. les constructions de base ´etendues, obtenues par adjonction d’arguments `a la construction de base. Une grande partie des constructions sont des interm´ediaires entre la construction de base et une construction dite de base maximalement ´etendue ou CBME. Par exemple, l’entr´ee de rassembler dans la table 32PL (Max a rassembl´e ses articles (E+dans un ouvrage)) a pour construction de base la construction transitive simpleN0 V N1, mais la possibilit´e d’ajouter un compl´ement enLoc N2 conduit `a une CBME de la forme N0 V N1 Loc N2;

3. les constructions qui sont des variantes de la construction de base, obtenues par ef- facement d’un ou de plusieurs arguments, ou par changement de type de r´ealisation (Qu P devenantV0-inf W, par exemple) ;

4. les constructions qui sont en r´ealit´e des redistributions (constructions relatives telles que [passif de], constructions absolues de type N1 est Vpp de ce Qu P, cf. sec- tion 7.3).

5. les constructions qui ne sont pas des variantes de la CBME mais qui ne sont pas consid´er´ees comme des redistributions dans le format Lefff. Par exemple, dans la table 9, la CBME estN0 V N1 `a N2 de Nhumpour certaines entr´ees. Le compl´ement des constructions N0 V apr`es Nhum et N0 V contre Nhum est incompatible avec les compl´ements de la CBME :

Paul ´ecrit `a Marie de Luc qu’il est g´enial

1. Notons que la conversion des adverbes au format Lefff n’a pas ´et´e envisag´ee pour le moment, car le Lefff contient d´ej`a la liste de tous les adverbes pr´esents dans les tables (sans prendre en compte les variantes, cf. section7.3avec pour exemple l’entr´ee jusqu’`a la fin des temps) et que frmg ne fait que les int´egrer `a tous les endroits possibles dans une phrase sans tenir compte de leur construction syntaxique. 2. Notons qu’il est ´egalement disponible sur le site http://infolingu.univ-mlv.fr/ (Donn´ees Linguistiques > Lexique-Grammaire > T´el´echargement).

8.1 Conversion du lexique LGLex en un lexique au format Alexina Luc ´ecrit contre Bush

*Luc ´ecrit contre Bush `a Marie de Luc qu’il est g´enial

De par leur origine, les informations pr´esentes dans la sectionargsd’une entr´ee LGLex participent `a la d´efinition de constructions qui sont des variantes de la construction de base, ´etendue ou non (cas 2 et 3). Pour identifier les entr´ees au format Lefff `a cr´eer `a partir d’une entr´ee LGLex, il faut donc identifier, parmi les constructions list´ees dans la section all-constructions la construction de base maximalement ´etendue (CBME).

Pour identifier la CBME, nous avons d´evelopp´e une m´ethode pour aligner deux constructions, c’est-`a-dire construire des correspondances entre arguments, malgr´e leurs diff´erences de surface (par exemple, Qu PetN1, ou encore`a N1etPr´ep N1si l’on sait par ailleurs, grˆace `a la section lexical-info ou `a la distribution concern´ee, que la Pr´ep peut ˆ

etre `a) et leur possible effacement. Les extensions de la construction de base sont alors identifi´ees comme ´etant celles qui s’alignent avec la construction de base3, `a l’exception

d’un ou plusieurs arguments suppl´ementaires. La CBME est alors la construction ob- tenue en rajoutant `a la construction de base l’ensemble des arguments suppl´ementaires possibles4.

Nous identifions alors les variantes de cette CBME `a l’aide de ce mˆeme algorithme d’alignement5. Pour chaque variante, nous construisons une s´equence d’op´erations

´

el´ementaires permettant de la reconstituer `a partir de la CBME. Ces op´erations permettront de construire, pour chaque argument, la liste de ses r´ealisations possibles, et de d´eterminer si elles sont effa¸cables ou non.

`

A titre d’exemple, voici au format LGLex l’entr´ee du verbe ruisseler de la table 35L : ID=V_35L_76;status=to complete lexical-info=[cat="verb", verb=[lemma="ruisseler"], aux-list=(avoir="true"),prepositions=(), locatifs=(loc=[id="1",list=()],loc=[id="2",list=()])] args=(const=[pos="0", dist=(comp=[cat="NP",nothum="true", introd-prep=(),introd-loc=(), origin=(orig="N0 =: N-hum")])], const=[pos="1", dist=(comp=[cat="NP",source="true", introd-prep=(),introd-loc=(prep="de",prep="de chez"), origin=(orig="Loc N1 =: de N1 source")])],

3. La construction de base fait partie des propri´et´es pr´ec´ed´ees de la mentiontrue:: dans la sous- sectionabsolutedu lexique LGLex (cf. section7.3). S’il y en a plusieurs, on prend la premi`ere appa- raissant dans le lexique.

4. La situation est en r´ealit´e plus complexe. En effet, certains de ces arguments suppl´ementaires ne prennent part `a aucune des constructions, et ne sont connus que grˆace `a leur description dans la section argsde l’entr´ee. Elles sont prises en compte correctement par notre processus.

5. `A l’exception de certaines constructions relatives, telles quePpv =: y, pour lesquelles la descrip- tion de la variante correspondante est obtenue directement.

const=[pos="2",

dist=(comp=[cat="NP",destination="true",

introd-prep=(),introd-loc=(prep="vers",prep="dans"), origin=(orig="Loc N2 =: vers N2 destination",

orig="Loc N2 =: dans N2 destination")])]) all-constructions=[absolute=(construction="true::N0 V Loc N1",

construction="o::N0 V",

construction="o::N0 V Loc N1 source Loc N2

destination", construction="o::N0 ^etre V-ant"),

relative=(construction="Ppv =: y", construction="Ppv =: en", construction="[extrap]")]

example=[example="L’eau ruisselle de la goutti`ere sur les passants"]

La construction de base est donc N0 V Loc N1 (cas 1). Les indications s´emantiques de type source et destination ´etant ignor´ees, la construction N0 V Loc N1 source Loc N2 destination en est l’unique extension, il s’agit donc de la CBME (cas 2). La construction de base devient une variante de la CBME, par efface- ment de l’argument 2. La constructionN0 Vest ´egalement identifi´ee comme une variante de la CBME, par double effacement (cas 3). La construction N0 ˆetre V-ant est laiss´ee de cˆot´e pour l’instant. Du cˆot´e des constructions relatives, on trouve la construction Ppv =: y (respectivement, Ppv =: en) qui permettra d’ajouter y (respectivement, en) `

a la liste des r´ealisations de l’argument locatif (respectivement, d´elocatif) (cas 3). Enfin, la construction [extrap] induira l’adjonction d’une redistribution impersonnelle (%actif impersonnel) `a l’entr´ee (cas 4).

Les constructions qui rel`event du cas 5 re¸coivent un traitement par d´efaut, qui peut ˆetre de deux types :

– si l’on veut pr´eserver au mieux le d´ecoupage original en entr´ees, ces constructions donnent lieu `a la cr´eation de redistributions (au sens du Lefff) ad hoc qui ne sont pas d´efinies formellement ;

– si l’on veut pr´eserver l’utilisabilit´e dans les outils automatiques (compilation `a la Lefff puis utilisation dans un analyseur syntaxique), ces constructions donnent lieu `

a la cr´eation d’entr´ees distinctes, dites entr´ees secondaires (voir l’option -nuc ex- pliqu´ee dans l’annexe D).

Notons que les entr´ees secondaires cr´ees ont le mˆeme identifiant. Le d´ecoupage original peut donc ˆetre retrouv´e, en associant `a chaque identifiant (et non entr´ee) l’ensemble des constructions.

Pour certaines constructions, il semble qu’elles auraient dˆu conduire `a cr´eer des entr´ees secondaires avec un nouvel identifiant car leur sens est diff´erent. Par exemple, dans la table 13, la construction de base est N0 V N1 de N2 et certaines entr´ees acceptent la transformationN1 se V de ce Qu P :

Max f´elicite Luc qu’il ait r´eussi `a s´eduire L´ea

8.1 Conversion du lexique LGLex en un lexique au format Alexina Mais par exemple, pour l’entr´ee instruire, le sens reste le mˆeme :

Jo a instruit Luc de ce qui s’est pass´e Luc s’est instruit de ce qui s’est pass´e

Cela montre qu’il n’y a pas besoin de cr´eer d’entr´ee secondaire avec un identifiant diff´erent, mais plutˆot qu’il faudrait retirer des tables les codages + qui ne respectent pas le principe d’avoir un sens par entr´ee.

8.1.2 Construction des cadres de sous-cat´egorisation

Une fois r´epertori´ees les entr´ees `a produire, les cadres de sous-cat´egorisation sont construits. Pour cela, on construit d’abord le cadre correspondant `a la construction maximale de chaque entr´ee (la CBME pour l’entr´ee canonique, ou l’unique construction des entr´ees secondaires). Pour cela, on utilise des heuristiques permettant de d´efinir la fonction syntaxique de chaque argument, ainsi que sa r´ealisation canonique.

Les fonctions syntaxiques sont obtenues de la fa¸con suivante. Tout d’abord, le premier argument re¸coit toujours la fonction Suj6. Le premier argument post-verbal, s’il est direct, se voit attribuer la fonctionObj, sauf pour les entr´ees de la table 32NM7. Ensuite,

un argument introduit par `a (respectivement, de) re¸coit la fonction syntaxique Obj`a (respectivement, Objde), sauf si un indice compl´ementaire vient contredire ce choix8.

Les arguments introduits par Loc ont la fonction syntaxiqueLoc, sauf ceux de la forme Loc Ni sourceou v´erifiantLoc Ni =: de Ni source, qui ont la fonction syntaxiqueDloc. Enfin, les autres arguments sont consid´er´es comme desAtts’ils sont directs, et comme des Obl s’ils sont introduits par une pr´eposition (Obl2si un Obl existe d´ej`a).

Pour les noms pr´edicatifs, le mˆeme ensemble de fonctions est utilis´e, mais le verbe est remplac´e par un verbe support suivi d’un groupe nominal n’ayant pas de fonction syntaxique.

Les r´ealisations de ces fonctions sont construites en deux temps. Tout d’abord, le type de syntagme (nominal, infinitif, phrastique, etc.) est d´etermin´e. La r´ealisationscomplcor- respond aux distributions de cat´egorie comp et ceComp ainsi qu’aux arguments dans les constructions en Qu P. La r´ealisation sinf correspond aux distributions de cat´egorie inf et aux arguments en Vi-inf W. La r´ealisation qcompl correspond aux distributions de cat´egorie siPOuSiP. La r´ealisation sncorrespond aux distributions de cat´egorie NP et leFaitComp et aux arguments en Ni. Enfin, la r´ealisation sa correspond aux dis- tributions de cat´egorie adj. De plus, la r´ealisation cln (clitique nominatif) est ajout´ee syst´ematiquement `a la fonction syntaxique Suj.

Ceci accompli, il reste `a lister les introducteurs possibles. L’ensemble des pr´epositions et autres introducteurs (par exemple, et ) sont pris en compte. En particulier, la 6. Les constructions impersonnelles sont toutes obtenues sous forme de redistributions, puisque la table 31I ne fait plus partie des entr´ees verbales du lexique LGLex.

7. Cette table rassemble les verbes `a pseudo-objet de type peser (Le sac p`ese 10 kg) ou sentir (Cette pi`ece sent la fum´ee).

8. Par exemple, pour un argumentN1introduit par `a, la propri´et´e`a N1 = Ppv =: lelui conf´erera la fonction syntaxique Obj(comme dans Il apprend `a conduire / Il l’apprend ), alors que la propri´et´e `

pr´eposition est parfois Pr´ep. Il faut alors extraire la liste des pr´epositions possibles de la section lexical-info de l’entr´ee LGLex (dans le champ prepositions) et/ou dans la distribution concern´ee (dans le champintrod-prep). Lorsque la pr´eposition estLoc, elle peut ˆetre pr´ecis´ee par les mˆemes moyens que Pr´ep (quoique dans des champs distincts : locatifs et introd-loc), mais ce n’est pas obligatoire (toute pr´eposition locative ´etant alors admise).

Le r´esultat de ces heuristiques est le cadre de sous-cat´egorisation au format Lefff pour la construction maximale de l’entr´ee. Ainsi, la CBME de l’exemple pr´ec´edent devient : <Suj:sn|cln,Dloc:sn,Loc:sn>

Les constructions maximales des entr´ees qui sont canoniques (leur construction maxi- male est une CBME) doivent alors ˆetre compl´et´ees. Pour cela, nous ajoutons tout d’abord les r´ealisations issues de constructions telles que Loc N1 = Ppv =: y. On peut avoir cln pour le clitique nominatif,cla pour le clitique accusatif,cld pour le clitique datif,ypour le clitique locatif, en pour le clitique g´enitif.

Nous r´epercutons ensuite pour chaque variante de la CBME la s´equence d’op´erations ´el´ementaires permettant de les d´eriver de la CBME de la fa¸con suivante : tout effacement d’un argument rend l’argument facultatif ; tout changement de r´ealisation induit une nouvelle r´ealisation possible de la fonction syntaxique concern´ee.

Les d´ependances entre ces op´erations (par exemple, tel argument est effa¸cable seulement si tel autre l’est aussi) sont perdues : tout effacement est consid´er´e comme possible sans condition, alors mˆeme qu’il peut ne venir que d’une seule construction. De mˆeme, toute r´ealisation d’un argument autoris´ee par une construction devient possible quelles que soient les r´ealisations des autres arguments. Il s’agit l`a formellement d’une approximation des donn´ees linguistiques pr´esentes dans les tables (et dans le lexique LGLex). Cette approximation a le m´erite de permettre de diminuer au maximum le

Documents relatifs