Discussion - Analyse syntaxique à l'aide des tables du Lexique-Grammaire du français

Nous effectuons un bilan sur notre outil LGExtract (7.5.1), avant de conclure (7.5.2).

7.5.1 Avantages et inconv´enients de LGExtract

La construction du lexique LGLex nous a permis d’identifier clairement les avantages et inconv´enients de notre outil. Son avantage principal est l’utilisation de la table des classes. En pratique, toute l’information manquante est rassembl´ee dans un seul fichier et non dans autant de fichiers que de classes, comme dans l’approche deGardent et al.

(2006). De plus, il apporte une vision linguistique plus globale : auparavant, la méthode pour générer un lexique syntaxique à partir des tables du Lexique-Grammaire était de trouver les propriétés définitoires de chaque classe et de les rendre explicites. Maintenant, avec la table des classes, on peut chercher si une propriété donnée est intéressante pour

16. Le code dedetN(comme vu pr´ec´edemment) et deleest : define detN detN [noun=[],list-det-modif=()] ;

7.5 Discussion une classe donnée, et cela pour l’ensemble des propriétés de toutes les classes de la catégorie concernée. Ceci fait apparaˆıtre de nouvelles questions linguistiques dans le cadre des tables du Lexique-Grammaire.

De plus, la combinaison de LGExtract avec la table des classes simplifie la maintenance du lexique syntaxique. D’abord, toutes les opérations de chaque propriété sont encodées une seule fois dans le script, indépendamment de chaque classe. Ensuite, s’il survient qu’une nouvelle propriété est constante sur toute une classe, il faut simplement ajouter un symbole + dans la case correspondante de la table des classes. Le script n’a pas besoin d’être modifié pour ajouter cette information dans le lexique généré, étant donné que toutes les opérations concernant cette propriété ont déjà été codées.

Le système nécessite que chaque propriété possède exactement une signification dans toutes les classes. L’emploi de cet outil nous a permis de garder la table des classes cohérente. C’est ainsi qu’auparavant, la propriété zone était une zone de texte dans plusieurs classes mais avec des interprétation différentes :

– dans la plupart des tables, elle fournissait la valeur lexicale des prépositions introdui- sant les compléments verbaux indépendamment de leur position dans la construction canonique (que nous avons renommée Prép1,Prép2ou Prép3selon les cas) ;

– dans la table 38L0, elle indiquait le suffixe à ajouter au verbe afin d’obtenir son nom dérivé (renomméesuffixeN) ;

– dans les tables 32R3 et 35R, elle donnait un exemple de complément (renommée thèmeN1).

Nous avons dû ajouter de nouvelles propriétés afin qu’il y en ait une par sens. En particulier, les prépositions ont été numérotées pour qu’il soit possible d’identifier directement les compléments qu’elles introduisent.

Toutefois, certaines limitations sont clairement apparues. Il est parfois nécessaire de répéter des dizaines d’opérations similaires sur des ensembles de propriétés. Par exemple, il est nécessaire de créer manuellement pour chaque propriété des objets linguistiques différents seulement par leur numérotation. Cela est dû au fait que le script ne permet pas de faire des boucles, des fonctions avec paramètres, des tableaux et de la création dynamique d’objets linguistiques. De plus, le programme n’est pas capable d’effectuer des opérations dans un ordre requis. Par exemple, dans les classes dont l’entrée comporte plusieurs mots, comme les classes de noms composés, d’expressions figées ou d’adverbes (semi-)figés, les différents composants de l’entrée sont codés dans plusieurs colonnes successives selon leur ordre d’apparition. Mais il est impossible d’obtenir le nom complet sans en indiquer l’ordre dans le script lui-même (cf. section7.2). Il serait donc intéressant d’implémenter des macros permettant de telles opérations.

7.5.2 Conclusion

Nous avons développé un outil pour générer des lexiques syntaxiques pour le TAL `

a partir des tables du Lexique-Grammaire nommé LGExtract. Une table des classes est utilisée pour fournir les informations manquantes dans les classes : cela rend expli- cite toutes les informations implicites sous-jacentes à ces classes. Un script d’extraction par catégorie associe à chaque propriété un ensemble d’opérations qui est activé pour

chaque entrée lorsque la propriété est vraie. Appliqué aux tables du Lexique-Grammaire du fran¸cais de toutes les catégories (verbes distributionnels, noms prédicatifs, expressions figées et adverbes), cet outil produit un lexique syntaxique exploitable dans les applications de TAL, telles que l’analyse syntaxique.

C’est à partir des entrées de la version textuelle du lexique LGLex que nous avons ef- fectué une conversion vers le format Alexina, c’est-à-dire le format du lexique syntaxique Lefff, pour permettre son int´_{egration dans l’analyseur syntaxique frmg.}

8

Conversion au format Lefff

La création du lexique LGLex nous a permis d’envisager l’utilisation des tables du Lexique-Grammaire dans un analyseur syntaxique à grande ´_{echelle, l’analyseur frmg} (Thomasset et de La Clergerie,2005). L’exploitation de l’ensemble des informations lexicales représentées dans les tables du Lexique-Grammaire dans le contexte d’un analyseur syntaxique nécessite de répondre à trois défis :

– représentation entièrement formalisée de ces informations lexicales ; – couplage avec un analyseur syntaxique ;

– évaluation comparative avec d’autres ressources lexicales, à la fois au niveau des entrées et au niveau des performances de l’analyseur.

Ce chapitre et les suivants décrivent la fa¸con dont nous avons répondu à ces défis, en commen¸cant tout d’abord par la conversion des verbes et des noms prédicatifs du lexique LGLex au format Lefff (cf. section4.1), comme nous l’avons décrit dansSagot et Tolone

(2009b); Tolone et Sagot (2011). La section 8.1 présente les fondements linguistiques et la méthodologie pratique de la conversion de LGLex au format Lefff, en terminant par les problèmes que posent la conversion des expressions figées. Enfin, la section 8.2

pr´esente le lexique obtenu.

8.1 Conversion du lexique LGLex en un lexique au

format Alexina

Comme nous l’avons mentionné en 2.2.2, la plupart des lexiques syntaxiques ne contiennent que des entrées verbales, à l’exception des tables du Lexique-Grammaire et du Lefff, ce dernier étant dans un format TAL directement exploitable dans un analyseur syntaxique, ce qui n’est pas le cas des tables. Le format Lefff est donc le plus adapté. C’est pourquoi nous avons réalisé la conversion des tables des verbes simples

et des noms prédicatifs au format Lefff à partir du lexique LGLex. Le même travail est également en cours pour les tables d’expressions figées (voir 8.1.6)1_{. Le script ´}_{ecrit en}

Perl effectuant cette conversion se nomme LGLex2ilex et fait partie de la distribution actuelle du Lefff2.

La conversion se fait en quatre étapes : identification de la construction de base et de ses variantes (8.1.1), construction des cadres de sous-catégorisation au format Lefff (8.1.2), construction des listes de redistributions associées à chaque entrée (8.1.3), ajout aux entrées des informations complémentaires (8.1.4), que nous illustrons par des exemples d’entrées complètes (8.1.5). Enfin, nous détaillons le travail amorcé pour les expressions figées (8.1.6).

8.1.1 D´ecoupage en entr´ees : la construction de base et ses

variantes

Une entrée donnée dans le lexique LGLex est associée à diverses constructions. Parmi celles-ci, on peut distinguer plusieurs types de constructions :

1. la construction de base choisie comme r´ef´erence pour le calcul des autres ;

2. les constructions de base étendues, obtenues par adjonction d’arguments à la construction de base. Une grande partie des constructions sont des intermédiaires entre la construction de base et une construction dite de base maximalement étendue ou CBME. Par exemple, l’entrée de rassembler dans la table 32PL (Max a rassemblé ses articles (E+dans un ouvrage)) a pour construction de base la construction transitive simpleN0 V N1, mais la possibilité d’ajouter un complément enLoc N2 conduit à une CBME de la forme N0 V N1 Loc N2;

3. les constructions qui sont des variantes de la construction de base, obtenues par effacement d’un ou de plusieurs arguments, ou par changement de type de r´ealisation (Qu P devenantV0-inf W, par exemple) ;

4. les constructions qui sont en r´ealit´e des redistributions (constructions relatives telles que [passif de], constructions absolues de type N1 est Vpp de ce Qu P, cf. section 7.3).

5. les constructions qui ne sont pas des variantes de la CBME mais qui ne sont pas considérées comme des redistributions dans le format Lefff. Par exemple, dans la table 9, la CBME estN0 V N1 à N2 de Nhumpour certaines entrées. Le complément des constructions N0 V après Nhum et N0 V contre Nhum est incompatible avec les compléments de la CBME :

Paul écrit à Marie de Luc qu’il est génial

1. Notons que la conversion des adverbes au format Lefff n’a pas été envisagée pour le moment, car le Lefff contient déjà la liste de tous les adverbes présents dans les tables (sans prendre en compte les variantes, cf. section7.3avec pour exemple l’entrée jusqu’`_{a la fin des temps) et que frmg ne fait que les} intégrer à tous les endroits possibles dans une phrase sans tenir compte de leur construction syntaxique. 2. Notons qu’il est également disponible sur le site http://infolingu.univ-mlv.fr/ (Données Linguistiques > Lexique-Grammaire > Téléchargement).

8.1 Conversion du lexique LGLex en un lexique au format Alexina Luc ´ecrit contre Bush

*Luc écrit contre Bush à Marie de Luc qu’il est génial

De par leur origine, les informations présentes dans la sectionargsd’une entrée LGLex participent à la définition de constructions qui sont des variantes de la construction de base, étendue ou non (cas 2 et 3). Pour identifier les entrées au format Lefff à créer à partir d’une entrée LGLex, il faut donc identifier, parmi les constructions listées dans la section all-constructions la construction de base maximalement étendue (CBME).

Pour identifier la CBME, nous avons développé une méthode pour aligner deux constructions, c’est-à-dire construire des correspondances entre arguments, malgré leurs différences de surface (par exemple, Qu PetN1, ou encoreà N1etPrép N1si l’on sait par ailleurs, grâce à la section lexical-info ou à la distribution concernée, que la Prép peut ˆ

etre à) et leur possible effacement. Les extensions de la construction de base sont alors identifiées comme étant celles qui s’alignent avec la construction de base3_{, `}_{a l’exception}

d’un ou plusieurs arguments supplémentaires. La CBME est alors la construction obtenue en rajoutant à la construction de base l’ensemble des arguments supplémentaires possibles4_.

Nous identifions alors les variantes de cette CBME `a l’aide de ce mˆeme algorithme d’alignement5_{. Pour chaque variante, nous construisons une s´}_{equence d’op´}_erations

elémentaires permettant de la reconstituer à partir de la CBME. Ces opérations permettront de construire, pour chaque argument, la liste de ses réalisations possibles, et de déterminer si elles sont effa¸cables ou non.

A titre d’exemple, voici au format LGLex l’entr´ee du verbe ruisseler de la table 35L : ID=V_35L_76;status=to complete lexical-info=[cat="verb", verb=[lemma="ruisseler"], aux-list=(avoir="true"),prepositions=(), locatifs=(loc=[id="1",list=()],loc=[id="2",list=()])] args=(const=[pos="0", dist=(comp=[cat="NP",nothum="true", introd-prep=(),introd-loc=(), origin=(orig="N0 =: N-hum")])], const=[pos="1", dist=(comp=[cat="NP",source="true", introd-prep=(),introd-loc=(prep="de",prep="de chez"), origin=(orig="Loc N1 =: de N1 source")])],

3. La construction de base fait partie des propriétés précédées de la mentiontrue:: dans la sous- sectionabsolutedu lexique LGLex (cf. section7.3). S’il y en a plusieurs, on prend la première appa- raissant dans le lexique.

4. La situation est en réalité plus complexe. En effet, certains de ces arguments supplémentaires ne prennent part à aucune des constructions, et ne sont connus que grâce à leur description dans la section argsde l’entrée. Elles sont prises en compte correctement par notre processus.

5. `A l’exception de certaines constructions relatives, telles quePpv =: y, pour lesquelles la description de la variante correspondante est obtenue directement.

const=[pos="2",

dist=(comp=[cat="NP",destination="true",

introd-prep=(),introd-loc=(prep="vers",prep="dans"), origin=(orig="Loc N2 =: vers N2 destination",

orig="Loc N2 =: dans N2 destination")])]) all-constructions=[absolute=(construction="true::N0 V Loc N1",

construction="o::N0 V",

construction="o::N0 V Loc N1 source Loc N2

destination", construction="o::N0 ^etre V-ant"),

relative=(construction="Ppv =: y", construction="Ppv =: en", construction="[extrap]")]

example=[example="L’eau ruisselle de la goutti`ere sur les passants"]

La construction de base est donc N0 V Loc N1 (cas 1). Les indications sémantiques de type source et destination étant ignorées, la construction N0 V Loc N1 source Loc N2 destination en est l’unique extension, il s’agit donc de la CBME (cas 2). La construction de base devient une variante de la CBME, par effacement de l’argument 2. La constructionN0 Vest également identifiée comme une variante de la CBME, par double effacement (cas 3). La construction N0 être V-ant est laissée de côté pour l’instant. Du côté des constructions relatives, on trouve la construction Ppv =: y (respectivement, Ppv =: en) qui permettra d’ajouter y (respectivement, en) `

a la liste des réalisations de l’argument locatif (respectivement, délocatif) (cas 3). Enfin, la construction [extrap] induira l’adjonction d’une redistribution impersonnelle (%actif impersonnel) à l’entrée (cas 4).

Les constructions qui relèvent du cas 5 re¸coivent un traitement par défaut, qui peut être de deux types :

– si l’on veut préserver au mieux le découpage original en entrées, ces constructions donnent lieu à la création de redistributions (au sens du Lefff) ad hoc qui ne sont pas définies formellement ;

– si l’on veut préserver l’utilisabilité dans les outils automatiques (compilation à la Lefff puis utilisation dans un analyseur syntaxique), ces constructions donnent lieu `

a la création d’entrées distinctes, dites entrées secondaires (voir l’option -nuc ex- pliquée dans l’annexe D).

Notons que les entrées secondaires crées ont le même identifiant. Le découpage original peut donc être retrouvé, en associant à chaque identifiant (et non entrée) l’ensemble des constructions.

Pour certaines constructions, il semble qu’elles auraient dû conduire à créer des entrées secondaires avec un nouvel identifiant car leur sens est différent. Par exemple, dans la table 13, la construction de base est N0 V N1 de N2 et certaines entrées acceptent la transformationN1 se V de ce Qu P :

Max félicite Luc qu’il ait réussi à séduire Léa

8.1 Conversion du lexique LGLex en un lexique au format Alexina Mais par exemple, pour l’entr´ee instruire, le sens reste le mˆeme :

Jo a instruit Luc de ce qui s’est pass´e Luc s’est instruit de ce qui s’est pass´e

Cela montre qu’il n’y a pas besoin de créer d’entrée secondaire avec un identifiant différent, mais plutôt qu’il faudrait retirer des tables les codages + qui ne respectent pas le principe d’avoir un sens par entrée.

8.1.2 Construction des cadres de sous-cat´egorisation

Une fois répertoriées les entrées à produire, les cadres de sous-catégorisation sont construits. Pour cela, on construit d’abord le cadre correspondant à la construction maximale de chaque entrée (la CBME pour l’entrée canonique, ou l’unique construction des entrées secondaires). Pour cela, on utilise des heuristiques permettant de définir la fonction syntaxique de chaque argument, ainsi que sa réalisation canonique.

Les fonctions syntaxiques sont obtenues de la fa¸con suivante. Tout d’abord, le premier argument re¸coit toujours la fonction Suj6. Le premier argument post-verbal, s’il est direct, se voit attribuer la fonctionObj, sauf pour les entr´ees de la table 32NM7_{. Ensuite,}

un argument introduit par à (respectivement, de) re¸coit la fonction syntaxique Objà (respectivement, Objde), sauf si un indice complémentaire vient contredire ce choix8_.

Les arguments introduits par Loc ont la fonction syntaxiqueLoc, sauf ceux de la forme Loc Ni sourceou vérifiantLoc Ni =: de Ni source, qui ont la fonction syntaxiqueDloc. Enfin, les autres arguments sont considérés comme desAtts’ils sont directs, et comme des Obl s’ils sont introduits par une préposition (Obl2si un Obl existe déjà).

Pour les noms prédicatifs, le même ensemble de fonctions est utilisé, mais le verbe est remplacé par un verbe support suivi d’un groupe nominal n’ayant pas de fonction syntaxique.

Les réalisations de ces fonctions sont construites en deux temps. Tout d’abord, le type de syntagme (nominal, infinitif, phrastique, etc.) est déterminé. La réalisationscomplcor- respond aux distributions de catégorie comp et ceComp ainsi qu’aux arguments dans les constructions en Qu P. La réalisation sinf correspond aux distributions de catégorie inf et aux arguments en Vi-inf W. La réalisation qcompl correspond aux distributions de catégorie siPOuSiP. La réalisation sncorrespond aux distributions de catégorie NP et leFaitComp et aux arguments en Ni. Enfin, la réalisation sa correspond aux distributions de catégorie adj. De plus, la réalisation cln (clitique nominatif) est ajoutée systématiquement à la fonction syntaxique Suj.

Ceci accompli, il reste à lister les introducteurs possibles. L’ensemble des prépositions et autres introducteurs (par exemple, et ) sont pris en compte. En particulier, la 6. Les constructions impersonnelles sont toutes obtenues sous forme de redistributions, puisque la table 31I ne fait plus partie des entrées verbales du lexique LGLex.

7. Cette table rassemble les verbes à pseudo-objet de type peser (Le sac pèse 10 kg) ou sentir (Cette pièce sent la fumée).

8. Par exemple, pour un argumentN1introduit par à, la propriétéà N1 = Ppv =: lelui conférera la fonction syntaxique Obj(comme dans Il apprend à conduire / Il l’apprend ), alors que la propriété `

préposition est parfois Prép. Il faut alors extraire la liste des prépositions possibles de la section lexical-info de l’entrée LGLex (dans le champ prepositions) et/ou dans la distribution concernée (dans le champintrod-prep). Lorsque la préposition estLoc, elle peut être précisée par les mêmes moyens que Prép (quoique dans des champs distincts : locatifs et introd-loc), mais ce n’est pas obligatoire (toute préposition locative étant alors admise).

Le résultat de ces heuristiques est le cadre de sous-catégorisation au format Lefff pour la construction maximale de l’entrée. Ainsi, la CBME de l’exemple précédent devient : <Suj:sn|cln,Dloc:sn,Loc:sn>

Les constructions maximales des entrées qui sont canoniques (leur construction maximale est une CBME) doivent alors être complétées. Pour cela, nous ajoutons tout d’abord les réalisations issues de constructions telles que Loc N1 = Ppv =: y. On peut avoir cln pour le clitique nominatif,cla pour le clitique accusatif,cld pour le clitique datif,ypour le clitique locatif, en pour le clitique génitif.

Nous répercutons ensuite pour chaque variante de la CBME la séquence d’opérations élémentaires permettant de les dériver de la CBME de la fa¸con suivante : tout effacement d’un argument rend l’argument facultatif ; tout changement de réalisation induit une nouvelle réalisation possible de la fonction syntaxique concernée.

Les dépendances entre ces opérations (par exemple, tel argument est effa¸cable seulement si tel autre l’est aussi) sont perdues : tout effacement est considéré comme possible sans condition, alors même qu’il peut ne venir que d’une seule construction. De même, toute réalisation d’un argument autorisée par une construction devient possible quelles que soient les réalisations des autres arguments. Il s’agit là formellement d’une approximation des données linguistiques présentes dans les tables (et dans le lexique LGLex). Cette approximation a le mérite de permettre de diminuer au maximum le

Dans le document Analyse syntaxique à l'aide des tables du Lexique-Grammaire du français (Page 173-192)