• Aucun résultat trouvé

7.3 Le lexique LGLex

Grˆace `a LGExtract et `a tous les travaux de mise en coh´erence et d’explicitation des propri´et´es syntaxiques vus aux chapitres 5 et 6, il a ´et´e possible de construire un lexique syntaxique du fran¸cais pour le TAL : LGLex (Constant et Tolone, 2010). Il a ´et´e g´en´er´e `a partir des tables du Lexique-Grammaire librement distribu´ees de toutes les cat´egories, `a savoir les verbes distributionnels, les noms pr´edicatifs, les ex- pressions fig´ees et les adverbes. Il est ´egalement librement distribu´e sous licence LGPL- LR (http://infolingu.univ-mlv.fr, Donn´ees Linguistiques > Lexique-Grammaire > T´el´echargement). Les d´etails pour pouvoir g´en´erer le lexique LGLex sont expliqu´es dans l’annexe B.

Il est compos´e de 13 867 entr´ees verbales (provenant de 67 tables), de 12 696 entr´ees nominales (provenant de 78 tables), de 39 628 expressions fig´ees principalement verbales et adjectivales (provenant de 69 tables) et de 10 488 entr´ees adverbiales (provenant de 32 tables)4. De plus, il contient comme entr´ees secondaires : 3 334 entr´ees verbales

(provenant de 24 tables de noms pr´edicatifs), 1 408 entr´ees adjectivales (provenant de 8 tables de noms pr´edicatifs), 388 expressions fig´ees verbales (provenant de 2 tables d’adverbes) et 304 entr´ees adjectivales (provenant d’une table d’adverbes).

Le script d’extraction (pr´esent´e dans la section 7.4) encode seulement une s´election de propri´et´es, certaines ayant ´et´e ´elimin´ees car elles ne sont pas exploitables. C’est ainsi que nous avons ´elimin´e les propri´et´es concernant les noms d´eriv´es de verbes (V-n) sans information explicite sur la proc´edure de d´erivation5. De mˆeme, certaines propri´et´es concernant des traits s´emantiques tels que les noms de parties du corps, le sens m´etaphorique de la phrase (esprit, id´ee,mot, texte), etc. n’ont pas ´et´e jug´ees pertinentes. Prenons comme exemple la propri´et´e N2 =: d´eformation de la table 37M3, indiquant que l’objet N2 peut d´enoter le type de d´eformation subit par l’objet N1, comme dans La pluie a sillonn´e le terrain de crevasses. Il faudrait donc ´etablir une liste pr´ecise de tous les noms d´esignant une d´eformation, ce qui n’est pas ´evident car les crit`eres ne sont pas clairement d´efinis. Ainsi, les noms trou, creux, cavit´e, etc. sont des synonymes de crevasse dans l’exemple pr´ec´edent. Mais si l’on prend l’exemple Cet accident a coutur´e son visage de cicatrices, on doit tenir compte des noms comme brˆulure, ride, balafre, etc. qui sont des d´eformations du corps humain. Enfin, l’exemple Max a alt´er´e son texte d’annotations illustre la difficult´e d’´etablir une liste exhaustive, puisque le mot annotation est loin de d´esigner une d´eformation, ce qui pourtant ce r´ev`ele ˆetre vrai dans l’exemple pr´ec´edent. En effet, comme nous l’avons mentionn´e en 6.2.2, les crit`eres s´emantiques ou morphologiques justifiant le d´ecoupage des tables 37M2 `a 37M6 ne sont pas d´efinissables clairement et n’ont pas la moindre reproductibilit´e.

Dans le lexique LGLex, les informations syntaxiques sont repr´esent´ees de fa¸con par- 4. Les entr´ees ne sont autres que celles des tables, le nombre de lemmes distincts est donc ´egalement le mˆeme (voir la section6.6).

5. De plus, malgr´e le codage de certaines informations concernant lesV-ndans les tables de verbes (Paumier, 2003), la reconnaissance des V-n est un probl`eme compliqu´e qui soul`eve de nombreuses interrogations pour l’instant sans r´eponse.

tiellement formalis´ee. Dans sa version textuelle, une entr´ee de LGLex se pr´esente comme suit :

– l’entr´ee commence par un identifiant indiquant sa cat´egorie, la table dont il provient et le num´ero de l’entr´ee dans cette table (ID=cat´egorie numTable numEntr´ee), suivi du statut completed pour une entr´ee enti`erement cod´ee, to complete pour une entr´ee qui a au moins une propri´et´e non cod´ee6 ou to encode pour une entr´ee

qui a au moins la moiti´e de ses propri´et´es non cod´ees7;

– la section lexical-info indique les informations lexicales li´ees `a l’entr´ee :

– le lemme (correspondant `a l’entr´ee compl`ete, qu’elle soit simple ou compos´ee), et pour les entr´ees compos´ees, les diff´erents mots de l’entr´ee associ´es `a leur cat´egorie grammaticale, ainsi que pour certaines entr´ees nominales, l’adjectif ou le verbe morphologiquement d´eriv´e du nom ;

– mais ´egalement les auxiliaire(s) pour les entr´ees verbales, les verbes supports et les d´eterminants pour les entr´ees nominales, et les pr´epositions associ´ees `a certains arguments. Les pr´epositions possibles `a la place de l’indication Pr´ep (respective- ment, Loc) sont dans la partiepr´epositions (respectivement, locs) ;

– la section args d´ecrit les distributions des diff´erents arguments (sujet et compl´ements, r´epartis en sous-sections const dont la position est rep´er´ee par l’´el´ement pos). Une distribution donn´ee (´el´ement comp) indique :

– sa cat´egorie grammaticale :NPpour un syntagme nominal,infpour une infinitive (V-inf W),comppour une compl´etive (Qu P),leFaitComppour le groupe nominal le fait que P, siPOuSiP pour la compl´etive si P ou si P, adj pour un adjectif ; – son introducteur (´el´ement introd-prep ouintrod-loc) ;

– des traits s´emantiques : hum, nothum, plobl (pluriel obligatoire), npr (nom propre), abst (abstrait), conc (concret), source, destination, benef (b´en´eficiaire), mesure, prix, coll (collectif), plur (pluriel) ;

– des traits compl´ementaires (mood dans le cas d’une compl´etive, contrl dans le cas d’une infinitive) ;

– l’intitul´e complet des propri´et´es distributionnelles ayant contribu´e `a d´efinir cette distribution, qui sont toutes de la formeargument =: r´ealisation. Cette information n’est l`a qu’`a titre informatif, pour pouvoir faire le lien avec les tables d’origine. Cette section est donc bien formalis´ee ;

– la section all-constructions liste diff´erentes constructions dans lesquelles l’entr´ee peut prendre part :

– les constructions absolues (´el´ementabsolute) sont les constructions additionnelles `

a la construction de base, qui sont nomm´ees de fa¸con compl`ete, avec tous les 6. On appelle ici une propri´et´e non cod´ee, une propri´et´e pr´esente dans la table et cod´ee ∼. Cela ne tient pas compte du codage O dans la table des classes, qui signifie ´egalement que la propri´et´e doit ˆetre cod´ee, mais qui ne figure pas dans la table.

7. Le statutto complete permet de diff´erencier ces entr´ees de celles enti`erement cod´ees (statut complete), leur codage doit donc ˆetre compl´et´e. Le statutto encodepermet de rep´erer les entr´ees o`u seule la table des classes code certaines constantes et non la table concern´ee elle-mˆeme, il faut donc les coder enti`erement. En effet, mˆeme si une entr´ee est cod´ee enti`erement ∼, elle est difficilement d´etectable dans le lexique.

7.3 Le lexique LGLex ´

el´ements dans l’ordre (par exemple,N0 V N1) ;

– les constructions relatives (´el´ement relative) sont les propri´et´es transformation- nelles, qui correspondent aux redistributions (par exemple,[passif par]), pronomi- nalisations (par exemple, Ppv =: y), etc.

– les r´eductions en groupe nominal (´el´ement reductionsGN) sont pour les entr´ees nominales, les r´eductions de la construction de base vers une autre construction dans une autre cat´egorie syntaxique, dans le cas pr´esent, un groupe nominal (par exemple, le N entre N0 et N1) ;

– les constructions verbales (´el´ement verbales) sont les constructions accept´ees par le verbe associ´e `a une entr´ee nominale ;

– les structures des adverbes (semi-)fig´es (´el´ement structureAdv) d´efinissent l’ordre des diff´erents constituants d’une entr´ee adverbiale, ainsi que les possibles variantes (par exemple, Pr´ep1 Det1 C1 Pr´ep2 Det2 C2 etPr´ep1 Det1 C1, cf. 6.5.3). Les constructions cod´ees + (incluant la construction de base) dans la table des classes sont pr´ec´ed´ees de la mentiontrue::, les autres sont pr´ec´ed´ees de la mention o::. Cette section est donc bien moins bien formalis´ee que la pr´ec´edente, et les in- formations qu’elle contient ne sont pas directement exploitables informatiquement ; – la section exampleillustre l’entr´ee.

Pour plus de d´etails, voir l’annexe A.

L’exemple ci-dessous montre un extrait du lexique LGLex pour l’entr´ee verbale se rendre de la table 33 des verbes (cf. Fig.3.1)8. La construction de base estN0 V `a N1et l’argumentN1est effa¸cable puisque l’entr´ee accepte ´egalement la constructionN0 V `a N1. L’argument N0 doit ˆetre un groupe nominal humain, alors que l’argumentN1 peut ˆetre humain, non humain ou prendre la forme le fait que P, proche d’une compl´etive. Il accepte deux constructions transformationnelles, qui sont [extrap] etPpv =: y :

ID=V_33_130;status=completed lexical-info=[cat="verb", verb=[lemma="rendre",ppvse="true", aux-list=(etre="true"),prepositions=(),locatifs=()]] args=(const=[pos="0", dist=(comp=[cat="NP",hum="true", introd-prep=(),introd-loc=(), origin=(orig="N0 =: Nhum")])], const=[pos="1", dist=(comp=[cat="NP",hum="true", introd-prep=(),introd-loc=(), origin=(orig="N1 =: Nhum")] comp=[cat="NP",nothum="true", introd-prep=(),introd-loc=(), origin=(orig="N1 =: N-hum")] comp=[cat="leFaitComp", introd-prep=(),introd-loc=(), origin=(orig="N1 =: le fait Qu P")])])

8. La section 9.3 contient un autre extrait du lexique LGLex pour les entr´ees verbales croupir, croustiller et croˆuter de la table 31R.

all-constructions=[absolute=(construction="true::N0 V `a N1", construction="o::N0 V"),

relative=(construction="[extrap]", construction="Ppv =: y")] example=[example="Max s’est rendu `a mon(opinion+avis)"]

Voici un exemple du lexique LGLex pour l’entr´ee nominale canular de la table FNAN des noms pr´edicatifs (cf. Fig. 3.4). La construction de base est N0 faire Det N `a N1 et l’argument N1 est effa¸cable. Les arguments N0 et N1 doivent ˆetre des groupes nominaux humains. Il accepte les deux constructions N0 faire le N de V0-inf W et N0hum faire Det N `a N1hum sur ce point:

ID=N_fnan_29;status=completed lexical-info=[cat="noun", Vsup=[cat="verb",list=(value="faire")], noun=[notperm=[complete="canular"],noun1="canular"], detN=[list-det-modif=(det-modif=[det="un+une",modif="false"], det-modif=[det="un+une",modif="true"], det-modif=[det="des",modif="false"], det-modif=[det="<E>",modif="false"])], prepositions=()] args=(const=[pos="0", dist=(comp=[cat="NP",hum="true"])], const=[pos="1", dist=(comp=[cat="NP",hum="true"])])

all-constructions=[absolute=(construction="true::N0 faire Det N `a N1", construction="true::N0 faire Det N",

construction="o::N0 faire le N de V0-inf W", construction="o::N0hum faire Det N `a N1hum

sur ce point"), relative=(),

verbales=(), reductionsGN=()] example=[example=]

Voyons `a pr´esent un exemple du lexique LGLex pour l’entr´ee fig´ee avoir sur le cœur de la table C6 des expressions fig´ees (cf. Fig.3.5). Chacun des mots de l’entr´ee fig´ee est d´ecoup´e selon sa cat´egorie (verbe, pr´eposition du deuxi`eme argumentPr´ep2, d´eterminant du deuxi`eme argument Det2, nom fig´e C2 faisant ´egalement partie du deuxi`eme argu- ment) et le champ complete contient l’expression compl`ete. La construction de base est N0 V N1 Pr´ep2 Det2 C2, ce qui signifie que l’argument N1 est libre. L’argument N0 doit ˆetre un groupe nominal humain, alors que l’argument N1 peut ˆetre humain, non humain, une compl´etive `a l’indicatif ou subjonctif. Il accepte la propri´et´e transforma- tionnelle Qu Pind = Aux V0-inf W, qui signifie que la compl´etive objet direct `a l’indicatif, lorsque son sujet est cor´ef´erent au sujet de la principale et qu’elle contient un auxiliaire ou certains verbes (Gross, 1975) (p. 76), peut ˆetre remplac´ee par une infinitive non pr´epositionnelle dont le sujet implicite est cor´ef´erent au sujet de la principale :

7.3 Le lexique LGLex

lexical-info=[cat="expr",

exprF=[expr=[notperm=[complete="<E> avoir sur le coeur"], verb="avoir", prep2="sur" det2="le", c2="coeur"]]] args=(const=[pos="0", dist=(comp=[cat="NP",hum="true", introd-prep=(),introd-loc=(), origin=(N0 =: Nhum)])], const=[pos="1", dist=(comp=[cat="comp",mood="subj", introd-prep=(),introd-loc=(), origin=(N0 =: Qu Psubj)], comp=[cat="leFaitComp", introd-prep=(),introd-loc=(), origin=(N0 =: le fait Qu P)], comp=[cat="NP",nothum="true", introd-prep=(),introd-loc=(), origin=(N0 =: N-hum)], comp=[cat="NP",hum="true", introd-prep=(),introd-loc=(), origin=(N0 =: Nhum)], comp=[cat="comp",mood="ind", introd-prep=(),introd-loc=(), origin=(N0 =: Qu Pind)])])

all-constructions=[absolute=("true::N0 V N1 Pr´ep2 Det2 C2"),

relative=(construction="Qu Psubj = de V0-inf W", construction="Qu P = ceci",

construction="Qu P = Ppv")]

Enfin, voici un exemple du lexique LGLex pour l’entr´ee adverbiale de visu de la table PC des adverbes (cf. Fig. 3.6). Comme il s’agit d’un adverbe (semi-)fig´e, de mˆeme que pour les expressions fig´ees, chacun des mots de l’entr´ee fig´ee est d´ecoup´e selon sa cat´egorie (pr´epositionPr´ep, nom fig´eC). Sa structure de base estPr´ep C, accepte les trois constructions d´efinitoiresN0 V Adv W,Adv, N0 ne V pas WetAdv, N0 V W, et le sujet doit ˆ etre humain : ID=P_pc_656;status=completed lexical-info=[cat="adv", exprF=[expr=[notperm=[complete="de visu"], prep="de", c="visu"]]] args=(const=[pos="0", dist=(comp=[cat="NP",hum="true", introd-prep=(),introd-loc=(), origin=(N0 =: Nhum)])], all-constructions=[structureAdv=(construction="true::Pr´ep C"), absolute=(construction="true::N0 V Adv W", construction="true::Adv, N0 V W", construction="true::Adv, N0 ne V pas W"),

relative=()]

Un travail en cours est d’inclure les propri´et´es de paraphrases, comme vu en 6.5.1

(`a Adv parler, P ouN0 V W de (fa¸con+mani`ere) Adj), en tant que variantes des entr´ees ad- verbiales dans le lexique LGLex, mais ´egalement les propri´et´es de structures, comme vu en 6.5.3 (Pr´ep1 Det1 C1, la structure de base ´etant Pr´ep1 Det1 C1 Pr´ep2 Det2 C2), et les propri´et´es d’intensification (plus Adv).

Nous projetons donc d’ajouter les champs suivants dans lexical-info contenant ces variantes :

– paraphrases(par exemple, `a franchement parler pour l’adverbe franchement et de (mani`ere+fa¸con) sinc`ere pour l’adverbe sinc`erement ) ;

– autres-structures (par exemple, jusqu’`a la fin pour l’adverbe jusqu’`a la fin des temps) ;

– autres-ID, d´esignant les autres entr´ees avec intensification (par exemple, plus par- ticuli`erement pour l’adverbe particuli`erement ).

L’exemple suivant montre un exemple du lexique LGLex9 pour l’entr´ee adverbiale jusqu’`a la fin des (=de les) temps de la table PCDC des adverbes. On peut y voir le nouvel adverbe jusqu’`a la fin, qui est ajout´e danslexical-infoen tant qu’autre structure, suivi par sa structure morpho-syntaxique internePr´ep1 Det1 C1, qui est ajout´ee dansall- constructions :

ID=P_pcdc_270;status=completed lexical-info=[cat="adv",

exprF=[adv=[notperm=[complete="jusqu’`a la fin de les temps"], prep1="jusqu’`a", det1="la", c1="fin", prep2="de", det2="les", c2="temps"]]] paraphrases=(), autres-structures=(adv="jusqu’`a la fin"]), autres-ID=()] args=(const=[pos="0", dist=(comp=[cat="NP",nothum="true", introd-prep=(),introd-loc=(), origin=(N0 =: N-hum)])])

all-constructions=[structureAdv=(construction="true::Pr´ep1 Det1 C1 Pr´ep2 Det2 C2", construction="o::Pr´ep1 Det1 C1"),

absolute=(construction="true::N0 V Adv W", construction="true::Adv, N0 V W",

construction="true::Adv, N0 ne V pas W"), relative=()]

9. Signalons que le codage des paraphrases (notamment, le codage des propri´et´es lexicales associ´ees) n’´etant pas termin´e, ces champs n’apparaissent pas dans la version 3.3, mais seront inclus dans la suivante (Tolone et Voyatzi, 2011).

Documents relatifs