L’outil LGExtract - Analyse syntaxique à l'aide des tables du Lexique-Grammaire du français

accepter la propriété distributionnelle N0 =: N-hum, il n’est pas possible de le spécifier dans les tables avec un seul intitulé succinct, or c’est précisément ce que permettent de faire les structures de traits.

7.1.2 Particularit´e de l’outil LGExtract

LGExtract a vocation à transformer les tables en un lexique syntaxique pour le TAL, reposant sur les mêmes concepts linguistiques que ceux qui sont à l’œuvre dans les tables. C’est-à-dire que le format du lexique LGLex est ce qu’on appelle un format d’échange. Il a vocation à décrire les tables avec les concepts manipulés par celles-ci, en un format directement exploitable dans les applications de TAL. L’une des utilisations informatiques possibles est la conversion en un autre format, par exemple au format Lefff, ce qui suppose de manipuler d’autres concepts linguistiques, ceux manipulés par le Lefff.

En effet, contrairement à LGLex, qui liste toutes les constructions acceptées par une entrée telles qu’elles existent dans les tables, le Lefff regroupe dans une représentation unique des constructions qu’il considère comme étant des variantes l’une de l’autre. Ainsi, l’effacement d’un argument dans une construction est considéré comme une variante de cette construction. Cette représentation est adaptée pour certains formalismes d’analy- seurs syntaxiques, tel que TAG utilis´_{e dans l’analyseur frmg et LFG dans l’analyseur} SxLFG (cf. 2.1.3).

Il y a donc deux étapes bien distinctes, puisqu’il ne semble pas souhaitable que le format LGLex manipule des concepts issus du Lefff ou de Dicovalence : le format LGLex doit être utilisable par tous les connaisseurs des tables du Lexique-Grammaire, y compris ceux qui refusent totalement la notion de fonction syntaxique (du Lefff) ou de paradigme (de Dicovalence). La construction du lexique LGLex n’a rien à voir avec ses utilisations, comme par exemple sa conversion en un autre format.

LGExtract se concentre sur l’explicitation de certaines colonnes, sans utiliser d’autres concepts que ceux des tables du Lexique-Grammaire. On obtient ainsi dans LGLex, une représentation plus explicite des tables, ce qui sert (entre autres) à produire plus simplement une représentation au format Lefff.

7.2 L’outil LGExtract

Les propositions antérieures pour transformer les tables du Lexique-Grammaire en un lexique syntaxique pour le TAL consistaient en des paramètres spécifiques pour chaque classe : la sélection des propriétés pertinentes, l’ajout de propriétés manquantes et la restructuration de données (Hathout et Namer, 1998; Gardent et al., 2006). Comme plusieurs propriétés apparaissent dans plusieurs classes, la définition d’un même ensemble d’opérations peut ainsi se répéter dans plusieurs classes, ceci rendant cette approche pénible pour l’encodage et la maintenance.

Nous proposons une approche plus globale, en utilisant pour l’ensemble des classes d’une mˆeme cat´egorie les deux ressources suivantes :

– un script unique de configuration couvrant toutes les classes ;

– une table des classes fournissant des informations non d´efinies dans les classes d’ori- gine.

Pour implémenter cette approche, nous avons développé en Java un outil générique nommé LGExtract2_{, qui fonctionne de la mani`}_{ere suivante :}

– il prend en entr´ee un script de configuration et une table des classes ;

– il analyse ce script à l’aide d’un analyseur généré par l’outil Tatoo (Cervelle et al.,

2006) ;

– il produit l’ensemble des entrées lexicales encodées dans les classes couvertes par la table des classes et dans le format décrit par le script.

Les deux instructions principales interprétées par notre outil sont les suivantes : – define : l’information est encodée dans des objets linguistiques définis dans le

script. Ils sont représentés par des listes et des structures de traits, qui peuvent être combinées. Ces objets définissent par exemple, des constituants syntaxiques, des distributions de constituants syntaxiques, des constructions, des représentations prédicat-argument, des transformations. Les objets peuvent être paramétrés par les propriétés syntaxiques disponibles dans la table des classes ;

– prop : chaque propriété de la table des classes est associée à un ensemble d’opérations qui combinent les objets linguistiques entre eux. Ainsi, quand la pro- priétéN0 =: Nhum est vraie pour une entrée donnée, un objet définissant un groupe nominal humain est ajouté à la distribution de N0 (c’est-à-dire l’argument 0 du prédicat).

Cela implique que chaque propriété a une et une seule interprétation pour toutes les classes, si tel n’était pas le cas, notre outil fournirait des informations incorrectes.

Un objet linguistique est constitué de listes et de structures de traits. Une instance d’un tel objet est définie par l’instruction define, en indiquant son type, son nom et sa valeur. Par exemple, les instructions ci-dessous instancient chacune un composant (comp) nommé N-hum, qui est un groupe nominal non humain, un groupe nominal humain (Nhum), une complétive au mode indicatif (Qu Pind), une complétive au mode subjonctif (Qu Psubj) ou une infinitive (V-inf W) :

define comp N-hum [cat="NP",nothum="true"]; define comp Nhum [cat="NP",hum="true"];

define comp completive [cat="comp",mood="ind"]; define comp completiveSubj [cat="comp",mood="subj"]; define comp inf [cat="inf"];

Ces différents objets peuvent être combinés : par exemple, la distribution d’un constituant (const) est un ensemble de composants syntaxiques. Dans l’instruction ci-dessous, le constituant N0 contient la distribution de l’argument 0 :

2. Il est compos´e de 118 fichiers .java et est disponible sur le sitehttp://infolingu.univ-mlv.fr/

7.2 L’outil LGExtract

define const N0 [pos="0",dist=()];

avec dist() qui pourra contenir un groupe nominal humain (Nhum) et un groupe nominal non humain (N-hum)3 _:

comp=[cat="NP",nothum="true"],comp=[cat="NP",hum="true"]

Comme dans tout langage orienté objet, un mécanisme d’héritage existe. Par exemple, une infinitive contrôlée par l’argument 0 (objet inf0) hérite des traits de l’objet inf (définissant une infinitive) décrit ci-dessus, et possède un trait supplémentaire indiquant le contrôle par l’argument 0 :

define comp inf0 inf[contr="0"];

Tous ces objets peuvent être paramétrés avec les propriétés de la table des classes (no- tation @...@). Les paramètres sont de deux types : booléen ou chaˆıne de caractères. Par exemple, le code ci-dessous définit un prédicat verbal nommépredV, en l’ajoutant dans les informations lexicales liées à l’entrée (lexical-info). Son lemme est la valeur de la propriété<ENT>V(c’est-à-dire la valeur lexicale d’une entrée) dans la classe correspon- dante. Le code définit ensuite l’auxiliaire avoir (respectivement, être), où la propriété Aux =: avoir (respectivement, Aux =: être) est encodée par sa valeur booléenne :

define lexical-info predV [cat="verb",verb=[lemma="@<ENT>V@"],aux-list=()]; define aux avoir {avoir="@Aux =: avoir@"};

define aux etre {^etre="@Aux =: ^etre@"};

Pour chaque entrée lexicale, les paramètres des objets linguistiques associés sont établis comme suit. Chaque paramètre, correspondant à une propriété, possède une valeur lexicale ou booléenne. Le programme parcourt d’abord la table des classes. Si la propriété a une valeur constante sur toute la classe à laquelle l’entrée appartient, la propriété re¸coit cette valeur. Si la valeur de la propriété est variable selon les entrées lexicales (la valeur de la propriété est o pour la ligne correspondant à cette classe), le programme récupère la valeur de la propriété de cette entrée dans la classe concernée. Par exemple, le verbe alarmer appartient à la classe 32H, qui contient les verbes transitifs avec sujet humain : @<ENT>V@est donc remplacé par la valeur lexicalealarmer, ce qui permet de savoir de quel lemme il s’agit pour cette entrée. La propriétéAux =: avoir est codée + dans la table pour ce verbe : @Aux = : avoir@est remplacé par true. En revanche, la propriétéAux =: être est codée −, donc le programme ne récupère pas cette information (voir plus loin). Les trois objets paramétrés montrés ci-dessus deviennent alors les deux objets suivants pour cette entrée :

define lexical-info predV [cat="verb",verb=[lemma="alarmer"],aux-list=()]; define aux avoir {avoir="true"};

3. Nous verrons plus loin que cela est obtenu grâce à l’opération d’ajout : add N0-hum in N0.dist ;

Ainsi, si une contradiction survient entre la table des classes et une classe particulière, la priorité est donnée à l’encodage de la table des classes.

Pour chaque entrée lexicale, le programme peut ensuite appliquer des opérations pour chaque propriété de la table des classes à ces objets lexicalisés, avec l’instruction prop. Il y a seulement un type d’opération : l’ajout (add) d’un objet à un autre. Par exemple, l’ajout d’une paire attribut-valeur ou d’une liste dans une structure de traits. Ces opérations sont indépendantes de leur ordre d’application, c’est-à-dire qu’elles sont non destructrices et ne dépendent pas les unes des autres. Ainsi, lors de l’insertion d’une paire attribut-valeur (a,v) dans une structure de traits, si une autre valeur ov pour l’attribut a existe déjà, la nouvelle valeur est une disjonction de v et ov. C’est pourquoi l’opération est dite non destructrice. Les listes sont en fait des ensembles car le résultat des deux additions doit être indépendant de leur ordre d’application. Avant d’insérer un nouvel élément dans une liste, le programme vérifie s’il existe ou non. S’il existe, il n’est pas inséré. Par exemple, le code suivant indique que, si la propriétéN0 =: Nnr(signifiant que N0 est un groupe nominal libre, une complétive ou une infinitive) est codée + , le programme ajoute les objets N-hum, Nhum, completive, completiveSubj et inf à la distribution de N0 (N0.dist) et insère N0 dans la liste des arguments (args) :

prop @N0 =: Nnr@{ add N0 in args;

add N0-hum in N0.dist; add N0hum in N0.dist; add completive in N0.dist; add completiveSubj in N0.dist; add inf in N0.dist;

}

Si la propriété est codée − (que ce soit dans la table des classes ou dans la table), aucune opération n’est réalisée. En effet, pour chaque entrée, seules sont effectuées les opérations concernant les propriétés acceptées par l’entrée. C’est ce qui permet dans l’exemple précédent d’ajouter dans le lexique (dans la liste aux-list de predV) l’objet paramétré avoir=”@Aux = : avoir@”, sans le faire pour être=”@Aux = : être@”, avec le code suivant :

prop @Aux =: avoir@{

add avoir in predV.aux-list; }

prop @Aux =: ^etre@{

add etre in predV.aux-list; }

Le lexique généré est au format XML. Les éléments et attributs XML peuvent être mis en correspondance dans le script avec les objets linguistiques. Ce lexique XML étant quasiment illisible par un humain, une version texte compressée a été également développée (voir les exemples de la section 7.3).

Dans le document Analyse syntaxique à l'aide des tables du Lexique-Grammaire du français (Page 158-162)