• Aucun résultat trouvé

Chapitre 3 Classification sémantique du LST nominal

3.2 Sémantique et typologie lexicale

3.2.3 Ressources lexicales : objectifs et état de l’art

3.2.3.2 Ressources existantes

Nous présentons ici une sélection de ressources en abordant les aspects de couverture, granularité, adaptabilité à notre corpus, et utilisabilité dans les applications envisagées.

Il existe peu de ressources sémantiques lexicales, à notre connaissance, couvrant l’ensemble des catégories sur lesquelles nous travaillons, et proposant une classification qui serait adaptée à notre problématique.

La ressource Wordnet se rapproche du type de ressource que nous recherchons pour le français. Cette ressource est une base de données lexicale, en anglais, à large couverture particulièrement utilisée dans les applications TAL. Les

14 Disponible en version électronique ici : http : : //wordnet.princeton.edu [consulté le 30/07/2015]

unités lexicales sont organisées en synsets (groupe de quasi-synonymes). Les synsets sont reliés par des liens d’hyperonymie, d’hyponymie, d’antonymie et de synonymie. Des adaptations pour d’autres langues que l’anglais ont vu le jour, notamment pour le français avec la ressource Wolf (Sagot & Fišer, 2008) issu de

Wordnet. Cependant, cette ressource générée automatiquement, sans validation

manuelle, n’est pas adaptée à notre problématique et plus particulièrement au lexique spécifique qu’est le LST.

Le type d’organisation lexicale, du lexique anglais présent dans Wordnet, est comparable à ce que nous recherchons pour le français. Cependant, le caractère massivement abstrait de notre lexique rend l’utilisation des ressources connexes à

Wordnet peu appropriée. De plus, en comparaison d’autres ressources, la description sémantique et syntaxique ne nous paraît pas suffisamment riche. Ainsi, comme le remarquent Hadouche & Lapalme (2010), certaines propriétés ne sont pas explicitement incluses dans Wordnet telles le domaine, les sens figurés, les structures syntaxiques dans lesquelles s’inscrivent les unités, etc.

FrameNet15 (Baker, Fillmore, & Lowe, 1998) est une autre ressource lexicale, de l’anglais, à large couverture et intégrant des informations et liens sémantiques.

FrameNet est basée sur la sémantique des cadres (Fillmore, 1982), dans laquelle la

signification des mots s’étudie à travers le contexte événementiel ou situationnel. Toute acception d’une unité lexicale est représentée par sa combinatoire syntaxique et sémantique. Les cadres (environ 1000) sont associés à des rôles sémantiques, fondamentaux (core) ou non, instanciés par les unités lexicales en contexte. Les propriétés syntaxiques et sémantiques sont finement décrites. Cependant, outre sa non-disponibilité en français, FrameNet pose le problème de la subjectivité de sa construction, inhérente à la définition des rôles thématiques centraux dans ce modèle, comme le notent Messiant, Gábor, & Poibeau (2010).

Une autre limite de certaines ressources est leur restriction à une catégorie syntaxique. Ainsi, Dicovalence (Van den Eynde & Mertens, 2003), LVF (Dubois & Dubois-Charlier, 1997), et VerbNet (Schuler, 2005) sont trois ressources ne couvrant que la catégorie verbale.

15 Disponible en version électronique ici : https : : //framenet.icsi.berkeley.edu/fndrupal/home

La base de données DiCo16 (Polguère, 2003), développée sur les principes de la Lexicologie Explicative et Combinatoire intègre des informations sur deux niveaux pour chaque entrée. Sont renseignées les relations sémantiques entre unités lexicales ainsi que les liens syntagmatiques au travers des collocations. Cette ressource propose en outre une riche hiérarchie d’étiquettes sémantiques associées aux acceptions des vocables. Bien que certaines de ces étiquettes, et leur arborescence, nous semblent tout à fait pertinentes pour la classification du LST (notamment les étiquettes caractéristique, événement, lieu et entité informationnelle), la limite de la couverture du DiCo et son inscription dans la langue générale rendent cette ressource peu adaptée à notre problématique.

La Lexicologie Explicative et Combinatoire est également le modèle à la source de l’élaboration du Réseau Lexical du Français (RLF). Cette ressource, en cours de développement, (Lux-Pogodalla & Polguère, 2011), se donne pour objectif une large couverture du lexique français (10 000 vocables visés) et comme applications possibles le traitement automatique de la langue. Le RLF, en tant que graphe lexical intégrant de nombreuses relations lexicales, nous semble une ressource adaptée pour l’élaboration d’une typologie des noms du LST.

Pour le français encore, le Dictionnaire Électronique des Mots (DEM) (Dubois & Dubois-Charlier, 2010), intègre l’ensemble des catégories et propose, pour chaque entrée lexicale, des informations catégorielles, morphologiques (dérivation, flexion), sémantiques (domaine, définition), et syntaxiques (à travers notamment les contextes et opérateurs17). Ressource librement disponible, le DEM

est constitué de 140 000 entrées, chacune définie par plus de dix rubriques.

Le DEM propose des informations sur les axes syntagmatique et paradigmatique à travers les synonymes (donnés dans les définitions) et les étiquettes de domaines. Ceci permet de tester la cohérence lors de la construction d’une typologie en confrontant les classes créées aux regroupements présents dans le DEM. Ainsi, nous verrons que notre classification comprend une classe {collectif} avec notamment pour membres les noms ensemble, groupe, totalité, échantillon, élément. Ces noms sont tous associés dans le DEM à l’opérateur

16 Une description complète est disponible ici: http://olst.ling.umontreal.ca/? page_id=77&lang_pref=fr [consulté le 30/07/2015]

17 Pour les noms, les opérateurs correspondent à la classe de verbes avec lesquels le nom se combine prototypiquement.

‘groupe’. Les informations morphologiques permettent d’envisager des traitements fins, par exemple au niveau des routines. Ainsi, en sachant que analyse et

analyser sont reliés, un regroupement des deux séquences suivantes pourrait être

fait automatiquement :

Nous procédons à l’analyse des déterminants

Nous analysons les déterminants

En dépit de ces avantages, le DEM n’intègre pas de typologie fine telle que nous le souhaitons. Notre ressource du LST vise à organiser les mots en classes et sous-classes. Le DEM propose lui une organisation du lexique par grands domaines tels commerce, droit, entomologie, oiseau, etc. Cette ressource constitue cependant une base solide, à large couverture, pour les traitements sémantiques envisagés, même si certaines acceptions particulières de mots éléments du LST n’y sont pas présentes et devront être ajoutées manuellement18. En adoptant le DEM

comme ressource de référence pour l’identification des acceptions, nous nous assurons aussi de maintenir une certaine cohérence avec les travaux effectués sur les acceptions des verbes du LST par Yan qui se base sur le LVF, ressource élaborée de manière analogue au DEM, par les mêmes auteurs.

Cet inventaire des ressources existantes ne fait ainsi pas apparaître de lexiques sémantiques en français correspondant à nos critères de couverture, dégroupement sémantique et typologie adaptée à notre lexique abstrait. Les différents lexiques sémantiques généralistes, concernant majoritairement l’anglais, ne sont ainsi pas adéquats pour le corpus spécialisé sur lequel nous travaillons.

C’est pourquoi nous optons pour une élaboration manuelle (en partie basée sur des résultats de traitements automatiques, tels l’extraction des profils combinatoires) de notre lexique nominal sémantique du LST. À ces informations sémantiques seront ajoutées par la suite certaines informations syntaxiques, liées aux routines sémantico-rhétoriques et aux constructions verbales.

Ce choix d’une constitution manuelle est également motivé par le fait que l’utilisation de ressources sémantiques constituées automatiquement pose un problème lié à leur qualité. Sagot & Fišer (2008) confirment ainsi que la

construction manuelle d’une classification produit de meilleurs résultats en termes de pertinence et de précision linguistiques.

Ayant défini les caractéristiques de la ressource sémantique du LST que nous envisageons, nous pouvons alors mettre en place les différents traitements sémantiques s’appuyant à la fois sur des méthodes automatiques et manuelles. Ces traitements sont ainsi fondés sur une approche de linguistique de corpus, tirant parti de notre corpus d’articles de recherche analysé en dépendance. Nous reprenons le principe de regroupements lexicaux basés sur des propriétés sémantiques-syntaxiques partagées et prenons pour amorce, pour l’identification des différentes acceptions mobilisées dans le corpus, les entrées du DEM pour chaque nom du LST précédemment extrait.

Nous présentons dans la partie suivante la constitution de notre typologie, à travers les deux étapes que sont le dégroupement en acceptions et la classification de ces dernières.