Autres ressources à intégrer au lexique sémantique dans le futur

Partie IV. Lexique sémantique multilingue à large couverture

D. Autres ressources à intégrer au lexique sémantique dans le futur

En plus des ressources que nous avons déjà intégrées au lexique sémantique d’Antelope, nous avons identifié d’autres ressources que nous prévoyons d’utiliser prochainement.

1. Lexique de noms déverbaux (NomLex / VerbAction)

NomLex (MacLeod, 1998) est un dictionnaire décrivant le cadre de sous-catégorisation de 1 000 nominalisations en langue anglaise. NomLex précise la correspondance entre les noms déverbatifs et leurs verbes connexes, ainsi que les correspondances entre les arguments verbaux et les positions syntaxiques au sein du groupe nominal. La syntaxe de cette ressource est inspirée de LISP. Ce projet a été repris et étendu dans le cadre de NomBank (Meyers et al., 2004).

Pour le français, une ressource proche dans l’esprit (mais d’ambition plus modeste) est VerbAction, un lexique de noms d’actions morphologiquement apparentés à des verbes, en partie obtenu par acquisition sur le Web (Tanguy, Hathout, 2002).

Les informations de sous-catégorisation des noms déverbatifs font souvent référence à des prépositions dans la description des arguments ; ces derniers sont souvent contraints à utiliser une préposition particulière ou un ensemble de prépositions qui partagent des aspects communs. Il est donc aussi nécessaire de disposer d’un lexique des prépositions.

2. Lexique de prépositions (TPP / PrepLex)

Les prépositions constituent en principe une classe fermée dont on peut énumérer tous les éléments. En pratique, il n’est pas si facile de déterminer leur liste de façon exhaustive.

The Preposition Project (Litkowski, 2002) est un projet conçu pour fournir une caractérisation

complète, adaptée au TAL, des sens des prépositions en anglais. 334 prépositions, avec 673 sens, ont été décrites avec un rôle sémantique ou un nom de relation, et une description des propriétés syntaxiques et sémantiques de son complément. Une définition et des exemples d’usage sont donnés pour chaque sens dans TPP.

Une ressource proche pour le français nous semble être PrepLex (Fort, Guillaume, 2007) ; c’est un lexique de prépositions, créé en premier pour fournir des informations à un analyseur syntaxique. On peut aussi citer le projet PrepNet (Saint-Dizier, 2005) qui vise à décrire la syntaxe et la sémantique des prépositions ; ce projet semble néanmoins en être resté à un stade préliminaire (nous n’avons pas trouvé de ressource exploitable).

3. FrameNet

FrameNet (Baker, Fillmore, Lowe, 1998), projet mené à Berkeley à l’initiative de Charles Fillmore, est fondé sur la sémantique des cadres (frame semantics en anglais). FrameNet a pour objectif de documenter la combinatoire syntaxique et sémantique pour chacun des sens d’une entrée lexicale à travers une annotation manuelle d’exemples choisis dans des corpus sur des critères de représentativité lexicographique. Les annotations sont ensuite synthétisées dans des tables, qui résument pour chaque mot les cadres avec leurs actants sémantiques et arguments syntaxiques. FrameNet II compte 825 cadres sémantiques, 10 000 unités lexicales (dont 6 100 complètements annotées) ainsi que 130 000 phrases d’exemples annotés. Les outils et données sont distribués librement. Il existe une correspondance entre les verbes de FrameNet II et ceux de WordNet.

A titre indicatif, voici la description textuelle du cadre “Crime_scenario” :

A (putative) Crime is committed and comes to the attention of the Authorities. In response, there is a Criminal_investigation and (often) Arrest and criminal court proceedings. The Investigation, Arrest, and other parts of the Criminal_Process are pursued in order to find a Suspect (who then may enter the Criminal_process to become the Defendant) and determine if this Suspect matches the

Perpetrator of the Crime, and also to determine if the Charges match the Crime. If the Suspect is deemed to have committed the Crime, then they are generally given some punishment commensurate with the Charges.

Les différents acteurs de ce cadre (frame elements en anglais) sont également décrits :

Authorities [] The group which is responsible for the maintenance of law and order, and as such have been given the power to investigate Crimes, find Suspects and determine if a Suspect should be submitted to the Criminal_process.

Charge [] A description of a type of act that is not permissible according to the law of society.

Crime [] An act, generally intentional, that matches the description that belongs to an official Charge.

Perpetrator [] The individual that commits a Crime.

Suspect [] The individual which is under suspicion of having committed the Crime. Enfin, les cadres sont reliés entre eux par des relations, comme le montre la figure 21.

Figure 21 : Exemple de relations entres cadres dans FrameNet

4. Représentation des connaissances à large échelle

Nous avons jusqu’ici présenté des ressources linguistiques. Nous allons à présent glisser de domaine, et passer du TAL à l’intelligence artificielle, ou plus précisément à l’ingénierie des connaissances. Les interactions entre ces deux domaines peuvent avoir lieu dans les deux sens. D’une part, la connaissance du monde permet de lever des ambiguïtés dans de nombreuses tâches de TAL ; disposer d’une large base de données sur le sens commun (par exemple sous forme d’ontologie) permettrait l’injection de connaissances en amont et faciliterait donc l’analyse du texte. D’autre part, de telles bases de connaissances peuvent être amorcées automatiquement en faisant de la fouille de texte (sur des textes encyclopédiques ou règlementaires par exemple) ; mais du fait des imperfections des analyses automatiques, de telles ressources doivent alors obligatoirement être validées manuellement.

La construction de connaissances à large échelle reste donc un verrou scientifique et technologique à lever (usuellement qualifié de knowledge acquisition bottleneck). Disposer de ressources à large couverture prêtes à l’emploi peut donc s’avérer intéressant : nous allons en présenter deux ici, l’une constituée manuellement (CYC) et l’autre obtenue par analyse d’un corpus de phrases décrivant des faits (ConceptNet).

a)

CYC

CYC (Lenat, 1995) est un projet lancé en 1984 par la société Cycorp. CYC vise à regrouper une ontologie et une base de données complètes sur le sens commun, pour permettre à des applications d’intelligence artificielle d’effectuer des raisonnements similaires à ceux des humains. Cycorp revendiquait déjà en 1995 un investissement de plus de 100 années-homme sur ce projet, sous forme de saisie de faits et de définition d’une axiomatique.

Des fragments de connaissances typiques sont par exemple : « les chats ont quatre pattes » ; « Paris

qui relient ces termes entre eux. Grâce au moteur d’inférence fourni avec la base CYC, il est possible d’obtenir une réponse à une question comme « Quelle est la capitale de la France ? ».

La base CYC contient des millions d’assertions (faits et règles) rentrées à la main. Elles sont écrites en langage CycL, qui est un langage logique avec une syntaxe proche de celle de LISP. La figure 22 montre par exemple la description d’ABRAHAMLINCOLN dans l’interface Web de ResearchCyc.

Figure 22 : Interface Web du serveur ResearchCyc

La base de connaissance est divisée en plusieurs milliers de micro-théories (Mt), collections de concepts et faits concernant typiquement un domaine particulier de la connaissance. Une micro- théorie est donc un ensemble d’assertions qui partagent le même point de vue : un domaine particulier, un certain niveau de détail, un certain intervalle de temps, etc. À la différence de la base de connaissance dans son ensemble, chaque micro-théorie doit être exempte de contradictions. Par exemple, Philadelphie était la capitale des Etats-Unis de 1790 à 1800. Dans une micro-théorie couvrant l’intervalle de temps 1790-1800, l’assertion (#$CAPITALCITY #$UNITEDSTATES #$PHILADELPHIA) sera vraie et, dans une micro-théorie couvrant le XXème_{siècle, (#$}_CAPITAL_C_ITY _#$U_NITED_S_TATES #$WASHINGTON) sera également vraie.

ResearchCyc 1.0 est la version réservée au monde de la recherche. Elle compte 300 000 concepts et 3 000 000 d’assertions (faits et règles) utilisant 26 000 relations. Des modules en langage naturel permettent de poser des questions et de rentrer de nouveaux faits sans avoir besoin de connaître

86 CycL. La version OpenCyc 1.0 est librement accessible, mais ne contient qu’un sous ensemble de ces règles et assertions.

Les deux versions contiennent à ce jour une correspondance partielle entre les concepts de CYC et les synsets de WordNet 2.0. Approximativement 11 300 synsets (8800 noms, 2110 verbes, 330 adjectifs et 35 adverbes) sont liés aux concepts de CYC.

b)

ConceptNet

De même que CYC, ConceptNet (Liu, Singh, 2004) est une base de connaissances cherchant à modéliser le sens commun sous forme d’un vaste réseau sémantique. ConceptNet propose aussi un ensemble d’outils permettant d’analyser du texte, pour en extraire des thématiques107_{ou y trouver} des analogies108_{. Le réseau sémantique de ConceptNet est un graphe orienté dont les nœuds sont} des concepts, et dont les arcs sont des assertions du sens commun portant sur ces concepts. En 2004, il comptait 1,6 millions d’assertions couvrant des aspects spatiaux, physiques, sociaux, temporels et psychologiques de la vie de tous les jours.

A la différence de CYC et WordNet, ressources écrites à la main, ConceptNet a été généré automatiquement à partir de 700 000 phrases du projet OMCS (Open Mind Common Sense, mené également au MIT) ; ce projet collaboratif a compté des milliers de contributeurs, sollicités pour écrire de courtes phrases décrivant une situation du quotidien (par exemple « un livre est fait de

papier », « le tango est une sorte de danse », « on apprend pour connaître plus de choses »…). Un

analyseur syntaxique a été utilisé pour extraire des informations de ces phrases, en utilisant des patrons morphosyntaxiques. Les assertions sont alors exprimées comme des relations entre deux concepts, sélectionnées à partir d’un ensemble fini de relations possibles.

Dans le document Antelope, une plate-forme de TAL permettant d'extraire les sens du texte : théorie et applications de l'interface syntaxe-sémantique (Page 95-99)