• Aucun résultat trouvé

2.4 Représentation des connaissances lexicales : standards et enjeux

2.4.1 Standards pour la représentation des ressources lexicales sur le Web

2.4.2 Enjeux de la réutilisation des standards pour notre projet . . . 49

Introduction

En parallèle aux travaux de formalisation déjà menés sur leDEC, nous nous proposons de représenter les prédicats linguistiques, les représentations linguistiques, et les définitions lexicographiques au sens de l’ingénierie des connaissances (IC), en restant au plus proche des standards de la représentation des connaissances (RC). Le terme représentation ne signifie donc pas seulement formaliser, mais également rendre non ambigu, et opération- naliser, i.e., permettre de mener des opérations logiques (ex : manipulation, interrogation, déduction).

Ce chapitre illustre dans un premier temps ce que l’ingénierie des connaissances pour- rait apporter aux linguistes de laTST(§2.1). Nous détaillons ensuite la méthodologie que nous adoptons pour notre étude (§2.2). Deux formalismes semblent les plus adaptés pour la représentation des prédicats linguistiques et des définitions lexicographiques : les Logiques de Description, et le formalisme des Graphes Conceptuels (GC). Nous les présenterons tour à tour (§2.3). Finalement, nous présenterons les derniers standards en représentation des connaissances lexicales, et préciserons les enjeux de leur réutilisation (§2.4).

2.1

Propositions pour une ingénierie des connaissances du DEC

LorsqueMel’ˇcuk et al.(1995, p.208) promeut l’informatisation du DEC (cf. la citation mise en exergue du chapitre 1), il met en évidence l’émergence de besoins spécifiques :

– la recherche intelligente d’information ; – la mise à jour et la vérification automatique ; – la déduction logique.

L’émergence de tels besoins existe en réalité lors de la production de connaissances par tout domaine de spécialité. L’ICse propose justement de répondre à ces besoins. Il s’agit de permettre par exemple de représenter, de manipuler, d’échanger, d’interroger, ou de rai- sonner avec les connaissances. Les besoins envisagés par Mel’ˇcuk seraient donc couverts.

Nous présentons dans cette section une liste de scénarios envisagés pour la représenta- tion des prédicats linguistiques et des définitions lexicographiques. Chacun de ces scénarios implique Pierre, un lexicographe de la théorie Sens-Texte, qui doit renseigner la zone de définition de l’articledPEIGNEB.2.De.

Scénario n°1 : recherche intelligente d’information. Selon les critères linguistiques, Pierre a déterminé quedPEIGNEB.2.De a unePosASémqui représente l’utilisateur (de type

(humain)), et unePosASémqui représente l’objet dont on veut démêler les fibres (de type (objet)). Il souhaite obtenir une liste de lexies qui ont une structure actancielle similaire.

Il peut interroger la base de connaissances en posant la question : “Quelles lexies sont des prédicats sémantiques qui impliquent un actant du type(humain), et un actant du type

(objet)?”1. Nous étudierons la possibilité d’interroger et de partager les connaissances de laTSTdans le chapitre10.

Scénario n°2 : élaboration d’une définition lexicographique par manipulation de RSém. Dans ce scénario, Pierre élabore de proche en proche la définition de(peigneB.2.d)

sous la forme d’une RSém illustrée sur la figure1.8. Pierre choisit(outil) comme genre proche de (peigneB.2.d). Dans une fenêtre d’édition de graphe, Pierre visualise alors la

RSémqui représente la structure actancielle de(outil): un nœud de type(outil), qui gou- verne trois autre nœuds, respectivement de type(humain),(activité), et(profession). Pierre peut alors indiquer qu’un peigne est un outil particulier qui sert à démêler. En spécialisant le type du nœud correspondant, Pierre découvre que(démêler)a une structure actancielle : le nœud gouverne deux nouveau nœuds, respectivement de type(humain), et(fibres). Pierre peut alors préciser que la première PosAde (démêler)correspond à la premièrePosAde

(outil). Dans ce scénario, la formalisation du DEC permet à Pierre de s’assurer que les

types des unités sémantiques manipulées sont effectivement décrits dans leDEC, et qu’ils respectent leur structure actancielle. Ce scénario sera détaillé dans le chapitre5.

Scénario n°3 : raisonnement dans une RSém. Considérons les deuxRSém illustrées sur la figure 2.1. A l’aide d’un outil de raisonnement, Pierre peut vérifier que les deux

RSémsont en réalité équivalentes (i.e., représentent des paraphrases). Nous étudierons la possibilité de raisonner avec les connaissances de laTSTdans le chapitre9.

(outil) (démêler) (Oscar) (laine) (fibres) (partie de) 2 1 1 2 1 2 (blanche) 1

(a) Représentation sémantique dont voici une expression textuelle : L’outil d’Oscar qu’il utilise pour démêler les fibres de la laine blanche.

(peigne B.2.d) (Oscar) (laine) (blanche) 1 2 1

(b) Représentation sémantique dont voici une expression textuelle : Le peigne d’Oscar pour la laine blanche.

FIGURE2.1 – Raisonnement dans une RSém : Illustration de deux représentations séman- tiques équivalentes.

2.2

Méthodologie de l’ingénierie des connaissances

La tâche de l’ingénierie des connaissances, telle queBachimont(2000) la définit, est de modéliser formellement un problème pour lequel les seules connaissances dont on dispose sont de nature linguistique ou cognitive. La sortie de ce processus de modélisation est un formalisme de représentation de connaissances, qui peut alors être mis en œuvre par des programmes.

Bachimont (2000) propose une méthode en trois étapes pour passer de l’expression linguistique des connaissances vers une représentation formelle et calculable. Cette section est organisée selon ces trois étapes :

– définir la conceptualisation du domaine (§2.2.1) ;

– choisir un formalisme de représentation des connaissances (§2.2.2) ; – opérationnaliser le formalisme choisi (§2.2.3).

Notons que d’autres méthodologies d’ingénierie des connaissances existent, certaines utilisant justement des techniques de traitement du langage naturel pour construire (semi- )automatiquement des ontologies à partir de textes (Aussenac-Gilles et al., 2000,2013). Nous souhaitons capturer autant de sémantique logique que possible de laTST, et préférons donc adopter une démarche manuelle.

2.2.1 Définir les primitives : l’engagement sémantique

Nous devons, à partir des connaissances deTST, définir les primitives du domaine. Le

modèle Sens-Texte (MST)étant déjà hautement conceptualisé, nous pourrions penser qu’il suffit de reprendre les primitives du modèle. Cependant nous devons garder en tête qu’un formalisme logique devra être construit au dessus de cette conceptualisation. La difficulté est donc de préférer modéliser ou construire des primitives adaptées à une formalisation ultérieure.

En d’autres termes, nous devons identifier, dans la conceptualisation de laTST, ce qui serait problématique pour en représenter les connaissances. Nous proposerons alors d’en étendre la conceptualisation. En procédant de la sorte, nous créons un objet frontière de type forme standardisée, au sens deStar et Griesemer(1989), entre laTSTet le domaine de la représentation des connaissances.

La partie IIde ce mémoire consiste justement en l’extension de la conceptualisation de laTST. Les chapitres3et4étudient respectivement la conceptualisation des prédicats linguistiques et des définitions lexicographiques. Le chapitre5quant à lui évalue la percep- tion de l’extension de la conceptualisation de laTSTauprès d’une équipe de lexicographes, c’est-à-dire, dans quelle mesure ils accepteraient de manipuler directement les primitives que nous avons introduites pour leur tâche de définition des lexies dans leDEC.

Nous avons déjà vu un exemple d’un tel choix dans la section 1.2.1.3. Le terme lexie dans la TST cache en réalité deux sens : la lexie décrite dans le dictionnaire, et la lexie représentée dans uneRSémen usage. Afin de faciliter la formalisation des connaissances de laTST, nous proposons de différencier les primitives en désambiguïsant les deux termes. Nous parlerons donc respectivement de type de lexie, et de lexie. Cet exemple sera repris et détaillé dans le chapitre3.

2.2.2 Formaliser les connaissances : l’engagement ontologique

Une fois que la conceptualisation de la TST est étendue, nous passons à l’étape de formalisation des connaissances. Il s’agit de concevoir une ontologie du domaine. Citons la définition deGuarino(1998), qui reprend et enrichit celle deGruber(1995) :

An ontology is a logical theory accounting for the intended meaning of a formal vocabulary, i.e., its ontological commitment to a particular conceptua- lization of the world. The intended models of a logical language using such a vocabulary are constrained by its ontological commitment. An ontology in- directly reflects this commitment (and the underlying conceptualization) by approximating these intended models.

Nous résumerons en français par l’expression suivante :

Une ontologie est la formalisation d’une conceptualisation d’un domaine. 2.2.2.1 Critères de choix d’un formalisme de RC

La conception d’une ontologie est intimement liée au formalisme de représentation des connaissances que l’on choisit. Pour évaluer le choix du formalisme de RCchoisi, nous utiliserons les cinq critères de conception d’une ontologie proposés parGruber(1995)2.

Clarté. La définition d’un concept doit faire passer le sens voulu du terme, de manière aussi objective que possible (indépendante du contexte). Une définition doit de plus être complète (c’est-à-dire définie par des conditions à la fois nécessaires et suffisantes).

Par exemple, et pour faire suite à l’exemple de la section 1.3.1.2, nous préférerons qu’un prédicat sémantique soit représenté par un seul concept dans une ontologie, plutôt que par une multitude de prédicats logiques en logique du premier ordre.

De la même manière, nous préférerons que la définition lexicographique d’une lexie

dLe soit représentée par une seule règle claire, plutôt que par un ensemble abscons

d’axiomes. Nous verrons que c’est une raison qui nous pousse à abandonner les logiques de description.

Cohérence. Rien qui ne puisse être inféré de l’ontologie ne doit entrer en contradiction avec les définitions des concepts (y compris celles qui sont exprimées en langage naturel). Par exemple, nous étudierons dans le chapitre3la possibilité d’organiser les prédicats sémantiques dans une hiérarchie au sein de laquelle les PosA sont héritées. Nous éten- drons la conceptualisation de laTSTde sorte que l’ontologie ait de bonne chances d’être cohérente.

Extensibilité. Les extensions qui pourront être ajoutées à l’ontologie doivent être antici- pées. Il doit être possible d’ajouter de nouveaux concepts sans avoir à toucher aux fonda- tions de l’ontologie.

Ce critère nous pousse par exemple à préférer un formalisme deRCqui soit monotone.

2. Nous adaptons ici la traduction simplifiée de Wikipedia - fr.wikipedia.org/wiki/Ontologie_ (informatique)

Minimalité de la déformation d’encodage. Une déformation d’encodage a lieu lorsque la spécification influe sur la conceptualisation (un concept donné peut être plus simple à définir d’une certaine façon dans un langage d’ontologie donné, bien que cette définition ne corresponde pas exactement au sens initial). Ces déformations doivent être évitées autant que possible.

Minimalité de l’engagement ontologique. Le but d’une ontologie est de définir un vo- cabulaire pour décrire un domaine, si possible de manière complète. Contrairement aux bases de connaissances par exemple, nous n’attendons pas d’une ontologie qu’elle soit en mesure de fournir systématiquement une réponse à une question arbitraire sur le domaine. Selon Gruber, l’engagement ontologique peut être minimisé en spécifiant la théorie la plus faible (celle permettant le plus de modèles) couvrant un domaine ; elle ne définit que les termes nécessaires pour partager les connaissances consistantes avec cette théorie.

Ce dernier critère est étroitement lié avec le compromis bien connu entre expressivité et complexité. En effet, plus un formalisme de représentation des connaissances est expressif, et plus le raisonnement au sein de ce formalisme sera complexe. Par exemple, le scénario de recherche intelligente d’information cité dans la section2.1possède deux aspects : que veut-on pouvoir chercher (expressivité) ? et doit-on limiter l’intelligence du système pour qu’il réponde en un temps raisonnable (complexité) ?

2.2.2.2 Formalismes candidats pour la représentation des connaissances du DEC Ainsi, la conception d’une ontologie est intimement liée au formalisme de représenta- tion des connaissances que l’on choisit.

Pour que l’engagement ontologique soit correct, pour pouvoir avoir une possibilité de raisonner dans le formalisme, notre étude se limite à l’utilisation de fragments décidables de la logique du premier ordre.

Au premier abord, deux formalismes deRCexistants semblent adaptés pour la repré- sentation des connaissances des prédicats linguistiques et des définitions lexicographiques : – La famille des formalismes du Web Sémantique. Il s’agit du standard de facto de la

représentation des connaissances sur lequel le Web des données3est basé.

– Le formalisme des Graphes Conceptuels. Ce formalisme a été introduit vers la fin des années 1980 par J. Sowa, qui avait originellement pour but la représentation des connaissances linguistiques à des fin de traitement automatisé. Sowa s’est inspiré des mêmes travaux que les fondateurs de la TST, ceux deTesnière(1959).

Nous étudierons la candidature de chacun de ces formalismes dans la partie III. Au- cun de ces formalismes ne s’avérera adapté, ce qui justifiera l’introduction d’un nouveau formalisme de représentation des connaissances nommé formalisme des Graphes d’Unités.

2.2.3 Utiliser la formalisation : l’engagement computationnel

La dernière étape de la méthodologie de l’IC est d’opérationnaliser le formalisme. Il s’agit de déterminer dans quelle mesure le formalisme choisi peut être utilisé pour les scénarios d’utilisation envisagés.

La partieIVdéfinit l’engagement computationnel du formalisme des Graphes d’Unités. Nous nous concentrerons en particulier sur deux points :

– Le chapitre9 étudie la déduction dans le formalisme des Graphes d’Unités. Nous lui attribuerons une sémantique logique, et déterminerons les conditions pour que le raisonnement y reste décidable.

– Le chapitre10étudie le lien entre le formalisme des Graphes d’Unités et les forma- lismes du Web Sémantique, pour permettre l’interrogation et le partage des connais- sances sur le Web des données.

2.3

Standards de représentation des connaissances

Nous nous intéressons donc plus particulièrement à deux formalismes existants pour la représentation des connaissances des prédicats linguistiques et des définitions lexicogra- phiques. Nous proposons dans cette section une vue d’ensemble de ces deux formalismes :

– La famille des formalismes du Web Sémantique (§2.3.1) ; – Le formalisme des Graphes Conceptuels (§2.3.2).

2.3.1 Les formalismes du Web Sémantique

Ces dernières années ont vu un engouement mondial pour le Web Sémantique, dont l’initiative Web des données est aujourd’hui une première vague de déploiement. LeWorld Wide Web Consortium (W3C)centralise les efforts de standardisation (on parle de recom- mandationsduW3C) pour les formalismes sous-jacents à ces évolutions.

2.3.1.1 La pyramide des recommandations du Web Sémantique - Web des Données La figure2.2représente la pyramide de ces recommandations telle qu’elle était pensée pour le Web Sémantique. La brique de base de cette pyramide spécifie que chaque res- source dont on veut parler doit être identifiée par une URI4. Ensuite, ces recommandations proposent :

– une structure de données unifiée (graphes RDF5) ;

– le protocole de requête et mise à jour correspondant (SPARQL6) ;

– des fragments de logique avec différentes expressivités pour capturer la sémantique formelle des schémas de données (RDFS7, OWL8) ;

– un langage de règles qui offre une alternative pour représenter les inférences sur les données (RIF9) ;

Dans sa note sur le Web des Données, Berners-Lee (2006) introduit quatre règles simples :

1. Utiliser des URI pour nommer les ressources ;

2. Utiliser des HTTP-URI pour que les gens puissent obtenir une représentation de ces ressources ;

3. Lorsque quelqu’un cherche à obtenir une représentation d’une ressource, lui renvoyer des informations utiles, en utilisant les standards du Web Sémantique ;

4. Inclure des liens vers d’autres URI, pour qu’il puisse découvrir plus de choses. L’URI est donc la pierre angulaire du Web des données. A l’époque du Web commu- nautaire (Web 2.0), les URL servaient à désigner des ressources du Web présentes sur le Web. Avec les Uniform Resource Identifier (URI), on commence à identifier, sur le Web, des ressources quelconques du monde. Une HTTP-URI est une URI qui identifie un emplacement sur le Web, où on peut obtenir une Web-représentation de la ressource

4. URI - Uniform Resource Identifier, RFC 3986

5. RDF - Resource Description Framework, cf.,http://w3.org/RDF/

6. SPARQL, cf.,http://www.w3.org/TR/sparql11-overview/

7. RDFS - RDF Schema, cf.,http://www.w3.org/TR/rdf-schema/

8. OWL - Web Ontology Language, cf.,http://www.w3.org/TR/owl2-overview/

FIGURE2.2 – La pile des recommandations du Web Sémantique (source :http://www. w3.org/2006/Talks/1023-sb-W3CTechSemWeb/#(19)).

identifiée. Ainsi, les URI ne sont pas réservées à l’identification de documents sur le Web, mais peuvent être utilisées pour désigner n’importe quelle ressource, y compris les objets du monde réel, et pour nos besoins les lexies, et leur sens. Nous pouvons citer ici les travaux de Delaforge et al. (2012) et deMonnin (2013), qui étudient les notions de ressource sur le Web et d’URId’un point de vue philosophique.

La tendance actuelle, incarnée par l’initiative Web des données, est d’encourager la publication de données structurées sur le Web, quelle que soit leur sémantique. Le Web Sémantique proposera alors un moyen standard pour échanger et lier différente séman- tiques. Entre temps, le reste de la pile continue à faire l’objet de travaux, comme la récente recommandation PROV10(pour provenance) qui s’insère dans la brique trust.

Ainsi, chaque application peut adopter une sémantique formelle qui lui est propre, tout en profitant des architectures existantes pour le partage, l’interopérationnalisation, et la requête des données. Nous proposons donc d’adopter les recommandations de base du Web Sémantique pour l’opérationnalisation de notre formalisme (cf., chapitre10), et nous étudierons dans quelle mesure la sémantique logique de OWL est adaptée à nos besoins (cf., chapitre6).

2.3.1.2 RDF et SPARQL

Le modèle des donnéesResource Description Framework (RDF)représente des multi- graphes étiquetés et orientés.RDFpermet la description et l’interconnexion de ressources qui peuvent être anonymes ou identifiées par une URI. En RDF, la brique de base de

connaissance est le triplet, de la forme hsujet, prédicat, objeti, le prédicat étant une Pro- priétéRDF. Le modèle de donnéesRDFadmet plusieurs syntaxes concrètes (RDF/XML, turtle, RDFa, N-Triples, JSON-LD, etc.).

La seule sémantique logique apportée parRDFest la suivante : si dans deux graphes présents à deux bouts du Web se trouvent deux ressourcesRDFqui possèdent la mêmeURI, alors ces ressources ont toutes les deux la même image dans l’union des deux graphes.

Finalement,SPARQL Protocol and RDF Query Language (SPARQL)11est le langage de requêtes et de mise à jour correspondant.

2.3.1.3 Plus de sémantique formelle avec RDFS et OWL

RDF Schema (RDFS) etWeb Ontology Language (OWL) ajoutent de la sémantique formelle aux graphesRDF.

RDFSintroduit quelques axiomes logiques, qui permettent de définir le squelette taxo- nomique d’une ontologie formelle légère :

– une hiérarchie de classes à l’aide de l’axiome subClassOf ; – une hiérarchie de propriétés à l’aide de l’axiome subPropertyOf ;

– le domaine et l’image d’une propriété à l’aide des axiomes domain et range.

OWL, quant à lui, est un méta-langage d’ontologie qui étendRDFSet permet de définir des ontologies sur la base desLogiques de Description (LD)(cf.,Rudolph,2011;Baader et al.,2003). LesLDtiennent leur fondation des réseaux sémantiques (Quillian,1968) et des systèmes à base de frames (Minsky,1975). Elles proposent une décomposition de la lo- gique du premier ordre en un ensemble de constructeurs de classes (ex : intersection, union, restriction de cardinalité), et d’axiomes (ex : classes équivalentes, disjointes). Plusieurs fragments de la logique du premier ordre sont alors définis, en fonction du sous-ensemble de ces axiomes qui est autorisé.

La figure2.3illustre une liste non exhaustive d’axiomes et de constructeurs de classes disponible dans OWL2.

FIGURE 2.3 – Une liste non-exhaustive des axiomes et constructeurs de classes dispo- nible dans OWL2, (source : inspiré de Gandon, OWL in one, http://fabien-gandon. blogspot.fr/2009/05/owl-in-one.html).

Ainsi l’idée générale est la suivante : l’ontologue choisit le sous-ensemble d’axiomes nécessaire à l’expressivité dont il a besoin. Les résultats sur lesLDgarantissent alors que la complexité calculatoire de n’importe quel arrangement de ces axiomes est bornée. On verra que seules quelques restrictions globales sont imposées. En particulier, la hiérarchie des propriétés doit être régulière (voir par exemple,Rudolph,2011, p. 12).

2.3.2 Le formalisme des Graphes Conceptuels

Le formalisme des Graphes Conceptuels (GC), introduit parSowa(1984), et formalisé parChein et Mugnier(1992,2009), tient ses origines des réseaux sémantiques (Quillian,

1968). Cependant, Sowa avait originellement pour but la représentation des connaissances