Les standards de représentation - Modélisation de connaissances à partir de textes pour une rec

1.4.1.1 TMF

La norme ISO 16642 définit l’environnement TMF (Terminological Markup Framework), fondé sur les formats MARTIF et Geneter. TMF permet de décrire tous les éléments d’une terminologie avec un langage formel [Romary, 2001]. Celui-ci est constitué d’un méta- modèle et d’un ensemble de contraintes sur les catégories de données utilisées pour re- présenter les propriétés de chaque terme. Le respect de ce format a l’avantage de garantir la compatibilité mutuelle de deux TML (Terminological Markup Language) de syntaxe diffé- rente. Le méta-modèle de TMF représente la structure sous-jacente d’une terminologie sur plusieurs niveaux :

– les informations sémantiques (le concept)

– les réalisations linguistiques (les langues dans lesquelles est exprimé le concept) – les informations lexicales (les termes associés au concept dans une certaine langue) Pour décrire un terme, TMF recommande le recours aux catégories de données défi- nies par la norme ISO 12620. Parmi les différentes sortes d’information, on peut trouver le type du terme, les informations grammaticales (catégorie syntaxique, genre, nombre . . . ), les usages, la formation (provenance, étymologie), la prononciation ou la morphologie.

Pendant la phase de conception de la terminologie, les objectifs applicatifs influencent directement le processus de sélection des propriétés de terme utiles. Il faut néanmoins prendre en compte l’équilibre souhaité entre le niveau d’expressivité de la terminologie et la com- plexité des traitements ultérieurs14_{. Dans le cadre de notre étude, nous choisissons de nous} restreindre à la partie lexicale et textuelle d’un terme. Nous représenterons donc principale- ment le terme à travers ses usages (textes dans lesquels il apparaît et position exacte de ses occurrences).

Il est bon de noter ici que même dans le cas d’un domaine monosémique15_{, la posi-} tion d’un terme dans un texte est forcément reliée directement à sa représentation et non au concept qu’il désigne. Dans un contexte d’indexation sémantique, on pourrait penser que seule la localisation du concept nous importe, et pas celle des termes associés. Or nous considérons que l’ontologie est une représentation qui évolue avec le temps : l’apparition de nouveaux textes à indexer peut entraîner l’ajout ou la modification de concepts, ce qui aura pour conséquence probable la réorganisation des relations entre termes et concepts. Dans le domaine du diagnostic automobile, on peut par exemple envisager le cas de figure suivant : dans le corpus étudié, la fréquence d’occurrence élevée du terme "allumage du voyant" amène l’utilisateur à définir un concept qui sera dénoté par ce terme. Par la suite, de nouveaux textes ajoutés au corpus de départ peuvent suggérer l’existence de deux concepts plus spécifiques, à savoir l’allumage constant et le clignotement de voyant. Dans ce cas, il sera utile de revoir dans quel contexte le terme "allumage du voyant" est employé, ce qui pourra entraîner un changement de dénotation. On comprend ainsi la nécessité de pouvoir visualiser le contexte d’utilisation d’un terme (et non celui de tous les termes associés au même concept).

1.4.1.2 SKOS

Simple Knowledge Organisation System (SKOS16_{) dérive de RDF Schema (voir}

en 1.4.2.2) et a été conçu par le World Wide Consortium17_{dans le but de représenter et de} partager de façon plus simple qu’avec un langage ontologique des vocabulaires contrôlés comme les classifications, les glossaires ou les thesauri. SKOS n’est pas encore une recom- mandation officielle mais le groupe de travail W3C pour le déploiement du Web Sémantique doit lui accorder ce statut courant 2008.

Un thésaurus SKOS est un ensemble de triplets RDFS fondés autour de la notion de

skos:Concept. On peut définir un tel objet à l’aide d’uneskos:definitionrédigée en

langue naturelle, on peut lui attacher des libellés préférés (skos:prefLabel) ainsi que

d’autres libellés alternatifs (skos:altLabel). Ces labels sont les représentants concrets

des termes et correspondent à de simples chaînes de caractères. Les instances de la classe

Concept représentent les concepts du thésaurus. On peut les associer à l’aide de plu-

sieurs propriétés comme skos:broader,skos:narrower, skos:related. . . Les deux

14_{Généralement, plus l’information stockée sera riche, moins les traitements devront être lourds.} 15_{Comprendre "dont aucun terme ne peut être interprété de façon ambiguë".}

16_{http://www.w3.org/2004/02/skos/}

17_{W3C, consortium à l’origine de plusieurs recommendations de langages orientés Web à valeur de standards}

premières relations organisent les concepts en une hiérarchie sans propriété d’héritage, chaque concept pouvant posséder plusieurs pères via la relationskos:broader. De plus,

un thésaurus SKOS peut être utilisé pour une annotation sémantique de document grâce à la relationskos:subjectallant du document vers un concept.

Plusieurs recherches sont en cours avec pour objectif de changer l’orientation de certains thésauri des termes vers les concepts en utilisant le formalisme de SKOS. Un tel phénomène marque un clivage avec la position défendue par l’influent standard ISO-2788 publié en 1986. De même, plusieurs standards récents comme ANSI/NISO Z39-19 admettent que les termes peuvent être considérés comme des libellés lexicaux représentant des concepts, mais leurs formats continuent à garder les termes comme objets de référence [NIS, 2003].

1.4.2 Standards ontologiques

Dans le cadre du Web Sémantique, il est capital d’avoir un formalisme commun pour la représentation d’ontologies, afin de permettre une meilleure interopérabilité dans le par- tage, la modification et l’intégration de telles structures. A cet égard, RDFS et OWL sont considérés comme les langages les plus adéquats car ils sont issus de recommandations du W3C et bénéficient d’une expressivité adaptée aux besoins de chacun. Tous deux s’appuient sur le langage de balisage XML, élément fondamental du Web Sémantique.

1.4.2.1 Les cartes topiques

Le formalisme des Topic Maps18 _{a été créé il y a une dizaine d’années afin d’aider de} façon logicielle à l’indexation documentaire. Adoptées comme norme ISO en 2000, les cartes topiques ont été dotées d’une syntaxe XML (à savoir XTM) puis associées à un langage de représentation de requêtes (TMQL). Elles mettent en avant plusieurs artefacts :

– Le topic constitue la réification d’un sujet quelconque dont la définition précise est volontairement occultée. Il s’ensuit qu’un topic peut renvoyer indifféremment à une classe ou à un objet du domaine modélisé. Tout topic peut être instance d’un (ou plusieurs) autre(s) topic(s).

– Tout topic possède trois caractéristiques : un ensemble de noms indépendant du to- pic, des occurrences qui correspondent aux identifiants vers les ressources (voire aux ressources elles-mêmes) en relation avec le topic, et un ensemble de liens N-aires d’association avec d’autres topics.

– La portée peut être vue comme le contexte dans lequel il faut interpréter les caracté- ristiques d’un topic. On peut citer par exemple la langue pour les noms, le niveau de confidentialité pour les occurrences ou la situation d’interprétation pour les associa- tions.

On constate qu’outre la non-différentiation entre classe et objet, ce formalisme ne donne pas de sémantique explicite à chaque topic. C’est à l’interpréteur (humain ou logiciel) de la déduire à partir du contexte dans lequel il se trouve et des caractéristiques valables dans ce contexte. Cette souplesse de représentation est souhaitable et bienvenue dans certains cas, notamment lorsqu’il s’agit de faire cohabiter dans un modèle des points de vue diffé-

rents sur un domaine [Caussanel et al., 2002]. Toutefois, une telle caractéristique nous paraît peu souhaitable pour nos recherches qui supposent un domaine consensuel dans lequel des expertises sont en mesure de faire autorité.

1.4.2.2 RDF et RDFS

RDF (Resource Description Framework) est un langage créé en 1999 et destiné à l’annotation de ressources sur le Web. Un document RDF est un ensemble de triplets de la forme <sujet,prédicat,objet>, chaque élément étant une URI, un littéral ou une variable. RDF possède plusieurs syntaxes (RDF/XML ou N3) et une sémantique formelle (exprimable en théorie des ensembles et en théorie des modèles) comparable à celle des graphes concep- tuels simples [Sowa, 2000] : une information sera contenue dans un document RDF si et seulement si la formule logique qui lui est associable est conséquence de celle attachée au document RDF [Baget et al., 2004]. En soi, RDF n’est pas un langage d’ontologie car il ne permet pas le typage des ressources annotées.

RDF Schema est une extension descriptive du vocabulaire de RDF qui permet la spéci- fication de la classe dont une ressource est instance. La sémantique de ce langage (avec notamment les notions de classes et propriétés) est à rapprocher de celle de la programmation objet. Toutefois la modélisation est différente car à l’inverse d’un langage de programmation comme Java, RDFS met l’accent sur la définition de propriétés à partir de classes (domaine et codomaine). La richesse de RDFS est relativement limitée : on ne peut y exprimer la notion d’axiome, point de départ de tout système logique. Le parti-pris de ce langage n’est pas de se suffire à lui-même dans des tâches complexes mais de constituer une base de départ solide pour la définition de nouveaux formalismes [W3C, 2004a].

1.4.2.3 OWL

OWL est une évolution du langage Web DAML+OIL qui s’appuie sur RDFS. Il a été conçu "pour représenter explicitement la signification des termes des vocabulaires [au sens de la logique des prédicats] et les relations entre ces termes" [W3C, 2004b]. OWL dépasse RDFS par ses capacités à représenter une ontologie de façon interprétable par une machine. En effet, OWL introduit la possibilité pour une machine de raisonner sur la base de connaissances, ce qui lui permet d’inférer des connaissances implicites et détecter d’éventuelles incohérences. De plus, le vocabulaire d’OWL s’avère plus riche que celui de RDFS car il rajoute des relations entre classes, des propriétés de cardinalité, d’égalité, la définition de classe par énumération. OWL permet de gérer des niveaux de complexité différents à travers trois sous-langages à l’expressivité croissante :

– OWL Light, sous-ensemble minimal destiné à la construction de taxinomies,

– OWL DL (Description Logics), à la fois beaucoup plus expressif qu’OWL Light et ga- rant de la complétude et de la décidabilité des calculs,

– OWL Full avec la liberté syntaxique de RDFS mais sans la complétude des calculs. Du fait de son degré d’expressivité modulable et de sa grande popularité en tant que standard privilégié pour les ontologies du Web Sémantique, nous avons choisi de fonder notre approche sur ce langage, nous y reviendrons plus en détail par la suite.

Dans le document Modélisation de connaissances à partir de textes pour une recherche d'information sémantique (Page 45-49)