• Aucun résultat trouvé

Un modèle pour les bases de connaissances terminologiques

Dans le document Td corrigé Publications - TEL (thèses pdf (Page 135-139)

1.16 - Modèles de données pour les ressources terminologiques et ontologiques

1.16.2 Un modèle pour les bases de connaissances terminologiques

Une BCT est avant tout un inventaire des termes d'un domaine enrichi d'informations conceptuelles. Les concepts, organisés en réseau conceptuel, permettent de donner un sens à ces termes, c’est-à-dire de définir les notions qu'ils désignent et de justifier leur place dans la terminologie. Pratiquement, les données d'une BCT sont donc organisées en deux parties : le réseau conceptuel, formé des concepts et relations conceptuelles, et les données linguistiques, les fiches terminologiques, ces dernières étant reliées au corpus d'où elles sont extraites. Le modèle de BCT proposé a été mis au point en collaboration avec A Condamines et J. Rebeyrolle de l’ERSS, dans le cadre du DEA de P. Séguéla [DEA-SÉGUÉLA, 96] et s’inspire du modèle proposé dans (Condamines et Amsili, 1993).

1.16.2.1 Présentation

Le modèle de BCT défini comporte trois types de structure : termes, concepts et textes. La figure 5.2.2.1 illustre l'organisation de ces structures.

Dans cet exemple, pris dans le domaine spatial (Condamines, 1993), le terme

RELAIS possède deux interprétations. Dans la langue de spécialité des experts en météorologie (point de vue météorologie), il désigne le concept étiqueté par SATELLITE et il est décrit comme « engin placé sur une orbite autour de la terre ». Le terme RELAIS est aussi utilisé dans la communauté des télécommunications pour désigner le concept étiqueté SATELLITE GEOSTATIONNAIRE. D’ailleurs, selon ce point de vue, les termes RELAIS et SATELLITE DE COMMUNICATION sont synonymes.

Ce modèle est décrit en détail dans [TIA, 97]. Termes et concepts sont deux structures distinctes afin de dissocier la manifestation linguistique de la notion qu’elle dénomme. On n’associe au terme aucune information conceptuelle : sa signification découle de ses concepts associés. Son interprétation dépend de la sémantique des structures représentant les concepts et en particulier des relations conceptuelles. Termes et concepts doivent donc être définis conjointement.

133

automatique

Figure 5.2.2.1 : Organisation des données dans la BCT. Le réseau conceptuel, à droite, est relié aux données terminologiques, à gauche, par des liens qui renvoient à des parties du texte.

D’ailleurs, ils sont reliés par des liens illustrant l’usage du terme lorsqu’il désigne ce concept. Les liens entre termes, concepts et textes véhiculent donc des informations :

- les liens d’usage précisent chacune des occurrences d’un terme d'une langue de spécialité en reliant le lien (terme, concept) à des textes ;

- les points de vue spécifient la validité d'utilisation de la désignation conceptuelle du terme ; il est une des caractéristiques du lien terme-concept ;

- des relations sémantiques associent les concepts entre eux.

Les textes sont stockés dans la BCT sous forme d'unités textuelles de manière à faciliter leur gestion. Ce découpage est transparent pour les utilisateurs.

La structure de terme, proche de celle présentée dans (Condamines et Amsili, 1993), rassemble, en plus du syntagme qui le désigne, uniquement des informations linguistiques : langue, variantes de forme, décomposition grammaticale, genre, nombre, ... Les relations entre termes, comme la synonymie, la polysémie ou l’anaphore, sont implicites et calculables à partir des liens terme-concept.

Enfin, un concept correspond à une description structurée et normalisée au sein d’un frame. Les connaissances de différenciation sont exprimées à l’aide de commentaires mais aussi d’attributs et de relations vers d’autres concepts : relations assertionnelles (relations étiquetées, sans sémantique formelle) et relations structurelles (« est-un », relation hiérarchique assurant l’héritage des relations assertionnelles). Un concept est défini par sa place dans la hiérarchie des concepts et par l'interprétation des commentaires, de ses attributs, de leurs valeurs et de ses relations. La modélisation conceptuelle de la BCT vise la caractérisation des notions selon un point de vue particulier et non leur définition exhaustive. Si besoin, il faut définir autant de concepts que de descriptions de celui-ci.

terminologiques et ontologiques

Ce modèle de données a été implémenté dans deux applications, GÉDITERM, logiciel de construction de BCT [Mémoire-FOURNIER, 98] (partie 5.3.1), et CONSULTERM, logiciel de consultation de BCT [Mémoire-LECORGNE, 98] (partie 5.3.2).

1.16.2.2 Intérêt d’un modèle non formel pour les BCT

Pour la représentation des connaissances, j’ai préféré une représentation non formelle, qui rende compte du réseau conceptuel sans permettre de raisonner sur ces connaissances. Ce choix répond à la pratique des linguistes et des bilans faits dans l’état de l’art. Les rapports de S. Simon [Mémoire-SIMON, 98] et P. Séguéla [DEA-SÉGUÉLA, 96] rendent compte de l’évaluation de différentes représentations formelles des connaissances. D’après leurs conclusions et surtout les témoignages avec des linguistes, utiliser un langage formel est trop contraignant pour le linguiste qui construit une BCT. Il l’oblige à s’éloigner de la forme des connaissances telle que la langue permet d’y accéder.

Tout d'abord, la formalisation suppose au préalable une normalisation des définitions (au sens défini dans la partie 5.5) qui contraint le linguiste à répondre à des questions dont la réponse n’est pas forcément dans le texte ou est ambiguë. En effet, la description formelle des connaissances oblige à rendre compte formellement des différences entre concepts à l’aide d'attributs ou de relations (rôle). Pour toute notion repérée à partir d'un terme, il faut d'abord décider comment la représenter (sous forme de concept, de relation ou d’attribut). Ensuite, si un concept est identifié, il faut trouver des indicateurs pour le placer systématiquement au bon endroit dans la hiérarchie EST-UN, puis le décrire en établissant des relations ou attributs qui le différencient de ses frères ou de son père ; savoir si ces relations et attributs lui sont propres ou sont hérités, etc. . Or ces connaissances ne sont pas toujours présentes dans les textes. Elles doivent être demandées aux experts. De plus, il est difficile de garantir une "bonne définition" des concepts en l’absence de finalité précise, c'est-à-dire de critère de décision pour trancher sur la définition à retenir. Or le linguiste ne se préoccupe pas encore à ce niveau de la finalité de la BCT.

Ensuite, la formalisation impose d'avoir une vision globale des connaissances à représenter, pour distinguer d'abord les concepts et relations dits primitifs de ceux qui seront définis à partir des premiers. De plus, il faut définir les concepts dans un ordre lié à l’organisation conceptuelle des données (placer les concepts les plus généraux puis les spécialiser) et non dans l’ordre où les données sont trouvées dans le texte. Au contraire, le linguiste dépouille le corpus progressivement et souhaite les représenter au fur et à mesure, alors qu’il ne possède pas tous les éléments nécessaires. Le linguiste a donc besoin d’une structure souple, peu contraignante, qui joue le rôle d’un outil d’annotation de résultats.

La représentation formelle des connaissances serait donc utile pour aider le linguiste à procéder de manière systématique, à ne rien oublier. Mais elle exige d'anticiper l’utilisation qui sera faite des données, d’avoir recours plus souvent aux experts du domaine pour des validations et pour compléter le corpus. De ce fait, elle conduit à enregistrer des connaissances plus éloignées du corpus, parfois sans justification linguistique, ce qui n'est pas notre objectif premier. Envisageable dans un deuxième temps, elle est prévue dans l'environnement d’exploitation de BCT CONSULTERM ainsi que dans l’environnement de modélisation d‘ontologies TERMINAE.

135

1.16.2.3 Comparaison à d’autres modèles de données des BCT

A l’inverse de ce choix, la plupart des formalismes utilisés pour représenter des BCT sont inspirés des réseaux sémantiques, des logiques de descriptions (dans CODE et TERMINAE) ou des graphes conceptuels (CGKAT).

HYTROPES utilise des frames (objets du langage TROPES) pour rendre compte de points de vue sur les objets. Le fait d’utiliser une représentation formelle des connaissances terminologiques est perçu comme un avantage, un moyen de réduire les ambiguïtés en obligeant à formuler explicitement des critères de définition et de différenciation, de classer au fur et à mesure les concepts définis, de vérifier leur cohérence, etc.

Malgré cette différence de formalisation, il est intéressant de comparer la richesse du modèle des données des BCT, et en particulier la représentation des relations. Dans mon modèle de BCT, la seule relation formalisée est EST-UN. La signification des autres relations est donnée par l’interprétation de leur nom ainsi que par le type des concepts qu’elle peut associer. Ce même choix est retenu dans HYTROPES ou CODE, où les autres relations sémantiques sont traduites par les attributs des concepts. Un travail plus poussé a été mené dans CGKAT pour proposer un ensemble de relations formelles organisées en une hiérarchie.

Enfin, le corpus est présent ou non dans le modèle des données. Assez caricaturalement, la plupart des systèmes qui visent une formalisation rapide et privilégient les concepts aux termes (CGKAT ou HYTROPES) n’intègrent pas le corpus. Toutefois, TERMINAE et Dockman, parce qu’ils accordent un poids important à l’analyse linguistique et à la justification de la modélisation par les textes, assurent le lien entre termes, concepts et textes. De même, les systèmes centrés sur l’analyse linguistique comme le nôtre privilégient les termes aux concepts et permettent de revenir facilement aux occurrences en corpus. Plus encore, System Quirk et HTL ne se focalisent que sur les termes et leurs occurrences, sans gérer clairement le niveau conceptuel.

Dans le document Td corrigé Publications - TEL (thèses pdf (Page 135-139)