• Aucun résultat trouvé

1.18 - Modèles de ressources terminologiques et ontologiques : bilan

Dans le document Td corrigé Publications - TEL (thèses pdf (Page 155-158)

Les modèles et plate-formes de modélisation proposés pour construire des ressources terminologiques (GÉDITERM) et ontologiques (TERMINAE) contribuent à répondre aux questions posées au chapitre 3 sur les modèles terminologiques, les ontologies et les textes. C’est ce que montre le bilan qui suit. D’autres éléments de réponse sont fournis au chapitre suivant sur les outils de TAL et leur intérêt pour la construction et l’utilisation d’ontologies en lien avec des documents.

1.18.1 Synthèse sur la notion de BCT : modèle neutre ou modèle lié à une application ?

Finalement, l’hypothèse d’une neutralité de la BCT par rapport aux textes a été remise en question :

- Même proche du texte, la BCT n’est de toute façon pas neutre car le texte lui-même véhicule une intention, celle de ses auteurs ou celle qui a motivé sa rédaction.

- En construisant un réseau conceptuel à partir de textes, les linguistes interprètent les textes et construisent des abstractions. En cela, la représentation résultant de leur analyse est bien une construction complètement influencée par leur interprétation du langage. De plus, leurs critères de modélisation restant implicites, ils peuvent fluctuer au cours du travail.

153

- Dès que l’on utilise ce modèle pour une application précise, on est obligé de revenir aux textes pour comprendre les choix de modélisation des linguistes. On refait donc un travail d’interprétation, désormais explicitement guidé par l’application ciblée.

Dans un premier temps [Rapport-MOUGLIS, 98], avec A. Condamines, nous avons défini les notions de BCT-corpus et BCT-Applicative pour apporter une solution à cette double tension présente au sein d’une BCT : la BCT-Corpus, affranchie de l’influence de l’application, serait le fruit de la seule analyse linguistique ; dans un deuxième temps, l’application serait prise en compte pour construire une BCT-Applicative par adaptation de la BCT-Corpus. Or cette proposition s’avère finalement lourde et peu pertinente :

- L’hypothèse que la BCT-Corpus soit « neutre » par rapport aux textes est mise à mal par le constat d’une certaine interprétation, inévitable dans l’analyse linguistique. On peut faire l’hypothèse que cette interprétation soit peu variable d’un linguiste à l’autre puisque la situation d’analyse est bien balisée : le corpus et les objectifs de modélisation sont fixés.

- La construction d’une BCT-Applicative requiert bien plus qu’une adaptation, il s’agit plutôt d’une re-création : la BCT-Corpus n’étant pas toujours suffisante, un recours au texte s’impose, ce qui revient à faire le travail d’analyse linguistique.

- Au final, la démarche globale nécessite du temps et des ressources coûteuses, en particulier deux types de compétence (linguistiques puis en modélisation des connaissances).

- Un autre risque est de perdre des informations au cours de la modélisation puisqu’elle est effectuée par deux personnes différentes.

Enfin, une dernière restriction est que la vérification formelle est repoussée à la fin du processus, au risque de remettre en question des connaissances incohérentes ou non valides trouvées au début et véhiculées inutilement. De plus, tant qu’on ne dispose pas de critère formel permettant de distinguer une BCT-Applicative d’une BCT-corpus, la frontière n’est pas gérable et semble tout à fait discutable. Il faudrait pouvoir préciser dans quel état doivent être les données en fin de construction de chaque type de BCT.

Dans le cadre de l'ingénierie des connaissances, rendre compte précisément d'un texte par une analyse linguistique sans prendre en compte l'application s'avère inutilement coûteux. Par contre, tant la structure de données des BCT que les techniques d'analyse linguistique utilisées peuvent être reprises pour construire un modèle ou une terminologie adaptés à des besoins particuliers.

1.18.2 Originalité des propositions relatives aux BCT

Mes propositions en matière de BCT se situent tant au niveau pratique (modèle de données, environnements de gestion GÉDITERM et de consultation CONSULTERM) que théorique (principes de définition des termes et concepts, nature des connaissances dont ce type de modèle rend compte, méthodologie de construction).

Le logiciel GÉDITERM est une contribution originale au niveau national (c’était un des seuls logiciels de gestion de terminologie inspirés des réseaux sémantiques avant TERMINAE) qu’international, où ses points forts sont

terminologiques et ontologiques

la méthodologie de construction associée, le lien vers les textes sources ainsi que la possibilité d’une visualisation graphique. Les logiciels comparables (comme CODE4) (Skuce, 1991) se focalisent plus sur la représentation des connaissances. Depuis, un système analogue a été réalisé à l’université Pompeu Fabra de Barcelona (T. Cabré).

Sur le plan théorique, une première contribution est le modèle de données dont l’intérêt dépasse largement celui des terminologies et pour interroger la représentation des ontologies. Il a été repris pour enrichir la représentation des connaissances dans TERMINAE. Ce modèle répond en partie à la volonté de rendre compte de la terminologie d’un domaine et des connaissances qu’elle reflète (question 2 du 3.2.2.). Ce modèle de données intègre des données terminologiques, leur sémantique (à travers un réseau conceptuel) et l’usage des termes à l’aide de liens vers des extraits de textes.

De plus, il permet de conserver les outils ou éléments de textes ayant servi à identifier et représenter les parties du domaine. C’est certainement un point fort pour anticiper des utilisations de la BCT pour accéder aux contenus de textes, comme l’ont montré les projets HYPERPLAN et MOUGLIS (le modèle servant à construire des index de consultation). Il s’agit là d’une première manière de tirer profit de ce type de modèle dans des applications de gestion documentaire (question 5 du 3.2.2.)

Un deuxième apport est une réflexion sur la neutralité des modèles, leur « distance » par rapport aux textes d’une part, à l’application ciblée d’autre part. En effet, l’hypothèse de neutralité de la BCT par rapport aux textes a été remise en question. Le texte véhicule une intension, qui est éventuellement détournée par les objectifs de la modélisation. En cela, son analyse débouche sur une construction complètement influencée par une interprétation finalisée du langage. Finalement, il est illusoire et inutilement coûteux de dissocier une analyse linguistique, qui se voudrait une restitution neutre du texte, de la prise en compte de l’application. Cette conclusion vaut également pour la construction des ontologies.

Cette analyse contribue à évaluer les possibilités d’utiliser et de réutiliser les modèles construits à partir de textes (question 7 du chapitre 3). Derrière la

« neutralité » des BCT-corpus, il y a l’espoir d’une grande réutilisabilité. Or la réutilisabilité des BCT ne peut venir d’une analyse la plus détaillée possible des textes. Il semble donc plus pertinent de privilégier l’utilité des modèles en prenant en compte dès le dépouillement terminologique ce à quoi ils doivent servir. Or ces BCT s’avèrent alors très spécifiques et peu réutilisables. La réflexion méritait d’être poursuivie, ce qui a été fait dans le cadre de la définition d’une méthode de construction d’ontologies (chapitre 6).

1.18.3 Des BCT aux ontologies

En matière de représentation d’ontologie, le modèle de données proposé reprend les principes du modèle de représentation des BCT. Il a été implémenté dans la plate-forme TERMINAE. Par rapport aux représentations classiques d’ontologies, et au standard OWL, je défends la nécessité de conserver avec l’ontologie une représentation du texte qui a servi de source de connaissances et une représentation des termes servant à désigner les concepts. Ces modèles doivent se situer au niveau conceptuel dans un premier temps, avant d’être formalisés. Ce modèle de données est à la fois plus riche que OWL, et moins précis, puisqu’il ne permet pas de représenter des axiomes ou des règles. Ces

155

résultats constituent le 2e volet de ma réponse à la question sur les représentations posée au chapitre 3 (question 2 du 3.2.2).

La transposition des résultats obtenus pour les BCT aux ontologies n’est pas triviale. Les points communs entre ces types de modèle invitent à utiliser des approches et des outils identiques pour les construire, en ayant des exigences de structuration spécifiques à chaque modèle. La différence de fond entre les deux structures des données n’est pas tant leur format que l’utilisation qui en est prévue, en particulier pour raisonner. Les capacités de raisonnement possibles à l’aide d’une ontologie sont liées au langage utilisé pour sa formalisation et à la richesse des connaissances représentées. Le fait de disposer d’un lexique riche et de liens vers des textes ne modifie en rien ces capacités. En revanche, en enrichissant ainsi une ontologie, on favorise son utilisation pour l’indexation ou l’annotation, son interprétation et son utilisation pour l’interaction homme-machine (chapitre 6).

L’étude successive de ces deux types de modèle fait ressortir qu’ils répondent à des objectifs différents. Une terminologie ou une BCT est construite pour rendre compte de termes jugés pertinents en fonction d’un domaine et du langage utilisé dans des textes. Une ontologie doit permettre une interprétation formelle et un raisonnement conceptuel. L’ontologie peut ne pas faire référence à la langue. Cette analyse amorce la réflexion sur la qualification de la validité des modèles par rapport à des classes d’applications (question 6 du 3.2.2). De fait, d’autres types de ressource, plus simples que les ontologies, comme les hiérarchies de concepts ou les terminologies, sont parfois plus pertinents pour certaines applications de recherches d’information ne faisant pas appel à des raisonnements. Les ontologies se distinguent aussi des BCT car elles sont prévues pour favoriser la réutilisabilité. Les concepts de l’ontologie sont a priori suffisamment consensuels et abstraits pour anticiper différents usages ou raisonnements, pour être compris et interprétés au sein de plusieurs applications. Ce point (question 7 du 3.2.2) reste encore à valider pour le modèle et la méthode définis.

Dans le document Td corrigé Publications - TEL (thèses pdf (Page 155-158)