Textes et modèles de connaissances - 1.6 - Analyse des travaux sur ontologies et textes

1.6 - Analyse des travaux sur ontologies et textes

1.6.1 Textes et modèles de connaissances

1.6.1.1 L’acquisition de connaissances à partir de textes

L’acquisition des connaissances à partir de textes est un thème présent dans les recherches depuis le début de l’acquisition des connaissances. Ainsi, un des premiers écrits des précurseurs de la modélisation conceptuelle, B.

Wielinga et J. Breuker (Wielinga & Breuker, 1984), porte sur l’exploitation de retranscriptions d’entretiens d’experts pour la modélisation conceptuelle. Loin de considérations linguistiques, leur proposition est justement de ne pas rester au plus près du fil du texte, mais de caractériser la nature du problème traité, de la tâche effectuée et de la méthode choisie pour la traiter. Cependant, à cette même époque, d’autres auteurs proposent de s’intéresser au matériau linguistique que présentent les textes en tant que traces de connaissances.

Dans sa thèse, D. Bourigault repère deux courants successifs (Bourigault, 1994a) :

- Dans un premier temps, au cours des années quatre-vingt, l’acquisition de connaissances à partir de texte s’appuyait sur des analyses manuelles, le cogniticien cherchant à effectuer un « transfert » des textes vers les modèles.

- Ensuite, à partir de 1990, des travaux ont fait appel au Traitement Automatique des Langues (TAL), s’appuyant sur une vraie réflexion linguistique et terminologique, voire ontologique, sur le passage d’une analyse de surface des textes à des modèles et représentations.

Chacune de ces périodes a donné lieu à une reformulation de la problématique :

Lors de la première période, il s’agit de définir comment repérer des connaissances dans des textes et dans des entretiens d’experts. Plus rarement, la question posée est de disposer d’une théorie générale de la langue pour repérer des éléments de modèle à partir de phrases. Ainsi, la méthode KOD (Vogel, 1988) propose une correspondance entre des primitives linguistiques (ou plutôt sémiotiques, comme les schèmes et les sèmes) pour repérer des concepts et éléments d’actions ensuite représentés sous forme d’objets d’un modèle. Ce repérage manuel dans des entretiens non dirigés et retranscrits suppose une lecture exhaustive et un dépouillement minutieux. La méthode Cognosys (Woodward, 1989) propose un découpage manuel de paragraphes, ensuite analysés phrase à phrase pour repérer des règles heuristiques. Dans les deux cas, il manque une prise en compte de la nature des entretiens, une vraie réflexion sur la constitution des corpus ou sur le recul à prendre entre l’information trouvée dans les textes et le modèle pertinent pour le système à concevoir.

Les questions se posent différemment dès lors que l’on envisage d’outiller l’analyse de textes : Comment des logiciels d’analyse, des extracteurs et des techniques linguistiques peuvent-ils aider à repérer des connaissances à partir de textes ? Comment les termes en usage sont-ils révélateurs de structures conceptuelles, lesquelles ? Sont-ils des indices pour construire des représentations informatiques ? Comment les représenter, en rendre compte pour qu’elles soient pertinentes pour une application donnée ? Les premières réponses à ces questions ont été apportées par les recherches sur les ontologies génériques (Sowa, 2000), sur les bases de connaissances

terminologiques (Skuce et Meyer, 1992) ou encore sur l’extraction terminologique (Reimer, 1990) (David et Planque, 1996).

1.6.1.2 Des modèles conceptuels aux ontologies

Une autre tendance a fortement marqué l’IC à partir de 1992 : le développement des premiers travaux sur les ontologies (Gruber, 1991) (van Eijst, 1995). Depuis cette période, les ontologies sont progressivement devenues le cœur de la majorité des nouvelles recherches en IC, occultant les problématiques de modélisation du raisonnement ou de la résolution de problème, jusque-là considérées comme le cœur de la problématique de l’IC.

Ce glissement radical revient à renouveler la répartition des connaissances au sein du système. La réalisation des tâches et leur enchaînement, nécessitant pourtant une modélisation parfois complexe, n’est plus au cœur des études. En effet, elle est supposée prise en charge par le système de manière plus ou moins algorithmique, ou laissée à l’utilisateur. Au contraire, les connaissances propres au domaine et manipulées par les raisonnements ou directement par le système sont devenues centrales et l’objet de toutes les attentions. Il s’agit de ne plus organiser un réseau conceptuel de manière intuitive ou empirique en fonction des besoins de la tâche, et de trouver des critères explicites de bonne structuration de ces connaissances. La notion d’ontologie est venue répondre à ces besoins. Leur étude correspond à un changement plus profond de point de vue sur ce qu’est et peut faire un système « à base de connaissances ».

Je ne reviendrai pas ici sur l’historique de la notion d’ontologie en philosophie, sur les traditions philosophiques définissant le concept ni sur les typologies d’ontologies et courants présents en IC. Le lecteur peut consulter les habilitations de J. Charlet (Charlet, 2003) et B. Bachimont (Bachimont, 2004) qui abordent ces points de manière très complète.

Les recherches sur les ontologies en intelligence artificielle font suite à des initiatives croisées sur la réutilisation de connaissances du domaine, leur meilleure indépendance par rapport au raisonnement (van Eijst, 1995) et surtout sur la définition de représentations des connaissances facilitant un meilleur échange de bases de connaissances, en particulier le Knowledge Sharing Effort aux USA (Neches et al., 1991). Les motivations initiales au développement des ontologies sont essentiellement la réutilisation des modèles de connaissances du domaine d’une application à l’autre, l’interopérabilité des systèmes les utilisant, leur maintenance ainsi qu’une plus grande validité, faisant consensus entre spécialistes du domaine (Gruber, 1991) (Valente et al., 1996). À ces éléments, le développement massif d’applications pour le web a soudain ajouté de nouveaux enjeux, à la fois techniques et économiques, ayant des conséquences sur la forme mais aussi le fond des modèles attendus. Les propositions d’architecture ou d’applications pour le futur web dit « web sémantique » font systématiquement appel aux ontologies : elles doivent fournir des représentations partagées utilisables par des agents logiciels, des bases de méta-données pour annoter ou indexer des documents ou encore assurer la mise à disposition de tous de bases de connaissances consensuelles. Ainsi, les ontologies couvrent des réalités différentes suivant qu’elles sont destinées à être des connaissances partagées entre agents logiciels, des supports pour des systèmes interagissant avec l’utilisateur ou encore des ressources de méta-données pour indexer ou annoter des documents.

1.6.1.3 Les ontologies en ingénierie des connaissances

L’évolution de la définition des ontologies reflète les débats dont elle fait l’objet en IC, et le fait que différentes études ont été nécessaires pour stabiliser ce qu’elles peuvent être. Ainsi, les premières définitions mettent l’accent sur l’aspect représentation formelle des connaissances (Gruber 1991), ainsi que sur les aspects « vocabulaire et définitions des concepts d’un domaine » (Ushold & Gruninger, 1996). Je présente ici une définition actuelle, proposée dans (Studer et al., 1998), car elle fait consensus dans le domaine et intègre de manière pertinente plusieurs clarifications relatives à la définition assez fondatrice pour l’IC donnée par (Gruber, 1993) :

An ontology is a formal, explicit specification of a shared conceptualisation. Conceptualisation refers to an abstract model of some phenomenon in the world by having identified the relevant concepts of that phenomenon. Explicit means that the type of concepts used, and the constraints on their use are explicitly defined. Formal refers to the fact that the ontology should be machine-readable. Shared reflects the notion that an ontology captures consensual knowledge, that is, it is not private of some individual, but accepted by a group.

Ainsi, l’ontologie répond à des exigences complémentaires et symétriques : (i) en tant que spécification, elle définit une sémantique formelle pour l’information permettant son exploitation par un ordinateur ; (ii) en tant que reflet d’un point de vue – partiel – sur un domaine, que l’on cherche le plus consensuel possible, elle fournit une sémantique qui doit permettre de lier la forme exploitable par la machine avec sa signification pour les humains.

Une autre définition, proposée par Charlet (Charlet, 2003), a servi de repère à mes travaux à partir 1998, et peut compléter la première :

Une ontologie est une spécification normalisée représentant les classes des objets reconnus comme existant dans un domaine. Construire une ontologie, c’est aussi décider d’une manière d’être et d’exister des objets de ce domaine.

Cette définition, inspirée des travaux de B. Bachimont (Bachimont, 2004), met l’accent sur l’importance du point de vue retenu pour construire l’ontologie sur son contenu. Elle souligne également la notion de normalisation, qui fait allusion aux critères « ontologiques » de structuration qui guident l’identification et la description de concepts selon le point de vue retenu. Enfin, elle sous-entend que cette spécification est formelle, qu’elle définit des concepts qui vont servir de « vocabulaire » à une théorie logique représentant formellement l’ontologie. L’école constructiviste fait l’hypothèse forte que cette théorie peut refléter toutes les connaissances que l’on cherche à représenter, toute la conceptualisation visée, et cela de manière universelle. Ce courant a fortement influencé les approches de l’ingénierie des connaissances, qui ont mis en avant le caractère générique et réutilisable de ces modèles.

Plus nuancés, les travaux de (Guarino et Giaretta, 1995) parlent au sujet de cette théorie d’« engagement ontologique » pour souligner qu’elle ne peut rendre compte que partiellement de la conceptualisation visée. B. Bachimont accentue cette restriction (Bachimont, 2004), entre autres parce qu’il s’appuie sur l’usage de la langue pour dégager des concepts, et aussi parce qu’il propose des principes différentiels appliqués à des unités linguistiques comme principes ontologiques. Pour lui, c’est la position d’un concept dans le réseau conceptuel qui va déterminer sa signification. Son libellé pourra être utilisé

comme une primitive logique s’il a été défini en respectant des principes différentiels. Et c’est l’ensemble des prescriptions interprétatives données par ces principes qui définissent l’engagement sémantique à la base de l’ontologie.

Or cet engagement ne peut être universel. Il n’est valable que localement,

« régionalement », dans le cadre du domaine et de la tâche qui ont permis de définir les textes choisis pour disposer d’une image des usages réels des unités linguistiques.

À la suite des travaux de B. Bachimont, les membres du groupe TIA ont défendu que les ontologies construites par l’IC et utiles pour des systèmes d’information à base de connaissances sont des ontologies régionales. Je reviendrai sur la portée de cette affirmation plus tard dans ce chapitre.

1.6.1.4 Textes, terminologies et modèles de connaissances : une convergence pluri-disciplinaire

Les premiers travaux sur les ontologies menés en intelligence artificielle et en IC couvrent les aspects formels de la représentation des connaissances et s’intéressent beaucoup moins à la définition des contenus de ces modèles. On s’attend à ce que la puissance et la qualité des langages de représentation, assurant une unicité des définitions et une certaine interopérabilité, viennent résoudre les ambiguïtés des notions sous-jacentes et réduire la difficulté à bien définir des concepts. La formalisation est supposée garantir la validité des interprétations possibles.

Or à la même époque, c’est dans d’autres domaines, ceux de l’ontologie formelle (Smith, 1998), de la terminologie (Skuce et Meyer, 1992), de la sémantique formelle et des réseaux sémantiques (Sowa, 1991) que les questions du sens et de sa représentation, en lien avec la langue qui permet de l’exprimer, sont posées. Ces interrogations conduisent chacun des domaines à renouveler ses approches ou à pousser plus loin ses questionnements.

Un exemple de renouvellement concerne la représentation des connaissances. Les limites dues au manque de précision des réseaux sémantiques, comme la polysémie des étiquettes de relations ou le manque de repères pour structurer la définition des concepts ont donné lieu à des réflexions théoriques sur la représentation des relations (Woods, 1975) et des concepts (Brachman, 1977), leur interprétation formelle et humaine. Pour approfondir le lien historique fondamental entre ontologies et réseaux sémantiques, on peut consulter l’habilitation de B. Biébow (Biébow, 2004).

Un autre renouvellement est celui qui a touché la terminologie en tant que discipline. Je détaille cette évolution, également décrite dans (Condamines, 2003) et (Biébow, 2004), parce que le regard posé sur les textes par les informaticiens construisant des ontologies reprend celui de la terminologie. La terminologie vise à étudier, inventorier et décrire sous forme de fiches les termes d’un domaine, avec une visée normalisatrice. Ses fondements, posés par Wüster dans les années trente dans la lignée du courant positiviste, affirmaient que la connaissance scientifique était basée sur le raisonnement logique, et proposaient le terme comme unité minimale de cette connaissance. Ce postulat entraîne deux affirmations liées au statut du terme : l’unicité de son interprétation (de son sens) au sein d’un domaine et de la manière de le fixer de façon « définitive » ; la possibilité claire de délimiter des domaines complémentaires et disjoints, dont la réunion couvrirait la diversité des champs scientifiques. Or la plupart de ces principes ont été mis en défaut par la pratique des terminologues : même au sein d’un domaine, on

trouve des termes polysémiques ; leur sens ne fait pas toujours consensus et cette normalisation relève du choix du terminologue et, de plus, elle peut être remise en question régulièrement ; les domaines n’ont pas de frontières très claires et définitives dans l’absolu ; enfin, l’usage d’une terminologie donnée influence fortement la manière d’en déterminer le contenu (Slodzian, 1995).

Finalement, les rares objets d’étude tangibles et bien identifiés sont les textes où les termes sont utilisés. Le domaine a donc évolué vers une terminologie textuelle (Bourigault et Slodzian, 1999) Les limites d’un domaine sont alors délimitées par le corpus des textes étudiés et l’usage prévu du produit terminologique. Le terme et sa description sont alors le fruit d’une analyse de l’ensemble de ses usages en corpus, guidée par la pertinence par rapport au corpus et à l’application. En fait, la terminologie, en tant que base de données, n’a pas de raison d’être en soi : elle est déterminée par ses usages, et l’on parlera de ressource plus que de produit terminologique.

La question du sens est également au cœur de certaines approches du traitement automatique des langues. Ce domaine de l’informatique comporte des facettes très variées, parmi lesquelles l’analyse du langage écrit rejoint la problématique de la recherche de « connaissances » dans des textes. Après 1990, les systèmes ou algorithmes proposés sont désormais compatibles avec les besoins de l’IC car la manière d’aborder l’analyse du langage a, elle aussi, évolué. En effet, différentes expériences ont montré l’écueil de développer des approches exhaustives, visant des analyses complètes, à tous les niveaux de description du langage, et des interprétations sémantiques du langage écrit. La notion de traitements de surface, partiels et robustes a permis de mettre au point des logiciels moins ambitieux, n’abordant qu’une partie des phénomènes linguistiques, combinant des aspects linguistiques et statistiques, pour produire des vues sur les textes analysés (Daille, 1994). Ces logiciels, parvenus à une certaine maturité, s’avèrent performants et adaptés à la problématique de la modélisation conceptuelle dans la mesure où certains ont le souci de faciliter l’exploration des données ainsi tirées des textes (concordanciers, KWIC, extracteurs de termes, …). L’idée d’interpréter des textes pour la seule visée de compréhension du langage étant remise en question (Reimer, 1990) (Hahn et al., 2002), les chercheurs développant ces logiciels ont cherché de nouveaux terrains d’expérimentations et d’applications possibles de ces traitements.

La convergence de ces différentes disciplines avec l’IC a été possible car, à leur tour, leurs recherches se sont tournées vers l’intelligence artificielle afin d’y trouver (ou de lui proposer) des formalismes logiques pour raisonner (cas des réseaux sémantiques), des structures de données pour gérer de gros volumes de données (cas de la terminologie), ou des terrains d’application.

Ainsi, à la frontière entre informatique et terminologie, la notion de base de connaissances terminologiques a permis de proposer une structure de données suffisamment riche et souple pour rendre compte des liens complexes entre les termes d’un domaine, les textes où ils sont utilisés et des concepts informatiques.

Dans le document Td corrigé Publications - TEL (thèses pdf (Page 61-65)