• Aucun résultat trouvé

Ingénierie des connaissances et documents

Dans le document Td corrigé Publications - TEL (thèses pdf (Page 65-68)

1.6 - Analyse des travaux sur ontologies et textes

1.6.2 Ingénierie des connaissances et documents

Même si l’intérêt de l’ingénierie des connaissances pour les documents, essentiellement les documents électroniques, est surtout visible au sujet du Web (sémantique) et des ontologies, il va bien au-delà.

63

1.6.2.1 Textes et documents en ingénierie des connaissances

L'IC s'intéresse aux documents comme porteurs de sens et révélateurs de connaissances depuis les premières études sur l'acquisition des connaissances pour les systèmes experts (années 90). Il s'agissait déjà de repérer des connaissances heuristiques, de rendre compte de raisonnements explicités plus ou moins dans des documents existants ou élaborés pour l'étude (retranscriptions d'entretiens). Dans cette perspective, les documents ne sont pris en compte que pour leur contenu. Ils sont considérés comme une source de connaissance complémentaire ou alternative aux experts et spécialistes du domaine. Le document est l’objet d’étude dans un premier temps, mais ensuite, il est abandonné au profit du modèle qu’il a permis de construire. Ce modèle sera intégré dans une application (éventuellement pour revenir au document).

Dans la perspective de la gestion des connaissances, c’est le document en tant que tel qui est central, il est un élément support de connaissance à part entière. Il peut s’agir alors de textes mais aussi d’images, de vidéo, etc. La gestion des documents produits et utilisés au sein de l’activité individuelle et collective étudiée, mais aussi, en tant que telle, la gestion de fonds documentaires (images, sons, vidéos) intéresse alors l’ingénierie des connaissances. Ces applications font appel aux technologies relevant de la gestion documentaire et permettant le partage, la diffusion, l’archivage, l’indexation, la structuration ou la classification de documents ou de flux de documents. Ces technologies sont propres à la nature des supports, et les problématiques diffèrent un peu selon que l’on traite des images, du son, des vidéos ou des textes. La difficulté est d’appliquer ces solutions technologiques aux bons documents de manière à répondre au mieux aux besoins des utilisateurs, et qu’ils y trouvent les supports (entre autres les connaissances) utiles à la réalisation de leurs tâches.

Parce que de plus en plus de projets d’IC intègrent la gestion de documents sous des formes très variées, les chercheurs du domaine ne peuvent s’affranchir d’une réflexion approfondie sur la notion de document, et particulièrement de document numérique. Ainsi, plusieurs chercheurs contribuent aux travaux du réseau thématique pluridisciplinaire sur le document (RTP-DOC) et à ses productions (Pédauque, 2003) (Pédauque, 2005).

Dans la suite de ce mémoire, je me focaliserai essentiellement sur le premier point de vue. Dans ce cas, le document (on parle de "texte") est exploré, manuellement ou à l'aide de logiciels de traitement automatique des langues, pour y repérer des éléments utiles à la construction d’un modèle conceptuel. Le document n'est perçu que par son contenu, au détriment de la sémantique que peut porter sa mise en forme, son statut dans l’organisation qui l’utilise ou son historique par exemple. Il fait l'objet d'une analyse souvent parcellaire, "microscopique" (études au niveau de la phrase ou du paragraphe) et morcelée en unités de lecture qui minimisent l'intérêt de l'unité et de la structuration de l'ensemble. Les nouveaux outils de TAL au service de ce type d'étude essaient justement d'aller au-delà d'une analyse locale, de faciliter les recoupements à travers l'ensemble du document, de retrouver par exemple tous les contextes d'usage de syntagme pour en appréhender un sens global.

Néanmoins, le travail d'analyse consiste, à partir de l'observation de fragments de texte, à les interpréter, les sélectionner ou les rejeter, à y identifier des connaissances, à les représenter et les formaliser. Ce jugement est tout autre que l'assignation directe d'une valeur de vérité à une expression en langue pour la traduire en une formule logique. Il consiste à évaluer une pertinence et

à faire des choix de structurations des connaissances à partir de plusieurs analyses. Il s'agit de pondérer la confiance que l'on fait au fragment de texte vis-à-vis du document, au document par rapport au modèle à construire, et enfin de mesurer l'intérêt des connaissances identifiées par rapport à ce modèle. Des experts du domaine sont sollicités pour valider ou corriger ces choix.

Ainsi, la perspective du modèle à construire, de la mise en forme du raisonnement en lien avec une expertise, prime sur la fidélité au texte ou sur le souci d'en rendre compte avec précision.

1.6.2.2 Gestion des connaissances et construction d’ontologies

Avant même le vaste programme du Web sémantique, les recherches sur les ontologies et sur la gestion des connaissances sont venues bousculer de plusieurs manières ce rapport de l'IC aux documents. D'une certaine manière, il en est devenu plus précis et plus complet. Les évolutions mentionnées ci-dessous le sont à titre d'exemple et ne se veulent pas exhaustives.

- Ainsi, dès que l'on aborde la gestion des connaissances, le statut des différents documents dans l'organisation, leur rôle, leur circulation et leur histoire sont analysés finement pour déterminer ceux qui peuvent favoriser les échanges de connaissances, pour définir les organisations ou les logiciels facilitant leur conception et leur diffusion, etc. La matérialité des documents est prise en compte, ainsi que leurs auteurs, objectifs, lecteurs ciblés, les différents modes d'accès ou de lecture à prévoir, ce qui replace le document à la fois dans sa dimension matérielle et dans sa dimension sociale.

- Un autre impact de travaux en gestion des connaissances concerne la manière de rendre compte des modèles de raisonnement et de connaissances.

L'échec des systèmes de résolution de problèmes indépendants (systèmes experts) a obligé d'inventer de nouvelles manières de rendre compte des savoir-faire au service de la réalisation d'une tâche. La proposition globale est de fournir un système d'aide à l'opérateur (et non qui se substitue à lui), avec des propositions variées sur la nature de cette aide : réalisation automatisée de certaines tâches, d'autres étant laissées à l'opérateur, guidage, présentation d'objectifs ou de méthode de résolution, systèmes hypertextuels de navigation dans des connaissances rédigées et structurées. Le document, numérisé, structuré et organisé pour différents modes de lecture en lien avec la tâche, est intégré dans l’application non plus comme une source de connaissances mais comme un moyen de se les approprier après qu'elles aient été modélisées, structurées et rédigées.

- D'autres exemples de renouvellement du lien IC et documents peuvent être pris dans les travaux sur les ontologies. Les ontologies ont été définies comme des représentations d'un domaine, accentuant la dissociation (parfois provisoire) entre le raisonnement heuristique et la description des concepts manipulés par ces heuristiques. Les ontologies se focalisent donc sur l'essence d'un domaine (comme la médecine, ou un champ de la médecine par exemple), sur son vocabulaire et, au-delà, sur le sens dont il est porteur. Le rapprochement a été fait rapidement avec les thésaurus ou les terminologies pour mieux marquer les différences et les apports des uns et des autres.

Cette confrontation dépasse la simple comparaison de structures de données pour revenir aux modes de construction et aux usages qui sont faits de ces représentations. Les méthodes de l'IC se sont alors enrichies d'échanges

65

avec les terminologues, lexicographes ou linguistes de corpus, ou spécialistes du TAL. Le regard sur les textes s'est également affiné par la mise en oeuvre d'approches syntaxiques et sémantiques.

1.6.2.3 Une dernière étape : le web sémantique

Enfin, l'état d'avancement actuel des propositions du W3C au sujet du Web Sémantique accorde une place privilégiée aux ontologies. Ceci augmente ainsi artificiellement les attentes à leur égard, concernant le potentiel de leur utilisation par différents types d’applications comme les services web, les agents logiciels ou la recherche d’information. Malgré ce risque, l’enjeu est passionnant parce qu'il élargit encore et positivement le spectre des applications concernées par les connaissances en y ajoutant les applications classiques en recherche d'information. Les ontologies sont alors vues comme une structuration plus riche que les thesaurus ou les lexiques utilisés jusqu'ici car elles introduisent d'une part une dimension sémantique (le réseau conceptuel) et formelle (gérable par les applications informatiques) et d'autre part, dans certains cas, une dimension lexicale qui améliore les accès aux documents.

Si l'on voit les ontologies sous l'angle de leur utilisation pour le Web Sémantique, elles sont effectivement avant tout un réservoir à méta-données pour mieux caractériser le contenu des ressources du Web. L'IC aborde donc depuis peu seulement, et avec un bagage tout autre que celui des Sciences de l'Information ou de la recherche d'information, le problème des méta-données et des méta-langages. En cela, elle a effectivement intérêt à se rapprocher de ces disciplines, qui, par leurs acquis, lui rappellent que les questions qu'elle traite ont déjà été abordées dans un contexte différent mais comparable.

Dans le document Td corrigé Publications - TEL (thèses pdf (Page 65-68)