• Aucun résultat trouvé

Évaluations expérimentales

Dans le document Td corrigé Publications - TEL (thèses pdf (Page 151-155)

L’évaluation de solutions en ingénierie des connaissances passe par la réalisation et surtout par l’utilisation de logiciels. J’ai donc retenu une démarche expérimentale pour évaluer mes hypothèses sur les BCT. Pour mesurer les retombées de choix et de principes fondamentaux, la réalisation d’outils est indispensable. De plus, l’énoncé de l’hypothèse lui-même contient la méthode de son évaluation : évaluer la pertinence d’une BCT pour construire une famille de systèmes (ici, des systèmes de consultation documentaire) suppose que l’on caractérise les types d’utilisation de la BCT dans ce cadre, les transformations des données requises, etc. Cette caractérisation théorique doit s’appuyer sur l’étude empirique d’un cas appliqué au moins.

Dans chacun des deux projets présentés ci-dessous, une BCT a été construite par des linguistes-terminologues à partir d’analyses de corpus avec le logiciel LEXTER. Dans les deux cas, GÉDITERM a été utilisé pour rendre compte d’une terminologie et d’un réseau conceptuel unique, formant une BCT, qui mette au premier plan le contenu des textes et leur analyse linguistique. La BCT était alors considérée « comme un modèle du texte, c’est-à-dire comme un produit dont la construction ne fait pas appel à une connaissance extérieure à celle du corpus ».

1.17.3.1 Mouglis : des BCT à la consultation documentaire

Le projet « Terminologie, Modélisation des Connaissances et Systèmes Hypertextuels de Consultation de Documentation Technique » (1996-1998) a soulevé le problème d’exploitation des fonds documentaires techniques par le

149

biais de l’étude sémantique de leur contenu. Traité en partenariat avec l’équipe

« sémantique et corpus » de l’ERSS et une entreprise, il a permis d’évaluer l’intérêt des BCT pour constituer des applications dans un domaine, tant du point de vue théorique (modèle de structuration des données, méthodologie de recueil) qu’appliqué (utilisation des données). Ces applications sont ici des outils de consultation documentaire, les SCDT ou Systèmes de Consultation de Documents Techniques. Ils ont en commun avec les BCT un référentiel terminologique relié à un corpus documentaire et à un modèle conceptuel des produits et activités du domaine. Le domaine d’application proposé par le partenaire industriel (la DER d’EDF) concerne le génie logiciel. Le corpus est un document d’aide à la mise en œuvre d’une démarche de génie logiciel scientifique et technique MOUGLIS.

Résultats théoriques

C’est dans le cadre de ce projet qu’un modèle de données et une méthode de construction de BCT ont été élaborés, et avec eux d’autres résultats théoriques sur les BCT :

- une caractérisation des différences sémantiques entre le réseau conceptuel d’une BCT, un index, un modèle du domaine, une ontologie formelle, un modèle de tâche et une « terminologie » pour la consultation documentaire ;

- une étude de l’impact de l’application visée et de la formalisation choisie sur la représentation des connaissances.

Plusieurs modèles ont dû être réalisés pour le SCDT à partir de la BCT construite par les terminologues : un modèle de la tâche décrite dans le document ainsi qu’un modèle du domaine donnant naissance à un index. Cette diversité a permis à la fois d’évaluer l’architecture retenue pour les SCDT, de proposer une démarche pour les construire et en particulier de mesurer l’apport d’une BCT dans cet objectif.

Avec ce projet, j’ai abordé le thème « sémantique et mémoire externe » par le biais de la représentation (qui préfigure ici une mémoire externe) et de l’interprétation des connaissances (qui leur confère une sémantique). En effet, étudier le mode de construction d’une BCT puis son exploitation, c’est s’intéresser au passage du texte à la BCT puis de la BCT à différentes sortes de modèles. Au cours de ce processus, sont construites des abstractions selon des critères différents, des représentations qui devront être interprétées rationnellement par des individus ou par un système formel. Mon travail a consisté à fixer les interprétations possibles des données, à essayer d’expliciter les variations d’interprétation et de prendre en compte la finalité du processus.

Résultats expérimentaux

Les résultats expérimentaux concernent la BCT proprement dite, son utilisation pour construire les différentes entrées vers le texte qui sont proposées dans le SCDT (un modèle de la tâche et un index), et son intérêt pour l’aide à la rédaction.

Mon modèle de structuration de BCT assure une construction pertinente de la BCT et une bonne exploitation de son contenu. Il permet de rendre explicites des phénomènes linguistiques comme l’homonymie et la synonymie.

Enfin, l’expérience confirme l’importance des relations conceptuelles spécifiques au corpus.

terminologiques et ontologiques

Pour construire un modèle de la tâche, les concepts décrivant des tâches et déjà représentés sous forme hiérarchique dans la BCT ont été repris. Les liens entre ces tâches et des concepts décrivant des documents ou des éléments de logiciel ont permis de choisir des attributs décrivant les tâches.

Mais la contribution essentielle de la BCT est dans la sélection de renvois associés aux concepts, c’est-à-dire des passages de textes indexés par les concepts et les tâches. Cependant, tous les passages sélectionnés dans la BCT n’ont pas convenu : il s’agit de contextes définitoires dans la BCT alors que, dans le modèle de tâche, on retient les contextes illustrant le rôle du concept dans la tâche.

Pour définir un index, la BCT a fourni une partie (seulement) des entrées, leur organisation en sous-entrées et les renvois vers les textes. Finalement, la nature des données présentes dans le modèle est en partie remise en question (non pas leur qualité linguistique, mais leur adéquation au besoin).

Enfin, la BCT s’est avérée un bon support pour une évaluation ergonomique du document car elle en permet une lecture finalisée et thématique. Elle facilite les recoupements et les vérifications de cohérence.

Elle permet de repérer rapidement des phénomènes linguistiques déviants enregistrés par les linguistes : paragraphes ayant des titres analogues mais de contenus différents ; hétérogénéité du vocabulaire désignant les types de document et les étapes du cycle de vie. Un mémento a été rédigé pour diffuser la méthode sous un format plus synthétique que le guide complet. La BCT, mais plus encore les échanges avec les linguistes nécessaires à sa définition, ont servi à l’expert du domaine à assurer une meilleure cohérence du contenu.

1.17.3.2 SGDD : Construire une modélisation unique de plusieurs corpus

L’objectif pratique de ce projet était de fournir à quatre entreprises une vue d’ensemble de leurs terminologies respectives et des conceptualisations que celles-ci manifestent pour que ces entreprises puissent communiquer mieux. Il a été décidé de rendre compte des terminologies de chacune, de leurs convergences et de leurs divergences, pour ensuite mettre en place un langage commun, moteur d’un partage de leurs connaissances et de leurs savoir-faire. Du point de vue scientifique, ce projet a offert un nouveau cadre d’évaluation de GÉDITERM, avec de nouvelles contraintes : la nécessité de rendre compte de modèles issus de plusieurs corpus, correspondant à plusieurs points de vue, puis de les mettre en correspondance. Ce type d’utilisation n’avait pas vraiment été prévu lors des spécifications de GÉDITERM, et posait des problèmes nouveaux de gestion de représentations multiples. Enfin, il a confirmé de façon criante la non-neutralité de l’interprétation linguistique, comme rapporté dans l’article de M.P. Jacques et A.M. Soubeille (Jacques et Soubeille, 2000).

Résultats attendus

L’étude de la terminologie a donc eu pour but de repérer dans quelle mesure des termes identiques employés par plusieurs partenaires renvoyaient aux mêmes concepts ou à des concepts différents. Dans ce dernier cas de figure, un objectif complémentaire était de produire une évaluation de cette différence. Cette étude a donné lieu à la construction d’une BCT dont on espérait que le modèle conceptuel permette de rendre compte de ces différences. Sur un plan méthodologique, elle a été menée en deux temps : (1)

151

l’analyse et la modélisation séparées de la terminologie de chaque partenaire, ce qui a conduit à construire quatre BCT ; (2) la fusion de ces quatre BCT en une seule, qui rend alors compte des différences et des similitudes de conceptualisation de chacun. La représentation des termes et des concepts dans la BCT finale s’appuie sur les textes, les validations d’experts et sur le réseau de chaque base spécifique.

Éclaircir la signification d’un terme implique donc de montrer pour chaque corpus non seulement à quel concept il est lié mais aussi comment ce concept est relié aux autres. L’étude a fait apparaître des relations qui n’étaient pas présentes pour tous les locuteurs. Ceci tend à montrer l’hétérogénéité de ce que l’on pouvait considérer de prime abord comme étant un domaine, si l’on caractérise le domaine par son lien à une pratique sociale, ici une pratique professionnelle.

Restituer des phénomènes linguistiques

La question s’est posée de la complète restitution des divergences de signification. Le point de vue comparatif déterminé par l’objectif de l’étude a impliqué une représentation analogue pour tous. Pour se prononcer sur l’identité ou la différence de deux concepts, il était nécessaire que la sémantique des relations soit constante d’un sous-corpus à l’autre. Structurer les BCT selon une architecture semblable a semblé le moyen de faciliter l’étape ultérieure de « fusion » lors du traitement des concepts dans la BCT finale.

Priorité a été donnée aux relations hiérarchiques et de composition. D’autres relations ont été définies à partir de la présence récurrente dans les textes de ce qui a été appelé un schéma de communication : X communique Z à Y via W, bien illustré par une phrase comme « Informations communiquées par la DDE31 : le bulletin prévisionnel est transmis par télécopieur au CIGT31... ». Ce schéma conduit à créer dans la BCT quatre relations binaires : envoie-à (émetteur X _ récepteur Y) ; reçoit (récepteur Y _ message Z) ; émet (émetteur X _ message Z) ; médiatise (média W _message Z).

Étude des termes communs et des concepts associés

La polysémie est manifestée par un traitement unitaire : un terme auquel sont reliés plusieurs concepts. Par exemple, au terme client sont associés les trois concepts proches #client-mairie, #client-semvat et #client-smtc.

L’homonymie est manifestée par un dégroupement : les concepts sont différenciés à partir d’un seul terme. Ainsi, deux concepts recouvrant des réalités très différentes correspondent à exploitant, #exploitant-smtc et

#exploitant-mairie. Sur les 800 termes étudiés, seuls quatre sont strictement identiques pour les quatre locuteurs. La présence d’éléments de définitions, de relations ou de contextes identiques, a été considérée comme l’indice d’un

terminologiques et ontologiques

Figure 1 : le concept #client pour deux des locuteurs (SEMVAT et SMTC)

Ceci ouvre sur la question du traitement des termes en usage dans les textes provenant d’univers distincts mais rapprochés par des échanges professionnels ou finalisés entre les locuteurs ou auteurs. Ces échanges estompent les frontières entre domaines et conduisent à l’utilisation de termes identiques. Il a été choisi, en rupture avec une tradition terminologique de plus en plus remise en question par les faits, de traiter ces cas de figures comme des manifestations de polysémie d’un terme, au regard de la parenté (parfois justifiée par l’opération de référence réalisée par le terme) entre des concepts élaborés dans des systèmes différents. Mais il serait intéressant d’affiner la description des concepts qui semblent ainsi partagés ou éventuellement empruntés à un domaine par un autre et de décider des relations à prendre en compte pour les décrire.

1.18 - Modèles de ressources terminologiques et ontologiques :

Dans le document Td corrigé Publications - TEL (thèses pdf (Page 151-155)