Nouvelles orientations thématiques - 1.15 - Des experts aux textes, des modèles co

1.15 - Des experts aux textes, des modèles conceptuels aux ontologies

1.15.1 Nouvelles orientations thématiques

1.15.1.1 Motivations

Afin de diversifier les techniques entrant dans la construction d’un modèle conceptuel, j’ai mesuré l’intérêt d’exploiter les textes associés à un domaine de connaissances et d’utiliser pour cela des logiciels d’analyse du langage favorisant une étude terminologique. Au cours du projet SADE, l’extracteur de termes LEXTER a été utilisé pour étudier la terminologie du domaine. Cette expérience a montré l’atout de ce type de logiciel de traitement automatique des langues (TAL) pour identifier et représenter plus rapidement les concepts du modèle du domaine à partir de textes disponibles dans le domaine. Elle a également souligné la nécessité d’enrichir les capacités de représentation des connaissances pour permettre de gérer les termes (le vocabulaire) comme des entités à part entière. Il était tentant de poursuivre plus avant une recherche dans cette direction. Les deux raisons principales identifiées alors étaient de réduire le coût de la construction des modèles en sollicitant moins les experts et d’aborder, au-delà de la terminologie, la dimension linguistique des connaissances, alors que jusqu’ici, j’en ai étudié essentiellement les aspects cognitifs et ergonomiques. Plus précisément, en matière de modélisation conceptuelle, les avantages attendus étaient les suivants :

- diversifier les sources de connaissances, utiliser de manière complémentaire les documents existants, les échanges écrits entre acteurs du domaine et les traces d’entretiens ;

- exploiter des ressources terminologiques existantes, et proposer un modèle de connaissances cohérent avec les normes, terminologies et descriptions d’objets métiers existants ;

- s’appuyer sur des traces de connaissances plus consensuelles et relativement fiables, diffusées et mises sous forme écrite, de nature autre que des savoir-faire individuels ;

- accélérer le processus de modélisation en automatisant une partie du recueil de connaissances à l’aide d’outil d’analyse de textes ;

- disposer de modèles plus riches, plus faciles à interpréter et à maintenir, en associant aux modèles des textes et fragments de textes qui les documentent ou qui en justifient le contenu.

Les motivations relatives à l’intégration d’une dimension linguistique renvoyaient à des enjeux théoriques et pratiques, toujours d’actualité :

- concernant le processus de modélisation (qui correspond à la construction d’une représentation formelle), il s’agit de bénéficier des recherches sur la

terminologiques et ontologiques

représentation formelle du langage naturel, sur le traitement automatique du langage naturel et en linguistique ;

- concernant les primitives de représentation des connaissances, il s’agit d’ajouter aux structures habituelles (concepts ou classes, relations ou rôles, etc.) des structures pour représenter les termes associés, des extraits de textes (corpus), des éléments de caractérisation syntaxique de la présence de ces connaissances dans les textes (patrons).

La problématique abordée est celle du repérage de connaissances à partir de formulations en langage naturel en vue de les utiliser pour construire des modèles conceptuels. Il s’agit non pas d’automatiser la production de représentations (conceptuelles ou formelles) mais bien de fournir un guide pour faciliter l’exploration d’un ensemble de textes afin d’en extraire des représentations conceptuelles. Les modèles conceptuels ciblés, qui étaient des modèles du domaine au début de ce travail, sont devenus des bases de connaissances terminologiques puis des ontologies (au sens donné en ingénierie des connaissances).

Ainsi, ma thématique de recherche demeure la construction de modèles conceptuels. Mais je l’ai traitée par la suite en étudiant en priorité les textes comme traces de connaissances, en définissant d’autres techniques d’analyse, basées sur le traitement automatique du langage et les techniques linguistiques, pour cibler les modèles particuliers que sont les ontologies et les ressources terminologiques. Ces glissements résultent à la fois de l’évolution de la formulation des problématiques dans le domaine, de nouvelles demandes en matière d’applications et en particulier de recherche d’information, et de convergences avec des questions d’autres disciplines. En effet, cette nouvelle orientation de mes travaux est aussi le fruit de collaborations avec des linguistes (en particulier Anne Condamines et Josette Rebeyrolle du laboratoire ERSS⁹) et des spécialistes du traitement automatique des langues (comme Didier Bourigault alors à la DER¹⁰ d’EDF).

1.15.1.2 Collaborations et démarche interdisciplinaires

Avec le développement de la linguistique de corpus, les linguistes se sont tournés vers l’informatique non seulement pour définir ensemble de nouveaux logiciels d’analyse ou d’exploration des textes, mais aussi pour étudier les contributions possibles de la linguistique de corpus à la mise en forme des résultats de ces analyses. Un des premiers supports intéressants pour les linguistes, les terminologues et les lexicographes sont les bases de connaissances terminologiques (BCT). Différentes facettes de la linguistique de corpus peuvent contribuer à la construction de BCT : outiller la mise en œuvre de techniques d’exploration de corpus, définir un modèle de données pour les BCT, mettre en forme une démarche systématique pour leur mise au point ou encore un logiciel permettant de les construire. Plus fondamentalement, la linguistique rejoint ici les préoccupations de la terminologie et s’interroge sur une manière de gérer des termes en tenant compte du sens qu’ils recouvrent en corpus. Or l’ingénierie des connaissances (IC) se pose la question symétrique avec les ontologies : comment gérer le lexique qui désigne les connaissances dans l’ontologie ? L’articulation entre mots, termes, notions et concepts, ou encore le lien entre langage et connaissances, sont au cœur de

9 Equipe de Recherche en Syntaxe et Sémantique, UMR 5610 du CNRS et université Toulouse 2.

10 Direction des Études et Recherches

121

ces questions proches. Ils justifient une étude tenant compte du regard de chacune de ces disciplines.

C’est donc dans l’esprit de faire avancer des problématiques disciplinaires que j’ai choisi, avec plusieurs chercheurs du laboratoire de linguistique ERSS de Toulouse, un premier objet de recherche commun, les BCT, traité des deux points de vue de l’ingénierie des connaissances et de la linguistique. Cet objet a donné naissance, entre 1996 et 1999, à des études communes plus méthodologiques, la linguistique s’interrogeant sur l’intérêt de son approche de l’analyse de corpus comme moyen de construire des BCT, et l’ingénierie des connaissances sur la prise en compte de ces nouveaux modèles conceptuels.

Les outils de construction de BCT ainsi définis répondent aux besoins des linguistes comme à ceux des ingénieurs cogniticiens. Ces travaux ont également porté sur l’intérêt des BCT : si elles représentent un reflet « neutre » des textes, peuvent-elles être adaptées pour construire des ontologies ? à quel coût ?

Par ailleurs, des chercheurs en traitement automatique des langues (TAL) ont mis au point des logiciels, comme l’extracteur de termes LEXTER, pouvant faciliter la modélisation de connaissances à partir de textes. L’apport de LEXTER

à la gestion du vocabulaire d’un domaine et à la modélisation de concepts a été évalué dans le projet SAMIE. Avec l’intégration de D. Bourigault au sein de l’ERSS, la collaboration avec les linguistes a été enrichie, devenant

« tripartite ». Elle s’est poursuivie pour mieux définir la mise au point et les modes d’utilisation d’outils de TAL en vue d’extraire des connaissances dans un processus de modélisation. Les expérimentations ont porté sur SYNTEX, logiciel d’extraction de termes et d’analyse distributionnelle, et sur un outil d’aide à l’extraction de relations sémantiques, CAMÉLÉON. Plus fondamentalement, l’application de ces logiciels à l’analyse de textes spécialisés, couvrant des domaines précis, pose la question des ressources complémentaires utiles à ces logiciels. Doivent-ils s’appuyer sur des connaissances sur le comportement de la langue générale ou seulement sur des connaissances apprises en corpus ? Pour les logiciels utilisés ou définis, le choix retenu a été de s’adapter le plus possible aux corpus et d’utiliser le moins possible de ressources externes.

Enfin, un nouvel élargissement des collaborations a été possible grâce à ma participation au groupe de travail TIA (présenté à la fin de ce chapitre) à partir de 1998. La présence de terminologues dans le groupe m’a permis d’affiner avec eux les aspects méthodologiques sur les BCT, alors que la présence des chercheurs du LIPN¹¹ travaillant sur la construction d’ontologies à partir de textes a donné un support matériel à mes propositions méthodologiques. Ainsi, à partir des premières versions de la méthode et du logiciel TERMINAE définis par B. Biébow et S. Szulman, notre collaboration a débouché sur une nouvelle version de TERMINAE intégrant des éléments terminologiques, et mettant en œuvre les propositions méthodologiques élaborées pour les BCT.

1.15.1.3 Questions abordées

De nouvelles problématiques communes se sont alors dégagées : (i) acquisition de connaissances à partir de textes pour construire des terminologies et des ontologies ; (ii) utilisation et définitions de logiciels basés sur des principes linguistiques pour le repérage de connaissances en corpus ;

11 Laboratoire d’Informatique de Paris Nord, UMR 7030 du CNRS et Université Paris 13.

terminologiques et ontologiques

(iii) exploitation des terminologies pour la gestion documentaire. Parmi les questions abordées relativement à la construction des ressources terminologiques et ontologiques, j’aborde ici celles qui touchent à la nature de ces ressources, aux modèles de données qui les caractérisent et aux environnements informatiques (plates-formes de modélisation dans la suite) permettant de construire des ressources selon ces modèles. Je traiterai des logiciels et techniques utilisés pour l’analyse de textes et des aspects méthodologiques dans le chapitre suivant.

J’expose tout d’abord le contexte interdisciplinaire de ces recherches et les choix que j’ai retenus (§ 5.1). Je présente ensuite les modèles de données proposés pour les bases de connaissances terminologiques (BCT) et pour les ontologies (§ 5.2). Enfin, je décris les plates-formes que j’ai mises au point ou contribué à définir (§ 5.3), l’une pour la construction de BCT et l’autre pour la modélisation d’ontologies à partir de textes.

Dans le document Td corrigé Publications - TEL (thèses pdf (Page 122-125)