Modèles terminologiques, ontologies et textes

1.9 - Questions et orientations de recherche

1.9.2 Modèles terminologiques, ontologies et textes

Mon intérêt pour les textes se justifie d’abord par la nécessité de trouver une alternative aux entretiens avec les experts, trop coûteux. L’analyse des textes est devenue un des axes essentiels de mon travail. La problématique soulevée est d’autant plus intéressante que je l’ai abordée dans le cadre de collaborations avec la linguistique et le traitement automatique des langues.

Ce type d’approche s’avère particulièrement pertinent pour construire des ontologies, ce qui m’a conduite naturellement à me focaliser sur ce type de modèle et des modèles proches, comme les terminologies. En parallèle, la forte expansion du volume des documents numériques disponibles ont renforcé les enjeux de ces travaux. Ces recherches se trouvent aujourd’hui très sollicitées par les nouvelles approches de la gestion documentaire et de la recherche d’information.

Les textes, et en particulier les textes techniques, représentent un potentiel de connaissances qui peut permettre d’accélérer la modélisation d’un domaine tout en sollicitant moins les spécialistes du domaine. Pour mettre les connaissances contenues dans les textes à disposition des utilisateurs, deux types d’approches sont possibles. Les premières considèrent le texte comme un objet important à conserver et à présenter à l’utilisateur, ce qui est souvent le cas en gestion des connaissances. Pour la deuxième, le texte est analysé pour produire une autre représentation (un modèle conceptuel en IC, une base de données en data mining par exemple). Je me suis placée dans le deuxième courant, puisque mon objectif premier était d’élaborer un modèle conceptuel.

Cependant, j’ai vite constaté que les modèles produits sont de meilleurs modèles pour revenir aux textes, pour les indexer ou les annoter par exemple.

En accord avec une approche d’ingénierie, je pose le problème de manière pragmatique, sans avoir l’ambition de proposer une théorie formelle de la sémantique par exemple. Construire un modèle, ce n’est pas représenter toutes les connaissances pouvant être tirées d’un texte ni permettre différents types de raisonnement sur ces connaissances. C’est identifier, à travers l’usage de la langue, des concepts et leurs descriptions, qui sont retenus en fonction du type de modèle à construire et de l’utilisation qui en est prévue.

Ainsi, à travers cette problématique, je ne perds pas de vue la place et le rôle du modèle conceptuel dans un dispositif opérationnel auprès d’un utilisateur.

Avec les ontologies et des applications documentaires, la part d’initiative laissée à l’utilisateur devient plus grande, il doit reconstruire les connaissances à mettre en oeuvre.

Je décline ici une série de questions que je soulève à travers cette problématique, et indique comment j’ai choisi de les aborder :

1) Comment exploiter les textes en tant que sources de connaissances ? Par cette question, je fais référence à la nécessité de choisir un point de vue sur les textes, de se situer par rapport aux différentes manières de les traiter informatiquement ou de les interpréter. D’emblée, j’ai choisi de m’appuyer sur l’expérience de la terminologie, de la linguistique de corpus et sur les logiciels de traitement automatique des langues. Le cadre du groupe pluridisciplinaire TIA a favorisé ce type d’échange. Je me suis donc posé cette question a posteriori, de manière à clarifier le point de vue sur les textes qui est impliqué par notre approche et à justifier son adéquation.

2) Quelles structures de données pour rendre compte des connaissances tirées des textes ? J’ai reformulé cette question successivement sous deux formes. Dans un premier temps, j’ai donné priorité à l’analyse des textes : étant donné une analyse de texte, quelle structure de donnée permettrait d’en rendre compte le plus exhaustivement possible ? En collaboration avec des linguistes et terminologues, j’ai étudié et revu la notion de Base de Connaissances Terminologiques dans cet objectif.

Dans un deuxième temps, j’ai fixé la structure de données ciblée, celle d’ontologie. La question devient alors : comment faire enrichir la structure des ontologies pour intégrer d’autres données disponibles à partir de l’analyse des textes et pertinentes dès que l’on veut utiliser l’ontologie pour explorer, indexer ou annoter des textes. Dans les deux cas, une réponse possible est de mettre au point un modèle rendant compte de données terminologiques, de leur sémantique (souvent à travers un réseau sémantique) et éventuellement de leur usage (textes).

3) Comment repérer et exploiter des indices linguistiques de connaissances ? Autrement dit, comment trouver dans les textes les éléments de connaissance pertinents pour renseigner les structures de données de modélisation ? Plusieurs niveaux de connaissances peuvent ainsi être repérés dans les textes : classes sémantiques définissant des concepts, relations conceptuelles et propriétés, ou encore instances de concepts. Il s’agit donc d’identifier ou de développer des logiciels permettant d’identifier ces types de connaissance, puis d’étudier comment combiner l’utilisation de plusieurs types de logiciel. Une dernière question se situe au niveau de l’exploitation des résultats : selon quels critères présenter les résultats ? mettre en avant des éléments « importants » du domaine ? Pour l’ensemble, j’ai choisi de cibler des logiciels de traitement automatique des langues (TAL) et des

approches linguistiques. Je considère aussi que la réponse à ces questions passe par une collaboration avec des chercheurs en traitement automatique des langues pour adapter ou développer des logiciels d’analyse et des méthodes à la construction de modèles.

4) Selon quelle méthode définir une ontologie à partir de textes ? Cette interrogation générale se décompose en questions plus précises : comment sélectionner des textes et former un corpus pertinent ? quels logiciels de TAL utiliser ? comment en coordonner l’utilisation conjointe à celle d’outils de modélisation ? quel statut accorder aux données extraites par rapport à un modèle ? La nature du modèle et son objectif d’utilisation ont-ils une influence sur la manière d’interpréter ces données ? sur la manière de construire le modèle en général ? Selon quels principes organiser les connaissances dans un modèle ? Pour répondre à ces questions, j’ai mené des études expérimentales en collaboration avec les concepteurs de logiciels de TAL. L’objectif de ces études est d’abord de mieux maîtriser le rôle et la contribution de chaque logiciel, son adéquation aux caractéristiques des textes, la nature de ses résultats et sa contribution possible à la construction du modèle. Un deuxième objectif est de définir une méthode. J’ai choisi de collaborer avec des linguistes pour bénéficier de leur éclairage sur l’analyse de textes.

5) Comment tirer profit du parallèle évident entre l’extraction d’éléments de modèles à partir de textes et l’annotation des textes à l’aide d’éléments de modèles ? Construire un modèle à partir de textes convient particulièrement lorsque ce modèle facilite l’accès « par le contenu » à des documents, en recherche d’information par exemple.

Cette question surgit au cœur des recherches sur le web sémantique. En quoi la dimension terminologique que j’ajoute aux modèles obtenus à partir de textes favorise-t-elle leur utilisation pour l’indexation sémantique et l’annotation de textes à l’aide de méta-données ou de mots-clés ? Comment les techniques, logiciels et méthodes utiles à la construction des modèles peuvent-ils aussi servir pour annoter ou indexer de nouveaux textes à partir de ces modèles ? J’ai retenu une démarche expérimentale pour répondre à ces questions et de me focaliser sur des applications de recherche d’information avec des tentatives de réponses variées : en évaluant l’apport de logiciels de TAL, d’ontologies génériques ou spécifiques, à des étapes particulières de la recherche d’information.

6) Validation : pour quelles classes d’applications ces modèles sont-ils plus pertinents ? comment adapter les approches, méthodes et outils à ces applications ? Valider une approche de modélisation à partir de textes comporte plusieurs facettes : la validation des outils, des techniques et des modèles obtenus, mais aussi l’intérêt de l’approche (coût versus qualité de la réponse apportée à un besoin particulier). J’ai choisi de me situer dans une démarche d’ingénierie : la validation de la méthode découle de la pertinence de l’application finale, et donc de l’usage fait du modèle conceptuel. Je considère que l’évaluation des outils pris indépendamment les uns des autres n’est qu’une étape intermédiaire, réductrice et pas toujours révélatrice. Mon intuition est que les performances des logiciels sont importantes, mais marginales par rapport aux facilités de navigation et de sélection de leurs résultats. Je n’ai donc pas visé des évaluations qui se réfèrent à des tests de

performance, mais des utilisations pour des projets réels. Face à la diversité des types de modèle, je cherche à capitaliser les retours d’expérience pour établir progressivement, le type de modèle et l’approche de construction associée qui convient pour chaque classe d’application.

7) Quelle est la généricité, la possibilité de réutilisation des modèles obtenus ? Construites pour répondre à des besoins spécifiques dans des domaines ciblés, les ressources ontologiques et terminologiques sont plus ou moins proches des usages des termes dans les textes. Dans le cas des ontologies, j’ai choisi de faire référence à des principes de structuration ontologique, et de pousser l’analyste à expliciter un point de vue pour définir et organiser des concepts. Ce choix est motivé par la volonté de s’écarter des textes et d’anticiper la prise en compte de nouveaux usages. On peut se demander jusqu’où les modèles obtenus peuvent être effectivement réutilisés et comment.

MÉTHODES ET OUTILS POUR LA MODÉLISATION DE

Dans le document Td corrigé Publications - TEL (thèses pdf (Page 81-86)