Modélisation d’ontologies à partir de textes : une méthode

1.21 - Méthodes et plates-formes pour construire des ressources terminologiques et ontologiques

1.21.2 Modélisation d’ontologies à partir de textes : une méthode

1.21.2.1 La méthode TERMINAE : principes et originalité

La méthode TERMINAE a été définie au LIPN sous une première forme en 1999 (Biébow, Szulman, 1999) (Biébow, Szulman, 2000). Cette méthode repose sur des principes tout à fait analogues à ceux retenus pour la construction de BCT avec GÉDITERM. Elle met en oeuvre les principes élaborés par le groupe TIA. Grâce aux expériences relatives à GÉDITERM mais aussi à la mise au point de CAMÉLÉON, j’ai acquis une compétence et des propositions méthodologiques précises sur les phases initiales de la construction de modèles à partir de textes : construction de corpus, exploitation des résultats d’outils d’analyse de textes et surtout prise en compte de la dimension terminologique des modèles. De manière tout à fait complémentaire, les points forts de TERMINAE se situent dans les phases suivantes de structuration des concepts et de leur formalisation logique. Afin de réunir ces points forts au sein d’une même plate-forme et d’une méthode unique, nous avons collaboré avec B. Biébow et S. Szulman à partir de 2000, la méthode et le logiciel TERMINAE

étant le support de ces nouveaux résultats méthodologiques et logiciels.

Le premier fruit de ce travail a été une nouvelle version de TERMINAE

(méthode et outil) en tant qu’aide à la construction d’ontologies présentée dans [EKAW, 00]. Dans ce cadre, les fiches de modélisation ont été remplacées par un réseau conceptuel semi-formel. Une deuxième série de modifications, en particulier la définition de fiches terminologiques, a permis d’adapter la méthode et le logiciel à la construction de terminologies [TAL, 02]. Le logiciel a fait l’objet d’évolutions plus récentes auxquelles je n’ai pas participé : exportation des résultats en OWL (Szulman et Biébow, 2004) et intégration de SYNOTERM, un logiciel de calcul de synonymies (Hamon, 2000).

Par rapport aux méthodes d'Ingénierie des ontologies répertoriées par exemple dans (Gómez-Pérez et al., 2004), TERMINAE présente plusieurs originalités :

- Partir des textes comme sources de connaissances : Ils constituent un support tangible, rassemblant des connaissances stabilisées qui servent de référence. Leur utilisation améliore la qualité du modèle final. Cette méthode a été une des pionnières en la matière. Ce type d’approche se trouve aujourd’hui largement développé dans différents projets, en particulier pour préparer l’annotation automatique de documents à l’aide des concepts identifiés : projets AKT²⁴ (Ciravegna et al., 2002), OntoLearn (Navigli et al., 2004) ou encore Kaon (Maedche et al., 2000).

- Enrichir le modèle d'une composante linguistique : L’accès aux termes et textes qui justifient la définition des concepts garantit une meilleure compréhension du modèle. Ce type de résultat est encore très novateur. Encore aujourd’hui, malgré l’intérêt de ce type de choix, mis en évidence pas exemple dans (Maedche, 2002), le standard OWL ne permet pas de définir les termes comme des entités à part entière. Les propositions faites dans ce sens sont toujours timides. Par exemple, dans le modèle de données du projet Crossmarc (Paliouras, 2004), les termes sont réduits à un ensemble de variantes, ou encore, dans la proposition d’évaluation d’ontologie du projet PASCAL, une confusion gênante est maintenue entre termes et concepts.

24 Http://www.aktors.org

aux textes

- utiliser des techniques et outils de TAL basés sur des travaux linguistiques : ces outils permettent l'exploitation systématique des textes et leurs résultats facilitent la modélisation. Ces outils sont utilisés de manière supervisée, et leurs résultats consultés au sein d’interfaces qui en facilitent l’exploitation. Il ne s’agit pas d’automatiser le processus, dans la mesure où l’interprétation humaine est fondamentale pour décider de la manière d’identifier et organiser concepts et relations.

Les paragraphes qui suivent reprennent la méthode telle qu’elle est décrite dans [EKAW, 00] et (Biébow, 2004), puis précisent les aspects qui ont évolué suite à ma collaboration avec le LIPN.

1.21.2.2 La méthode TERMINAE : étapes

Des textes à un modèle formel

Je présente d'abord ici une vision axée sur les objets mis en jeu. La méthode part des textes constituant la documentation technique pour aboutir à une modélisation formelle du domaine. C’est l'étude des contextes d'apparition des mots et de leurs relations de dépendances syntaxiques qui guide la conceptualisation. La méthode distingue les termes des concepts et les relations lexicales des relations sémantiques. Les termes et les relations lexicales correspondent à des syntagmes présents dans le corpus et considérés comme caractéristiques du domaine. Ils sont identifiés en appliquant des méthodes et outils linguistiques afin d'aider l'utilisateur (outils d'extraction de termes, de relations, recherche de synonymes, regroupements de termes pour former des "classes" conceptuelles ...). Les regroupements lexicaux rassemblent des syntagmes apparaissant dans des contextes analogues. Les syntagmes sont interprétés en contexte local (la phrase ou le paragraphe) puis global (le texte ou le corpus). Lorsqu'ils sont attestés, ils donnent lieu à la création de concepts et relations sémantiques, dont ils sont les étiquettes.

L'ensemble des concepts et relations forme un réseau conceptuel, non formel mais compréhensible par le concepteur. Les concepts et relations étant extraits du corpus et contraints par l’application, ce réseau forme une ontologie régionale au sens de (Bachimont, 1995).

Ensuite, dans le modèle formel, concepts et relations sont formalisés dans un langage terminologique assimilable à une logique de descriptions, sous forme de concepts et de rôles organisés en hiérarchie. Les concepts sont caractérisés selon deux dimensions, l'une linguistique exprimant s'ils correspondent ou non à un syntagme du corpus, l'autre de structuration indiquant la motivation ayant conduit à les intégrer dans le modèle formel.

189

Fig. 6.2.2.2 : Étapes du processus de modélisation à partir de textes selon TERMINAE

Les quatre principales étapes de la méthode peuvent être présentées selon un enchaînement linéaire comme sur la figure 6.2.2.2. Cet enchaînement correspond bien au changement de nature des données manipulées. Il reflète aussi la vision plus simple retenue pour la construction des BCT, où l’étude linguistique aurait pu avoir une finalité en elle-même, sans lien avec la normalisation. Toutefois, ce schéma ne doit pas être interprété comme purement séquentiel, ce qui serait réducteur sur la complexité de la mise en œuvre réelle de la méthode. Implicitement, le déroulement de TERMINAE

correspond plus à un processus cyclique. En particulier, comme l’ont confirmé toutes les analyses citées jusque-là, l’étude linguistique et la normalisation sont étroitement imbriquées.

Constitution du corpus

À partir de la description des besoins et des objectifs de développement du modèle, le cogniticien choisit dans la documentation technique à sa disposition les textes à inclure dans le corpus. Il peut s'agir de textes didactiques, de spécifications techniques, de normes, de comptes rendus d'expériences, d'articles scientifiques … Le corpus doit couvrir complètement le domaine requis par l'application. Le choix nécessite une expertise des textes du domaine afin de caractériser leur type et la couverture du domaine. Un glossaire sur le domaine est utile pour déterminer les sous-domaines à explorer et vérifier qu'ils sont tous couverts. Le corpus est ensuite mis sur support informatique s'il ne l'était pas. Le début de la modélisation, en particulier le dépouillement rapide des résultats des logiciels de TAL, peut conduire à revoir le contenu du corpus, à le réorganiser pour traiter séparément certaines parties, à le compléter pour combler des lacunes ou à éliminer des textes qui s’avèrent peu adaptés.

Utilisation d’outils de TAL

L'étude linguistique, menée à l'aide d'outils de TAL, cherche à déterminer les termes et les relations lexicales qui seront éventuellement modélisés. La

aux textes

méthode TERMINAE recommande d’utiliser des extracteurs de candidats termes, des extracteurs de relations, des concordanciers et des outils de regroupement conceptuel. Elle met en avant les limites à l’utilisation de ces différents types d’outils de manière indépendante : le dépouillement de leurs résultats, souvent très volumineux, est fastidieux et difficile à organiser. Au contraire, l’utilisation conjointe de différents logiciels permettrait de disposer rapidement de plusieurs éléments d’information sur les termes et leur usage, de mieux les interpréter, de s’orienter vers des concepts importants du domaine. Une autre difficulté à recommander des logiciels est la compétence linguistique requise pour les mettre en œuvre. Par exemple, les extracteurs de relation selon une approche par patrons lexico-syntaxique nécessitent de bonnes compétences grammaticales et un savoir faire informatique.

C’est pour cela que la méthode oriente vers le choix d’outils simples, auxquels sont associés des aides à la consultation et à la validation des résultats, comme les extracteurs de termes LEXTER et SYNTEX, ou des ressources, comme la base de marqueurs dans CAMÉLÉON. C’est aussi pour cette raison que le logiciel support TERMINAE propose ce type d’interface de navigation dans les résultats de ces extracteurs et d’un extracteur de relations intégré, Linguae.

Normalisation

La normalisation consiste en deux parties : la première reste dans le domaine du traitement lexical et exploite les données retenues par l’étape antérieure ; la seconde partie porte sur l’interprétation sémantique et la structuration des concepts et des relations sémantiques. Au cours de la normalisation, la masse de données à considérer est peu à peu restreinte.

Les termes et les relations lexicales déterminés à l’aide des outils précédents sont associés à leurs occurrences dans le corpus. Parmi l’ensemble des termes et relations lexicales, le cogniticien choisit ceux dont il va poursuivre l’analyse. Ce sont les termes qui à la fois ont du sens en corpus et qui présentent un intérêt par rapport aux objectifs du modèle. Puis, il étudie chaque syntagme d’après ses contextes d’occurrence afin d’en donner une définition en langage naturel qui rende compte du contenu des textes. En cas de polysémie, il décide quels sens parmi ceux présents dans le corpus sont à retenir car pertinents pour la modélisation.

La deuxième étape de la normalisation consiste à définir des concepts et des relations sémantiques à partir des termes et des relations lexicales précédentes. Le cogniticien doit en donner une description normalisée, reprenant les étiquettes de concepts et de relations déjà définies, et pertinente par rapport à la tâche pour laquelle le modèle est construit. L’interprétation de la description est contrainte par le corpus dont elle est issue et l’application.

Ces descriptions amorcent une structuration du domaine sous forme de réseau conceptuel, non formel.

En pratique, ces deux étapes sont étroitement mêlées, l'utilisateur organisant le plus tôt possible quelques concepts dans l'ontologie. Ces concepts sont dits centraux [TIA, 02], d'abord parce qu'ils correspondent aux termes semblant les plus pertinents, ensuite parce que l'ontologie va être élaborée à partir d'eux. La modélisation va du texte à l'ontologie, mais la définition d'un concept et son insertion dans l'ontologie renvoie l'utilisateur à étudier l'usage de termes proches et donc aux résultats de l'analyse linguistique. L’analyse des termes proches du concept étudié peut conduire à définir des concepts qui lui sont reliés. Ainsi, l'utilisateur "tire le fil" d'un

191

concept et élabore les autres autour de lui, à partir des relations non hiérarchiques dans un mouvement transversal ou en suivant les relations hiérarchiques dans un mouvement vertical. Peu à peu, plusieurs réseaux indépendants peuvent être dégagés, qui se rejoignent pour former l'ontologie.

Formalisation

La formalisation comprend l’élaboration et la validation de la base de connaissances. Des ontologies existantes, générales ou proches du domaine, ou même un glossaire, peuvent faciliter la découpe des couches hautes de la base de connaissances, c’est à dire les plus générales, en larges sous-domaines. Ensuite, le cogniticien traduit les concepts et relations sémantiques provenant de l’étude linguistique en concepts formels et rôles dans le langage de la base de connaissances, puis il les insère dans le modèle. Cette insertion des concepts et rôles terminologiques nécessite parfois une remise en question de la structure existante, car elle doit prendre en compte la correction de l’héritage des caractéristiques (rôles) des concepts formels. Le cogniticien doit souvent rajouter des concepts pour améliorer la structuration de la base, des concepts de structuration. Lors de l’insertion d’un nouveau concept, l’outil support effectue une vérification locale, qui garantit la correction syntaxique de la description ajoutée. Une validation complète du modèle doit être réalisée lorsque la base atteint un état stable, pour vérifier la cohérence du modèle.

1.21.2.3 Contributions à TERMINAE

La question des corpus

Ces travaux, bénéficiant d’une réflexion commune avec A. Condamines, ont permis d’affiner ce que recouvrait un corpus dans le contexte de la construction de modèles conceptuels. Je reprend donc la définition qu’elle propose (Condamines, 2004) :

« Un corpus est une collection de textes (éventuellement un seul texte) constituée à partir de critères linguistiques ou extra-linguistiques pour évaluer une hypothèse linguistique ou répondre à un besoin applicatif. »

Cette définition met en avant le besoin d’expliciter des caractéristiques (comme la taille, le sujet, les auteurs, la diversité ou l’homogénéité des documents le composant, la langue utilisée, son niveau de correction, l’étendue du domaine couvert, le genre des documents, etc.) qui délimitent ce que peut être un corpus pour un projet et une méthode donnés. En effet, les moyens choisis pour l’analyser autant que la finalité de l’analyse orientent le choix des documents formant un corpus « pertinent ». La démarche sera d’autant mieux reproduite ou adaptée à un autre contexte que l’on aura explicité les caractéristiques qui permettent de décider de cette validité. Cette définition pose ainsi la constitution du corpus comme un tâche à part entière dans une démarche comme TERMINAE, et souligne l’ajustement nécessaire entre corpus et outils d’analyse.

Dans TERMINAE, parce que l’on s’intéresse à des modèles pour des tâches et des domaines, spécifiques, les corpus sont choisis avec les interlocuteurs du domaine concernés. Ils peuvent être de petite taille puisque l’on n’utilise pas de méthode statistique. Les résultats des logiciels d’analyse comme SYNTEX et CAMÉLÉON seront plus ou moins pertinents suivant la nature du corpus. Par exemple, CAMÉLÉON produit plus de résultats sur des textes pédagogiques,

aux textes

écrits avec une langue grammaticalement correcte. SYNTEX requiert des textes contenant des régularités, des formes répétées et un peu de redondance.

Lorsque le corpus ne peut être modifié, il peut donc être nécessaire de chercher des approches alternatives et d’autres logiciels.

Cette analyse se démarque de certaines approches actuelles appliquant les techniques d’apprentissage automatique sur les textes. La plupart de ces travaux considèrent le corpus comme donné, imposé, auquel il faut s’adapter pour en tirer le plus d’information possible. Dans cette perspective, le Web peut être un corpus. Cependant, sans disposer d’un a priori sur l’information recherchée ou sur les textes composant le corpus, il n’est pas réaliste de dégager d’un ensemble très hétérogène des régularités et d’apprendre à partir de là des éléments conceptuels. Donc ces travaux se rapprochent plus d’une problématique d’extraction d’information : le système recherche des informations prédéfinies, dont on a établi les caractéristiques par une première analyse du corpus ; de plus, finalement, seul un sous-ensemble du corpus est exploité.

Axes d’analyse des textes

Le processus cyclique qui unit les étapes d’analyse linguistique et la normalisation correspond pratiquement à des allers-retours entre texte et modèle [TIA, 03]. Pour mieux guider la mise en œuvre de la méthode, j’ai explicité la progression de la construction du modèle selon deux directions : - un axe texte-modèle, qui permet de rendre compte de deux types de

tâche : des tâches de dépouillement qui vont du texte au modèle, l’enrichissement du modèle étant alors orienté par les données (éléments de textes ou résultats d’analyse de textes) ; des tâches de fouille au sein des textes ou des résultats d’analyse, qui correspondent à une recherche ciblée pour affiner ou compléter des parties spécifiques du modèle.

- des axes de parcours au sein du modèle : l’organisation de concepts dans le modèle peut alternativement être menée de manière ascendante (trouver des concepts pères des concepts existants par regroupement et abstraction d’éléments spécifiques, d’exemples, d’instances, etc.), de manière descendante (définir des concepts fils par spécialisation, décomposition ou raffinement des concepts existants) ou encore centrifuge (étudier toutes les relations concernant un concept donné qui devient le centre de l’étude).

Ces dimensions d’analyse soulignent la diversité des tâches effectuées autant que leur complexité, due aux divergences ou au manque de précisions des sources de connaissances et des objectifs de modélisation.

Questions pour guider la normalisation des concepts

Ces expériences de construction d’ontologies, en particulier le projet VERRE, ont permis de dégager des éléments méthodologiques pour mener à bien les deux facettes de la normalisation : la structuration des concepts puis l’application des principes de différentiation [TIA, 03] et [rapport-VERRE, 02].

1. Repérage de concepts centraux et étude des termes associés : ce repérage peut s’appuyer sur des critères statistiques (répartition …) ou numériques (fréquence, productivité …), structurels et grammaticaux, sur la richesse des contextes d’apparition ; l’étude des relations de synonymies et des variantes fait partie de l’étude des termes.

193

2. Organisation hiérarchique : il s’agit d’organiser des hiérarchies locales autour des concepts identifiés, en cherchant des concepts plus spécifiques (fils) ou plus génériques (pères) des concepts centraux ; le réseau tête-expansion de SYNTEX peut ici être précieux, suggérant des regroupements de termes en classes ou des relations générique-spécifique entre termes composés ; CAMÉLÉON permet de confirmer ou trouver ces relations par la projection de patrons propres à la relation de hiérarchie.

3. Étude des autres types de relation associés à chaque concept : je propose d’appuyer cette étape sur l’étude des verbes (qui peuvent indiquer des relations), des termes reconnus comme voisins, l’analyse des distributions et le réseau tête-expansion de SYNTEX, ainsi que l’interprétation (manuelle) des séquences associées aux termes d’une part, et d’appliquer l’approche par patron de CAMÉLÉON en cherchant des marqueurs de relations propres au corpus.

4. Enregistrement des résultats dans TERMINAE.

Il s’avère que les trois premières étapes de cette progression dans l’organisation de concepts sont désormais classiques dans la plupart des systèmes « d’ontology learning » (Cimiano, 2004) et (Reinberger, 2004). A l’issue des tâches précédentes, le modèle est souvent composé de sous-ensembles non homogènes, pas toujours reliés entre eux, redondants ou incomplets. La normalisation consiste à vérifier le modèle en fonction de critères ontologiques, syntaxiques ou de connaissances du domaine. De nouvelles tâches visent alors à justifier que chaque élément est nécessaire au sein de l’ontologies, qu’il est pertinent à cet endroit et défini conformément à l’objet de modélisation. Plusieurs points sont à contrôler : (a) unicité de définition ; (b) homogénéité de point de vue ; (c) cohérence des descriptions.

TERMINAE suggère les critères de différenciation de concepts de la méthode Archonte pour atteindre ces objectifs. Pour chaque concept, on doit expliciter sous forme de commentaires ou de rôles les points communs et les différences entre ce concept et son père puis entre ce concept et ses frères.

1.21.3 Modélisation d’ontologies à partir de textes : plate-forme de

Dans le document Td corrigé Publications - TEL (thèses pdf (Page 190-196)