Évolution d’ontologies vue comme une nouvelle construction

2.3 Outils pour faire évoluer les ontologies à partir de textes

2.3.1 Évolution d’ontologies vue comme une nouvelle construction

Pour faire évoluer une ontologie à partir d’un nouveau corpus de texte, on peut consi- dérer que le corpus est la seule référence, et qu’il s’agit d’une nouvelle construction de l’ontologie à faire évoluer. Pour comprendre le mécanisme de reconstruction d’une ontologie, nous présentons un scénario typique (voir figure 2.3). Notre but à travers ce scénario n’est pas de remettre en cause le fonctionnement de ces outils mais plutôt de comprendre com- ment se comporte l’ontographe pour faire évoluer une ontologie avec de tels outils. Dans ce scénario, nous considérons qu’une ontologie O a été au préalable construite à partir d’un corpus de textes (corpus en couleur foncée sur la figure 2.3). L’évolution du domaine est induite par l’apparition de nouveaux documents du domaine (corpus en couleur claire sur la figure 2.3). --- --- --- --- --- --- --- --- --- Extracteur de termes Concordancier Extracteur de relations Analyseur grammatical Catégoriseur grammatical Outils de TAL

Résultats des outils de TAL

Dépouillement et interprétation des résultats

Reconstruction d’une nouvelle ontologie Corpus du domaine avec les nouveaux documents du domaine --- --- --- --- --- --- --- --- --- Interventions de l'ontographe

Figure 2.3 — Le processus d’évolution d’une ontologie à partir de textes vu comme une

nouvelle construction.

La question qui se pose ici est pourquoi construire de nouveau l’ontologie alors qu’on a besoin uniquement de la mettre à jour ? le système dispose déjà d’une ontologie représentative d’un domaine. En pratique, il devrait uniquement avoir besoin de la mettre à jour en fonction des nouvelles connaissances apportées par les nouveaux documents. Malheureusement cela n’est pas possible, en particulier à causes des outils de TAL. En effet, ces outils n’ont pas été pensés pour prendre en compte de nouvelles données au cours de leur traitement et mettre à jour les résultats qu’ils ont produits. C’est pour cela que les outils de construction d’ontologies n’intègrent pas de mécanismes qui mettent à jour une ontologie si de nouveaux textes sont rajoutés. Pour contourner cette limite, l’ontographe doit construire une nouvelle onto- logie O1 (c’est le scénario décrit par la figure 2.3). Certains outils autorisent l’intervention de l’ontographe soit pour paramétrer les outils de TAL à utiliser, soit pour sélectionner des résultats intermédiaires. A la fin de la construction, une ontologie complètement différente

de l’ontologie initiale O est proposée. Plus précisément, il se peut que O1 ne contienne pas des connaissances de O que l’ontographe aurait aimé garder. L’ontographe doit alors rajou- ter manuellement ces éléments. De plus, certains éléments de O peuvent avoir été déplacés dans O1 alors que l’ontographe aurait aimé les garder au même endroit. L’ontographe doit alors replacer ces éléments manuellement. Au lieu de faire évoluer l’ontologie existante, l’ontographe en construit une nouvelle avec toutes les contraintes que nous avons décrites.

Parmi les outils permettant de faire évoluer une ontologie en la reconstruisant à partir de textes, nous présentons ici quelques travaux significatifs :

1. ASIUM [Faure et al., 1998] permet à la fois d’identifier des concepts et de les organiser en une hiérarchie. En entrée, ASIUM utilise un corpus analysé syntaxiquement. Il en

extrait des triplets sous forme de [verbe, préposition/fonction7, attribut] comme les tri-

plets [appuyer, sur, touche] ou [relâcher, COD, bouton]. Ces triplets sont regroupés en schémas de sous-catégorisation, lorsque les attributs se présentent avec un même verbe et après une même préposition (ou fonction). Ensuite, un calcul de similarité entre les classes permet de les structurer en une hiérarchie. L’approche ASIUM nous intéresse car elle fait intervenir l’utilisateur pour guider la classification. Dans le cas où une classe est mal construite, il faut trouver l’étape du raisonnement qui a engendré ce résultat erroné et modifier manuellement la classe correspondante. Malheureusement, dans ce cas, toutes les étapes consécutives à la création de la classe modifiée sont perdues et doivent être recalculées en tenant compte de la modification. Pour gommer cet incon- vénient, ASIUM s’arrête à chaque étape de son raisonnement pour présenter à l’utilisateur les nouvelles classes identifiées pour correction. La hiérarchie globale n’est alors visible qu’à la fin du processus, ce qui retarde le moment où d’autres erreurs de classification peuvent être constatées. Pour fonctionner, ASIUM a besoin aussi de corpus volumineux où dont les phrases sont biens structurées, avec un vocabulaire bien précis et régulier (à la manière d’un dictionnaire). Enfin, il ne peut pas traiter des corpus en langue anglaise.

2. OntoLearn8 [Velardi et al., 2005] permet de construire une ontologie en spécialisant

une ontologie générique ou WordNet. Le recours à l’utilisation d’ontologies génériques ou à WordNet dans OntoLearn est justifié. En effet, lorsque les textes ne couvrent pas toutes les connaissances d’un domaine ou lorsqu’ils sont de faible taille, on obtient des fragments de connaissance qui n’ont pas toujours de lien entre eux. Dans ce cas, On- toLearn s’appuie sur une approche statistique pour extraire puis agréger des termes d’un corpus, et ainsi construire une ontologie qui spécialise une ontologie générique ou WordNet. Les termes du domaine extraits et regroupés sont rapprochés des concepts de l’ontologie générique grâce à des calculs de similarité. Cet outil est disponible uniquement pour traiter les corpus en langue anglaise, et ne permet pas de traiter le français.

3. Text-To-Onto9[Cimiano et Völker, 2005] fait partie du framework KAON. De la même

manière que dans OntoLearn, Text-To-Onto propose de spécialiser une ontologie gé- nérique ou WordNet de manière itérative. Les concepts et les relations sorte de entre

7. La fonction syntaxique (par exemple Complément d’Objet Direct COD) est utilisée lorsqu’il n’y a pas de préposition après le verbe.

8. http ://code.google.com/p/ontolearn/ 9. http ://sourceforge.net/projects/texttoonto/

concepts sont découverts à partir de textes par apprentissage automatique à partir d’exemples de patrons et par des règles d’association. L’ontologie est élaguée en fonction de mesures statistiques et présentée à l’ontographe pour une évaluation. Text-To- Onto est disponible uniquement pour traiter des corpus en langue anglaise.

4. Text Onto Miner (TOM) [Gawrysiak et al., 2008] est une boîte à outils qui permet de construire une ontologie à l’aide d’un ensemble d’outils de TAL. Dans Text Onto Mi- ner, le corpus est analysé à différents niveaux de granularité (document, paragraphe, phrase), essentiellement selon des principes statistiques, pour en extraire des termes et des relations lexicales. Des techniques de classification permettent ensuite de proposer une hiérarchie de concepts. Text Onto Miner ne fonctionne que pour la langue anglaise. De plus, pour appliquer des techniques de classifications, le corpus doit être volumineux. Enfin, Text Onto Miner est une boîte à outils, cela signifie que l’ontographe doit créer une chaîne de traitements d’outils de TAL.

5. TERMINAE10_{[Aussenac-Gilles et al., 2008] est à la fois une méthode et une plateforme}

pour construire des Ressources Termino-Ontologiques à partir de textes. La plateforme TERMINAE intègre des outils linguistiques et permet la visualisation des résultats de l’extracteur de termes YaTeA, de l’analyseur grammatical Syntex et du concordancier Linguae. TERMINAE n’est pas un outil automatique pour construire une ontologie. L’utilisateur de TERMINAE se base sur les résultats des outils de TAL pour dépouiller et interpréter les résultats pour construire une ontologie. Pour cela, il est guidé par la méthode TERMINAE.

En fonction des objectifs que nous avons soulignés au début de cette section 2.3, nous remarquons qu’aucun de ces outils n’est adaptés à nos besoins. Ces plateformes ne sont effi- caces que pour des corpus volumineux, et ne peuvent donc pas convenir pour des corpus de faible volume comme ceux traités dans cette thèse. De plus, un outil comme TextOntoMiner, requiert de l’utilisateur des compétences en TAL pour organiser le processus d’analyse de textes et de construction d’ontologies ce qui remet en cause notre vision de la place faite à l’ontographe.

Une alternative à la construction d’ontologies aurait été de construire une petite ontologie

O1à l’aide de cette catégorie d’outils en se basant uniquement sur les nouveaux documents

du domaine. O1 pourrait alors contenir des éléments de l’ontologie initiale O et des nou- veaux éléments. Ensuite, un outil d’alignement d’ontologies intègrerait l’ontologie O1 dans l’ontologie O et produirait une troisième ontologie. Cette dernière devrait alors être corrigée par l’ontographe. Bien que cette solution semble intéressante, nous pensons qu’elle ne permet pas de faire une bonne évolution d’ontologie. En effet, la qualité des résultats produits par les outils de construction d’ontologies à partir de textes dépendent souvent de la taille des corpus. C’est pour cela, que nous avons besoin d’outils permettant de faire évoluer une ontologie en intégrant de nouveaux documents textuels sans avoir à la reconstruire ; il s’agit d’une évolution incrémentale d’une ontologie.

Dans le document Gestion dynamique d'ontologies à partir de textes par systèmes multi-agents adaptatifs (Page 72-75)