TOK : une ontologie de ressources linguistiques, terminologiques et ontologiques

(1)

Proceedings Chapter

Reference

TOK : une ontologie de ressources linguistiques, terminologiques et ontologiques

FALQUET, Gilles, GHOULA, Nizar, GUYOT, Jacques

FALQUET, Gilles, GHOULA, Nizar, GUYOT, Jacques. TOK : une ontologie de ressources linguistiques, terminologiques et ontologiques. In: Desprès, S. & Crampes, M. Actes des 21es Journées Francophones d'Ingénierie des Connaissances - IC 2010 . Nîmes : Presses des Mînes, 2010. p. 1-12

Available at:

http://archive-ouverte.unige.ch/unige:46132

Disclaimer: layout of this document may differ from the published version.

1 / 1

(2)

linguistiques, terminologiques et ontologiques

Nizar Ghoula

¹

, Gilles Falquet

¹

, Jacques Guyot

¹

1Centre universitaire d’informatique, Université de Genève 7, route de Drize, CH-1227 Carouge, Suisse

{Nizar.Ghoula,Gilles.Falquet,Jacques.Guyot}@unige.ch

Résumé :

Des dictionnaires multilingues, des ontologies générales ou de domaine, des thesaurus de termes, et d’autres ressources de même type sont construites ou réutili- sées pour la gestion de connaissances. Ces ressources sont de natures hétérogènes et ont des modèles différents. La manipulation, l’intégration et la mise en correspondance de ces ressources sont difficiles en raison de la différence au niveau de la représentation. Dans le but de faciliter l’usage des ressources de connaissances et leurs combinaisons, nous proposons un modèle de représentation de haut niveau. Ce modèle est sous forme d’une ontologie utilisée, par la suite, pour la construction d’un entrepôt de stockage de ressources. Nous utilisons l’ontologie et l’entrepôt pour intégrer, aligner ou composer des ressources hétérogènes.

Mots-clés: Ontologie de ressources, Multilingues, Terminologie, Alignement, Entrepôt de ressources

1 Introduction

Le traitement sémantique des ressources documentaires est basé sur des connaissances de nature linguistique, terminologique et ontologique. Ces connaissances existent actuellement sous forme de ressources de différents types tels que les terminologies, les glossaires, les ontologies (générales ou de domaine), les dictionnaires multilingues ou encore les corpus de textes alignés. Ces ressources sont représentées à l’aide de divers formalismes et langages (logique des prédicats, logique de description, réseaux séman- tiques, graphes conceptuels, documents structurés, textes en langue naturelle, etc.).

Produire, annoter, diffuser, rechercher, indexer ou traduire des ressources documentaires, nécessite l’utilisation de ressources ontologiques et terminologiques. Afin de re- trouver une ressource de ce type, un utilisateur peut faire une recherche classique en utilisant par exemple le moteur de recherche Google¹ ou en utilisant des moteurs de recherche spécifiques qui indexent des ontologies et des ressources terminologiques comme Swoogle² qui indexe environs 10 000 ontologies. D’autres services comme

1. http://www.google.com 2. http://swoogle.umbc.edu

(3)

DAML³, offrent une possibilité de recherche plus fine sur les ontologies en exprimant des requêtes sur les entités des ontologies.

Selon le domaine d’application et la généralité de la ressource, un utilisateur peut l’adapter à son besoin. Cette adaptation se fait par la fragmentation de la ressource, sa composition avec une autre, ou sa traduction. À titre d’exemple, si une tâche d’indexation sémantique de documents nécessite un fragment d’une ontologie en français⁴ inexistante dans les entrepôts de ressources, alors un utilisateur peut vouloir générer ce fragment à partir d’une ontologie de même type existante par exemple en anglais et d’un dictionnaire de traduction anglais français et/ou d’un ensemble d’alignements entre des concepts d’ontologies.

La diversité de représentation de connaissances dans les ressources s’explique par leurs utilisations différentes. Lorsque les connaissances à construire sont issues de documents, l’ingénierie de connaissances s’appuie sur des méthodologies développées dans le domaine de la linguistique et du traitement automatique des langues pour assurer une compréhension des contenus des documents considérés. Pour répondre à ces besoins en termes d’ingénierie de connaissance et recherche d’information, il faut offrir des mo- dèles et des systèmes capables de représenter et utiliser les connaissances provenant de plusieurs ressources. L’interopérabilité des ressources peut être assuré sur plusieurs niveaux : (i) Niveau syntaxique, appelé aussi intégration syntaxique, qui définit le format de représentation de connaissances commun dans lequel les ressources sont ou peuvent être représentées. Le modèle à définir permettra de représenter les ressources dans un seul format ce qui assure ce niveau d’interopérabilité ; (ii) Niveau structurel qui repré- sente les éléments de la ressource selon une structure bien déterminée contrôlée par un modèle. En définissant des modèles élémentaires qui représentent chaque type de ressources nous pouvons assurer l’interopérabilité structurelle ; (iii) Niveau sémantique, qui assurant la compréhension cohérente des significations par les différents acteurs en communication. La représentation des ressources par des éléments de métadonnées communes et la définition des axiomes sur ces éléments va permettre de garantir l’in- teropérabilité sémantique.

Dans cette contribution, nous présentons notre approche appeléeTokRM(Termino- logical and Ontological Knowledge Resource Management). L’approcheTokRM est fondée sur les principes du web sémantique et de métadonnées et d’ontologies pour fa- cilier la représentation, le stockage et l’alignement des ressources hétérogènes et multilingues. La deuxième section est consacrée à l’identification des ressources que nous traitons et des modèles proposées dans la littérature. La troisième section décrit les niveaux de représentation des ressources dans l’approche proposée. La quatrième section décrit l’ontologie de ressources et examine la capacité du modèle à représenter des ressources. La dernière section décrit un processus d’importation et de stockage de ces ressources et par montrer une implémentation de ce modèle et des tests.

3. http://www.daml.org/ontologies

4. par “ontologie en français” nous entendons une ontologie dans les concepts sont étiquetés par des termes en français

(4)

2 Les ressources

La construction d’un entrepôt de ressources est une réponse au problème de mise en correspondance et d’intégration d’une grande quantité de ressources de connaissances hétérogènes relatives à un ou plusieurs domaines. La représentation de ces ressources par un même modèle, garanti la définition, le stockage et l’exploitation fiable des connaissances issues de ces ressources.

2.1 Identification des ressources

D’une manière générale, l’utilisation des systèmes de gestion de connaissances a pour but de créer une coopération avec l’utilisateur pour effectuer une tâche de traitement d’information. L’approcheTokRM, utilise un modèle de description des ressources dans le but de les indexer et de rapprocher leurs descriptions de métadonneés à une requête spécifique. Ces ressources se classifient selon deux catégories.

1. Ressources autonomes, désignant la catégorie des ressources dont l’existence est indépendante des autres ressources. Parmi les ressources autonomes on trouvera : – les thésaurus; généralement utilisées pour la recherche d’information. Chaque ressource de connaissances peut être associée à un ou plusieurs concepts re- présentés à l’aide d’un ensemble de termes. Il s’agit d’une ressource terminologique dans laquelle les termes sont organisés suivant un nombre restreint de relations (hiérarchiques, d’équivalence et associatives) (Foskett, 1980). Des relations sémantiques peuvent aussi être défini dans le thésaurus ;

– les ontologies; utilisées pour modéliser les connaissances d’un domaine dans un cadre formel (Gruber, 1995). C’est un système conceptuel permettant de dé- finir des concepts d’un domaine et de concevoir des relations entre ces concepts selon un point de vue donné. Cet artefact peut être modulaire, c’est à dire sub- divisé à un ensemble de modules intéragissant entre eux dans le cadre d’une application (Wanget al., 2007). La modularité des ontologies facilite leur réuti- lisation et leur intégration dans des applications de gestion de connaissances.

– ainsi que d’autres ressources telles que les glossaires, les terminologies, les dictionnaires, les corpus de textes, etc.

2. Ressources d’enrichissement, désignant les ressources résultantes de l’application d’un processus (automatique ou humain) sur les ressources autonomes : – annotations; L’annotation enrichit la ressource initiale en associant à son contenu

des éléments conceptuels d’un autre type lui permettant d’être utilisable, ac- cessible et reconnue par un ensemble d’acteurs ou d’agents. Par exemple, une annotation sémantique est une formalisation de l’interprétation du texte sous forme de méta-données (Kiryakovet al., 2004). Le type de l’annotation séman- tique dépend de l’élément ontologique auquel elle fait référence. L’annotation permet de convertir la connaissance individuelle tacite en une connaissance explicite, transmissible aux autres personnes ou systèmes ;

– alignements; des ressources ayant un degré d’expressivité variable et des formes simples ou complexes et résultant de l’application d’une procédure de mise en

(5)

correspondance entre deux ressources de même type. Cette catégorie de ressource est utilisée dans les applications de gestion de connaissances (Euzenat

& Shvaiko, 2007). L’alignement sert à trouver des entités similaires dans des ressources différentes tout en préservant l’indépendance et l’intégrité de ces ressources. Dans le cas des ontologies on alignera en général les concepts considérés comme équivalents entre eux. Pour des corpus de textes multilingues, on alignera un texte avec ses traductions dans d’autres langues.

2.2 Modèles de représentation de ressources

S’il existe de nombreux modèles et langages de représentation des connaissances, ceux-ci sont généralement centrés sur un aspect ou deux aspects seulement : ontologique, terminologique, lexical, textuel, documentaires, etc. On trouve plus difficilement des modèles permettant de représenter divers aspects de la connaissance ou des ressources de différentes natures.

Une modélisation de l’aspect multilingue dans les ontologies à été proposée par (Montiel-Ponsodaet al., 2008). Le modèle conçu est une association entre le méta- model des ontologies et un modèle linguistique. Un modèle pour unifier la gestion de ressources linguistiques en contexte multilingue à été élaboré afin de centraliser la gestion des ressources linguistiques dans la plateforme Intuition (Cailliau, 2006). Ce mo- dèle se caractérise par son exploration de la structure des formes linguistiques. L’application de ce modèle permet de représenter des entités ontologiques et les identifier par de unités lexicales en tenant compte des relations syntaxiques et sémantiques et multilingues (Falquetet al., 2008). Cette représentation est centrée sur les ontologies, chaque représentation commence par l’entité conceptuelle dans une ontologie et décrit par la suite l’unité lexicale correspondante. Ce modèle n’ayant pas de lien avec des entités ontologiques, ne permet pas de représenter des ressources linguistiques pures.

Pour l’intégration de ressources hétérogènes, (Vandenbussche & Charlet, 2009) ont proposé un méta-modèle de représentation de terminologies et d’ontologies. Ce mo- dèle propose un formalisme de représentation plus général des formalismes existants et fournit de nouveaux constructeurs qui apportent une expressivité supplémentaire aux ressources terminologiques. Cette représentation est basée sur la différenciation des en- tités de ressources, et reste fidèle à la représentation de chaque modèle de ressources, mais en utilisant des entités abstraites communes.

Le modèle à proposer doit avoir un niveau d’abstraction plus élevé afin de pouvoir représenter toutes les ressources avec des métadonnées communes. Pour assurer l’in- teropérabilité syntaxique et structurelle des ressources, notre modèle (c.f. 4) permet de représenter des ressources hétérogènes avec les mêmes constructeurs et de les stocker dans une structure commune selon des niveaux d’expressivité variables. L’interopérabi- lité sémantique des ressources est assurée par la capacité du modèle à représenter dans une sémantique commune les entités et les métadonnées des ressources.

(6)

3 Structure de la représentation des ressources

Notre approche est basée sur un modèle (TOK) possédant trois niveaux : les ressources ; les métadonnées relatives aux ressources et une ontologie définissant le langage des métadonnées.

TABLE1 – Niveaux du modèle TOK

niveau objectif

ontologie définition du langage de représentation (TOK_Onto) raisonnement, interrogation (accès) base de connaissance représentation de chaque ressource

ressource stockage de chaque ressources

Au plus bas niveau les ressources sont stockées telles qu’elles dans un entrepôt de données selon leur format original.

Au niveau base de connaissances chaque ressource est décrite de manière plus ou moins abstraite, en fonction de traitements que l’on souhaite lui appliquer. Le degré d’abstraction de la représentation peut varier du plus simple : on voit la ressource comme un tout, au plus détaillé : on représente chaque entité composant la ressource ainsi que toutes ses propriétés. Suivant les besoins une même ressources peut posséder plusieurs représentations à ce niveau. Par exemple, une ontologie peut être représentée uniquement par l’ensemble des étiquettes de ses concepts ou bien par la hiérarchie de généralisation/spécialisation des concepts ou bien de manière plus détaillée.

Query

Modified Ontology Retrieval 

Instances of  resources and 

en22es  Importing

Language  Type  Domain 

Model  Size  Tok_Onto

Warehouse  (resources) 

Instances  (resources  and en22es) 

Processing Original Ontology

FIGURE1 – Scénario d’utilisation deTOK_Onto

Le niveau ontologie définit les classes de ressources et leurs propriétés. Une ressource sera représentée comme instance d’une classe de l’ontologieTOK_Onto. Suivant le type de la ressource, son formalisme et le degré de précision de représentation souhaité on instanciera différentes classe de l’ontologie pour représenter les entités de la ressource.

(7)

L’application de cette démarche de traitement des ressources, basée sur les étapes décrites précédemment, assure l’expansion du modèle et son ouverture à plusieurs types de ressources.

L’ajout d’une nouvelle ressource d’un nouveau type passe par ces trois étapes, ce qui permet d’assurer l’ouverture du modèle et d’améliorer sa capacité d’extension et de représentation des ressources. Ayant identifié, représenté et défini les instances des ressources, notre modèle permet de prendre en compte l’application de certaines pro- cédures comme l’alignement ou l’annotation pour générer de nouveaux liens entre les instances des ressources et de leurs entités. L’application de ces étapes lors de l’ajout d’un nouveau type de ressources assure l’ouverture du modèle sur lequel l’approche TokRMest fondée.

La figure 1 montre comment les différents niveaux du modèle interviennent lors de traitements tels que l’importation d’une ontologie, la recherche de ressources et la gé- nération de nouvelles ressources.

4 Ontologie de ressources : TOK_Onto

Pour représenter une ressourceTOKil faut savoir : (i) Le domaine de la ressources ; (ii) Le standard dans lequel elle est représentée ; (iii) Le degré d’expressivité de la ressource ainsi que les relations sémantiques ou linguistiques qu’elle couvre ; (iv) Le volume de la ressource. Ces paramètres aident à définir le modèle global des ressources TOKen définissant des niveau d’expressivité et des sous-modèles relatives à chaque classe de ressources.

FIGURE 2 – Vue partielle de la classification des ressources de connaissances dans TOK_Onto.

(8)

L’étude des ressources selon les critères que nous venons de présenter nous ont per- mis de construire une classification des ressources et d’élaborer la première couche de notre ontologie généraleTOK_Onto⁵. Cette ontologie décrit l’ensemble de ressources de connaissances hétérogènes.TOK_Onto, a été developpée enOWLavec le degré d’ex- pressivité SRIQ(D) utilisant l’éditeur d’ontologies Protégé. TOK_Onto contient 243 concepts (nommés et non nommés), 140 propriétés, 550 axiomes, et 2000 annotations (commentaires et labels).

Dans la classe ’Abstract_Entities’ on trouve toutes les caractéristiques abstraites en relation avec les ressources comme le contexte, le domaine, le point de vue pour les ontologies et d’autres caractéristiques communes ou spécifiques. La classe ’TOK_Entity’

regroupe plusieurs entités appartenant à des ressources, tel que les concepts / classes, les relations, les axiomes, les termes et les formes lexicales. La classe ’TOK_Resource’

permet de modéliser les ressources, elle comporte plusieurs sous-classes en fonction de type des ressources que nous avons étudiés. Les critères communs de ces ressources sont représentés dans cette classe et les critères spécifiques font l’objet d’une description dans des sous-classes. Chaque sous-classe représente le modèle élémentaire avec un niveau d’expressivité plus raffiné du type de ressource qu’elle décrit.

La figure 3 décrit la classe ’TOK_Resource’ et ses liens avec les autres classes par un ensemble de propriétés. Une ressource peut contenir ou importer d’autre ressources, peut être alignée ou traduite en une ou plusieurs autres ressources, ce sont des relations entre ressources. Une entité d’une ressource est représentés par la classe ’TOK_Entity’, ces entités peuvent avoir des relations entre elles de type d’association, alignement, traduction, description.

FIGURE3 – Modèle de ressources TOK

5. Disponible sur Internet à http://cui.unige.ch/isi/onto/tok/OWL_Doc/.

(9)

Chaque élément (concept, propriété, axiome, individu, terme, etc.) est traité comme une entité de connaissances ontologique, terminologique ou linguistique (TOK_Entity) et lié à une ressource à travers une instance de la relation "Resource_Entity_Relation"

(e.g : contains, imports, infer, etc.) qui a un type bien déterminé (e.g : Lien sémantique, lien d’appartenance, lien de raisonnement, etc.).

Une ressource est de type "tok :TOK_Resource" ayant un ensemble d’attributs et de propriétés la mettant en relation avec d’autres ressources et avec ses entités. Chaque entité a elle-même un ensemble d’attributs et de propriétés pour la décrire totalement et identifier les liens avec d’autres entités dans la même ressources ou des entités externes appartenant à une autre ressource.

TOK_Ontoassure l’interopérabilité sémantique. Pour la représentation des formules ou des axiomes, nous avons construit un modèle simplifié traitant ces entités comme des expressions ayant des arguments qui peuvent être des relations et des concepts.

Cette représentation permet de savoir qu’une expression ou un axiome couvre un cer- tain nombre de relations et de concepts, cette particularité facilite l’indexation des expressions et leurs sélections pour des opérations ou des tâches bien définies.

Par exemple, WordNet (Fellbaum, 1998), est un ensemble de formes lexicales ayant des liens entre elles par des relations de typeEntity_Entity_Relation. Nous avons ajouté aussi la possibilité de déduire des liens de traduction entre les formes syntaxiques dans ce type de ressources que nous avons implémenté dans l’entrepôt.

Term  Concept 

. . .

Synset

. . . Form 

Relation

TS Sentence 

Synonym Relation

Term  Term 

described_by defined_by

PO_Speech 

Form  Form 

has_wordGp

has_pos Synset

Word

FIGURE4 – Description de la ressource Wordnet utilisantTOK_Onto

5 Stockage des représentations des ressources

Nous avons construit un espace de stockage permettant à la fois de représenter des ressources, leurs entités et les relations entre elles. Cet espace de stockage est la base du reste du travail qui sera la détection des alignements entre concepts ou entités, la traduction et l’alignement multilingue des unitées lexicales, ainsi que d’autres opérations.

(10)

Le méta-modèle deTOK_Ontoest l’origine de la conception d’un espace de stockage qui permet facilement de passer à une représentation des instances en RDF. La possi- bilité de stocker directement des triplets RDF dans l’entrepôt a été explorée grâce au modèle RDF offert par Oracle⁶. Nous avons utilisé la structure de stockage résultante du méta-modèle compact des ressources.

Le modèle et son entrepôt sont multilingues. Les instances du modèle sont des ressources stockées dans une base de données. Ceci nous permet de stocker plusieurs ressources linguistiques, terminologiques et ontologiques, tels que, des thésaurus multilingues, des dictionnaires, des ontologies, des glossaires et d’autres formes. La description des ressources est fournie par l’ontologieTOK_Onto.

L’utilisation des bases de données se justifie par la taille importante des ressources à traiter. Nous voulons exploiter les performances de ce type de stockage avec son langage de requêtes simple et efficace. L’utilisation de la base d’instances est motivée par notre intérêt à garder le lien entre les ressources et l’ontologieTOK_Ontoet le fait de pouvoir exploiter le coté sémantique de notre modèle par le biais de l’instanciation.

Les instances permettent de faire le lien avec les ressources physiques dans la base de données. Chaque élément d’une ressource est associé à une classe deTOK_Onto.

Notre méthodologie d’importation des ressources dans la structure de stockage permet de formaliser et stocker les ressourcesTOKdans un entrepôt de ressources. Cette méthodologie est décrite à travers un processus de chargement de ressources composé de quatre modules.

Entrepôt de  ressources 

TOK_Resource 

TOK_Onto 

Module  d’extrac3on 

En0tées 

Structure 

Axiomes  Concepts, Rela3ons,  Individus, Termes,  Classes, … 

Hiérarchie et liens  entre des en3tées 

Règles,  collec3ons,… 

Module de stockage 

Module d’extrac0on  des rela0ons 

Module  d’instancia0on 

Base de  données 

Construire les enregistrement  dans la base 

Stocker les dépendances  entre les en3tées 

Base  d’instances 

Indexer les axiomes à l’aide de  TOK_Onto et décrire les  métadonnées. 

Instancia3ons et  construc3on des URI 

FIGURE5 – Description de processus de chargement des ressources dans l’espace de stockage

1. Un module d’extraction, basé sur une interaction entre trois niveaux de représen- tation de connaissances :

6. http://www.oracle.com/technology/tech/semantic_technologies/index.html

(11)

– Identifier les entités de chaque ressource en utlisant l’ontologieTOK_Onto, chaque nouvelle entité est considérée comme instance d’un concept de l’ontologie ;

– Extraire les relations hiérarchiques et de structure de la ressource afin d’être fidèle a la ressource. Ceci étant utile pour l’exportation de la ressource en ques- tion et pour la classification des entités ;

– Extraire les axiomes et les représenter par les entités de l’ontologieTOK_Onto afin de ne pas perdre la sémantique et les connaissances contenu dans la ressource et pour l’utiliser par la suite dans le raisonnement.

2. Un module de stockage et d’indexation des entités, qui permet de construire de nouveaux enregistrement dans la base de données pour stocker les entités ex- traites. Cette sauvegarde permet de construire un dépôt de stockage d’entités ontologiques ou terminologiques et facilite la recherche et la réutilisation de ces entités (instances deTOK_Entity).

3. Un module d’extraction des relations, assurant l’inférence des dépendances entre les entités stockées, ces dépendances sont généralement des subsomptions, des relations hiérarchiques simples, ou des relations complexes entre concepts et pro- priétés. En se basant sur la structure extraite, ce module permet de stocker et créer des réferences entre les entités permettant d’avoir une description totale de la ressource sauvegardée.

4. Un module d’indexation et de stockage d’axiomes, qui est une manifestation de la diversité du modèle de stockage. C’est un modèle hybride, qui utilise la bases de donnée pour la sauvegarde des entités, des éléments des ressources et une base d’instances pour décrire les métadonnées des ressources et stocker des axiomes ou des règles des ressources.

Nous avons appliqué notre approche sur plusieurs ressources. Pour l’instant, notre entrepôt compte environ 950 000 formes lexicales différentes dans 24 langues, 173 000 concepts d’ontologies et 335 000 phrases provenant tous de 13 ressources différentes.

La figure 6 représente une interface de navigation dans les entités présentes dans l’en- trepôtTOK_Base, et présente les alignements construits ou collectés.

FIGURE6 – Exemple de navigation avec le terme "table"

(12)

Des alignement et des correspondances s’effectuent par le biais de la similarité des formes (figure 7). Ces correspondances déduites (819 alignements), permettent la désa- mbiguation des termes. Dans cet exemple, le concept numéro 161185 est décrit par le terme "table" en Anglais qui est un terme ambigu, son alignement avec le terme "mesa"

en Espagnol (non ambigu), permet de déduire que le concept "161185" appartient à la catégorie des meubles.

C 

F  C  T  F 

T  parent table

furnishure Source X

C 

F  C  T  F 

T  parent

table

furnishure Source Y Similirarité du parent et enfants

UC 

= =

FIGURE7 – Alignement par similarité dans le modèle TOK

Ainsi, nous avons stocké ces ressources et nous avons pu générer un ensemble d’en- tités conceptuelles et terminologiques. Ces entités ont été reliées entre elles par des relations d’indexation de cathégorie "Term_Concept" et des relations de traduction et de hiérarchie de catégorie "Term_Term". Ces liens ont été établis par l’implémentation du module d’extraction des relations. L’algorithme d’extraction est basique mais nous al- lons le modifier pour détecter des relations complexes et des alignements multilingues.

6 Conclusion

Notre travail est focalisé sur les ressources de connaissances terminologiques, ontologiques et linguistiques. Nous avons proposé un modèle de représentation de ces ressources et nous avons expliqué sa construction et son usage. Ce modèle intervient dans (i) le traitement d’un large spectre de ressources représentées dans différents formalismes ; (ii) la définition d’un processus de transformation et sauvegarde des ressources ; (iii) L’assurance des trois niveaux d’interopérabilité, syntaxique, structurelle et sémantique des ressources (iv) la perspective de définir un ensemble d’opérateurs pour la traitement sémantique des ressources et la détéction des alignements.

L’objectif principal de notre approche est de pouvoir générer de nouvelles ressources à partir de la composition des ressources existantes dans l’entrepôt et instanciés dans l’ontologie. Ainsi, l’enrichissement des connaissances dans l’entrepôt s’effectue à chaque utilisation. En se basant sur l’espace de stockage élaboré, les traitements sur les connaissances devront permettre l’utilisation, la génération, l’intégration de connaissances et la production de nouvelles ressources dans différents formalismes. Cette boîte à outils sera basée sur l’entrepôt de donnéesTOK_Base, l’ontologieTOK_Ontoet l’implémentation de l’ensemble des opérateurs.

(13)

Le modèle TOK est en cours d’utilisation. Nous ajoutons progressivement de nouvelles ressources. Nous avons ajouté AGROVOC en 17 langues, WordNet en anglais, allemand, Catalan, Espagnol, etc., UNL en Français, Arabe, Japonais, CityGML, UR- BAMET, etc. Nous avons mentionné l’importance de ce modèle dans la problématique d’alignement des ressources. L’extraction des connaissances est conduite par les descriptions de ressources contenues dans l’ontologieTOK_Ontoet traduites en termes de requêtes sur l’entrepôt. Nous avons effectué un alignement entre UNL et WordNet permettant d’étiqueter une partie de WordNet avec des formes linguistiques dans d’autres langues associés à un terme.

Références

CAILLIAUF. (2006). Un modèle pour unifier la gestion de ressources linguistiques en contexte multilingue. In P. MERTENS, Ed.,Verbum ex machina : actes de la 13e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2006) : Leuven., p. 454–461 : Presses univ. de Louvain, 2006.

EUZENATJ. & SHVAIKOP. (2007). Ontology matching. Heidelberg (DE) : Springer- Verlag.

FALQUET G., JIANGC.-L. M. & GUYOTJ. (2008). Un modèle et une algèbre pour les systèmes de gestion dontologies. InEGC, p. 697–702.

C. FELLBAUM, Ed. (1998). WordNet : An Electronic Lexical Database. Language, Speech, and Communication. Cambridge, Mass. : MIT Press.

FOSKETTD. J. (1980). Thesaurus. In A. KENT, H. LANCOUR& J. E. DAILY, Eds., Encyclopedia of Library and Information Science - Volume 30, p. 416–462. New York : Marcel Dekker.

GRUBERT. R. (1995). Toward principles for the design of ontologies used for knowledge sharing ?Int. J. Hum.-Comput. Stud.,43(5-6), 907–928.

HEILERS. (1995). Semantic interoperability.ACM Comput. Surv.,27(2), 271–273.

JOVELLANOSC. (2003). Semantic and syntactic interoperability : in transactional systems. InEC ’03 : Proceedings of the 4th ACM conference on Electronic commerce, p. 266–267, New York, NY, USA : ACM.

KIRYAKOVA., POPOVB., OGNYANOFFD., MANOVD. & GORANOVK. M. (2004).

Semantic annotation, indexing, and retrieval.Journal of Web Semantics,2, 49–79.

MONTIEL-PONSODA E., AGUADO DE CEA G., GÓMEZ-PÉREZ A. & PETERS W.

(2008). Modelling multilinguality in ontologies. InColing 2008 : Companion volume : Posters, p. 67–70, Manchester, UK : Coling 2008 Organizing Committee.

OUKSELA. M. & SHETHA. (1999). Semantic interoperability in global information systems.SIGMOD Rec.,28(1), 5–12.

VANDENBUSSCHEP.-Y. & CHARLETJ. (2009). Méta-modèle général de description de ressources terminologiques et ontologiques. In F. L. GANDON, Ed.,Actes d’IC, p. 193–204 : PUG.

WANG Y., HAASE P. & BAO J. (2007). A survey of formalisms for modular ontologies. InInternational Joint Conference on Artificial Intelligence 2007 (IJCAI’07) Workshop SWeCKa, Hyderabad, India.