4.3 Gestion du multilinguisme dans la construction de la Topic Map
4.5.1 Le modèle des Topic Maps pour la gestion du multilinguisme
Le standard des Topic Maps dispose du concept de scope (contexte) ou domaine de
validité et du concept de facette. Le scope indique dans quel contexte tel Topic aura tel nom,
telles occurrences et tels rôles. La facette permet de compléter les informations à propos d‟une
occurrence en ajoutant des informations de type attributs-valeurs dans le composant
occurrence qui référence le document concerné. Nous avons exploité ces deux concepts pour
la prise en charge du multilinguisme dans l‟élaboration de la Topic Map. En effet, nous
proposons de définir un scope pour chaque langue traitée dans la Topic Map avec la
possibilité bien sûr d‟attribuer à un Topic une liste de noms dans différentes langues.
Comme nous l‟avons détaillé dans la section précédente, nous exploitons aussi le
concept de facette dans un objectif de filtrage des documents selon leurs langues. Pour ce
faire, nous avons défini un attribut « langue » dans la facette du composant occurrence reliant
un Topic aux documents qui en parlent. La valeur prise par cet attribut dans une occurrence
donnée correspondra à la langue du document référencé par cette occurrence.
177
4.5.2 Les liens de synonymie et les liens hiérarchiques pour la gestion du
multilinguisme
Pour la résolution de problèmes d‟équivalence entre les termes dans différentes langues,
nous proposons d‟utiliser les liens de synonymies et les liens hiérarchiques entre les Topics.
En effet, le standard des Topic Maps dispose de la notion de noms multiples d‟un Topic qui
sont en fait les synonymes de ce Topic. Dans un contexte monolingue un Topic peut avoir
plusieurs noms ou synonymes dans la même langue, comme nous l‟avons mentionné
précédemment, ces synonymes sont identifiés à partir du thésaurus, de WordNet (ou de
WOLF) et des experts du domaine.
Dans un contexte multilingue, un Topic aura un « nom » dans chaque langue s’il existe,
avec des possibilités de « valeurs nulles » si le Topic n‟a pas d‟équivalent dans une langue.
Ces valeurs nulles seront prises en compte dans la navigation, par exemple en utilisant les
liens hiérarchiques entre les Topics.
Par exemple si un utilisateur, lors de sa navigation, découvre l‟existence d‟un nouveau
Topic qui n‟est pas dans sa langue d‟origine alors pour comprendre sa signification, il pourra
passer à un niveau plus haut dans la Topic Map à travers le lien « est un », par exemple, et
découvrir à quel type appartient ce Topic ou bien naviguer au même niveau et découvrir les
synonymes de ce Topic dans les autres langues grâce aux liens de synonymie.
La figure 4.34 présente la structure d‟un Topic dans un contexte multilingue, chaque
Topic aura un nom dans chaque langue et des synonymes dans les différentes langues s‟ils
existent.
178
4.4 Conclusion
Dans ce chapitre, nous avons proposé, ACTOM, une Approche incrémentale et
évolutive de Construction d‟une TOpic Map Multilingue. Cette dernière sert à organiser un
contenu multilingue composé de documents textuels. Elle a pour avantage de faciliter la
recherche d‟information dans le contenu. ACTOM conjugue l‟utilisation de quatre sources
d‟information : (a) un référentiel sémantique de documents disponibles dans différentes
langues indexés thématiquement et sémantiquement, (b) un thésaurus du domaine, (c) deux
ontologies générales WordNet pour l‟anglais et WOLF pour le français ainsi que (d)
l‟ensemble de toutes les sources d‟interrogations possibles telles que les questions relatives
aux documents sources qu‟un expert du domaine ou un utilisateur quelconque peut poser, les
foires aux questions (FAQ), etc.
Notre approche a pour première originalité de prendre en compte l’usage de la Topic
Map à travers la mise en œuvre de liens d‟usage entre les questions potentielles extraites des
sources d‟interrogations disponibles et les réponses associées. Toute question potentielle (i.e.
phrase en langage naturel) représentée sous forme de Topic est aussi reliée à chacun des mots
clés la constituant via un hyper lien de type « est composé de ». Le stockage des liens «
est-composé-de » d'une question vers les termes qui la composent permet d'une part une
recherche par navigation et d'autre part une recherche automatique de « question proche ».
De part son processus incrémental, notre approche nous permet de réutiliser le même
processus de construction pour la gestion de l‟évolution de la Topic Map c‟est à dire à chaque
enrichissement du contenu qu‟elle organise.
De plus, ACTOM présente l‟avantage d‟utiliser un référentiel de documents
segmentés thématiquement et indexés sémantiquement pour la construction de la Topic
Map, ce référentiel nous donne la possibilité d‟indexer un Topic par un segment de document
ce qui n‟était pas possible avec le modèle des Topic Maps tel qu‟il est défini par la norme
ISO. Par ailleurs, le référentiel donne, pour chaque terme et chaque concept indexant un
document et un segment, leurs tf×idf (pour les termes) et tof×idf (pour les concepts). Ces
mesures sont utilisées pour pondérer le lien occurrence entre le Topic et la ressource et filtrer
ainsi ces ressources selon leur degré de pertinence afin de faciliter la navigation et la
recherche dans la Topic Map.
Dans notre approche, nous avons proposé une méthode d’intégration de Topic Maps,
en effet, nous nous basons sur une construction incrémentale, qui consiste à créer une Topic
Map à partir de chaque document du référentiel en utilisant comme sources le thésaurus, les
179
ontologies générales et les questions et ensuite intégrer cette Topic Map avec la Topic Map
globale. Notre méthode d‟intégration est inspirée des travaux de notre équipe sur la fusion
d‟ontologies [Lammari et Métais, 2004] et [Lammari et Besbes-Essanaa, 2009], elle est
composée de trois étapes : une étape d‟appariement, une étape de fusion et une étape de
validation. Dans notre approche d‟appariement, nous limitons notre recherche de similarité à
une recherche d'équivalence prenant en compte les synonymes et le multilinguisme. L‟accent
sera mis sur l‟étape de fusion, dans laquelle nous nous intéressons à la reconstruction de
hiérarchies en se basant, d‟une part, sur les techniques de transformation de hiérarchies en
fonctions booléennes (et vice versa) et les algorithmes de [Lammari et Métais, 2004] et
d‟autre part sur le thésaurus du domaine et les deux ontologies générales (WordNet et WOLF)
qui fournissent les chainons manquants dans les hiérarchies à fusionner.
Après l‟étape d‟intégration, notre idée est de supprimer les Topics redondants afin de
diminuer la taille de la Topic Map et préparer l‟étape d‟élagage qui fera l‟objet du chapitre
suivant. Pour cela, nous procédons à la recherche de similarités entre les Topics pour
éventuellement les fusionner. Cependant, comme le nombre des Topics est très grand, nous
commençons par définir un ensemble d‟heuristiques pour le choix des Topics à comparer,
ensuite vérifier s‟ils sont proches et enfin les fusionner après avoir demandé la confirmation
de l‟utilisateur. Comme perspectives de nos travaux de recherche, un travail
d'approfondissement sera mené sur la définition des heuristiques pour le choix des Topics à
comparer et l‟étude de la meilleure distance pour la fusion de ces Topics.
ACTOM a aussi l‟avantage de prendre en compte le multilinguisme des ressources
qu‟elle représente. Ainsi, un utilisateur pourra, lors de sa navigation, avoir accès à des
documents qui ne sont pas dans sa langue d‟origine. Le grand intérêt de cette approche par
rapport à de simples traductions de réponses est de proposer à l'utilisateur des documents
correspondant à des concepts n'existant pas forcément dans sa langue ou dans sa culture. La
Topic Map constituera ainsi un moyen d‟enrichissement culturel pour les utilisateurs.
Enfin, nous suggérons, dans le chapitre suivant, de travailler sur l‟élagage de la Topic
Map générée, nous présentons les raisons qui nous ont poussées à s‟intéresser à ce problème
et les différentes techniques que nous proposons pour le résoudre.
180
181
CHAPITRE 5
Prise en compte de la qualité : méthode
d'élagage de la Topic Map
182
5.1 Introduction
Le traitement de la qualité des Topic Maps recouvre différents volets, certains sont
communs avec le domaine des schémas conceptuels, d'autres sont communs avec le domaine
de la recherche d'information. D'autres volets seront propres à la problématique des Topic
Maps. La formalisation des critères de qualité d'une Topic Map, de métriques associées et de
proposition d'algorithme d'amélioration constitue un sujet en lui-même et constitue la
prolongation logique des travaux de cette thèse. Nous le citerons comme une de nos
principales perspectives.
Dans cette thèse nous nous sommes bornés à traiter l'aspect de la qualité lié au volume
de la Topic Map, en proposant une méthode d'élagage.
Nous commençons dans ce chapitre par exposer la notion de qualité dans les systèmes
d‟information, puis nous décrivons les travaux sur la qualité des ontologies et des schémas
conceptuels. Nous présentons, par la suite, un bref état de l‟art sur les méthodes classiques de
mesure de performance des systèmes de recherche d'information (SRI). Enfin, après avoir
décrit quelques travaux concernant la qualité des Topic Maps, nous présentons notre solution
d'élagage dynamique pour la gestion du volume dans la Topic Map dans le but d‟améliorer la
navigation et faciliter la recherche à travers cette Topic Map.
Dans le document
Approche de recherche intelligente fondée sur le modèle des Topic Maps : application au domaine de la construction durable
(Page 177-183)