• Aucun résultat trouvé

4.3 Gestion du multilinguisme dans la construction de la Topic Map

4.5.1 Le modèle des Topic Maps pour la gestion du multilinguisme

Le standard des Topic Maps dispose du concept de scope (contexte) ou domaine de

validité et du concept de facette. Le scope indique dans quel contexte tel Topic aura tel nom,

telles occurrences et tels rôles. La facette permet de compléter les informations à propos d‟une

occurrence en ajoutant des informations de type attributs-valeurs dans le composant

occurrence qui référence le document concerné. Nous avons exploité ces deux concepts pour

la prise en charge du multilinguisme dans l‟élaboration de la Topic Map. En effet, nous

proposons de définir un scope pour chaque langue traitée dans la Topic Map avec la

possibilité bien sûr d‟attribuer à un Topic une liste de noms dans différentes langues.

Comme nous l‟avons détaillé dans la section précédente, nous exploitons aussi le

concept de facette dans un objectif de filtrage des documents selon leurs langues. Pour ce

faire, nous avons défini un attribut « langue » dans la facette du composant occurrence reliant

un Topic aux documents qui en parlent. La valeur prise par cet attribut dans une occurrence

donnée correspondra à la langue du document référencé par cette occurrence.

177

4.5.2 Les liens de synonymie et les liens hiérarchiques pour la gestion du

multilinguisme

Pour la résolution de problèmes d‟équivalence entre les termes dans différentes langues,

nous proposons d‟utiliser les liens de synonymies et les liens hiérarchiques entre les Topics.

En effet, le standard des Topic Maps dispose de la notion de noms multiples d‟un Topic qui

sont en fait les synonymes de ce Topic. Dans un contexte monolingue un Topic peut avoir

plusieurs noms ou synonymes dans la même langue, comme nous l‟avons mentionné

précédemment, ces synonymes sont identifiés à partir du thésaurus, de WordNet (ou de

WOLF) et des experts du domaine.

Dans un contexte multilingue, un Topic aura un « nom » dans chaque langue s’il existe,

avec des possibilités de « valeurs nulles » si le Topic n‟a pas d‟équivalent dans une langue.

Ces valeurs nulles seront prises en compte dans la navigation, par exemple en utilisant les

liens hiérarchiques entre les Topics.

Par exemple si un utilisateur, lors de sa navigation, découvre l‟existence d‟un nouveau

Topic qui n‟est pas dans sa langue d‟origine alors pour comprendre sa signification, il pourra

passer à un niveau plus haut dans la Topic Map à travers le lien « est un », par exemple, et

découvrir à quel type appartient ce Topic ou bien naviguer au même niveau et découvrir les

synonymes de ce Topic dans les autres langues grâce aux liens de synonymie.

La figure 4.34 présente la structure d‟un Topic dans un contexte multilingue, chaque

Topic aura un nom dans chaque langue et des synonymes dans les différentes langues s‟ils

existent.

178

4.4 Conclusion

Dans ce chapitre, nous avons proposé, ACTOM, une Approche incrémentale et

évolutive de Construction d‟une TOpic Map Multilingue. Cette dernière sert à organiser un

contenu multilingue composé de documents textuels. Elle a pour avantage de faciliter la

recherche d‟information dans le contenu. ACTOM conjugue l‟utilisation de quatre sources

d‟information : (a) un référentiel sémantique de documents disponibles dans différentes

langues indexés thématiquement et sémantiquement, (b) un thésaurus du domaine, (c) deux

ontologies générales WordNet pour l‟anglais et WOLF pour le français ainsi que (d)

l‟ensemble de toutes les sources d‟interrogations possibles telles que les questions relatives

aux documents sources qu‟un expert du domaine ou un utilisateur quelconque peut poser, les

foires aux questions (FAQ), etc.

Notre approche a pour première originalité de prendre en compte l’usage de la Topic

Map à travers la mise en œuvre de liens d‟usage entre les questions potentielles extraites des

sources d‟interrogations disponibles et les réponses associées. Toute question potentielle (i.e.

phrase en langage naturel) représentée sous forme de Topic est aussi reliée à chacun des mots

clés la constituant via un hyper lien de type « est composé de ». Le stockage des liens «

est-composé-de » d'une question vers les termes qui la composent permet d'une part une

recherche par navigation et d'autre part une recherche automatique de « question proche ».

De part son processus incrémental, notre approche nous permet de réutiliser le même

processus de construction pour la gestion de l‟évolution de la Topic Map c‟est à dire à chaque

enrichissement du contenu qu‟elle organise.

De plus, ACTOM présente l‟avantage d‟utiliser un référentiel de documents

segmentés thématiquement et indexés sémantiquement pour la construction de la Topic

Map, ce référentiel nous donne la possibilité d‟indexer un Topic par un segment de document

ce qui n‟était pas possible avec le modèle des Topic Maps tel qu‟il est défini par la norme

ISO. Par ailleurs, le référentiel donne, pour chaque terme et chaque concept indexant un

document et un segment, leurs tf×idf (pour les termes) et tof×idf (pour les concepts). Ces

mesures sont utilisées pour pondérer le lien occurrence entre le Topic et la ressource et filtrer

ainsi ces ressources selon leur degré de pertinence afin de faciliter la navigation et la

recherche dans la Topic Map.

Dans notre approche, nous avons proposé une méthode d’intégration de Topic Maps,

en effet, nous nous basons sur une construction incrémentale, qui consiste à créer une Topic

Map à partir de chaque document du référentiel en utilisant comme sources le thésaurus, les

179

ontologies générales et les questions et ensuite intégrer cette Topic Map avec la Topic Map

globale. Notre méthode d‟intégration est inspirée des travaux de notre équipe sur la fusion

d‟ontologies [Lammari et Métais, 2004] et [Lammari et Besbes-Essanaa, 2009], elle est

composée de trois étapes : une étape d‟appariement, une étape de fusion et une étape de

validation. Dans notre approche d‟appariement, nous limitons notre recherche de similarité à

une recherche d'équivalence prenant en compte les synonymes et le multilinguisme. L‟accent

sera mis sur l‟étape de fusion, dans laquelle nous nous intéressons à la reconstruction de

hiérarchies en se basant, d‟une part, sur les techniques de transformation de hiérarchies en

fonctions booléennes (et vice versa) et les algorithmes de [Lammari et Métais, 2004] et

d‟autre part sur le thésaurus du domaine et les deux ontologies générales (WordNet et WOLF)

qui fournissent les chainons manquants dans les hiérarchies à fusionner.

Après l‟étape d‟intégration, notre idée est de supprimer les Topics redondants afin de

diminuer la taille de la Topic Map et préparer l‟étape d‟élagage qui fera l‟objet du chapitre

suivant. Pour cela, nous procédons à la recherche de similarités entre les Topics pour

éventuellement les fusionner. Cependant, comme le nombre des Topics est très grand, nous

commençons par définir un ensemble d‟heuristiques pour le choix des Topics à comparer,

ensuite vérifier s‟ils sont proches et enfin les fusionner après avoir demandé la confirmation

de l‟utilisateur. Comme perspectives de nos travaux de recherche, un travail

d'approfondissement sera mené sur la définition des heuristiques pour le choix des Topics à

comparer et l‟étude de la meilleure distance pour la fusion de ces Topics.

ACTOM a aussi l‟avantage de prendre en compte le multilinguisme des ressources

qu‟elle représente. Ainsi, un utilisateur pourra, lors de sa navigation, avoir accès à des

documents qui ne sont pas dans sa langue d‟origine. Le grand intérêt de cette approche par

rapport à de simples traductions de réponses est de proposer à l'utilisateur des documents

correspondant à des concepts n'existant pas forcément dans sa langue ou dans sa culture. La

Topic Map constituera ainsi un moyen d‟enrichissement culturel pour les utilisateurs.

Enfin, nous suggérons, dans le chapitre suivant, de travailler sur l‟élagage de la Topic

Map générée, nous présentons les raisons qui nous ont poussées à s‟intéresser à ce problème

et les différentes techniques que nous proposons pour le résoudre.

180

181

CHAPITRE 5

Prise en compte de la qualité : méthode

d'élagage de la Topic Map

182

5.1 Introduction

Le traitement de la qualité des Topic Maps recouvre différents volets, certains sont

communs avec le domaine des schémas conceptuels, d'autres sont communs avec le domaine

de la recherche d'information. D'autres volets seront propres à la problématique des Topic

Maps. La formalisation des critères de qualité d'une Topic Map, de métriques associées et de

proposition d'algorithme d'amélioration constitue un sujet en lui-même et constitue la

prolongation logique des travaux de cette thèse. Nous le citerons comme une de nos

principales perspectives.

Dans cette thèse nous nous sommes bornés à traiter l'aspect de la qualité lié au volume

de la Topic Map, en proposant une méthode d'élagage.

Nous commençons dans ce chapitre par exposer la notion de qualité dans les systèmes

d‟information, puis nous décrivons les travaux sur la qualité des ontologies et des schémas

conceptuels. Nous présentons, par la suite, un bref état de l‟art sur les méthodes classiques de

mesure de performance des systèmes de recherche d'information (SRI). Enfin, après avoir

décrit quelques travaux concernant la qualité des Topic Maps, nous présentons notre solution

d'élagage dynamique pour la gestion du volume dans la Topic Map dans le but d‟améliorer la

navigation et faciliter la recherche à travers cette Topic Map.