2.1 Le Web sémantique appliqué à la recherche d’information
2.2.5 Quelques travaux sur la recherche d’information multilingue
Il existe plusieurs travaux dans le contexte de la recherche d‟information multilingues.
Nous citons par exemple les travaux suivants : Le projet UNL, le système Sydom et le projet
MKBEEM qui nous ont paru particulièrement intéressants.
46
Le projet UNL
12 (Universal Networking Language)
Ce projet [Uchida, 2004] est lancé en 1996 par L‟Université des Nations Unies à Tokyo,
il a pour objectif de permettre un accès au Web dans toutes les langues du monde. La figure
2.6 illustre le principe de base de la traduction par UNL.
- un enconvertisseur permet le passage d'une langue naturelle à l'UNL
- un deconvertisseur passe de l'UNL à une autre langue naturelle
Figure 2.6 Principe de base de la traduction par UNL
Le modèle développé dans le projet UNL est fondé sur une représentation interlangue
qui exprime sous forme de graphes sémantiques la structure abstraite des énoncés
linguistiques. Le formalisme UNL permet de produire des textes dans la langue de son choix.
Il permet de représenter n‟importe quel texte sous forme d‟un graphe conceptuel qui utilise
des concepts universaux (Universal Words) et des relations entre ces concepts. Il comporte
des nœuds étiquetés par les éléments d‟une ontologie de concepts, des relations sémantiques
binaires entre nœuds, ainsi qu‟un ensemble d‟ « attributs » représentant des aspects de la
sémantique des langues naturelles, et qui peuvent s‟appliquer aux nœuds. La fondation UNDL
(United Nations Depository Libraries) se doit d‟être plus active auprès des instances de
standardisation IETF, ITU, W3C,... L‟intérêt particulier de ce formalisme de graphes parmi
d‟autres est que, développé en parallèle par de multiples laboratoires dans divers pays, il
dispose d‟outils (analyseurs de textes, générateurs automatiques de langues) dans une dizaine
de langues différentes (12 actuellement). Cette situation en fait un candidat privilégié pour
jouer le rôle de langage pivot dans la représentation d‟un contenu destiné à être visible, après
conversion, dans des applications multilingues.
Le langage UNL peut aussi être utilisé comme langage d‟indexation dans des
applications de recherche d‟information sur de grandes bases (ou grands corpus) de
documents. Cet aspect indexation apparaît comme fondamental. En effet, les moteurs de
recherche existants pratiquent une indexation par mots-clés, éventuellement enrichie d‟une
information morphosyntaxique (lemmatiseur), et, pour les plus avancés d‟entre eux, d‟une
information sémantique (réseau sémantique). La recherche par mots-clés, même enrichie, se
47
heurte malgré tout aux deux obstacles qui sont d‟une part l‟ambiguïté des termes (ou la
polysémie) et, d‟autre part, l‟absence de lien sémantique entre les termes de recherche qui
restent des mots-clés isolés. L‟expression de requêtes dans un langage de graphes offre une
solution à ces deux problèmes : pour le premier, la distinction des homonymes par
l‟identification du mot à une entrée lexicale unique ; pour le second, l‟existence de relations
sémantiques entre les mots, qui permet de spécifier les rôles. L‟utilisation de tels formalismes
de représentation sémantique offre en outre des possibilités d‟extension de l‟indexation à des
contextes multilingues.
Le système SyDoM
Le système de recherche d‟information multilingue SyDoM s'appuie sur un thésaurus
sémantique qui représente un nouveau genre d‟ontologie défini dans [Roussey et al. 2002]
[Pivano et al. 2004]. SyDoM se compose de différents modules, chacun de ces modules est
dédié à une étape des processus d'indexation et de recherche des documents XML [Roussey et
al. 2001]. SyDoM comprend :
- un module de gestion des thésaurus sémantiques, permettant de construire un
langage documentaire utilisé pour annoter et interroger les documents XML. Ce
langage se compose d'une modélisation du domaine à laquelle sont associés
plusieurs vocabulaires ;
- un module d'indexation manuelle de documents en XML, permettant d'annoter
les documents par des graphes conceptuels [Sowa, 1984] ;
- un module de recherche, permettant de construire une requête sous forme de
graphes conceptuels et de récupérer la liste des documents répondant à cette
requête.
Le thésaurus sémantique allie à une modélisation du domaine plusieurs terminologies.
Ainsi les termes sont dissociés des notions qu‟ils dénotent, ce qui permet de clarifier les
relations entre les termes et les notions et d‟identifier les relations terminologiques des
relations sémantiques. Un thésaurus sémantique définit deux niveaux de connaissances (figure
2.7 et 2.8) :
- Le niveau conceptuel qui modélise le domaine d'étude formé de types de
concepts ou de relations. Dans ce cas, il s'agit d'une conceptualisation du
domaine résultant d'un consensus entre les différents acteurs d‟un domaine
particulier. Cette conceptualisation est utilisée comme langage pivot dans
48
SyDoM, elle est équivalente au support du modèle des graphes conceptuels de
Sowa [Sowa, 1984] ;
- Le niveau terminologique est composé de l'ensemble des termes, le terme étant
défini comme la manifestation linguistique d'un concept repéré dans un texte.
Figure 2.7 Thésaurus sémantique : Niveau conceptuel
Figure 2.8 Thésaurus sémantique : Niveau terminologique
Dans la figure 2.9, V se compose de deux vocabulaires, un vocabulaire anglais V
eng et
un vocabulaire français V
fr. Pour chacun des vocabulaires V
i, il existe une fonction
Vi qui
associe à chaque type au moins un terme appartenant à V
i. Dans l‟exemple de la figure 2.9, la
fonction
c
Veng fait correspondre au type t
c1.1.1
TC, le terme anglais « Fuel »
CVeng(t
c1.1.1)= « Fuel » et la fonction
CVfr fait correspondre au même type tc1.1.1, le terme
français « Carburant »
CVfr(t
c1.1.1)= « Carburant ».
49
Figure 2.9 Un exemple de thésaurus sémantique [Harrathi, 2005]
A partir de ce thésaurus sémantique définissant le vocabulaire et les connaissances du
domaine, les graphes sémantiques sont utilisés pour indexer les documents. Ces graphes
peuvent être comparés aux graphes conceptuels de Sowa. Un exemple de graphe sémantique
est présenté dans la figure 2.9 (dans le formalisme des graphes conceptuels). Ce graphe peut
représenter l‟index d‟un document qui traite de la combustion du diesel.
Le projet MKBEEM
C‟est une plate-forme de commerce électronique multilingue et pluriculturelle qui offre
des interfaces homme-machine en langue naturelle respectueuse des langues et des cultures de
ses clients internationaux. Le projet MKBEEM [Heinecke, 2003] (Multilingual
Knowledge-Based European Electronic Marketplace) offre des services de médiation de commerce
électronique multilingue (Finnois, Français, Espagnol et Anglais). L'approche technique est
basée sur le couplage de raisonnements sémantiques (ontologies) avec le traitement
automatique des langues naturelles. Cette technologie permet d‟établir la correspondance
entre une requête d'utilisateur en langue naturelle et la représentation ontologique du contenu
de cette requête. Les ontologies sont exploitées pour la classification et l'indexation des
produits ou des services dans les catalogues aussi bien que pour faciliter l'interprétation et
l'inférence d'information pertinente en rapport avec la requête de l'utilisateur. En conclusion,
ce projet se base sur trois scénarios : catalogage multilingue, traitement des requêtes
d'utilisateur et enfin la transaction multilingue.
La section suivante dresse un état de l‟art sur
les a
pproches de construction de Topic
Maps, elle propose plus précisément une classification de ces approches selon les sources et
50
les techniques utilisées, elle présente aussi les différents domaines de recherche reliés à la
construction de Topic Maps en particulier, les techniques d‟analyse linguistiques de
documents textuels, les méthodes de création et d‟enrichissement d‟ontologies et les
approches de fusion de schémas conceptuels et d‟ontologies. Nous donnons ensuite un bref
aperçu sur les outils existants pour l‟édition, la navigation et la visualisation de Topic Maps,
enfin nous terminons par une étude comparative de ces approches selon des critères de
comparaison que nous définissons, cette étude nous a permis de dégager les limites des
travaux existants et énoncer notre proposition pour la construction de Topic Map à partir d‟un
contenu textuel multilingue.