• Aucun résultat trouvé

2.1 Le Web sémantique appliqué à la recherche d’information

2.2.5 Quelques travaux sur la recherche d’information multilingue

Il existe plusieurs travaux dans le contexte de la recherche d‟information multilingues.

Nous citons par exemple les travaux suivants : Le projet UNL, le système Sydom et le projet

MKBEEM qui nous ont paru particulièrement intéressants.

46

Le projet UNL

12

(Universal Networking Language)

Ce projet [Uchida, 2004] est lancé en 1996 par L‟Université des Nations Unies à Tokyo,

il a pour objectif de permettre un accès au Web dans toutes les langues du monde. La figure

2.6 illustre le principe de base de la traduction par UNL.

- un enconvertisseur permet le passage d'une langue naturelle à l'UNL - un deconvertisseur passe de l'UNL à une autre langue naturelle

Figure 2.6 Principe de base de la traduction par UNL

Le modèle développé dans le projet UNL est fondé sur une représentation interlangue

qui exprime sous forme de graphes sémantiques la structure abstraite des énoncés

linguistiques. Le formalisme UNL permet de produire des textes dans la langue de son choix.

Il permet de représenter n‟importe quel texte sous forme d‟un graphe conceptuel qui utilise

des concepts universaux (Universal Words) et des relations entre ces concepts. Il comporte

des nœuds étiquetés par les éléments d‟une ontologie de concepts, des relations sémantiques

binaires entre nœuds, ainsi qu‟un ensemble d‟ « attributs » représentant des aspects de la

sémantique des langues naturelles, et qui peuvent s‟appliquer aux nœuds. La fondation UNDL

(United Nations Depository Libraries) se doit d‟être plus active auprès des instances de

standardisation IETF, ITU, W3C,... L‟intérêt particulier de ce formalisme de graphes parmi

d‟autres est que, développé en parallèle par de multiples laboratoires dans divers pays, il

dispose d‟outils (analyseurs de textes, générateurs automatiques de langues) dans une dizaine

de langues différentes (12 actuellement). Cette situation en fait un candidat privilégié pour

jouer le rôle de langage pivot dans la représentation d‟un contenu destiné à être visible, après

conversion, dans des applications multilingues.

Le langage UNL peut aussi être utilisé comme langage d‟indexation dans des

applications de recherche d‟information sur de grandes bases (ou grands corpus) de

documents. Cet aspect indexation apparaît comme fondamental. En effet, les moteurs de

recherche existants pratiquent une indexation par mots-clés, éventuellement enrichie d‟une

information morphosyntaxique (lemmatiseur), et, pour les plus avancés d‟entre eux, d‟une

information sémantique (réseau sémantique). La recherche par mots-clés, même enrichie, se

47

heurte malgré tout aux deux obstacles qui sont d‟une part l‟ambiguïté des termes (ou la

polysémie) et, d‟autre part, l‟absence de lien sémantique entre les termes de recherche qui

restent des mots-clés isolés. L‟expression de requêtes dans un langage de graphes offre une

solution à ces deux problèmes : pour le premier, la distinction des homonymes par

l‟identification du mot à une entrée lexicale unique ; pour le second, l‟existence de relations

sémantiques entre les mots, qui permet de spécifier les rôles. L‟utilisation de tels formalismes

de représentation sémantique offre en outre des possibilités d‟extension de l‟indexation à des

contextes multilingues.

Le système SyDoM

Le système de recherche d‟information multilingue SyDoM s'appuie sur un thésaurus

sémantique qui représente un nouveau genre d‟ontologie défini dans [Roussey et al. 2002]

[Pivano et al. 2004]. SyDoM se compose de différents modules, chacun de ces modules est

dédié à une étape des processus d'indexation et de recherche des documents XML [Roussey et

al. 2001]. SyDoM comprend :

- un module de gestion des thésaurus sémantiques, permettant de construire un

langage documentaire utilisé pour annoter et interroger les documents XML. Ce

langage se compose d'une modélisation du domaine à laquelle sont associés

plusieurs vocabulaires ;

- un module d'indexation manuelle de documents en XML, permettant d'annoter

les documents par des graphes conceptuels [Sowa, 1984] ;

- un module de recherche, permettant de construire une requête sous forme de

graphes conceptuels et de récupérer la liste des documents répondant à cette

requête.

Le thésaurus sémantique allie à une modélisation du domaine plusieurs terminologies.

Ainsi les termes sont dissociés des notions qu‟ils dénotent, ce qui permet de clarifier les

relations entre les termes et les notions et d‟identifier les relations terminologiques des

relations sémantiques. Un thésaurus sémantique définit deux niveaux de connaissances (figure

2.7 et 2.8) :

- Le niveau conceptuel qui modélise le domaine d'étude formé de types de

concepts ou de relations. Dans ce cas, il s'agit d'une conceptualisation du

domaine résultant d'un consensus entre les différents acteurs d‟un domaine

particulier. Cette conceptualisation est utilisée comme langage pivot dans

48

SyDoM, elle est équivalente au support du modèle des graphes conceptuels de

Sowa [Sowa, 1984] ;

- Le niveau terminologique est composé de l'ensemble des termes, le terme étant

défini comme la manifestation linguistique d'un concept repéré dans un texte.

Figure 2.7 Thésaurus sémantique : Niveau conceptuel

Figure 2.8 Thésaurus sémantique : Niveau terminologique

Dans la figure 2.9, V se compose de deux vocabulaires, un vocabulaire anglais V

eng

et

un vocabulaire français V

fr

. Pour chacun des vocabulaires V

i

, il existe une fonction

Vi

qui

associe à chaque type au moins un terme appartenant à V

i

. Dans l‟exemple de la figure 2.9, la

fonction

c

Veng

fait correspondre au type t

c1.1.1 

TC, le terme anglais « Fuel »

CVeng

(t

c1.1.1

)= « Fuel » et la fonction

CVfr

fait correspondre au même type tc1.1.1, le terme

français « Carburant »

CVfr

(t

c1.1.1

)= « Carburant ».

49

Figure 2.9 Un exemple de thésaurus sémantique [Harrathi, 2005]

A partir de ce thésaurus sémantique définissant le vocabulaire et les connaissances du

domaine, les graphes sémantiques sont utilisés pour indexer les documents. Ces graphes

peuvent être comparés aux graphes conceptuels de Sowa. Un exemple de graphe sémantique

est présenté dans la figure 2.9 (dans le formalisme des graphes conceptuels). Ce graphe peut

représenter l‟index d‟un document qui traite de la combustion du diesel.

Le projet MKBEEM

C‟est une plate-forme de commerce électronique multilingue et pluriculturelle qui offre

des interfaces homme-machine en langue naturelle respectueuse des langues et des cultures de

ses clients internationaux. Le projet MKBEEM [Heinecke, 2003] (Multilingual

Knowledge-Based European Electronic Marketplace) offre des services de médiation de commerce

électronique multilingue (Finnois, Français, Espagnol et Anglais). L'approche technique est

basée sur le couplage de raisonnements sémantiques (ontologies) avec le traitement

automatique des langues naturelles. Cette technologie permet d‟établir la correspondance

entre une requête d'utilisateur en langue naturelle et la représentation ontologique du contenu

de cette requête. Les ontologies sont exploitées pour la classification et l'indexation des

produits ou des services dans les catalogues aussi bien que pour faciliter l'interprétation et

l'inférence d'information pertinente en rapport avec la requête de l'utilisateur. En conclusion,

ce projet se base sur trois scénarios : catalogage multilingue, traitement des requêtes

d'utilisateur et enfin la transaction multilingue.

La section suivante dresse un état de l‟art sur

les a

pproches de construction de Topic

Maps, elle propose plus précisément une classification de ces approches selon les sources et

50

les techniques utilisées, elle présente aussi les différents domaines de recherche reliés à la

construction de Topic Maps en particulier, les techniques d‟analyse linguistiques de

documents textuels, les méthodes de création et d‟enrichissement d‟ontologies et les

approches de fusion de schémas conceptuels et d‟ontologies. Nous donnons ensuite un bref

aperçu sur les outils existants pour l‟édition, la navigation et la visualisation de Topic Maps,

enfin nous terminons par une étude comparative de ces approches selon des critères de

comparaison que nous définissons, cette étude nous a permis de dégager les limites des

travaux existants et énoncer notre proposition pour la construction de Topic Map à partir d‟un

contenu textuel multilingue.