• Aucun résultat trouvé

L'accès au contenu sémantique des documents issus du Web ou de grands corpus

nécessite une phase d'enrichissement sémantique de ces documents. Il s'agit, à ce niveau, de

réaliser une médiation sémantique entre la sémantique des producteurs (rédacteurs) des

documents, la sémantique des indexeurs des documents et la sémantique des besoins en

information des utilisateurs. Non seulement ces trois groupes d‟acteurs peuvent ne pas se

connaître mais en plus ils n'ont pas forcément les mêmes centres d'intérêts, les mêmes

habitudes, la même culture et ne partagent pas de ce fait le même vocabulaire (figure 3.1).

Documents Acteurs Services Différents formats Différentes langues Différents types Différents vocabulaires Différentes cultures Différents profils

Recherche par requête Recherche par navigation

Figure 3.1 Problématique générale de la recherche d‟information

Lors d'une session de recherche, l'utilisateur peut avoir recours, pour exprimer son

besoin, à des termes (ou concepts) qui ne sont pas forcément les mêmes que ceux utilisés par

l'indexeur ou par les auteurs. L'ambiguïté rencontrée lors de l'expression des besoins est la

source principale des problèmes de bruit et silence souvent rencontrés dans les systèmes de

recherche d'information. L'ambiguïté peut se faire sentir principalement à deux niveaux :

l'ambiguïté du besoin de l'utilisateur par rapport à l'indexeur et l'ambiguïté de la sémantique

de l'auteur par rapport à l'indexeur (figure 3.2).

91

Nous distinguons deux types de recherche :

- La recherche exacte : l‟utilisateur connaît exactement ce qu‟il cherche, connaît

le langage d‟indexation utilisé, et formule sa requête en adéquation avec le

format d‟indexation, exemple : chercher un document sachant son titre ;

- La recherche floue : l‟utilisateur a une idée de ce qu‟il cherche sans connaître le

format du langage d‟indexation avec une requête à formulation variable. Pour

aider l'utilisateur dans le cas de recherche floue, plusieurs techniques ont été

proposées, ces techniques ont pour objectifs d'étendre les requêtes et ceci par

diverses moyens : l'expansion (grâce à un thésaurus qui fournit des termes

synonymes ou hyperonymes), la reformulation (grâce à des groupes de termes

associées souvent rencontrés dans le même contexte) et le « relevance feedback

» (par des mots clés issus des meilleurs documents résultant d'une première

requête).

Dans le cas de systèmes de recherche par exploration / navigation, la collection de

documents est accessible en naviguant de lien en lien. Les liens peuvent se situer entre les

documents (système hypertexte classique) et/ou dans une structure décrivant l‟organisation

des informations (carte conceptuelle, index, etc.). La variété de ces outils est assez large,

allant d‟index peu structurés à des index fortement structurés comme divers types de systèmes

de navigation. La structuration des informations guide l‟utilisateur tout le long de sa recherche

(choix d‟un lien ou d‟un autre). L‟utilisation d‟un tel outil ne nécessite pas de connaissances

sur le fonctionnement informatique.

En revanche, la navigation conduit souvent à une désorientation des utilisateurs

caractérisée par la consultation de nombreux documents et une baisse des performances dans

le temps. L‟utilisateur n‟obtient pas une vue d‟ensemble de la structure des informations et

éprouve des difficultés à établir un but et sa planification.

Nous pouvons à cette étape retenir que, les systèmes par requête requièrent de

l‟utilisateur une bonne connaissance des modalités de fonctionnement du système et en

particulier de la manière de formuler les requêtes pour parvenir à des résultats pertinents. De

leur coté, les systèmes par navigation sont susceptibles d‟entraîner une forme de

désorientation des utilisateurs. Pour pallier ce problème, il est bénéfique de proposer des aides

à la navigation sous la forme d‟une structuration des informations utiles à la navigation.

92

C‟est à ce niveau que se situent nos travaux de recherche, notre objectif est de proposer

une approche de recherche intelligente d’information permettant, en plus de la recherche

par requête, une recherche par navigation dans un contenu textuel multilingue.

Pour cela, notre approche sera fondée sur deux méta-modèles : le premier est basé sur le

modèle des Topic Map et le deuxième est représenté par un référentiel de documents

multilingues segmentés thématiquement et indexés sémantiquement. Notre approche a deux

objectifs : d'une part, définir un modèle de représentation des connaissances à partir de

l'analyse des documents, des acteurs et des services et d'autre part, réaliser un appariement

entre le contenu des documents et les besoins des acteurs, en leur offrant, via des services, les

documents ou les segments de documents les plus pertinents par rapport à leurs besoins et

préférences.

Pour la construction et l‟enrichissement de ces deux méta-modèles, en plus du contenu

textuel multilingue, nous prenons comme entrées un thésaurus du domaine contenant les

concepts du domaine et les relations normalisées telles que les relations hiérarchiques et les

relations de synonymie, deux ontologies générales représentant la terminologie du langage

commun et des scénarios d‟usage construits à partir de FAQ.

Nous avons choisi ces deux méta-modèles parce que nous visons, à travers notre

approche, à permettre trois modes de recherche : une recherche par navigation à travers la

Topic Map, une recherche classique par requête et pour représenter l‟usage dans notre Topic

Map, nous proposons également un troisième mode de recherche basé sur un ensemble de

scénarios de questions préparés à partir de FAQ dont on prévoit les réponses.

Parmi les raisons qui nous ont motivés à choisir le modèle des Topic Map est que ce

dernier intègre cette notion d‟usage, en effet, par rapport aux ontologies définies comme une

conceptualisation formelle du réel, permettant de décrire le réel indépendamment de l'usage,

les Topic Maps ajoutent la notion d‟utilisation, elles décrivent le réel en prenant en compte

son usage par exemple supposons qu‟on dispose d‟une ontologie sur les tulipes et les roses, si

un utilisateur demande des documents sur « tulipe », le système va étendre sa requête et lui

retourner des documents sur les « roses » alors que dans une Topic Map, on peut rajouter des

informations sur l‟usage qu‟on en fait, par exemple, les fleurs servent à faire des cadeaux et le

chocolat sert aussi à faire des cadeaux et donc de cette manière, nous donnons à l‟utilisateur

des idées de cadeaux.

Par ailleurs, nous avons choisi les Topic Maps parce qu‟elles constituent un modèle de

représentation des connaissances orienté navigation, c‟est une carte sémantique permettant, en

93

plus de la recherche par requête utilisant un langage dédié aux Topic Maps (ou un autre

langage tel que SPARQL [Ahmed, 2009]), une recherche exploratoire par navigation. Il a été

conçu pour l‟organisation d‟un ensemble de documents grâce à la notion de sujets (Topics) et

aux associations entre ces sujets qu‟elle représente afin de faciliter la navigation dans ces

documents. Si l‟utilisateur ne sait pas ce qu‟il cherche, il peut naviguer dans la Topic Map et

découvrir des informations susceptibles de l'intéresser et qu‟il ne pensait pas avoir.

De plus, par rapport à nos objectifs de construire la Topic Map à partir de documents

multilingues, le modèle des Topic Maps propose la notion de scope ou contexte que nous

explorerons pour la gestion du multilinguisme. Il propose également la notion de facette, un

ensemble d‟attributs-valeurs reliés au lien occurrence pour caractériser la ressource en

question, nous explorerons aussi cette notion pour implémenter l‟aspect multilingue.

Tout au long de ce chapitre nous détaillons toutes nos contributions tout en les motivant.

Dans la section suivante, nous décrivons notre approche générale.