• Aucun résultat trouvé

Le 12 Decembre

5.4 Architecture d’un syst`eme de RI contextuel

5.4.1 La mod´elisation du contexte

Par opposition `a la RI orient´ee-syst`eme qui s’appuie sur la requˆete comme unique source d’´evidence `a mod´eliser, permettant de sp´ecifier le besoin en in- formation, la RI contextuelle s’appuie sur une source d’´evidence additionnelle exprim´ee `a travers le contexte qu’il convient alors de mod´eliser. La nature et la port´ee du mod`ele d´ependent des dimensions consid´er´ees du contexte. De mani`ere g´en´erale, un mod`ele de contexte est d´efini par instanciation de chacun de ces ´el´ements : les sources d’information exploit´ees, les strat´egies de collecte de ces informations, les ressources de mod´elisation utilis´ees, et les mod`eles de repr´esentation et d’´evolution adopt´es.

1. Les sources d’information

Peuvent ˆetre de diff´erents types : documents visit´es, historique des inter- actions, environnement (temps, temp´erature etc.), etc. Une revue de la litt´erature montre que les sources les plus utilis´ees sont les suivantes : – Le comportement de l’utilisateur per¸cu `a l’aide d’indicateurs d’´evaluation

implicite [77] tels que l’historique des clicks, les donn´ees de navigation

[241, 216] et le mouvement des yeux [115].

– Les pages et sites favoris [156].

– Des informations locales [74] et contextuelles telles que les sources

acc´ed´ees comme les journaux (Reuters, New York Times), les Blog sites

et les sites de e-commerce [42].

– Les premi`eres pages ou r´esum´es de pages web retourn´es par un moteur

de recherche [89, 68]

2. Les strat´egies de collecte de ces informations

On peut distinguer principalement deux strat´egies de collecte des donn´ees du contexte, les strat´egies explicites et les strat´egies implicites.

– L’acquisition explicite : repose principalement sur les techniques de feedback explicite largement utilis´ees dans de reformulation de requˆetes

par r´e-injection de pertinence. L’approche dans [220] requiert que l’uti-

lisateur s´electionne parmi l’ensemble des concepts de l’ontologie de l’ODP une paire de concepts, un ad´equat et un autre inad´equat au besoin en information, utilis´es dans un processus de re-formulation

s´electionner les concepts du profil issus de l’ODP, dans un proces- sus de clarification du besoin derri`ere la requˆete et qui servent comme

contexte de recherche. Koutrika et Ioannidis [105] et les syst`emes ifWeb,

Wifs et InfoWeb utilisent un feedback explicite de l’utilisateur permet- tant d’identifier les documents pertinents utilis´es dans la d´erivation du r´eseau de termes repr´esentant le profil utilisateur.

Ces techniques d’acquisition explicite permettent une construction cont- rˆol´ee du profil utilisateur. Cependant, elles pr´esentent des limites `a cause de l’effort suppl´ementaire impos´e `a l’utilisateur `a sp´ecifier expli- citement ses besoins. Ces limitations ont orient´e les travaux vers des techniques d’acquisition implicite des donn´ees du contexte utilisateur. – L’acquisition implicite : consiste `a collecter `a l’aide d’algorithmes d’ac- quisition implicite les donn´ees de l’utilisateur en observant ses interac-

tions avec le syst`eme durant les activit´es de recherche [237,84,74,217].

L’avantage de cette approche est qu’elle ne n´ecessite aucune implication directe de l’utilisateur. Le r´epertoire d’information collect´ees constitue un riche r´epertoire de donn´ees qui peut ´eventuellement ˆetre exploit´e selon diverses techniques. Certaines ´etudes utilisent des techniques de data mining sur l’historique de recherche de l’utilisateur ou sur le fi-

chier log d’un moteur de recherche [76, 162]. D’autres ´etudes utilisent

des machines d’apprentissage automatique [257] des donn´ees utilisa-

teurs dans le but d’inf´erer sont profil et am´eliorer ainsi l’efficacit´e de la recherche.

3. Les ressources de mod´elisation

Les ressources s´emantiques (e.g. ontologies, dictionnaires, . . . ), sont par- fois exploit´ees pour enrichir les donn´ees du mod`ele. Nous citons la hi´erarchie

de concepts de ”Yahoo” [220], les portails en ligne tels que Magellan et Ly-

cos [84] ou alors celle de l’ODP [84,219,69] comme les sources d’´evidence

le plus souvent utilis´ees. Certains travaux [249] exploitent des ontologies

de domaine.

4. Les mod`eles de repr´esentation

Permet de formaliser la repr´esentation du contexte en qualit´e de structure unifi´ee (partie d’une ontologie, classe de vecteurs de termes, ensemble de concepts, . . . ) ou d’un ensemble d’informations avec des structures diff´erentes et sp´ecifiques, puis de les faire ´evoluer au cours du temps. Parmi les mod`eles de repr´esentation propos´es dans la litt´erature on peut distinguer :

– Les repr´esentations bas´ees historique de recherche : consistent en l’en- semble des requˆetes et des pages web pr´ec´edemment visit´ees ou cliqu´ees

de l’utilisateur (Google Psearch10, [189]) ou l’ensemble des requˆetes et

10

les r´esum´es textuels de ses r´esultats associ´es [216] accumul´es au cours des sessions de recherche de l’utilisateur.

– Les repr´esentations ensemblistes : se basent sur un ensemble de mots cl´es (ou vecteurs de termes) pond´er´es repr´esent´es souvent selon le mod`ele

vectoriel de Salton [206]. Les paquets de termes repr´esentent g´en´eralement

les centres d’int´erˆets de l’utilisateur. Nous pouvons distinguer entre les repr´esentations ensemblistes qui utilisent un vecteur de termes pond´er´es

repr´esentant un centre d’int´erˆet [150, 234] et celles qui utilisent des

classes de vecteurs de termes pond´er´es dont chacun repr´esente un centre

d’int´erˆet [156, 220].

– Les repr´esentations connexionistes : consistent non seulement `a ex- traire des termes `a partir des documents pertinents de l’utilisateur, mais `a int´egrer ces termes dans un r´eseau de nœuds pond´er´es. Cette repr´esentation permet de r´esoudre les failles de la repr´esentation en- sembliste par la mise en place des relations de corr´elation s´emantiques entre les mots du vocabulaire utilis´e. En effet, la richesse s´emantique dans cette repr´esentation permet de r´esoudre le probl`eme de la po-

lys´emie des termes. Ce type de repr´esentation est adopt´e dans [158,24]

par construction d’un r´eseau de termes reli´es par des arcs, ou par des

connecteurs logiques [105] selon des relations de co-occurrence.

– Les repr´esentations conceptuelles : se basent sur l’exploitation des on- tologies de domaines ou des hi´erarchies de concepts pr´ealablement d´efinies. L’approche de repr´esentation conceptuelle consiste tout d’abord `a sp´ecifier les niveaux des concepts de l’ontologie `a consid´erer, et en- suite appliquer le proc´ed´e de d´eploiement des donn´ees dans des tech- niques de pond´eration de ces concepts. A la fin le contexte utilisa- teur sera pr´esent´e par un r´eseau de nœuds conceptuels reli´es entre eux en respectant la topologie des liens d´efinis dans les hi´erarchies ou les ontologies utilis´ees. Nous pouvons distinguer entre les repr´esentations

conceptuelles sous forme de hi´erarchie de concepts [130], une partie

d’une ontologie de r´ef´erence [84, 219], des matrices de concepts [152]

ou encore des graphes de concepts [70].