Le 12 Decembre
5.4 Architecture d’un syst`eme de RI contextuel
5.4.1 La mod´elisation du contexte
Par opposition `a la RI orient´ee-syst`eme qui s’appuie sur la requˆete comme unique source d’´evidence `a mod´eliser, permettant de sp´ecifier le besoin en in- formation, la RI contextuelle s’appuie sur une source d’´evidence additionnelle exprim´ee `a travers le contexte qu’il convient alors de mod´eliser. La nature et la port´ee du mod`ele d´ependent des dimensions consid´er´ees du contexte. De mani`ere g´en´erale, un mod`ele de contexte est d´efini par instanciation de chacun de ces ´el´ements : les sources d’information exploit´ees, les strat´egies de collecte de ces informations, les ressources de mod´elisation utilis´ees, et les mod`eles de repr´esentation et d’´evolution adopt´es.
1. Les sources d’information
Peuvent ˆetre de diff´erents types : documents visit´es, historique des inter- actions, environnement (temps, temp´erature etc.), etc. Une revue de la litt´erature montre que les sources les plus utilis´ees sont les suivantes : – Le comportement de l’utilisateur per¸cu `a l’aide d’indicateurs d’´evaluation
implicite [77] tels que l’historique des clicks, les donn´ees de navigation
[241, 216] et le mouvement des yeux [115].
– Les pages et sites favoris [156].
– Des informations locales [74] et contextuelles telles que les sources
acc´ed´ees comme les journaux (Reuters, New York Times), les Blog sites
et les sites de e-commerce [42].
– Les premi`eres pages ou r´esum´es de pages web retourn´es par un moteur
de recherche [89, 68]
2. Les strat´egies de collecte de ces informations
On peut distinguer principalement deux strat´egies de collecte des donn´ees du contexte, les strat´egies explicites et les strat´egies implicites.
– L’acquisition explicite : repose principalement sur les techniques de feedback explicite largement utilis´ees dans de reformulation de requˆetes
par r´e-injection de pertinence. L’approche dans [220] requiert que l’uti-
lisateur s´electionne parmi l’ensemble des concepts de l’ontologie de l’ODP une paire de concepts, un ad´equat et un autre inad´equat au besoin en information, utilis´es dans un processus de re-formulation
s´electionner les concepts du profil issus de l’ODP, dans un proces- sus de clarification du besoin derri`ere la requˆete et qui servent comme
contexte de recherche. Koutrika et Ioannidis [105] et les syst`emes ifWeb,
Wifs et InfoWeb utilisent un feedback explicite de l’utilisateur permet- tant d’identifier les documents pertinents utilis´es dans la d´erivation du r´eseau de termes repr´esentant le profil utilisateur.
Ces techniques d’acquisition explicite permettent une construction cont- rˆol´ee du profil utilisateur. Cependant, elles pr´esentent des limites `a cause de l’effort suppl´ementaire impos´e `a l’utilisateur `a sp´ecifier expli- citement ses besoins. Ces limitations ont orient´e les travaux vers des techniques d’acquisition implicite des donn´ees du contexte utilisateur. – L’acquisition implicite : consiste `a collecter `a l’aide d’algorithmes d’ac- quisition implicite les donn´ees de l’utilisateur en observant ses interac-
tions avec le syst`eme durant les activit´es de recherche [237,84,74,217].
L’avantage de cette approche est qu’elle ne n´ecessite aucune implication directe de l’utilisateur. Le r´epertoire d’information collect´ees constitue un riche r´epertoire de donn´ees qui peut ´eventuellement ˆetre exploit´e selon diverses techniques. Certaines ´etudes utilisent des techniques de data mining sur l’historique de recherche de l’utilisateur ou sur le fi-
chier log d’un moteur de recherche [76, 162]. D’autres ´etudes utilisent
des machines d’apprentissage automatique [257] des donn´ees utilisa-
teurs dans le but d’inf´erer sont profil et am´eliorer ainsi l’efficacit´e de la recherche.
3. Les ressources de mod´elisation
Les ressources s´emantiques (e.g. ontologies, dictionnaires, . . . ), sont par- fois exploit´ees pour enrichir les donn´ees du mod`ele. Nous citons la hi´erarchie
de concepts de ”Yahoo” [220], les portails en ligne tels que Magellan et Ly-
cos [84] ou alors celle de l’ODP [84,219,69] comme les sources d’´evidence
le plus souvent utilis´ees. Certains travaux [249] exploitent des ontologies
de domaine.
4. Les mod`eles de repr´esentation
Permet de formaliser la repr´esentation du contexte en qualit´e de structure unifi´ee (partie d’une ontologie, classe de vecteurs de termes, ensemble de concepts, . . . ) ou d’un ensemble d’informations avec des structures diff´erentes et sp´ecifiques, puis de les faire ´evoluer au cours du temps. Parmi les mod`eles de repr´esentation propos´es dans la litt´erature on peut distinguer :
– Les repr´esentations bas´ees historique de recherche : consistent en l’en- semble des requˆetes et des pages web pr´ec´edemment visit´ees ou cliqu´ees
de l’utilisateur (Google Psearch10, [189]) ou l’ensemble des requˆetes et
10
les r´esum´es textuels de ses r´esultats associ´es [216] accumul´es au cours des sessions de recherche de l’utilisateur.
– Les repr´esentations ensemblistes : se basent sur un ensemble de mots cl´es (ou vecteurs de termes) pond´er´es repr´esent´es souvent selon le mod`ele
vectoriel de Salton [206]. Les paquets de termes repr´esentent g´en´eralement
les centres d’int´erˆets de l’utilisateur. Nous pouvons distinguer entre les repr´esentations ensemblistes qui utilisent un vecteur de termes pond´er´es
repr´esentant un centre d’int´erˆet [150, 234] et celles qui utilisent des
classes de vecteurs de termes pond´er´es dont chacun repr´esente un centre
d’int´erˆet [156, 220].
– Les repr´esentations connexionistes : consistent non seulement `a ex- traire des termes `a partir des documents pertinents de l’utilisateur, mais `a int´egrer ces termes dans un r´eseau de nœuds pond´er´es. Cette repr´esentation permet de r´esoudre les failles de la repr´esentation en- sembliste par la mise en place des relations de corr´elation s´emantiques entre les mots du vocabulaire utilis´e. En effet, la richesse s´emantique dans cette repr´esentation permet de r´esoudre le probl`eme de la po-
lys´emie des termes. Ce type de repr´esentation est adopt´e dans [158,24]
par construction d’un r´eseau de termes reli´es par des arcs, ou par des
connecteurs logiques [105] selon des relations de co-occurrence.
– Les repr´esentations conceptuelles : se basent sur l’exploitation des on- tologies de domaines ou des hi´erarchies de concepts pr´ealablement d´efinies. L’approche de repr´esentation conceptuelle consiste tout d’abord `a sp´ecifier les niveaux des concepts de l’ontologie `a consid´erer, et en- suite appliquer le proc´ed´e de d´eploiement des donn´ees dans des tech- niques de pond´eration de ces concepts. A la fin le contexte utilisa- teur sera pr´esent´e par un r´eseau de nœuds conceptuels reli´es entre eux en respectant la topologie des liens d´efinis dans les hi´erarchies ou les ontologies utilis´ees. Nous pouvons distinguer entre les repr´esentations
conceptuelles sous forme de hi´erarchie de concepts [130], une partie
d’une ontologie de r´ef´erence [84, 219], des matrices de concepts [152]
ou encore des graphes de concepts [70].