Modèles d’ordonnancement personna- - Modèles d’appariement personnalisé requête-document

2.4 Accès contextuel à l’information guidé par le profil utilisateur

2.4.6 Les modèles d’accès personnalisé à l’information

2.4.6.2 Modèles d’appariement personnalisé requête-document

2.4.6.2.2 Modèles d’ordonnancement personna-

grer le profil utilisateur dans le calcul du score de pertinence des pages Web sur la base de la structure des liens entre les pages. Les systèmes adoptant ce type d’approches sont à la base de l’extension des algorithmes les plus connus, tels que les mesures Hub et Autority proposées dans [103] (également nommé : Hyperlinked Induced Topic Search (HITS)), et aussi le PageRank qui constitue une composante importante dans l’algorithme de recherche utilisé par Google [31]. Brièvement, le PageRank (PR) est un vote assigné à une page A collectée de toutes les pages web T1, .., Tn qui se dirigent vers la page A. Il représente

l’importance de la page dirigée. Le PageRank de la page A est calculé par la formule suivante : P R(A) = (1 − d) + d " P R(T1) C(T1) + .. + P R(Tn) C(Tn) # (2.14) où d est un facteur d’atténuation qui prend des valeurs entre 0 et 1 et C(Tn) est

défini comme le nombre de liens dans la page Tn. Les scores PR sont des degrés

d’importance estimés a priori pour toutes les pages Web indépendamment de la requête utilisateur. Parmi les systèmes en RI personnalisée basé sur ce type

d’algorithmes, nous citons PROS [44], [61] et [75].

Chirita et al. [44] propose une plateforme d’ordonnancement personnalisé, ap- pelé PROS qui intègre un ordonnancement personnalisé des pages web en fonction des profils utilisateurs, construits automatiquement sur la base des annotations et un ensemble des pages Web fréquemment visitées. Dans cette plateforme, les pages Web jugées les plus intéressantes pour l’utilisateur font l’entrée du module nommé HubFinder. Ce module, étant l’extension de l’algorithme Kleinberg’s HITS [103], consiste à collecter des pages web, appelée pages hub, corrélés aux centres d’intérêts de l’utilisateur. Une page hub est une page qui contient des liens pointant vers d’autres ressources d’information. Les pages Web collectées par HubFinder sont ensuite traitées par un autre algorithme, appelé HubRank, qui combine les scores PR et les valeurs hub des pages web dans le but d’augmenter la liste des résultats fournis par hubRank. La liste finale des résultats est traitée par une version personnalisée de l’algorithme de PageRank qui consiste à réordonner les résultats à chaque soumission d’une nouvelle requête par l’utilisateur.

Dans le même sens, l’ordonnancement personnalisé des pages Web dans [75] se fait grâce à la mise en place d’une dérivée de l’algorithme de PageRank, appelé topic-sensitive PageRank (TPSR) sensitive aux domaines d’intérêts in- formationnels. Dans cet algorithme, l’importance de la page Web se calcule en adaptant les scores de PageRank à certains domaines. Vu que les pages considé- rées importantes dans certains domaines, peuvent ne pas l’être dans d’autres, l’algorithme calcule 16 ensembles de scores de PageRank associés aux domaines, chacun correspond aux URLs des catégories de haut niveau de l’ODP. Chaque nouvelle requête soumise est associée aux catégories prises en compte de l’ODP et le score de chaque page résultat n’est plus fonction du PageRank original mais d’une combinaison linéaire des scores de PageRank des domaines pondérés par les poids de similitude avec la requête. Ainsi, le score de TSPR de la page v en considérant t est défini par :

T SP Rt(v) = d ∗

w∈Av

T SP Rt(w)/lw+ (1 − d) ∗ Et(v) (2.15)

Où v est la page concernée, Avl’ensemble des pages liées à v, lw le nombre de

liens sortant de la page w, d la probabilité que l’utilisateur suit le lien sortant et 1 −d la probabilité restante du saut de page et Et(v) = 1/vtoù vtest le nombre

total de pages reliées au domaine t. Cet algorithme offre un temps d’exécution comparable à celui de PageRank vu que les ensembles de valeurs de PageRank des domaines sont calculées avant toute interaction avec le système.

2.4.6.3 Modèle d’ordonnancement personnalisé basé-contenu

Les modèles d’ordonnancement personnalisé basé-contenu consistent à exploiter le profil utilisateur dans le calcul des rangs finaux des résultats de recherche restitués par le système pour une requête donnée. L’ordre final des documents à retourner se calcule souvent par combinaison des rangs/scores originaux des documents et de leurs rangs/scores personnalisés résultant de leur similitude avec le profil utilisateur.

Plusieurs approches en RI personnalisé adoptent ce type de personnalisation [67,162,121]. Dans l’approche présenté dans [69], le réordonnancement des ré- sultats de recherche consiste à combiner le score de similarité entre le document et le centre d’intérêt courant, représenté par un vecteur de termes pondérés, avec le score d’appariement original du document.

La personnalisation du processus de recherche dans [188] consiste à réor- donner les résultats de recherche en ajoutant au score original du document un score dit " score de pertinence personnalisé". Ce dernier est calculé en appli- quant une mesure de similarité vectorielle basé sur le cosinus entre le document et le profil représentés dans l’espace des concepts de l’ontologie. Par opposition à cette dernière approche, un nombre limité de concepts du profil sont consi- dérés dans le réordonnancement des résultats de recherche dans [67, 162] par combinaison de rangs ou de scores. En effet, pour chaque document résultat, le système identifie les premiers N concepts les plus similaires à ce document et calcule pour chacun un score personnalisé basé sur la mesure de similarité cosinus avec le document. Le score personnalisé du document sera calculé comme étant la somme de ses scores de similarités avec les N concepts identifiés et du poids des concepts dans le profil comme suit :

ConceptualScore = X

i=1..N

score(ci) ∗ cos( ~d, ~ci) (2.16)

Le rang final d’un document est calculé par combinaison de son rang original et de son rang personnalisé selon la formule suivante :

F inalRank = α ∗ ConceptualRank + (1 − α) ∗ KeywordRank (2.17)

La personnalisation du processus de recherche dans [121] consiste à exploiter le profil utilisateur représenté par un ensemble de concepts de l’ontologie de l’ODP dans le réordonnancement des résultats de recherche. Étant donné une requête utilisateur, l’algorithme identifie N catégories associées du profil selon une mesure de similarité entre la requête q et chacune des catégories Cj selon

la formule suivante :

simCj = sim(q, Cj) =

di∈kN N

où kNN est un ensemble de documents les plus similaires à la requêtes re- trouvées selon la méthode k-nearest neighbors et DC(i, j) ∈ {0, 1} désigne si le document di est relié à la catégorie Cj. Sur la base de l’ensemble de N caté-

gories associées à la requête, N listes de résultats sont produites pour chaque concept du profil et pour le même ensemble de résultats restitués par le sys- tème. Le rang d’un document dans une liste dépend de sa similarité avec le concept représentant la liste. Un schéma de fusion des listes des résultats est ainsi nécessaire afin de produire une liste unique. Ce schéma de fusion est à la base de la combinaison de vote associé à chaque résultat de recherche dans plusieurs listes. Le vote pour un document di ayant un rang i dans une liste Lj

est calculé comme suit :

vote(di, Lj) = Wj ∗ (MM − i + 1) (2.19)

où MM est la longueur maximale des listes des résultats obtenus, Wj est le

poids de la liste Lj calculée selon la formule suivante :

Wj = rankCj∗

simCj ∗ numCj (2.20)

et où rankCj est le rang de la catégorie associée à la liste Lj, simCj est le

score de similarité de la catégorie Cj avec une requête q et numC est le nombre

de documents retrouvés dans la liste associée à la catégorie Cj. Finalement,

si un résultat de recherche apparaît dans plusieurs listes de concepts, son vote sera égal à la somme des votes dans chaque liste. Des variantes des approches de réordonnancement des résultats consistent en une catégorisation personnalisée [122] basée sur la classification des résultats de recherche dans des catégories représentant les centres d’intérêts du profil utilisateur.

2.4.6.4 Synthèse des modèles d’accès personnalisé à l’information Nous présentons dans cette section une synthèse des modèles d’accès per- sonnalisé à l’information abordées précédemment. Ces approches sont groupées dans le tableau 2.3, catégorisées selon la phase du processus d’accès personna- lisé à l’information, le modèle de représentation du profil utilisé, la technique de personnalisation et des exemples de systèmes correspondants.

Méthode Profil associé Technique Exemple Reformulation

de requête

Une paire de concepts associé à la requête

Ajout ou repondération des termes selon Roc- chio

Historique de requêtes HQ et historique de

clics HC

Repondération des termes de la requête selon des modèles de langage statistiques associés à HC et HQ

[179]

Graphe de termes connectés par des opérateurs logiques

Ajout de termes reliés aux termes de la re- quête par des opéra- teurs logiques ayant les poids les plus élevés

[108]

Graphe de requêtes, documents et contextes liés à travers les sessions

Ajout de termes issus de documents occur- rents dans une même session selon un mo- dèle de sélection orienté requête-contexte

[147]

Appariement requête- document

Centres d’intérêts mul- tiples représentés par des vecteurs de termes pondérés

Intégration dans le calcul de pertinence du document du modèle de recherche bayésien

[178]

Domaines d’intérêts de l’ODP issus de des premiers niveaux

Combinaison des Page- Ranks (TSPR) d’un document calculés relati- vement aux domaines d’intérêts d’une ontologie de domaine prédéfi- nie (l’ODP)

[75]

Présentation des résultats

Liste de concepts d’une ontologie de domaines

Combinaison du score/rang original et personnalisé du document telle que le score personnalisé est calculé selon la mesure cosinus entre le document et les concepts du profil

[162, 67]

Un ensemble de concepts/catégories associé à la requête

Fusion des listes de résultats associées aux catégories/concepts de la requête

[121]

2.5 Conclusion

Nous avons présenté au cours de ce chapitre l’émergence de la RI contextuelle en abordant tout d’abord les fondements de la RI classique et ses limita- tions en présence du contexte, l’évolution de la RI classique à la RI adaptative jusqu’à l’orientation des travaux vers la RI contextuelle. En RI contextuelle, nous avons présenté les travaux portant sur l’accès contextuel à l’information guidé par le contexte de la tâche de recherche (en tant que informationnel, navigationnel ou transactionnel) et l’accès contextuel à l’information guidé par le profil utilisateur. Pour chacune de ces deux pistes de recherches, nous avons développé les techniques de construction et d’exploitation du contexte dans la chaîne d’accès à l’information.

Nous pouvons constater que les défis majeurs pour faire asseoir une personnalisation efficace dépendent du modèle de représentation du profil utilisateur, des mécanismes de dérivation et d’évolution du profil utilisateur au cours du temps. Ces éléments sont à la base de la différence de performance des SRI personnalisés. Compte tenu de ces éléments, l’évaluation de l’efficacité de la recherche personnalisée est aussi importante que l’évaluation de la qualité du profil appris par le système. Nous présentons dans le chapitre suivant l’émer- gence des cadres d’évaluation orientés-contexte dédiés à l’évaluation des SRI personnalisés.

Accès personnalisé à

l’information : de l’évaluation

orientée-laboratoire à l’évaluation

orientée-contexte

3.1 Introduction

L’évaluation d’un SRI consiste à mesurer ses performances et estimer sa ca- pacité à répondre aux besoins en information des utilisateurs. La performance ou la qualité d’un SRI est mesurée en comparant les réponses du système ren- voyés à l’utilisateur pour une requête donnée, aux réponses idéales que l’utilisateur espère recevoir.

Les premières approches d’évaluation des SRI sont basées sur une approche de type laboratoire où (laboratory-based model) initiée par Cleverdon [45] dans le cadre du projet Cranfield project II. Cette approche fournit des ressources de base pour l’évaluation d’un SRI, notamment une collection de requêtes, une collection de documents et des jugements de pertinence associés à chaque re- quête. Ce modèle est adopté dans les campagnes d’évaluation des SRI tels que TREC, INEX, etc.

L’orientation des modèles de RI vers une nouvelle génération des moteurs de recherche basés sur la RI contextuelle a remis en cause le modèle d’évaluation de Cranfield [175]. En effet, les limites de ce modèle d’évaluation sont princi- palement liées à la non implication du contexte de recherche, de l’utilisateur et ses interactions dans le protocole d’évaluation des systèmes de RI. Ces limites ont motivé les réflexions autour de méthodologies d’évaluation intégrant l’utilisateur dans le processus d’évaluation. Les pistes d’évaluation développées dans

ce sens concernent trois grandes tendances [175] : les initiatives de TREC dans les tâches interactives et HARD, les approches d’évaluation par simulation des contextes ou par utilisation des contextes réels (user studies) proposées pour l’évaluation des SRI personnalisés intégrant le profil utilisateur dans le processus d’accès à l’information.

Nous présentons dans ce chapitre un aperçu des différentes approches d’éva- luation des SRI. La section3.2décrit l’approche d’évaluation classique orientée- laboratoire basée sur le modèle de Cranfield. La section 3.3 décrit l’émergence des approches d’évaluation orientées-contexte où nous citons les objectifs de ces approches, les différentes tendances d’évaluation orientée-contexte ainsi que les mesures d’évaluation orientées-contexte. Les sections suivantes détaillent le principe de l’évaluation pour chacune des tendances d’évaluation citée. La section 3.4 décrit les premières tentatives d’évaluation orientées-contexte, notamment les tâches interactive et HARD de TREC. La section 3.5 traite de l’émergence des approches d’évaluation par simulation de contexte, et la section 3.6 décrit le principe de l’évaluation par utilisation des contextes réels (user studies). La dernière section conclut le chapitre.

Dans le document Accès personnalisé à l'information : approche basée sur l'utilisation d'un profil utilisateur sémantique dérivé d'une ontologie de domaines à travers l'historique des sessions de recherche (Page 91-98)