• Aucun résultat trouvé

2.4 Accès contextuel à l’information guidé par le profil utilisateur

2.4.4 Représentation et construction du profil utilisateur

2.4.4.1 Acquisition et collecte des sources d’information

2.4.4.2.2 Représentation ensembliste

clés) pondérés représentés souvent selon le modèle vectoriel de Salton [156]. Ce type de représentation est le premier conçu pour modéliser le profil utilisateur. Les paquets de termes traduisent les centres d’intérêts de l’utilisateur. Le poids d’un terme est souvent calculé selon le schéma TF*IDF communément utilisé en RI [156] et représente le degré d’intérêt de l’utilisateur dans le profil. Nous citons trois sous-modèles de représentation ensemblistes du profil utilisateur : un ensemble de termes pondérés où chaque terme représente un centre d’intérêt possible de l’utilisateur, un vecteur de termes pondérés représentant un centre

http://www.google.com/psearch

Fig. 2.4 – L’historique de recherche utilisé dans Google psearch

d’intérêt [120] ou un ensemble des vecteurs de termes pondérés dont chacun représente un centre d’intérêt [69, 163].

La construction d’un profil ensembliste repose sur des techniques d’extraction des termes à partir des documents pertinents, jugés implicitement ou explicite- ment par l’utilisateur. Plusieurs systèmes d’accès personnalisé à l’information adoptent ce type de représentation. Tel est le cas des portails web tels que MyYahoo, InfoQuest, Anatagonomy qui est un système personnalisé de consul- tation de nouvelles et de journaux en ligne [151], Fab [20] un système de re- commandation de page web, Letizia [119], un système d’aide à la navigation, et Syskill &Webert [137] un système de recommandation, etc. Google’s Alerts re- présente le profil utilisateur par une requête appelée routing query pour laquelle le système renvoie à l’utilisateur des informations par email à partir du Web et des sites des News. Le moteur de recherche le plus concurrent sur le Web ya- hoo contextual search (Y !Q) tient en compte un besoin de l’utilisateur à court terme représenté par un ensemble de termes issus d’un texte/paragraphe sélec- tionné à partir de la page en cours de lecture. Google personalized search dans sa version 1.1, représente un profil utilisateur par un ensemble de catégories re- présentés chacune par un terme ou un ensemble de termes saisis explicitement par l’utilisateur et utilisés dans l’amélioration de toute requête.

Dans les systèmes cités précédemment, l’utilisateur est modélisé par un mono-profil contenant un seul centre d’intérêt. Vu que l’utilisateur peut avoir plusieurs centres d’intérêts lors de sa recherche, plusieurs SRI personnalisés [69, 201] adoptent une représentation du profil basé sur un ensemble des vec- teurs de termes traduisant des centres d’intérêts multiples de l’utilisateur.

Parmi les systèmes ayant une représentation ensembliste du profil, nous ci- tons les systèmes WebMate [41] et Alipes [197]. Dans WebMate [41], le profil est représenté par N vecteurs multiples, un par domaine d’intérêt où N est le nombre des centres d’intérêts dans le profil. Les vecteurs des N premiers docu- ments, jugés pertinents, sont utilisés pour représenter les N centres d’intérêts. La construction du profil est basée ensuite sur la classification d’une nouvelle page web consultée par l’utilisateur dans le centres d’intérêts le plus similaires selon la mesure cosinus par combinaison des poids des termes.

Par opposition au nombre fixé au préalable de centres d’intérêts par profil dans WebMate, le système Alipes [197] crée des nouveaux centres si la similarité entre un nouveau document à classifier dans des centres d’intérêts déjà créés est toujours inférieure à un seuil de similitude prédéterminé. Si la similitude excède un seuil, le vecteur de document est combiné avec le centre d’intérêt le plus proche.

Dans WebPersonae [69], le profil utilisateur consiste en des centres d’intérêts représentés chacun par un vecteur de termes pondérés. Les documents jugés pertinents implicitement par l’utilisateur sont représentés par des vecteurs de termes pondérés selon le schéma de pondération classique TF*IDF, et subissent une technique de catégorisation basée sur l’algorithme k-means afin d’obtenir des classes ou groupes des documents. Le poids d’un terme dans un centre d’intérêt (représenté par un vecteur centroîde d’une classe) est calculé comme la moyenne de son poids dans l’ensemble de documents classifiés dans la classe représentant ce centre d’intérêt. L’ensemble des vecteurs centroides des classes obtenus constituent le profil à long terme de l’utilisateur. Ce système initialise le profil à court terme par comparaison aux centres d’intérêts déjà appris. En effet, les dernières pages visitées par l’utilisateur sont concaténées pour créer un vecteur de termes pondérés V . Le profil utilisateur à court terme est initialisé par le centre d’intérêt qui excède un seuil de similarité prédéterminé avec le vecteur V qui représente les activités de recherche courantes de l’utilisateur.

L’approche dans [201] se base sur une représentation vectorielle par mots clés pondérés des centres d’intérêts de l’utilisateur. L’approche de base consiste à représenter dans un premier temps la session de recherche selon une matrice document-termes avec leur poids associés, où les documents sont ceux jugés pertinents par l’utilisateur de manière implicite. Le coefficient d’importance d’un terme t dans un document d à l’instant s noté CP Ts(t, d) est défini comme

suit : CP Ts(t, d) = w(t,d) dl ∗ X t′6=t,t∈T (Rs u) EMIM(t, t′) (2.1) w(t,d) est le poids du terme t dans le document d calculé selon le schéma clas-

sique T F ⋆ IDF , dl est la longueur du document d, EMIM(t, t′) est le degré

de corrélation entre les termes t et t′ quantifié à l’aide de la mesure EMIM (Ex-

documents jugés pertinents par l’utilisateur à partir des sessions de recherche précédentes.

L’historique d’interactions de l’utilisateur est représenté par une matrice ob- tenue par agrégation des matrices des sessions de recherche précédentes. A partir de la matrice d’interaction, un vecteur de termes pondérés représentant le contexte courant est ainsi extrait, appelé contexte d’usage, et représente le centre d’intérêt courant de l’utilisateur. Les contextes d’usages construits sur plusieurs sessions de recherche définissent le profil utilisateur à long terme.

La représentation ensembliste du profil utilisateur apporte l’avantage de la simplicité de mise en œuvre. Cependant, même si les modèles de représentation ensembliste permettent de traduire une multiplicité des centres d’intérêts de l’utilisateur, cette représentation manque de structuration, de cohérence, des niveaux de généralité/spécificité et des relations de corrélation entre les divers centres d’intérêts de l’utilisateur.

2.4.4.2.3 Représentation connexionniste La représentation connexion-