Approches de délimitation des sessions de re-

2.4 Accès contextuel à l’information guidé par le profil utilisateur

2.4.5 Évolution du profil utilisateur

2.4.5.3 Approches de délimitation des sessions de re-

L’évolution du profil utilisateur à court terme nécessite des techniques d’identification et de collecte des informations utiles et fortement liées aux activités de recherche courantes de l’utilisateur. Ces techniques se basent sou- vent sur des mécanismes de délimitation des sessions de recherche définies par un intervalle de temps [171] ou une séquence de requêtes liées à un même be- soin en information [178,161]. D’après [80], une session de recherche est définie par un groupe de requêtes soumises par un même utilisateur pour une même tâche de recherche. Sur un intervalle de temps, un utilisateur peut faire une ou plusieurs sessions de recherche. Dans le but de clustériser les sessions de recherche, plusieurs approches ont été introduites dans la littérature. Ces approches peuvent être classifiés en trois catégories : les approches basé-temps, les approches basé-contenu et les approches sémantiques.

Les approches basé temps

Les premières approches de clustérisation des sessions de recherche sont basées sur la spécification d’un intervalle de temps moyen pour une session, appelé Timeout [77]. Dans ce type d’approches, la session est définie par une séquence de requêtes telle que l’intervalle de temps séparant deux requêtes successives ne dépasse pas un certain seuil. L’analyse est faite sur deux fichiers logs et montre qu’un intervalle de temps entre 10 et 15 minutes est identifié comme le seuil optimal d’identification des sessions de recherche basé temps. Cette mé- thode souffre du problème de la spécification du meilleur intervalle de temps pour identifier une session. En effet, des utilisateurs différents peuvent avoir des comportements de navigation différents et l’intervalle de temps représen- tant le seuil d’identification des sessions peut être significativement différent. De même, cet intervalle peut varier entre les sessions de recherche pour un même utilisateur. D’autres approches dédiées à l’analyse des fichiers log des moteurs de recherche identifient les sessions par regroupement des données des utilisateurs sur la base de l’adresse IP, les cookies et un intervalle de temps optimal [88].

Une méthode d’identification transactionnelle appelé "reference length", est proposé dans [49]. Cette méthode assume que le temps de lecture d’une page est corrélé au fait que la page est une page de contenu ("content") qui intéresse l’utilisateur ou une page auxiliaire. Une nouvelle session est détectée à chaque détection d’une page "contenu". La limitation de cette méthode réside par le fait qu’un utilisateur peut s’intéresser à plus qu’une page "contenu" pour un même but de recherche.

Une autre méthode d’identification des sessions, appelée maximal forward reference, a été proposée dans [42]. Dans cette méthode, une session est définie sur un intervalle de temps par un ensemble de pages agrégées à partir de la première page visitée par l’utilisateur pour une séquence de requêtes jusqu’à ce qu’une page soit revisitée dans la session. La limite de cette méthode est qu’elle traite une session par un ensemble de pages durant un intervalle de temps sans considérer la séquence des clics sur les pages visitées. L’approche de clustérisation des sessions proposée dans [191] se base sur le principe de l’alignement séquentiel et prend en compte l’ordre des pages visitées dans une session dans le calcul de similarité des sessions.

Les approches basé-contenu

Ces approches sont basées sur des mesures de similarité textuelle qui se catégo- risent en des mesures basé mots clés ou phrases ou alors des mesures basées sur la distance d’édition des chaines de caractères entre deux requêtes successives [194].

Les mesures basées mots clés consistent à calculer le nombre de termes présents en commun entre deux requêtes successives p et q. Cette similarité est définie par la formule suivante :

où kn(.) est le nombre de termes présents dans une requête, kn(p, q) est le nombre de termes présents simultanément dans les deux requêtes p et q. Des dérivations de cette formule consistent à calculer une similarité où les termes de la requête sont pondérés et peut être étendue pour calculer une similarité plus précise entre les requêtes basée sur les phrases plutôt que des termes uniques. Dans cette approche étendue, l’unité élémentaire représentant partiellement la requête n’est plus un terme mais un ensemble de termes groupés selon des règles syntaxiques. Ceci augmente la similarité entre deux requêtes ayant une phrase en commun en réduisant le nombre des unités élémentaires (phrase) différentes. D’autres mesures consistent à calculer la distance d’édition des chaines de carac- tères entre deux requêtes successives [73]. Cette mesure est inversement pro- portionnelle au nombre d’éditions nécessaires (insertion, suppression, etc.) à unifier deux chaines de caractères (requêtes). La similarité entre deux requêtes p et q, est calculée selon la formule suivante :

similarityedit(p, q) = 1 − EditDistance(p, q) (2.6)

Les approches sémantiques

Ces approches sont basées sur des mesures de similarité sémantiques qui se ca- tégorisent en des mesures basées sur le feedback utilisateur [194] et des mesures basées sur l’information mutuelle [172].

Les mesures basées sur le feedback utilisateur [194] consistent à calculer le nombre de pages visitées en commun pour deux requêtes successives. L’intui- tion derrière cette mesure est que deux requêtes ayant des documents en commun visitées par l’utilisateur partagent le même sujet. Cette mesure permet de grouper des requêtes sémantiquement liées dans une même session. La mesure de similarité entre deux requêtes p et q, est calculée selon la formule suivante : similarityf eedback(p, q) = RD(p, q)/Max(rd(p), rd(q)) (2.7)

où RD est le nombre de documents cliqués communs entre les deux requêtes, rd(p) est le nombre de documents cliqués pour une requête p.

Une mesure de similarité plus élaborée dérivée de la mesure précédente est proposée dans [194] et a pour but d’intégrer en plus du feedback utilisateur, une distance conceptuelle entre les documents cliqués communs entre deux requêtes. La distance conceptuelle entre deux documents est calculée sur la base d’une hiérarchie de concepts (Encarta) dans laquelle chaque document de la collection est classifié dans le concept correspondant. Le système proposé dans [172] intègre une mesure de similarité sémantique qui consiste à calculer le nombre de documents indexés par les termes provenant des deux requêtes successives. Le but dans cette étude est de développer un SRI basé-session où le contexte est représenté par l’ensemble de requêtes et ses résultats associés dans une même session de recherche.

2.4.5.4 Synthèse des approches de modélisation du profil utilisateur

Dans le document Accès personnalisé à l'information : approche basée sur l'utilisation d'un profil utilisateur sémantique dérivé d'une ontologie de domaines à travers l'historique des sessions de recherche (Page 82-85)