• Aucun résultat trouvé

contexte de la tâche de recherche

Nous présentons dans cette section quelques techniques développées en RI contextuelle où l’accent est mis sur le contexte de la tâche de recherche sur le Web. Plus précisément, nous abordons les points suivants :

– Le cadre et les motivations de la taxonomie des tâches de recherche selon le type de besoin derrière la requête en tant qu’informationnel, naviga- tionnel ou transactionnel,

– les différents modèles d’exploitation du contexte de la tâche dans le pro- cessus de RI.

2.3.1 Cadre et motivations

Vu la diversité de la nature des tâches de recherche et les types de besoins derrière les requêtes sur le Web, plusieurs études portent sur la taxonomie des requêtes des utilisateurs en trois types : les requêtes informationnelles associées à la recherche des ressources documentaires simple, les requêtes navigation- nelles associées à la recherche des sites d’accueil des personnes ou organisation et les requêtes transactionnelles associées à la recherche d’un service négocié via le Web. Le but fondamental de l’identification du type de besoin derrière la requête est de mettre en place des stratégies et des modèles de recherche permettant d’exploiter des sources d’évidence les plus appropriées au dépistage de l’information pertinente à chaque type de besoin.

Broder [32] et Rose et Levinson [148] ont distingué trois types des tâches, la tâche navigationnelle, la tâche informationnelle et la tâche transactionnelle. Selon [32], la taxonomie des requêtes a été effectuée selon deux méthodes :la première se base sur l’analyse du fichier log d’un moteur de recherche et la deuxième se base sur les enquêtes des utilisateurs. Les résultats montrent que plus de 30% des requêtes sont transactionnelles et plus de 20% sont naviga- tionnelles et le reste est informationnel. L’identification des ces trois tâches de recherche est à la base de l’évolution des moteurs de recherche vers l’intégration des modèles guidés par la tâche de recherche. Nous décrivons cette évolution en fonction du type de la tâche pris en compte par le modèle de recherche comme suit :

– La tâche de recherche informationnelle est supporté classiquement par la première génération des moteurs de recherche développés autour de 1995-1997. Il s’agit de la RI classique qui utilise le contenu des docu- ments pour retrouver les réponses aux requêtes des utilisateurs. On donne comme exemple de moteur de recherche appartenant à cette génération AltaVista, Excite, WebCrawler, etc.

– La tâche de recherche navigationnelle fait l’objet de la deuxième géné- ration des moteurs de recherche qui supporte des requêtes de contenu ainsi que des requêtes demandant des sites d’accueil. Il s’agit des mo- dèles de recherche basés sur des algorithmes de calcul de pertinence des documents par utilisation des liens, textes d’ancrage et les données de clics. Les moteurs de recherche correspondants à cette deuxième géné- ration sont développés en 1998-1999. Google a été le premier moteur de recherche qui utilise l’analyse des hyperliens pour classer les résultats de recherche. DirectHit utilise les données de clics de navigation afin de répondre aux requêtes navigationnelles.

– A ce jour, les moteurs de recherche visent à supporter tout type de tâche y compris la tâche transactionnelle. Dans le but de répondre à ce dernier type de tâche, les modèles de recherche se basent sur l’analyse séman- tique de la requête ou la détermination d’un contexte en se basant sur des serveurs de climats (yahoo 1), un serveur des cartes topographiques

(Google maps2) ou à l’identification des pages transactionnelles contenant

des hyperliens de tansactions [94] (réservation des hôtels ou de vols, etc.).

2.3.2 Techniques d’identification du contexte de la tâche

La nature de la tâche est identifiée dans la plupart des études à partir du contexte de la requête. En effet, l’identification du type de la tâche derrière la requête se fait souvent par classification des requêtes selon les trois types soit manuellement ou automatiquement. On traduit le type de la tâche par le type de la requête.

L’identification automatique des types des requêtes des utilisateurs sur le Web se fait principalement grâce à l’exploitation des comportements de clics pour chaque type de requête [112], des caractéristiques linguistiques des termes de la requête ou des caractéristiques liées à la distribution des termes de la requête dans des hyperliens [95, 94].

Broder [32] et Rose et Levinson [148] adoptent une classification manuelle des requêtes en exploitant les enquêtes des utilisateurs et l’analyse des logs des requêtes. La classification manuelle est faite à l’aide d’une enquête de trois choix qui permettent de différencier la requête de navigation de la requête d’information et se base sur le nombre de votes associés au type de la tâche par les participants. Les résultats montrent que plus que 40% des requêtes correspondent à une tâche de recherche tansactionnelle.

L’étude dans [112] repose sur une identification automatique des requêtes selon deux types informationnel et navigationnel sans aucune rétroaction ex- plicite de la part de l’utilisateur et utilise deux caractéristiques servant à la classification qui sont les comportements de clics des utilisateurs et le taux d’utilisation des termes de la requête dans les textes des hyperliens. La distri- bution des clics désigne le nombre de clics accumulés par les utilisateurs sur un résultat de recherche et le nombre moyen de résultats cliqués pour une requête. La distribution des liens d’ancrage se base sur les pages cibles des liens qui ont un texte d’ancrage similaire aux termes de la requête. Cette étude se termine par une évaluation des caractéristiques déjà citées dans la prédiction du type de la requête.

Dans ce même cadre [95] propose une méthode de classification des requêtes en

1weather.yahoo.com 2maps.google.com

deux types : navigationnelle et informationnelle. La classification est basée sur les paramètres suivants :

– Distribution des termes dans la requête dans les pages navigationnelles et informationnelles,

– Information mutuelle de chaque terme de la requête,

– Taux d’utilisation des termes de la requête dans les textes d’ancrages, – Information POS (Part of speech tags)

Cette classification est utilisée pour choisir l’algorithme d’appariement le plus approprié pour chaque type de tâche et étudie l’effet sur la performance du système de recherche.

En outre, [94] étend la méthode de classification des requêtes web proposée dans [95] pour détecter les requêtes transactionnelles. Puisque la transaction négociée via le Web est habituellement mise en application par des hyperliens, 9 types d’hyperliens sont définis pour libeller les textes d’ancrage associés suivant l’action prévue avec l’objet (lire, visiter et télécharger). La classification est effectuée à l’aide du classifieur TiMBL à base d’expressions qui accepte en entrée un vecteur de caractéristiques de la requête et l’associe à une classe en utilisant des exemples de classification stockées au préalable utilisés pour la décision. Le vecteur des caractéristiques de la requête concerne le type de la requête (informationnelle ou navigationnelle selon [95]), un champ indiquant si la requête représente un nom de fichier, le premier terme de la requête, le dernier terme de la requête, un vecteur de scores calculés entre la requête et chacun des types d’hyperliens identifiés. L’exactitude de la méthode de classification de requêtes proposée est évaluée par de diverses expériences et celles-ci montrent une amélioration de 91% de classification des requêtes transactionnelles.

2.3.3 Techniques d’exploitation du contexte de la tâche

de recherche dans le processus de RI

L’exploitation du contexte de la tâche de recherche en RI se fait par l’iden- tification des sources d’évidences les plus pertinentes à chaque type de tâche dans le but d’améliorer la précision de recherche.

L’objectif fondamental de la classification des requêtes selon le type de re- cherche (informationnel, navigationnel et transactionnel) est de retourner des pages Web correspondantes au type de recherche derrière la requête en haut de la liste de résultats retournés. L’amélioration de la précision de recherche des requêtes informationnelles se basent sur le contenu textuel du document [95]. Tandis que la précision de recherche des requêtes navigationnelles et tran- sactionnelles est basé sur l’exploitation des hyperliens et les textes d’ancrage des pages Web dans lesquels les termes de ces deux types de requêtes sont fréquemment occurrents.

Pour les requêtes navigationnelles, la combinaison des informations de liens de la page web (PageRank) et des informations d’URL tels que la probabilité a priori du document de se classer comme une page d’accueil (UrlPrior ) améliore la précision de le recherche pour la requête navigationnelle [95].

Des approches en RI utilisent la même méthodologie d’ordonnancement des résultats de recherche pour la requête navigationnelle que pour la requête transactionnelle [85]. L’approche est basée sur une représentation multiple de la page Web : la première représentation est basée sur le contenu textuel de la page, la deuxième représentation est basée sur tous les textes d’ancrage et les textes encadrés par les balises TITLE dans les pages pointant vers la page courante. La troisième représentation est basée sur les textes encadrés par les balises TITLE, H1 et BIG des pages pointant vers la page courante. Ensuite, le modèle de recherche s’appuie sur la combinaison pondérée des scores du document obtenus par chaque représentation. Ceci permet de dépister les pages d’accueil et les services en ligne. Les résultats de recherche peuvent être améliorés à condition que le type de recherche soit connu au préalable.

L’approche de classification des requêtes selon le type de recherche déve- loppée dans [94] ajoute au score d’appariement original du document, un score de service calculé selon le nombre d’hyperliens de type service disponibles dans le document. Alors que dans [118], l’amélioration de la précision de recherche pour une requête transactionnelle est effectuée par le calcul d’une probabi- lité a priori de la page en tant que page transactionnelle basée sur l’existence des caractéristiques transactionnelles telles que des hyperliens ayant des textes d’ancrage contenant des verbes transactionnels tels que buy, download etc. Dans [94], trois algorithmes d’appariement sont utilisés pour les trois types de requêtes. L’algorithme OKAPI [158] est appliqué pour les requêtes informa- tionnelles. Pour les requêtes navigationnelles, l’algorithme PageRank et l’in- formation des URL sont combinés avec le score OKAPI. Pour les requêtes transactionnelles, l’information des hyperliens de services est combinée avec le score OKAPI.