• Aucun résultat trouvé

le contexte de la tˆache de recherche

Nous pr´esentons dans cette section quelques techniques d´evelopp´ees en RI contextuelle o`u l’accent est mis sur le contexte de la tˆache de recherche sur le Web. Plus pr´ecis´ement, nous abordons les points suivants :

le type de besoin derri`ere la requˆete en tant qu’informationnel, naviga-tionnel ou transacnaviga-tionnel,

– les diff´erentes techniques d’identification du contexte de la tˆache,

– les diff´erents mod`eles d’exploitation du contexte de la tˆache dans le pro-cessus de RI.

2.3.1 Cadre et motivations

Vu la diversit´e de la nature des tˆaches de recherche et les types de besoins derri`ere les requˆetes sur le Web, plusieurs ´etudes portent sur la taxonomie des requˆetes des utilisateurs en trois types : les requˆetes informationnelles associ´ees `a la recherche des ressources documentaires simple, les requˆetes navigation-nelles associ´ees `a la recherche des sites d’accueil des personnes ou organisation et les requˆetes transactionnelles associ´ees `a la recherche d’un service n´egoci´e via le Web. Le but fondamental de l’identification du type de besoin derri`ere la requˆete est de mettre en place des strat´egies et des mod`eles de recherche permettant d’exploiter des sources d’´evidence les plus appropri´ees au d´epistage de l’information pertinente `a chaque type de besoin.

Broder [32] et Rose et Levinson [150] ont distingu´e trois types des tˆaches, la tˆache navigationnelle, la tˆache informationnelle et la tˆache transactionnelle. Selon [32], la taxonomie des requˆetes a ´et´e effectu´ee selon deux m´ethodes :la premi`ere se base sur l’analyse du fichier log d’un moteur de recherche et la deuxi`eme se base sur les enquˆetes des utilisateurs. Les r´esultats montrent que plus de 30% des requˆetes sont transactionnelles et plus de 20% sont naviga-tionnelles et le reste est informationnel. L’identification des ces trois tˆaches de recherche est `a la base de l’´evolution des moteurs de recherche vers l’int´egration des mod`eles guid´es par la tˆache de recherche. Nous d´ecrivons cette ´evolution en fonction du type de la tˆache pris en compte par le mod`ele de recherche comme suit :

– La tˆache de recherche informationnelle est support´e classiquement par la premi`ere g´en´eration des moteurs de recherche d´evelopp´es autour de 1995-1997. Il s’agit de la RI classique qui utilise le contenu des docu-ments pour retrouver les r´eponses aux requˆetes des utilisateurs. On donne comme exemple de moteur de recherche appartenant `a cette g´en´eration AltaVista, Excite, WebCrawler, etc.

– La tˆache de recherche navigationnelle fait l’objet de la deuxi`eme g´en´eration des moteurs de recherche qui supporte des requˆetes de contenu ainsi que des requˆetes demandant des sites d’accueil. Il s’agit des mod`eles de re-cherche bas´es sur des algorithmes de calcul de pertinence des documents par utilisation des liens, textes d’ancrage et les donn´ees de clics. Les moteurs de recherche correspondants `a cette deuxi`eme g´en´eration sont d´evelopp´es en 1998-1999. Google a ´et´e le premier moteur de recherche

qui utilise l’analyse des hyperliens pour classer les r´esultats de recherche. DirectHit utilise les donn´ees de clics de navigation afin de r´epondre aux requˆetes navigationnelles.

– A ce jour, les moteurs de recherche visent `a supporter tout type de tˆache y compris la tˆache transactionnelle. Dans le but de r´epondre `a ce dernier type de tˆache, les mod`eles de recherche se basent sur l’analyse s´emantique de la requˆete ou la d´etermination d’un contexte en se basant sur des ser-veurs de climats (yahoo1), un serveur des cartes topographiques (Google maps2) ou `a l’identification des pages transactionnelles contenant des hy-perliens de tansactions [95] (r´eservation des hˆotels ou de vols, etc.).

2.3.2 Techniques d’identification du contexte de la tˆache

La nature de la tˆache est identifi´ee dans la plupart des ´etudes `a partir du contexte de la requˆete. En effet, l’identification du type de la tˆache derri`ere la requˆete se fait souvent par classification des requˆetes selon les trois types soit manuellement ou automatiquement. On traduit le type de la tˆache par le type de la requˆete.

L’identification automatique des types des requˆetes des utilisateurs sur le Web se fait principalement grˆace `a l’exploitation des comportements de clics pour chaque type de requˆete [114], des caract´eristiques linguistiques des termes de la requˆete ou des caract´eristiques li´ees `a la distribution des termes de la requˆete dans des hyperliens [96, 95].

Broder [32] et Rose et Levinson [150] adoptent une classification manuelle des requˆetes en exploitant les enquˆetes des utilisateurs et l’analyse des logs des requˆetes. La classification manuelle est faite `a l’aide d’une enquˆete de trois choix qui permettent de diff´erencier la requˆete de navigation de la requˆete d’information et se base sur le nombre de votes associ´es au type de la tˆache par les participants. Les r´esultats montrent que plus que 40% des requˆetes correspondent `a une tˆache de recherche tansactionnelle.

L’´etude dans [114] repose sur une identification automatique des requˆetes selon deux types informationnel et navigationnel sans aucune r´etroaction ex-plicite de la part de l’utilisateur et utilise deux caract´eristiques servant `a la classification qui sont les comportements de clics des utilisateurs et le taux d’utilisation des termes de la requˆete dans les textes des hyperliens. La distri-bution des clics d´esigne le nombre de clics accumul´es par les utilisateurs sur un r´esultat de recherche et le nombre moyen de r´esultats cliqu´es pour une requˆete. La distribution des liens d’ancrage se base sur les pages cibles des liens qui ont un texte d’ancrage similaire aux termes de la requˆete. Cette ´etude se termine

1weather.yahoo.com

par une ´evaluation des caract´eristiques d´ej`a cit´ees dans la pr´ediction du type de la requˆete.

Dans ce mˆeme cadre [96] propose une m´ethode de classification des requˆetes en deux types : navigationnelle et informationnelle. La classification est bas´ee sur les param`etres suivants :

– Distribution des termes dans la requˆete dans les pages navigationnelles et informationnelles,

– Information mutuelle de chaque terme de la requˆete,

– Taux d’utilisation des termes de la requˆete dans les textes d’ancrages, – Information POS (Part of speech tags)

Cette classification est utilis´ee pour choisir l’algorithme d’appariement le plus appropri´e pour chaque type de tˆache et ´etudie l’effet sur la performance du syst`eme de recherche.

En outre, [95] ´etend la m´ethode de classification des requˆetes web propos´ee dans [96] pour d´etecter les requˆetes transactionnelles. Puisque la transaction n´egoci´ee via le Web est habituellement mise en application par des hyperliens, 9 types d’hyperliens sont d´efinis pour libeller les textes d’ancrage associ´es suivant l’action pr´evue avec l’objet (lire, visiter et t´el´echarger). La classification est effectu´ee `a l’aide du classifieur TiMBL `a base d’expressions qui accepte en entr´ee un vecteur de caract´eristiques de la requˆete et l’associe `a une classe en utilisant des exemples de classification stock´ees au pr´ealable utilis´es pour la d´ecision. Le vecteur des caract´eristiques de la requˆete concerne le type de la requˆete (informationnelle ou navigationnelle selon [96]), un champ indiquant si la requˆete repr´esente un nom de fichier, le premier terme de la requˆete, le dernier terme de la requˆete, un vecteur de scores calcul´es entre la requˆete et chacun des types d’hyperliens identifi´es. L’exactitude de la m´ethode de classification de requˆetes propos´ee est ´evalu´ee par de diverses exp´eriences et celles-ci montrent une am´elioration de 91% de classification des requˆetes transactionnelles.

2.3.3 Techniques d’exploitation du contexte de la tˆache

de recherche dans le processus de RI

L’exploitation du contexte de la tˆache de recherche en RI se fait par l’iden-tification des sources d’´evidences les plus pertinentes `a chaque type de tˆache dans le but d’am´eliorer la pr´ecision de recherche.

L’objectif fondamental de la classification des requˆetes selon le type de re-cherche (informationnel, navigationnel et transactionnel) est de retourner des pages Web correspondantes au type de recherche derri`ere la requˆete en haut de la liste de r´esultats retourn´es. L’am´elioration de la pr´ecision de recherche des requˆetes informationnelles se basent sur le contenu textuel du document [96]. Tandis que la pr´ecision de recherche des requˆetes navigationnelles et tran-sactionnelles est bas´e sur l’exploitation des hyperliens et les textes d’ancrage

des pages Web dans lesquels les termes de ces deux types de requˆetes sont fr´equemment occurrents.

Pour les requˆetes navigationnelles, la combinaison des informations de liens de la page web (PageRank) et des informations d’URL tels que la probabilit´e a priori du document de se classer comme une page d’accueil (UrlPrior ) am´eliore la pr´ecision de le recherche pour la requˆete navigationnelle [96].

Des approches en RI utilisent la mˆeme m´ethodologie d’ordonnancement des r´esultats de recherche pour la requˆete navigationnelle que pour la requˆete transactionnelle [86]. L’approche est bas´ee sur une repr´esentation multiple de la page Web : la premi`ere repr´esentation est bas´ee sur le contenu textuel de la page, la deuxi`eme repr´esentation est bas´ee sur tous les textes d’ancrage et les textes encadr´es par les balises TITLE dans les pages pointant vers la page courante. La troisi`eme repr´esentation est bas´ee sur les textes encadr´es par les balises TITLE, H1 et BIG des pages pointant vers la page courante. Ensuite, le mod`ele de recherche s’appuie sur la combinaison pond´er´ee des scores du document obtenus par chaque repr´esentation. Ceci permet de d´epister les pages d’accueil et les services en ligne. Les r´esultats de recherche peuvent ˆetre am´elior´es `a condition que le type de recherche soit connu au pr´ealable.

L’approche de classification des requˆetes selon le type de recherche d´evelopp´ee dans [95] ajoute au score d’appariement original du document, un score de ser-vice calcul´e selon le nombre d’hyperliens de type serser-vice disponibles dans le document. Alors que dans [120], l’am´elioration de la pr´ecision de recherche pour une requˆete transactionnelle est effectu´ee par le calcul d’une probabi-lit´e a priori de la page en tant que page transactionnelle bas´ee sur l’existence des caract´eristiques transactionnelles telles que des hyperliens ayant des textes d’ancrage contenant des verbes transactionnels tels que buy, download etc. Dans [95], trois algorithmes d’appariement sont utilis´es pour les trois types de requˆetes. L’algorithme OKAPI [160] est appliqu´e pour les requˆetes informa-tionnelles. Pour les requˆetes navigationnelles, l’algorithme PageRank et l’in-formation des URL sont combin´es avec le score OKAPI. Pour les requˆetes transactionnelles, l’information des hyperliens de services est combin´ee avec le score OKAPI.