• Aucun résultat trouvé

Les requêtes adressées à des moteurs de recherche Web

(b) le moteur de recherche tente-t-il de cerner le besoin d’information ? (c) si oui, comment procède-t-il ?

Dans la section suivante, nous analyserons des travaux de chercheurs ayant examiné des corpus importants de requêtes adressées à des moteurs de recherche Web. Nous verrons l’apport et les limites de ces travaux.

2.2 Les requêtes adressées à des moteurs de recherche Web

Les articles dont nous discutons, appartiennent au courant « analyse des tactiques et straté-gies de recherche mises en œuvre par les usagers » identifié par Ihadjadene et Chaudiron [Ihadja-dene et Chaudiron, 2008]. Les chercheurs de ce courant déclarent s’intéresser au comportement des usagers et orientent leurs analyses sur les sessions5, les modes de recherche utilisés (simple ou avancé), les requêtes et les résultats visualisés.

De nombreux travaux appartenant à ce courant ont été réalisés : [Silverstein et al., 1999], [Ross et Wolfram, 2000], [Jansen et al., 1998], [Spink et al., 2001], [Jansen et Spink, 2006], [Wolfram et al., 2001], [Rieh et Xie, 2006], [Chau et al., 2007]... Ils sont fondés majoritaire-ment sur l’analyse de logs des moteurs de recherche et utilisent, le plus souvent, une approche quantitative. Ils proposent un aperçu des usages des moteurs de recherche Web.

Avant de présenter certains de leurs résultats en lien avec la formulation/reformulation des requêtes, nous discuterons des difficultés que leurs auteurs rencontrent pour définir, d’une part, un terme dans les logs de recherche, et d’autre part, une session.

5. La session, selon nous, correspond à une ou plusieurs requête(s) adressée(s) au moteur de recherche Web, afin de réaliser une tâche donnée. Nous verrons plus loin que les chercheurs ayant travaillé sur l’analyse de logs de requêtes ne tiennent pas compte de la tâche pour déterminer la session. Nous verrons comment ce terme pose problème dans le cadre de ces travaux.

CHAPITRE2 : L’incomplétude dans la requête : effet d’étiquetage et implicite

2.2 Les requêtes adressées à des moteurs de recherche Web

2.2.1 Difficulté à définir ce qu’est un « terme » dans les requêtes extraites

de logs de moteurs de recherche

Selon Spink, Wolfram, Jansen et Saracevic [Spink et al., 2001] (p. 227)6 les mesures em-ployées dans le cadre de l’analyse des logs ne sont pas standardisées et diffèrent selon les études. Un des problèmes que ces chercheurs rencontrent est la définition de ce qu’est un « terme » dans une requête. Les logs collectés comportent un nombre important de données (mots, URLs, en-semble de caractères et de symboles...) et les chercheurs se questionnent sur ce qu’ils doivent considérer comme un « terme » dans une requête et donc, prendre en compte dans leurs mesures.

2.2.2 Au niveau de l’activité de recherche de l’usager : difficultés à définir

la session

Les résultats sur les sessions, dans ces études, sont discutables. Les chercheurs se trouvent dans l’impossibilité de reconstruire la session de recherche réelle de l’usager. Souhaitant construire du sens qui a été perdu, ils créent artificiellement des sessions de recherche.

Chau, Fang et Yang [Chau et al., 2007] (p. 1048)7considèrent que chaque adresse IP (Internet Protocol) représente un seul usager. Ils fixent arbitrairement la durée des sessions à 30 minutes. Ainsi, l’ensemble des requêtes saisies dans les 30 minutes, à partir d’une même adresse IP, ap-partient à la même session. Si l’usager venait à saisir une autre requête après la fin du temps imparti, elle serait affectée à une autre session. Dans cet exemple, la session de 30 minutes n’est pas justifiée. Sur quels critères décider de la limiter à 30 minutes ? Quelle est la logique de calculer le nombre de requêtes par session, si cette durée est artificielle et ne correspond pas à

6. « The metrics are not standardized ; they are not necessarily the same. The basic problem starts with defining what is a “term” in a Web query. The public enters queries and the raw data are very messy. A term can be anything from words to Uniform Resource Locators (URLs) to any set of characters and symbols ; a query can even be empty no terms, and as in the Alta Vista study a term can also be a field-value designator. What is included and excluded as being a “term” effect the counts. » [Spink et al., 2001] (p. 227)

7. « To identify sessions for each IP address (each user), we used a cutoff of 30 min. If a user submitted a query within 30 min from the previous query, these queries would be included in the same session. Otherwise, the second query would be considered the start of a new session. » [Chau et al., 2007] (p. 1048)

CHAPITRE2 : L’incomplétude dans la requête : effet d’étiquetage et implicite

2.2 Les requêtes adressées à des moteurs de recherche Web

la session de recherche réelle de l’usager sur le Web ? Cette difficulté à définir une session est rencontrée dans d’autres études de ce courant [Jansen et Spink, 2006] (p. 254).

2.2.3 Apports concernant la formulation/reformulation des requêtes

Jansen et Spink [Jansen et Spink, 2006] présentent une comparaison à partir de neuf études sur l’analyse de logs de moteurs de recherche européens et américains. Ils montrent qu’il n’existe pas de différence significative dans le nombre des requêtes composées d’un seul terme8:

– celui-ci est resté stable sur la période allant de 1997 à 2002 et se situait entre 20% et 29% dans les logs des moteurs de recherche américains,

– et entre 25% et 35% dans les logs de moteurs de recherche européens.

En outre, selon Spink et al. [Spink et al., 2001] (p. 230), 31,5% des requêtes sont composées de trois termes. Quant à la moyenne de termes par requête, elle est de 2,35 [Silverstein et al., 1999] (p. 8).

Concernant la reformulation de requêtes, Rieh et Xie [Rieh et Xie, 2006] ont analysé des reformulations de requêtes sur le Web à partir de logs du moteur de recherche Excite. Ils ont constaté la présence de trois catégories de reformulations distinctes dans les données analysées : 1- content : l’usager apporte un changement dans le sens de la requête (exemple : spécification, généralisation) ; 2- format : l’usager n’altère pas le sens de la requête, mais corrige l’ortho-graphe, revoit l’ordre des mots, ajoute des opérateurs... 3- resource : l’usager apporte des chan-gements au niveau du type de ressources d’information (ajoute ou enlève des termes comme : actualité, image, MP3...) ou apporte des changements au niveau du nom du domaine (ajoute ou enlève /.com/, /.fr/...). 80,3% du total des requêtes reformulées appartiennent à la catégorie content, 14,4% appartiennent à la catégorie format, 2,8% appartiennent à la catégorie ressources et 2,5% des requêtes reformulées n’ont pas été définies. On constate que la reformulation porte majoritairement sur le sens de la requête.

8. La même tendance a été observée dans d’autres travaux [Spink et al., 2001] et [Jansen et al., 1998] qui n’étaient pas inclus dans cette étude

CHAPITRE2 : L’incomplétude dans la requête : effet d’étiquetage et implicite

2.2 Les requêtes adressées à des moteurs de recherche Web

Constats

Ces travaux rendent compte de certains usages des moteurs de recherche par les internautes. Ils observent certaines tendances : la majorité des requêtes Web sont courtes, ne sont pas beau-coup modifiées, comportent une structure simple et peu d’opérateurs (usage des opérateurs gé-néralement non maîtrisé). Le nombre de requêtes ne comportant qu’un terme est élevé9. Une requête uni-terme ouvre la voie à de nombreuses interprétations et à un contenu non verbalisé important. En faisant le lien avec le label effect, nous retrouvons une formulation brève de la re-quête. Les usagers des moteurs de recherche généralistes semblent sélectionner les termes qu’ils emploient dans leurs requêtes et ne communiquent finalement qu’assez peu d’éléments sur leur besoin d’information. Néanmoins, il faut également prendre un peu de recul par rapport aux informations apportées par ces travaux, nous soulignons notamment :

1. que la moyenne de termes par requête de 2,35 [Silverstein et al., 1999] (p. 8) attire l’atten-tion sur le nombre réduit de termes par requête, mais ne nous informe pas sur les requêtes composées de plusieurs termes. Est-ce que l’ensemble des usagers formule des requêtes courtes ? Certaines tâches et caractéristiques des usagers peuvent-elles amener à la for-mulation de requêtes plus longues (des requêtes qui ne peuvent être représentées par une moyenne) ?

2. l’impossibilité de remonter à l’intention de recherche de l’usager et donc l’impossibilité de mesurer l’écart entre ce qui est formulé et ce qui reste implicite.

Nous venons d’évoquer ci-dessus l’impossibilité pour les chercheurs ayant analysé des logs de remonter à l’intention de l’usager, mais il existe d’autres travaux où cette problématique a fait l’objet d’analyses spécifiques. Ces travaux ont porté sur cette intention absente dans la formulation de la requête. Leurs auteurs ont tenté d’assigner une intention de recherche à partir de la requête. Connaître l’intention cachée derrière une requête formulée représenterait un enjeu important pour les usagers, mais aussi pour les concepteurs de moteurs de recherche. Dans la section suivante, nous verrons comment ces travaux tentent de rétablir un pont manquant en

CHAPITRE2 : L’incomplétude dans la requête : effet d’étiquetage et implicite