• Aucun résultat trouvé

L'implicite dans la requête adressée à un moteur de recherche Web

N/A
N/A
Protected

Academic year: 2021

Partager "L'implicite dans la requête adressée à un moteur de recherche Web"

Copied!
389
0
0

Texte intégral

(1)

HAL Id: tel-01177892

https://tel.archives-ouvertes.fr/tel-01177892

Submitted on 17 Jul 2015

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de

L’implicite dans la requête adressée à un moteur de

recherche Web

Talal Zouhri

To cite this version:

Talal Zouhri. L’implicite dans la requête adressée à un moteur de recherche Web. Recherche d’information [cs.IR]. Université Claude Bernard - Lyon I, 2013. Français. �NNT : 2013LYO10125�. �tel-01177892�

(2)

Nod’ordre 125 - 2013 Année 2013

THÈSE DE L’UNIVERSITÉ DE LYON Délivrée par

L’UNIVERSITÉ CLAUDE BERNARD LYON 1

ÉCOLE DOCTORALE ÉDUCATION PSYCHOLOGIE INFORMATION ET COMMUNICATION

DIPLÔME DE DOCTORAT EN SCIENCES DE L’INFORMATION ET DE LA COMMUNICATION

(arrêté du 7 août 2006)

soutenue publiquement le 4 juillet 2013 par Talal ZOUHRI

L’implicite dans la requête adressée à un moteur de recherche Web

Directrice de thèse

Geneviève LALLICH-BOIDIN, Professeure JURY

Mme Brigitte SIMONNOT Université Paul Verlaine – Metz Rapportrice

M. Madjid IHADJADENE Université Paris 8 Rapporteur

Mme Céline PAGANELLI Université Paul Valéry - Montpellier III Examinatrice

Mme Françoise POYET Université Claude Bernard Lyon 1- IUFM Examinatrice

Mme Geneviève LALLICH-BOIDIN Université Claude Bernard Lyon I Directrice de thèse

(3)

Remerciements

Je voudrais exprimer toute ma reconnaissance à Madame Geneviève Lallich-Boidin pour la qualité de l’encadrement dont j’ai pu bénéficier. Je la remercie pour son soutien, sa grande disponibilité durant ces six années. Elle a été pour moi source de savoirs et de motivation.

J’aimerais exprimer toute ma gratitude à Monsieur Thierry Lafouge pour ses conseils et l’intérêt qu’il m’a porté tout au long de cette thèse.

Je tiens à remercier,

Madame Brigitte Simonnot pour l’intérêt qu’elle a bien voulu porter à ce travail en acceptant d’en être rapportrice ;

Monsieur Madjid Ihadjadene pour l’intérêt qu’il a bien voulu porter à ce travail en acceptant d’en être rapporteur.

Je remercie très chaleureusement l’équipe ELICO pour les échanges constructifs lors des sémi-naires.

Je remercie,

Madame Stéphanie Pouchot et Madame Evelyne Mounier pour leur perspicacité, leur sens critique éclairé et le temps passé à lire et corriger ce manuscrit ;

Monsieur Jean-Marc Francony, Madame Fidelia Ibekwe-SanJuan et Madame Agnieszka Smolczewska Tona pour leurs encouragements et conseils.

Je remercie également mes amis Céline Brun-Picard, Jean-Philippe D’Erceville, Bruno El-Sayah et Emilie Mondoloni pour leur attention, gentillesse et encouragements.

(4)

Résumé

L’objet de notre étude est la requête adressée à un moteur de recherche Web par un usager dans le cadre d’une recherche d’information. Nous souhaitons mieux comprendre l’étape de la recherche d’information située entre le besoin d’information et la formulation/reformulation de la requête.

Notre thèse est articulée autour de deux hypothèses de recherche. D’abord, nous avons émis l’hypothèse qu’une requête adressée à un moteur de recherche Web peut receler de l’implicite. Ensuite, nous avons considéré que ce contenu implicite peut être utilisé par les usagers dans des tactiques de formulation/reformulation de la requête.

Nous avons notamment analysé le discours de 61 étudiants que nous avons interrogés sur leur intention de recherche. Ce discours était principalement constitué d’un niveau sémantique (qui décrit le thème de la recherche) et d’un niveau pragmatique (compose d’un but seul ou d’un but et d’un ou plusieurs sous-but(s)). Les termes représentant le niveau sémantique pouvaient être complètement ou partiellement formulés dans la requête, mais ceux représentant le niveau pragmatique n’étaient généralement pas formulés.

Cette situation de communication s’apparente à une négociation entre le moteur de recherche et l’usager. Le moteur de recherche tente de disposer d’éléments sur le besoin d’information de l’usager et ce dernier tente d’obtenir, à partir d’un contenu explicitement formulé dans sa requête, un ensemble d’information afin de progresser sur la résolution de son problème.

Mots clés : besoin d’information, implicite, but, requête, moteur de recherche Web, recherche d’information

(5)

Abstract

The object of our study is the query, sent to a Web search engine, by an Internet user. We aim to reach a better understanding of the phase of information seeking located between the information need and the query formulation.

Our thesis is based on two core hypotheses, all related to the query. Firstly, we considered that the query expressed partially the user’s information need and therefore contain an implicit part. Secondly, we also considered that the implicit part can be used by the users in their query formulation tactics.

We notably analysed 61 students’ speech about their search intent. The speech was based mainly on a semantic level (the terms representing the topic of the research) and a pragmatic level (composed of an only purpose or a purpose and of many under purposes). The terms re-presenting the semantic level could be rather completely or partially formulated in the query but those representing the pragmatic level weren’t formulated.

This situation of communication is similar to a negotiation between the Web search engine and the user. The search engine Web tries to have elements on user’s information need and the user tries to obtain, from a contents explicitly formulated in his query, a set of information in order to progress on his resolution of its problem.

Keywords : information need, implicit, goal, query, information seeking, Web search engine

(6)

Table des matières

Introduction générale 1

Partie I : Etat de l’art

5

Introduction 6

1 Positionnements et présentation de modèles de recherche d’information 8

1.1 Positionnements et définitions . . . 8

1.1.1 Recherche d’information . . . 8

1.1.2 Recherche documentaire . . . 10

1.1.3 Recherche bibliographique . . . 10

1.1.4 Le moteur de recherche Web . . . 10

1.1.5 L’intention de recherche . . . 11

1.1.6 Le besoin d’information . . . 12

1.2 Modèles de la recherche d’information . . . 18

1.2.1 Le modèle TRACE . . . 19

1.2.2 Les tactiques de recherche et le déroulement de l’activité de recherche d’information . . . 22

1.2.3 Modèle compréhensif décrivant des tendances de comportement : la sé-lection des termes composant la requête . . . 25

1.2.4 Rôle des états affectifs, des processus cognitifs et des actions physiques 29 1.2.5 Le modèle d’interaction stratifié . . . 30

(7)

TABLE DES MATIÈRES

TABLE DES MATIÈRES

Conclusion . . . 33

2 L’incomplétude dans la requête : effet d’étiquetage et implicite 36 2.1 Vérification de l’hypothèse de Taylor : Ingwersen (1982) . . . 37

2.2 Les requêtes adressées à des moteurs de recherche Web . . . 40

2.2.1 Difficulté à définir ce qu’est un « terme » dans les requêtes extraites de logs de moteurs de recherche . . . . 41

2.2.2 Au niveau de l’activité de recherche de l’usager : difficultés à définir la session . . . 41

2.2.3 Apports concernant la formulation/reformulation des requêtes . . . 42

2.3 L’intention de recherche non verbalisée dans la requête . . . 44

2.3.1 Les catégories de requêtes par Broder . . . 44

2.3.2 Une autre classification des requêtes . . . 46

2.3.3 La classification automatique des requêtes . . . 47

2.3.4 La difficulté d’assigner une intention à une requête . . . 48

2.4 L’implicite dans une demande d’information . . . 51

2.4.1 Les contenus implicites : a- présupposé . . . 52

2.4.2 Les contenus implicites : b- sous-entendu . . . 54

2.4.3 Travaux de chercheurs ayant traité de l’implicite dans une demande d’in-formation . . . 55

Conclusion . . . 62

3 Formulation de la requête et réflexion sur la situation de communication usager-moteur de recherche 64 3.1 Des facteurs pouvant influencer la formulation de la requête . . . 65

3.1.1 Formulation des requêtes et tâche de recherche . . . 65

3.1.2 Formulation des requêtes et caractéristiques des usagers : novices et ex-perts jeunes et âgés . . . 77

3.2 La situation de communication usager-moteur de recherche : un jeu de représen-tations . . . 81

(8)

TABLE DES MATIÈRES

TABLE DES MATIÈRES

3.2.1 La situation de communication entre deux individus . . . 82

3.2.2 Le schéma de la situation de communication « usager-moteur de re-cherche » . . . 88

Conclusion . . . 101

Conclusion 103

Partie II : Méthodologie, analyse et résultats

107 Introduction 108 4 Étude empirique 1 — Observation expérimentale : recherche d’information à l’aide d’un moteur de recherche Web 109 4.1 Objectif de recherche . . . 109

4.2 Méthode . . . 109

4.2.1 Type d’expérimentation . . . 109

4.2.2 Recrutement des participants . . . 111

4.2.3 Matériels . . . 111

4.2.4 Procédure . . . 114

4.2.5 Recueil des données . . . 115

4.3 L’écriture, la maîtrise des périphériques : clavier, souris et écran . . . 120

4.3.1 La maîtrise des périphériques : clavier, souris et écran . . . 120

4.3.2 L’environnement de l’écriture de la requête . . . 121

4.3.3 Les termes par requête . . . 122

4.3.4 Les booléens . . . 122

4.3.5 Utilisation de syntaxe spécifique . . . 123

4.3.6 Eléments de la langue naturelle . . . 123

4.3.7 Ponctuation . . . 124

4.3.8 Orthographe et casse . . . 125

4.4 La lecture des pages Web par les participants . . . 126

(9)

TABLE DES MATIÈRES

TABLE DES MATIÈRES

4.5.1 La requête dans l’activité de recherche d’information . . . 128

4.5.2 La sélection des termes dans la requête : le cas des termes présents dans le scénario de recherche et maintenus dans la requête . . . 130

4.5.3 La sélection des termes dans la requête : l’implicite et la requête adres-sée à un moteur de recherche Web . . . 135

4.5.4 L’interactivité . . . 144

4.6 Les types de tâches de recherche réalisés et la formulation/reformulation de la requête . . . 149

Conclusion . . . 151

5 Etude empirique 2 - Enquête par observation directe et entretien 156 5.1 Objectif de recherche et hypothèses . . . 156

5.2 Méthode . . . 157

5.2.1 Type d’investigation : enquête par observation directe et entretien . . . 157

5.2.2 Justification du choix du terrain . . . 158

5.2.3 Les enquêtés : les étudiants . . . 158

5.2.4 L’expérience acquise au préalable par les étudiants . . . 158

5.2.5 Matériels . . . 159

5.2.6 Déroulement de l’enquête . . . 159

5.2.7 Les matériaux . . . 160

5.3 Données descriptives . . . 160

5.3.1 Les booléens . . . 160

5.3.2 Recherche simple vs avancée . . . 161

5.3.3 Ponctuation, orthographe et casse . . . 161

5.3.4 Usage de l’abréviation . . . 163

5.4 La répartition des requêtes selon la classification de Broder : intérêt et limite . . 164

5.5 Les besoins d’information . . . 167

5.5.1 Méthode d’analyse . . . 167

5.5.2 Résultats . . . 168

(10)

TABLE DES MATIÈRES

TABLE DES MATIÈRES

5.6.1 Méthode d’analyse . . . 173

5.6.2 Analyse . . . 173

5.6.3 Résultats . . . 174

5.7 L’implicite, la sélection des termes dans la requête et les tactiques de formula-tion/reformulation . . . 177

5.7.1 L’implicite et la tactique EXHAUST . . . 179

5.7.2 L’implicite et les tactiques SUPER et SUB . . . 180

5.7.3 Analyse des formulations/reformulations : autres résultats . . . 182

Conclusion . . . 183

Partie III : Synthèse et discussion des résultats

186 6 Discussion générale 187 6.1 L’implicite dans la requête adressée à un moteur de recherche Web . . . 187

6.2 Tâche de recherche factuelle et tâche de recherche exploratoire . . . 190

6.3 Discussion de l’expression de besoin d’information . . . 193

6.3.1 Satisfaire un besoin d’information : tâche de recherche factuelle . . . . 194

6.3.2 Satisfaire un besoin d’information : recherche exploratoire . . . 195

Conclusion générale 196

(11)

Liste des tableaux

2.1 La répartition de la classification de Broder [Broder, 2002] selon l’enquête et l’analyse des logs. Extrait à partir de [Broder, 2002] (p. 8) et traduit par nous . . 46 3.1 Les stratégies employées par les participants ( [Navarro-Prieto et al., 1999] . . 71 3.2 Les représentations dans un processus discursif selon Michel Pêcheux [Pêcheux,

1969] . . . 86 4.1 Scénarios proposés dans la première expérimentation . . . 113 4.2 Extrait présentant la saisie des requêtes et les commentaires. Participant

2/Scé-nario 2 . . . 115 4.3 Extrait de la fiche d’observation. Participant 2/Scénario 2 . . . 116 4.4 La durée des fichiers audio et vidéo par participant . . . 116 4.5 Les requêtes formulées pour les scénarios de recherche 1 et 5 (situation/action) 118 4.6 Les scénarios 2, 3, 4, 6 et 7(b) amenant les participants à réaliser des tâches de

recherche factuelles . . . 119 4.7 Les scénarios 7a, 8 et 9 amenant les participants à réaliser des tâches de

re-cherche exploratoires . . . 120 4.8 La requête est une trace des opérations intellectuelles en amont de sa

formula-tion/reformulation . . . 130 4.9 Les requêtes ne comportant que certains termes principaux du scénario de

re-cherche 3 (RCCTP) et les requêtes comportant l’ensemble des termes principaux de ce scénario (RCETP) . . . 137 4.10 Les requêtes formulées/reformulées, dans le cadre des scénarios 7a, 8 et 9 . . . 150

(12)

LISTE DES TABLEAUX

LISTE DES TABLEAUX

5.1 Les requêtes informationnelles selon les critères de Broder (2002) . . . 165 5.2 Les requêtes navigationnelles et transactionnelles selon les critères de Broder

(2002) . . . 166 5.3 Les requêtes transactionnelles classées par besoin d’information. L’ensemble de

ces requêtes correspondent à des tâches de recherche factuelles . . . 168 5.4 Les requêtes navigationnelles classées par besoin d’information. L’ensemble de

ces requêtes correspondent à des tâches de recherche factuelles . . . 169 5.5 Les requêtes informationnelles formulées dans le cadre de tâches de recherche

factuelles classées par type de besoin d’information . . . 170 5.6 Les requêtes informationnelles formulées dans le cadre de tâches de recherche

(13)

Table des figures

1.1 Le modèle de Belkin présentant le processus de recherche de l’usager abou-tissant sur une requête (à droite) et le système de recherche d’information (à gauche) [Belkin et al., 1982] (p. 65) (Modèle reproduit par nous, car l’original est peu lisible) . . . 16 1.2 Le modèle du traitement du document TRACE [Rouet, 2006] (p. 105) [Modèle

reproduit par nous en plus grand format] . . . 21 1.3 Le modèle Berrypicking, Evolving Search (la cueillette de baies). Extrait de

Bates [Bates, 1989] . . . 25 1.4 Les différentes évolutions intellectuelles en amont de la formulation de la

re-quête [figure extraite de [Mizzaro, 1998] . . . 33 2.1 Questions de l’étude de Broder [Broder, 2002] . . . 45 2.2 La répartition de l’implicite. (Extrait de [Kerbrat-Orecchioni, 1986] (p. 20)) . . 52 2.3 La chaîne interprétative d’un énoncé. (L’exemple en question ici est celui de

[Ducrot, 1984] (p. 34) et les paraphrases sont de [Kerbrat-Orecchioni, 1986] (p. 7)) . . . 57 3.1 Schéma de la communication défini par Roman Jakobson . . . 83 3.2 Reformulation du schéma de la communication par Kerbrat-Orecchioni

[Kerbrat-Orecchioni, 1980] (p. 19) [reproduction faite par nous] . . . 87 3.3 Schéma de la situation de communication « usager-moteur de recherche ».

L’in-formation 1 est l’inL’in-formation mathématique utilisée par les machines. L’infor-mation 2 est l’inforL’infor-mation sociale utilisée par les individus. . . 101

(14)

TABLE DES FIGURES

TABLE DES FIGURES

3.4 Le caractère cyclique, évolutif et dynamique de l’activité de recherche d’infor-mation [modèle proposé par nous suite à l’analyse de différents modèles de re-cherche d’information] . . . 104 4.1 Les périodes durant lesquelles les participants ont déjà utilisé Internet et le

mo-teur de recherche Google . . . 112 4.2 Boutons Précédent/Suivant d’un navigateur . . . 127 4.3 Le terme /moteur/ extrait à partir d’une page Web dont le lien a été proposé par

le moteur de recherche à la suite de la requête 28. Le participant a sélectionné ce terme dans la requête 31 . . . 145 4.4 L’orientation de l’internaute par le moteur de recherche : requête 8 . . . 146 4.5 Le participant 3 analysant les propositions du moteur de recherche . . . 148 4.6 Un aperçu des résultats proposés par le site futura-sciences au participant 4 . . 151 5.1 « Google » retournant des résultats à la requête corrigée et non à la requête

initiale de l’enquêté [capture d’écran réalisée à partir de notre propre poste de travail. Pour une meilleure illustration, nous avons reproduit la situation obser-vée lors de l’enquête] (1 juillet 2012) . . . 163 6.1 La version simple du système de recherche d’information The CoSen system. (A

(15)
(16)

Introduction générale

Le web constitue, aujourd’hui, une ressource importante d’information et les internautes utilisent différents outils pour y accéder. Dans ce travail, nous nous intéressons à la requête adressée par un internaute à un moteur de recherche dans le cadre d’une recherche d’information. Nous avons retenu les moteurs de recherche dans notre investigation bien qu’il existe d’autres systèmes de recherche d’information1parce qu’il s’agit d’une des entrées les plus importantes sur le Web pour des millions d’internautes [Chadwyn et Sanderson, 2009]. Ceci nous apporte la possibilité de confronter l’usager à un outil dont nous pouvons penser qu’il le connaît déjà, mais aussi d’observer son comportement.

De nombreux chercheurs se sont intéressés à l’activité de recherche d’information informa-tion seeking des internautes. Nous disposons, aujourd’hui, de nombreux modèles théoriques, mais aussi de nombreuses études empiriques sur le comportement de recherche des internautes. Ce qui ressort principalement de ces travaux est la complexité de l’activité de recherche d’in-formation. Les travaux réalisés apportent un éclairage important sur ce processus, mais il reste encore des questions ouvertes à examiner.

Nous considérons qu’un usager qui réalise une recherche d’information à l’aide d’un moteur de recherche se trouve dans une situation de communication de type homme-machine. L’in-terface du moteur de recherche offre un seul moyen à l’usager pour entamer cette situation de

1. Un système de recherche d’information est une interface logicielle permettant à un usager de réaliser une recherche d’information à partir d’une base de données de documents indexés manuellement ou automatiquement. Pour chercher et afficher les résultats, le système de recherche d’information réalise un appariement à partir de sa propre représentation, à la fois de la requête de l’usager et des documents de sa base de données.

(17)

Introduction générale

communication : l’usager via une fenêtre d’interrogation est invité à saisir une requête.

Dans notre thèse, nous souhaitons mieux comprendre cette phase de la recherche d’infor-mation correspondant à la formulation/reformulation de la requête et les processus intellectuels qui lui sont sous-jacents. Nous apporterons une attention particulière à la sélection des termes dans la requête et nous tiendrons également compte des facteurs qui influencent cette formula-tion/reformulation.

Question de départ

La requête exprime-t-elle une interrogation ou une assertion incomplète permettant à l’usa-ger de mener sa recherche, à partir de ce qu’il sait, pour trouver ce qu’il ne sait pas ?

Hypothèse de travail

Nous émettons l’hypothèse qu’une requête adressée à un moteur de recherche Web peut receler une part d’implicite.

Objectifs de recherche

L’objectif de notre recherche est d’étudier la requête adressée à un moteur de recherche Web lors d’une recherche d’information. Nous considérons que nous analysons une situation de communication usager-moteur de recherche et nous poursuivons deux objectifs :

– comprendre comment la requête est construite en terme de contenus explicites et impli-cites.

– approfondir la compréhension de l’étape de la formulation/reformulation de la requête. Organisation générale du mémoire

Notre mémoire de thèse s’articule en trois parties.

La première partie (chapitres 1, 2 et 3) vise à situer notre recherche par rapport au domaine de la recherche d’information. Cette partie est organisée en trois chapitres. Dans le premier chapitre,

(18)

Introduction générale

nous définirons des termes clefs lors d’une recherche d’information et nous analyserons des travaux de chercheurs qui ont modélisé l’activité de recherche d’information. Dans le second chapitre, nous discuterons de l’incomplétude de la requête et nous définirons l’« implicite » dans la langue. Enfin dans le troisième chapitre, nous analyserons des travaux de chercheurs ayant étudié les facteurs qui pèsent sur la formulation/reformulation de la requête.

La seconde partie (chapitres 4 et 5) comporte notre recherche empirique :

– Étude empirique 1 (chapitre 4) : nous avons réalisé une expérimentation que nous avons intitulée : « une recherche d’information réalisée à partir d’un moteur de recherche Web ». Nous avons directement pu observer 4 usagers en situation de recherche d’information sur Google. Nous avons suivi ce processus de recherche d’information depuis la lecture des instructions, en passant par la saisie des requêtes jusqu’à la visualisation des résultats sur l’interface du moteur de recherche.

– Étude empirique 2 (chapitre 5) : nous avons réalisé une enquête par observation directe et entretien. Nous avons observé le comportement et les pratiques de 61 étudiants, en situation réelle, dans des salles informatiques en libre accès de l’université Claude Bernard Lyon 1.

Dans la troisième partie (chapitre 6), nous discuterons de nos résultats par rapport à des travaux présentés dans notre état de l’art.

(19)
(20)

Introduction

Nous attendons de l’état de l’art de nous permettre, non seulement, de construire notre objet de recherche, mais aussi de le préciser.

Les travaux dans le domaine de la recherche d’information sont nombreux. Nous nous sommes efforcé de nous limiter, d’une part, aux travaux qui nous apportaient une meilleure compréhension de l’activité de recherche d’information et qui offraient un développement de la question de la formulation/reformulation de la requête et, d’autre part, à ceux qui traitaient de la question de l’implicite dans la formulation d’une demande d’information ou d’une requête.

La construction de cet état de l’art, articulé en trois chapitres, suit un cheminement précis. D’abord, le chapitre 1 contient une présentation des termes clefs dans la recherche d’information avec un positionnement de notre part lorsque cela était nécessaire ainsi qu’une analyse d’une sélection de modèles de recherche d’information. Cette analyse nous apporte un éclairage sur le comportement de recherche des usagers dans une situation de résolution problème et attire notre attention sur les stratégies qu’ils mettent en œuvre dans la sélection des termes de la requête.

Ensuite, le chapitre 2 vient approfondir et mettre en relation des points présentés dans le chapitre 1, le « besoin d’information », la « demande d’information » et la « requête », avec, la notion de l’« implicite ». L’incomplétude de la requête y est :

– examinée avec l’hypothèse de Taylor [Taylor, 1968] label effect (effet d’étiquetage) et avec l’apport de travaux sur les logs des moteurs de recherche.

(21)

Introduction

Dans le chapitre 3, nous analyserons les facteurs qui peuvent peser sur la formulation/reformulation de la requête. Nous accordons un intérêt particulier à la tâche de recherche et aux caractéristiques des usagers. Mais pas uniquement, la formulation/reformulation de la requête n’est-elle pas éga-lement influencée par la situation de communication ? Nous proposerons un schéma de cette situation de communication usager-moteur de recherche à la fin de ce chapitre.

(22)

Chapitre 1

Positionnements et présentation de

modèles de recherche d’information

Nous développerons dans ce chapitre deux sections. La première section examinera la dé-finition des termes clefs que nous serons amenés à utiliser dans la suite de notre mémoire. La seconde section sera consacrée à la présentation et à l’analyse de la manière dont certains mo-dèles de recherche d’information appréhendent la formulation/reformulation de la requête1.

1.1

Positionnements et définitions

Nous proposons dans cette section un ensemble de définitions nous permettant de préciser notre vocabulaire.

1.1.1

Recherche d’information

Il est question de recherche d’information lorsqu’un lecteur souhaite localiser une informa-tion dans une collecinforma-tion de documents résultant d’une recherche documentaire.

Selon Dinet et Rouet [Dinet et Rouet, 2002] l’activité de recherche d’information est

1. Exception faite pour Rouet [Rouet, 2006] qui ne développe pas cette phase, mais qui s’intéresse à la recherche d’information dans un document complexe

(23)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.1 Positionnements et définitions

« l’activité d’un individu qui vise à localiser et traiter une ou plusieurs informations au sein d’un environnement documentaire complexe, dans le but de répondre à une question ou de résoudre un problème ».

Selon l’association des professionnels de l’information et de la documentation2, la recherche d’information représente l’ensemble :

« des méthodes, procédures et techniques permettant, en fonction de critères de re-cherche propres à l’usager, de sélectionner l’information dans un ou plusieurs fonds de documents plus ou moins structurés. Toute recherche d’information suppose trois phases successives : a) une recherche bibliographique des références de documents pertinents ; b) une recherche documentaire, c’est-à-dire une recherche bibliogra-phique complétée par la recherche (l’acquisition) des documents eux-mêmes ; c) et enfin le repérage de l’information dans les documents sélectionnés (recherche de l’information). »

Cette situation de recherche d’information peut être considérée comme une situation de com-munication entre un individu, qui souhaite disposer d’informations en lisant un ou plusieurs do-cuments, et les auteurs de ces documents. Selon Lallich-Boidin [Lallich-Boidin, 2007] (p. 97), cette relation se caractérise par :

– son asynchronie, la production du discours des auteurs des documents est forcément an-térieure à la situation de recherche ;

– son asymétrie, seul l’usager effectue et conduit la recherche. L’auteur reste présent à tra-vers le contenu de son document ;

– un contact direct avec le contenu du document de l’auteur : existence de médiateurs hu-mains ou logiciels qui rendent possible cette relation.

2. www.adbs.fr/recherche-d-information-18313.htm?RH=OUTILS_VOC. Consulté le 15 juin 2012. [L’association des professionnels de l’information et de la documentation, ndb]. (« nd » signifie que la date n’est pas précisée sur la page Web consultée).

(24)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.1 Positionnements et définitions

1.1.2

Recherche documentaire

La recherche documentaire figure parmi les activités intellectuelles complexes et se situe dans le champ plus large de la recherche d’information. Selon l’association des professionnels de l’information et de la documentation3, la recherche documentaire représente l’ensemble :

« des méthodes, procédures et techniques ayant pour objet de retrouver des réfé-rences de documents pertinents (répondant à une demande d’information) et les documents eux-mêmes. »

1.1.3

Recherche bibliographique

Selon l’association des professionnels de l’information et de la documentation4, la recherche bibliographique représente l’ensemble :

« des méthodes, procédures et techniques ayant pour objet de retrouver les réfé-rences bibliographiques de documents pertinents. »

Maintenant que nous avons expliqué ce que nous entendons par « recherche d’information », « recherche documentaire » et « recherche bibliographique », nous allons présenter des travaux ayant proposé une définition du moteur de recherche.

1.1.4

Le moteur de recherche Web

Un moteur de recherche Web est « un dispositif d’accès à l’information ». Selon Simonnot [Simonnot, 2010], Brigitte Juanals [Juanals, 2003], chercheuse en sciences de l’information et de la communication, fut l’une des premières à avoir utilisé dans la littérature francophone cette expression. Brigitte Juanals a ainsi pu relier les dispositifs d’accès à l’information aux médias et rendre compte d’une relation d’interdépendance entre trois éléments, à savoir, les

3. http://www.adbs.fr/recherche-documentaire-18321.htm?RH=OUTILS_VOC. Consulté le 15 juin 2012. [L’association des professionnels de l’information et de la documentation, ndc]

4. http://www.adbs.fr/recherche-bibliographique-18305.htm?RH=OUTILS_VOC. Consulté le 15 juin 2012. [L’association des professionnels de l’information et de la documentation, nda]

(25)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.1 Positionnements et définitions

outils matériels, les logiciels et l’activité humaine. Quant à Ihadjadene et Chaudiron [Ihadjadene et Chaudiron, 2008] (p. 186), ils soulignent que cette expression désigne :

« l’ensemble des lieux et des objets de médiation, technique ou non, permettant d’identifier, de repérer et de collecter et éventuellement traiter l’information ». Les deux chercheurs distinguent deux types de dispositifs d’accès à l’information :

– non techniques, qui représentent des lieux où il est possible d’accéder à l’information. C’est le cas, par exemple, des bibliothèques et des centres de documentation, où l’usager peut avoir directement accès à des documents ;

– techniques tels que les moteurs de recherche Web (Google, Exalead, AltaVista...), mais aussi des catalogues de bibliothèques (ex. le catalogue de l’ENSSIB5ou de la BNF6) ou des bases de données en ligne (ex. FRANCIS ou PASCAL).

Un moteur de recherche permet un accès partiel à l’information disponible sur le Web et ne couvre que le Web visible. En outre, cet accès à l’information est contraint, dans la mesure où l’usager doit se plier aux règles imposées par l’interface du dispositif.

1.1.5

L’intention de recherche

Comme nous le verrons au second chapitre, l’expression « intention de recherche » retient l’intérêt de nombreux chercheurs. Lorsque nous utilisons cette expression, nous nous référons à l’intention de recherche de l’usager : ce qu’il recherche au moment où il formule sa requête. Dans une situation de recherche d’information, l’observateur ne connaît pas cette intention de recherche.

Nous refermons cette première section consacrée à la définition de termes clefs dans la re-cherche d’information par une analyse d’une notion capitale dans ce domaine. Il s’agit du « be-soin d’information » qui constitue un élément important dans cette activité.

5. École Nationale Supérieure des Sciences de l’Information et des Bibliothèques 6. Bibliothèque Nationale de France

(26)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.1 Positionnements et définitions

1.1.6

Le besoin d’information

Le besoin d’information a été abordé et traité à de nombreuses reprises par différents cher-cheurs. Nous présenterons ici certains de ces travaux, nous nous positionnerons ensuite sur sa nature statique ou dynamique, puis nous soulignerons que sa dénomination est discutée par cer-tains chercheurs.

1.1.6.1 La conceptualisation du besoin d’information en quatre niveaux

Robert S. Taylor [Taylor, 1968] avait constaté les difficultés des usagers des bibliothèques à exprimer leur besoin d’information qu’il considérait comme un processus cognitif composé de quatre niveaux :

– Niveau 1 : the visceral need, impossibilité d’exprimer ce besoin ;

– Niveau 2 : the conscious need, prise de conscience d’un besoin, mais toujours impossibi-lité de l’exprimer ;

– Niveau 3 : the formalized need, expression du besoin en langue naturelle ;

– Niveau 4 : the compromised need7, à ce niveau la question est présentée au bibliothécaire ou au système de recherche d’information.

Les niveaux 1, 2 et 3 de Taylor correspondent à des représentations internes de l’usager. Il s’agit d’opérations intellectuelles non observables directement. L’usager exprime, dans le niveau 4, sa demande d’information (si l’interlocuteur est un bibliothécaire) ou sa requête (s’il utilise le

(27)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.1 Positionnements et définitions

système de recherche d’information)8. Au moment où le modèle de Taylor a été réalisé, il reve-nait le plus souvent au bibliothécaire (ou documenatliste) d’interroger le système de recherche d’information. Dans ce cas nous avions :

– la demande d’information de l’usager. Dans les faits, c’était une discussion au cours de laquelle le bibliothécaire tentait d’amener l’usager à préciser son besoin d’information. D’ailleurs, Taylor [Taylor, 1968] (p. 183) avait déterminé cinq filtres9pour approfondir la demande de l’usager et mieux cerner son besoin d’information ;

– le bibliothécaire qui adaptait la demande de l’usager aux contraintes du système de re-cherche d’information. Selon Taylor, cette activité était l’affaire du spécialiste de l’infor-mation (ici, un bibliothécaire)10.

8.

« In an often quoted model Taylor has suggested and described the development of the request from step 1 [information need of user (deriving from a problem situation)] to 2 [the formulated information need of user] :

(a) : The actual, but unexpressed need (b) : The conscious need

(c) : The formalized need

(d) : The compromised need (the question as presented to librarian or system)

Stages (a) to (c) are considered internal representations in the mind of the user. It is important to identify the relation between stage (c) and (d) which determines the following stages of retrieval. » [Ingwersen, 1982] (p. 167)

9. 1-déterminer le sujet, 2- objectif et motivation, 3- caractéristiques personnelles de l’usager, 4- la relation entre la demande de l’usager et l’organisation des documents et 5- ce qu’il attend comme réponses

10.

« The compromised question (Q 4) is the information specialist’s business, the representation of the enquirer’s need within the constraints of the system and its files. The skill of the reference librarian is to work with the enquirer back to the formalized need (Q 3), possibly even to the conscious need (Q 2), and then to translate these needs into a useful search strategy. »

(28)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.1 Positionnements et définitions

Les différents niveaux du modèle de Taylor mettent en relief une phase de la recherche d’in-formation qui reste difficile à étudier, et que nous ne connaissons pas encore complètement. D’après Ingwersen [Ingwersen, 1992] (p. 113), les travaux de Taylor ont apporté une contribu-tion considérable dans les recherches du domaine Informacontribu-tion Retrieval et cela par rapport au constat suivant lequel un état psychologique particulier de l’usager peut le conduire à exprimer une demande d’information11. Taylor considère que le besoin d’information est dynamique, qu’il peut être flou et mal défini ou au contraire bien identifié.

1.1.6.2 Le besoin d’information permettant une construction du sens

Brenda Dervin, Professeure de communication à l’université de l’État de l’Ohio (USA), s’est interrogée, dès les années 1980, sur la question du besoin d’information qu’elle met en relation avec la notion d’usage de l’information. Ainsi pour Dervin, l’information est le résultat d’une construction du sens dans un espace-temps déterminé. Selon Dervin [Dervin, 1983], les individus rencontrent, au cours de leur existence, plusieurs situations nouvelles qui les amènent notamment à se poser des questions et à se trouver parfois dans des situations d’incertitude. Afin de rendre compte de ces situations, elle utilise la métaphore du marcheur qui se trouve devant un fossé (GAP). Pour remédier à cet état, les humains comblent (BRIDGE) ces discontinuités de l’existence et dépassent leur état d’incertitude en développant de nouvelles idées et en adoptant des attitudes nouvelles... C’est en réponse aux changements perpétuels rencontrés dans notre vie que nous sommes amenés à créer constamment du sens, d’où le nom de sa métathéorie.

Brenda Dervin estime que le recours aux systèmes de recherche d’information reste une simple possibilité d’accès à l’information parmi d’autres. En outre, elle accorde une place im-portante au contexte et précise qu’un individu, dans un espace-temps différent, peut évaluer une même information de manière différente. Ainsi, le contexte de la recherche déterminerait fortement l’évaluation de l’information.

11. « ...since it postulates that a particular psychological state of mind of the user may lead to an expressed request for information » [Ingwersen, 1992] (p. 113)

(29)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.1 Positionnements et définitions

1.1.6.3 Le besoin d’information comme un état d’incertitude

Comme nous l’avons vu plus haut, Dervin inclut également, parmi d’autres facteurs, l’incer-titude comme pouvant déclencher une tentative de construction du sens. Saracevic [Saracevic, 1996], quant à lui, considère que la recherche d’information est spécifiquement déclenchée par un état d’incertitude et qu’elle a pour but principal de permettre à l’individu de passer d’un état d’incertitude à celui de certitude.

1.1.6.4 Anomalous State of Knowledge

Le modèle Anomalous State of Knowledge ASK est fondé sur l’hypothèse que l’usager per-çoit un besoin d’information résultant d’une anomalie dans l’état de ses connaissances anomaly in the user’s state of knowledge, et se trouve dans une situation où, en général, il lui est difficile de préciser ce qui lui manque pour y remédier [Belkin et al., 1982]12. Ce modèle appréhende l’activité de recherche d’information d’une manière globale : d’un côté, le système dispose d’une masse d’informations et de l’autre côté, l’usager, avec sa propre représentation du monde, sol-licite ces informations, gérées par le système. Nicholas Belkin oriente son étude vers l’état de connaissances de l’usager à différents instants : avant, pendant et à la fin de la recherche. Il est question ici d’une approche cognitive et épistémique. Ce modèle (figure 1.1) se compose de trois étapes principales : 1- l’usager ressent Anomalous State of Knowledge, ASK ; 2- il présente une requête à un système de recherche d’information qui lui renvoie des informations sous format texte ; 3- l’usager évalue les informations renvoyées par le système et détermine le niveau de « satisfaction de son besoin ».

1.1.6.5 Le besoin d’information et la pratique informationnelle

Si les travaux précédents reposent sur l’hypothèse que le besoin d’information mène à une recherche d’information, d’autres considèrent que le recours à la recherche d’information n’est pas systématique parce que certains facteurs peuvent peser sur les pratiques informationnelles

12. « The ASK hypothesis is that an information need arises from a recognized anomaly in the user’s state of knowledge concerning some topic or situation and that, in general, the user is unable to specify precisely what is needed to resolve that anomaly. » [Belkin et al., 1982] (p. 62)

(30)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.1 Positionnements et définitions

FIGURE1.1 – Le modèle de Belkin présentant le processus de recherche de l’usager aboutissant sur une requête (à droite) et le système de recherche d’information (à gauche) [Belkin et al., 1982] (p. 65) (Modèle reproduit par nous, car l’original est peu lisible)

des individus.

Marchionini [Marchionini, 1995] (p. 51) constate que le besoin d’information peut, dans cer-taines situations, être supprimé par l’individu. L’évaluation des critères de coûts et de bénéfices occupe une place centrale dans la décision finale :

– les connaissances antérieures de l’individu peuvent conduire à la suppression du besoin d’information,

– la capacité de l’individu à utiliser (ou non) un système de recherche d’information peut également être un facteur déterminant dans la décision de poursuivre (ou non) une re-cherche d’information,

– l’estimation de la situation et la prise en compte des « circonstances externes » peuvent aussi amener l’individu à supprimer son besoin d’information.

Selon Simonnot [Simonnot, 2006], un individu ayant un besoin d’information sera plus amené à réaliser une recherche d’information s’il estime qu’une réponse à sa question existe et que les efforts qu’il doit fournir ne sont pas supérieurs aux gains attendus. Nous retrouvons ici les critères de coûts et de bénéfices présentés chez Marchionini [Marchionini, 1995].

(31)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.1 Positionnements et définitions

Choo [Choo, 1999] (pp. 10-11) distingue au moins trois types d’efforts que nécessite l’acti-vité de recherche d’information :

« On observe ici au moins trois types d’efforts ou de coûts différents : les efforts physiques (pour se déplacer jusqu’à la source), les efforts intellectuels (par exemple pour se familiariser avec un système de classification ou une application informa-tique) et les efforts psychologiques (par exemple pour aborder une source désa-gréable). »

Chatman [Chatman, 1996], observant les pratiques informationnelles chez les minorités noires défavorisées dans les années quatre-vingts, a constaté qu’au-delà du niveau économique, le facteur social pèse significativement sur les pratiques informationnelles des individus. En fonction des normes sociales, ensemble de valeurs du groupe d’appartenance, l’individu ajus-terait son comportement informationnel. Ainsi, si, dans le groupe d’appartenance, il n’est pas habituel de réaliser une recherche d’information pour résoudre un problème, alors l’individu, le plus souvent, bien qu’ayant un besoin d’information, ne réalisera pas de recherche.

1.1.6.6 Positionnement sur la notion de besoin d’information

Il existe deux visions du besoin d’information, la première fixe et n’évoluant pas au cours de l’activité de recherche d’information information seeking et la seconde dynamique et évoluant tout au long de cette activité.

Nous considérons le besoin d’information comme dynamique et évolutif parce qu’il découle d’une situation problème dont la résolution passe par différents états cognitifs qui conduisent l’individu à progresser, étape par étape, dans la résolution de son problème. Durant cette pro-gression, de nouvelles connaissances acquises peuvent, par exemple, permettre le passage d’un besoin d’information flou à un besoin d’information plus précis. Dervin [Dervin, 1983], Tay-lor [TayTay-lor, 1968], Saracevic [Saracevic, 1996] et Belkin [Belkin et al., 1982], mais aussi Bates [Bates, 1989]13considèrent également le besoin d’information comme dynamique.

(32)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.2 Modèles de la recherche d’information

1.1.6.7 Le besoin d’information : une expression discutée

L’expression « besoin d’information » est discutée, sinon contestée par de nombreux cher-cheurs. Ainsi, Boullier [Boullier, 1997] considère que le terme « besoin » est orienté vers une conception béhavioriste et constate que le terme « désir » pourrait mieux rendre compte de l’ac-tivité de l’individu. Boubée [Boubée, 2007] se demande si le terme « intention » ne serait pas également adéquat pour remplacer le terme « besoin ». Quant à Case [Case, 2002], il remet en question l’expression de « besoin d’information » parce qu’une recherche d’information n’est pas systématiquement motivée par une volonté de résoudre un problème, mais qu’elle peut être réalisée uniquement comme loisir ou passe-temps.

Nous concernant, nous nous demandons si l’expression « besoin d’information » peut-être remplacée par le terme « lacune » ? Nous conservons l’expression de « besoin d’information » dans la suite de notre travail, car c’est l’expression la plus couramment employée dans les pu-blications scientifiques. D’ailleurs, Riondet [Riondet, 2006] (p. 3), qui a analysé l’emploi de cette expression par des chercheurs en sciences de l’information et de la communication dans les archives ouvertes du CNRS (Archivesic), a constaté que « besoin d’information » corres-pond à une thématique et qu’elle est utilisée comme telle dans les mots-clefs et résumés des chercheurs. Nous reviendrons toutefois dans notre discussion (partie III) sur ce point et nous discuterons l’expression du « besoin d’information » en regard de la lacune. En effet, les résul-tats de nos études empiriques nous permettront de mieux percevoir les forces et les faiblesses de chacun des deux termes.

1.2

Modèles de la recherche d’information

Nous avons fait le choix de ne retenir que des modèles qui développent l’étape de la for-mulation de la requête ou qui nous apportent un éclairage sur le comportement de recherche d’information de l’usager. Cet apport théorique nous procurera des éléments de réflexion sur notre objectif de recherche qu’il nous permettra de préciser.

(33)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.2 Modèles de la recherche d’information

1.2.1

Le modèle TRACE

Jean-François Rouet [Rouet, 2006] a proposé un modèle cognitif14 de la recherche d’in-formation dans un environnement hypermédia et sur des documents complexes (figure 1.2). Ce modèle dénommé TRACE est cyclique et représente le traitement du document. Il tient compte, d’une part, des ressources d’information, et d’autre part, des ressources de la mémoire de l’in-dividu.

Les ressources d’information (information resources) incluent : 1- toute représentation maté-rielle de la tâche telle que les questions écrites ou les indications fournies ; 2- les ressources d’information externes disponibles comme les textes, les documents ou les systèmes d’informa-tion électroniques ; et 3- l’ensemble des éléments produits dans le cadre de l’accomplissement de la tâche (brouillons, notes, réponses...)

Les « ressources de mémoire » (memory resources) englobent les connaissances qui peuvent in-tervenir dans la tâche de recherche. Cela comprend les connaissances antérieures de l’individu, les connaissances provenant des ressources d’information, et l’expérience de l’individu (s’il a déjà réalisé, par le passé, une tâche de recherche similaire). En outre, ces ressources de mémoire incluent aussi des représentations construites dans le cadre de l’activité de l’individu : 1- la pre-mière représentation correspond au modèle de la tâche de recherche à réaliser 2- la seconde représentation correspond au modèle de réponse interne à élaborer.

Ce modèle présente le traitement de documents comme une activité se déroulant en dif-férentes étapes, chacune d’elles correspondant à un processus spécifique. Ces processus sont représentés dans deux grandes catégories : 1- les processus qui utilisent des ressources d’in-formation 2- les processus qui utilisent la mémoire. Comme le note Rouet, il reste difficile de distinguer clairement les processus impliquant une ressource d’information ou une ressource de mémoire, car, un individu lisant une question fait intervenir les deux types de processus : le pro-cessus impliquant une ressource d’information lors de la lecture de la question, et un propro-cessus impliquant une ressource de la mémoire lors de l’activation des connaissances antérieures afin d’interpréter la question. Le modèle TRACE est composé de neuf étapes :

(34)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.2 Modèles de la recherche d’information

– Étape 1 Examine task specifications, l’individu examine les spécifications de la tâche, cela en lisant la question écrite ou encore en vérifiant le temps et les ressources d’informations disponibles pour accomplir cette tâche ;

– Étape 2 Construct task model, à partir de la précédente étape, l’individu construit un mo-dèle correspondant aux actions à effectuer pour réaliser la tâche ;

– Étape 3 External information needed ? à ce niveau l’individu décide si ses connaissances sont suffisantes pour répondre à la question ou s’il doit utiliser des informations externes. S’il estime que ses connaissances sont suffisantes alors il passe à l’étape 7 sinon il passe à l’étape 4 ;

– Étape 4 Select document, l’individu sélectionne un document à partir des sources d’infor-mation externes disponibles.

– Etape 5 Process content information l’individu examine le contenu du document ou du passage de texte déjà sélectionné ;

– Étape 6 Document relevant ? l’individu évalue la pertinence du document traité. S’il juge le document non pertinent, il reprend sa recherche à partir de l’étape 4 (sélection du do-cument). Enfin, l’individu passe à l’étape 7, s’il juge le document pertinent ;

– Étape 7 Update internal response model l’individu utilise le contenu du document retenu afin de construire et mettre à jour son modèle de réponse ;

– Étape 8 Response complete ? l’individu décide si la réponse qu’il a élaborée permet de traiter correctement la question posée dans l’énoncé. Si l’individu n’est pas satisfait de sa réponse, il reprend alors la recherche au niveau de la première étape. En revanche, il passe à la dernière étape, s’il estime sa réponse satisfaisante ;

– Étape 9 Output task product l’individu répond à la question posée.

Le modèle TRACE proposé par Jean-François Rouet permet de rendre compte de l’activité de traitement du document. Outre la prise en compte de ressources impliquant les informations, ce modèle présente les processus impliquant la mémoire. Il permet de suivre l’évolution des représentations de l’individu tout au long de l’évolution de cette activité. Ce modèle n’est

(35)

ce-CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.2 Modèles de la recherche d’information

FIGURE 1.2 – Le modèle du traitement du document TRACE [Rouet, 2006] (p. 105) [Modèle reproduit par nous en plus grand format]

pendant pas complètement validé empiriquement15.

Le dispositif de recherche d’information est évoqué dans les ressources d’information, mais la manière dont il est utilisé n’est pas détaillée. Néanmoins, il nous semble qu’un tel modèle est utile pour notre réflexion dans la mesure où il nous permet de réfléchir sur différents points. Ce modèle nous renseigne sur la manière dont un individu examine une tâche. Rouet met en évidence le lien entre la tâche et la mémoire, lien qui se termine par une prise de décision sur la nécessité ou non de recourir à une information externe. Nous nous demandons, d’une part, si cette décision peut être influencée suivant qu’il s’agit d’une tâche amenant à répondre à une question ouverte ou fermée, et d’autre part, si le type de la tâche orientera la sélection du docu-ment (dictionnaire, encyclopédie, journal...).

15. « the TRACE model is a descriptive rather than explanatory representation, as many of its features have not been empirically tested. The features of the model are nevertheless consistent with empirical research findings, as reviewed next. » [Rouet, 2006] (p. 108)

(36)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.2 Modèles de la recherche d’information

Par ailleurs, au centre du modèle se trouve l’étape 6 qui correspond à l’évaluation de la per-tinence du document. Cette étape centrale du modèle nous renseigne sur le rôle qu’occupent l’évaluation et le jugement de pertinence dans une activité de traitement d’un document ou d’un passage de texte. Nous nous interrogeons sur la manière dont ce jugement de pertinence orien-tera la prochaine sélection de document (retour à l’étape 4). Ces mêmes questions se posent également dans le cadre d’une analyse de l’activité de recherche d’un usager sur un moteur de recherche Web. Analyser la formulation/reformulation de la requête ne devrait-il pas nous amener à nous interroger sur le(s) lien(s) dans une recherche d’information Web entre la for-mulation/reformulation et respectivement le type de tâche et le jugement de pertinence ? Nous invitons notre lecteur à nous accompagner tout au long de cet état de l’art pour voir comment les différents travaux présentés nous apporteront une meilleure compréhension de notre problème de recherche.

1.2.2

Les tactiques de recherche et le déroulement de l’activité de recherche

d’information

Bates a proposé deux modèles de recherche d’information qui s’inscrivent dans une approche cognitive. Le modèle facilitation model [Bates, 1979] traite des tactiques de recherche et déve-loppe notamment un ensemble de tactiques qui soutiennent la formulation/reformulation de la requête. Son autre modèle « berrypicking » (la cueillette de baies) [Bates, 1989] a apporté une meilleure compréhension de la manière dont les usagers recherchent l’information.

1.2.2.1 Facilitation model

Le premier modèle de Bates [Bates, 1979] dénommé facilitation model s’applique pour la recherche d’information dans les environnements manuels et informatisés. Bates considère que ce modèle représente en premier lieu un modèle d’aide pour l’usager, et en second lieu, un modèle d’enseignement [Bates, 1979] (p. 213). Bates a focalisé son attention dans ce modèle sur les tactiques de recherche. Elle en avait dénombré quatre types :

(37)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.2 Modèles de la recherche d’information

point donné. Ainsi, la tactique CHECK permet de revoir la demande initiale et la com-parer au sujet actuel de recherche. La tactique WEIGH permet de réaliser une évaluation coût/bénéfice à différents moments de la recherche et d’opter, si nécessaire, pour une ap-proche différente. La tactique CORRECT permet de vérifier et de corriger l’orthographe des requêtes formulées.

2. File structure tactics : utiliser la structure de la base de données pour trouver l’information. La tactique BIBBLE consistait à chercher une bibliographie ou un article de synthèse sur un thème donné afin de ne pas avoir à réaliser une recherche complète.

3. Search Formulation tactics : ensemble de tactiques qui soutiennent la formulation/reformulation des requêtes. Bates en a distingué six :

– EXHAUST : permet d’inclure la plupart des aspects dans la requête initiale ou de com-pléter une précédente requête en rajoutant de nouveaux aspects,

– REDUCE : réduire le nombre d’aspects dans une requête initiale ou dans une requête déjà formulée,

– PARALLEL : réaliser une recherche large en incluant des synonymes,

– PINPOINT : réaliser une formulation précise en se focalisant sur les termes les plus descriptifs,

– BLOK : rejeter dans la formulation les articles indexés par certains termes même si cela amène à perdre certains documents comportant des sections pertinentes.

– SPECIFY : employer des termes de recherche spécifiques. Il est question ici des des-cripteurs proposés dans les bases de données.

4. Term tactics : aide à la sélection et à la révision de termes spécifiques dans les requêtes. Ces tactiques étaient adaptées pour la structure des thésaurus. SUPER : cette tactique permettait de choisir un terme plus large (du spécifique au générique) et inversement SUB permettait de choisir un terme plus spécifique (générique au spécifique).

Le modèle facilitation model a été intégré plus tard [Bates, 1990] dans un modèle décrivant l’activité de recherche d’information par niveaux. Le premier niveau Move (action) consiste à déclencher une action comme la saisie d’un terme. Le second niveau Tactic (tactique)

(38)

repré-CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.2 Modèles de la recherche d’information

sente l’action ou les actions effectuée(s) par l’usager dans le but d’accélérer ou d’améliorer la recherche. On retrouve ici les tactiques présentées dans la première version du modèle [Bates, 1979]. Le troisième niveau Stratagem (stratagème) correspond à un ensemble de tactiques em-ployé pour mieux exploiter une source d’information. La mise en œuvre de ce stratagème est plus complexe qu’une tactique, car il implique, généralement, une séquence répétitive d’activités visant à exploiter, à la fois la source d’information concernée, et un mode de recherche élaboré spécialement pour cette même source. Le dernier niveau Strategy correspond au déroulement de toute l’activité de recherche et il peut contenir tous les autres niveaux suscités.

Un tel modèle avec les tactiques qu’il développe peut être utile pour l’analyse du comporte-ment de recherche d’information des usagers des moteurs de recherche Web.

1.2.2.2 Le modèle « berrypicking » (la cueillette de baies)

Bates [Bates, 1989] apporte une meilleure compréhension de la manière dont les usagers recherchent l’information. Avec le modèle « berrypicking » (figure 1.3) correspondant à la mé-taphore de la cueillette de baies, elle met en évidence le caractère dynamique de la recherche d’information. L’usager évolue peu à peu au cours de cette activité de recherche d’information exploratoire. Au cours de ce processus, il est amené à recueillir des informations disséminées comme des baies dans un buisson. Chaque information retenue influence la suite de la recherche et fait évoluer le besoin d’information qui, dans ce modèle, est un besoin dynamique et évolutif. Les requêtes également changent et évoluent au cours de la recherche [Bates, 1989] (p. 409). Chaque information rencontrée apporte aux usagers de nouvelles idées et des orientations à suivre et par conséquent une nouvelle conception de la requête. Ce modèle met en évidence une requête initiale Q016 puis ses différentes reformulations Q1, Q2, Q3 (jusqu’à la fin de la recherche) avec des modifications portant sur des termes de la requête ou encore sur la requête elle-même17.

16. Q : query (requête)

17. « May begin with just one feature of a broader topic, or just one relevant reference, and move through a variety of sources. Each new piece of information they encounter gives them new ideas and directions to follow and, consequently, a new conception of the query. At each stage they are not just modifying the search terms used in order to get a better match for a single query. Rather the query itself (as well as the search terms used) is continually

(39)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.2 Modèles de la recherche d’information

FIGURE1.3 – Le modèle Berrypicking, Evolving Search (la cueillette de baies). Extrait de Bates

[Bates, 1989]

Tout comme les modèles de Bates [Bates, 1979] et [Bates, 1989], le modèle compréhensif de Fidel [Fidel, 1984] ; [Fidel, 1991a] ; [Fidel, 1991b] et [Fidel, 1991c] s’inscrit dans une approche cognitive.

1.2.3

Modèle compréhensif décrivant des tendances de comportement : la

sélection des termes composant la requête

Fidel s’est intéressée à la manière dont les professionnels de l’information sélectionnent les termes composant leurs requêtes. Ces professionnels réalisaient des recherches à partir de

(40)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.2 Modèles de la recherche d’information

bases de données bibliographiques18 pour répondre à des demandes d’information d’usagers. Les travaux de Fidel [Fidel, 1991a] ; [Fidel, 1991b] et [Fidel, 1991c] ont été réalisés à partir de l’observation de 47 professionnels qui ont participé à son étude. La chercheuse a utilisé la méthode d’étude de cas avec comparaison contrôlée [Fidel, 1984] dans ces trois publications. Chaque nouveau cas étudié est comparé au précédent et ainsi de suite. Cette méthode permet de développer des modèles compréhensifs décrivant des tendances de comportement. Cependant, elle pose deux problèmes. D’abord, la généralisation à partir de quelques études de cas peut être considérée comme n’étant pas assez fiable. Il reste difficile de déterminer quelles régularités dans un comportement sont communes à d’autres individus et quelles régularités de comportement sont spécifiques à un ou uniquement quelques individus. Ensuite, dégager des constatations générales sur des régularités de comportement peut être trop large pour rendre compte de cas spécifiques.

Fidel [Fidel, 1991a] visait à explorer le processus de sélection des termes de recherche « Se-lection routine » employés dans l’interrogation de bases de données bibliographiques. Elle sou-haitait comprendre les raisons qui amenaient le professionnel de recherche d’information à uti-liser un mode d’interrogation par texte libre (langage libre), par descripteur (langage contrôlé à partir des thésaurus) ou par la combinaison des deux modes19. Elle considérait qu’il existe principalement trois étapes lors de la recherche en ligne : 1- la définition de la demande, 2- la

18.

« The research project reported here investigated online searching behavior manifested by actual searches of bibliographic databases, as performed by professional online searchers. The study ex-plored the process of search-key selection, and attempted to represent this process in an empirically based model that is specified in formal terms. »

[Fidel, 1991a] (p. 1)

19. Avant d’aller plus loin, il est important de noter que, pour Fidel, l’usager user apporte une demande d’in-formation à une autre personne qu’elle nomme the searcher et que nous nous nommerons « un professionnel de recherche d’information » qui peut être un bibliothécaire ou un documentaliste. Cette précision est importante dans la mesure où l’activité de recherche d’information à l’aide d’un dispositif d’accès à l’information technique n’était pas accessible au plus grand nombre lors de la réalisation des études de Fidel publiées en 1991.

(41)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.2 Modèles de la recherche d’information

sélection des termes de recherche et 3- le traitement des résultats. Elle a concentré son attention sur la seconde étape, soit sur l’expression de la requête.

1.2.3.1 La recherche en langage libre

Les participants disaient réaliser une recherche en langage libre pour deux raisons :

1. la demande contenait plusieurs concepts, dans ce cas l’utilisation d’une recherche en lan-gage libre avec l’opérateur booléen AND permettait de renforcer la précision ;

2. pour des raisons de coûts : les participants préféraient interroger directement la base de données avec la recherche en langage libre, car déterminer l’indexation la plus pertinente pour chacune des bases de données pouvait être long et donc coûteux.

1.2.3.2 Le choix des termes de recherche dans la requête

Fidel [Fidel, 1991a] (p. 492) a constaté qu’il existait deux critères pour décider des termes de recherche à sélectionner :

– le premier critère correspond au type de terme générique vs spécifique. L’utilisation d’une recherche en langage libre, comportant un terme générique avec un sens large, n’était pas privilégiée par les participants à l’étude. Ils lui préféraient une recherche en langage libre, comportant un terme spécifique qui, lorsqu’il recouvrait un concept donné, était plus approprié pour l’interrogation d’une base de données ;

– le second critère portait sur la possibilité, d’associer ou non, un terme important dans la demande d’information à un descripteur dans le thésaurus. Si le participant opte pour le descripteur alors, il réalise une recherche en langage contrôlé qui est un langage docu-mentaire.

1.2.3.3 Les différents styles de recherche mis en évidence

Lors de l’étude, 281 recherches bibliographiques ont été réalisées avec un total de 3200 requêtes composé de 50% des requêtes en langage contrôlé et 50% de requêtes en langage libre [Fidel, 1991b]. Ces données représentent des tendances de comportement de recherche

(42)

CHAPITRE1 : Positionnements et présentation de modèles de recherche d’information

1.2 Modèles de la recherche d’information

et ne reflètent pas le comportement de recherche propre à chaque participant qui peut avoir une préférence pour une forme donnée d’interrogation. Fidel [Fidel, 1991b] distingue trois styles de recherche individuels :

– style 1 : il apparaît que certains participants testent plus de stratégies de recherche et entrent davantage de requêtes que les autres participants. Ce style de recherche n’assure pas une meilleure réussite de la recherche documentaire. En effet, dans un tel contexte, la quantité n’aboutit pas nécessairement à une meilleure qualité de recherche. Un nombre élevé de requêtes peut être dû notamment à une mauvaise préparation de la recherche en amont (planification de la recherche). En outre, Fidel [Fidel, 1991b] avait constaté que les participants qui préféraient commencer leur interrogation des bases de données avec une recherche en langage libre, puis avec le langage contrôlé se trouvaient davantage représentés par ce style de recherche. La chercheuse constate que les participants adoptant ce style de recherche ne sont pas « meilleurs » que leurs autres collègues [Fidel, 1991b] (p. 525) ;

– style 2 : des participants "opérationnalistes" et d’autres "conceptualistes" [Fidel, 1991b] (p. 525). Selon Fidel [Fidel, 1984] (p. 277), les participants décrits comme « opérationna-listes » veillent à préserver le sens de la demande de l’usager. Ils visent avec leur recherche un ensemble de références qui viendrait répondre avec précision à la demande. Quant à leurs homologues décrits comme « conceptualistes », ils visent, avant tout, à récupérer un ensemble de références assez large. En outre, ils peuvent faire évoluer le sens de la demande de l’usager afin de mieux répondre à sa demande.

– style 3 : Fidel a constaté qu’il peut exister une préférence pour le langage d’interrogation : langage libre vs langage contrôlé [Fidel, 1991b] (p. 525). Elle constate que les participants qui utilisent davantage la recherche en langage libre sont :

– des participants « opérationnalistes »,

– des participants qui souhaitent répondre à des demandes pratiques,

Références

Documents relatifs

Nous avions émis les hypothèses selon lesquelles la modalité plan réduirait le temps de recherche quel que soit l’âge des participants, et que la

Le vocabulaire utilisé par les participants est très pointu : les termes « bandes d’éveil à la vigilance », « barres ischiatiques », « service de transport

Toujours dans le second rapport du GIEC, la distinction entre les termes est établie selon leurs objectifs : tandis que l’adaptation a pour mission de s’attarder aux conséquences

L’utilisation des ressources linguistiques se fait en général dans un contexte bilingue (langue d’origine plus langue de la région), Les employés migrants ont recours à

Les participants reconnaissent les besoins sur le plan des attitudes, des comportements et des apprentissages, et ils font part de leurs pratiques de différenciation qu’ils

C’est ce modèle qui a été utilisé pour évaluer les performances du système agricole dominant et simuler les impacts des scénarios politiques et technologiques sur la

Ensuite, nous avons montré que l'augmentation de la pression temporelle (Etude 4-5), réputée pour favoriser la sélection précoce d'une cible, peut au contraire, dans

 La prise en compte des relations entre concepts dans le modèle Bayésien par rapport au modèle VSM de l'indexation conceptuelle : 5.8% de MAP avec 20/30 requêtes améliorées. A