• Aucun résultat trouvé

3.3 Concepts avancés de recherche d’information

3.3.6 Conclusion

Les outils de recherche existants sont génériques, pragmatiques et offrent un accès à l’information acceptable pour des sujets basiques. Les moteurs (et méta-moteurs) de recherche nous relient à des milliards de documents qui peut être consultés rapidement grâce des mots clé. La recherche par mot clé plein constitue le point de départ pour la majorité des utilisateurs. Cependant, si cette stratégie fonctionne bien pour une minorité de requêtes, l’utilisateur type est souvent confronté soit avec une liste de résultats vide ou avec une liste contenant des milliers, voire des millions, de réponses possibles (Eissen et Stein, 2002). Il devient donc évident que la connaissance de l’usage des outils et méthodologies basiques de recherche d’information forment un pré-requis nécessaire, mais non suffisant à l’activité de collecte d’informations pertinentes, particulièrement pour le domaine de la science.

Chapitre

Qualité de l’information

Le langage secret de la statistique, si attractif dans

une société qui vit beaucoup de faits et de chiffres,

peut être employé pour faire du sensationnel, pour

gonfler les résultats ou pour simplifier à l’extrême.

.

Y-F. Le Coadic

Introduction

P

our l’usage commun, une recherche d’informations est synonyme de requête passée

sur le moteur commercial Google. Quelques mots clés sont proposés en entrée pour un résultat souvent supérieur au million de réponses. L’utilisateur se heurte alors au dilemme :

– Choisir au hasard quelques réponses parmi celles proposées dans la première page ; – effectuer une fouille poussée par analyse systématique des centaines de pages de réponses jusqu’à avoir trouvé une réponse pertinente. Nous allons, pour traiter de la pertinence de l’information, définir quelques termes.

Résultat ad hoc ou ad hoc retrieval (Manning et al., 2008)

. La locution latine ad hoc signifie « pour cela », employé ici comme adjectif peut être compris comme qui « en réponse à un besoin spécifique ».

Dans notre contexte de RI, trouver une réponse ad hoc à notre besoin d’information1

signifie que la recherche produit un document qui soit en adéquation complète avec notre requête dans le contexte précis et arbitraire qui est le notre.

Pertinence

Le terme de pertinence, en français peut être traduit dans la littérature anglaise « relevance », ou « aboutness » qui désigne l’à propos ou l’adéquation. Cooper (1971) a fourni une définition de la pertinence logique comme une base formelle, donc un critère objectif, pour l’évaluation des systèmes de recherche. La pertinence de son point de vue est qualitative, donc intrinsèque.

Wilson (1973), bien que s’appuyant sur les travaux de Cooper pour le côté qualitatif d’un document, contextualise l’intérêt d’un document. Pour lui, la pertinence d’un document dépend en premier lieu du problème particulier étudié.

4.1 RI et qualité de l’information

Pour aller plus loin dans le domaine de la contextualisation de l’information perti- nente, Saracevic (1975) déclarait qu’une information est pertinente (ou non), que par rapport à quelque chose, ici un sujet de recherche et dans un contexte bien particulier.

C’est dans cette optique que Pia Borlund (2003) écrivait cette phrase, qui de notre point de vue synthétise la notion de contexte et de l’individualité de la pertinence : « Pertinence represents the intellectual relation between the intrinsic human information

need and the information objects as currently interpreted or perceived by the cognitive

state of an assessor or user.2 ». Elle déclare également que même si un document est

vraisemblablement pertinent relativement à sujet donné, cette pertinence est tout de même interprétée par des individus différents dans des contextes différents. Un travail,

1. Nous étudions plus longuement le besoin d’information dans le chapitre5.1.

2. Proposition de traduction : La pertinence représente la relation intellectuelle entre le besoin d’informations humaine intrinsèque et les objets d’information tel qu’il est interprété ou perçu par l’état cognitif de l’utilisateur.

quelle que soit l’excellence de sa facture, ne sera, du point de vue du lecteur, pertinent que dans un cadre bien particulier.

Nous nous rangeons à l’avis de Borlund. Nous ne mesurerons donc la pertinence d’un document que dans un contexte et de notre point de vue, par uniquement par rapport au sujet étudié. Nous gardons cependant à l’esprit qu’il existe des facteurs indéniables de qualité intrinsèque, qui peuvent influer sur le choix d’un document ou son rejet (voir partie 1.2). D’un point de vue pratique, pour mesurer la pertinence les critères principaux sont le rappel et la précision (voir 4.2 et 4.3). Comme indiqué dans les paragraphes suivants 5, du point de vue d’un demandeur d’information, la pertinence peut être considérée comme une décision de sélection dans le processus de recherche d’information. Pour mener à bien une recherche qualitativement satisfaisante et pertinente, un utilisateur aimera connaître la « qualité » des documents référencés dans le SRI. Cet usager aimera également connaître les statistiques clés sur les résultats retournés par système pour une requête :

– L’efficacité

Une recherche est efficace si l’utilisateur perçoit les documents retournés comme des informations de valeur par rapport à son besoin d’informations personnel. – Précision et exactitude

La précision répond à une question simple : Quel pourcentage des résultats renvoyés est considéré par l’utilisateur comme exploitable ? Les documents exploitables sont ceux dont le contenu est exact et démontré, mais également pertinent dans le cadre défini par le besoin d’informations.

– Rappel

Quelle fraction des documents pertinents dans la collection parcourue ont été retournés par le système ?

– La première option, le plus souvent, choisie n’est efficace que si les mots clés choisis pour la requête sont suffisamment représentatifs du domaine du champ sémantique du concept recherché. De plus, le thème de recherche ne doit pas présenter d’ambiguïté pour ne pas renvoyer trop de réponses sans intérêt.

– La deuxième option est sujette au hasard Il est tout à fait possible de trouver une ou plusieurs réponses pertinentes rapidement, mais l’utilisateur est le plus souvent

« submergé » sous la masse d’informations1 non pertinentes et cette méthode plus

Figure 4.1: Résultat de recherche d’informations documentaire

précise est chronophage. Pierre Lévy (1998) utilisait une expression très imagée de « déluge informationnel » pour qualifier la surcharge informationnelle.

Nous proposons de représenter la recherche et résultat d’une requête, dans le cadre de la RI, de la manière suivante :

Soit un ensemble N de documents (le corpus), A est un sous-ensemble de N qui comporte les réponses pertinentes retournées par la requête x d’un usager, B est le sous-ensemble de N constitué des réponses obtenues. On note C l’ensemble théorique de toutes les réponses pertinentes du corpus.

’x: ÷ ( A , B , N) tq. A µ B µ N (4.1)