• Aucun résultat trouvé

problème dicile aux multiples facettes

2.3 Explorer les informations .1 Introduction.1 Introduction

2.3.3 Pertinence : mesure et stratégies d'amélioration

2.3.3.1 Introduction

La notion de pertinence a été introduite comme réponse au problème d'évalua-tion des résultats des systèmes de Recherche d'Informad'évalua-tion. C'est une problématique

centrale pour nombre de travaux en Recherche d'Information, ainsi que le montre Mizarro dans son historique de la thématique [Mizzaro, 1997]. Elle reste aussi d'actu-alité dans le cadre du problème de synthèse, une évaluation objective ou subjective de la qualité du résultat produit par le système étant un élément standard de la qualité logicielle.

Cette notion de pertinence pose tout d'abord le problème conjoint de sa déni-tion et de sa mesure, préalable à la mise en place de stratégies d'amélioradéni-tion des performances des systèmes de Recherche d'Information.

2.3.3.2 Une pertinence multidimensionnelle dicilement mesurable

Dans le contexte d'évaluation des systèmes de Recherche d'Information, les mesures qui ont rapidement émergé et restent parmi les plus courantes sont la précision (nombre de documents jugés pertinents parmi ceux retournés par le sys-tème) et le retour (recall en anglais, nombre de documents retournés parmi le nombre total de documents disponibles). Il s'agit de mesures simples et très math-ématiques, qui présentent l'avantage de permettre des évaluations et comparaisons entre systèmes au sein de campagnes telles que TREC2, mais qui posent pourtant un double problème, de calcul et d'adéquation au problème d'évaluation.

Tout d'abord, même ces métriques simples, qui sont bien acceptées et utilisées au quotidien dans la communauté, sont diciles à mesurer dans les corpus documen-taires actuels. Il est en eet, même dans des collections de test, dicile d'envisager une revue de tous les documents, à la lumière de toutes les requêtes possibles, par des juges humains. Ainsi, pour TREC, les jugements de pertinence de référence sont en partie ceux des divers systèmes en compétition.

Indépendamment du problème d'évaluation de la mesure, se pose la question de la nature de la mesure, et plus particulièrement de ce qu'il faudrait mesurer. Les mesures de type précision et retour sont très proches du système, pertinence algorithmique qui n'est pas forcément susante alors que l'objectif de la Recherche d'Information est de répondre à un besoin informationnel de l'utilisateur. Ce constat a conduit à l'émergence de diverses notions de pertinence, tendant vers la prise en compte de valeurs subjectives, toutes aussi valides les unes que les autres selon le point de vue adopté [Saracevic, 1975]. Ainsi [Mizzaro, 1998] considère les diverses notions de pertinence comme des relations entre deux dimensions à plusieurs niveaux d'abstraction : le besoin (besoin réel, besoin perçu, requête intentionnelle et requête formulée) et l'information (information, documents et représentation de documents). [Borlund, 2003] présente une analyse similaire des diérents degrés et niveaux de pertinence et insiste sur l'aspect dynamique de la notion, celle-ci évoluant en cours de processus de recherche en conjonction avec une évolution des besoins utilisateur.

La notion de pertinence apparaît alors comme une notion oue et multifacettes qui est mal reétée par les mesures simples communément admises. Cette multidi-mensionnalité présente aussi l'avantage de permettre d'envisager des améliorations des performances des systèmes de Recherche d'Information selon divers axes, cor-respondant à des dimensions diérentes de la pertinence considérée, thème évoqué dans le prochain paragraphe.

2.3.3.3 Multiples stratégies d'amélioration des performances

Les diverses notions de pertinence se sont complexiées en prenant en compte des dimensions de haut niveau d'abstraction telles que le besoin utilisateur réel ou perçu ou la notion d'information par opposition aux documents qui sont censés la con-tenir. De la même façon, l'amélioration des performances des systèmes de Recherche d'Information passe généralement par une complexication des représentations des éléments intervenant dans le système.

Classiquement, les systèmes de Recherche d'Information font intervenir une fonc-tion de correspondance entre une représentafonc-tion du corpus documentaire et une représentation du besoin sous forme de requête. Les diverses stratégies d'évolution des logiciels de recherche en général cherchent à aller vers une représentation de plus haut niveau d'abstraction selon une ou plusieurs de ces trois dimensions.

Ainsi, pour les algorithmes de correspondance, le modèle booléen où chaque doc-ument contient ou non des termes de la requête, et est ainsi pertinent ou non, est dépassé par des algorithmes aux résultats plus nuancés. Ces algorithmes permettent une évaluation plus ne d'un degré de pertinence, autorisant alors un ordonnance-ment des docuordonnance-ments par une valeur de pertinence. Dans ce cadre, on peut citer entre autres les modèles vectoriels ou probabilistes.

En ce qui concerne les dimensions corpus documentaire et utilisateur, a été in-troduite la notion de Recherche d'Information en Contexte qui regroupe l'ensemble des paradigmes visant à une meilleure prise en compte tout à la fois des documents, de leur contenu et en particulier leur sémantique, des besoins de l'utilisateur et leur expression, de l'usager, sa connaissance du monde et ses préférences, autant de di-mensions qui sont introduites dans [Cool and Spink, 2001], par exemple, et explorées dans les divers articles de [Ingwersen et al., 2005].

Plus précisément, est introduite une notion d'utilisateur en tant que tel, qui n'est plus réduit à l'expression de ses besoins et ne se limite plus à une liste de mots clés. L'utilisateur devient une entité individuelle qui interagit dans un processus cyclique avec le système. Cette notion d'interaction, devenue centrale dans les systèmes de Recherche d'Information, est l'objet du prochain paragraphe.

On peut aussi noter la prise en compte de niveaux d'abstraction plus élevés que les simples vecteurs de mots, par l'enrichissement conjoint de la représentation du cor-pus documentaire et de la requête. Cet enrichissement sémantique du corcor-pus docu-mentaire, qui passe souvent par la prise en compte de représentation de connaissances telles qu'évoquées Paragraphe2.4.4.2, permet tout d'abord de résoudre partiellement le problème du fossé sémantique entre le multimédia, de plus en plus présent dans les bases documentaires, et le textuel, en fournissant une base solide à l'annota-tion d'images, vidéos, sons, etc. Un exemple pourrait être [Bontas et al., 2004] dans le domaine de la pathologie. L'enrichissement sémantique de la collection de docu-ments apporte aussi de nouvelles dimensions sur lesquelles bâtir des requêtes, comme présenté dans le paragraphe suivant.