• Aucun résultat trouvé

Quoi chercher ? Où chercher ? Comment chercher ? Il s’agit des trois questions fon- damentales auxquelles un système de RI doit répondre. La première question introduit la notion de requête que nous présentons dans la section suivante. La requête permet à l’utilisateur de spécifier son besoin. Plusieurs réponses peuvent correspondre à la re- quête de l’utilisateur. La question Où chercher ? (section 1.2.2) s’attache quant à elle à la notion de document et de collection de documents qui sont utilisés par les SRI (section 1.2.3) pour retourner à l’utilisateur une liste de documents correspondant à sa requête. Nous terminons cette section en présentant les différentes stratégies de re- cherche (section 1.2.3) mises en place dans les SRI pour répondre à la troisième question et retrouver les documents pertinents répondant à la requête de l’utilisateur.

1.2.1 La requête

Dans le cadre de la RI, le besoin d’information est spécifié par un utilisateur au moyen d’une requête généralement exprimée par quelques mots. Les requêtes exprimées sous forme d’une liste de mots clés sont les plus couramment utilisées en RI ; les mots clés pouvant être reliés par des opérateurs booléens (ET, OU, NON,. . .). Les requêtes peuvent aussi être exprimées en langage naturel. C’est le cas par exemple des requêtes issues de la campagne d’évaluation TREC. Nous nous intéressons dans cette thèse à ce type de requêtes sur lesquelles nous appliquons un certain nombre de traitements linguistiques (cf. chapitre 2 et nos contributions).

L’expression du besoin de l’utilisateur est une étape cruciale dans la recherche d’in- formation [SJ95] et engendre des répercussions sur le déroulement de la recherche ainsi que sur la qualité des réponses qui sont données. Le but que l’utilisateur cherche à at- teindre en spécifiant sa requête est d’obtenir des informations conformes à son besoin. Son besoin étant exprimé à l’aide d’une requête, l’utilisateur doit choisir les "bons" mots dans sa requête pour maximiser ses chances d’obtenir des documents pertinents car son besoin d’information est d’abord mental. Les documents répondant à son besoin sont soit pertinents soit non pertinents. Nous définirons plus précisément dans la section 1.5.1 la notion de pertinence. À l’issue de la RI, une liste de documents est retournée à l’utilisateur en fonction de leur pertinence supposée.

1

Concepts de base de la RI 29

Nous présentons dans la section suivante les sources d’information utilisées lors de la RI pour répondre à la requête de l’utilisateur.

1.2.2 Le document et la collection de documents

Dans le cadre de nos travaux, les documents textuels sont les supports de l’informa- tion que recherche l’utilisateur. Les documents textuels peuvent exister sous une forme structurée ( documents html, documents xml (INEX2).) ou non. Nos recherches s’inté- ressent plus spécifiquement aux documents textuels non structurés. Dans la suite de ce manuscrit, nous utilisons le terme document pour nommer ce type de documents.

Pour résumer, on peut dire que les collections de documents sont une source d’infor- mation "globale" dans laquelle l’utilisateur pouura satisfaire son besoin d’information, alors que les documents constituent l’unité d’information retournée à l’utilisateur à l’issue du processus de RI.

Pour faire correspondre un ensemble de documents à une requête, il est nécessaire de disposer d’une technique de mise en correspondance. Nous présentons dans la section suivante la notion de SRI qui permet entre autres, cette mise en correspondance.

1.2.3 Les systèmes de recherche d’information

Un certain nombre de mécanismes sont mis en place à travers des SRI pour permettre la mise en correspondance entre les documents et les requêtes. Les SRI sont des moteurs de recherche chargés de retrouver les documents pertinents pour une requête donnée. Un SRI est composé de deux parties très liées. La première partie est visible, et constitue une interface entre l’utilisateur et les collections de documents. C’est grâce à cette interface que l’utilisateur spécifie sa requête, et reçoit en résultat une liste de documents ordonnés par degré de pertinence supposé. La deuxième partie est "cachée" et repose sur un modèle théorique permettant de faire la mise en correspondance des requêtes et de la collection.

Il existe un certain nombre de modèles théoriques dans la littérature les plus connus étant le modèle booléen [Sal71b], le modèle vectoriel [SL68], [Sal71b], et le modèle probabiliste [RSJ76]. Dans le modèle booléen, les requêtes sont représentés sous forme de termes reliés par des opérateurs booléens (ET, OU, NON, . . .). Le modèle vectoriel [SM86] considère les documents et les requêtes comme des vecteurs pondérés, chaque élément du vecteur représentant le poids d’un terme dans la requête ou le document. Le modèle probabiliste tente d’estimer la probabilité qu’un document donné soit pertinent pour une requête donnée.

Il existe de nos jours des modèles plus évolués que les modèles qui viennent d’être présentés. On peut citer par exemple les modèles de logique floue [OMK91] ou les modèles booléens étendus [SFW83] (vs modèles booléens), le modèle vectoriel généra- lisé [WZW85], les modèles LSI (Latent Semantic Indexing ) [FDD+88] ou neuronaux

2

30 Les principes de base de la RI

[WH91] (vs modèles vectoriels), les modèles bayésiens [Pea88], inférentiels [TC90], les réseaux de croyance [RNM96] (vs modèles probabilistes). Nous limitons notre présen- tation aux trois premiers modèles.

1.2.4 Le processus de RI

Les SRI tentent de fournir une réponse à un besoin spécifié par l’utilisateur, en mettant en correspondance la requête et les documents d’une collection. Le processus de RI décrit les différentes étapes à travers lesquelles une liste de documents est restituée à l’utilisateur. Ce processus est souvent appelé processus en U [BC92], et se décompose en deux étapes principales : l’indexation ( [DDL+90], [SJ95], [Sal71a]) et la recherche.

La première étape (ou indexation) peut être vue comme une phase de préparation pendant laquelle le SRI analyse chaque document de la collection afin d’en extraire les mots les plus discriminants apellés index [VR79]. L’ensemble des index d’un document constitue son descripteur et permet un accès rapide au document.

La deuxième étape (ou recherche) décrit la manière dont le SRI compare les des- cripteurs des documents avec ceux de la requête, et calcule un score de similarité entre le document et la requête. Le calcul de similarité est effectué à l’aide de modèles de recherche tels que le modèle booléen, le modèle vectoriel, ou le modèle probabiliste par exemple. Nous donnons plus de détails sur ces modèles dans la section 1.4. La figure 1.1 représente un schéma du processus de RI.

Dans la figure 1.1, 2 niveaux conceptuels sont représentés et concernent aussi bien les documents que les requêtes. Les niveaux conceptuels décrivent les grandes phases du processus de recherche.

Le niveau 1 correspond à la phase d’ indexation. Cette étape est détaillée dans la section 1.3. Durant cette étape, la requête Q est soumise au SRI sous sa forme brute3 et, après l’ indexation, la requête et les documents sont représentés chacun par leurs descripteurs. La pondération permet de traduire l’importance que le SRI accorde aux différents index. Elle fait souvent suite à l’ indexation.

Le niveau 2 représente la phase de recherche. Ce niveau est matérialisé par le calcul du degré de similarité entre la requête et les documents. Grâce à cette mesure de si- milarité, une liste de documents potentiellement pertinents est restituée à l’utilisateur. L’utilisateur juge alors la pertinence des documents qui lui sont restitués.

La requête et la collection de documents sont des éléments qui peuvent être consi- dérés indépendants des SRI. En effet, quel que soit le SRI utilisé pour la recherche, la structure initiale de la requête (formulation de la requête) et des documents (contenu des documents) reste inchangée. La manière d’indexer les requêtes et les documents

3c’est à dire qu’aucun vocabulaire spécifique n’est utilisé et aucune transformation n’est effectuée

L’ indexation en RI 31

Fig. 1.1 – Schéma de la RI inspiré de [Fur92]

est fortement liée au SRI utilisé. La description des requêtes est faite lors des phases d’analyse de la requête et la description des documents pendant la phase d’ indexation des documents. Nous détaillons dans la section suivante le principe de l’ indexation.