• Aucun résultat trouvé

1.3 Les mod`eles-piliers de la Recherche

1.3.1 Les mod`eles de RI classiques

1.3.1.1 Le mod`ele bool´een

Le mod`ele bool´een [174] est le plus simple des mod`eles de RI. C’est aussi le premier qui s’est impos´e dans le monde de la recherche d’information.

Il est bas´e sur la th´eorie des ensembles et l’alg`ebre de Boole. Le mod`ele bool´een consid`ere que les termes de l’index sont pr´esents ou absents d’un document. En cons´equence, les poids des termes dans l’index sont binaires, c’est `a dire wi,j ∈ {0, 1}. Une requˆete q est compos´ee de termes li´es par les trois connec-

teurs logiques ET, OU, NON.

La similarit´e entre un document et une requˆete est d´efinie par : rsv(q, d) =

(

1 si d appartient `a l’ensemble d´ecrit par la requˆete

0 sinon (1.1)

Ainsi, le mod`ele bool´een affirme que chaque document est soit pertinent soit non-pertinent. Il n’y a pas de notion de r´eponse partielle aux conditions de la requˆete. Par exemple, consid´erons un document contenant les trois termes re- cherche, information et traditionnelle. Ce document ne sera pas pertinent pour la requˆete ’recherche ET information ET traditionnelle ET mod`ele’.

Le mod`ele bool´een est le pionnier des syst`emes de recherche d’information commerciaux. Son principal avantage est sa transparence. En effet, pour l’uti- lisateur, la raison pour laquelle un document a ´et´e s´electionn´e par le syst`eme est claire : il r´epond exactement `a la requˆete qui a ´et´e formul´ee.

Cependant, il est parfois difficile pour l’utilisateur d’exprimer son besoin en information avec des expressions bool´eennes, et les expressions bool´eennes for- mul´ees sont g´en´eralement tr`es simples, ce qui ne permet pas d’utiliser au mieux les caract´eristiques du mod`ele. De plus, le fait que la pertinence soit bas´ee sur un crit`ere binaire sans notion d’´echelle de gradualit´e empˆeche le mod`ele d’avoir de bonnes performances. Enfin, les r´esultats de la fonction de similarit´e (1 ou 0) ne permettent pas de fournir `a l’utilisateur une liste ordonn´ee de r´esultats. Aujourd’hui, il est connu qu’une pond´eration non binaire des termes de l’index peut amener `a des am´eliorations notables des performances. La pond´eration de ces termes nous am`ene donc `a introduire le mod`ele vectoriel.

1.3.1.2 Le mod`ele vectoriel

Le mod`ele vectoriel fait partie des mod`eles statistiques. L’utilisation des statistiques a pour but d’une part de caract´eriser d’un point de vue quantitatif les termes et les documents et d’autre part de mesurer le degr´e de pertinence d’un document vis `a vis d’une requˆete. Le but final est d’arriver `a retourner une liste ordonn´ee de documents selon ce degr´e. Un autre avantage r´eside dans l’expression des besoins de l’utilisateur : contrairement au mod`ele bool´een o`u les termes de la requˆete doivent ˆetre reli´es par des connecteurs logiques, l’utili- sateur peut ici aussi exprimer son besoin en information en langage naturel ou sous forme d’une liste de mots cl´es.

Luhn [129] a ´et´e le premier `a proposer une approche statistique de recherche d’information `a la fin des ann´ees 1950. Il sugg`ere que l’utilisateur fournisse un document qui ressemble `a son besoin en information. La mesure de similarit´e entre le document fourni et la repr´esentation des documents de la collection est utilis´ee pour ordonner ces documents. Le crit`ere de similarit´e est ainsi d´efini :

Plus deux repr´esentations contiennent les mˆemes ´el´ements, plus la probabilit´e qu’elles repr´esentent la mˆeme information est ´elev´ee.

Une telle d´efinition revient en fait `a compter le nombre d’´el´ements que par- tagent la requˆete et la repr´esentation du document. Pour ce faire, consid´erons la repr´esentation d’un document comme un vecteur→dj= {w1,j, w2,j, . . . , wt,j} ,

o`u wi,j est le poids (0 ou 1) des termes dans le documents, t ´etant le nombre

total de termes de l’index, et consid´erons la repr´esentation de la requˆete comme un vecteur →q = {w1,q, w2,q, . . . , wt,q}, avec les mˆemes notations. La mesure de

similarit´e la plus simple est alors le produit scalaire : RSV (→dj, → q ) = t X i=1 wi,j ∗ wi,q (1.2)

Comme les poids des termes sont binaires, la mesure de similarit´e mesure le nombre de termes partag´es entre le document et la requˆete.

Salton [173] a propos´e un mod`ele bas´e sur cette mesure de similarit´e dans son projet SMART (Salton’s Magical Automatic Retriever of Text). Le document (vecteur →d ) et la requˆete (vecteur →q ) sont repr´esent´es l`a encore dans un espace Euclidien de dimension ´elev´ee engendr´e par tous les termes de l’index. La si- milarit´e est alors le cosinus de l’angle form´e par les deux vecteurs :

RSV (→dj, → q ) = → dj . → q → dj ∗ →q

=

Pt

i=1wi,j ∗ wi,q

qPt

i=1wi,j2 ∗

qPt i=1wi,q2

(1.3) D’autres fonctions de similarit´e ont ´et´e propos´ees dans la litt´erature, parmi lesquelles on peut citer les mesures de Jaccard et Dice.

Les documents sont ainsi class´es en fonction de la mesure de l’angle qu’ils forment avec le vecteur requˆete. L’aspect le plus int´eressant de cette mesure est l’influence d’un terme isol´e sur le score de recherche. Si un terme est pr´esent `a la fois dans la requˆete et le document, il contribue au score. S’il est pr´esent uniquement dans l’un des deux, il diminue le score parce que la requˆete et le document se correspondent moins.

Plusieurs algorithmes de recherche d’information ont prouv´es leur performance lorsque les vecteurs requˆete et documents ´etaient normalis´es. L’algorithme d’ap- prentissage de Rocchio en est un exemple [169].

Venons-en maintenant `a la pond´eration des termes. Les travaux de Salton [174] ont montr´e qu’il ne s’agissait pas d’un probl`eme trivial, mais les pond´erations selon TF et IDF restent les plus courantes et les plus simples.

Les avantages d’un tel mod`ele sont nombreux : la pond´eration des termes aug- mente les performances du syst`eme, le mod`ele permet de renvoyer des docu- ments qui r´epondent approximativement `a la requˆete, et la fonction d’appa- riement permet de trier les documents selon leur degr´e de similarit´e avec la requˆete.

Th´eoriquement, le mod`ele vectoriel a l’inconv´enient de consid´erer que les termes de l’index sont tous ind´ependants. Cependant en pratique, la prise en compte globale de la d´ependance des termes peut faire baisser la qualit´e des r´eponses d’un syst`eme (puisque les d´ependances sont g´en´eralement locales).

De nombreuses m´ethodes d’ordonnancement des r´esultats ont ´et´e compar´ees au mod`ele vectoriel, et celui-ci, malgr´e sa simplicit´e, est sup´erieur ou au moins aussi bon que les autres alternatives. C’est pour toutes ces raisons qu’aujour- d’hui le mod`ele vectoriel est le plus populaire en recherche d’information.

1.3.1.3 Le mod`ele probabiliste

Le mod`ele probabiliste aborde le probl`eme de la recherche d’information dans un cadre probabiliste. Le premier mod`ele probabiliste a ´et´e propos´e par Maron et Kuhns [133] au d´ebut des ann´ees 1960. Le principe de base consiste `a pr´esenter les r´esultats de recherche d’un SRI dans un ordre bas´e sur la pro- babilit´e de pertinence d’un document vis-`a-vis d’une requˆete. Robertson [164] r´esume ce crit`ere d’ordre par le ”principe de classement probabiliste”, aussi d´esign´e par PRP (Probability Ranking Principle).

Etant donn´ee une requˆete utilisateur, il y a un ensemble des documents qui contient exactement les documents pertinents et aucun autre. Nous appelle-

rons cet ensemble l’ensemble de r´eponse id´eal. Si l’on connaˆıt la description de cet ensemble id´eal, on n’aura aucun probl`eme `a retrouver les documents qui le composent. R´epondre `a une requˆete revient donc `a sp´ecifier les propri´et´es de cet ensemble id´eal.

Ce n’est bien sˆur pas si simple que cela. Comme les propri´et´es de l’ensemble id´eal ne sont pas connues au moment de la requˆete, il faut d’abord deviner ce qu’il pourrait ˆetre. Cette premi`ere tentative permet de g´en´erer une premi`ere description probabiliste de l’ensemble, qui est ensuite utilis´ee pour retrouver un premier ensemble de documents. Il faut ensuite une interaction avec l’utili- sateur pour am´eliorer la description probabiliste de l’ensemble id´eal (ou plutˆot de l’´echantillon repr´esentant cet ensemble id´eal) [164].

Le processus de recherche se traduit par calcul de proche en proche, du degr´e ou probabilit´e de pertinence d’un document relativement `a une requˆete. Pour ce faire, le processus de d´ecision compl`ete le proc´ed´e d’indexation probabiliste en utilisant deux probabilit´es conditionnelles :

– P (wij/P ert) : probabilit´e que le terme ti occurre dans le document dj

sachant que ce dernier est pertinent pour la requˆete.

– P (wij/NonP ert) : que le terme ti occurre dans le document dj sachant

que ce dernier n’est pas pertinent pour la requˆete.

Le calcul d’occurrences des termes d’indexation dans les documents est bas´e sur l’application d’une loi de distribution sur un ´echantillon repr´esentatif de documents d’apprentissage. En posant les hypoth`eses suivantes :

– la distribution des termes dans les documents pertinents est la mˆeme que leur distribution par rapport `a la totalit´e des documents.

– les variables ”document pertinent”, ”document non pertinent” sont ind´e- pendantes.

La fonction de recherche est obtenue en calculant la probabilit´e de perti- nence d’un document D, not´ee P (P ert/D) [211] :

P (P ert/D) = t X i=1 log P (wij/P ert) P (wij/NonP ert) (1.4)

On trouvera dans [164] les formules utilis´ees pour calculer la similarit´e entre une requˆete et un document. Retenons seulement que Robertson propose aussi des formules permettant de se passer de l’intervention de l’utilisateur.

Parmi les applications du mod`ele probabiliste, citons le mod`ele 2-Poisson d´eve- lopp´e par Robertson et Walker [167] ou bien encore moteur de recherche Okapi [166, 217].