• Aucun résultat trouvé

1.3 Les mod`eles-piliers de la Recherche

1.3.4 Autres mod`eles probabilistes

1.3.4.1 Les r´eseaux bay´esiens

Les r´eseaux bay´esiens [150] sont des graphes directs acycliques dans les- quels les noeuds repr´esentent des variables al´eatoires, et les liens des relations de d´ependance entre ces variables. En associant des probabilit´es initiales pour les racines du graphe, on calcule de proche en proche le degr´e de croyance associ´e `a chacun des noeuds restants. Deux ´ecoles traditionnelles en probabi- lit´e s’affrontent : l’une est bas´ee sur l’aspect fr´equentiel et l’autre sur l’aspect ´epist´emologique. L’approche fr´equentielle prend les probabilit´es comme une no- tion statistique reli´ee aux lois du hasard. L’approche ´epist´emologique interpr`ete les probabilit´es comme un degr´e de croyance dont les sp´ecifications viennent de statistiques exp´erimentales.

Les r´eseaux inf´erentiels bay´esien [209] consid`erent le probl`eme de la recherche d’information d’un point de vue ´epist´emologique. Ils associent des variables

al´eatoires avec les termes de l’index, les documents et les requˆetes de l’utilisa- teur. Les termes de l’index et les documents sont repr´esent´es comme des noeuds. Une variable al´eatoire associ´ee avec un document dj repr´esente l’´ev´enement

d’observer ce document. Les arcs sont dirig´es du noeud document vers ses noeuds termes : ainsi, l’observation d’un document est la cause d’une aug- mentation de la valeur des variables associ´ees avec ses termes d’index. La va- riable al´eatoire associ´ee `a la requˆete de l’utilisateur mod´elise l’´ev´enement que la requˆete d’information sp´ecifi´ee dans la requˆete a ´et´e v´erifi´ee. La valeur de ce noeud requˆete est une fonction des valeurs des noeuds associ´es aux termes de la requˆete. Ainsi, les arcs sont orient´es des noeuds des termes de l’index vers le noeud de la requˆete.

La figure 1.7, issue de [209], illustre un r´eseau inf´erentiel bay´esien simple de pertinence d’un document vis `a vis d’une requˆete compos´ee de trois termes. L’´ev´enement ”la requˆete est accomplie” (Q=1) est r´ealis´e si le sujet li´e `a un

Q

T1 T2 T3

D

Fig. 1.7 – Mod`ele de r´eseau inf´erentiel bay´esien simple

terme est vrai (T1=1, T2=1 ou T3=1), ou une combinaison de ces ´ev´enements. Les trois sujets sont inf´er´es par l’´ev´enement ”le document est pertinent” (D=1). Par l’enchaˆınement de r`egles de probabilit´es, la probabilit´e jointe des autres noeuds du graphe est :

P (D, T 1, T 2, T 3, Q) = P (D) P (T 1|D) P (T 2|D, T 1) P (T 3|D, T 1, T 2) P (Q|D, T 1, T 2, T 3)

La direction des arcs indiquant les relations de d´ependance entre les variables al´eatoires, l’´equation devient :

P (D, T 1, T 2, T 3, Q) = P (D)P (T 1|D)P (T 2|D)(T 3|D)P (Q|T 1, T 2, T 3)

La probabilit´e de r´ealisation de la requˆete P (Q = 1|D = 1) peut ˆetre utilis´ee comme score d’ordonnancement des documents :

P (Q = 1|D = 1) = P (Q = 1, D = 1) P (D = 1)

=

P

P (D = 1, T 1 = t1, T 2 = t2, T 3 = t3, Q = 1)

P (D = 1) (1.13)

Le mod`ele n´ecessite la connaissance de P (D = [0|1]), P (T i = [0|1]|D = [0|1]), P (Q = [0|1]| (T 1, T 2, . . . , T n) ∈ {0, 1}n ), cette derni`ere ´etant la plus difficile `a trouver car le nombre de probabilit´es `a sp´ecifier augmente exponentiellement avec le nombre de termes de la requˆete. Pour r´esoudre ce probl`eme, Turtle [208] a identifi´e quatre formes canoniques de P (Q|T 1, T 2, . . . T n) : and, or , sum et wsum.

Le mod`ele inf´erentiel bay´esien a ´et´e mis en oeuvre dans le syst`eme Inquery [7]. Le cadre probabiliste dans lequel se situe Inquery peut ˆetre utilis´e pour for- muler des requˆetes simples bas´ees sur des mots cl´es, des requˆetes bool´eennes, des requˆetes bas´ees sur des phrases ou bien une combinaison des trois types [52]. Pour ce faire, Inquery propose des op´erateurs de moyenne et de moyenne pond´er´ee, des op´erateurs bool´eens probabilistes ou stricts (on conserve alors les probabilit´es), des op´erateurs de proximit´e et de synonymie. Une proc´edure d’analyse de la requˆete permet de g´en´erer une forme inf´erentielle prˆete `a ˆetre ´evalu´ee. Inquery propose ´egalement une expansion de requˆete.

Bas´es sur les r´eseaux inf´erentiels bay´esiens, les ”belief networks” ont ´et´e in- troduits en 1996 par Ribeiro-Neto et Muntz [163]. Ils sont aussi bas´es sur une interpr´etation ´epist´emologique des probabilit´es, mais travaillent dans un es- pace diff´erent. En cons´equence, on obtient une topologie de r´eseau diff´erente, qui permet la s´eparation entre l’espace des documents et l’espace des requˆetes. On peut ainsi combiner des sources distinctes d’´evidence (requˆetes pass´ees, cycles de feedback pr´ec´edents, formulations distinctes de requˆetes), ce qui per- met d’augmenter les performances du syst`eme (c’est `a dire augmenter la qualit´e de la liste ordonn´ee de documents renvoy´ee par le syst`eme).

Dans [213], le document est repr´esent´e dans le r´eseau de deux fa¸cons diff´erentes (les termes du titre et les termes du r´esum´e du document), et la requˆete peut aussi ˆetre repr´esent´ee par des requˆetes diff´erentes.

L’inconv´enient principal des r´eseaux bay´esiens reste le calcul des probabilit´es, qui demande un temps exponentiel au nombre de termes dans la requˆete mˆeme si l’introduction des quatre formes canoniques dans [208] r´esout partiellement le probl`eme.

1.3.4.2 Les mod`eles de langage

Dans les mod`eles de recherche probabilistes ”classiques”, on cherche `a esti- mer la probabilit´e que le document r´eponde `a la requˆete. L’hypoth`ese de base dans ces mod`eles est qu’un document n’est pertinent que s’il ressemble `a la requˆete. Les mod`eles de langage sont bas´es sur une hypoth`ese diff´erente : un utilisateur en interaction avec un syst`eme de recherche fournit une requˆete en pensant `a un ou plusieurs documents qu’il souhaite retrouver. La requˆete est

alors inf´er´ee par l’utilisateur `a partir de ces documents. Un document n’est per- tinent que si la requˆete utilisateur ressemble `a celle inf´er´ee par le document. On cherche alors `a estimer la probabilit´e que la requˆete soit inf´er´ee par le document [159,25]. Les mod`eles de langages calculent cette probabilit´e et l’utilisent pour ordonner les documents. Etant donn´e une requˆete T1, T2, . . . , Tn, les documents

sont ordonn´es selon la mesure suivante : P (T1, T2, . . . , Tn|D) =

n

Y

i=1

((1 − λi)P (Ti) + λiP (Ti|D)) (1.14)

Cette mesure est une combinaison lin´eaire du mod`ele de document et du mod`ele de contexte du document (la collection), o`u : λi est la probabilit´e que le terme

`a la position i soit important, 1 − λi est la probabilit´e que le terme ne soit

pas important, P (Ti|D) est la probabilit´e d’un terme important et P (Ti) est

la probabilit´e d’un terme sans importance. Les probabilit´es sont d´efinies de la mani`ere suivante : P (Ti|D) = tf (Ti|D) P T tf (T, D) , terme important (1.15) P (Ti) = df (Ti) P Tdf (T )

, terme sans importance (1.16) o`u tf (Ti|D) est la fr´equence du terme Ti dans le document D et df (T ) est

le nombre de documents dans lesquels T apparait. Ces deux probabilit´es sont estim´ees en utilisant une estimation de vraisemblance (maximum likelihood esti- mation), et λ est appel´e param`etre de lissage (smoothing parameter ). Le calcul des probabilit´es peut ˆetre r´eduit `a la formule de calcul de scores suivante :

s(D, T1, T2, . . . , Tn) = β.log( X T tf (T, D)) + n X i=1 log(1 + λ.tf (Ti, D).( P T df (T )) (1 − λ).df (Ti).(PT tf (T, D)) ) (1.17) Le param`etre β sert `a estimer des probabilit´es a priori (prior probability) et est utilis´e pour introduire la longueur des documents dans la formule de calcul des scores, c’est `a dire pour normaliser ces scores. Une question se pose cepen- dant : comment estimer la valeur de λi? Pour une premi`ere recherche, on a :

λi = constante, c’est `a dire que tous les termes sont consid´er´es comme ayant

la mˆeme importance. λi est ensuite r´e´evalu´e pour chaque terme dans un cycle

de r´einjection de la pertinence.

Les mod`eles de langages, reposant sur la th´eorie des probabilit´es et sur les chaˆınes de Markov, ont aussi ´et´e appliqu´es avec succ`es `a la reconnaissance vocale [159,96] et leur application `a la recherche dans des documents structur´es [104] ou `a la traduction automatique de documents est aujourd’hui en cours d’essai [226].

1.4

Evaluation des Syst`emes de Recherche