Autres mod`eles probabilistes - Les mod`eles-piliers de la Recherche

1.3 Les mod`eles-piliers de la Recherche

1.3.4 Autres mod`eles probabilistes

1.3.4.1 Les r´eseaux bay´esiens

Les réseaux bayésiens [150] sont des graphes directs acycliques dans lesquels les noeuds représentent des variables aléatoires, et les liens des relations de dépendance entre ces variables. En associant des probabilités initiales pour les racines du graphe, on calcule de proche en proche le degré de croyance associé à chacun des noeuds restants. Deux écoles traditionnelles en probabi- lité s’affrontent : l’une est basée sur l’aspect fréquentiel et l’autre sur l’aspect épistémologique. L’approche fréquentielle prend les probabilités comme une no- tion statistique reliée aux lois du hasard. L’approche épistémologique interprète les probabilités comme un degré de croyance dont les spécifications viennent de statistiques expérimentales.

Les réseaux inférentiels bayésien [209] considèrent le problème de la recherche d’information d’un point de vue épistémologique. Ils associent des variables

aléatoires avec les termes de l’index, les documents et les requêtes de l’utilisateur. Les termes de l’index et les documents sont représentés comme des noeuds. Une variable aléatoire associée avec un document dj représente l’événement

d’observer ce document. Les arcs sont dirigés du noeud document vers ses noeuds termes : ainsi, l’observation d’un document est la cause d’une aug- mentation de la valeur des variables associées avec ses termes d’index. La variable aléatoire associée à la requête de l’utilisateur modélise l’événement que la requête d’information spécifiée dans la requête a été vérifiée. La valeur de ce noeud requête est une fonction des valeurs des noeuds associés aux termes de la requête. Ainsi, les arcs sont orientés des noeuds des termes de l’index vers le noeud de la requête.

La figure 1.7, issue de [209], illustre un réseau inférentiel bayésien simple de pertinence d’un document vis à vis d’une requête composée de trois termes. L’événement ”la requête est accomplie” (Q=1) est réalisé si le sujet lié à un

T1 _T2 _T3

Fig. _{1.7 – Modèle de réseau inférentiel bayésien simple}

terme est vrai (T1=1, T2=1 ou T3=1), ou une combinaison de ces événements. Les trois sujets sont inférés par l’événement ”le document est pertinent” (D=1). Par l’enchaˆınement de règles de probabilités, la probabilité jointe des autres noeuds du graphe est :

P (D, T 1, T 2, T 3, Q) = P (D) P (T 1|D) P (T 2|D, T 1) P (T 3|D, T 1, T 2) P (Q|D, T 1, T 2, T 3)

La direction des arcs indiquant les relations de dépendance entre les variables aléatoires, l’équation devient :

P (D, T 1, T 2, T 3, Q) = P (D)P (T 1|D)P (T 2|D)(T 3|D)P (Q|T 1, T 2, T 3)

La probabilité de réalisation de la requête P (Q = 1|D = 1) peut être utilisée comme score d’ordonnancement des documents :

P (Q = 1|D = 1) = P (Q = 1, D = 1) P (D = 1)

P (D = 1, T 1 = t1, T 2 = t2, T 3 = t3, Q = 1)

P (D = 1) (1.13)

Le modèle nécessite la connaissance de P (D = [0|1]), P (T i = [0|1]|D = [0|1]), P (Q = [0|1]| (T 1, T 2, . . . , T n) ∈ {0, 1}n ), cette dernière étant la plus difficile à trouver car le nombre de probabilités à spécifier augmente exponentiellement avec le nombre de termes de la requête. Pour résoudre ce problème, Turtle [208] a identifié quatre formes canoniques de P (Q|T 1, T 2, . . . T n) : and, or , sum et wsum.

Le modèle inférentiel bayésien a été mis en oeuvre dans le système Inquery [7]. Le cadre probabiliste dans lequel se situe Inquery peut être utilisé pour for- muler des requêtes simples basées sur des mots clés, des requêtes booléennes, des requêtes basées sur des phrases ou bien une combinaison des trois types [52]. Pour ce faire, Inquery propose des opérateurs de moyenne et de moyenne pondérée, des opérateurs booléens probabilistes ou stricts (on conserve alors les probabilités), des opérateurs de proximité et de synonymie. Une procédure d’analyse de la requête permet de générer une forme inférentielle prête à être évaluée. Inquery propose également une expansion de requête.

Basés sur les réseaux inférentiels bayésiens, les ”belief networks” ont été in- troduits en 1996 par Ribeiro-Neto et Muntz [163]. Ils sont aussi basés sur une interprétation épistémologique des probabilités, mais travaillent dans un espace différent. En conséquence, on obtient une topologie de réseau différente, qui permet la séparation entre l’espace des documents et l’espace des requêtes. On peut ainsi combiner des sources distinctes d’évidence (requêtes passées, cycles de feedback précédents, formulations distinctes de requêtes), ce qui permet d’augmenter les performances du système (c’est à dire augmenter la qualité de la liste ordonnée de documents renvoyée par le système).

Dans [213], le document est représenté dans le réseau de deux fa¸cons différentes (les termes du titre et les termes du résumé du document), et la requête peut aussi être représentée par des requêtes différentes.

L’inconvénient principal des réseaux bayésiens reste le calcul des probabilités, qui demande un temps exponentiel au nombre de termes dans la requête même si l’introduction des quatre formes canoniques dans [208] résout partiellement le problème.

1.3.4.2 Les mod`eles de langage

Dans les modèles de recherche probabilistes ”classiques”, on cherche à estimer la probabilité que le document réponde à la requête. L’hypothèse de base dans ces modèles est qu’un document n’est pertinent que s’il ressemble à la requête. Les modèles de langage sont basés sur une hypothèse différente : un utilisateur en interaction avec un système de recherche fournit une requête en pensant à un ou plusieurs documents qu’il souhaite retrouver. La requête est

alors inférée par l’utilisateur à partir de ces documents. Un document n’est pertinent que si la requête utilisateur ressemble à celle inférée par le document. On cherche alors à estimer la probabilité que la requête soit inférée par le document [159,25]. Les modèles de langages calculent cette probabilité et l’utilisent pour ordonner les documents. Etant donné une requête T1, T2, . . . , Tn, les documents

sont ordonn´es selon la mesure suivante : P (T1, T2, . . . , Tn|D) =

i=1

((1 − λi)P (Ti) + λiP (Ti|D)) (1.14)

Cette mesure est une combinaison linéaire du modèle de document et du modèle de contexte du document (la collection), où : λi est la probabilité que le terme

`a la position i soit important, 1 − λi est la probabilit´e que le terme ne soit

pas important, P (Ti|D) est la probabilit´e d’un terme important et P (Ti) est

la probabilité d’un terme sans importance. Les probabilités sont définies de la manière suivante : P (Ti|D) = tf (Ti|D) P T tf (T, D) , terme important (1.15) P (Ti) = df (Ti) P Tdf (T )

, terme sans importance (1.16) o`u tf (Ti|D) est la fr´equence du terme Ti dans le document D et df (T ) est

le nombre de documents dans lesquels T apparait. Ces deux probabilités sont estimées en utilisant une estimation de vraisemblance (maximum likelihood estimation), et λ est appelé paramètre de lissage (smoothing parameter ). Le calcul des probabilités peut être réduit à la formule de calcul de scores suivante :

s(D, T1, T2, . . . , Tn) = β.log( X T tf (T, D)) + n X i=1 log(1 + λ.tf (Ti, D).( P T df (T )) (1 − λ).df (Ti).(PT tf (T, D)) ) (1.17) Le paramètre β sert à estimer des probabilités a priori (prior probability) et est utilisé pour introduire la longueur des documents dans la formule de calcul des scores, c’est à dire pour normaliser ces scores. Une question se pose cepen- dant : comment estimer la valeur de λi? Pour une première recherche, on a :

λi = constante, c’est à dire que tous les termes sont considérés comme ayant

la même importance. λi est ensuite réévalué pour chaque terme dans un cycle

de r´einjection de la pertinence.

Les modèles de langages, reposant sur la théorie des probabilités et sur les chaˆınes de Markov, ont aussi été appliqués avec succès à la reconnaissance vocale [159,96] et leur application à la recherche dans des documents structurés [104] ou à la traduction automatique de documents est aujourd’hui en cours d’essai [226].

1.4 Evaluation des Syst`emes de Recherche

Dans le document Modèle flexible pour la Recherche d'Information dans des corpus de documents semi-structurés (Page 52-56)