Calcul de similarité entre la requête et les documents

Les mesures de similarité permettent aux SRI de calculer un score de pertinence des documents. Ces scores de pertinence se basent sur la notion de pondération que nous avons présentée précédemment pour comparer les documents et les requêtes. Les mesures de similarité sont formalisées dans les systèmes par des modèles théoriques sous- jacents. Les modèles de base qui sont utilisés en RI sont le modèle booléen ( [Sal71b], [SM83], [SFW83]), le modèle vectoriel, et le modèle probabiliste. Nous présentons les deux derniers modèles (vectoriel et probabiliste) qui sont les modèles utilisés dans le cadre de nos travaux. Nous précisons dans chaque cas comment les mesures de similarité sont calculées.

1.4.1 La similarité vectorielle

Le modèle vectoriel est le modèle le plus populaire en RI du fait de sa facilité de mise en œuvre et des performances qu’il permet d’obtenir. Le modèle vectoriel propose une pondération positive non binaire des termes de la requête et des documents. Cette pondération est ensuite utilisée pour calculer le degré de similarité entre les documents et la requête. Le modèle vectoriel ordonne les documents par degré de similarité décroissant en fonction du degré de correspondance entre les documents et la requête. Les requêtes et les documents sont représentés dans un espace vectoriel des termes d’ indexation, sous forme de vecteurs de termes pondérés. Par exemple la requête Q est représentée par le vecteur ~Q = (w1,q, w2,q, ..., wn,q) où n représente le nombre maximal des termes index

de la requête, et w_i,q le poids du terme t_i dans la requête Q. Les documents sont aussi représentés par des vecteurs ~D = (w1,j, w2,j, ..., wn,j) avec wi,j représentant le poids du

terme ti dans le document Dj. La mesure de similarité entre la requête et le document

est donnée par le cosinus de l’angle qui existe entre ~Q et ~D :

sim(Dj, Q) = ~ Dj. ~Q ~ Dj . ~ Q = Pn

i=1wi,j∗ wi,q

q Pn i=1wi,j2 ∗ q Pn i=1wi,q2 (1.3) Dans la formule (1.3), ~ Q et ~ Dj

sont les normes des documents et des vecteurs. Comme les poids sont des valeurs positives, la mesure du cosinus de l’angle formé par le document et la requête varie entre 0 et 1. Cela permet de classer les documents en fonction de leur degré de similarité avec la requête.

Les avantages du modèle vectoriel sont liés d’une part au modèle de pondération qu’il utilise et qui permet d’améliorer les performances de la recherche. D’autre part, le modèle vectoriel permet de retrouver des documents qui répondent partiellement à la requête de l’utilisateur et permet aussi d’établir un classement des documents en fonction de leur degré de similarité avec la requête. D’autres variantes du modèle vectoriel

36 Les principes de base de la RI

ont été proposées dans la littérature comme par exemple le modèle vectoriel généra- lisé [WZW85], les modèles LSI (Latent Semantic Indexing ) [FDD+88] ou neuronaux [WH91]. Nous limitons notre présentation au modèle vectoriel de base.

Une autre catégorie de modèles basés sur l’utilisation de mesures de probabilité pour calculer la similarité entre les documents et la requête est présentée dans la section suivante. Il s’agit du modèle probabiliste de calcul de similarité.

1.4.2 La similarité probabiliste

Ce modèle utilise la théorie des probabilités pour calculer les différents scores de pertinence des documents.

Considérons une requête Q et un document Dj issu de la collection de documents.

Le modèle probabiliste estime la probabilité que le document Dj soit pertinent pour

la requête Q. Le calcul de ces probabilités nécessite de disposer de deux ensembles de données : un ensemble de documents pertinents connus a priori (N), et un ensemble de documents non pertinents pour la requête. Le calcul des probabilités consiste alors à affecter à chaque document un score de similarité qui correspond à la formule 1.4 ( [Fur92]) :

P (Dj pertinent pour Q)

P (Dj non pertinent pour Q)

(1.4)

De manière plus formelle, soit N l’ensemble de documents que l’on sait être pertinents pour la requête Q et ¯N l’ensemble des documents non pertinents pour Q. Soit P (N | ~Dj) la probabilité que le document Djsoit pertinent pour la requête Q et P ( ¯N | ~Dj)

la probabilité que le document Dj ne soit pas pertinent pour Q. La similarité entre le

document D_j et la requête Q correspond alors à la formule 1.5 :

sim(Dj, Q) =

P (N | ~Dj)

P ( ¯N | ~Dj)

(1.5)

En utilisant le théorème de Bayes on obtient :

sim(Dj, Q) =

P ( ~Dj|N ) ∗ P (N )

P ( ~Dj| ¯N ) ∗ P ( ¯N )

(1.6)

Dans la formule 1.6, P ( ~Dj|N ) représente la probabilité de sélectionner le document

Dj parmi la liste des documents pertinents, et P(N) représente la probabilité qu’un

document choisi dans la collection soit pertinent.

La pondération BM25 est basée sur un modèle probabiliste pour calculer la similarité entre les documents et la requête. Pour cela, les poids affectés aux termes sont une combinaison des mesures Okapi_tf et IDF, et se calculent de la manière suivante :

Okapitf =

T F

T F + k1((1 − b) + b_dlavgdl )

Adéquation entre le besoin d’information et la RI : évaluation de la recherche 37

où TF est la fréquence du terme et dl (resp. dlavg) la longueur (resp. longueur moyenne) des documents. k1 et b sont des paramètres qui peuvent être modifiés.

Le score du document D peut être alors calculé de la manière suivante en utilisant la formule BM25 :

BM 25(Q, Dj) =

t∈Q∩Dj

(Okapitf∗ IDFt∗ F reqQt) (1.8)

avec F req_Q_t la fréquence du terme t dans la requête Q. BM25(Q,D) correspond alors à une mesure de similarité entre le document Dj et la requête Q.

D’autres extensions du modèle probabiliste existent. Nous ne les présentons pas dans ce manuscrit, mais pour plus de détails on pourra consulter les articles de référence ( [Pea88] pour les réseaux bayésiens, [TC90] pour les réseaux inférentiels, [RNM96] pour les réseaux de croyance, . . .).

1.5 Adéquation entre le besoin d’information et la RI : éva-

Dans le document Fusion de systèmes et analyse des caractéristiques linguistiques des requêtes : vers un processus de RI adaptatif (Page 37-39)