• Aucun résultat trouvé

2.2 Les fondements de la recherche d’information

2.2.3 Aperçu des principaux modèles de RI

Un modèle de RI se définit principalement, par sa modélisation de la mesure de la pertinence document-requête, mais aussi par sa représentation des documents et sa représentation des requêtes. Une taxonomie des modèles a été présentée par (Baeza-Yates et Ribeiro-Neto, 1999) et présente quatre familles principales.

Comme illustrée dans la Figure 2.2, les modèles reposent sur le texte des documents (modèles de RI classiques et modèles basés sur le texte semi- structuré), les liens entre les documents (modèles orientés web) et les docu- ments multimédia (recherche d’images, de musiques, d’audio ou de vidéos). Compte tenu des concepts utilisés dans nos contributions, nous présentons dans cette sous-section les modèles appartenant à la catégorie des modèles de RI classiques reposant respectivement sur la théorie des ensembles, les méthodes algébriques et les probabilités. Pour ce faire, nous considérons les notations suivantes :

Figure 2.2: Taxonomie des modèles de RI (Baeza-Yates et Ribeiro-Neto, 2011)

– L’index I est modélisé par le vecteur I = (t1, . . . , tv, . . . , tV) où chaque

élément tv représente un terme de l’index I et V correspond au nombre

de termes dans l’index.

– La collection de documents est notée D= {d1, . . . , di, . . . , dN} où N repré-

sente le nombre de documents dans la collection.

– L’ensemble de requêtes est noté Q= {q1, . . . , qh, . . . , qZ} où Z représente

le nombre de requêtes.

– Le document di ∈ D est modélisé vecteur de poids di =

(wi1, . . . , wiv, . . . , wiV) où chaque élément wivreprésente le poids du terme

tv pour le document di.

– La requête qh ∈ Q est modélisée par un vecteur qh =

(wh1, . . . , whv, . . . , whV) où chaque élément whv représente le poids

du terme tv pour la requête qh.

– La fonction d’appariement est notée RSV(di, qh) et retourne le score de

similarité du document di par rapport à la requête qh.

2.2.3.1 Modèle booléen

Le modèle booléen (Salton, 1968) est basé sur la théorie des ensembles. Dans ce modèle, les documents et les requêtes sont représentés par des ensembles de mots clés. Chaque document est représenté par une conjonction logique des termes non pondérés qui constitue l’index du document. Un exemple de représentation d’un document est comme suit : d= t1∧ t2∧ t3...∧ tn.

Une requête est une expression booléenne dont les termes sont reliés par des opérateurs logiques (OR, AND, NOT) permettant d’effectuer des opérations d’union, d’intersection et de différence entre les ensembles de résultats asso- ciés à chaque terme. Un exemple de représentation d’une requête est comme suit : q = (t1∧ t2) ∨ (t3∧ t4). La fonction de correspondance est basée sur l’hypothèse de présence/absence des termes de la requête dans le document et vérifie si l’index de chaque document d implique l’expression logique de la requête q. Le résultat de cette fonction, décrite comme : RSV(q, d) = 1, 0, est binaire.

2.2.3.2 Modèle vectoriel

Dans ces modèles, la pertinence d’un document vis-à-vis d’une requête est définie par des mesures de distance dans un espace vectoriel. Le modèle vectoriel (Salton, 1971) représente les documents et les requêtes par des

vecteurs d’un espace à n dimensions, les dimensions étant constituées par les termes du vocabulaire d’indexation. L’index d’un document dj est le

vecteur ⃗dj = (w1,j, w2,j, w3,j, . . . , wn,j), où wk,j ∈ [0, 1] dénote le poids du

terme tkdans le document dj. Une requête est également représentée par un

vecteur ⃗q = (w1,q, w2,q, w3,q, .., wn,q), où wk,q est le poids du terme tk dans la

requête q. La fonction de correspondance mesure la similarité (l’angle) entre le vecteur requête et les vecteurs documents. Il existe à ce jour plusieurs mesures dont les plus connues sont les suivantes :

– Le produit scalaire :

RSV(⃗q, ⃗dj) = cos(⃗q, ⃗dj) (2.4)

– La mesure de cosinus où RSV(q, dj) = ∣∣⃗q∣∣⋅∣∣ ⃗⃗q⋅ ⃗ddj j∣∣

∣∣⃗x∣∣ représente la norme euclidienne du vecteur ⃗x.

– La mesure de Jaccard où RSV(q, dj) = ∣⃗q∩ ⃗∣⃗q∪ ⃗ddjj

∣⃗q ∩ ⃗dj∣ correspond au

nombre de termes présents à la fois dans la requête q et le document dj tandis que∣⃗q∪ ⃗dj∣ représente le nombre de termes contenus dans la requête

q ou le document dj

– La mesure de Dice où RSV(q, dj) = 2⋅∣⃗q∩ ⃗dj

∣⃗q∣+∣ ⃗dj

où∣ ⃗dj∣, respectivement ∣⃗q∣, an-

note le nombre de termes dans le document dj, respectivement la requête

q.

A l’inverse du modèle booléen, la fonction de correspondance évalue une cor- respondance partielle entre un document et une requête, ce qui permet de retrouver des documents qui ne satisfont la requête qu’approximativement. Les résultats peuvent donc être ordonnés par ordre de pertinence décrois- sante. L’inconvénient de ce modèle est qu’il repose sur l’hypothèse d’indé- pendance des termes –bag of words– alors que ce sont parfois les expressions ou les groupes de mots qui enrichissent la sémantique du document. Une des réponses à ce problème réside dans la considération des N-grammes (Song et Croft, 1999), permettant de regrouper des termes successifs qui peuvent avoir du sens ensemble.

2.2.3.3 Modèle probabiliste

Ce modèle est fondé sur le calcul de la probabilité de pertinence d’un docu- ment pour une requête (Maron et Kuhns, 1960; Robertson et Jones, 1976; Salton et McGill, 1986). Nous distinguons deux principales catégories de

modèles probabilistes : les modèles probabilistes classiques et les modèles de langues.

Les modèles probabilistes classiques. Ces modèles (Robertson et Wal-

ker, 1994; Robertson et al., 1995) reposent sur la distribution de probabilité des termes pour identifier la similarité document-requête. Le principe de ce modèle (Robertson et al., 1995) est de favoriser les documents à la fois ca- ractérisés par une forte probabilité d’être pertinents (événement P ) et une faible probabilité d’être non pertinent (événementP ). Le score de pertinence

d’un document dj par rapport à la requête q est estimé comme suit :

RSV(q, dj) =

P(P∣di)

P(P∣dj)

(2.5)

où P(P∣dj), respectivement P(P∣dj), représente la probabilité de pertinence,

de non pertinence, par rapport à la requête q compte tenu du document dj. Cette fonction d’appariement peut être estimée ainsi :

RSV(q, dj) = ∏

tv∈q

pv(1 − qv)

qv(1 − pv)

(2.6)

avec pv = rnv et qv = RNv−r−nu, et où tv ∈ q correspond à l’ensemble des termes

tv de la requête q. pv et qv représentent respectivement la probabilité que

le terme tv apparaisse dans le document dj sachant qu’il est pertinent, res- pectivement non pertinent, par rapport à la requête. Ces probabilités sont estimées par maximum de vraisemblance sur l’ensemble de la collection D et dépendent du nombre total R de documents pertinents, dont rv documents contenant tv, ainsi que le nombre total N de documents dans la collection incluant n documents pertinents. Après développement et en ajoutant un coefficient de 0.5, afin d’éviter de diviser par 0, la formule finale, est la suivante : RSV(q, dj) = ∏ tv∈q (rv+ 0.5)(N − nv− R + rv+ 0.5) (nv− rv+ 0.5)(R − rv+ 0.5) (2.7)

De nombreuses applications du modèle probabiliste ont été proposées dans la littérature, telles que le Okapi BM25 (Robertson et al., 1995) ou le mo- dèle binaire BIR (Yu et Salton, 1976). Le modèle le plus utilisé est le modèle Okapi BM25. Les atouts majeurs de ce modèle consistent en la considération de la longueur des documents dans le calcul de la pertinence et de la fré- quence des termes dans la collection, conformément à la loi de (Zipf, 1949).

La fonction d’appariement est présentée dans l’équation ci-dessous : RSV(q, dj) = ∑ tv∈q (N − nv) + 0.5 nk+ 0.5 fiv⋅ (k1+ 1) fiv+ k1⋅ (1 − b + b⋯avg∣didl∣ ) (2.8)

où N représente la taille de la collection, nv le nombre de documents qui contiennent le terme tv. La fréquence du terme tv dans le document di est

notée fiv.∣dj∣ représente la longueur du document dj tandis que la longueur

moyenne des documents est notée avgdl. Deux paramètres, respectivement

k1 et b sont utilisés et ont obtenu par expérimentation les valeurs optimales suivantes : k1∈ [1.2; 2.0] et b = 0.75.

Les modèles de langue. Le principe des modèles de langue (Ponte et

Croft, 1998) repose sur le fait que la pertinence d’un document estime la similarité entre la requête et le modèle de langue du document θd. Le score

de similarité RSV(q, dj) est calculé comme suit :

RSV(q, dj) = P(q∣θd) = ∏

tv∈q

P(tv∣θdj) (2.9)

où P(q∣θdi) représente la probabilité de la requête q sachant le modèle de langue θdi du document d. Pour chaque terme tv appartenant à la requête

q, sa probabilité par rapport au modèle de langue θdj du document d est

notée P(q∣θdj). Cette dernière probabilité s’appuie sur une estimation de la

fréquence des termes de la requête q dans le document d mais est annulée pour les documents ne contenant pas tous les termes de la requête. Dans ce cas particulier, le score de similarité du document est nul alors que le document pourrait partiellement répondre au besoin en information formulé par la requête. Pour pallier cet inconvénient, des techniques de lissage ont été proposées (Jelinek et Mercer, 1980; MacKay et Peto, 1994; Chen et Goodman, 1996). Ces dernières s’appuient sur un modèle de référence, en l’occurrence celui de la collection, pour estimer la pertinence d’un terme sur ce modèle de référence.