• Aucun résultat trouvé

2.7 Quelques mod`eles de RIS

2.7.1 Approches par propagation des termes des documents

ments

2.7.1.1 Mod`ele vectoriel ´etendu

Les adaptations propos´ees pour le mod`ele vectoriel consistent `a mesurer une similarit´e vectorielle de chaque ´el´ement `a la requˆete. Les ´el´ements sont repr´esent´es par des vecteurs de termes pond´er´es. Ils sont renvoy´es `a l’utilisa- teur par ordre d´ecroissant de pertinence.

Une des premi`eres tentatives pour adapter le mod`ele vectoriel est celle de [95].

Chaque nœud n du document XML est d´efini par un type T refl´etant son emplacement dans l’arbre du document : racine, ou sous-arbre important du document (section, chapitre), ou paragraphe (nœud feuille). La similarit´e de ce

nœud n `a une requˆete q = {t1, t2, ...tT} est exprim´ee selon l’´equation2.3 :

sim(q, n) = α(T )cosm(q, n) + s X k=1 cosm(q, nk) βk−1 (2.3)

o`u α(T ) est un facteur permettant de prendre en compte le type du nœud, s

d’assurer que le nombre d’enfants n’introduit pas un biais dans la formule. La fonction cosm est d´efinie de la fa¸con suivante :

cosm(q, n) = T X i=1 wiq∗ wni |n| (2.4) avec wqi et wn

i respectivement le poids du terme ti dans la requˆete q et dans le

nœud n, et |n| le nombre de termes dans le nœud n.

La pertinence d’un nœud peut ainsi ˆetre calcul´ee `a part, puis combin´ee avec la pertinence des nœuds descendants.

Le mod`ele peut ˆetre g´en´eralis´e en permettant le traitement des requˆetes orient´ees contenu et structure. L’id´ee de base est l`a encore d’appliquer le mod`ele r´ecursive- ment `a chaque sous-arbre de la hi´erarchie pour ensuite effectuer un agr´egat des scores.

Une autre proposition consiste `a int´egrer la structure des documents dans la

mesure de similarit´e du mod`ele vectoriel [241]. Le mod`ele JuruXML [181,180]

propose d’indexer les ´el´ements selon leur type (un index par type d’´el´ement) et d’appliquer ensuite le mod`ele vectoriel pour la pond´eration des ´el´ements. On trouvera d’autres exemples d’adaptation du mod`ele vectoriel bas´ee sur la

propagation des termes dans [117,241].

2.7.1.2 Mod`ele probabiliste

Les auteurs de [90, 99] ont propos´e d’´etendre le mod`ele probabiliste `a la

RIS. Leur mod`ele propos´e est bas´e sur le langage de requˆetes XIRQL et il a

´et´e impl´ement´e au sein du moteur de recherche HyRex. Il consid`ere les nœuds comme des unit´es disjointes. Tous les nœuds feuilles cependant ne sont pas index´es vu qu’ils sont de granularit´e tr`es fine. Dans ce cas-l`a, les termes sont propag´es jusqu’au nœud indexable le plus proche.

Pour les requˆetes orient´ees contenu, le poids de pertinence des nœuds est calcul´e grˆace `a la propagation des poids des termes les plus sp´ecifiques dans l’arbre du document. Cependant, un facteur, nomm´e facteur d’augmentation a ´et´e utilis´e pour diminuer les poids des nœuds.

Pour les requˆetes orient´ees contenu et structure, des probabilit´es d’appari- tion de chaque terme de la condition de contenu dans les ´el´ements r´epondant aux conditions de structure sont calcul´ees, et des sommes pond´er´ees de ces probabilit´es sont ensuite effectu´ees.

D’autres approches dans le cadre de la recherche probabiliste sont aussi

Une approche bas´ee sur les mod`eles de langage est propos´ee par [141] pour le traitement des requˆetes orient´ees contenu. Comme n’importe quel ´el´ement XML peut potentiellement ˆetre renvoy´e `a l’utilisateur, les auteurs consid`erent que chaque ´el´ement XML doit ˆetre trait´e comme une unit´e d’indexation ind´ependante. Par cons´equent, le texte de chaque ´el´ement ainsi que le texte contenu dans ses descendants est index´e. Un mod`ele de langage est ensuite estim´e pour chaque ´el´ement de la collection. Enfin, pour une requˆete donn´ee, les ´el´ements sont tri´es par rapport `a la probabilit´e que le mod`ele de langage de l’´el´ement g´en`ere la requˆete.

D’autres approches bas´ees sur les mod`eles de langage sont propos´ees dans [18, 249, 292].

Un autre travail proposant l’utilisation des r´eseaux bay´esiens est pr´esent´e

par [215,38]. La hi´erarchie des documents est refl´et´ee directement par la struc-

ture de r´eseau bay´esien utilis´ee. Ce mod`ele est ´etendu dans [?] pour traiter des requˆetes orient´ees contenu et structure.

2.7.1.3 Le mod`ele XIVIR

Le mod`ele XIVIR [27] (XML Information retrieval based on VIRtual links)

permet la recherche d’information dans des documents XML par la structure, par le contenu et par la combinaison des deux.

– Recherche par le contenu : Pour propager le texte se situant dans un nœud feuille `a ces ancˆetres, deux mani`eres sont propos´ees : la premi`ere se base sur la profondeur, la deuxi`eme se base sur la profondeur et la largeur (exprim´ee en fonction du nombre de fils) d’un document XML.

La propagation de texte par profondeur consiste `a traduire le contenu de chaque nœud feuille par un ensemble de termes pond´er´es, ceux-ci seront propag´es vers les ancˆetres de ce nœud tout en diminuant leurs poids en fonction de la distance parcourue au moment de la propagation. La propa- gation du texte par la profondeur et la largeur est r´ealis´ee en fonction de la distance qui s´epare l’´el´ement feuille qui contient du texte et l’´el´ement nœud interne qui est cens´e recevoir le texte. Le facteur de propagation est calcul´e en fonction de cette distance.

– Recherche par la structure : Le document XML est repr´esent´e sous forme d’un arbre d´efini comme un ensemble de chemins entre deux nœuds

A → B o`u A est le nœud parent du nœud B. La relation entre A et B peut

ˆetre directe (parent/fils-direct) ou indirecte (parent/descendant). Afin de refl`eter l’importance de la relation entre les nœuds A et B, un poids est calcul´e pour chaque chemin. Si la relation est directe, le poids est ´egal `a 1, sinon, le poids w est calcul´e comme suit :

o`u d(A, B) est la distance qui s´epare les deux nœuds A et B, et λ est un coefficient d’att´enuation.

Pour la recherche par structure, le score de structure entre une requˆete q

et un document d, (RSVs), est calcul´e comme suit :

RSVs = X Aq wq →Bq∈Eq≡Ad Wd → Bd∈Ed wq∗ wd (2.6)

o`u Eq (resp. Ed) est l’ensemble de tous les chemins pond´er´es de la requˆete

(resp. du document). Soient Aq l’´el´ement A dans la requˆete q et Ad est

l’´el´ement A dans le document d, Aq ≡ Ad signifie que Aq est l’homologue

(l’´equivalent) de Ad. Par exemple, chapter0.37→ p ≡ chapter → p[2] sur la1

figure2.8. 789: ;<= > < 7 ;? @A : 789: ;<= B< 7 ;? @A CDE F CDE B< 7 ;? @A CGE F CGE D D D D D D H IJ K HIJ K L M L N

Figure 2.8 – Exemple de recherche par structure avec le syst`eme XIVIR [27]

Le score selon la structure entre la requˆete et le document est RSVs(Eq, Ed) =

2 + 0.37 ∗ 0.37 = 2.14.

– Recherche par le contenu et la structure : Le score final de l’´el´ement XML vis `a vis de la requˆete est calcul´e en combinant les scores estim´es selon les deux crit`eres contenu et structure. La combinaison peut ˆetre soit une combinaison lin´eaire soit une combinaison des distributions.