Modèle vectoriel étendu - Traitement des requêtes

2.6 Traitement des requˆetes

2.6.1 Mod`ele vectoriel ´etendu

Dans les approches issues du modèle vectoriel, une mesure de similarité de chaque élément à la requête est calculée, et ce à l’aide de mesures de distance dans un espace vectoriel. Les éléments sont représentés par des vecteurs de termes pondérés. Pour ce faire, la plupart des approches indexent des sous- arbres imbriqués (section2.4.2.1), c’est à dire propagent les termes des noeuds feuilles dans l’arbre du document. Les éléments sont renvoyés à l’utilisateur par ordre décroissant de pertinence.

On trouve dans [79] une des premières adaptations du modèle vectoriel. La similarité d’un noeud n à une requête q = {t1, t2, ...tT} est exprimée selon

l’´equation 2.1 : sim(q, n) = α(T )cosm(q, n) + s X k=1 cosm(q, nk) βk−1 (2.1)

o`u α(T ) est un facteur permettant de prendre en compte le type du noeud, s est le nombre de noeuds enfants nk de n, et β est un param`etre permettant

d’assurer que le nombre d’enfants n’introduit pas un biais dans la formule. La fonction cosm est d´efinie de la fa¸con suivante :

cosm(q, n) = T X i=1 wiq∗ win |n| (2.2) avec w_iq et wn

i respectivement le poids du terme tidans la requˆete q et dans le

noeud n, et |n| le nombre de termes dans le noeud n.

la pertinence des noeuds descendants.

Le modèle peut être généralisé en permettant le traitement des requêtes orientées contenu et structure. L’idée de base est là encore d’appliquer le modèle récursive- ment à chaque sous-arbre de la hiérarchie pour ensuite effectuer un agrégat des scores.

Schlieder et Meuss [186] intègrent la structure des documents dans la mesure de similarité du modèle vectoriel. Leur modèle de requête est basé sur l’inclusion d’arbres : cela permet de formuler des requêtes sans connaˆıtre la structure exacte des données.

Les auteurs proposent la notion de terme structurel, définie comme un arbre étiqueté. book[author], book[Bradley, title[XML]], author[Bradley], ... sont des exemples de termes structurels.

Les notions de tf et idf sont adaptées au processus de recherche dans des documents structurés. Soit E un élément de type t. Le poids wt

T,E d’un terme

structurel T dans E est d´efini par : wt

T,E = tfT,E.idfTt =

f reqT(E)

maxf req(E).(log( |Et_|

) + 1) (2.3)

avec f reqT(E) le nombre d’occurrences de T dans E, maxf req(E) le nombre

maximal d’éléments de la collection possédant la même étiquette que E, |Et_|

le nombre d’éléments de type t et nT le nombre d’éléments contenant T .

Les auteurs combinent ainsi le modèle vectoriel et le ”tree matching” afin de répondre à des requêtes orientées contenu et structure. Dans le modèle pro- posé, seuls les éléments (c’est à dire les sous-arbres) qui ont une structure qui peut être réduite à celle de la requête (c’est à dire qu’en supprimant certains éléments du sous-arbre, on peut arriver à la requête) ont un score de pertinence non nul.

Dans [90], Grabs et Scheck proposent d’évaluer l’importance d’un terme dans un élément donné en fonction de l’importance du terme dans les éléments du même type.

Lorsque la requête est composée d’une condition sur le type d’un élément (on nommera cat ce type) ainsi que d’une condition sur le contenu de cet élément (requête orientée contenu et structure), la similarité d’un élément e de type cat à la requête q est calculée selon l’équation2.4 :

RSV (e, q) = X

t∈terms(q)

tf (t, e).iefcat(t)2.tf (t, q) (2.4)

où tf (t, e) est la fréquence du terme t dans l’élément e et iefcat = log_efN_catcat_(t),

avec Ncat le nombre d’éléments du type cat et efcat(t) la fréquence du terme t

dans les ´el´ements du type cat.

Soit SE(e) l’ensemble des descendants de e incluant e. ∀ se ∈ SE(e), l ∈ path(e, se) est une étiquette appartenant au chemin reliant e à se, c’est à dire un type d’élément. Soit enfin awl ∈ [0, 1] un facteur modélisant l’importance de

l’étiquette l. La similarité d’un élément e à une requête q composée de simples mots-clés est définie de la fa¸con suivante :

RSV (e, q) = X se∈SE(e) X t∈terms(q) tf (t, se)( Y l∈path(e,se) awl).iefcat(se)(t)2.tf (t, q) (2.5) Cette approche a été évaluée dans la campagne d’évaluation INEX 2002 et les résultats ont cependant été peu convainquants.

Le modèle JuruXML [137, 135] propose d’indexer les éléments selon leur type (un index par type d’élément) et d’appliquer ensuite le modèle vectoriel pour la pondération des éléments.

Les requêtes orientées contenu sont évaluées sur chacun des index et les résultats, qui ont été normalisés, sont ensuite fusionnés afin de fournir à l’utilisateur une liste unique de résultats.

Une requête structurée est quant à elle évaluée en trois phases. Tout d’abord, la requête originale est décomposée en ensemble de conditions de la forme (chemin, terme). Ensuite, une correspondance vague entre les chemins est cal- culée. Soit cqi la condition de chemin pour le terme ti et cei le XPath du terme ti

dans l’élément e. La fonction de similarité entre les deux chemins est exprimée selon l’équation 2.6 : cr(cqi, c e i) =    1+|cq_i| 1+|ce i|si c q

i est une sous − sequence de cei

0 sinon (2.6)

Par exemple, cr(article/bibl, article/bm/bib/bibl/bb) = 3/6 = 0.5. On a enfin : RSV (e, q) = P (t,cq_i)∈q P (t,ce i)∈ewq(t) ∗ we(t) ∗ cr(c q i, cei) |q| ∗ |e| (2.7)

o`u wq(t) et we(t) sont les poids du terme t dans q et e, et |q| et |e| sont les

nombres de termes dans q et e.

Cette dernière approche, évaluée dans le cadre de la campagne INEX 2004 permet d’obtenir de bons résultats par rapport à l’ensemble des participants.

Le moteur de recherche XXL [201] est lui aussi basé sur le modèle vectoriel et utilise une fonction de tri basée sur tf et idf. XXL offre des fonctionnalités pour la recherche orientée-pertinence de chemins, c’est à dire que la recherche est effectuée avec des conditions de chemins vagues. XXL repose sur une syntaxe SQL (select-from-where).

On trouvera d’autres exemples d’adaptation du mod`ele vectoriel dans [12, 53,

Dans le document Modèle flexible pour la Recherche d'Information dans des corpus de documents semi-structurés (Page 104-107)