• Aucun résultat trouvé

2.7 Quelques mod`eles de RIS

2.7.2 Approches par propagation des scores des ´el´ements

Parmi les premiers travaux bas´es sur cette technique, nous pouvons citer

celui de [195] qui utilise les r´eseaux inf´erentiels. La m´ethode propos´ee est ap-

pliqu´ee aux documents SGML, cependant, elle peut ˆetre ´etendue pour tout type de documents semi-structur´es.

La propagation des scores a aussi ´et´e utilis´ee en RI distribu´ee [35].

On trouvera une ´etude des m´ethodes bas´ees sur la propagation des scores

celles de [26, 238, 90, 99, 101, 124]. Dans ce qui suit, nous d´etaillons deux d’entre elles.

2.7.2.1 Le syst`eme GPX

Le syst`eme GPX (Gardens Point XML IR) [101] [102] consiste `a calculer

des scores de pertinence pour les nœuds feuilles, et ensuite, propager ces scores vers les nœuds internes.

– Calcul du score des nœuds feuilles : Les fr´equences des termes dans les nœuds feuilles et dans la collection sont utilis´ees avec un param`etre permettant de privil´egier les ´el´ements ayant des termes multiples de la requˆete. La formule utilis´ee dans le calcul des scores des nœuds feuilles p´enalise les ´el´ements ayant des termes tr`es fr´equents dans la collection et r´ecompense les ´el´ements ayant le plus de termes uniques de la requˆete.

L’´equation2.7 repr´esente la formule utilis´ee pour le calcule des scores des

nœuds feuilles nf : RSV (q, nf ) = Kn−1 n X i=1 ti fi (2.7) Avec n est le nombre de termes uniques de la requˆete q dans l’´el´ement,

K est une constante (K = 5). Kn−1 permet d’augmenter le score des

´el´ements ayant des termes distincts multiples de la requˆete. ti est la

fr´equence du ieme terme de la requˆete dans l’´el´ement nf et f

i est la

fr´equence du ieme terme de la requˆete q dans la collection.

– Propagation de la pertinence des nœuds feuilles : Une fois que les scores de tous les ´el´ements textuels de la collection sont calcul´es, ces scores sont propag´es vers le haut d’une mani`ere r´ecursive dans l’arbre de document XML comme suit :

RSV (q, n) = D(n)

n

X

l=1

RSV (q, ncl) (2.8)

Avec n est le nombre d’´el´ements fils, D(n) =0.49 si n=1, 0.99 sinon.

RSV (q, ncl) est le score de pertinence de leme ´el´ement fils.

La valeur du facteur D d´epends du nombre de fils pertinents contenus dans le nœud interne n. Si le nœud interne poss`ede un seul fils pertinent, la constante D est 0.49. Un ´el´ement ayant un seul fils pertinent est class´e apr`es son fils. Cependant, si l’´el´ement poss`ede plusieurs fils pertinents le facteur D est 0.99. Un ´el´ement poss´edant plusieurs fils pertinents est class´e avant tous ses descendants.

Ce syst`eme a permis d’obtenir les meilleurs r´esultats dans la campagne

2.7.2.2 Le mod`ele XFIRM

Le mod`ele XFIRM (XML Flexible Information Retrieval Model ) [238] consiste

´egalement `a calculer des valeurs de pertinence pour les diff´erents nœuds feuilles (c’est `a dire les nœuds contenant du texte). Ces valeurs sont par la suite pro- pag´ees et agr´eg´ees vers les nœuds ancˆetres.

Ce mod`ele permet de traiter les requˆetes orient´ees contenu ainsi que les requˆetes orient´ees contenu et structure. Nous nous contentons dans ce que suit de d´etailler le traitement des requˆetes orient´ees contenu qui est effectu´e comme suit : une premi`ere ´etape consiste `a ´evaluer la similarit´e des nœuds feuilles de l’index `a la requˆete (calcul des poids des nœuds feuilles) et une seconde ´etape consiste `a rechercher les sous-arbres pertinents. La pertinence des sous-arbres est ´evalu´ee en effectuant la propagation des poids des feuilles dans l’arbre du document.

– Calcul du score des nœuds feuilles : Si on consid`ere un nœud feuille (nf ) et une requˆete q compos´ee de n mots cl´es (c’est `a dire une requˆete de type CO dans la terminologie d’INEX), la valeur de pertinence du nœud feuille sera calcul´ee en utilisant la fonction de similarit´e RSV (q, nf )

suivante [214] :

RSV (q, nf ) =

T

X

i=1

wqi.winf, avec wqi = tfiq et winf = tfinf.iefi.idfi (2.9)

o`u wqi et winf sont respectivement le poids du terme i dans la requˆete q et

le nœud feuille nf, et tfiqet tfinfsont respectivement la fr´equence du terme

i dans la requˆete q et dans le nœud feuille nf. idfi = log(|D| / |di|) permet d’´evaluer l’importance du terme i dans la collection de documents, avec

|D| le nombre total de documents de la collection et |di| est le nombre

de documents contenant i. iefi = log(|N F | / |nfi|) permet d’´evaluer l’im-

portance du terme i dans la collection de nœuds feuilles, o`u |N F | est le

nombre total de nœuds feuilles de la collection, et |nfi| est le nombre de

nœuds feuilles contenant i.

– Propagation de la pertinence des nœuds feuilles : Une valeur de pertinence est calcul´ee et attribu´ee pour chaque nœud interne de l’arbre du document, en utilisant les poids des nœuds feuilles qu’il contient. Les termes apparaissant pr`es de la racine d’un sous-arbre paraissent plus por- teurs d’information pour le nœud associ´e que ceux situ´es plus bas dans le sous-arbre. Il semble ainsi intuitif que plus grande est la distance entre un nœud et son ancˆetre, moins il contribue `a sa pertinence. Cette intui- tion est mod´elis´ee par l’utilisation dans la fonction de propagation du

param`etre dist(n, nfk), qui repr´esente la distance entre le nœud n et un

de ses nœuds feuilles nfkdans l’arbre du document, c’est-`a-dire le nombre

d’arcs s´eparant les deux nœuds. Il paraˆıt aussi intuitif que plus un nœud poss`ede de nœuds feuilles pertinents, plus il est pertinent. Le param`etre

|Fp

n|, qui est le nombre de nœuds feuilles descendants de n ayant un score

non nul, est alors introduit dans la fonction de propagation.

Une premi`ere ´evaluation de la pertinence pnd’un nœud peut ˆetre calcul´ee

selon la formule (2.10). pn= |Fnp| . X nfk∈Fn αdist(n,nfk)−1∗ (RSV m(q, nfk)) (2.10)

o`u Fnest l’ensemble des nœuds feuilles nfk descendants de n, et α ∈]0..1]

est un param`etre permettant de quantifier l’importance de la distance s´eparant les nœuds dans la formule de propagation.

On peut ´egalement int´egrer dans la mesure du score la pertinence que l’on accorde au document entier. On parle alors de pertinence contextuelle. La valeur de pertinence d’un nœud interne est d´efinie alors comme suit :

pn = ρ ∗ |Fnp| .

X

nfk∈Fn

αdist(n,nfk)−1∗ RSV (q, nf

k) + (1 − ρ) ∗ pracine (2.11)

avec Fn l’ensemble des nœuds feuilles nfk descendants de n, |Fnp| le

nombre de nœuds feuilles descendant de n ayant un score non nul, RSV (q, nfk)

calcul´e d’apr`es2.9, et ρ ∈ [0..1] est un param`etre servant de pivot et per-

mettant d’ajuster l’importance de la pertinence du nœud racine.

Les nœuds sont ensuite renvoy´es `a l’utilisateur par ordre d´ecroissant de pertinence `a la requˆete.

Ce mod`ele a montr´e de bonnes performances au sein de la campagne d’´evaluation