2.7 Quelques mod`eles de RIS
2.7.2 Approches par propagation des scores des ´el´ements
Parmi les premiers travaux bas´es sur cette technique, nous pouvons citer
celui de [195] qui utilise les r´eseaux inf´erentiels. La m´ethode propos´ee est ap-
pliqu´ee aux documents SGML, cependant, elle peut ˆetre ´etendue pour tout type de documents semi-structur´es.
La propagation des scores a aussi ´et´e utilis´ee en RI distribu´ee [35].
On trouvera une ´etude des m´ethodes bas´ees sur la propagation des scores
celles de [26, 238, 90, 99, 101, 124]. Dans ce qui suit, nous d´etaillons deux d’entre elles.
2.7.2.1 Le syst`eme GPX
Le syst`eme GPX (Gardens Point XML IR) [101] [102] consiste `a calculer
des scores de pertinence pour les nœuds feuilles, et ensuite, propager ces scores vers les nœuds internes.
– Calcul du score des nœuds feuilles : Les fr´equences des termes dans les nœuds feuilles et dans la collection sont utilis´ees avec un param`etre permettant de privil´egier les ´el´ements ayant des termes multiples de la requˆete. La formule utilis´ee dans le calcul des scores des nœuds feuilles p´enalise les ´el´ements ayant des termes tr`es fr´equents dans la collection et r´ecompense les ´el´ements ayant le plus de termes uniques de la requˆete.
L’´equation2.7 repr´esente la formule utilis´ee pour le calcule des scores des
nœuds feuilles nf : RSV (q, nf ) = Kn−1 n X i=1 ti fi (2.7) Avec n est le nombre de termes uniques de la requˆete q dans l’´el´ement,
K est une constante (K = 5). Kn−1 permet d’augmenter le score des
´el´ements ayant des termes distincts multiples de la requˆete. ti est la
fr´equence du ieme terme de la requˆete dans l’´el´ement nf et f
i est la
fr´equence du ieme terme de la requˆete q dans la collection.
– Propagation de la pertinence des nœuds feuilles : Une fois que les scores de tous les ´el´ements textuels de la collection sont calcul´es, ces scores sont propag´es vers le haut d’une mani`ere r´ecursive dans l’arbre de document XML comme suit :
RSV (q, n) = D(n)
n
X
l=1
RSV (q, ncl) (2.8)
Avec n est le nombre d’´el´ements fils, D(n) =0.49 si n=1, 0.99 sinon.
RSV (q, ncl) est le score de pertinence de leme ´el´ement fils.
La valeur du facteur D d´epends du nombre de fils pertinents contenus dans le nœud interne n. Si le nœud interne poss`ede un seul fils pertinent, la constante D est 0.49. Un ´el´ement ayant un seul fils pertinent est class´e apr`es son fils. Cependant, si l’´el´ement poss`ede plusieurs fils pertinents le facteur D est 0.99. Un ´el´ement poss´edant plusieurs fils pertinents est class´e avant tous ses descendants.
Ce syst`eme a permis d’obtenir les meilleurs r´esultats dans la campagne
2.7.2.2 Le mod`ele XFIRM
Le mod`ele XFIRM (XML Flexible Information Retrieval Model ) [238] consiste
´egalement `a calculer des valeurs de pertinence pour les diff´erents nœuds feuilles (c’est `a dire les nœuds contenant du texte). Ces valeurs sont par la suite pro- pag´ees et agr´eg´ees vers les nœuds ancˆetres.
Ce mod`ele permet de traiter les requˆetes orient´ees contenu ainsi que les requˆetes orient´ees contenu et structure. Nous nous contentons dans ce que suit de d´etailler le traitement des requˆetes orient´ees contenu qui est effectu´e comme suit : une premi`ere ´etape consiste `a ´evaluer la similarit´e des nœuds feuilles de l’index `a la requˆete (calcul des poids des nœuds feuilles) et une seconde ´etape consiste `a rechercher les sous-arbres pertinents. La pertinence des sous-arbres est ´evalu´ee en effectuant la propagation des poids des feuilles dans l’arbre du document.
– Calcul du score des nœuds feuilles : Si on consid`ere un nœud feuille (nf ) et une requˆete q compos´ee de n mots cl´es (c’est `a dire une requˆete de type CO dans la terminologie d’INEX), la valeur de pertinence du nœud feuille sera calcul´ee en utilisant la fonction de similarit´e RSV (q, nf )
suivante [214] :
RSV (q, nf ) =
T
X
i=1
wqi.winf, avec wqi = tfiq et winf = tfinf.iefi.idfi (2.9)
o`u wqi et winf sont respectivement le poids du terme i dans la requˆete q et
le nœud feuille nf, et tfiqet tfinfsont respectivement la fr´equence du terme
i dans la requˆete q et dans le nœud feuille nf. idfi = log(|D| / |di|) permet d’´evaluer l’importance du terme i dans la collection de documents, avec
|D| le nombre total de documents de la collection et |di| est le nombre
de documents contenant i. iefi = log(|N F | / |nfi|) permet d’´evaluer l’im-
portance du terme i dans la collection de nœuds feuilles, o`u |N F | est le
nombre total de nœuds feuilles de la collection, et |nfi| est le nombre de
nœuds feuilles contenant i.
– Propagation de la pertinence des nœuds feuilles : Une valeur de pertinence est calcul´ee et attribu´ee pour chaque nœud interne de l’arbre du document, en utilisant les poids des nœuds feuilles qu’il contient. Les termes apparaissant pr`es de la racine d’un sous-arbre paraissent plus por- teurs d’information pour le nœud associ´e que ceux situ´es plus bas dans le sous-arbre. Il semble ainsi intuitif que plus grande est la distance entre un nœud et son ancˆetre, moins il contribue `a sa pertinence. Cette intui- tion est mod´elis´ee par l’utilisation dans la fonction de propagation du
param`etre dist(n, nfk), qui repr´esente la distance entre le nœud n et un
de ses nœuds feuilles nfkdans l’arbre du document, c’est-`a-dire le nombre
d’arcs s´eparant les deux nœuds. Il paraˆıt aussi intuitif que plus un nœud poss`ede de nœuds feuilles pertinents, plus il est pertinent. Le param`etre
|Fp
n|, qui est le nombre de nœuds feuilles descendants de n ayant un score
non nul, est alors introduit dans la fonction de propagation.
Une premi`ere ´evaluation de la pertinence pnd’un nœud peut ˆetre calcul´ee
selon la formule (2.10). pn= |Fnp| . X nfk∈Fn αdist(n,nfk)−1∗ (RSV m(q, nfk)) (2.10)
o`u Fnest l’ensemble des nœuds feuilles nfk descendants de n, et α ∈]0..1]
est un param`etre permettant de quantifier l’importance de la distance s´eparant les nœuds dans la formule de propagation.
On peut ´egalement int´egrer dans la mesure du score la pertinence que l’on accorde au document entier. On parle alors de pertinence contextuelle. La valeur de pertinence d’un nœud interne est d´efinie alors comme suit :
pn = ρ ∗ |Fnp| .
X
nfk∈Fn
αdist(n,nfk)−1∗ RSV (q, nf
k) + (1 − ρ) ∗ pracine (2.11)
avec Fn l’ensemble des nœuds feuilles nfk descendants de n, |Fnp| le
nombre de nœuds feuilles descendant de n ayant un score non nul, RSV (q, nfk)
calcul´e d’apr`es2.9, et ρ ∈ [0..1] est un param`etre servant de pivot et per-
mettant d’ajuster l’importance de la pertinence du nœud racine.
Les nœuds sont ensuite renvoy´es `a l’utilisateur par ordre d´ecroissant de pertinence `a la requˆete.
Ce mod`ele a montr´e de bonnes performances au sein de la campagne d’´evaluation