Sélection des termes d’expansion candidats et formation de q 0

4.2 Hypothèse

4.3.2 Sélection des termes d’expansion candidats et formation de q 0

où :

– N est le nombre de documents dans la collection ;

– n est le nombre de documents contentant le terme T de la requête.

Le premier terme de l’équation 4.2 diminue l’impact des termes de la requête qui sont fréquents dans la collection, tandis que le deuxième terme favorise les documents qui ont une forte densité de termes en commun avec la requête (Billerbeck et al., 2003).

Tenant compte du fait que notre approche repose sur les concepts des méthodes PRF, les R premières pages Web trouvées en haut du classement sont considérées pertinentes pour la requête q. Des termes d’extension possibles sont extraits à partir de ces R pages Web. Dans la section suivante, nous présentons les algorithmes que nous employons pour l’extraction et la pondération de ces termes.

4.3.2 Sélection des termes d’expansion candidats et formation de q0

Nous nous sommes inspirés des travaux de Pérez-Agüera et Araujo (2008) et Pal et al. (2013), premièrement nous utilisons un algorithme basé sur la distribution des termes pour sélectionner k termes candidats (T Gcand) de P W pour l’expansion de q. Deuxième- ment, nous utilisons un algorithme basé sur la cooccurrence des termes pour raffiner l’en- semble T Gcand. Ainsi, les termes qui ne sont pas employés simultanément avec les termes de q (absence de cooccurrence) peuvent obtenir des scores plus faibles. De plus, les termes

Proposition d'expansion/enrichissement des tags en s'appuyant sur le Web

avec des faibles scores dans T Gcandmais qui cooccurrent avec les termes de q peuvent ob- tenir des scores plus élevés. Enfin, les m termes qui se trouvent en haut du classement sont utilisés en tant qu’expansion pour la requête q.

En terme d’algorithmes basés sur la distribution des termes, nous nous intéressons particulièrement aux deux approches qui sont souvent utilisées dans les travaux de QE (Carpineto et al., 2001; Pérez-Agüera et Araujo, 2008; Pal et al., 2013) : KLD et Bo1. La première, proposée dans les travaux de Carpineto et al. (2001), est basée sur la mesure de divergence KLD (Kullback-Leibler Divergence). Pour pondérer les termes candidats à l’expansion (dans notre cas, tgcand) elle calcule la divergence entre les distributions de probabilité des termes dans les pages Web les mieux classées (PW) et dans la collection (C). Ainsi, les termes pour lesquels les meilleurs scores sont obtenus sont choisis comme termes d’expansion. Le score d’un terme tgcandselon la mesure KLD est donnée par l’équa- tion 4.4.

KLD(tgcand) = PP W(tgcand) × log

PP W(tgcand)

PC(tgcand)

(4.4) où PP W(tgcand) est la probabilité du tag tgcand dans les mieux classées pages Web et

PC(tgcand) est la probabilité du tag tgcanddans la collection.

La deuxième approche à laquelle nous nous sommes intéressés est l’approche DFR (Divergence From Randomness) (Amati et van Rijsbergen, 2002). Plus précisément, dans nos travaux, nous utilisons le modèle le plus efficace de pondération de termes de DFR, le modèle Bo1 (Pérez-Agüera et Araujo, 2008). Ce modèle est basé sur les statistiques de Bose-Einstein, le score d’un terme tgcand étant calculé par la divergence (l’écart) entre sa distribution dans les pages Web (PW) les mieux classées et une distribution aléatoire. L’équation 4.5 donne la façon dans laquelle ce score est calculé.

Bo1(tgcand) = tfxlog2 1 + P n Pn + log2(1 + Pn) (4.5) où :

– tfxest la fréquence du tag tgcanddans les PW pages Web ;

– Pn= f (tgcand_N |C), où f(tgcand|C) est la fréquence du tgcanddans la collection et N est le nombre de documents dans la collection.

En terme d’algorithmes basés sur la cooccurrence des termes de T Gcand avec tous les termes de la requête q nous employons les algorithmes : LCA (Xu et Croft, 1996) (voir équa- tion 4.6) et RM3 (Jaleel et al., 2004) (voir équation 4.10). Le choix de ces algorithmes est dû à leur utilisation et à leur efficacité dans le domaine QE.

4.3. Exploitation du Web pour étendre la liste initiale des tags d'une image-requête

w(q, tgcand) = Y t∈q

δ+log10(f(tgcand, t)) × idftgcand

log10(|P W |)

idft

(4.6)

où :

– δ est une constante fixée à 0,1 comme cela est suggéré dans Xu et Croft (1996) ; – idftgcand = max

1, 0, log10

N/N_tgcand 0,5

, où Ntgcandreprésente le nombre des pages Web de la collection qui contiennent le terme tgcand;

– idft= max

1, 0, log10N/Nt_0,5

, où Ntreprésente le nombre des pages Web de la collec- tion qui contiennent le terme t de q ;

– f(tgcand, t) mesure la corrélation entre le tag tgcandet le terme t de q. Elle est calculée par l’équation 4.7. f(tgcand, t) = X pw∈P W tf(tgcand, pw) × tf(t, pw) (4.7) où :

– tf(tgcand, pw) représente la fréquence du tgcanddans la page Web pw considérée et – tf(t, pw) représente la fréquence du terme t de q dans la page Web pw considérée. Les m premiers termes qui obtiennent les meilleurs scores sont utilisés en tant qu’ex- pansions pour q. Les scores finaux des termes dans la requête étendue q0sont déterminés par l’équation 4.1 présentée dans la section II.4.1, méthode de local feedback.

Dans les approches RM la requête et les documents pertinents sont des échantillons résultant d’un modèle de pertinence (R). Pour estimer un tel modèle, la probabilité d’un terme est donnée par la probabilité conditionnelle d’observer ce terme avec les termes de la requête originale (q dans notre cas). Une première estimation a été présentée dans les travaux de Lavrenko et Croft (2001) : la méthode RM1 (équation 4.8). Cette méthode sup- pose que les termes des documents et les termes de la requête originale sont des échan- tillons identiques et indépendants du modèle de pertinence.

Dans le cadre de cette thèse, nous nous intéressons particulièrement à l’algorithme RM3. Cette méthode est une extension de l’algorithme RM1. La différence entre les deux est donnée par le fait que l’algorithme RM3 fusionne les termes choisis par RM1 avec les termes de q au lieu de les utiliser directement (voir equation 4.10). Le choix de cette mé- thode fait référence aux travaux de Lv et Zhai (2009a), qui ont montré que RM3 et plus per- formant que RM1 en termes d’efficacité. Pour plusieurs détails concernant ces approches nous faisons référence aux travaux de (Croft et al., 2010, chap. 7).

P(tgcand|R) = X pw∈P W P(pw) P (tgcand|pw) n Y i=1 P(qi|pw) (4.8)

Proposition d'expansion/enrichissement des tags en s'appuyant sur le Web

où :

– P(pw) est supposé être une probabilité uniforme ; – n représente le nombre de termes de la requête q ;

– P(tgcand|pw) mesure l’importance du terme termcanddans pw ; – P(qi|pw) est estimé par le lissage de Dirichlet (voir équation 4.9).

P(qi|pw) =

tf(qi, pw) + µ P (qi|C)

|pw|+ µ (4.9)

où

– tf(qi, pw) est le nombre de fois que le terme qide la requête textuelle q apparaît dans la page Web pw ;

– P(qi|C) est la probabilité de qidans la collection de pages Web C ; – µ est un paramètre de lissage ;

– |pw| est le nombre des termes dans la page Web pw.

P(tgcand|q0) = (1 − λ) P (tgcand|q) + λ P (tgcand|R) (4.10) où

– λ est un paramètre d’interpolation avec des valeurs comprises entre[0 ; 1] ; – P(tgcand|q) = tf (tgcand,q)|q|

Dans cette étape, nous avons condensé les étapes deux et trois présentées dans le cas de la méthode PRF. Cela est dû à l’algorithme RM3 qui, par définition, adopte une tech- nique de re-pondération pour fusionner les termes choisis en tant qu’extensions avec les termes de la requête originale q. De plus, l’étape quatre existant dans le cas de la méthode PRF n’est pas considérée dans nos travaux, étant donnée que notre objectif est d’aug- menter la liste des annotations issues du processus d’annotation (voir section II.3) avec d’autres termes issus du Web, et non pas de retrouver un nouvel ensemble de documents pour une requête soumise à un SRI par un utilisateur lambda.

Du fait que dans nos démarches nous ne considérons que les quatre ou cinq premiers

tags de l’ensemble AnnotIR pour former la requête textuelle q, une étape supplémen- taire est exigée par rapport aux méthodes PRF. Cette étape est nécessaire dans le cas où plus de cinq tags de AnnotIR sont pertinents pour l’image-requête iqconsidérée (ce qui est souvent le cas). Nous appelons cette étape fusion des termes de AnnotIR avec les termes de q0et nous la présentons dans la suite.

4.4. Bilan

Dans le document Annotation d'images via leur contexte spatio-temporel et les métadonnées du Web (Page 121-125)