Personnalisation de l’indexation - Impact des réseaux sociaux sur le processus de recherche d’i

Les annotations sociales peuvent enrichir la description des documents auxquels elles ont été associées par l’utilisateur. Dans notre approche de personnalisation de l’indexation, nous proposons d’utiliser le contexte social de l’utilisateur modélisé (cf. section 3) pour extraire depuis le document une description sociale personnalisée de ce document selon les termes du CIS de l’utilisateur. Pour cela, nous proposons d’identifier au sein du document les termes importants à repondérer et de combiner ensuite ces termes repondérés aux termes du contenu initial du document.

5.1.1 Repondération des termes du CIS

Nous avons proposé de repondérer les termes du document quand ils se retrouvent au sein du profil de l’utilisateur ([Bouhini et al., 2013a], [Bouhini et al., 2013b]). La repondération de ces termes permet d’accorder plus d’importance à ces termes qui représentent des informations à propos des centres d’intérêt de l’utilisateur.

5.1.2 Modèle de RSPI : BM 25F_S

L’intégration du contexte informationnel social de l’utilisateur au niveau des documents (cf. figure 4.2) nous a conduit à proposer un premier modèle de recherche sociale personnalisée d’information, que nous appelons BM 25F_S, basé sur le modèle de pondération BM 25F (cf. section 1.5, chapitre 2).

Dans ce modèle BM 25FS, nous proposons de générer un index personnalisé de documents par utilisateur, en deux étapes détaillées ci-après.

Description sociale personnalisée du document à partir du CIS de l’utilisateur :

Nous proposons de générer une description personnalisée du document par rap-port au CIS de l’utilisateur et de combiner ensuite cette description personnalisée au contenu textuel du document. Cette étape est divisée en deux parties :

– La première consiste à identifier les termes important à re-pondérer. Il s’agit d’extraire depuis le document, les termes qui se trouvent aussi dans le profil de l’utilisateur. Ces termes sont considérés importants pour l’utilisateur et nécessitent d’être re-pondérés selon l’importance que l’utilisateur leur a accordé dans son profil.

– La deuxième est une re-pondération des termes du document qui constituent sa description sociale personnalisée. Ces termes obtiendront leur poids depuis le CIS de chaque utilisateur de sorte que quand un terme fait partie de la description sociale du document, le poids qu’on lui attribue sera celui du poids que ce terme obtient au sein du contexte social de l’utilisateur.

Combinaison de la description personnalisée du document avec son contenu :

Nous proposons de combiner le contenu du document avec la description sociale personnalisée du document par rapport au CIS de l’utilisateur, considérés comme étant trois différents champs d’information (profil social, profil du voisinage social et contenu initial du document). Nous générons, par conséquent, un index personnalisé des documents basé sur ces trois champs :

– Le champ contenu du document d, représenté par un vecteur de fréquences de termes dans le champ contenu du document (field term frequencies f tf s_d,t), qui est égale à la fréquence d’occurrences classique tf_d,t du terme dans le document d :

– Le champ description sociale personnalisée du document par rapport au profil

de l’utilisateur P S(u), représenté par un vecteur de fréquences de termes du profil

de l’utilisateur qui sont dans le document (f tf s_u,d,t).

Uniquement les poids des termes apparaissant à la fois dans le contenu du docu-ment et dans le profil social de l’utilisateur doivent être pris en considération :

f tf su,d,t=    tf_u,t si tf_d,t > 0 0 sinon. ^(4.4)

où : tf_u,t est la fréquence d’occurrence du terme t dans le profil social P S(u) de

– Le champ description sociale personnalisée du document par rapport au profil

du voisinage de l’utilisateur P V (u), représenté par un vecteur de fréquences de

termes du profil du voisinage de l’utilisateur et qui sont dans le document f tf sv,d,t. Similairement : f tf s_v_u_,d,t =    tf_v_u_,t si tf_d,t> 0 0 sinon. ^(4.5)

où : tf_v_u_,t est la fréquence d’occurrence du terme t dans le profil P V (u) du voisi-nage social de u.

Chaque document est ensuite indexé par un vecteur de poids ws_u,d,t, avec ws_u,d,t désignant une version personnalisée du poids w_d,t du terme t dans le document d pour l’utilisateur u, calculée suivant la formule BM 25F .

La fonction de pondération BM25F a été proposée par [Robertson et al., 2004] dans l’objectif d’utiliser une pondération basée sur le BM25 pour indexer des docu-ments structurés composés de plusieurs champs (fields) : titre, résumé, etc. BM 25F est plus approprié que le BM 25 pour l’indexation d’un document composé de diffé-rents champs.

Cette fonction de pondération a été étendue par Zaragoza et al., dans l’objectif d’optimiser la normalisation de la taille de chaque champ du document [Zaragoza et al., 2004]. Nous avons choisi d’utiliser cette version.

Le score d’un document d pour une requête q calculé par la formule BM 25F dans [Zaragoza et al., 2004] est donné par la formule 2.16 que nous rappelons ci-dessous.

f tf s_d,t= ^{f tf}^d,t

1 + b_d× ( dl

f tf s_u,d,t= ^{f tf s}^u,d,t 1 + b_u× ( ul avgul − 1) ^(4.7) f tf s_v_u_,d,t = ^{f tf s}^vu,d,t 1 + bv× ( vl avgvl − 1) ^(4.8) où :

– b_d, b_u et b_v sont des paramètres respectifs similaires au paramètre b (de BM25), pour chacun des champs que nous considérons ici respectivement, le champ contenu du document d, le champ description personnalisée du document par rapport au profil de l’utilisateur et le champ description personnalisée du document par rap-port au profil du voisinage social de l’utilisateur.

– dl, ul et vl représentent ici les tailles des trois champs du document.

– avgdl, avgul et avgvl correspondent à la taille moyenne, à travers le corpus, des trois champs considérés.

Nous calculons un score BM 25F_S(d, q, u) d’un document d pour la requête q posée par l’utilisateur u.

BM 25F_S(d, q, u) = ^X t∈d∩q ws_u,d,t = ^X t∈d∩q T F_S_d,u,t × IDF_t× QT F_q,t où : T F_S_d,u,t = ^ctf^u,d,t k₁ + ctf_u,d,t ^(4.9) – IDF_t et QT F_q,t représentent respectivement IDF_t et QT F_q,t classiques dans la formule BM25 donné dans l’équation 4.3,

– ws_u,d,t est le poids social du terme t dans le document d pour la requête q et l’utilisateur u,

– ctf_u,d,t, est la fréquence d’occurrences combinée des trois champs du document :

– w_d, w_u et w_v sont des paramètres utilisés pour optimiser l’importance de cha-cun des champs : contenu du document, description personnalisée du document par rapport au profil de l’utilisateur et description personnalisée du document par rapport profil du voisinage de l’utilisateur.

5.2 Intégration du CIS aux documents : Positionnement et

Dans le document Impact des réseaux sociaux sur le processus de recherche d’information (Page 86-90)