• Aucun résultat trouvé

Profil du voisinage de l’utilisateur

Des individus partageant les mêmes centres d’intérêt forment parfois un groupe et échangent des informations [Goh and Foo, 2008]. Ceci permet d’enrichir le profil social de l’utilisateur en l’étendant avec celui de son voisinage social. De même que pour le profil social deu, nous considérons que le profil du voisinage social "P V(u)"

de l’utilisateur u peut être généré à partir des annotations des utilisateurs qui sont en relation sociale avec lui (cf. équation 4.2)

P V(u) =∪u0∈U / (u,u0)∈RelP S(u0) (4.2) oùRel représente l’ensemble des liens sociaux entre les utilisateurs.

Le profil social de l’utilisateur peut contenir lui aussi plusieurs occurrences d’un même terme t. Ainsi, nous calculons une fréquence d’occurrence "tfvu,t" du terme t dans les annotations du voisinage de l’utilisateur, qui représente le nombre de fois où des utilisateurs du voisinage deu ont employé le termet dans leurs annotations.

Dans notre exemple nous obtenons :

– Le profil du voisinage social d’Alice est composé de 55 occurrences du terme Smartphone et 12 occurrences du terme Android,

– Le profil du voisinage social de Bob est composé de 12 occurrences du terme Smartphone et 55 occurrences du terme Android.

4 Interprétations du contexte informationnel so-cial pour la RI

Le contexte informationnel social contient des informations sur les centres d’in-térêts de l’utilisateur. Dans l’objectif de l’exploiter pour la RI, nous distinguons deux interprétations possibles de ces informations que nous appelons "à propos" et

"préférences".

Interprétation "à propos": les informations du contexte informationnel de l’utilisateur peuvent être interprétées comme un indicateur du contenu thématique des documents susceptibles d’intéresser l’utilisateur. Il a en effet déjà abordé ces thématiques dans ses activités d’annotation. On cherchera alors à retrouver les do-cuments similaires au CIS, c’est à dire des dodo-cuments dans lesquels la distribution des termes est proche de la distribution des termes dans le profil de l’utilisateur.

Interprétation "préférences" : les informations du contexte informationnel social de l’utilisateur peuvent également être considérées comme un indicateur de préférences de l’utilisateur pour chaque terme. On cherchera alors à renforcer l’impact des termes "préférés" dans le calcul du score de pertinence des documents.

En reprenant l’exemple de l’utilisateur Alice, supposons que nous avons trois documents d1, d2, d3 contenant chacun les termes Smartphone et Android comme rappellé dans le tableau 4.1

Avec l’interprétation "à propos", on recherchera des documents similaires à la requête, comme ce qui se fait classiquement en RI, Alice préférera donc d1 à d2, même si les termes de la requête apparaissent globalement avec le même nombre d’occurrences dans les deux documents (85+7 = 7+85), car la proportion de t1 et det2 dans son profil est plus proche de d1 que de d2. Alice préférera même d1 à d3 alors que le nombre d’occurrences total det1 ett2 est plus important dansd3 (85 + 85 = 170) que dans d1 (85 + 7 = 92) car comparé à d1, la distribution des termes dans d3 est plus proche de celle dans le profil d’Alice.

Avec cette interprétation, un terme très peu important dans le profil sera consi-déré comme indésirable dans les documents recherchés : on pénalisera donc des documents contenant un nombre d’occurrences élevé de ce terme.

En calculant un score de similarité des documents de notre exemple par rapport à la requête posée par Alice, on obtiendra donc le classement suivant des documents :

scoreRSI(q, d1)> scoreRSI(q, d3)> scoreRSI(q, d2) (cf. tableau 4.2).

Avecl’interprétation préférences, on cherchera à renforcer l’impact des termes importants dans le profil de l’utilisateur. Avec cette interprétation, Alice préférera d1(85+7) àd2 (7+85) car le terme le plus important de son profil (Smartphone) sera prioritaire dans le calcul du score de pertinence des documents. Mais, contrairement à l’interprétation "à propos", Alice préférera d3 (85+85) à d1 (85+7), car le terme important du profil d’Alice (Smartphone) a le même nombre d’occurrences dans les deux documents, qui seront alors départagés par le nombre d’occurrences du terme Android, qui est plus fréquent dans d3.

Si on considère que l’importance des termes dans le profil d’Alice traduit une préférence, alors le calcul de score retournera le classement suivant des documents :

scoreRSI(q, d3) > scoreRSI(q, d1) > scoreRSI(q, d2) (cf. tableau 4.2).

On peut remarquer qu’un calcul de similarité entre les distributions des termes dans le document et dans le profil de l’utilisateur, n’est pas adapté à cette interpré-tation du profil. On préférera l’usage d’une fonction de type multiplicatif, qui aug-mentera l’impact des termes importants. On peut ensuite noter que dans le cas d’une interprétation "préférences", un terme qui apparaît dans le profil de l’utilisateur doit toujours être pris en considération même si son poids est faible. Contrairement au cas de la RI basée sur une similarité, où un terme est considéré comme indésirable si son poids dans la requête est faible.

Nous choisissons dans notre approche d’utiliser le contexte social de l’utilisateur comme indicateur de préférence de celui-ci.

5 Modèles de RSPI

Nous intégrons le contexte informationnel social de l’utilisateur, interprété comme indicateur de préférence, au sein du modèle de RSPI. Nous proposons de repondé-rer au sein du document ou de la requête les termes importants qui sont dans le CIS de l’utilisateur. La repondération des termes importants pour l’utilisateur dans

t1 t2 Similarité Multiplicative Smartphone Android Rang : à propos Rang : préférences

q 1 1

P S(Alice) 40 3

d1 85 7 1er 2ième

d2 7 85 3ième 3ième

d3 85 85 2ième 1er

Tableau 4.2 – Interprétations préférences et à propos

le document et/ou dans la requête devrait améliorer les résultats retournés par le système pour la requête de l’utilisateur en renvoyant les documents pertinents pour chaque utilisateur selon son contexte informationnel social. Nous pensons qu’il est important de choisir un modèle de pondération tel que le BM25, qui est adapté au traitement de documents et de requêtes de tailles très variables, grâce à l’utilisation des versions normalisées des fréquences dans leT F, l’IDF et le QT F. Nous rappe-lons que le score d’un document pour une requête calculé dans le modèle BM25 est donné par la formule 4.3.

Nous proposons dans cette section deux approches d’intégration du contexte social de l’utilisateur au sein d’un modèle de RI, selon qu’il est combiné au document (cf. figure 4.2) ou à la requête (cf. figure 4.3).

Ceci nous a amené à définir plusieurs modèles de RSPI décrits dans les sections suivantes listés dans le tableau 4.3.

Dans ces modèles, nous intégrons le contexte social de l’utilisateur comme indica-teur de ses préférences. En tenant compte de trois principaux niveaux de saturation

Niveau d’intégration du CIS dans une Modèles de RSPI interprétation de type préférences

Intégration du contexte à l’indexation Modèle BM25FS(d, q, u) Intégration du contexte à l’interrogation Modèle BM25Sbin(d, u)

Modèle BM25Stf(d, u) Modèle BM25Sw(d, u)

Modèle BM25SF reqComb−bin(d, q, u) Modèle BM25SF reqComb−tf(d, q, u) Modèle BM25SF reqComb−w(d, q, u) Modèle BM25SScoreComb−bin(d, q, u) Modèle BM25SScoreComb−tf(d, q, u) Modèle BM25SScoreComb−w(d, q, u) Tableau 4.3 – Tableau récapitulatif des différents modèles de RSPI proposés

des termes (saturation nulle, maximale et optimisée ou équilibrée) au sein du profil de l’utilisateur et au sein de la requête (par le biais du paramètre de contrôle de saturation k3), nous proposons trois variantes de chaque modèle de RSPI intégrant le profil de l’utilisateur à l’interrogation (cf. figure 4.3).

𝑹𝒆𝒒𝒖ê𝒕𝒆𝒔

𝐼𝑛𝑑𝑒𝑥 𝑝𝑒𝑟𝑠𝑜𝑛𝑛𝑎𝑙𝑖𝑠é ∶ 𝐶𝑜𝑚𝑏𝑖𝑛𝑎𝑖𝑠𝑜𝑛 (𝑑, 𝑢) 𝐷𝑜𝑐𝑢𝑚𝑒𝑛𝑡 (𝑑)

𝐶𝑜𝑛𝑡𝑒𝑥𝑡𝑒 𝑠𝑜𝑐𝑖𝑎𝑙 𝑑𝑒 𝑙’𝑢𝑡𝑖𝑙𝑖𝑠𝑎𝑡𝑒𝑢𝑟 (𝑢)

𝐵𝑀25𝐹𝑆(𝑑, 𝑞, 𝑢)

𝑫𝒐𝒄𝒖𝒎𝒆𝒏𝒕𝒔 𝑴𝒐𝒅è𝒍𝒆 𝒅𝒆 𝑹𝑺𝑷𝑰

Figure 4.2 – Combinaison du contexte social de l’utilisateur au niveau des documents

𝐵𝑀25(𝑑, 𝑞) 𝑫𝒐𝒄𝒖𝒎𝒆𝒏𝒕𝒔

𝐶𝑜𝑚𝑝𝑙é𝑚𝑒𝑛𝑡 𝑑𝑒 𝑟𝑒𝑞𝑢ê𝑡𝑒 ∶ 𝐶𝑜𝑚𝑏𝑖𝑛𝑎𝑖𝑠𝑜𝑛 (𝑞, 𝑢) 𝑅𝑒𝑞𝑢ê𝑡𝑒 𝑑𝑒

𝑙’𝑢𝑡𝑖𝑙𝑖𝑠𝑎𝑡𝑒𝑢𝑟 (𝑞)

𝐶𝑜𝑛𝑡𝑒𝑥𝑡𝑒 𝑠𝑜𝑐𝑖𝑎𝑙 𝑑𝑒 𝑙’𝑢𝑡𝑖𝑙𝑖𝑠𝑎𝑡𝑒𝑢𝑟 (𝑢)

𝐵𝑀25𝑆𝐹𝑟𝑒𝑞𝐶𝑜𝑚𝑏(𝑑, 𝑞, 𝑢)

𝐵𝑀25𝑆(𝑑, 𝑢) 𝑼𝒕𝒊𝒍𝒊𝒔𝒂𝒕𝒆𝒖𝒓

𝐵𝑀25𝑆𝑆𝑐𝑜𝑟𝑒𝐶𝑜𝑚𝑏(𝑑, 𝑞, 𝑢) 𝑴𝒐𝒅è𝒍𝒆𝒔 𝒅𝒆 𝑹𝑺𝑷𝑰

Figure 4.3 – Combinaison du contexte social de l’utilisateur au niveau de la requête