• Aucun résultat trouvé

Modèle de Contenu Sémantique C-W d u

5.3 Estimation du modèle de Contenu pour les documents

5.3.4 Modèle de Contenu Sémantique C-W d u

αt f(to,d u i) |du i| + (1−α)tgj∈T-Tdui P(to|tgj)P(tgj|T-Tdu i) tk∈dui P(tk|Tu di)tk∈du i P(tk|C-Tdu i) (5.15) = αt f(to,d u i) |du i| + (1−α) tgj∈T-Tdui P(to|tgj)K zk=1φtgj,zkθzk,du itgr∈Tu diK zk=1φtgr,zkθzk,du i tk∈dui P(tk|Tu di)tk∈du i P(tk|C-Tdu i) (5.16)

où φtgj,zk représente la probabilité du tag tgj dans le thème zket θzk,du

i représente la probabilité que le document traite du

i du thème zk. Ces probabilités sont calculées sur l’ensemble des thèmes.

5.3.4 Modèle de Contenu Sémantique C-Wdu

i

Un modèle de Contenu Sémantique noté C-Wdu

i où la probabilité P(tgj|T-Wdu i) est estimé suivant le modèle de Tag Thématique présenté dans la chapitre 4, et la formule finale du modèle C-Wdu

i est comme suit :

P(to|C-Wdu i) = αP(to|dui) + (1−α)P(to|T-Wdu i) ∑tk∈du i P(tk|C-Wdu i) (5.17) = αt f(to,d u i) |du i| + (1−α)tgj∈T-Wdui P(to|tgj) P(tgj|T-Wdu i) tk∈dui P(tk|Tu di)tk∈du i P(tk|C-Wdu i) (5.18) = αt f(to,d u i) |du i| + (1−α) tgj∈T-Wdui P(to|tgj)tp∈diuP(tgj|tp)P(tp|du i) ∑tgr∈Tdu itp∈du i P(tgr|tp)P(tp|du i)) tk∈dui P(tk|Tu di)tk∈du i P(tk|C-Wdu i) (5.19) où la probabilité P(tgj|tp)présente la similarité sémantique entre le tag tgj et le terme tpet P(tp|dui)représente la probabilité du terme tpdans le document dui. Cette probabilité est calculée par un maximum de vraisemblance (t f(tp, dui)||dui|).

5.4 Construction du profil de l’utilisateur

La construction du profil de l’utilisateur que nous proposons est réalisée en deux étapes comme suit :

1. Identification des termes importants consiste à déterminer les termes perti-nents pour chaque document annoté par l’utilisateur et qui potentiellement reflètent les centres d’intérêts de cet utilisateur.

Pour chaque couple< dui, Tdu

i >( document dui annoté par l’utilisateur u avec les tags Tdu

i), nous estimons le poids de chaque terme du document dui. Dans la section précédente, nous avons détaillé les quatre méthodes d’esti-mation des modèles de contenu pour chaque document de l’utilisateur : (a) Le modèle de Contenu Basique C-Xdu

i

(b) Le modèle de Contenu Standard C-Sdu i

(c) Le modèle de Contenu Thématique C-Tdu i

(d) Le modèle de Contenu Sémantique C-Wdu i

2. Construction du profil utilisateur est réalisée en exploitant les modèles de Contenu des documents estimés dans la première étape.

Sur l’ensemble des documents annotés par l’utilisateur dui ∈ Du, nous esti-mons les poids des termes sur l’ensemble des modèles de contenu de l’utili-sateur.

Pour chaque termes to du vocabulaire, le poids final de ce terme correspond à sa distribution moyenne dans tous les modèles des Contenu des documents. Plus formellement, un utilisateur u est représenté par un vocabulaire de termes VT définit sur l’ensemble de termes des documents Du qu’il a annoté. Nous défi-nissons un profil utilisateur sur l’ensemble de son vocabulaire VT, où le poids de chaque terme to ∈VT est estimé comme suit :

P(to|PC-Xu ) = ∑di∈DuP(to|C-Xdu i) ∑tp∈VTdi∈DuP(tp|C-Xdu

i) (5.20)

PC-Xu représente le profil de l’utilisateur où X qui peut être B pour le profil ba-sique PC-Bu , S pour désigner le profil standard PC-Su , T pour le profil thématique PC-Tu , et W pour le profil sémantique PC-Wu .

Nous définissons ainsi quatre profils pour l’utilisateur qui exploitent chaque mo-dèle de contenu de document comme suit :

— Le Profil Utilisateur Basique notée PC-Bu basé sur le modèle de Contenu Ba-sique décrit en section5.3.1, comme suit :

P(to|PC-Bu ) = ∑di∈DuP(to|C-Bdu i) ∑tp∈VTdi∈DuP(tp|C-Bdu

i) (5.21)

— Le Profil Utilisateur Standard notée PC-Su basé sur le modèle de Contenu Stan-dard décrit en section5.3.2, comme suit :

P(to|PC-Su ) = ∑di∈DuP(to|C-Sdu i) ∑tp∈VTdi∈DuP(tp|C-Sdu

5.5. Modèle de recherche d’information sociale personnalisée 63 — Le Profil Utilisateur Thématique Pu

C-T avec une estimation basée sur le mo-dèle de Contenu Thématique présenté en section5.3.3 pour chaque tag de l’utilisateur :

P(to|PC-Tu ) = ∑di∈DuP(to|C-Tdu i) ∑tp∈VTdi∈DuP(tp|C-Tdu

i) (5.23)

— Le Profil Utilisateur Sémantique PC-Wu basé sur le modèle de Contenu Sé-mantique5.3.4

P(to|PC-Wu ) = ∑di∈DuP(to|C-Wdu i) ∑tp∈VTdi∈DuP(tp|C-Wdu

i) (5.24)

5.5 Modèle de recherche d’information sociale personnalisée

Dans cette section, nous présentons les différents modèles de RISP pour évaluer les profils utilisateurs que nous avons proposés dans ce chapitre.

Similairement au chapitre5, nous employons un modèle d’ordonnancement qui est basé sur une combinaison linéaire du score de pertinence du document à la re-quête et un score de pertinence du document pour le profil de l’utilisateur.

Pour un utilisateur u qui soumet la requête q, le document d va avoir un score d’ordonnancement estimé comme suit :

RSV(q, d, u) =βCRSV(q, d) + (1−βC)RSV(d, u) (5.25) avec RSV(q, d)représente le score correspondance entre le document dui et la re-quête q et RSV(u, d)représente le score de correspondance entre le profil utilisateur et le document respectivement, et βCun paramètre dans [0,1].

Le profil de l’utilisateur u est estimé en utilisant les modèles que nous avons proposés dans les sections précédentes. Nous proposons ainsi 4 modèles de RISP qui sont :

— Le modèle MCuBoù le profil de l’utilisateur est estimé avec le modèle PC-Bu . RSV(q, d, u) =βcRSV(q, d) + (1−βc)RSV(d, PC-Bu ) (5.26) — Le modèle MCu

Soù le profil de l’utilisateur est estimé avec le modèle Pu C-S. RSV(q, d, u) =βcRSV(q, d) + (1−βc)RSV(d, PC-Su ) (5.27) — Le modèle MCuToù le profil de l’utilisateur est défini en employant le modèle

PC-Tu .

RSV(q, d, u) =βcRSV(q, d) + (1−βc)RSV(d, PC-Tu ) (5.28) — Le modèle MCuWoù le profil de l’utilisateur est modélisé par le modèle PC-Wu . RSV(q, d, u) =βcRSV(q, d) + (1−βc)RSV(d, PC-Wu ) (5.29) Les scores RSV(q, d)et RSV(u, d) sont estimés avec le modèle de langue avec lissage de Dirichlet. Le paramètre de lissage µ est fixé, dans toutes nos expérimenta-tions, à la valeur classique 2500, qui est celle par défaut de systèmes comme Terrier.

5.6 Conclusion

Dans le chapitre précédent 4, nous avons présenté une première approche de modélisation de l’utilisateur basé sur les tags en exploitant les documents pour la pondération des tags. Nous avons proposé trois modèles utilisateurs et chaque mo-dèle exploite un momo-dèle de Tags de document comme suit :

— Le modèle MTuSoù le profil de l’utilisateur est estimé avec le modèle de Tag Standard PT-Su .

— Le modèle MTu

Toù le profil de l’utilisateur est définit en employant le modèle de Tag Thématique PT-Tu .

— Le modèle MTuWoù le profil de l’utilisateur est modélisé par le modèle de Tag Sémantique PT-Wu .

L’évaluation de ces modèles est présentée dans le chapitre8.

Dans ce chapitre, nous avons présenté une approche de modélisation l’utilisa-teur basé sur les documents en exploitant les tags pour la pondération des termes du document. Précisément, cette approche propose de faire dépendre les termes du document non seulement du contenu textuel du document mais également des tags attribués par l’utilisateur à ce document. Le but est de déterminer les termes impor-tants du document qui reflètent les centres d’intérêts de l’utilisateur.

Nous avons proposé quatre modèles utilisateurs, où chaque modèle se base sur un modèle de Tag spécifique :

— Le modèle MCuBoù le profil de l’utilisateur est estimé avec le modèle PC-Bu . Le profil de l’utilisateur PC-Bu , prend en compte tous les tags de l’utilisateur. — Le modèle MCu

S où le profil de l’utilisateur est estimé avec le modèle Pu C-S. Le profil de l’utilisateur PC-Su , intègre le modèle de Tag Standard.

— Le modèle MCuToù le profil de l’utilisateur est défini en employant le modèle Pu

C-T. Le profil de l’utilisateur Pu

C-T, intègre le modèle de Tag Thématique. — Le modèle MCuWoù le profil de l’utilisateur est modélisé par le modèle PC-Wu .

Le profil de l’utilisateur PC-Wu , intègre le modèle de Tag Sémantique. L’évaluation de ces modèles est présentée dans le chapitre7.

65

Quatrième partie