• Aucun résultat trouvé

Estimation des Modèles de Tag pour les documents

Cette section est consacrée à la description des modèles qui estiment les poids des tags et leurs importance pour l’utilisateur (la première étape de la construction du profil utilisateur), et qui est représentée dans la figure4.2.

Notre principale contribution réside dans l’estimation du modèle de Tag de chaque document dui annoté par l’utilisateur u en exploitant le lien entre les tags et le docu-ment. Nous proposons de donner une définition au lien entre le document et les tags et qui est porté par notre hypothèse principale qui est :

"Seuls les tags qui décrivent les sujets des documents doivent être pris en compte". Partant de cette hypothèse globale, nous proposons trois sous hypothèses : — H1 : Seuls les tags de l’utilisateur qui sont des termes du document sont des tags

pertinents et décrivent le contenu du document d’après l’utilisateur.

— H2 : Seuls les tags de l’utilisateur qui sont dans le même espace latent que les thèmes du document sont des tags pertinents et décrivent le contenu du document d’après l’utilisateur.

— H3 : Seuls les tags de l’utilisateur qui sont dans le même espace sémantique que les termes du document sont des tags pertinents et décrivent le contenu du document d’après l’utilisateur.

Pour chaque hypothèse nous proposons un modèle de Tags, à savoir le Modèle de Tag Standard T-Sdu

i présenté en section4.3.1répondant à l’hypothèse H1, le Mo-dèle de Tag Thématique T-Tdu

i présenté en section4.3.3répondant à l’hypothèse H2 et le Modèle de Tag Sémantique T-Wdu

i présenté en section4.3.2répondant à l’hypo-thèse H3.

4.3. Estimation des Modèles de Tag pour les documents 49

4.3.1 Modèle de Tag Standard T-Sdu

i : basé sur le contenu du document

Dans le modèle de Tag Standard T-Sdu

i la distribution des tags repose sur l’hy-pothèse H1, que seuls les tags de l’utilisateur qui sont des termes du document sont des tags pertinents et décrivent le contenu du document d’après l’utilisateur. Ceci implique, d’une part, que tous les autres tags utilisés par l’utilisateur pour annoter un document et qui ne sont pas des termes de ce document seront considérés comme non pertinents et donc sont éliminés du modèle. D’autre part, les tags qui sont des termes des documents vont avoir une importance qui est relative à leur fréquence d’apparition dans le document auquel ils sont associés.

Donc, pour un document dui annoté par l’utilisateur u, nous calculons le poids de chaque tag tgj ∈ Tdu

i, qui est traduit par la probabilité que ce tag soit présent dans le document P(tgj|dui) (la probabilité que le tag est un terme du document). Nous estimons cette probabilité par un maximum de vraisemblance (qui satisfait l’hypothèse) comme suit :

P(tgj|dui) = t f(tgj, dui)

|dui| (4.2)

où t f(tgi, dui)représente la fréquence du tag tgj dans le document dui et|dui| repré-sente la taille du document dui.

L’estimation finale du modèle de Tag Standard T-Sdu

i est illustrée dans l’algo-rithme1, et les notations utilisées sont détaillées dans le Tableau4.2.

u Un utilisateur

du

i Un document annoté par l’utilisateur u Tdu

i = {tg1, tg2, ..., tgM} L’ensemble de tags assignés par l’utilisateur u au document dui TABLE 4.2 – Notations utilisées dans l’algorithme d’estimation du

Modèle de Tag Standard T-Sdu i

Algorithm 1Estimation du Modèle de Tag Standard T-Sdu i Require: du i = {t1, t2, t3, ..., tN} Tdu i = {tg1, tg2, ..., tgM} Ensure: T-Sdu i 1: for each tgj ∈ Tdu i do 2: P(tgj|T-Sdu i) = P(tgj|dui) tgk∈Tu diP(tgk|d u i) where P(tgj|diu) = t f(tgj,dui) |du i| 3: end for

L’hypothèse H1 sur laquelle est construit le modèle de Tag Standard T-Sdu i per-met d’une part de ne prendre en compte que les tags qui décrivent le sujet du document et d’autre part potentiellement élimine les tags qui sont erronés (bruit) et ne décrivant pas le contenu du document. Par contre, cette hypothèse véhicule une contrainte et une limite. En effet, les tags qui peuvent être importants mais qui ne sont pas des termes du document seront éliminés par le modèle du fait que ce dernier reflète l’hypothèse qu’un utilisateur n’utilise que les termes du document comme tags pour décrire le sujet du document.

Cependant, cette hypothèse n’est pas toujours vraie, car un utilisateur peut tota-lement utiliser des tags qui décrivent le contenu du document sans qu’ils ne soient des termes du document. Donc, cette contrainte peut potentiellement éliminer cer-tains tags qui sont pertinents et qui décrivent eux aussi le sujet du document.

Nous rappelons que la principale motivation de nos propositions est de ne prendre en compte que les tags qui décrivent le contenu du document. Dans ce but, nous pouvons utiliser des méthodes qui capturent la sémantique entre les tags et le contenu du document. Nous présentons dans la section suivante la méthode permettant de pallier à ce problème en employant des méthodes sémantiques.

4.3.2 Modèle de Tag Thématique T-Tdu

i : basé sur les thèmes du document

La limite du modèle de Tag Standard réside dans le fait qu’un tag important et qui couvre le sujet du document attribué par l’utilisateur pourrait être ignoré et éliminé du modèle s’il n’apparaît pas dans le document (le tag n’est pas un terme du document). Pour tenir compte de ces tags qui traitent des sujets du document mais ne sont pas des termes du document, nous proposons d’employer des modèles probabilistes thématiques.

Dans notre contexte, nous proposons d’exploiter le modèle probabiliste théma-tique LDA pour estimer l’importance des tags pour un document. Donc, un tag est considéré pertinent et couvre les sujets du document s’il traite des thèmes de ce der-nier.

Découvertes des thèmes des documents

Nous employons le modèle thématique probabiliste LDA [24] pour découvrir les thèmes latents dans la collection de documents. Pour chaque document di, l’algorithme LDA fournit une distribution des thèmes Z = {z1, z2, ...zK} dénoté θdi,zk qui mesure la probabilité que le document di traite du thème zk. L’algorithme va aussi fournir une distribution des termes pour chaque thème

φto,zk mesurant la probabilité qu’un terme to apparaît dans le thème zk.

Estimation des probabilités d’apparition des tags dans les thèmes des documents Chaque document du

i annoté par l’utilisateur est associé à un ensemble de tags Tdu

i.

Nous estimons la probabilité P(tgj|dui) qui mesure la pertinence d’un tag tgj ∈ Tdu

i pour le document dui, qui reflète la probabilité que le tag traite des thèmes du document. Nous mesurons cette probabilité comme suit :

P(tgj|dui) = K

zk=1 P(tgj|zk)P(zk|diu) (4.3) = K

zk=1 φtgj,zkθzk,du i (4.4)

où P(tgj|zk)représente la probabilité que le tag tgjapparaît dans le thème zk qui est représenté par φtgj,zket la probabilité P(zk|dui)représente la probabilité que le do-cument dui traite du thème zkreprésenté par θzk,du

i. Ces probabilités sont calculées sur l’ensemble des thèmes Z.

L’estimation finale de modèle de Tag Thématique T-Tdu

i est illustrée dans l’algo-rithme2, et les notations utilisées sont détaillées dans le tableau4.3.

4.3. Estimation des Modèles de Tag pour les documents 51

u Un utilisateur

dui Le document annoté par l’utilisateur u

θdi,Z = {{θdi,z1}, ...,{θdi,zK}} Distribution des thèmes dans le document du i

φZ = {{φz1}, ...,{φzK}} Distribution des termes dans l’ensemble des thèmes Z. Tdu

i = {tg1, tg2, ..., tgM} L’ensemble de tags assigné par l’utilisateur u au document dui TABLE 4.3 – Notations utilisées dans l’algorithme d’estimation du

modèle de Tag Thématique T-Tdu i

Algorithm 2Estimation du modèle de Tag Thématique T-Tdu i Require: Tdu i, θdi,Z, φZ Ensure: T-Tdu i 1: for each tgj ∈ Tdu i do 2: P(tgj|T-Tdu i) = P(tgi|du i) ∑ tgk∈TdiuP(tgk|dui) avec P(tgj|di) =∑K zk=1P(tgj|zk)P(zk|dui) 3: =∑K zk=1φtgj,zkθzk,du i 4: end for

Le modèle de Tag Thématique T-Tdu

i repose sur l’hypothèse H2 que les tags im-portants sont ceux qui traitent des thèmes des documents auxquels ils sont associés. Ceci est traduit par une correspondance sémantique entre les tags et le document en passant par des modèles thématiques (LDA). Au delà des similarités document-termes [63,64], on peut calculer des similarités entre termes (terme-terme) [71, 133-135].

Nous proposons dans la section suivante une autre approche d’estimation des tags importants pour un document en employant des modèles sémantiques qui sont plus orientés sur des calculs de similarité terme-terme. Précisément, nous mesurons par une similarité sémantique plus fine l’importance d’un tag avec chaque terme du document en employons les plongements de mots (word embeddings).

4.3.3 Modèle de Tag Sémantique T-Wdu

i : basé sur les plongement de mots

Le modèle de Tag Sémantique T-Wdu

i que nous proposons estime la similarité sémantique entre un tag et chaque terme du document à la différence du modèle de Tag Thématique T-Tdu

i qui estime la similarité entre le tag et les thèmes du document. Plusieurs travaux se sont intéressés à définir des méthodes pour estimer la simi-larité sémantique entre deux termes.

Les approches les plus répandues reposent sur le principe de cooccurrence des termes dans les documents. Plus les termes co-occurrent dans les mêmes documents, plus ils sont proches sémantiquement et donc potentiellement ont la même signifi-cation. Pour estimer cette sémantique, nous employons les modèles de plongement de mots [25].

Nous nous inspirons du modèle de langue de translation (Translation Language Model) pour estimer la probabilité qu’un tag soit pertinent pour le document annoté par l’utilisateur. La pertinence d’un tag est fonction de sa similarité sémantique avec chaque terme du document et de l’importance du terme dans le document. Pour mesurer la similarité entre le tag et le terme du document, nous employons le modèle word2vec [25].

Le modèle de Tag Sémantique T-Wdu

i pour le document du

i annoté par l’utilisa-teur u est estimé sur l’ensemble de tags Tdu

i associés au document, où la probabilité P(tgj|dui)est estimée comme suit :

P(tgj|dui) = ∑to∈di P(tgj|to)P(to|di) ∑tgk∈Tdiu P(tgk|du

i) (4.5)

La probabilité P(tgj|to) présente la similarité sémantique entre le tag tgj et le terme toque nous estimons par la fonction Sigmoid [67] comme suit :

P(tgj|to) =δ(−→

tgj,to) = 1 1+exp(−a(cos(−→

tgj,to) −c)) (4.6) où cos(−→

tgj,to)représente le cosinus entre le tag tgj et le terme to estimé par le modèle word2vec, a et c sont des paramètres de la fonction.

La probabilité P(to|du

i)présente l’importance du terme dans le document que nous estimons par un maximum de vraisemblance comme suit :

P(to|dui) = t f(to, dui)

|dui| (4.7)

avec t f(to, du

i)la fréquence du terme todans le document du i et|du

i|la taille du docu-ment diu.

L’estimation finale du modèle de Tag Sémantique T-Wdu

i est présenté dans l’al-gorithme3, et les notations utilisées sont détaillées dans le Tableau4.4.

u Un utilisateur

dui Le document annoté par l’utilisateur u Tu

di = {tg1, tg2, ..., tgM} L’ensemble de tags assigné par l’utilisateur u au document du i

M La matrice de prolongement de termes-tags

TABLE 4.4 – Notations utilisées dans l’algorithme d’estimation du modèle de Tag Sémantique T-Wdu

i

Algorithm 3Estimation du modèle de Tag Sémantique T-Wdu i Require: di = {t1, t2, t3, ..., tN} Tdu i = {tg1, tg2, ..., tgM} M(to,tgj) Ensure: WTu di 1: for each tgi ∈Tu di do 2: P(tgj|T-Wdu i) = P(tgj|di) tgk∈Tu diP(tgk|T-Wdui) = ∑ todiP(tgj|to)P(to|di) tgk∈Tu diP(tgk|T-Wdui) 3: where P(tgj|to) =δ(−→ tgj,to) = 1 1+exp(−a(sim(−→ tgj,to)−c)) 4: and P(to|di) = t f(to,di) |di| 5: end for