Identiﬁcation des facettes du besoin en informa-

4.2 Ordonnancement collaboratif des documents selon des rôles basés

4.2.2 Modèle d’ordonnancement collaboratif basé sur les rôles

4.2.3.2 Identiﬁcation des facettes du besoin en informa-

L’objectif de cette étape d’initialisation est d’extraire à partir d’un besoin en information partagé ses facettes aﬁn de déterminer le degré d’expertise vis-à-vis de chacune des facettes auxquelles les utilisateurs peuvent être assimilés dans leur rôle d’expert. Pour cela, nous faisons l’hypothèse que les facettes d’un sujet peuvent être extraites en utilisant l’algorithme du LDA (Blei et al., 2003) à partir d’un ensemble de documents diversiﬁés.

Dans l’objectif de constituer cet ensemble diversiﬁé, nous nous basons sur la mesure de la pertinence marginale maximale –Maximal Marginal Relevance– (Carbonell and Goldstein, 1998), également notée MMR, qui, à partir d’une collection C de documents et d’une requête à multiples facettes q, extrait un ensemble D∗de n documents qui satisfont à la fois la condition d’être pertinents vis-à-vis de la requête et d’assurer une large diversité thématique. Ainsi, de façon itérative, l’algorithme sélectionne le document di avec le score de pertinence

RSV1et la diversité marginale RSV2par rapport à l’ensemble D∗le plus élevé : D^∗= arg max

di∈D

[γRSV1(di, q) − (1 − γ) max

d_i′∈D∗ RSV2(di, di′)] (4.18) où RSV1(di, q) exprime les scores de pertinence entre le document di et la re-quête q et et RSV2(di, di′) correspond à la similarité de Jaccard entre les deux documents di et di′, comme présenté dans la section 4.2.2.1. γ ∈ [0, 1] est un facteur de pondération.

A partir de cet ensemble D∗ de documents diversiﬁés et de la requête q, nous utilisons l’algorithme du LDA basé sur des probabilités génératives dans l’objec-tif d’identiﬁer les thèmes latents inclus dans l’ensemble D∗. Chaque thème ω est assimilé à une facette de la requête q et est associé à deux types de probabilités : 1. φ_t_v_|ω qui estime la probabilité entre un terme t_v et le thème ω.

2. θ_d_i_|ω qui estime la probabilité entre un document di et le thème ω.

Le nombre optimal de thèmes ω qui représente les thèmes latents de l’ensemble D∗ est généralement déterminé par maximisation de la vraisemblance, qui est estimée ainsi : l(D^∗|tv, ω) = arg max Ω X tv∈I log(^X ω∈Ω p(tv|ω)) (4.19)

où I représente l’index extrait de la collection de documents D∗. La probabilité

p(tv|ω) correspond à la distribution de probabilité φtv|ωentre un terme tvet un thème ω.

L’identiﬁcation des facettes de la requête collaborative permet d’instancier les représentations thématiques des documents, qui eux-mêmes permettent de mo-déliser le proﬁl d’expertise des collaborateurs. Dans cet objectif, le poids wωi

d’un thème ω pour un document di est estimé par la probabilité θdi|ω.

Le profil d’expertise π(uj)k d’un expert uj est inféré de la distribution théma-tique extraite à partir des documents diversifiés et des requêtes. Comme source d’évidence du profil d’expertise, nous utilisons les termes des documents sé-lectionnés D(uj)k par l’expert uj à l’itération k ainsi que ceux de la requête collaborative q.

Nous proposons un exemple qui repose sur un jeu de données présenté dans l’Illustration 4.7. Dans un premier temps, nous identiﬁons dans l’Illustration 4.8 l’étape de diversiﬁcation de la collection de documents. Ensuite, nous illus-trons la méthodologie pour extraire les facettes et représenter les documents et utilisateurs selon un vecteur thématique dans l’Illustration 4.9.

Nous considérons une session de RIC avec deux experts, u1 et u2, et qui repose sur une collection C de 20 documents et un index I de 10 termes. La distribution des termes dans la collection est la suivante :

t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 d1 2 1 0 0 0 1 2 0 3 0 d2 1 0 0 1 1 0 2 0 0 3 d3 0 0 5 0 5 0 0 2 0 1 d4 1 2 3 0 1 2 3 2 9 0 d5 0 1 0 1 0 1 0 1 0 1 d6 1 0 1 0 0 1 0 1 1 0 d7 2 0 3 1 0 4 0 2 0 5 d8 0 1 2 0 2 1 1 2 1 1 d9 1 1 1 0 3 2 1 0 0 0 d10 0 1 2 0 4 3 2 1 0 0 d11 0 1 3 0 1 0 0 1 2 3 d12 0 0 4 1 1 4 5 6 0 7 d13 3 0 0 1 0 1 3 5 7 9 d14 0 0 3 1 0 0 0 1 0 0 d15 4 2 2 0 2 1 0 0 0 0 d16 0 0 1 1 0 2 0 0 2 1 d17 5 1 0 0 1 0 0 3 2 1 d18 0 2 0 0 1 4 5 0 1 0 d19 1 3 0 0 1 1 1 1 1 1 d20 1 4 0 0 2 0 1 0 1 0

La requête q contient les termes {t1, t5, t8, t10}.

A partir de la collection C de 20 documents, nous souhaitons extraire le sous-ensemble diversifié D∗ de 10 documents en rapport avec la requête q. Nous présentons dans le tableau les scores des 20 documents pour les 10 ité-rations nécessaires à la construction du sous-ensemble. Nous posons γ = 0.5. Pour l’itération 0, le score représente la similarité entre le document et la requête selon un produit matriciel. Le document d13 est le plus pertinent et est donc le premier à être sélectionné pour construire le sous-ensemble. Pour l’itération 1, le score de chacun des documents est obtenu en combinant leur score de similarité et leur distance par rapport au document d13. Le même calcul est effectué pour les itérations suivantes à la différence que pour le score de diversité, nous considérons la distance maximale entre le document et les documents du sous-ensemble D∗.

it0 it1 it2 it3 it4 it5 it6 it7 it8 it9 d1 0.02 0.01 0.01 0.01 0.01 -0.99 -0.99 -0.99 -0.99 -0.99 d2 0.05 0.02 0.02 0.02 0.02 -0.98 -0.98 -0.98 -0.98 -0.98 d3 0.07 0.04 0.03 0.03 0.03 x x x x x d4 0.04 0.02 0.02 0.02 0.02 -1.48 -1.48 -1.48 -1.48 -1.48 d5 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 x d6 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 x x d7 0.08 0.04 0.04 0.04 x x x x x x d8 0.05 0.02 0.02 0.02 0.02 -0.48 -0.48 -0.48 -0.48 -0.48 d9 0.04 0.02 0.02 0.02 0.02 -0.48 -0.48 -0.48 -0.48 -0.48 d10 0.05 0.02 0.02 0.02 0.02 -0.98 -0.98 -0.98 -0.98 -0.98 d11 0.05 0.02 0.02 0.02 0.02 0.02 0.02 x x x d12 0.13 0.06 x x x x x x x x d13 0.16 x x x x x x x x x d14 0.01 0 0 0 0 0 0 0 0 0 d15 0.06 0.03 0.03 0.02 0.02 x x x x x d16 0.01 0 0 0 0 0 0 0 0 0 d17 0.09 0.04 0.04 x x x x x x x d18 0.01 0 0 0 0 -2.5 -2.5 -2.5 -2.5 -2.5 d19 0.04 0.02 0.02 0.02 0.02 -0.48 -0.48 -0.48 -0.48 -0.48 d20 0.03 0.01 0.01 0.01 0.01 -0.49 -0.49 -0.49 -0.49 -0.49 Au ﬁnal, D∗= {d3, d5, d6, d7, d11, d12, d13, d15, d16, d17}.

Nous considérons les notations présentées dans l’Illustration 4.7 et le sous-ensemble de documents D∗ identiﬁé dans l’Illustration 4.8. Nous souhaitons extraire 3 thèmes de la collection, où 3 est choisi arbitrairement pour l’illus-tration.

Nous faisons l’hypothèse que nous obtenons les distributions de probabilité des termes-thèmes et entités-thèmes, où les entités sont les documents et la requête, suivantes : ω1 ω2 ω3 ω1 ω2 ω3 t1 0.15 0.03 0.6 d3 0.3333 0.3333 0.3333 t2 0.1 0.05 0.02 d5 0.3333 0.3333 0.3333 t3 0.1 0.05 0 d6 0.1428 0.1428 0.7142 t4 0.05 0.097 0.02 d7 0.3333 0.3333 0.3333 t5 0.1 0.003 0.02 d11 0.3333 0.3333 0.3333 t6 0.12 0.05 0.02 d12 0.3333 0.3333 0.3333 t7 0.1 0.05 0.1 d13 0.0526 0.2631 0.6842 t8 0.1 0.07 0.1 d15 0.3333 0.3333 0.3333 t9 0.1 0.05 0.08 d16 0.3333 0.3333 0.3333 t10 0.08 0.55 0.02 d17 0.3333 0.3333 0.3333 q 0.26 0.32 0.42

La partie de droite du tableau permet d’extraire le vecteur thématique qui représente chaque entité en fonction des 3 thèmes extraits.

Si l’on considère un expert u1, son proﬁl d’expertise est initialisé par rapport à la représentation thématique de la requête, soit π(uj)0= (0.26, 0.32, 0.42). A l’itération 1, l’expert u1 a sélectionné le document d13, l’inférence du modèle thématique de la collection permet d’estimer son proﬁl. Nous obtenons par exemple π(uj)1= (0.1, 0.5, 0.5).

A la ﬁn de cette étape, les documents di ∈ D^∗ sont associés à un score de similarité basé sur la fréquence des termes (Illustration 4.8) et à une représentation thématique. La requête a également une représentation thématique et les proﬁls des deux experts peuvent être inférés des thèmes extraits par le LDA.

Pour l’initialisation des listes de documents retournés aux collaborateurs, nous utilisons une fonction de round-robbin. Tout comme dans le chapitre 4, nous ﬁxons le nombre de documents par listes retournées aux utilisateurs à 3, compte tenu de la petite taille de la collection. Ainsi, en classant les documents par score de similarité croissante, nous les distribuons successi-vement à chacun des utilisateurs (rangs impairs pour u1et rangs pairs pour

u2), soit l0(u1, D∗) = {d13, d17, d3} et l0(u2, D∗) = {d12, d7, d15}.

4.2.3.3 Calcul des scores de pertinence basé sur les expertises de

Dans le document Définition et évaluation de modèles de recherche d'information collaborative basés sur les compétences de domaine et les rôles des utilisateurs (Page 141-145)