• Aucun résultat trouvé

4.2 Ordonnancement collaboratif des documents selon des rôles basés

4.2.2 Modèle d’ordonnancement collaboratif basé sur les rôles

4.2.3.2 Identification des facettes du besoin en informa-

L’objectif de cette étape d’initialisation est d’extraire à partir d’un besoin en information partagé ses facettes afin de déterminer le degré d’expertise vis-à-vis de chacune des facettes auxquelles les utilisateurs peuvent être assimilés dans leur rôle d’expert. Pour cela, nous faisons l’hypothèse que les facettes d’un sujet peuvent être extraites en utilisant l’algorithme du LDA (Blei et al., 2003) à partir d’un ensemble de documents diversifiés.

Dans l’objectif de constituer cet ensemble diversifié, nous nous basons sur la mesure de la pertinence marginale maximale –Maximal Marginal Relevance– (Carbonell and Goldstein, 1998), également notée MMR, qui, à partir d’une collection C de documents et d’une requête à multiples facettes q, extrait un ensemble Dde n documents qui satisfont à la fois la condition d’être pertinents vis-à-vis de la requête et d’assurer une large diversité thématique. Ainsi, de façon itérative, l’algorithme sélectionne le document di avec le score de pertinence

RSV1et la diversité marginale RSV2par rapport à l’ensemble Dle plus élevé : D= arg max

di∈D

[γRSV1(di, q) − (1 − γ) max

di′∈D∗ RSV2(di, di)] (4.18) où RSV1(di, q) exprime les scores de pertinence entre le document di et la re-quête q et et RSV2(di, di) correspond à la similarité de Jaccard entre les deux documents di et di, comme présenté dans la section 4.2.2.1. γ ∈ [0, 1] est un facteur de pondération.

A partir de cet ensemble D de documents diversifiés et de la requête q, nous utilisons l’algorithme du LDA basé sur des probabilités génératives dans l’objec-tif d’identifier les thèmes latents inclus dans l’ensemble D. Chaque thème ω est assimilé à une facette de la requête q et est associé à deux types de probabilités : 1. φtv qui estime la probabilité entre un terme tv et le thème ω.

2. θdi qui estime la probabilité entre un document di et le thème ω.

Le nombre optimal de thèmes ω qui représente les thèmes latents de l’ensemble D est généralement déterminé par maximisation de la vraisemblance, qui est estimée ainsi : l(D|tv, ω) = arg max X tv∈I log(X ω∈Ω p(tv|ω)) (4.19)

où I représente l’index extrait de la collection de documents D. La probabilité

p(tv|ω) correspond à la distribution de probabilité φtv|ωentre un terme tvet un thème ω.

L’identification des facettes de la requête collaborative permet d’instancier les représentations thématiques des documents, qui eux-mêmes permettent de mo-déliser le profil d’expertise des collaborateurs. Dans cet objectif, le poids wωi

d’un thème ω pour un document di est estimé par la probabilité θdi|ω.

Le profil d’expertise π(uj)k d’un expert uj est inféré de la distribution théma-tique extraite à partir des documents diversifiés et des requêtes. Comme source d’évidence du profil d’expertise, nous utilisons les termes des documents sé-lectionnés D(uj)k par l’expert uj à l’itération k ainsi que ceux de la requête collaborative q.

Nous proposons un exemple qui repose sur un jeu de données présenté dans l’Illustration 4.7. Dans un premier temps, nous identifions dans l’Illustration 4.8 l’étape de diversification de la collection de documents. Ensuite, nous illus-trons la méthodologie pour extraire les facettes et représenter les documents et utilisateurs selon un vecteur thématique dans l’Illustration 4.9.

Nous considérons une session de RIC avec deux experts, u1 et u2, et qui repose sur une collection C de 20 documents et un index I de 10 termes. La distribution des termes dans la collection est la suivante :

t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 d1 2 1 0 0 0 1 2 0 3 0 d2 1 0 0 1 1 0 2 0 0 3 d3 0 0 5 0 5 0 0 2 0 1 d4 1 2 3 0 1 2 3 2 9 0 d5 0 1 0 1 0 1 0 1 0 1 d6 1 0 1 0 0 1 0 1 1 0 d7 2 0 3 1 0 4 0 2 0 5 d8 0 1 2 0 2 1 1 2 1 1 d9 1 1 1 0 3 2 1 0 0 0 d10 0 1 2 0 4 3 2 1 0 0 d11 0 1 3 0 1 0 0 1 2 3 d12 0 0 4 1 1 4 5 6 0 7 d13 3 0 0 1 0 1 3 5 7 9 d14 0 0 3 1 0 0 0 1 0 0 d15 4 2 2 0 2 1 0 0 0 0 d16 0 0 1 1 0 2 0 0 2 1 d17 5 1 0 0 1 0 0 3 2 1 d18 0 2 0 0 1 4 5 0 1 0 d19 1 3 0 0 1 1 1 1 1 1 d20 1 4 0 0 2 0 1 0 1 0

La requête q contient les termes {t1, t5, t8, t10}.

A partir de la collection C de 20 documents, nous souhaitons extraire le sous-ensemble diversifié D de 10 documents en rapport avec la requête q. Nous présentons dans le tableau les scores des 20 documents pour les 10 ité-rations nécessaires à la construction du sous-ensemble. Nous posons γ = 0.5. Pour l’itération 0, le score représente la similarité entre le document et la requête selon un produit matriciel. Le document d13 est le plus pertinent et est donc le premier à être sélectionné pour construire le sous-ensemble. Pour l’itération 1, le score de chacun des documents est obtenu en combinant leur score de similarité et leur distance par rapport au document d13. Le même calcul est effectué pour les itérations suivantes à la différence que pour le score de diversité, nous considérons la distance maximale entre le document et les documents du sous-ensemble D.

it0 it1 it2 it3 it4 it5 it6 it7 it8 it9 d1 0.02 0.01 0.01 0.01 0.01 -0.99 -0.99 -0.99 -0.99 -0.99 d2 0.05 0.02 0.02 0.02 0.02 -0.98 -0.98 -0.98 -0.98 -0.98 d3 0.07 0.04 0.03 0.03 0.03 x x x x x d4 0.04 0.02 0.02 0.02 0.02 -1.48 -1.48 -1.48 -1.48 -1.48 d5 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 x d6 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 x x d7 0.08 0.04 0.04 0.04 x x x x x x d8 0.05 0.02 0.02 0.02 0.02 -0.48 -0.48 -0.48 -0.48 -0.48 d9 0.04 0.02 0.02 0.02 0.02 -0.48 -0.48 -0.48 -0.48 -0.48 d10 0.05 0.02 0.02 0.02 0.02 -0.98 -0.98 -0.98 -0.98 -0.98 d11 0.05 0.02 0.02 0.02 0.02 0.02 0.02 x x x d12 0.13 0.06 x x x x x x x x d13 0.16 x x x x x x x x x d14 0.01 0 0 0 0 0 0 0 0 0 d15 0.06 0.03 0.03 0.02 0.02 x x x x x d16 0.01 0 0 0 0 0 0 0 0 0 d17 0.09 0.04 0.04 x x x x x x x d18 0.01 0 0 0 0 -2.5 -2.5 -2.5 -2.5 -2.5 d19 0.04 0.02 0.02 0.02 0.02 -0.48 -0.48 -0.48 -0.48 -0.48 d20 0.03 0.01 0.01 0.01 0.01 -0.49 -0.49 -0.49 -0.49 -0.49 Au final, D= {d3, d5, d6, d7, d11, d12, d13, d15, d16, d17}.

Nous considérons les notations présentées dans l’Illustration 4.7 et le sous-ensemble de documents D identifié dans l’Illustration 4.8. Nous souhaitons extraire 3 thèmes de la collection, où 3 est choisi arbitrairement pour l’illus-tration.

Nous faisons l’hypothèse que nous obtenons les distributions de probabilité des termes-thèmes et entités-thèmes, où les entités sont les documents et la requête, suivantes : ω1 ω2 ω3 ω1 ω2 ω3 t1 0.15 0.03 0.6 d3 0.3333 0.3333 0.3333 t2 0.1 0.05 0.02 d5 0.3333 0.3333 0.3333 t3 0.1 0.05 0 d6 0.1428 0.1428 0.7142 t4 0.05 0.097 0.02 d7 0.3333 0.3333 0.3333 t5 0.1 0.003 0.02 d11 0.3333 0.3333 0.3333 t6 0.12 0.05 0.02 d12 0.3333 0.3333 0.3333 t7 0.1 0.05 0.1 d13 0.0526 0.2631 0.6842 t8 0.1 0.07 0.1 d15 0.3333 0.3333 0.3333 t9 0.1 0.05 0.08 d16 0.3333 0.3333 0.3333 t10 0.08 0.55 0.02 d17 0.3333 0.3333 0.3333 q 0.26 0.32 0.42

La partie de droite du tableau permet d’extraire le vecteur thématique qui représente chaque entité en fonction des 3 thèmes extraits.

Si l’on considère un expert u1, son profil d’expertise est initialisé par rapport à la représentation thématique de la requête, soit π(uj)0= (0.26, 0.32, 0.42). A l’itération 1, l’expert u1 a sélectionné le document d13, l’inférence du modèle thématique de la collection permet d’estimer son profil. Nous obtenons par exemple π(uj)1= (0.1, 0.5, 0.5).

A la fin de cette étape, les documents di ∈ D sont associés à un score de similarité basé sur la fréquence des termes (Illustration 4.8) et à une représentation thématique. La requête a également une représentation thématique et les profils des deux experts peuvent être inférés des thèmes extraits par le LDA.

Pour l’initialisation des listes de documents retournés aux collaborateurs, nous utilisons une fonction de round-robbin. Tout comme dans le chapitre 4, nous fixons le nombre de documents par listes retournées aux utilisateurs à 3, compte tenu de la petite taille de la collection. Ainsi, en classant les documents par score de similarité croissante, nous les distribuons successi-vement à chacun des utilisateurs (rangs impairs pour u1et rangs pairs pour

u2), soit l0(u1, D) = {d13, d17, d3} et l0(u2, D) = {d12, d7, d15}.

4.2.3.3 Calcul des scores de pertinence basé sur les expertises de