• Aucun résultat trouvé

4.2 Ordonnancement collaboratif des documents selon des rôles basés

4.2.2 Modèle d’ordonnancement collaboratif basé sur les rôles

4.2.3.3 Calcul des scores de pertinence basé sur les ex-

Cette étape, présentée dans l’Illustration 4.10, permet d’estimer le score de per-tinence des documents en fonction de chacun des experts uj du groupe de colla-boration U selon leur niveau d’expertise par rapport aux facettes de la requête collaborative q. Nous estimons donc la pertinence pk(di|uj, q) d’un document en

fonction d’un expert uj et de la requête collaborative q à l’itération k ainsi :

pk(di|uj, q) = p

k(uj|di, q) · p(di|q)

p(uj|q) (4.20)

Similairement aux hypothèses énoncées dans la section 4.2.2.2, nous considérons que la probabilité p(uj|q) n’est pas discriminante dans le calcul de la pertinence ainsi que l’expert ujet la requête q sont indépendants. La probabilité pk(di|uj, q)

peut être ré-écrite comme suit :

pk(di|uj, q) ∝ pk(uj|di, q) · p(di|q) (4.21) ∝ pk(uj|di) · p(di|q)

D’une part, la probabilité p(di|q) d’un document di vis-à-vis de la requête q peut être développée suivant le théorème de Bayes. Nous obtenons la formule suivante : p(di|q) = p(di).p(q|di) p(q) P Di′∈D∗ p(di′).p(q|di′) p(q)p(di).p(q|di) P Di′∈D∗p(di).p(q|di) (4.22) avec D étant la collection de référence. La probabilité p(di) d’un document di est independante de la requête et peut être estimée par un poids uniforme :

p(di) = 1

|D|.

Etant donné la distribution thématique d’un document di basée sur les facettes de la requête q, nous estimons la probabilité p(q|di) en combinant deux scores de similarité :

1. RSVBM25(q|di) estime la pertinence du document di vis-à-vis de la requête

q selon un modèle probabiliste (Robertson et al., 1995).

2. RSVLDA(q, di) estime la pertinence du document divis-à-vis de la requête q selon le modèle d’ordonnancement présenté dans (Harvey et al., 2010) basé sur les distributions de probabilités obtenues par l’algorithme du LDA. Ce score de pertinence est estimé comme suit :

RSVLDA(q|di) = Y tv∈q X ω=1 p(tv|ω).p(ω|di) (4.23)

où p(tv|ω) représente la probabilité du terme tvétant donné le thème ω, esti-mée par φtv. La probabilité p(ω|di) correspond à celle du thème ω sachant le document di, précédemment notée wωi dans sa représentation thématique.

La probabilité finale p(q|di) est ainsi formulée :

p(q|di) = λRSVLDA(q|di) + (1 − λ)RSVBM25(q, di) (4.24)

D’autre part, nous estimons la probabilité pk(uj|di) par une mesure de similarité de cosinus simcos, présentée dans la section 2.1.2.2, qui compare les distributions thématiques du document di et du profil d’expertise π(uj)k de l’expert uj à l’itération k de la façon suivante :

pk(uj|di) = simcos(di, π(uj)k) P

di′∈D∗simcos(di, π(uj)k) où simcos(di, π(uj)k) = di.π(uj)k

|di|.|π(uj)k| (4.25)

4.2.3.4 Apprentissage des ordonnancements de documents basé sur les expertises de sous-domaines

Cette étape a pour objectif de maximiser les scores des documents estimés pré-cédemment (Equation 4.20) afin d’assigner un document à l’expert qui est le plus à même de le juger. Nous utilisons l’algorithme d’apprentissage de maximi-sation de l’espérance mathématique (EM) (Dempster et al., 1977) décomposé en deux étapes “Etape-E” et “Etape-M”, comme expliqué dans la section 4.2.2.3. L’objectif de cet algorithme est d’optimiser les probabilités p(cij = 1|Xk

i) de pertinence cij = 1 d’un document di vis-à-vis d’un expert uj compte tenu des scores Xk

i qu’il a obtenu pour l’ensemble des membres du groupe. Les notations utilisées sont détaillées dans le Tableau 4.2 et l’Algorithme général est illustré dans l’Algorithme 2.

Xk i = {xk

i1, ..., xk

im} Le vecteur de scores où chaque élément xk

ij est estimé selon l’Equation 4.21 et correspond au score de pertinence d’un document di vis-à-vis de chaque expert uj.

Xk∈ Rn×m La matrice des scores xk

ij pour l’ensemble des documents et des experts.

cij= {0, 1} La variable latente de la non pertinence ou la pertinence

d’un document di pour un expert uj.

φk

j La fonction de densité de la loi gaussienne modélisant la

pertinence des documents par rapport à l’expert uj à l’ité-ration k.

θk

j Les paramètres des distributions des scores à l’itération k

étant donné l’expert uj correspondant à la loi gaussienne

φk

j, à savoir µk j et σk

j.

αk

j Le coefficient du modèle de mélange.

Table4.2: Notations utilisées dans l’algorithme d’allocation des documents aux experts de sous-domaines

Nous considérons les notations présentées dans l’Illustration 4.7 et les calculs effectués dans les exemples précédents. Faisons l’hypothèse que l’expert u1 sélectionne à l’itération 1 le document d3. Notre objectif est de calculer un score de pertinence pour chaque document non sélectionné D1

ns = {d3, d5, d6, d7, d11, d12, d15, d16, d17} pour chacun des deux experts. Nous déroulons les calculs pour le document d3uniquement.

L’expert u1 a sélectionné le document d3 et est caractérisé par le profil d’expertise π(u1)1 = (0.1, 0.5, 0.4). Le score p1(d3|u1, q), sans pratiquer les

normalisations, est égal à 0.1 ∗ 0.1 ∗ 0.84 = 0, 0084 où :

- Le score p(q|d3) = 0.12 ∗ 0, 5 + 0.07 ∗ 0.5 = 0.1 est une combinaison linéaire, avec λ = 0.5, de RSVBM25(q|d3) = 0.07 que nous estimons par le score calculé dans l’exemple 4.8 et RSVLDA(q, d3) = 0.12 estimé à partir des distributions terme-thème et document-thème selon l’équation 4.23. - Le score pk(u1|d3) = 0.33∗0.1+0.33∗0.5+0.33∗0.4

0.65∗0.58 = 0.89 est estimé par une

mesure de cosinus entre la représentation thématique du document d3 et de l’expert u1.

L’expert u2 n’a pas sélectionné de document et est caractérisé par le profil d’expertise π(u2)1= (0.26, 0.32, 0.42). Le score p1(d3|u2, q), sans pratiquer

les normalisations, est égal à 0.1 ∗ 0.1 ∗ 1 = 0.01 où :

- Le score p(q|d3) = 0.12 ∗ 0, 5 + 0.07 ∗ 0.5 = 0.01 est une combinaison linéaire, avec λ = 0.5, de RSVBM25(q|d3) = 0.12 que nous estimons par le score calculé dans l’exemple 4.8 et RSVLDA(q, d3) = 0.07 estimé à partir des distributions terme-thème et document-thème selon l’équation 4.23. - Le score pk(u2|d3) = 0.33∗0.26+0.33∗0.32+0.33∗0.42

0.59∗0.58 = 0.98 est estimé par une

mesure de cosinus entre la représentation thématique du document d3 et de l’expert u2.

Les scores finaux incluant les différentes normalisations, arrondis à 10−2, sont recensés dans le tableau suivant :

di p1(di|u1, q) p1(di|u2, q) d3 0.14 0.14 d5 0.1 0.09 d6 0.02 0.02 d7 0.15 0.15 d11 0.12 0.12 d12 0.1 0.09 d15 0.13 0.13 d16 0.09 0.1 d17 0.15 0.16

Algorithm 2: Algorithme d’ordonnancement collaboratif basé sur la maximi-sation de l’espérance. Données: Dk ns, Xk, U, uj Résultat: lk(uj, Dk ns) Début lk(uj, Dk ns) = {}

/* Etape 1: Apprentissage de l’appariement document-collaborateur */

Répéter

/* Etape-E */

Pour chaque document di ∈ Dk ns faire Pour chaque expert ej ∈ U faire

p(cij = 1|Xk i) = αj′φj(xk ij′) Pm l=1αlφl(xk il) MijEM,k = p(cij = 1|Xk i) /* Etape-M */ Sk j = Pdh∈Dk nsp(cij = 1|Xk h) αk j = 1 nSk j µk j = 1 Sk j′ P dh∈Dk nsp(cij = 1|Xk h).xk hj σk j = 1 Sk j′ P dh∈Dk nsp(cij = 1|Xk h).(xk hj− µj)2 jusqu’à convergence

/* Etape 2: Allocation des documents aux utilisateurs */

MEM,k = odds(MEM,k)

Pour chaque document di ∈ Dk ns faire Si argmax MEM,k ij = uj alors lk(uj, Dk ns) = lk(uj, Dk ns) ∪ di Retourner lk(uj, Dk ns)

1. Apprentissage de l’appariement document-collaborateur. L’objectif, ici est d’optimiser les scores des documents et repose sur l’algorithme de maximisation de l’espérance EM selon deux étapes (Illustration 4.11) :

— Etape-E. Nous estimons la probabilité p(cij = 1|Xk

i) de pertinence du document divis-à-vis de l’expert uj à l’iteration k compte tenu du vec-teur de score Xk

i du document di ainsi que de l’ensemble des experts du groupe de collaboration. Cette probabilité p(cij|Xk

i) est estimée par un modèle à mélange qui repose sur des lois de probabilité gaussienne

φj et qui modélise la pertinence cij des documents pour l’expert uj à l’iteration k : p(cij = 1|Xk i) = p(cij = 1)p(x k ij|cij = 1) p(cij = 1)p(xk ij|cij = 1) + p(cij= 0)p(xk ij|cij = 0)

(4.26) Dans cette équation, nous faisons l’hypothèse que la non pertinence, notée cij = 0, d’un document di vis-à-vis d’un expert uj peut être for-mulée par la probabilité de pertinence vis-à-vis d’un autre expert du groupe, notée cl= 1 ∀l = {1, . . . , m} with l 6= j. Ainsi, le dénominateur correspond à la somme des probabilités de pertinence, notée cl= 1, par rapport aux experts el. par conséquent, nous remplaçons les probabili-tés pijk et pk

il par des lois gaussiennes φj(xk

ij) et φl(xk

il) afin d’obtenir l’estimation finale de la probabilité.

p(cij = 1|Xk i) ∝ αjp k ij αjpk ij+ (1 − αjpij = αjp k ij Pm l=1αlpk il (4.27) avec ( pk ij= p(cij= 1)p(xk ij|cij= 1) ¯ pk ij= p(cij= 0)p(xk ij|cij= 0)

— Etape-M. Cette étape met à jour les paramètres θj et maximise la log-vraissemblance des données complétées L(Rj = Rel|Xk

j, θk j), estimée de la façon suivante : L(cij = 1|Xjk, θj) =Pn h=1 Pm l=1log(p(chl= 1|Xk h))p(chl= 1|Xk h)(4.28) 2. Allocation des documents aux collaborateurs. Une fois les scores document-expert optimisés, l’enjeu est de déterminer quel expert est le plus à même de juger un document. Similairement à l’hypothèse probabiliste, nous déterminons pour chaque élément de la matrice MEM,k

ij une mesure

appe-lée odds value et notée odds(MEM,k

ij ), estimée par le ratio entre la probabi-lité de pertinence MEM,k

ij et la probabilité de non pertinence, estimée par

m

P

l=1

l6=j

MilEM,k. La classification des documents est réalisée sur la base des élé-ments de la matrice MEM,k mis à jour selon cette mesure :

∀di, ∃ uj; uj = arg max

uj∈U

MijEM,k (4.29)

Egalement, nous considérons le paradigme de la division du travail en assi-gnant à un expert seulement les documents qui ne sont pas simultanément retournés aux autres membres du groupe de collaboration.

Nous considérons les calculs effectués dans l’Illustration 4.10 et souhaitons appliquer l’algorithme EM afin de maximiser les scores. Nous présentons seulement les 2 premières itérations.

Pour l’optimisation du score du document d3vis-à-vis de l’expert u1à l’itéra-tion 1, par exemple, x1

31= 0.11·N (0.141,0.11,0.04)

0.11·N (0.141,0.11,0.04)+0.89·N (0.143,0.11,0.05)= 0.114.

Pour l’itération 2, x2

31= 0.11·N (0.114,0.11,0.001)

0.11·N (0.114,0.11,0.001)+0.89·N (0.108,0.10,0.002)= 0.184.

Les résultats finaux et normalisés sont synthétisés dans le tableau suivant :

Itération k=0 Itération k=1 Itération k=2

x0 i1 x0 i2 x1 i1 x1 i2 x2 i1 x2 i2 Etap e-E d3 0,141 0,143 0,114 0,108 0.184 0,003 d5 0,101 0,092 0,118 0,103 0.258 0 d6 0,017 0,02 0,087 0,14 0 0,464 d7 0,147 0,15 0,114 0,108 0.219 0,002 d11 0,121 0,123 0,112 0,11 0.029 0,053 d12 0,097 0,089 0,118 0,104 0 0 d15 0,128 0,13 0,112 0,109 0.072 0,019 d16 0,094 0,096 0,109 0,113 0 0,457 d17 0,154 0,157 0,115 0,107 0.239 0,001 Etap e-M µk j 0.11 0.11 0.11 0.10 9.47.10−5 0.0004 σk j 0.04 0.05 0.001 0.002 4.40.10−9 2.63.10−7 αk j 0.11 0.11 0.11 0.11 0.40 0.24 vraiss. -1.88 -0.73

Nous faisons l’hypothèse que l’algorithme EM a atteint sa convergence à l’itération 2 et nous souhaitons maintenant établir la liste de l’expert u1. Tout d’abord, nous extrayons les documents di pour lesquels le score opti-misé x2

i1 vis-à-vis de l’expert u1 est supérieur à celui de l’expert u2, noté

x2

i2. A l’issu de l’algorithme EM, nous retenons les documents d3, d5, d7,

d15 et d17 comme candidats à la liste retournée à l’utilisateur. Selon le pa-radigme de la division du travail, nous considérons seulement les documents qui ne sont pas dans la liste retournée à l’expert u2, soit les documents d3,

d5 et d17. En les triant par score décroissant, nous construisons ainsi la liste

l1(u1, D1

ns) = {d5, d17, d3}.

Illustration 4.11 Apprentissage de l’ordonnancement collaboratif des documents.

4.3 Expérimentations et résultats

Afin de valider nos deux contributions, nous avons mis en place un protocole commun basé sur la simulation que nous présentons dans ce qui suit. Nous soulignons le fait que certaines caractéristiques du protocole sont inhérentes aux spécificités de nos contributions et que, par conséquent, nous détaillons les

procédures mises en place pour chacune des contributions. Par la suite, nous détaillons les résultats qui ont permis de tester l’efficacité de chacune de nos contributions.