• Aucun résultat trouvé

L’approche que nous proposons consiste à estimer l’importance sociale d’une ressource en exploitant ses signaux sociaux associés, soit individuellement où chaque signal représente un facteur de pertinence, soit en regroupant ces signaux en fonction du type d’importance sous-jacent. En effet, certains signaux sont liés à la popularité et d’autres liés à la réputation.

Afin de prendre en compte ces facteurs sociaux dans l’évaluation de pertinence, nous nous appuyons sur un modèle de langue qui nous permet de combiner de manière

4.2 approche de ri exploitant les signaux sociaux 59 élégante l’importance a priori de la ressource et sa pertinence vis-à-vis de la requête. Avant de décrire le modèle, nous décrivons quelques notations que nous utilisons tout au long de ce manuscrit.

4.2.1 Préliminaires et notations

L’information sociale que nous exploitons dans notre approche peut être représentée par le quadruplet <U, R, A, RS> où U, R, A, RS sont des ensembles finis d’instances : Utilisateurs, Ressources, Actions et Réseaux sociaux.

4.2.1.1 Ressources

Nous considérons une collection R = {D1, D2, ...Dn}de n ressources. Une ressource D

peut être un document traditionnel comme une page Web ou une ressource Web 2.0 comme une vidéo ou toute autre entité similaire. Nous supposons qu’une ressource D peut être représentée à la fois comme un ensemble de mots-clés textuels (bag of words), soit Dw= {w1, w2, . . . wz}où w est un terme, et comme un ensemble de caractéristiques

sociales réalisées sur cette ressource, Da = {a1, a2, . . . am} où a est une action relevant

d’activité sociale.

4.2.1.2 Actions

Cet un ensemble, A = {a1, a2, ...am}, représente m actions (signaux sociaux) que les

utilisateurs peuvent effectuer sur les ressources. Ces actions représentent la relation entre l’ensemble des utilisateurs U = {u1, u2, ...uh}et l’ensemble des ressources R. Par

exemple sur Facebook, les utilisateurs peuvent effectuer des actions relevant d’activités sociales comme : publier, aimer, partager ou commenter.

4.2.1.3 Réseaux sociaux

Il existe un ensemble RS = {rs1, rs2, ...rsz} de z réseaux sociaux (graphe). Chaque

réseau social spécifique contient un ou plusieurs signaux sociaux spécifiques réalisés sur une ressource D.

4.2.2 Modèle de langue et probabilité a priori

Nous nous appuyons sur un modèle de langue [160] pour combiner la pertinence thé-

matique de la ressource vis-à-vis de la requête et son importance sociale, modélisée elle aussi comme une probabilité a priori. La probabilité qu’une ressource D soit pertinente par rapport à une requête Q est estimée selon la formule4.1suivante :

RSV(Q, D) =P(D|Q)rank= P(D) ·P(Q|D) = P(D) ·

wi∈Q

P(wi|D) (4.1)

Où wi représente les mots de la requêtes Q.

P(D)représente la probabilité a priori du document D, son utilité est de modéliser et intégrer d’autres sources d’évidence indépendantes de la requête dans le processus de

la recherche d’information. L’estimation de P(wi|D)peut être effectuée en utilisant dif-

férents modèles (ex. Jelineck Mercer, Dirichlet) [215]. En effet, la principale contribution

de ce chapitre est sur l’estimation de P(D)en exploitant les signaux sociaux.

Pour estimer la probabilité a priori de la ressource P(D), nous avons plusieurs op- tions. Soit nous considérons chaque signal individuellement, dans ce cas, nous consid- érons autant de probabilités que de signaux. Chaque P(D)mesure l’impact d’un signal donné. Soit nous cumulons et calculons l’effet conjoint de l’ensemble des signaux ob- servés sur une ressource. Une troisième option consiste à regrouper les signaux selon la propriété sous-jacente, nous pensons que les signaux sociaux indiquent un certain en- gagement des utilisateurs et ont une signification différente. Un signal de type j’aime n’a pas le même impact qu’un signal de type commentaire. Par conséquent, nous proposons de combiner les signaux en fonction des propriétés qu’ils pourraient représenter. Nous estimons alors la probabilité a priori du document selon le groupe signaux de cette propriété.

4.2.2.1 Propriétés sociales

Nous avons analysé la nature de différents types d’actions à travers plusieurs réseaux tels que Facebook, Twitter, etc. Cette analyse nous a permis de définir deux propriétés sociales : a) la popularité de la ressource et b) la réputation de la ressource. Nous pensons qu’il existe des signaux qui reflètent et mesurent d’avantage la réputation de la ressource ainsi que d’autres mesurent la popularité. Nous définissons les deux propriétés comme suit :

• Popularité : la popularité désigne la chose la plus connue (populaire) par le public. Grâce à l’influence des pairs, des ressources cibles peuvent rapidement monter dans la façon dont elles sont omniprésentes dans la société. Ainsi, la popularité d’une ressource peut être estimée en fonction de l’intensité de partage de cette ressource entre les utilisateurs à travers les réseaux sociaux. Nous supposons qu’une ressource est populaire si elle a été partagée et commentée par plusieurs utilisateurs dans plusieurs réseaux sociaux.

• Réputation : nous supposons que si l’indice de popularité d’une ressource est impor- tant, cette ressource est relativement intéressante. Cependant, la popularité d’une ressource ne reflète pas forcément sa bonne ou mauvaise réputation. La réputation d’une ressource est une opinion que l’on a sur cette ressource. Nous pensons que l’estimation de cette propriété peut être calculée à partir des actions relevant d’activités sociales qui portent un sens positif telles que le j’aime de Facebook ou le bookmark d’une ressource comme favoris sur Delicious. En effet, la réputation d’une ressource dépend du degré d’appréciation des utilisateurs sur les réseaux sociaux.

4.2.2.2 Estimation des probabilités a priori

Une manière simple d’estimer la probabilité a priori est d’effectuer un simple comptage du nombre d’actions spécifiques effectuées sur une ressource. En supposant que les actions sont indépendantes les unes des autres, la formule générale est la suivante :

4.2 approche de ri exploitant les signaux sociaux 61

Px(D) =

ax

i∈A

Px(axi) (4.2)

Px(aix)est estimée en utilisant le maximum de vraisemblance :

Px(axi) =

Count(axi, D) Count(ax

•, D) (4.3)

Pour éviter une probabilité nulle, nous lissons Px(axi) par la collection R en utilisant

Dirichlet [215]. La formule4.3devient comme suit :

Px(D) =

ax i∈A  Count(aix, D) +μ·P(aix|R) Count(ax •, D) +μ  (4.4) Px(aix|R)est estimée en utilisant le maximum de vraisemblance :

Px(axi|R) =

Count(aix, R) Count(ax

•, R) (4.5)

Avec :

• x se réfère de manière générale à la propriété sociale {popularité, réputation} estimée à partir d’un ensemble d’actions spécifiques. On peut imaginer d’autres regroupe- ment de signaux, alors dans ce cas x correspondra au regroupement considéré, par exemple des signaux venant d’un réseau social spécifique (TotalFacebook qui regroupe le j’aime, le partage et le commentaire). Dans le cas ou les signaux sociaux sont pris en compte de manière individuelle, le x sera ignoré.

• Px(D)représente la probabilité a priori de D.

• Count(axi, D)représente le nombre d’occurrence de l’action axi dans D.

• Count(axi, R) représente le nombre d’apparition de l’action spécifique axi dans la collection R.

• Count(ax, Y)représente le nombre total de signaux sociaux dans Y (Y est soit le document D ou la collection R).

Prise en compte du rating : le rating est un autre signal que nous traitons différemment

car il n’est pas un simple comptage d’actions tel que décrit ci-dessus. Le rating est une note sur une échelle de 1 à une valeur max de 5, où 3 signifie "moyen" et 5 signifie "excellent", et dépend du nombre des utilisateurs qui notent le document.

Nous proposons d’intégrer le signal rating comme une mesure de réputation d’un doc- ument. A cet effet, nous utilisons la moyenne bayésienne [211] (Bayesian Average (BA))

des notes (ratings) pour estimer la moyenne des rating dans un document en prenant en compte le nombre d’utilisateurs qui ont noté le document. Plus les utilisateurs no- tent le même document, la moyenne devient plus fiable et moins sensibles aux valeurs aberrantes. Les documents qui ont de nombreuses évaluations sont amplifiées par rap- port aux documents qui ont peu de notes. De même, les documents avec des notes élevées sont amplifiées plus que des documents avec de faibles notes. Donc, la BA d’un document est calculée comme suit :

BA(D) = moy(r) · |r| +D∈Rmoy(r ) · |r|

|r| +D∈R|r|

, (4.6)

Avec :

• r = {{ri}} un multi-ensemble de valeurs des ratings, avec i = 1, nr. nr est le nom-

bre de ratings associé au document D, nr = |r|. ri est le ième rating donné par

l’utilisateur i au document D.

• moy est la fonction de moyenne des ratings r du documents D. • r est l’ensemble des ratings dans toute la collection R.

Nous notons que la prise en compte du logarithmique du BA(D) permet de com- presser le score et réduit, de ce fait, l’impact des critères sur le score global.

P(ai =rating) = log(1+BA(D))

log(1+∑D∈RBA(D))

(4.7) Pour les documents sans notes cela se traduirait par une probabilité nulle. Afin d’éviter une multiplication par zéro ainsi que la pénalisation du score textuel, nous utilisons la méthode de lissage Add-One :

P(ai = rating) = 1+log(1+BA(D))

1+log(1+∑D∈RBA(D))

. (4.8)

4.2.2.3 Combinaison des probabilités a priori

Dans notre proposition, nous disposons de diverses sources d’informations sociales qui influencent la probabilité a priori de pertinence. Cette probabilité est calculée par la combinaison de plusieurs propriétés sociales (popularité et réputation). De manière générale, le problème peut être formalisé comme suit [156] :

PP⊕R(D) =PP(D) ·PR(D) (4.9)

Avec :

• PP(D), PR(D)définissent les probabilités a priori relatives à la popularité P et la

réputation R.

• PP⊕R(D)définit la combinaison des probabilités a priori.

Nous notons que le P(ai =rating)est un facteur qui quantifie la propriété réputation.