• Aucun résultat trouvé

2.2 Concepts et processus de R

2.4.2 Mesures d’évaluation

Les mesures d’évaluation permettent d’estimer quantitativement l’efficacité d’un sys- tème de RI. L’objectif principal est de quantifier, pour chaque requête la capacité du système à retourner des documents pertinents. La Figure 2.4 illustre les différents en-

sembles manipulés lors de l’évaluation d’un système de RI, à savoir les ensembles des documents pertinents et des documents retournés par le système. Les documents perti- nents non retournés par le système représentent l’ensemble de documents silence tandis que les documents non-pertinents retournés par le système génèrent du bruit. Un bon système retourne le maximum de documents pertinents (minimiser le silence) sans aug- menter le nombre de documents non pertinents retournés (minimiser le bruit). Nous détaillons dans ce qui suit les principales mesures d’évaluation.

Figure 2.4: Ensembles de documents utilisés pour l’évaluation d’un système de RI

2.4.2.1 Rappel et précision

• Rappel@k : le rappel évalue la capacité d’un système de recherche d’information à retourner les documents pertinents au rang k dans l’ensemble des documents retournés, et par conséquent, sa capacité à minimiser le silence, illustrée dans la figure2.4. La mesure de rappel est définie par la fraction des documents pertinents

sélectionnés sur l’ensemble des documents pertinents au rang k dans la collection. Soit Q un ensemble de |Q| requêtes. La valeur de rappel est en moyenne sur l’ensemble des requêtes qh ∈Q comme suit :

5 http://www.clef-campaign.org/

2.4 évaluation 25 Rappel@k= 1 |Q|q

h∈Q Rappel(qh)@k = |1 Q|q

h∈Q |Sqh@k∩Rqh| |Rqh| (2.15)

Avec Sqh@k regroupe l’ensemble des documents sélectionnés par le système de RI

pour la requête qh au rang k. Rqh représente l’ensemble des documents pertinents

pour la requête qh.

• Précision@r : la mesure de précision évalue la capacité d’un système de recherche d’informations de ne retourner que des documents pertinents en tête de liste de l’ensemble des documents retournés, à savoir sa capacité à minimiser le bruit, illus- trée dans la figure2.4. La précision est définie comme la fraction des documents

pertinents dans l’ensemble des documents sélectionnés. Étant donné un ensemble de requêtes Q, la précision d’un système de recherche d’informations est définie par la formule suivante :

Precision@k= 1 |Q|q

h∈Q Precision(qh)@k = |1 Q|q

h∈Q |Sqh@k∩Rqh| |Sqh@k| (2.16)

Figure 2.5: Forme générale de la courbe de précision-rappel d’un système de RI

• Moyenne des précisions moyennes : Mean Average Precision MAP est obtenue sur l’ensemble des requêtes :

MAP@k= 1 |Q|q

h∈Q 1 k k

R=1 Precision(qh)@R (2.17)

Il existe plusieurs autres métriques et mesures qui peuvent servir à évaluer la précision d’un système de RI. Nous pouvons citer à titre d’exemple la F-mesure, la R-précision qui sont détaillées dans [180].

2.4.2.2 Mesure orientée rang nDCG

Le nDCG (normalized Discounted Cumulative Gain) est l’une des métriques d’évaluation les plus populaires utilisées pour mesurer l’efficacité d’ordonnancement des documents retournés par un système de RI [101]. Le nDCG repose sur des juge-

ments de pertinence graduels de documents, ce qui le rend différent des métriques précédentes. Le nDCG peut être estimé à partir de la mesure de DCG (Discounted Cu- mulative Gain) appliqué à la liste lh de résultats retournés normalisée par la même

mesure appliquée à l’ordonnancement idéal (meilleur) des jugements de pertinence en fonction de leur degré, notée IDCG(qh):

nDCG@k= ∑qh∈QDCG(lh)@kqh∈QIDCG(lh)@k (2.18) Où : DCG(lh)@k=rel1+ k

R=2 relR log2R (2.19)

Avec relR qui correspond au jugement effectué par l’utilisateur au document situé au

rang R de la liste Lh de résultats.

2.4.2.3 Test de signification statistique

Dans le contexte de la recherche d’information, il est important de savoir s’il y a une amélioration d’un système de recherche par rapport à un autre et si cette amélioration est due à une différence réelle entre les deux systèmes ou la différence vient juste du hasard. Parmi les autres raisons, par exemple, il y a du bruit inhérent à une évaluation. Certains sujets sont plus difficiles que d’autres, et les évaluateurs engagés pour juger de la pertinence des documents sont des êtres humains et donc ouverts à la variabilité dans leur comportement [186]. Cette différence entre les améliorations des systèmes est

souvent mesurée à l’aide des tests de signification statistique.

Quand un test statistique est utilisé pour comparer les performances de deux sys- tèmes de recherche (soit système X et système Y), un niveau de confiance typique de 95% est utilisé. Cette valeur signifie que dans 95% des choix de X et Y le rendement de X ira au-dessus de celle de Y. En d’autres termes, si la probabilité de la différence observée entre le système X et le système Y, connue en tant que valeur de signification, est assez petite, c-à-d., inférieure à 0.05, alors cette différence est considérée comme statistiquement significative car il y a une probabilité de 5% d’être faussement positifs. Étant donné que la valeur de signification représente la probabilité d’erreur en admet- tant que le résultat est correct, la valeur 0.05 est considérée comme un niveau d’erreur acceptable.

Les tests de signification les plus couramment utilisés en recherche d’information sont le t-test Student [75] et le Wilcoxon signed-rank test [202]. Cependant, malgré le fait

2.4 évaluation 27 exemple, Sanderson et Zobel [181], ont montré qu’il peut correctement distinguer entre

les améliorations des deux systèmes.

Jusqu’à maintenant, nous avons introduit le domaine de la recherche d’information dont cette thèse fait partie. Dans le chapitre suivant, nous allons commencer notre inves- tigation spécifique sur l’état de l’art lié à l’implication du Web social dans la recherche d’information.

3

R E C H E R C H E D ’ I N F O R M AT I O N S O C I A L E

Introduction

Des millions d’utilisateurs à travers le monde ont intégré les sites de réseaux soci- aux dans leurs routines quotidiennes. Les réseaux sociaux représentent des liens entre des personnes qui partagent des intérêts communs. Les comportements individuels et collectifs peuvent être extraits à partir des réseaux sociaux.

Ces dernières années, et particulièrement depuis 2005, les chercheurs ont pris conscience que ces réseaux sociaux peuvent être une source fructueuse pour con- tribuer au développement de plusieurs tâches en recherche d’information. Par exem- ple, la recherche de ce type d’information pour satisfaire un besoin en information de l’utilisateur, ou l’intégration de ces contenus sociaux comme une nouvelle source d’évidence dans le modèle de recherche afin d’améliorer la qualité des résultats de recherche.

Ce chapitre présente la recherche d’information sociale. Nous donnons tout d’abord un panorama du type d’information sociale présente dans le Web. Ensuite, nous définis- sons la notion de la RI sociale, en mettant en exergue les principales tâches de la RI sociale. Ensuite, nous présentons un aperçu sur des travaux liés à l’exploitation des informations sociales dans le processus de la RI. Enfin, nous analysons les limites de l’état de l’art en positionnant nos contributions.