• Aucun résultat trouvé

Défis et enjeux de la recherche d’information sociale

Ces masses de données générées par les utilisateurs réactualisent les problématiques de la recherche d’information (RI) à tous les niveaux, en particulier, au niveau de la défi- nition des modèles de pertinence pour intégrer ces contenus, et en termes d’approches pour l’exploitation efficace de ces contenus dans des tâches de RI. En effet, les mod- èles de recherche d’information classiques permettent d’évaluer l’intérêt, vue comme la pertinence, d’une ressource en s’appuyant sur des propriétés généralement extraites de son contenu (mots clés pour les pages Web, ou annotation pour les images). Dans notre cas, la problématique principale porte sur la manière de transformer ces contenus hétérogènes en propriétés permettant de les intégrer dans des modèles d’évaluation de pertinence. Cette problématique s’accentue sur d’autres facteurs tels que :

1.3 questions de recherche 5 • Volume : l’émergence du Web social a conduit à la disponibilité d’énorme quan-

tité de données générées par l’utilisateur. De toute évidence, ces données sociales peuvent améliorer l’efficacité des systèmes de recherche d’information. Cepen- dant, cela demande des études rigoureuses. En effet, les systèmes de RI devraient être en mesure de traiter cette quantité de données et de le rendre utilisable et ex- ploitable. Le défi concerne l’aspect technologique de traitement de l’information (indexation et recherche) ainsi que les aspects conceptuels et méthodologiques. La question porte sur le stockage, l’accès et l’analyse à grande échelle de ces quantités massives d’informations sociales (Big Data) [220,58].

• Structure des réseaux sociaux : chaque réseau social propose une structure propre à son réseau qui le différencie de ses concurrents. Par exemple, les associations d’amitié sur Facebook relient des amis de façon bidirectionnelle. Twitter propose des relations unidirectionnelles appelées Followers. Google+ adopte cependant une autre approche où les liens sociaux sont classés dans des cercles de confiance (ex. famille, collègues, amis et connaissances). En outre, le réseau social peut impliquer différents types d’entités en fonction des activités au sein du réseau social. Dans les réseaux Wiki, deux types d’entités sont impliqués : les auteurs et les articles. Les réseaux de bookmarking social impliquent plusieurs entités, y compris les utilisateurs, les documents et les tags. Cette diversité des structures de réseaux sociaux apporte des difficultés supplémentaires.

• Acteurs sociaux : l’évaluation des acteurs sociaux consiste à identifier les utilisa- teurs influents dans le réseau social. La pertinence sociale d’un acteur dépend cependant de la structure du réseau social. Par exemple, les acteurs importants dans les Wikis sont définis comme des experts caractérisés par des contributions précieuses sur certains sujets et qui ont reçu moins de critiques. Dans le cas des réseaux de partage de médias, la pertinence sociale est assimilée à la popularité de l’utilisateur. A côté de ces deux propriétés, la pertinence sociale peut être définie par l’autorité, la confiance et l’influence des personnes sur le réseau social.

1.3 Questions de recherche

Cette thèse porte sur le problème de la définition de la pertinence en exploitant les signaux sociaux, en particulier l’évaluation de l’importance sociale d’une ressource. Les questions de recherche auxquelles nous avons répondu durant notre thèse sont les suiv- antes :

1. Est-ce que les signaux sociaux peuvent être des critères de pertinence ?

2. Comment traduire les signaux sociaux en propriétés sociales ?

3. Quelles sont les propriétés sociales utiles pour évaluer la pertinence a priori d’une ressource ?

4. Comment prendre en compte les signaux sociaux et leur temporalité pour estimer l’importance d’une ressource ?

6. Quel modèle théorique pour combiner la pertinence a priori d’une ressource et sa pertinence thématique ?

7. Est-ce que la qualité du signal est influencée par son réseau social ?

1.4 Contributions

Nos travaux visent à améliorer la qualité des résultats de recherche d’information adhoc en exploitant les signaux sociaux. La tâche adhoc consiste à restituer des documents pertinents vis-à-vis d’un besoin d’information exprimé sous forme de mots-clés formant la requête. Nos contributions peuvent être résumées comme suit :

1. Exploitation individuelle et groupée des signaux sociaux. Les signaux sociaux associés aux ressources Web peuvent être considérés comme une information ad- ditionnelle qui peut jouer un rôle pour mesurer une importance a priori d’une ressource indépendamment de la requête. Nous démontrons comment ces sig- naux issus de plusieurs réseaux sociaux, qui sont sous forme d’actions relevant d’activités sociales telles que le nombre de j’aime et de partage, peuvent être com- binées (groupées) pour quantifier des propriétés sociales telles que la popularité et la réputation et peuvent être utiles pour améliorer les références, en termes de per- tinence, d’un système de RI. Plus précisément, nous avons tout d’abord montré qu’il y a une corrélation entre la présence des signaux sociaux sur une ressource (document recherché) et sa pertinence a priori. Nous avons ensuite présenté une approche basé sur un modèle de langue, permettant la combinaison de ces sig- naux, modélisés comme une probabilité d’importance a priori d’une ressource, et la pertinence thématique. Les résultats montrent que la prise en compte des signaux de manière individuelle et groupés améliore les résultats de recherche. Outre, le modèle de langue, nous avons exploité ces signaux dans une approche supervisée en utilisant différentes techniques d’apprentissage.

2. Temporalité des signaux sociaux. La première contribution confirme que plus ces signaux sont fréquents sur une ressource plus son importance a priori croît. Cependant, dans les travaux existants les signaux sociaux sont pris en compte indépendamment du moment où l’action (le signal) s’est produite et de la date de publication de la ressource. Ils sont pris en compte uniquement par rapport à leur fréquence dans la ressource. Nous avons étudié l’impact de la temporalité des signaux sur la performance d’un système de RI. Nous avons deux hypothèses. Dans la première, nous considérons que les ressources associées aux signaux frais (récents) devraient être favorisées par rapport à celles qui sont associées à des signaux anciens. Nous proposons de compter les occurrences d’un signal en les pondérant (en les boostant) avec sa date d’apparition. Dans la seconde, nous pen- sons que la date de publication d’une ressource joue un rôle important sur la vie sociale de cette ressource dans les réseaux sociaux. Une vieille ressource a une plus grande chance d’avoir un grand nombre d’interactions par rapport à une ressource publiée récemment. Donc, pour limiter l’impact de l’ancienneté de la ressource, nous proposons de normaliser la distribution des signaux sociaux asso- ciés à une ressource par la date de publication de la ressource (âge de la ressource).