Approche des réseaux - Communautés : Etat de l’art 27

Partie II. Communautés : Etat de l’art 27

5.3 Approche des réseaux

classification Bayésienne naïve, la valeur de Pr(C f₁,f₂,...,f_t)est proportionnelle à :

∏

= t s f C C 1 s) Pr( ) Pr(

où, C est la classe à prédire (like, dislike), et f_sest une caractéristique (voir Figure 5.5).

Ensuite, les auteurs réalisent la sélection des caractéristiques f_sles plus discriminantes pour le modèle de prédiction, correspondant à la sélection des utilisateurs dans l’approche des voisins les plus proches, en fonction du gain d’information [Qui86].

En résumé, les avantages de l’approche probabiliste sont la compacité du modèle, et donc la rapidité du calcul de prédiction. En revanche, ces techniques probabilistes sont très compliquées, et le processus d’apprentissage est souvent long. De plus, les soi-disant communautés dans de telles techniques dépendent du document en considération. Ainsi, cette notion de communauté dans l’approche probabiliste est un peu différente des autres approches où les communautés sont relativement indépendantes des documents.

5.3 Approche des réseaux

Au contraire des relations explicitement disponibles dans les profils, d’autres relations peuvent être découvertes à partir de données véhiculant de façon implicite un réseau social, comme par exemple les affiliations de personnes que l’on peut trouver sur le Web (qui est affilié à quelle institution). En général, le processus de découverte des relations implicites entre utilisateurs se compose de trois phases :

E1. Collecter et fouiller des données transactionnelles, par exemple communication, messages, favoris, évaluations, etc.,

E2. Reconnaître et modéliser des intérêts souvent implicites, et induire les communautés existantes, et

E3. Explorer et exploiter des communautés.

Nous présentons dans la suite les travaux représentatifs de l’approche des réseaux.

5.3.1Réseaux sociaux

Un réseau social est défini comme un graphe non orienté dont les nœuds appartiennent à une seule classe d’objets ou personnes, et les arcs ont le même type de relation, par exemple « être ami ». On essaie d’identifier des communautés en faisant émerger des relations sociales existant dans le graphe. Par exemple, le système Hidden Web-Referral Web [KSS97a, b] a pour but de chercher des

ressources sur le Web comme les experts, les documents, etc. en explorant des réseaux sociaux. Dans cette approche, on construit un réseau social en reliant deux personnes dont les noms apparaissent à proximité dans une page Web.

L’objectif de ce système est d’aider l’utilisateur à explorer de façon interactive le réseau social afin de trouver :

(a) une chaîne de références vers un expert particulier, (b) des experts sur un sujet donné, et

En général, les études des réseaux sociaux visent à détecter les relations sociales existantes dans les données plutôt qu’à modéliser explicitement les intérêts des utilisateurs [PGF03].

5.3.2Fouille et exploration de structures

Dans l’approche de fouille et d’exploration de structures (Mining and Exploiting Structure) [MKR03], le système transforme un réseau biparti R (voir Figure 5.6), qui représente la matrice des évaluations Vmxn, ayant 2 classes de nœuds {personne pi} et {document dj}, en un réseau social uni parti Gs généralement en 3 étapes :

E1. Fouiller le réseau d’affiliation,

E2. Identifier, modéliser/extraire le réseau social Gs,

E3. Rattacher les deux réseaux en Gr pour l’exploration et l’exploitation dans la production de recommandations, par exemple déterminer la distance moyenne entre personne et objet.

5.4 Conclusion 45 Mirza et al. [MKR03] ont proposé la technique « hammock jump » J, qui relie deux personnes ayant un certain nombre d’évaluations communes w, pour induire le réseau social. Cette approche permet d’une part de reconnaître et d’explorer des structures dans l’ensemble des évaluations, et d’autre part de calibrer et d’évaluer la performance du système en termes de connexion des utilisateurs avec des documents, en analysant les caractéristiques structurelles des graphes Gs et Gr : par exemple, le nombre de personnes liées par la technique appliquée dans le système, le rapport entre le paramètre

w et la taille de l’ensemble d’apprentissage qu’un utilisateur doit fournir au système pour recevoir des recommandations, etc.

En résumé, les travaux relevant de l’approche des réseaux permettent de former des communautés par transitivité sans avoir besoin des évaluations en commun entre utilisateurs, ce qui est une solution importante pour le problème de la masse critique. Par contre, la notion de communautés dans les réseaux est beaucoup moins forte que dans l’approche des voisins les plus proches.

5.4 Conclusion

Pour conclure, ce que nous retenons du présent chapitre est que dans la plupart des systèmes de filtrage collaboratif, l’historique des évaluations est le seul critère utilisé pour former des communautés, quelque soit la méthode.

Chapitre 6

Démarrage à froid

En général, on distingue trois types de démarrage à froid pour un système de filtrage collaboratif :

– le démarrage à froid pour un nouveau système (« new system »), où les performances des systèmes sont très mauvaises en raison de l’absence d’informations sur lesquelles fonder le processus de filtrage personnalisé. Ce problème est généralement traité en exploitant des données externes, données dont on ne dispose pas toujours, selon le cadre applicatif [MSR04].

– le démarrage à froid pour un nouveau document (« new item ») : c’est un problème spécifique à l’approche collaborative, pour laquelle les objets à recommander ne sont décrits que par les évaluations fournies par les utilisateurs. Ce problème est généralement traité en combinant une approche de filtrage basé sur le contenu avec le filtrage collaboratif (approche hybride), par exemple en utilisant la similarité, au niveau du contenu, entre documents pour estimer la satisfaction des utilisateurs sur le nouveau document en fonction de leurs évaluations sur certains documents assez proches [SPU01] ; ou en introduisant des agents intelligents qui évaluent les documents automatiquement [GSK+99].

– le démarrage à froid pour un nouvel utilisateur (« new user ») : du fait qu’il n’a pas encore donné d’évaluations, sa communauté par l’historique des évaluations est toujours inconnue, ce qui conduit à l’impossibilité de calculer des recommandations pour lui.

Dans cette thèse, nous nous intéressons essentiellement au dernier type de démarrage à froid, pour un nouvel utilisateur6, et nous présentons dans le présent chapitre les approches courantes qui répondent à la question : « Comment le système peut-il positionner un nouvel utilisateur dans une communauté formée sur la base de l’historique des évaluations alors que cette personne n’a pas encore fourni d’évaluations ? ».

6.1 Filtrage collaboratif actif

En donnant aux utilisateurs les possibilités de former eux-mêmes des communautés par la connaissance de personnes, collègues ou amis, les systèmes s’appuyant sur le filtrage collaboratif actif [ME95] ne souffrent absolument pas du démarrage à froid. Néanmoins, cette approche ne peut s’appliquer qu’aux petites communautés où chaque personne connaît parfaitement les centres d’intérêt des autres.

Dans le document COCoFil2 : Un nouveau système de filtrage collaboratif basé sur le modèle des espaces de communautés (Page 62-67)