Introduction - Recommandation diversifiée et distribuée pour les données scientifiques

Dans la continuité des chapitres précédents, nous illustrons celui-ci par les cas d’application sur la botanique et sur les données de phénotypage. Rappelons que dans le premier cas, les utilisateurs produisent et souhaitent partager une grande quantité d’observations de plantes. Celles-ci sont représentées par des images de la plante, ainsi que par un ensemble de méta-données telles que la famille, le genre et l’espèce de la plante, mais aussi la position GPS de la plante, etc. Dans le second cas d’application, la communauté visée est celle des scientifiques. Ces derniers produisent une grande quantité de documents scientifiques qu’ils souhaitent partager.

Le chapitre précédent exploite l’idée de réseau P2P [49], où chaque utilisateur représente un nœud du réseau. Lorsqu’une requête q est soumise par un utili-

sateur, celle-ci est propagée entre les nœuds via un recouvrement. Pour plus de détails se référer à la Section 2.2 du Chapitre 2 sur l’état de l’art ou au Chapitre 5. Nous proposons une solution générique multisite pour la recherche et la recom- mandation, où chaque site peut regrouper 1 à n utilisateurs (e.g. une plateforme dans le nuage peut ainsi représenter un site).

Par ailleurs, nous avons introduit au Chapitre 3 une méthode de recherche de recommandations diversifiée [149] qui, en plus de la pertinence, prend également en compte la diversité des objets et des profils des utilisateurs les partageant. Dans le contexte de la recommandation de données issues de la botanique, les profils sont déduits de leurs observation et la diversification permet, par exemple, de découvrir des plantes provenant de plusieurs espèces originales d’une même famille, ou d’une même zone géographique. Ceci est fondamental afin de comprendre correctement la biodiversité des plantes. Dans le cadre du phénotypage, les profils sont issus des documents scientifiques partagés par chaque scientifique. La diversité permet ici de recommander des données provenant de communautés pertinentes mais diverses afin de mettre en relation des jeux de données inatten- dus.

En résumé, nous proposons une solution générique multisite pour la recherche de recommandations diversifiées, où chaque site peut regrouper 1 à n utilisateurs (e.g. une plateforme dans le nuage peut ainsi représenter un site). Un prototype composé de deux versions est issu de cette approche générique :

• Plant Recommendation Tool (i.e. PlantRT) : cette version adresse le contexte de la botanique en permettant le partage d’observations de plantes ;

• Document Recommendation Tool (i.e. DocRT) : celle-ci adresse le

contexte du phénotypage en permettant le partage de documents scientifiques.

Les deux versions s’adaptent notamment au données différentes issues des cas d’application.

Lorsque les sites sont composés de plusieurs utilisateurs, la personnalisation est calculée de la manière suivante : chacun possède son propre profil issu des données qu’il partage, et les utilisateurs similaires sont regroupés ensemble (i.e.

clustering). Les groupes d’utilisateurs issus de ce clustering définissent l’ensemble

des nœuds virtuels du site. Il s’agit d’une représentation logique d’un groupe d’utilisateurs similaires, pour lesquels un profil commun est créé, ainsi que quelques méta-données supplémentaires. Les nœuds virtuels sont utiles pour la création du recouvrement pour la recherche et la recommandation distribuées tout autant que pour l’indexation personnalisée et efficace des objets [9].

Dans ce chapitre, nous présentons en détails notre architecture multisite. Celle-ci est générique et peut être appliquée à plusieurs cas d’application. Notre prototype PlantRT a été déployé en utilisant un jeu de données fourni par Ima-

de 10 000 observations produites par 1 500 bénévoles. Afin d’évaluer le passage à l’échelle ainsi que le niveau rappel, tout autant que l’efficacité de nos protocoles, nous avons réalisé des simulations jusqu’à 100 sites. Les utilisateurs étaient répar- tis aléatoirement sur ces sites. À plus petite échelle, ce prototype a été instancié sur 5 machines virtuelles fournies par Microsoft Azure.

À propos de DocRT, nous disposions cette fois-ci d’environ 300 documents de biologie (e.g. génétique, phénotypage) mais aussi d’informatique, partagés par une trentaine de volontaires de ces différentes disciplines. Il a été déployé sur 3 machines du LIRMM.

À notre connaissance, il s’agit de la première démonstration d’une approche multisite utilisant de vraies données scientifiques.

En résumé, nous proposons les contributions suivantes :

1. le concept de nœud virtuel est introduit afin de construire un recouvrement entre sites hétérogènes étant donné une fonction de score personnalisée ; 2. un protocole d’indexation entièrement distribué est proposé ;

3. un cas d’utilisation et le déploiement du prototype sont discutés ;

4. enfin, afin de valider nos propositions, une évaluation expérimentale basée sur un jeu de données réel composé de 10 000 observations de botanique partagées par 1 500 utilisateurs est présentée. Celle-ci confirme l’intérêt des nœuds virtuels ainsi que les performances de notre protocole d’indexation. La suite de ce chapitre est structurée de la manière suivante. Tout d’abord, la Section 6.2 introduit les concepts de base ainsi que le problème que nous abordons. La Section 6.3 présente en détail l’architecture de notre approche multisite. Ensuite, la Section 6.5 décrit les différents cas d’utilisation en prenant pour exemple PlantRT. La Section 6.6 discute de l’évaluation expérimentale de nos contributions. Enfin, la Section 6.8 conclut le chapitre.

6.2 Concepts de base et définition du problème

Cette section, contient les bases nécessaires pour comprendre le problème que nous adressons. La définition du problème est également introduite.

Dans notre approche de recherche et de recommandation distribuées, lors- qu’un utilisateur u soumet une requête q, celle-ci doit être transmise à un sous- ensemble de sites qui retourneront leurs résultats les plus pertinents en fonction de q et de u. Nous disposons donc d’un ensemble de sites S = s1, ..., sp et d’uti- lisateurs U = u1, ..., un. Chacun peut partager jusqu’à m objets I = it1, ..., itm (e.g. observations, contenus scientifiques).

Un objet, ou contenu, est représenté de manière vectorielle [107, 141]. En utilisant tf ×idf , un objet est comme une liste de mots clés k1, ..., kz, et le vecteur représente le poids de chacun de ces derniers pour l’objet en question, étant donné le corpus global. Le profil d’un utilisateur exprime ses intérêts et est calculé à

ITEMS Site 2 Site 3 Site 4 VN 1 VN 2 Site 1 Virtual Network 1 Virtual Network 2 VN 2 VN 4 VN4 Site 4 Site 4 VN6 VN5 VN4 VN₃ VN₄ VN₅ VN₆ Random View Site 4 VN2 VN5 VN4 VN 3 VN2 VN1 VN4 Site 4 VN1 VN5 VN6 Random View Random View

Figure 6.1: Exemple d’un réseau multisite avec 4 sites.

partir des objets qu’il partage Iu. De manière plus précise, le profil d’un utilisateur est la moyenne des vecteurs tf × idf des objets qu’il partage. Les requêtes sont exprimées, quant à elles, par une liste de mots clés k1, ..., kz.

Définition du problème : Étant donné un ensemble d’utilisateurs U, un

ensemble d’objets I, de sites S et une requête à mots clés q soumise par un utili- sateur u, le problème que nous adressons est le suivant : il s’agit de recommander efficacement à u les top-k objets les plus pertinents et divers Rq _{∈ I} _{quelles que} soient les infrastructures S où ils sont stockés.

Dans le document Recommandation diversifiée et distribuée pour les données scientifiques (Page 138-141)