Conclusion - Collaboration dans une fédération de consommateurs de données liées

3.4.2.6 Impact de la taille du profil sur les communautés du réseau superposé com- munautaire

Un client établit si un autre client est similaire à lui grâce aux profils. Les clients similaires forment ainsi des communautés.

Objectif : Est-ce que la précision du profil impacte la définition des communautés ? Description : Comme dans les expériences précédentes, nous mettons en place deux jeux

de données BSBM 1M avec 50 clients par jeu de données. Nous varions la taille des profils à 5, 10 et 30 prédicats.

Résultats : Dans la figure 3.8, le graphe connecté représente le réseau superposé com-

munautaire, où un nœud représente un client dans le réseau et les arcs représentent une connexion entre deux clients. Par exemple, l’arc 1 → 2 signifie que le client 1 a le client 2 dans sa vue CON. La figure3.8montre clairement que CyCLaDEs est capable de construire deux communautés pour les deux valeurs de la taille du profil.

Explication : Comme on peut le voir dans la figure 3.8b, un profil avec une taille plus

grande améliore la définition des communautés, c’est-à-dire que seuls les clients avec des profils similaires reçoivent des demandes pour récupérer des fragments.

3.5 Conclusion

Dans ce chapitre nous avons présenté CyCLaDEs, un cache collaboratif décentralisé pour les clients TPF. Ce cache est hébergé par les clients et complète le cache temporel HTTP hébergé par les producteurs de données.

Les résultats expérimentaux démontrent que le cache collaboratif décentralisé est capable de prendre en charge un nombre important de requêtes de fragment générées par le traitement de requêtes TPF, dans le contexte d’une application Web, comme décrit dans la section 3.2(p.41). Par conséquent, la pression sur les resources du producteur de données est réduite.

CyCLaDEs propose un algorithme peu coûteux capable de profiler des clients TPF selon leurs requêtes passées et de rassembler les voisins les plus similaires entre eux. Ce profilage est efficace comme le démontre les expériences précédentes. CyCLaDEs démontre comment amener les données aux requêtes grâce à des techniques de mise en cache, une autre approche pourrait être d’amener les requêtes là où sont les données en choisissant parmi les voisins, qui est capable de traiter plus d’un triplet d’une même requête.

4

Ladda : délégation de requêtes dans une

fédération de consommateurs de

données liées

Sommaire

4.1 Contexte et Motivation. . . . 56 4.2 Définitions et énoncé du problème . . . . 57 4.3 Approche de Ladda . . . . 59 4.4 Étude expérimentale . . . . 64 4.5 État de l’art . . . . 74 4.6 Conclusion . . . . 75

D

Ans le chapitre précédent, les clients collaborent en partageant leurs capacités de sto- ckage. Dans ce chapitre, nous nous intéressons au partage du calcul et de la bande passante. En effet, l’approche TPF [63] transforme n’importe quel client TPF en serveur SPARQL. Ainsi, n’importe quel client TPF est capable d’exécuter n’importe quelle requête SPARQL. Il est donc possible pour un client ayant de nombreuses requêtes à exécuter d’en déléguer une partie à d’autres clients. Cette approche permet de partager non seulement les capacités de calcul, mais aussi la bande passante des différents clients.

La délégation permet de paralléliser l’exécution des requêtes sans requérir de ressources supplémentaires de la part du producteur de données. L’exécution de requêtes en parallèle peut réduire le temps d’exécution des requêtes, c’est-à-dire le temps entre l’arrivée des re- quêtes et l’obtention des résultats.

Dans ce chapitre nous proposons Ladda, une approche permettant de déléguer des re- quêtes dans une fédération de consommateurs de données. Les contributions de ce chapitre

sont les suivantes :

• Un modèle permettant de déléguer des requêtes SPARQL au sein d’une fédération de consommateurs de données.

• Un algorithme dynamique d’équilibrage de charge.

• Une expérimentation basée sur les journaux de DBpedia 3.8 (USEWOD 2013). La section 4.1 (p. 56) présente le contexte de Ladda. Le modèle de Ladda ainsi que le problème scientifique sont présentés dans la section4.2(p.57). L’approche est présentée en détails dans la section 4.3(p. 59). La section4.4 (p.64) détaille l’environnement d’expéri- mentation et les expériences menées pour valider l’approche. La section4.5(p.74) présente l’état de l’art. La section4.6(p.75) conclut ce chapitre.

4.1 Contexte et Motivation

Dans Ladda nous faisons l’hypothèse qu’il existe une fédération de consommateurs de don- nées où certains d’entre eux sont libres. L’analyse des journaux de DBpedia 3.8 sur 24 heures1_{permet de vérifier cette hypothèse. La figure}_4.1_{montre la distribution du nombre}

de requêtes par nombre de clients. On peut voir que la plupart des clients exécutent moins de 10 requêtes et seulement quelques rares clients exécutent plus de 10 requêtes. Cette analyse suggère l’existence de clients libres, sous réserve que ces derniers restent connectés et ne quittent pas immédiatement le réseau après avoir fini l’exécution de leurs requêtes.

100 101 102 0 25 50 75 100 Nombre de clients Nombre de requêtes

FIGURE 4.1 – Nombre de clients ayant exécuté le même nombre de requêtes en moyenne sur 24 heures, sur le seveur SPARQL public de DBpedia, entre le 26 août à 05:00 et le 27 août à 04:00, en 2012. Avec un écart-type sur le nombre de requêtes exécutées par le nombre de clients.

Ladda a pour but de construire une fédération de consommateurs de données où les consommateurs de données peuvent profiter du temps libre de leurs voisins. Pour illustrer la délégation de requêtes, supposons une fédération de trois consommateurs de données, C1, C2et C3avec les mêmes capacités d’exécution et exécutant des requêtes sur le même serveur

1_{Le journal inclus les requêtes exécutées sur le serveur public de DBpedia entre le 26 août à 05:00 et le}

25 août à 04:00 pour l’année 2012. Le log des requêtes est disponible à ftp://download.openlinksw.

Dans le document Collaboration dans une fédération de consommateurs de données liées (Page 54-58)