Expérimentation des fonctionnalités avancées de supervision

5.3 Évaluation de l'architecture

5.3.4 Expérimentation des fonctionnalités avancées de supervision

Nous avons ensuite testé les fonctionnalités avancées de notre architecture. L'expérience con-siste à éclipser les chiers existants pour un mot-clé populaire et à falsier son index avec des chiers appâts servant les pots de miel. Pour cela, nous avons choisi de cibler le mot clé spiderman pendant une journée, éclipsant les chiers indexés et les remplaçant par 4 faux chiers achant un nombre diérent de sources, deux apparaissant comme populaires et deux autres comme étant faiblement partagés. Les résultats d'une recherche eectuée par un client KAD normal pendant ce déploiement sont présentés par la capture d'écran 5.3.4. Nous pou-vons observer que le Honeynet réussit parfaitement à éclipser les véritables références et à les remplacer par les 4 faux chiers proposés.

Pour chacun des chiers appâts, nous avons ensuite mesuré la proportion de recherches de source uniques émises par des pairs distincts, ce qu'illustre le diagramme 5.14. Nous pouvons constater que les deux chiers populaires sont choisis en priorité par 96% des utilisateurs. Ce résultat conrme notre hypothèse initiale sur l'importance que revêt le nombre de sources aché quand les utilisateurs doivent choisir entre plusieurs chiers et, par conséquent, que sa maîtrise est nécessaire pour créer un pot de miel ecace. Cette dernière expérience illustre l'ecacité de

Figure 5.13 Résultat d'une recherche sur "spiderman" ciblé par le Honeynet avec 4 faux chiers

Figure 5.14 Proportion des recherches de sources reçues pour chaque faux chier notre approche et le contrôle qu'elle permet sur le réseau KAD.

Conclusion

Nous présentons dans ce chapitre notre architecture de supervision pour le réseau P2P KAD, HAMACK capable de superviser précisément et de contrôler l'activité des contenus diusés à travers l'indexation des informations (mots-clés et chiers) servant à leur partage. Celle-ci repose sur l'utilisation conjointe de pots de miel et de sondes distribuées permettant de prendre localement le contrôle de la DHT en contournant les mécanismes de protection présentés dans le chapitre précédent.

En concevant HAMACK, notre objectif était de créer une architecture capable de fournir une supervision able et performante des accès aux contenus dans le réseau P2P KAD. L'utilisation de pots de miel classiques, où plusieurs clients annoncent des chiers appâts, n'est pas satis-faisante car elle ne peut atteindre une bonne visibilité, au regard du nombre de sources estimé, sans d'importants moyens. D'autre part, superviser l'accès à des chiers existants est sujet à de nombreux faux positifs car un utilisateur peut accéder à un contenu par diérents mots-clés dont

certains sont sans rapport avec celui-ci du fait de la pollution du réseau.

Notre solution, en prenant le contrôle du mécanisme d'indexation malgré les dernières protec-tions contre l'attaque Sybil, est capable de générer et d'annoncer des chiers-appât très attractifs avec peu de ressources, tout en éclipsant les autres références existantes concurrentes. En dehors des références ciblées, notre architecture n'est absolument pas intrusive pour le reste du réseau. Par ailleurs, elle permet également de superviser de manière passive toutes les requêtes destinées à un contenu spécique (mot clé ou chier) indexé sur la DHT. En capturant l'ensemble de ces requêtes depuis la recherche de mots-clés jusqu'à la demande de téléchargement d'un chier, nous pouvons ainsi prouver l'intérêt des pairs pour un contenu spécique.

La validation formelle puis les évaluations eectuées sur KAD suite à la mise en ÷uvre de l'architecture grâce à PlanetLab ont montré l'ecacité de notre approche, celle-ci étant capable d'attirer les requêtes émises pour une référence donnée tout en nécessitant peu de ressources (20 n÷uds) et permet ainsi de contrôler l'indexation d'un mot clé très populaire, comme nous l'avons montré pour spiderman. Le chapitre suivant applique notre architecture à la supervision de contenus malveillants diusés dans KAD.

Application à la supervision des

contenus pédophiles

Sommaire

6.1 Collecte des données . . . 102 6.1.1 Environnement expérimental . . . 102 6.1.2 Base de données . . . 104 6.1.3 Présentation des données . . . 106 6.2 Quantication des contenus pédophiles . . . 106 6.2.1 Préparation des données collectées . . . 106 6.2.2 Analyse des requêtes de recherche . . . 109 6.2.3 Analyse des requêtes de publication . . . 110 6.2.4 Analyse des pairs . . . 115

Introduction

Notre architecture de supervision HAMACK a été conçue et implantée dans le contexte du projet ANR MAPE Measurement and Analysis of Peer-to-peer Exchanges for pedocriminality ghting and trac proling ayant pour but l'étude et la caractérisation des activités à caractère pédophile dans les réseaux P2P. Dans ce cadre, ce chapitre présente les résultats d'un déploiement réalisé pendant 2 semaines consécutives sur le réseau KAD permettant d'étudier l'activité de contenus à caractère pédophile échangés sur ce réseau à travers la supervision de l'activité de mots-clés relatifs.

An de ne pas interférer avec une supervision du réseau pouvant être menée par les forces de l'ordre, nous avons limité les fonctionnalités d'HAMACK aux fonctionnalités passives, su-pervisant ainsi l'activité des mots-clés sans en modier les références (ni éclipse, ni annonce de chiers appâts). L'activité de 72 mots-clés a ainsi été supervisée pendant 2 semaines du 19 oc-tobre au 02 novembre 2010. Parmi ces mots-clés, la moitié sont à caractère pédophile et l'autre est constituée de mots-clés courants à des ns de comparaison. Comme l'objectif n'est pas ici de prendre le contrôle d'un mot-clé mais de capturer au moins une des requêtes émises pour chaque service, seules 5 sondes ont été déployées à proximité de l'identiant du mot-clé au lieu des 20 nécessaires à son contrôle. Nous avons montré que le n÷ud le plus proche d'une référence est retrouvé dans 90% des cas ce qui a également été mesuré par les auteurs de [KCTHK09]. Insérer 5 Honeypeers permet de réduire encore davantage le taux de requêtes manquées.

Figure 6.1 Consommation processeur relevée pour 360 sondes actives

Ce chapitre présente tout d'abord le contexte de la collecte de données puis leur analyse descriptive par l'interrogation de la base de données relationnelle associée.

6.1 Collecte des données

6.1.1 Environnement expérimental

Dans le document Supervision des réseaux pair à pair structurés appliquée à la sécurité des contenus (Page 103-108)