R´eseaux de pair `a pair - Autour des graphes et du routage

La principale application des réseaux de pair à pair consiste à partager des fichiers : un utilisateur met en accès à la communauté ses propres fichiers, recherche par des mots clés d’autres fichiers, contacte ceux qui les possèdent pour les récupérer directement de pair à pair. On peut inclure cela dans la

probl´ematique du routage puisqu’il s’agit pour un nœud de contacter le nœud qui poss`ede tel ou tel fichier.

Les réseaux de pair à pair (« peer to peer » en anglais) reposent généra-lement sur l’élaboration d’un réseau virtuel (« overlay network ») au-dessus d’Internet. Tout nœud pouvant se connecter à tout autre, il n’y a pas a priori de contrainte sur le graphe de connexion du réseau virtuel. Les restrictions viennent de la taille et du dynamisme du réseau. En effet, on imagine aisément plusieurs millions de nœuds former un réseau de pair à pair avec sans cesse l’arrivée de nouveaux nœuds et le départ d’autres. Il devient donc impensable que chaque nœud connaisse tous les autres. Les pairs doivent s’organiser pour former une structure dynamique efficace les connectant entre eux. Il existe en gros deux approches pour cela : construire un graphe aléatoire et reposer sur des explorations aléatoires du réseau, ou bien construire un graphe structuré dans lequel on sait router efficacement.

Graphes al´eatoires

L’utilisation de graphes aléatoires permet de gérer efficacement le pro-blème de la volatilité des nœuds et sont souvent adaptés à la diffusion de messages ou de données.

Le réseau Gnutella construit le réseau selon un processus d’exploration aléatoire du réseau : un nouvel arrivant parcours le réseau jusqu’à trouver des pairs qui acceptent de se connecter avec lui. Le protocole distingue deux niveaux de pairs : les « super-pairs » se connectent entre eux et assurent la connectivité du réseau, les « simples-pairs » doivent trouver un super-pair qui accepte de les prendre en charge. Les super-pairs sont en charge de la diffusion des requêtes dans le réseau. (Certaines techniques de Gnutella, décrites au paragraphe 5.3, donnent plus de détails sur ce réseau.) Les figures 2.9, 2.10, 2.11, 2.12, 2.13 et 2.14 issues du réseau Gnutella illustrent cette topologie à deux niveaux.

Ces figures sont réalisées à partir d’un crawl du réseau Gnutella v0.6 da-tant de fin 2003 [9] . Le crawl a duré une semaine pendant laquelle un robot a pu se connecter à 20 000 clients du réseau Gnutella v0.6. Chaque client fournissant la liste des pairs auxquels il est connecté, le crawl se présente sous la forme d’un graphe d’environ 100 000 sommets. Les images ci-dessous sont générées en effectuant une marche aléatoire sur un nombre variable de sommets du crawl et en intégrant le voisinage des sommets visités. Ce proces-sus reproduit ainsi une exploration restreinte du réseau tel que photographié

24 CHAPITRE 2. MOD ´ELISATION

Fig. 2.9 – Une exploration de 30 nœuds du r´eseau Gnutella

dans notre crawl. Les dessins sont réalisés avec Graphviz. En augmentant peu à peu le nombre de sommets explorés (30, 40, 50, 100, 250, 400) on peut ima-giner à quoi pourrait ressembler un dessin de la totalité du crawl (Graphviz devient inutilisable pour une exploration de plus de 1000 sommets).

Le protocole BitTorrent utilise un « tracker » pour mettre en relation les pairs intéressés par le téléchargement d’un fichier. Celui-ci fournit régulière-ment à chaque pair une liste plus ou moins aléatoire de quelques dizaines de pairs. Le graphe construit sert alors à diffuser le fichier. Le protocole BitTor-rent est décrit plus en détails au paragraphe 3.4.

Graphes structur´es

Un domaine très actif ces dernières années concerne les tables de hachages distribuées. L’idée est de relier les pairs selon un réseau logique structuré, comme un hypercube ou un graphe de Bruijn par exemple, de manière à pouvoir utiliser des techniques de routage efficaces plutôt que des diffusions. Toute la difficulté consiste alors à maintenir un graphe proche d’une structure très irrégulière idéale malgré la volatilité des nœuds.

Fig. 2.10 – Une exploration de 40 nœuds du r´eseau Gnutella

26 CHAPITRE 2. MOD ´ELISATION

Fig. 2.12 – Une exploration de 100 nœuds du r´eseau Gnutella

Fig. 2.14 – Une exploration de 400 nœuds du r´eseau Gnutella

Les tables de hachage distribuées se concentrent sur le problème de trou-ver un fichier lorsqu’on connaˆıt son identifiant. L’idée est de construire une table distribuée dont les clés sont à la fois des identifiants de fichiers ou de nœuds. (En plus de son adresse IP, chaque nœud possède un identifiant.) Pour éviter les collisions, les clés sont généralement assez longues (128 ou 160 bits). Ainsi pour permettre de retrouver un fichier, le nœud qui le pos-sède stocke dans la table une association de clé l’identifiant du fichier et de valeur sa propre adresse IP. Ainsi un nœud qui recherche le fichier retrouve cette association (connaissant l’identifiant du fichier) pour obtenir l’adresse IP d’un nœud qui a le fichier. Toute la difficulté consiste à répartir équita-blement les associations sur tous les nœuds de sorte qu’il soit possible de retrouver le ou les nœuds qui sont en charge d’une clé donnée.

Les solutions existantes consistent à stocker une association sur le ou les nœuds dont l’identifiant est le plus proche de la clé pour une certaine mé-trique. D’autre part, les nœuds s’organisent en un réseau logique de sorte qu’il soit facile et rapide de trouver de proche en proche le nœud dont l’iden-tifiant est le plus proche d’une clé donnée. Le problème ressemble alors à celui des machines parallèles dans lesquelles il faut relier entre eux des

pro-28 CHAPITRE 2. MOD ´ELISATION

Fig.2.15 – La couleur des nœuds dans les figures précédentes représente leur

adresse IP selon la table ci-dessus. Le rond en colonne a et en ligne b indique la couleur des adresses dont le premier octet est entre 10a et 10a + 9 et le deuxi`eme entre 10b et 10b + 9. La taille des ronds indique le logarithme du nombre de nœuds rencontr´es dans le crawl dont l’adresse IP tombe dans la plage correspondante.

cesseurs avec un nombre de câbles limité et un diamètre en nombre de sauts11

faible. De plus, le pair à pair nécessite de s’adapter à une nature fortement

dynamique o`u des nœuds partent et d’autres arrivent sans cesse. Ainsi tous

les travaux qui ont été faits autour des machines parallèles ont étés revisités

Le nombre de sauts en r´eseau d´esigne la longueur d’une route, en nombre de liens

généralement. (Dans le paquet acheminé jusqu’à la destination, un champs incrémenté

dans ce cadre en adaptant les topologies classiques du tore, de l’hypercube, du papillon ou encore du graphe de Brujin `a ce contexte dynamique. Le paragraphe 5.4 fournit quelques algorithmes de routage dans ce contexte.

Dans le document Autour des graphes et du routage (Page 27-34)