Les r´ eseaux pair-` a-pair - CARACT´ ERISATION DES R´ ESEAUX TCP/IP ET DES APPROCHES

CHAPITRE 2 CARACT´ ERISATION DES R´ ESEAUX TCP/IP ET DES APPROCHES

2.5 Les r´ eseaux pair-` a-pair

Les réseaux pair-à-pair se sont développés en même temps que la démocratisation de l’Internet dans le courant des années 1990. De par leur aspect distribué qui rend leur opti- misation complexe, ils ont été sans cesse améliorés au cours des années et se retrouvent dans de nombreuses applications très hétérogènes.

2.5.1 L’évolution des réseaux pair-à-pair

La première génération de protocoles pair-à-pair populaires concernant l’échange de fichiers a démarré avec l’arrivée de Napster (Carlsson et Gustavsson (2001)) en 1999 développé par Shawn Fanning et Sean Parker afin de faciliter en particulier l’échange de fichiers musi- caux. Le protocole était basé sur un serveur indexant tous les nœuds du réseau et enregistrant ´

egalement les fichiers ou morceaux de fichiers mis à disposition par chacun d’entre eux que l’on appelait tracker. Lorsqu’un nœud désirait obtenir une ressource, il faisait une requête à ce serveur qui lui indiquait les nœuds la possédant et étant disponibles pour la lui envoyer.

La vaste majorité des fichiers partagés étant des fichiers sous droit d’auteur échangés sans aucune considération légale, la justice américaine condamna Napster en 2001 suite à une plainte de la RIAA (Recording Industry Association of America). Napster obéit à l’injonc- tion de déconnecter son tracker, point central du réseau, ce qui entraˆına sa mort immédiate.

C’est suite à cette expérience de déboires judiciaires, et au delà de l’aspect réseautique visant à optimiser les protocoles et l’usage du réseau, que les protocoles suivants ont cherché `

a éviter au maximum toute centralisation dans leur implémentation en particulier concernant le problème d’indexation. L’idée principale des protocoles de deuxième génération est donc de décentraliser au maximum la base de données d’indexation et de la répartir ou de la dupliquer sur le plus de nœuds possible tout en gardant un réseau efficace et efficient.

C’est ainsi que GNutella a vu le jour et est devenu très populaire. Dans un premier temps, et jusqu’à la version 0.6, le protocole reprend l’idée d’un serveur centralisateur mais redon- dant. Le nouveau nœud souhaitant se connecter au réseau se connecte à l’un des ces serveurs dont on lui a fourni l’adresse, pour récupérer la liste de tous les autres serveurs. Ces serveurs sont réputés être connectés en permanence. Si un serveur venait à ne plus répondre, les clients effectueraient leur requête à l’un des autres serveurs. Il existait également un mécanisme de synchronisation entre ces différents serveurs pour disposer de la même information. Par la suite, le protocole s’est amélioré en permettant de sélectionner ces serveurs de manière dyna- mique parmi les nœuds faisant partie du réseau. Ces nœuds sont connus sous le vocable de supernœud et sont choisis en fonction de leur capacité de connexion (débit, gigue, latence) et du la durée de connexion au réseau. Fastrack reprendra ce principe en gardant la hiérarchie des différents pairs et il sera utilisé par des logiciels qui ont été très populaires comme KaZaA entre autre.

Dans la même période, courant 2001, Bram Cohen, ingénieur informatique, crée ce qui est encore aujourd’hui le protocole pair-à-pair le plus populaire : Bittorent. Ce nouveau protocole apporte une avancée majeure comparé à ces prédécesseurs. Le transfert de fichiers, après recherche de nœuds possédant la ressource désirée, ne se fait plus avec un seul pair mais avec plusieurs. Chaque fichier partagé est donc divisé préalablement en plusieurs morceaux appelés chunk et pouvant être téléchargés de différentes sources de manière indépendante alors que jusqu’ici cela se faisait en un seul et unique bloc. Il en résulte ainsi, une bien meilleure utilisation de la bande passante disponible du réseau pair-à-pair, puisqu’un pair peut rapatrier dorénavant plusieurs morceaux d’un même fichier provenant de plusieurs pairs en même temps, ce qui est particulièrement efficace sur des connexions Internet asymétriques comme

l’ADSL où la bande passante montante est bien inférieure à la bande passante descendante des différents nœuds. De plus, il est dorénavant possible de partager une partie d’un fichier alors même que la totalité du fichier n’a pas encore été téléchargée. Cela accélère donc de manière drastique les partages de nouveaux fichiers mis à disposition.

2.5.2 Réseaux pair-à-pair structurés et réseaux non-structurés

Les réseaux pair-à-pair sont classés en deux grandes catégories : les réseaux dits non- structurés et les réseaux structurés.

Les premiers réseaux pair-à-pair étaient historiquement non-structurés. Lorsqu’un nœud souhaitait trouver un autre nœud possédant une ressource voulue, celui-ci n’avait aucune idée des nœuds présents sur le réseau possédant potentiellement le contenu. La recherche se faisait principalement au début par inondation pure du réseau. Le nœud demandait ainsi `

a ses voisins, c’est-à-dire les autres nœuds du réseau dont il connaissait l’existence, s’ils possédaient la ressource désirée. Si la réponse était négative, ces voisins demandaient alors à leurs voisins qui tentaient à leur tour de satisfaire la requête, et ainsi de suite. Potentiellement, si la ressource recherchée n’était pas présente sur le réseau, l’ensemble des pairs aurait re¸cu une demande la concernant. L’efficience d’algorithmes de ce type, appelés uninformed BFS (Chen et al. (2007)), était très mauvaise et d’autres algorithmes meilleurs ont par la suite été proposés, comme le protocole k-Random Walk par exemple. (Lv et al. (2002))

Les algorithmes de routage sur les réseaux non-structurés ne sont malheureusement pas très efficaces, puisque les pairs pris individuellement n’ont aucune idée, même approximative, de l’endroit où peuvent se trouver les ressources désirées. A contrario, les réseaux structurés permettent de connaˆıtre un sous échantillon de pairs d’avantage susceptibles de posséder la ressource. La contrepartie est de devoir imposer des contraintes structurelles plus élevées au réseau.

Ce type de réseau fonctionne la plupart du temps avec un mécanisme de réseau superposé (overlay network ) où les machines faisant partie du réseau pair-à-pair fonctionnent sur un réseau virtuel logique avec un nouvel adressage qui lui est propre. Ce réseau fonctionne sur le réseau existant, comme Internet par exemple, d’où le nom de ”superposé”. La plupart des implémentations et des algorithmes utilisés dans les réseaux structurés fonctionnent avec un système de tables de hachage distribuées (Distributed hash table ou plus connues sous l’acronyme DHT ).

2.5.3 Les tables de hachage distribu´ees

Face au désir de décentraliser la base de données chargée de référencer la localisation et la disponibilité des fichiers sur le réseau, les concepteurs de protocoles pair-à-pair ont proposé un système de répartition de cette base appelée DHT pour tables de hachage distribuées. Chaque fichier ou morceau de fichier se voit associé un hash par le biais d’un fonction de hachage comme md5, sha-1 ou sha-256. En pratique, chaque hash associé est réputé suffisamment unique, c’est à dire que la probabilité d’avoir un hash identique entre deux valeurs différentes est très faible. Les valeurs sont ensuite enregistrées sous la forme d’un couple <clef,valeur> et stockées dans un ordre qui dépend du hash de la clef. La figure 2.4 donne un exemple d’une table de hachage où, à partir d’un nom utilisé comme clef, on réussit à trouver le numéro de téléphone associé grâce au hash calculé à partir de la clef (le nom ici), ces derniers étant classés selon leur hash.

FIGURE 2.4 Exemple de tables de hachage.

Une table DHT reprend donc la notion de table de hachage mais en la distribuant sur plusieurs nœuds. Ainsi, cette dernière se retrouve morcelée sur plusieurs nœuds qui ne possèdent qu’une partie de la table de hachage. Bien évidemment, chaque nœud pouvant se déconnecter `

a n’importe quel moment, la table de hachage est distribuée de manière redondante. Ce type de réseau pair-à-pair a nécessairement besoin de s’appuyer sur un réseau structuré comme vu précédemment pour joindre facilement et efficacement des nœuds ayant la partie de la table de hachage désirée par le demandeur. De multiples protocoles d’indexation utilisant les DHT ont été proposés et implémentés dans des logiciels pair-à-pair comme CAN, Chord, Pastry ou Tapestry (Stoica et al. (2001)). Aujourd’hui, le protocole le plus populaire et que l’on retrouve dans les implémentations récentes notamment de Bittorent se nomme Kademlia.

Dans le document Modélisation d'une application de décentralisation de serveurs web (Page 33-37)