S ECTION 2 L E PAIR À PAIR , UN MODÈLE DE RÉSEAU INFORMATIQUE AUX USAGES MULTIPLES

LES I NTERNET S TUDIES VERS UNE INTÉGRATION DES STS !

S ECTION 2 L E PAIR À PAIR , UN MODÈLE DE RÉSEAU INFORMATIQUE AUX USAGES MULTIPLES

Si la discussion précédente autour de la littérature sur l’innovation a pu de temps en temps ramener l’attention du lecteur à l’objet plus spécifique de cette thèse, l’application d’un modèle décentralisé ou P2P aux services Internet, le moment est venu dans cette deuxième partie d’en faire le centre de mes propos. Cette section introduit une série de travaux centrés sur le P2P comme modèle de réseau informatique sous-jacent à des systèmes complexes. Il s’agit en premier lieu de travaux en sciences informatiques sur les réseaux distribués, parfois mobilisés par les acteurs eux-mêmes ; j’aborderai ensuite des travaux à vocation juridique qui visent à préciser et explorer les questions de sécurité et de privacy de l’information « en réseau »42. En essayant de montrer comment ces travaux ouvrent la voie à un traitement du P2P « alternatif » comme objet d’étude interdisciplinaire par excellence, mon but est de contribuer à éclairer le dense substrat technique qui est la nécessaire précondition de mes analyses, tout en montrant clairement que le P2P ne peut pas se résumer à ce seul substrat technique.

Je vais par ailleurs laisser délibérément de côté – en cohérence avec ma démarche qui souhaite agrandir la focale rivée sur le P2P comme outil de partage de fichiers – le vaste débat existant en littérature sur les batailles économiques et juridiques qui, à commencer par les « Napster wars » (Marshall, 2002), ont pris pour objet les pratiques et logiciels de partage de fichiers couverts par le droit d’auteur. Il en sera de même, sauf exceptions, pour le vaste ensemble de recherches, débats, controverses, chiffres et rapports décortiquant, dans une perspective d’économie des échanges P2P43, la « défaite » de l’industrie des contenus numériques face à la décennie de partage non autorisé de fichiers musicaux à laquelle le P2P aurait ouvert la porte, ainsi que les fondements des arguments qui établissent des relations de causalité immédiate entre le partage en ligne et les chutes dans les ventes de disques. Enfin, en accord avec une autre facette de ma démarche, je ne m’attarderai pas sur un ensemble de travaux que l’on pourrait qualifier de « sociologie des usages décentralisés en ligne ». Les auteurs de ces travaux s’intéressent aux nouvelles formes de coopération en ligne (Aguitton & Cardon, 2007), aux réseaux sociaux numériques (Boyd, 2004 ; Cardon, 2008), ou encore aux communautés en ligne (Gensollen, 2009 ; Auray, 2012) dans des contextes fort intéressants et novateurs, mais qui – hormis certains cas spécifiques qui intègrent

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

42_{Je trace un portrait schématique de la co-évolution des « générations » de réseaux P2P, des}

poursuites judiciaires dont ils ont fait l’objet, et des technologies de surveillance qui ont essayé de les contrer dans [Musiani, 2011].

43_{Maya Bacache-Beauvallet et Pauline Meinzel en font une excellente synthèse dans un document de}

travail présenté en janvier 2012 à un séminaire du projet ADAM (Bacache-Beauvallet & Meinzel, 2012). Elles y concluent notamment que, parmi les études centrés sur le partage de fichiers qui dominent actuellement le secteur, commencent à se frayer un chemin des éléments d’analyse tels que la réputation, la confiance et les types de relations établis entre les pairs. Cela permet (et surtout, permettra) d’appréhender le P2P en économie en faisant le lien avec des notions de grand intérêt pour la problématique de cette thèse, comme l’asymétrie de l’information et l’incertitude de la présence des ressources.

$I!

une réflexion explicite sur les formes de la solidarité technique sous-jacente au P2P (Beuscart, 2002 ; Dauphin & Dagiral, 2005) – ne se concentrent pas, contrairement à ce qui est mon intention, sur le lien entre les façons dont les applications prennent forme, notamment les évolutions de leur architecture technique, et leurs possibles influences sur la circulation des contenus, les droits ou les relations sociales.

Depuis dix ans, le P2P est devenu l’un des termes les plus largement discutés dans le domaine des technologies de l’information et de la communication (Schoder & Fischbach, 2003 ; Shirky et al., 2001). Il repose sur l’hypothèse que, dans un réseau d’égaux ou de pairs, à l’aide de systèmes de communication et d’échange appropriés, deux ou plusieurs individus sont en mesure de collaborer spontanément, sans nécessairement avoir besoin de coordination centrale (Schoder & Fischbach, 2003 ; Schollmeier, 2001). Après avoir présenté les principes caractéristiques des réseaux P2P, je proposerai un cadrage de leurs usages, ainsi qu’ils sont exposés dans nombre de travaux en sciences informatiques, à l’aide d’un modèle à trois niveaux ou « couches » (layers) basé sur deux contributions récentes (Oram, 2001 ; Schoder, Fischbach & Schmitt, 2005). Je souhaite mettre ainsi en lumière les dynamiques et caractéristiques, spécifiques à ces réseaux par rapport au modèle client/serveur, sur lesquelles travaillent les développeurs interviewés au cours de cette thèse. Sont en jeu la possibilité d’un passage à l’échelle plus souple, la coordination auto-organisée et décentralisée de ressources précédemment sous-utilisées ou limitées, la tolérance aux pannes/redondance, le renforcement de réseaux ad-hoc ; ainsi que les possibilités d’organisation et d’inclusion des utilisateurs qui peuvent plus difficilement être mis en œuvre en utilisant les approches client/serveur « traditionnels ».

PARTAGE, DÉCENTRALISATION, AUTONOMIE !

Le partage des ressources et des services distribué(e)s, la décentralisation et l’autonomie sont généralement reconnus dans la littérature comme les trois principes caractéristiques des réseaux P2P.!

En premier lieu, dans un réseau P2P chaque nœud peut fournir à la fois les fonctionnalités de client et de serveur, c’est-à-dire qu’il peut agir à la fois comme fournisseur et comme consommateur de services ou de ressources (comme peuvent être informations, photos, bande passante, capacité de stockage et capacité de calcul). Parfois, ces nœuds du réseau sont dénommés servents, mot composé dérivé des termes client et serveur. Deuxièmement, il n’y a pas d’autorité centrale de coordination pour l’organisation du réseau pendant sa phase de configuration ; une autorité n’est pas non plus présente dans l’utilisation successive des ressources et de la communication entre les pairs du réseau. Cela concerne, en particulier, le fait qu’aucun nœud n’exerce un contrôle central sur l’autre. À cet égard, la communication entre pairs se fait directement. !

Une distinction est souvent faite entre les réseaux P2P purs et ceux qui sont dits hybrides ; on verra plus tard comment ces derniers en viennent à être la seule

$%!

alternative viable pour l’utilisation d’un modèle P2P dans la pratique44. En raison du fait que tous les composants du réseau ont des droits égaux et des fonctions équivalentes, les réseaux P2P « purs » représentent l’idéal-type pour la conception d’un système P2P. Dans ces structures, il n’existe aucune entité qui a une vision globale du réseau (Barkai, 2001 ; Yang & Garcia-Molina, 2001). Dans les réseaux P2P hybrides, les fonctions sélectionnées, telles que l’indexation ou l’authentification, sont attribuées à un sous-ensemble de nœuds qui, par conséquent, assume le rôle d’une entité de coordination. Ce type d’architecture de réseau combine les principes du P2P et du client/serveur (Minar, 2001 & 2002). En troisième lieu, chaque nœud dans un réseau P2P peut déterminer de façon autonome quand et dans quelle mesure il met ses ressources à la disposition d’autres entités.!

Sur la base de ces trois principes ou caractéristiques, le P2P, loin d’être un développement récent qui aurait commencé avec Napster, peut être considéré comme une des plus anciennes architectures dans le monde des télécommunications (Oram, 2001). En ce sens, Usenet, avec ses groupes de discussion, et l’Internet à ses débuts, ou ARPANET, peuvent être classés en tant que réseaux P2P. En conséquence, il y a des auteurs qui soutiennent que le P2P est en train de ramener l’Internet à ses origines, à l’époque où chaque ordinateur avait des droits égaux dans le réseau (Minar & Hedlund, 2001). La baisse des coûts d’un côté, et la disponibilité croissante de l’autre de la capacité de calcul (ou « cycle processeur »), de la bande passante, de la capacité de stockage, le tout accompagné par la croissance de l’Internet, ont créé de nouveaux champs d’application pour les réseaux P2P. Dans un passé récent, ceci a entraîné une augmentation spectaculaire du nombre d’applications P2P, et des discussions controversées concernant les limites et les performances, ainsi que les implications économiques, sociales et juridiques de ces applications (Schoder, Fischbach & Teichmann, 2002 ; Smith, Clippinger & Konsynski, 2003).

QUESTIONS DE « COUCHES », QUESTIONS DE TERMINOLOGIE !

De quoi parle-t-on quand on parle de P2P, ou plus précisément, de quel P2P parle-t-on selon les cas ? En m’appuyant sur deux contributions (Oram, 2001 ; Schoder, Fischbach & Schmitt, 2005) récentes, je propose ici un modèle à trois niveaux ou « couches », se composant de infrastructures P2P, applications P2P, et communautés/collectifs P2P (Tableau 1), qui peut aider à éclairer la terminologie à l’œuvre dans la littérature en sciences informatiques dans la théorie et la pratique du P2P.

Le premier niveau concerne les infrastructures P2P. Celles-ci sont positionnées au- dessus des réseaux de télécommunications existants, et agissent comme une base pour tous les niveaux. Les infrastructures P2P assurent les fonctions de communication, intégration et traduction entre les composants du réseau. Ils fournissent à chacun d’entre eux des services qui permettent de localiser et de communiquer avec leurs

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

$&!

pairs dans le réseau et d’identifier, utiliser et échanger des ressources, ainsi que de lancer des processus de sécurité comme l’authentification et l’autorisation. Le deuxième niveau concerne les applications P2P, qui utilisent les services des infrastructures P2P. Elles visent à permettre la communication et la collaboration des entités en absence de contrôle/supervision central/e. Le troisième niveau se concentre sur les phénomènes d’interaction sociale, en particulier, la formation de communautés/collectifs et leurs dynamiques internes. Plusieurs auteurs notent comment le terme peer (pair) se réfère pour les premiers deux niveaux essentiellement à des entités techniques, tandis que pour le troisième niveau il est interprété dans un sens non technique : le pair est alors une personne (voir notamment Schoder, Fischbach & Schmitt, 2005).

Communautés P2P

Communautés virtuelles qui se servent de plateformes d’interaction pour favoriser des activités de communication et collaboration entre

personnes

Applications P2P

Programmes qui utilisent les services des infrastructures P2P, visant à permettre la communication et la collaboration des entités en absence

de contrôle central

Infrastructures P2P

Mécanismes et techniques qui assurent les fonctions de communication, intégration et traduction entre les composants

informatiques (les applications en particulier) !

Tableau 1. Modèle à trois niveaux précisant la terminologie relative au P2P. D’après [Schoder, Fischbach & Schmitt, 2005] et [Oram, 2001].

INFRASTRUCTURES P2P !

Le terme d’ « infrastructures P2P » se réfère aux mécanismes et techniques qui assurent les fonctions de communication, intégration et traduction entre les composants informatiques en général, et les applications, en particulier. La fonction principale est la fourniture de l’interopérabilité, dans le but d’établir une infrastructure P2P intégrée et puissante. Cette infrastructure agit comme une plateforme de service P2P, avec des interfaces de programmation et des logiciels d’intermédiation standardisés, qui, en principe, peut être utilisée par n’importe quelle application (Schoder & Fischbach, 2003 ; Shirky et al., 2001 ; Smith et al., 2003).!

Par rapport aux services que l’infrastructure P2P rend disponible pour les applications, la sécurité est devenue particulièrement importante (Barkai, 2001). Les améliorations

$'!

de la sécurité sont actuellement considérées comme le principal défi que doit être résolu pour que les réseaux P2P deviennent intéressants pour des usages « monétisables ». L’utilisation partagée des ressources a souvent lieu entre pairs qui ne se connaissent pas et, par conséquent, ne se font pas nécessairement mutuellement confiance. Dans de nombreux cas, l’utilisation d’applications P2P implique de donner à des tiers l’accès aux ressources d’un système interne, par exemple, afin de partager des fichiers ou des cycles processeur. L’ouverture d’un système d’information afin d’accorder l’accès à des tiers, ou de leur permettre de communiquer, peut avoir des effets secondaires critiques, qui impliquent fréquemment que des mécanismes de sécurité classiques, tels que les logiciels pare-feu, soient contournés. Un autre exemple est la communication via le logiciel de messagerie instantanée. Dans ce cas, la communication a souvent lieu sans l’utilisation de techniques de chiffrement ou d’encryptage, ce qui met en péril la confidentialité et la sécurité des échanges. Les principaux défis concernant les infrastructures P2P résident donc à cette heure dans le développement de techniques et méthodes d’authentification, autorisation, vérification de la disponibilité, intégrité et confidentialité des données (Bursell, 2005).!

APPLICATIONS P2P !

Dans la littérature des premières années 2000, les applications P2P sont souvent classées selon les catégories de messagerie instantanée, partage de fichiers, grilles informatiques et collaboration (Schoder et Fischbach, 2003 ; Shirky et al., 2001). Cette forme de classification a nécessité des modifications au fil du temps, car elle ne parvient plus à établir des distinctions claires – en particulier parce que aujourd’hui, dans de nombreux cas, ces catégories ont fusionné et sont intégrées. Les applications P2P sont par ailleurs plus clairement distinguées selon l’aspect des ressources qui y sont distribuées, communiquées ou partagées ; aspect qui mieux se prête à apporter une compréhension des principes de base des réseaux P2P et de la façon dont ils fonctionnent (Taylor & Harrison, 2009). Les pages suivantes donnent donc une vue d’ensemble des approches possibles à la coordination de différents types de ressources dans les réseaux P2P. Ces ressources peuvent être de l’information, des fichiers, de la bande passante, des capacités de stockage ou de calcul.!

Partage de fichiers, la technique à la base d’un usage controversé!

Si le modèle de téléchargement de contenus numériques en streaming à partir de sites Web s’est imposé dans les années les plus récentes comme un concurrent sérieux du partage de fichiers en P2P45, celui-ci demeure probablement l’application la plus répandue de ce modèle. Jusqu’à 70% du trafic réseau sur l’Internet a être attribué à l’échange de fichiers dans un passé récent, notamment de fichiers musicaux : dans

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

45_{La mesure, la quantification et la modélisation de cette évolution sont par ailleurs problématiques,}

du fait que de plus en plus de réseaux P2P « cachent » intentionnellement leur trafic (Karagiannis et al., 2004 ; Musiani, 2011).

I9!

l’immédiat après-Napster, on estimait qu’il y avait plus d’un milliard de téléchargements de fichiers musicaux effectués chaque semaine (Stump, 2002). Il est caractéristique du partage de fichiers que les pairs qui ont téléchargé les fichiers dans le rôle de client les rendent par la suite accessibles à d’autres pairs, adoptant le rôle de serveur. Un problème central pour les réseaux P2P en général, et pour le partage de fichiers en particulier, est la localisation des ressources (lookup problem : Balakrishnan et al., 2003). Dans le contexte des systèmes de partage de fichiers, trois algorithmes différents ont été mis au point: le modèle flooded request, le modèle de dossier centralisé, et le modèle de routage (document routing : Milojicic et al., 2002). La meilleure façon d’illustrer ces trois modèles est d’utiliser en tant qu’exemples les applications qui ont constitué leurs principales implémentations au fil du temps : Gnutella, Napster, et Freenet.!

Les réseaux P2P qui sont basés sur le protocole Gnutella fonctionnent sans autorité centrale de coordination. Tous les pairs ont des droits égaux au sein du réseau. Les demandes de recherche d’un fichier particulier sont acheminées par le réseau selon le modèle flooded request, ce qui signifie qu’une requête est transmise à un nombre prédéterminé de pairs. Si ceux-ci ne peuvent pas répondre à la demande, ils la transmettent à d’autres nœuds jusqu’à ce que un niveau de « profondeur » de recherche établi a priori ait été atteint, ou que le fichier demandé ait été localisé. Les résultats de recherche positifs sont ensuite envoyés à l’entité qui demande la ressource, qui peut alors télécharger le fichier souhaité directement à partir de l’entité qui est en train de l’offrir. Le protocole FastTrack, fonctionnant sur ce principe, est à la base d’usages très répandus : ce protocole optimise les requêtes par le biais d’une combinaison de super-nœuds centraux, qui forment un réseau décentralisé similaire à Gnutella. !

À cause de son modèle sous-jacent, qui inclut un répertoire centralisé, le début de Napster (1999, 2000) peut être considéré comme un exemple presque parfait d’un système P2P hybride, dans lequel une partie de la fonctionnalité de l’infrastructure, dans ce cas le service d’indexation, est fournie de manière centralisée par une entité de coordination. Au moment même où un pair se connectait au réseau Napster, les fichiers dont il disposait étaient enregistrés par le serveur de l’application. Lorsqu’une requête était établie, le serveur de Napster fournissait une liste de pairs rendant le fichier disponible au téléchargement. L’utilisateur pouvait alors obtenir les fichiers directement par les pairs qui les offraient.!

La recherche et le stockage de fichiers au sein du réseau Freenet (Clarke, 2003 ; Clarke et al., 2002) a lieu via le modèle de routage (Milojicic et al., 2002). Une différence significative par rapport aux modèles qui ont été introduits jusqu’à présent est que les fichiers ne sont pas stockés sur le disque dur des pairs qui les fournissent, mais sont intentionnellement conservés à d’autres endroits dans le réseau. Cela s’explique par le fait que Freenet a été développé dans le but de créer un réseau dans lequel des informations peuvent être stockées et accessibles de manière anonyme. Entre autres choses, cela exige que le propriétaire d’un nœud de réseau ne sache pas quels documents sont stockés sur son disque dur local. Pour cette raison, les fichiers et les pairs se voient attribués par le système des numéros d’identification uniques. Quand un fichier est créé, il est transmis, via les pairs voisins, au pair doté du numéro

IN!

d’identification le plus proche numériquement du numéro d’identification du fichier, et y est stocké. Les pairs qui participent à la transmission du fichier sauvegardent le numéro d’identification du fichier et notent aussi le pair voisin auquel ils l’ont transféré, dans une « table de routage » à utiliser pour des requêtes ultérieures. !

La recherche de fichiers a lieu en transmettant les interrogations de recherche sur la base des informations contenues dans les tables de routage des pairs individuels. Différemment des réseaux de recherche qui fonctionnent selon le modèle flooded

request, quand un fichier demandé est localisé dans le système, il est renvoyé au pair

qui en fait la demande par le même chemin. Dans certaines applications, chaque nœud sur cette route stocke aussi une copie/réplique du fichier afin d’être en mesure de traiter plus rapidement les requêtes de recherche à venir. Dans ce processus, les pairs stockent des fichiers seulement jusqu’à une capacité maximale. Lorsque leur stockage est épuisé, les fichiers sont supprimés selon le principe du « moins récemment utilisé ». Il en résulte une présence progressivement et proportionnellement plus élevée de copies des fichiers plus populaires dans le réseau, alors que, au fil du temps, les fichiers qui sont demandés moins souvent sont supprimés (Milojicic et al., 2002). ! Plusieurs études ont reconnu le modèle de routage comme adapté pour être utilisé dans des larges communautés. Le processus de recherche, cependant, est plus complexe que, par exemple, dans le modèle flooded request. En outre, il peut déterminer la formation d’ « îles » – c’est-à-dire, un cloisonnement du réseau, dans lequel les différentes communautés ne sont plus connectées à l’ensemble du réseau (Clarke et al., 2002 ; Langley, 2001).

Echange et utilisation partagée d’information!

Les réseaux P2P sont aussi déployés pour l’échange et l’utilisation partagée d’informations de présence (presence information), l’indicateur d’état qui exprime la capacité et la volonté de communiquer par les partenaires potentiels de ladite communication, ou encore pour la gestion documentaire, et pour la collaboration.! Les informations de présence jouent un rôle très important dans les applications P2P. Elles sont décisives dans l’auto-organisation des réseaux P2P, car elles fournissent des informations sur les pairs et les ressources disponibles dans le réseau. Elles permettent aux pairs d’établir un contact direct avec les autres pairs et d’en savoir davantage sur les ressources qu’ils rendent disponibles. Un exemple largement diffusé des applications P2P qui utilise les informations de présence est constitué par les systèmes

Dans le document Nains sans géants : architecture décentralisée et services Internet (Page 56-80)