• Aucun résultat trouvé

Métrologie dans les réseaux Peer-To-Peer

N/A
N/A
Protected

Academic year: 2021

Partager "Métrologie dans les réseaux Peer-To-Peer"

Copied!
138
0
0

Texte intégral

(1)

HAL Id: tel-00803195

https://tel.archives-ouvertes.fr/tel-00803195

Submitted on 21 Mar 2013

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

Oualid Saddi

To cite this version:

Oualid Saddi. Métrologie dans les réseaux Peer-To-Peer. Réseaux et télécommunications [cs.NI].

Université Pierre et Marie Curie - Paris VI, 2007. Français. �NNT : 2007PA066259�. �tel-00803195�

(2)

La m´

etrologie dans les r´

eseaux p2p

TH`

ESE

pr´esent´ee et soutenue publiquement le 12 octobre 2007

pour obtenir le titre de

Docteur de l’Universit´

e Pierre et Marie Curie - Paris VI

(sp´

ecialit´

e informatique et t´

el´

ecommunications)

par

Oualid Saddi

Composition du jury

Rapporteurs :

Catherine Rosenberg (University of Waterloo, Canada).

Philippe Owezarski (LAAS-CNRS, France).

Examinateurs :

Kav´e Salamatian (LIP6, France).

Patrice Abry (ENS Lyon, France)

Directeurs :

Serge Fdida (LIP6, France).

(3)
(4)

Je tiens à remer ier, en toutpremier lieu,Monsieur SergeFdida,professeur à l'université

Pierre et Marie Curie, et Monsieur Fabri e Guillemin, ingénieur re her he et développement

à Fran e Tele om, qui ont dirigé ette thèse. Mer i à Monsieur Fabri e Guillemin qui a su

orientermes re her hes auxbonsmoments grâ eà ses ompéten ess ientiques.Je voudrais

aussi le remer ier pour sa rigueur et sa patien e qui ont énormément fa iliter ma tâ he et

m'ont permis d'aboutirà laprodu tion de ette thèse.Mer i àlui, ainsiqu'à MonsieurSerge

Fdida, pour leurs pré ieux onseils.

Je remer ie tousparti ulièrement MadameCatherine Rosenberg, professeurà l'université

de Waterloo,ainsiqueMonsieurPhilippe Owezarski, hargédere her hesauLAAS-CNRS à

Toulouse, qui ont a epté de juger e travailet d'en êtreles rapporteurs.

Je tiens également à remer ier Monsieur Patri e Abry, dire teur de re her he au CNRS,

et Monsieur Kavé Salamatian, maitre de onféren e à l'université de Pierre et Marie Curie,

d'avoir a epté de parti iper au juryde ette thèse.

Je remer ie Mr Christian Guillemot, responsable du laboratoire "Core Pa ket Networks

for NGN &IMS"à Fran eTele omR&D,pour m'avoir a ueilliau seinde ette institution.

Mesplussin ères remer iements vont également à MonsieurJeanPhilippe LeBrenn,

res-ponsable de l'unite de re her he et développement "Tra and Networks Se urity" à Fran e

Télé om R&D, qui m'a haleureusement a ueilli dans son équipe. Ses onseils et ses

om-mentaires ontété fortutiles.

Je remer ie tous eux sansqui ette thèse ne serait pas e qu'elle est : aussibien par les

dis ussionsquej'aieu la han ed'avoirave eux,leurs suggestionsou ontributions. Jepense

i i en parti ulier à Monsieur Fabri e Clérot et MonsieurMar Boullé membres de l'unité de

re her he et développement "Statistique et Traitement de l'Information" à Fran e Tele om

R&D,àMonsieurPhilippeRobert,membrede l'unitédere her heRAPàl'INRIA

Ro quen- ourt.

J'aimerais également exprimer leplaisir quej'ai eu àtravailler ave ma ollègue Madame

Stéphanie Moteau, jetiens aussià laremer ierpourlesoutienmoral qu'ellesm'afourni tout

aulongdelaréalisationde estravauxetpourlesmomentsagréablesquej'ai passésave elle

(mer i pour sarele turedesmesprodu tionsé rites,sans elle,monmanus ritaurait ontenu

ledouble de fautesd'Aurthografe).

Jeremer ie aussiprofondémentMonsieurJoelFrançoisetMonsieurThierryHoudoin, qui

m'ontfournilesdonnéesexpérimentalessurlesquellesestbaséeunegrandepartiedemathèse.

Je n'oublierai pas les aides permanentes reçues de Jean-Louis Baron, Catherine Blanquart,

André Castelli, Gérard Augoyat, Thierry Thalagrand pour résoudre les problèmes d'ordre

informatique. Mes plus vifs remer iements à Mme Françoise Douerin et Mme Sylvie Gillot,

se rétaire du laboratoire CORE/CPN à Fran e Tele om R&D, pour leur sympathie et leur

(5)

exprime ma profonde sympathie et leur souhaite beau oup de bien. Mes remer iement vont

aussiàmes ollègues del'URDFAMEave lesquels,j'aieudesdis ussionstrèsfru tueuseset

partagé les plaisirsdespauses afétrès instru tives.

Je souhaiteaussiremer iermesamis,en parti ulierMoez,Imène, SidMo,Yassine,Ramzi,

Narjess, Marie,Estelle,RiadhZ, Nadhem,Asma,Wassym,Liv,Zineb,Romak,Julie,

Alexan-dra, Daly, Mohammed, Riadh K, Walid,Sophie, Sana, Nassima, JeanLouis, Mounir (désolé

pour euxquine gurentpasdanslaliste,lenombre de pagesdansune thèseest

malheureu-sementlimité à3000 pages)don mer iàtousmesamistémoinsdemesjoies,demesfatigues,

de mes enthousiasmeset de mes hautset bas.

Pour nir("last but not least"), ma gratitudeest adressée à mamère Hayet, àmon frère

Ziad, àmas÷urDhouhaetàmonon leChedlydont lesen ouragementset lagénérositésont

inestimables. Mesplus haleureux remer iements vont àA htart, magrandesour e

(6)
(7)
(8)

Cettethèses'ins ritdansledomainedelamétrologiedutra Internet.Nousportonsdans

notre étude un intérêt parti ulier au tra peer-to-peer (p2p) et plus pré isément le tra

eDonkey, prin ipale omposante du tra dans les réseaux de Fran e Tele om. Nous avons

analyséles diérentesméthodesd'identi ation dutra p2pand'extraire etteimportante

omposante du tra . Après avoir obtenu une proportion de tra jugée représentative de

l'é hantillondelapopulationeDonkeyétudiée,nousavonsétudiéles ara téristiquesentermes

de tra de ette omposante p2p en utilisant entre autres la di hotomie souris/éléphant.

Outre les ara téristiques du tra , nous avons également analysé la topologie du réseau

eDonkey dansleréseau de Fran eTele omà l'é helle nationale et internationale. Un modèle

mathématique dé rivant lamanièreave laquelleleréseaueDonkeyse onstruitestégalement

présenté.

Abstra t

This thesis is a ontribution to the domain of Internet metrology. We study in this

do ument the hara teristi s of p2p tra and espe iallyeDonkey tra . eDonkey proto ol

givesriseto the prevalent partoftra in someEuropean ountries(Fran e, Germany,et .).

We have analyzed manyreal tra tra es fromhigh speed linksof Fran e Tele om networks

arrying ADSLtra .Inordertoanalyzethistype oftra ,severalp2p identi ation

meth-ods have been developed. By extra ting a representative part of eDonkey tra , we have

analyzed its hara teristi s using the mouse/elephant di hotomy. Furthermore, the topology

of the eDonkey ommunity in the Fran eTele omnetwork hasbeen investigated.Finally, to

(9)
(10)

Table des gures xi

Liste des tableaux xiii

Introdu tion générale

Chapitre 1

Les premièresobservationsdu tra

1.1 La ara térisationdesréseaux pairà pair . . . 6

1.1.1 Lesparamètres de ara térisation . . . 6

1.1.2 Lesmesures . . . 6

1.1.3 Constat surlesparamètres desréseauxp2p réels . . . 8

1.2 Lespremières observationssur unlien GigabitEthernet . . . 8

1.2.1 Une analyse desnumérosde port . . . 9

1.2.2 Analyse desadresses . . . 11

1.2.3 La di hotomieSouris/Eléphants. . . 13

1.3 Lespremières observationssur unlien OC3 . . . 14

1.3.1 Généralités . . . 14

1.3.2 Analyse desadresses . . . 15

1.3.3 Le tra d'un lient eDonkey . . . 16

1.4 Heuristiquespour l'identi ation dutra eDonkey . . . 27

1.4.1 Prin ipesthéoriques et réalitéde l'identi ation . . . 28

1.4.2 Étatde l'artdes méthodesd'identi ation du tra pairà pair . . . 28

1.4.3 Le tra non identié et potentiellement eDonkey surlelien GE . . . . 32

1.4.4 Identi ation dutra eDonkey potentiel surlelien OC3 . . . 35

1.4.5 Lespremiers paquetsauservi ede l'identi ation . . . 41

(11)

Chapitre 2

La topologie des réseaux pair à pair : du pair jusqu'au système autonome 47

2.1 Introdu tion . . . 48

2.2 La topologie desréseaux pairà pairdanslalittérature . . . 48

2.3 Cadre expérimentalet onventions . . . 49

2.4 Méthodes delo alisation géographique desadresses IP . . . 49

2.5 Les premièresobservations surlalo alisation . . . 50

2.6 La géolo alisationà l'é helle nationale . . . 53

2.6.1 Contexteexpérimental et dénitions . . . 53

2.6.2 Premières observations . . . 54

2.6.3 Comparaison entreles grandesdestinations . . . 58

2.6.4 La lo alisation géographique dutra dansleRBCI . . . 59

2.6.5 La symétrie desvolumes . . . 64

2.7 Stabilité temporellede lamatri e de tra . . . 64

2.8 Le tra dansleréseau detransit de Fran eTele om . . . 66

2.9 Con lusions et perspe tives . . . 73

Chapitre 3 La modélisation des réseaux p2p 75 3.1 Introdu tion . . . 76

3.2 État del'art delamodélisation desréseauxp2p . . . 76

3.2.1 Les lesd'attente au servi ede lamodélisation . . . 77

3.2.2 Les modèles uides . . . 79

3.2.3 Des équations pour lepair àpair . . . 83

3.2.4 Des équations pour desproblèmes analogues. . . 86

3.3 Un modèlepour laformation d'un réseaueDonkey . . . 88

3.3.1 L'expansion duréseau sansfreeriders . . . 88

3.3.2 L'expansion duréseau ave freeriders . . . 92

3.4 Con lusion. . . 95

Con lusion Générale 97

Annexe 101

Annexe A

(12)

A.1.2 Identi ateur lient . . . 102

A.1.3 Identi ateur Utilisateur . . . 102

A.1.4 Communi ation Client-serveur TCP . . . 102

A.1.5 Communi ation Client-Client TCP . . . 103

A.1.6 Communi ation Client-Client UDP . . . 104

A.1.7 Communi ation Client-Serveur UDP . . . 105

A.1.8 Communi ation Serveur-Serveur UDP . . . 105

A.1.9 Quelquesmé anismes du systèmeeDonkey. . . 105

Annexe B La théorie du hampmoyen dans la littérature 107 B.1 La théoriedu hampmoyen danslalittérature . . . 107

B.2 Le hampmoyen,une appro he théorique . . . 109

Annexe C Quelques Notions surles graphes et les réseaux 111 C.1 QuelquesNotionssur lesgraphes et les réseaux . . . 111

C.2 La modélisationdansle mondedesgraphes . . . 112

C.2.1 Lesgraphes aléatoires . . . 112

C.2.2 Lesmodèlesd'expansion . . . 114

Bibliographie 116

(13)
(14)

1.1 Répartition du volume suivant le pour entage des adresses de sour e et de

destination . . . 12

1.2 La répartitionde lataille despaquets. . . 13

1.3 Fon tion de répartition umulative omplémentaire de latailledes éléphants . . 14

1.4 StatistiquesTCP et UDP . . . 17

1.5 Di hotomiesouriséléphants: statistiques I. . . 18

1.6 Di hotomiesouriséléphants: statistiques II . . . 18

1.7 Débitsdes diérentes lasses du tra . . . 19

1.8 Nombre d'éléphants a tifspar se onde . . . 20

1.9 df : Leséléphantsréguliers . . . 20

1.10 df : les éléphantsréguliers . . . 21

1.11 A tivitédesadresses externes entermes de souris . . . 22

1.12 A tivitédesadresses externes entermes de mini-éléphants . . . 22

1.13 Souris (volume en é helle logarithmique) . . . 23

1.14 Éléphants réguliers(volume en é helle logarithmique) . . . 24

1.15 Éléphants ACK(volume en é helle logarithmique) . . . 24

1.16 Nombre de souris (reçuesouenvoyées) par adresseexterne . . . 24

1.17 Nombre d'éléphants réguliers(reçus ou envoyés) par adresseexterne . . . 25

1.18 Nombre d'éléphants réguliers(reçus ou envoyés) par adresseexterne . . . 25

1.19 CCDF du nombre de sourispar adresseexterne . . . 25

1.20 Nombre de paquetspar éléphant . . . 26

1.21 Lesdurées desots UDP. . . 27

1.22 Comparaison entre lesdeux sensde apture : adressesinternes. . . 38

1.23 La répartitiondu volume surles otséléphants . . . 40

1.24 Comparaison entre lesens montant et lesensdes endant pourle p2pet le Web. 40 1.25 Apprentissage : Strasbourg 2006 et Test : Strasbourg 2006 . . . 43

1.26 Apprentissage : Strasbourg 2006 et Test : Rennes2007 . . . 43

1.27 Apprentissage : Rennes2007 et Test: Rennes2007 . . . 43

1.28 Apprentissage : Rennes2007 et Test: Strasbourg 2006 . . . 44

2.1 La répartitiondu volume et desadressessur lespays . . . 51

2.2 Répartition desadresses surles pays . . . 52

2.3 Répartition du volume surlespays . . . 52

2.4 Lesdestinations dutra eDonkey . . . 55

2.5 Lesdestinations dutra web . . . 55

(15)

2.7 Composition dutra ADSLpar appli ation (Lyon,le03 Janvier 2006) . . . . 56

2.8 Répartition desadresses externes dutra web (Lyon, 07Mars 2005) . . . 57

2.9 Répartition dutra websurlespaysen termesdevolumeLyon,07 Mars2005) 58 2.10 Les destinationsdu tra eDonkey . . . 59

2.11 Les destinationsdu tra BitTorrent . . . 59

2.12 Les destinationsdu tra web . . . 60

2.13 Répartition du tra eDonkeydans leRBCI(sites CIPA) . . . 61

2.14 Répartition du tra eDonkeydans leRBCI(sites Wanadoo) . . . 61

2.15 Répartition du tra eDonkeyau sein duRBCI . . . 62

2.16 Répartition du tra webau sein duRBCI. . . 62

2.17 Répartition du tra webdansle RBCI(sites CIPA) . . . 63

2.18 Répartition du tra webdansle RBCI(sites Wanadoo) . . . 64

2.19 Symétrie dutra total . . . 65

2.20 Symétrie dutra eDonkey . . . 65

2.21 Symétrie dutra web . . . 65

2.22 Symétrie dutra BitTorrent . . . 66

2.23 Stabilité de lamatri e de tra total (site6) . . . 67

2.24 Stabilité de lamatri e de tra total (site3) . . . 67

2.25 Stabilité de lamatri e de tra eDonkey(site 6) . . . 67

2.26 Stabilité de lamatri e de tra eDonkey(site 3) . . . 68

2.27 Stabilité de lamatri detra web (site6) . . . 68

2.28 Stabilité de lamatri detra web (site3) . . . 68

2.29 Stabilité de lamatri detra BitTorrent (site6) . . . 69

2.30 Stabilité de lamatri detra BitTorrent (site3) . . . 69

2.31 Stabilité de lamatri detra Gnutella (site6) . . . 69

2.32 Stabilité de lamatri detra Gnutella (site3) . . . 70

2.33 La proportion dutra eDonkey lairsurune durée de98 heures . . . 71

2.34 Prin ipales omposantes dutra dansleréseau OTIP . . . 71

2.35 Prin ipales omposantes dutra dansleréseau OTIP . . . 72

3.1 Fra tion depair en oursde télé hargement en fon tion dela harge. . . 90

3.2 Fra tion entrelenombre de serveurso upésetlenombre de serveursen fon -tion dela harge. . . 91

3.3 Fra tion deserveurspar rapportà lapopulation totale enfon tion de la harge. 91 3.4 Fra tion deserveurso upés par rapport àà lara ine de

N

. . . 91

3.5 Convergen edesmarginalesdelamesure

M

[N ]

quand

N

tendversl'innipour

ρ = 1.2

. . . 93

3.6 Rationentrelenombredepairsatta hésauxserveursetlelenombredeserveurs en présen edesfreeriders. . . 94

3.7 Ratio entrele nombre de serveurs o upéset lenombre total de lapopulation en présen edesfreeriders. . . 94

(16)

1.1 Compositiondu volume par appli ation (TCP) . . . 9

1.2 Lesadresses de sour e etde destination TCP et eDonkey. . . 11

1.3 Répartition du volume par appli ation (sensmontant et des endant). . . 15

1.4 Pour entageen volume desportsstandard et portsvoisins. . . 15

1.5 Répartition desadresses internes et externes en fon tiondesappli ations. . . . 15

1.6 Di hotomieelephant souris . . . 17

1.7 Lesstatistiques du premieret de deuxième ordre . . . 21

1.8 Le tra UDP: di hotomieélephant souris. . . 26

1.9 Pour entage en termes de volume du tra estimé eDonkey par rapport à la sour e et àla destination par appli ation. . . 34

1.10 Pour entagedutra estiméêtredel'eDonkeypourlesprin ipales omposantes dutra .. . . 35

1.11 Pour entageduvolume onsidéré ommedel'eDonkeypourlesprin ipales om-posantesdu tra en onsidérant les annuairesélagués. . . 36

1.12 Pour entagedu tra dé laré eDonkey pour haque appli ation. . . 37

1.13 Répartition en nombre de otset en volume par typed'appli ation. . . 38

1.14 Répartition en nombre de otset en volume par typed'appli ation. . . 39

2.1 Correspondan eentrenuméroset destinations. . . 54

2.2 Sites OTARIE CIPA et Wanadoo . . . 58

2.3 Le lassementdesASdesour eetdedestinationselonlevolumetotal,levolume eDonkeyet le degré. . . 73

(17)
(18)

En1972,BobKhanetVintonCerf,deuxingénieursaméri ains,présentaiento iellement

et pour la première fois les résultats d'un projet lan é depuis la n des années soixante :

ARPANET.Le lan ement duprojetétait intimement liéà l'ambian e de laguerre froide qui

régnaitàl'époque.Eneet,les on epteursdel'ARPANET her haientà réeruneplateforme

de ommuni ations invulnérable fa e à une attaque nu léaire tou hant l'un des onstituants

de etteplateforme.Cepremierréseau plataévoluédepuis ettepremièredémonstrationet a

donnénaissan eauréseaudesréseaux:Internet.Pendant etteévolution,Internetestdevenu

au fur et à mesure très hiérar hique et ara térisé par une intense entralisation. Ce hemin

inverse au on ept de la genèse d'Internet que le monde de la re her he et de l'industrie a

emprunté se traduit par la prédominan e d'une ar hite ture extrêmement entralisée qu'est

l'ar hite tureClient/Serveur.Leweb,l'illustrationlapluspédagogiquede ettear hite ture,a

étél'élément lédansladémo ratisationd'Internetdanslemondeaudébutdesannées90.Le

web estl'appli ation quiamarqué lemondedesréseauxtout aulongde ladernièredé ennie

du XX siè le. Malgré les tailles réduites des pages HTML plus ou moins enri hies ave des

images, le web représentait la omposante majoritaire du tra Internet. Le tra web a fait

l'objetdediversesétudesdemétrologieetdemodélisationmathématique.Cettehégémoniene

vapastarderàdisparaître pour éderlapla e àunenouvelle formed'appli ation pluspro he

dansleurphilosophiedu on eptoriginelduréseauplat.En1999,leréseauNapster, onsidéré

depuis ommelepremierréseauPeer-to-Peer(p2p),permettaitàsesutilisateursdetélé harger

pas moins de 2 millions de titres MP3. Au paroxysme de sa réussite, le serveur de Napster

a été fermé à ause des poursuites judi iaires lan ées à son en ontre. Le serveur Napster

a bous ulé l'industrie audiovisuelle en proposant un a ès gratuit aux ontenus numériques

soumisauxdroitsd'auteurs.CetteaaireNapster,n'apasempê hél'emergen ed'unepanoplie

d'appli ationsp2pdepartagede hiers.Cesappli ationsp2psontdevenuestrèsrapidementla

sour edelamajeurepartiedutra danslesréseauxIPdesopérateursdestélé ommuni ations

danslemonde entier.

Eneet, aujourd'hui, l'observationdes lienstransportant letra ADSLmontrent quela

partdutra desservi esp2pestrelativementgrande etdépasse parfoislabarredes70%du

tra global. Cette observation est ommune pour tous les réseaux publi s et en parti ulier

pourleréseaude Fran eTélé om.La ompréhensiondufon tionnement desappli ations p2p

et laprédi tion des éventuels impa ts sur leréseau desopérateurs sont devenuesalors

indis-pensables pour un opérateur omme Fran e Télé om. L'émergen e de e phénomène estdue

à plusieurs fa teurs très variés. Cependant, la démo ratisation des a ès haut débit reste le

fa teur leplusdéterminant dansl'évolution vertigineusede esappli ationsp2p.En eet,les

temps detélé hargement des ontenus audiovisuels(musique, vidéo)sonténormément réduits

ave lesbandespassantesoertesparlate hnologie ADSL.Aujourd'hui,lamajeurepartiedes

(19)

onte-nus é hangésne sont paslibresde droits.Cet aspe tlégal aétémarqué par l'aaireNapster,

le pionnierdessystèmes p2p d'é hanges de ontenu. Lespoursuites judi iaireslan ées à

l'en- ontre des on epteursde Napsteront onduità lafermeturedu serveur.Mais ontrairement

à e qu'on attendait, ette dé ision n'afait qu'amor er ledéveloppement d'une multitude de

nouveauxsystèmes d'é hanges de hiers plus robusteset moinsvulnérables.

Cependant, espoursuites judi iaires ont énormément ompliquéles étudesde e type de

réseau.Eneet,lesutilisateurspréfèrent amouerleurtra p2pvialesdiérentsmé anismes

misàleurdisposition.La ara térisationdelapopulationeDonkeys'estrévéléeen onséquen e

relativement di ile. En eet, elle- i passe par une identi ation plus au moins pré ise du

tra engendré par l'appli ation eDonkey. L'appro he lassique pour observer le tra d'une

ertaine appli ation onsiste à analyser les ports sour e et destination. Cette appro he que

nous avons adoptée au début n'est pas très e a e dans le as des appli ations p2p. La

ontributiond'eDonkeyestbizarrementendessousdenosprédi tions.Cetteobservationnous

laisse présager qu'une bonne partie du tra passe par les ports non usuels. L'étude des

réseaux p2p passe tout d'abord par une étape d'identi ation. Cette étape préliminaire est

essentiellepourla ara térisationde esréseauxentermesdetra etdetopologie.Lepremier

hapitre de la thèse traite de ette problématique d'identi ation du p2p et essentiellement

de l'eDonkey, en présentant une panoplie de méthodes qui existent dans la littérature ainsi

que d'autres méthodes développées au ours de la thèse. Après avoir obtenu une proportion

de tra jugée représentative de l'é hantillon de la population eDonkey étudiée, nous avons

étudiéles ara téristiquesentermesdetra de ette omposantep2penutilisantentreautres

ladi hotomiesouris/éléphant

Outre les ara téristiques du tra , nous avons analysé, dans le deuxième hapitre, la

topologie du réseau eDonkey dansle réseau de Fran eTele om à l'é helle nationale et

inter-nationale. Lapremièreétapedela ara térisationd'unetopologie d'unsystèmedonnérevient

à ara tériser une image gée dans letemps et formalisée sousla formed'un graphedont les

sommetsreprésentent lespairsetoùlesar sreprésentent uneinformation binaire(est equ'il

ya eu une onnexion oupasentre esdeux pairs?).And'enri hir ette image,troisa tions

possibles peuvent être menées. La première onsiste à introduire despoids sur les liens. Ces

poids nousrenseignent sur lesvolumes é oulésentredeux sommetsou en orele débitmoyen

qu'on a pu observer entre eux. La deuxième a tion onsiste à obtenir des poids instantanés

au lieu despoidsmoyennés surla période de lamesure. Ce i permet d'intégrer le paramètre

du temps pour ernerladynamiquedu système.La onnaissan e du omportement d'un seul

lient p2p aidera à omprendre et à formaliser ette dynamique. Une troisième a tion agit

plutt surles sommets du graphe. Ces sommets représentent les adresses IP des lients p2p.

An de onnaître la apa ité des systèmes p2p à utiliser d'une façon optimale, la topologie

physiquesous-ja ente,d'autresniveauxde granularité doiventêtre introduits.Uneagrégation

des adressesIP selondesentitésplus grandes,intimement liéesauxmé anismes detransport

hez l'opérateur, omme les AS,les pays ou lesrouteurs de ra ordement auréseau doit être

réalisée. Eneet,un lient eDonkey nepossède au une ons ien e géographique et ilest

pos-sibleparfoisderapatrierdes hiersà partirde sour essituées unpeupartout danslemonde

même si le ontenu re her hé est disponible hez un voisin géographique. Dans le système

eDonkey, un voisin logique n'est pas for ément un voisin géographique. L'équivalen e entre

es deux types de voisins est bénéque non seulement aux FAI ( oût de peering, tra inter

FAI) mais aussi pour les utilisateurs qui auront des temps de télé hargement et de réponse

plus petits. Nous avonstendan e à onsidérer que le systèmeeDonkey n'est régi par au une

(20)

permettent d'avoir une ertaine onnaissan e surle tra p2p. Des travauxantérieurs sur la

métrologie, menésauseindeFran eTélé omdansle adred'unethèsepré édente,ontpermis

d'inférer quelques ara téristiques propres au tra p2p. Ce tra est marqué par une forte

a tivitédesignalisation,quisemanifestepardesrafalesdepetitsmessages.Parallèlementàla

signalisation, on observe également desphases de transfert des données ara térisées par des

onnexionsdelonguesduréesetunnombre élevédepaquets.L'apparition de esdeux

ompo-santes detra p2p estindisso iable du omportement des lientsp2pet surtout dumodede

fon tionnement des proto oles qui régissent la ommuni ation dansles réseaux logiquesp2p.

Ces deux omposantes de tra se prêtent bien à une modélisation mathématique dèsqu'on

adopte un dé oupage approprié du tra observé. Le tra de signalisation peut être dé rit

par unmodèlebasésurdespro essussto hastiquesliésàdeslesd'attente dutype

M/G/∞

.

Cetra , malgré saprédominan e en termesde nombre deots, ontribue àmoinsde 5%du

volume total.Cedéséquilibreentrenombredeotset ontribution envolumeestladiéren e

fondamentale ave la deuxième omposante du tra p2p, onstituée d'un petit nombre de

ots maisengendrant la majeure partie du volume observé.En se basant sur une agrégation

adéquate,letra desdonnéespeutêtreluiaussidé rit parunmodèlemathématique simple.

En plus de la modélisation du tra p2p, il est important de ompléter es travaux par une

analysedu omportementdessystèmesp2presponsablede etra .L'analysede e

omporte-ment permet de omprendreplusieurs phénomènesquenouspouvonsobserver danslaréalité.

Eneet,l'observationdessystèmesréelsmontredessystèmesd'uneextrême omplexité.Cette

omplexité est attendue étant donné que les systèmes en question se présentent omme une

gigantesque nébuleuse onstituée d'un très grand nombre de pairs très hétérogènes et

solli i-tée par des humains aux omportements très divers. An de prédire le omportement de es

systèmes omplexes et d'évaluer les performan es qu'ils orent aux utilisateurs, leur

modéli-sation est une tâ he né essaire. Dans la littérature, plusieurs modèles des réseaux p2p sont

proposés.Ces modèles utilisent unemyriade deformalismesmathématiques (réseaufermé ou

ouvert de les d'attentes, modèles uides,...et .). Dans le troisième hapitre nous présentons

notre propre modèle mathématique qui dé rit la manière ave laquelle le réseau eDonkey se

onstruit.Unsimplemodèlepréliminairebasésurlasimulationaétéproposé.Cemodèlenous

fournit une expli ationplausible de lafortea tivité designalisation quenousobservonsdans

(21)
(22)

Les premières observations du tra

Sommaire

1.1 La ara térisation des réseauxpairà pair. . . 6

1.1.1 Lesparamètresde ara térisation. . . 6

1.1.2 Lesmesures . . . 6

1.1.3 Constatsurlesparamètresdesréseauxp2préels . . . 8

1.2 Les premièresobservationssur unlien GigabitEthernet . . . 8

1.2.1 Uneanalysedesnumérosdeport . . . 9

1.2.2 Analysedesadresses . . . 11

1.2.3 Ladi hotomieSouris/Eléphants . . . 13

1.3 Les premièresobservationssur unlien OC3 . . . 14

1.3.1 Généralités . . . 14

1.3.2 Analysedesadresses . . . 15

1.3.3 Letra d'un lienteDonkey . . . 16

1.4 Heuristiques pour l'identi ationdu tra eDonkey . . . 27

1.4.1 Prin ipesthéoriqueset réalitédel'identi ation . . . 28

1.4.2 Étatdel'artdesméthodesd'identi ationdutra pairàpair . . . 28

1.4.3 Letra nonidentiéetpotentiellementeDonkeysurlelien GE . . 32

1.4.4 Identi ationdutra eDonkeypotentielsurlelien OC3 . . . 35

1.4.5 Lespremierspaquetsauservi edel'identi ation . . . 41

(23)

1.1 La ara térisation des réseaux pair à pair

1.1.1 Les paramètres de ara térisation

Pour ara tériser un système p2p, un ensemble de paramètres doit être mesuré. La

litté-rature identie quatre lasses de paramètres de ara térisation:

La topologie : Lesparamètres de ette lasse visent à ara tériser latopologie du système.

La onnaissan e de la distribution des pairs géographique ou logique (identiés selon

plusieurs niveaux d'agrégation par leurs adresses IP ou par les préxes AS,...)permet

de onnaître lataille dusystème. La onnaissan e des degrés despairesdu systèmeest

un premier pasversladétermination de latopologie.La ara térisation delatopologie

onsistedansunpremierlieuàétablirungraphedontlespaires(selonun ertainniveau

d'agrégation) représentent lessommets.Lesar squilientles sommetsreprésententà e

point de l'analyse une information binaire (une onnexion est en ours entre es deux

paires) sansau une pré ision supplémentaire (pasde poids surles liens).

Le Tra : Les paramètres de tra permettent de donner un poids aux liens qui lient les

sommetsdu graphe. Lespoids peuvent représenter les volumesé oulésentredeux

som-mets ou le débit observé entre eux pendant la mesure. Ces paramètres préparent le

terrain pour une éventuelle omparaison entre l'é oulement de tra d'une appli ation

p2p et d'autres appli ations. Malgré la présen e du paramètre temps dans le débit, le

graphe établijusqu'à maintenant reste une image gée du réseau réel aumoment de la

mesure. Cetteimage n'exprime pasle ara tère évolutif du systèmeétudié.

La dynamique : Ces paramètres ara térisent l'évolution du système au ours du temps.

Les systèmes p2p évoluent très rapidement. Les paires arrivent et quittent le système

d'une façon aléatoire et laduréede vie desliens esttrès variable. Cette aspe tévolutif

du systèmeétudié doit être pris en ompte en déterminant d'autresparamètres tel que

laduréed'une onnexion,laduréed'a tivitéd'unpaireoulespériodesdesonina tivité.

Les paramètres so iaux : L'étude de es paramètres revient à déterminer et à

ara téri-ser d'éventuelles ommunautés sémantiques. Dans ette lasse on pourra intégrer des

onnaissan essurledegréde oopérationdespairesetleur ontributiondanslesystème

étudié.

1.1.2 Les mesures

Pour ara tériserlatopologiedesréseauxpairàpairréels,la ampagnedemesuresestune

étapepréliminaireindispensable.Danslalittérature,ilexisteunemultituded'appro hespour

faire desmesures mais que nous pouvons lasser tout de même dansdeux grandes familles:

les mesures a tiveset les mesurespassives.

Mesures A tives

Lesmesuresa tives onsistentàintégrerun rawlera tifdanslesystème.Le rawlerestun

lient d'une appli ation donnée quel'on modiedanslebut de fairede mesuressurle réseau

asso iéà etteappli ation.Enfaisantpartieintégrante de edernier,le rawlera tifpro édera

à une olle te d'informations et de ara téristiques desdiérents élémentsdu système.

Engénéral,un rawlera tifestun lientp2pmodiéquipermetd'avoirdes ara téristiques

(24)

passante des lients, les délais de propagation, les fréquen es de onnexion/dé onnexion, les

 hiers partagésou ledegréde oopération,...et .

Le degré de sophisti ation du rawler a tif varie énormément. Il peut partir d'une

ap-pro he très simple en utilisant des outils basés sur le proto ole ICMP (ping/pong basique).

Cependant, les résultats de ette appro he restent limités. Au ontraire, des méthodes plus

évoluées né essitent un logi iel spé ialisé [58 ℄. Entre les deux, des appro hes intermédiaires

sont possibles et orent un bon ompromis entre l'e a ité et la simpli ité. Pour étudier le

réseau Gnutella, les auteurs de [73 ℄ ont utilisé un outil appelé LF. Cet outil se base sur la

plateforme de mesureSting [76 ℄.

Dansune première étape,les auteurs [73 ℄ re ensent les lients onne tés au réseau

Gnu-tella.La deuxièmeétape onsisteà onta ter ànouveautousles lientsre ensésande

déter-miner un ertain nombre de leurs ara téristiques. L'ensemble des pairs Gnutellaprésentent

une hétérogénéité remarquable en termes de temps de laten e, de bande passante et de

dis-ponibilité. Les auteurs [73℄ ont noté également la tendan e des paires à fournir de fausses

informations. En plus des temps de laten e ou de labande passante disponible des pairs du

système Gnutella, le rawler a tif permet également de donner la topologie qui maille

l'en-semblede seséléments.

Lesauteursde[70 ℄ontutiliséun rawlera tifdanslebutd'établirunetopologieduréseau

Gnutella. Pour efaire,le rawlerestpré onguré ave unelistedepairsGnutella.Cetteliste

est par ouru séquentiellement et haque pair est onta té. Le rawler ré upère la liste des

voisins du pair orrespondant présente dans les messagesPong du proto ole Gnutella. Cette

appro he onsomme énormément de ressour es (ressour es réseau et CPU). En eet, pour

onstruire une topologie ave seulement 4000 n÷uds, la olle te a duré plus de 50 heures.

Pour ontourner e problème, les auteurs de [70℄ ont eu l'idée de paralléliser la tâ he entre

plusieurs lients.Chaque lients'o uped'unepartiedelalistepublique.Cetteparallélisation

a élère l'opération maisaufond leproblème estloin d'être résolu.

La nature de l'objet de mesure exige énormément de ressour es CPU et beau oup de

bande passante. En eet,la topologie d'un réseau p2p évolue ave une rapidité extrême. En

onséquen e,le rawlerdoitêtrepourvud'énormesressour espourobtenirune opiedèledu

réseau.Sansressour e,le rawlerseraittrèsrapidement in apablededresserlatopologied'un

réseau de taille onséquente. En plus des ressour es, l'appro he du rawler a tif exige aussi

une onnaissan e trèspré ise duproto ole étudié.Cette ontrainte n'est pastoujours fa ileà

satisfaire.Eneet,lesspé i ationsdes lientspourquelquesproto olessonttoutsimplement

toutabsents.

Pour nirave e typed'outilde mesure, notonsquele rawler a tifpeutendosserle rle

de n'importe quel élément du système peerto peer. Prenons l'exemple du système eDonkey.

L'indexation des ontenus se fait d'une façon entralisée au niveau d'un ertain nombre de

serveurs géographiquement dispersés. Le serveur peut être installé sur n'importe quelle

ma- hinedésirantjouerunrle dansl'indexation.En onséquen e,unserveur peutjouer,en plus

de son rle d'indexation, un rle d'espion sur le système en analysant les requêtes envoyées

par les lientset par les autres serveurs d'indexation. L'analysede esdeux entités(requêtes

et réponses) aide à déterminer, par exemple, la popularité d'un ertain ontenu (nombre de

requêtes reçues) ou la liste des pairs sus eptibles d'être onta tés par le lient qui a fait la

requête.

L'observation du système eDonkey à partir d'un serveur d'indexation ore une vue plus

panoramique que l'appro he lient. Mais malgré son e a ité pour l'analyse de omposants

(25)

l'é oulement du tra entre les pairs. En eet, laliste des sour esde ontenu envoyée par le

serveur vers le lient n'implique pas for ément un é hange de données entre e lient et les

sour es. En plus,il estpossibled'initierun transfertsans êtreamener àinterroger leserveur.

Par exemple, les auteurs du lient emule supposent que deux pairs qui s'é hangent un

 hier ont une forte probabilité d'avoir des entres d'intérêts en ommun. En onséquen e,

le logi ielpermet aux lients en ommuni ation de s'é hangerleurs listes de hiers partagés

sans passerpar unserveur d'indexation.

Mesures passives

Pourlesmesurespassives,l'outild'observationnefaitpluspartiedusystèmeétudié.Ce

a-ra tèrenonintrusifdelaméthodelimiteleséventuellesinterféren esentrel'outild'observation

et l'objet observé.Lesmesures passivespeuvent être exhaustivesou é hantillonnées.

Une mesure exhaustive onsiste à apturer tousles paquets d'un lien donné.La première

étape onsiste à hoisir le lieu de l'observation de tra . Pour étudier le tra Kazaa, les

auteursde[33 ℄ontfaitleur apturesurunliendesortied'un réseaud'un ampusuniversitaire

à Washington. L'auteur de [83℄ a également utilisé une apture d'un lien de sortie dans un

réseau universitaire pour étudier le tra eDonkey. Quant aux auteurs de [44℄ et de [43℄, le

tra étudié est un tra ommer ial. Le lien sur lequel le tra a été apturé est un lien

OC48 (2.5Gbps) d'un fournisseur d'a ès Internet améri ain. Le but de ette de apture est

de ara tériser letra p2p.

1.1.3 Constat sur les paramètres des réseaux p2p réels

L'analysedes ara téristiquesdesréseauxp2prévèlentunfortdegréd'hétérogénéitéentre

les pairs de essystèmes.

Lepremierniveaudedisparitéexisteentrelessystèmesp2p.Ce iestrelativementprévisible

étant donnéque les proto oles et les prin ipesqui régissent deux systèmesp2p distin tssont

généralement très diérents.

Il existe aussi un deuxième degré d'hétérogénéité qui est au ontraire inattendu. Cette

hétérogénéitéestobservableauseind'unmêmesystèmep2p.Eneet,lesdiérents lientsd'un

même réseau peuvent évoluer les uns indépendamment des autres. Cette évolution ontinue

et peut induire des omportementsdiérents.

Letroisièmeetdernierdegréd'hétérogénéitéestrelatifauxdiéren esd'usageentreles

uti-lisateursdesréseauxpairàpair. La ontributionde haquen÷udentermesdetra n'estpas

du touthomogène.Cettedisparité setraduit par l'apparitiondelanotiondes lients-serveurs

(heavy users) et des lients- onsommateurs (free riders). Mais en général, es disparités ont

tendan e àdisparaître dèsque nousatteignons un ertainniveau d'agrégation.Eneet,dans

une étuded'AT

&

T [78 ℄,l'analyse des tra esNetowissues des routeursde bord montre que

les volumes entre lessystèmes autonomesrestent relativement stablesau oursdu temps.

1.2 Les premières observations sur un lien GigabitEthernet

Dans ette se tion, nous présentons quelques résultats sur le tra observé sur un lien

Gigabit Ethernet (GE) reliant le Réseau Ba kbone de la Colle te IP (RBCI) à plusieurs

plaques ADSL.La aptureaétéfaite danslesens des endant(sens duRBCIvers lesplaques

(26)

les 137,725,328 paquets observés sur le lien, 81% sont des paquets TCP. Ces paquets TCP

représentent environ88% duvolume umulé surles 30minutes.

Lespremièresanalysessesontfo aliséessurletra engendréexpli itement parles lients

p2pduréseaueDonkey. Letra p2ppassethéoriquement surlesports standard4665et4672

en UDPet 4661et le4662en TCP.Dans equisuit,letra eDonkeyquipassepar lesports

standard sera appelé tra eDonkey lair; il représente 27% du volume total umulé surles

30 minutes (TCPet UDP).

Enprenant en ompte le tra eDonkey lair, on observe que e proto ole engendre 42%

des paquetsTCP. Cette ontribution est plus faible (17%) pour les paquets UDP. Lorsqu'on

s'intéresse aux volumes umulés, on remarque que la ontribution d'eDonkey dans le tra

TCP est de30% et qu'ellen'est quede 4%pour UDP.

Dans letableau 1.1, on peut trouver la omposition du tra ADSL(TCP) apturé sur

lelien GigabitEthernet, en termesde volume.

Appli ation Pour entage p2p eDonkey 30.36% Gnutella 2.44% Bittorrent 0.35% Kazaa 0.35% Napster 0.95% nonp2p http 27.77% NNTP 1.52% RTSP 1.01% FTP 0.77% POP3 0.88% Autres 31.46%

Tab.1.1 Compositiondu volume par appli ation (TCP) .

L'analyse du tra UDP montre que la ontribution d'eDonkey est plus signi ative en

nombre de paquets qu'en volume, e dernier restant relativement négligeable. Cela onrme

le fait que dans le réseau eDonkey, UDP ne sert pas à réaliser les transferts de  hiers; son

rle selimite à lare her he et l'indexation de ontenus.

1.2.1 Une analyse des numéros de port

Analyse des numéros de port

L'analysedutra surle lienGE onrme l'importan ede la ontributiondu p2p.Même

enselimitant àune analysedelapartie lairedutra p2p, elui- iapparaît danslalistedes

appli ationslesplusprésentesdansletra global.Parmilesdixpremiersportsdedestination

envolume,ontrouvehuitportsdedestination onnus ommeportsstandarddup2p(eDonkey,

Gnutella, Bittorrent,Napster,...). En e qui on erne lesports desour e,3portsstandard du

p2pgurentdanslelistedes5premiers portsqui ontribuent leplusen volume.Leproto ole

eDonkey est deloin leplus produ tif parmi les appli ations p2p.L'analyse desports montre

quelesport4662et4661représententplusde20%(resp.10%)detouslesportsdedestination

(resp. sour e).

Nousnotons également, l'importan e du tra Web. Celui- i est leplus volumineux

(27)

portsdedestination,letra webestpresqueinexistant(moinsde1%).Notonsi iqueleport

80 dédié habituellement au proto ole http peut être utilisé omme portd'é oute pour le p2p

an de déguiser elui- i en tra web et ontourner ainsi d'éventuels ltrages au niveau des

mé anismes de pare-feu. Par ailleurs, quelques réseaux p2p utilisent expli itement le

proto- ole httppour lasignalisation. Citons par exemple Bittorrent où l'on trouveun serveur http

tournant surleTra ker ( oordinateur detélé hargement d'un hier).

En dehors du web, on remarque également une évolution du tra due aux news. Le

proto ole NNTP se lasse tout de suite après les deux plus importantes appli ations p2p

(eDonkeyet Gnutella). Ce ipeut êtreexpliquéparl'utilisation desnews pour lesé hangesde

 hiersmultimédia(lms,MP3,...).Cettemigrationesttrèsprobablementla onséquen edela

médiatisationdespoursuitesjudi iaires ontreles utilisateursdup2p.Uneautre onséquen e

de ettemédiatisationestl'utilisationdesportsnonstandard.Lesports5662,14662 ou40662

sont sans doutedes ports d'é oute pour les appli ations du réseau eDonkey. Par exemple, le

port5662(entantqueportsour e)arrivedevantleportduproto oleftpen equi on ernele

volume.Les mêmes onstatations surla ontribution desappli ations p2p en volume restent

vraiespourla ontributionennombredepaquetspour enumérodeport.Entantqueportde

destination, elui- i arriveen se ondeposition avantlesappli ationsp2p Bittorrent,Gnutella

ou Napster.

L'analysedespaquetsUDPmontrequeeDonkeyet Gnutellasont pratiquement lesseules

appli ations quiutilisent onjointement TCP etUDP. Ave WinMX(presque inexistantdans

letra TCP),eDonkeyetGnutellasontlesseulesappli ationsp2pdanslalistedes5premiers

portslesplusprodu tifsenvolume.Dans etteliste, ontrouveenpremièrepla e, leproto ole

d'en apsulation L2TP qui ontribue à plusque 70%duvolume enUDP. Le reste est partagé

entre les appli ations p2p, les jeux en réseau (HalfLife, Quake) et aussi le port 5672 qui

onrme la onstatation faitesurleport5662 pourTCP. Laprédominan edeL2TPen equi

on erne letra UDPestdue aufaitque letra desISP tiersesttransportédansleréseau

de Fran e Télé om dansdestunnels L2TP.

Con lusion partielle sur l'identi ation du tra p2p. Pour on lure ette se tion, on peut

remarquerqueletra eDonkey,endehorsdesportsstandard4661et4662,estessentiellement

transmis en utilisant des ports voisins tels que 5662, 14662 ou 40662. En fait, en prenant

en ompte es ports et les ports standard, on arrive à identier une bonne partie du tra

eDonkey, àsavoir 90%dansle asparti ulier onsidérédans ette se tion,qui n'est peut être

pasreprésentatif à ause desadurée limitée(30 minutes).

Analyse des ouples de portssour e/destination

Enanalysant letra TCP,ondénombre 1,278,301 ouplesdeports(sour e,destination).

En moyenne un ouple de ports engendre 107 paquets et un volume de 63 Ko; la moitié de

es ouples de ports se sont é hangés moins de neuf paquets. Les ports relatifs au proto ole

eDonkey sont lesportsqui ommuniquent leplusave d'autresports distin ts.

Alorsquelamoyenneestde20portsdedestinationpourunseulportsour e,leport4662,

en tantqueportdedestination,a ommuniqué ave 58,999 ports desour e(sur seulement 30

minutes). Sa hant qu'on observe lamême moyenne lorsqu'onanalyse les ports de sour e, on

onstate queleport4662 a ommuniqué ave 52,707 ports de destination distin ts.

A titre de omparaison, le port 80 relatif au proto ole HTTP est le port d'é oute pour

(28)

Les ports 4662 et 4661 ommuniquent rarement entre eux; dans le réseau eDonkey, ils sont

plutt desports d'é oute.Un lient qui veut initier une onnexion ave un autre lient,joint

e dernier sur sonport d'é oute (4662 ou 4661 par défaut) et utilise un numéro portsour e

aléatoire entre 1025 et 65535 (1025 est le numéro de port qui a le plus ommuniqué ave le

port4662).

Con lusion partielle. En observant les ports de destination, on onstate, en supposant que

haqueutilisateuraunnumérodeportdesour ediérent,qu'unnombre olossald'utilisateurs

(plus de50,000) aessayé de ommuniquereneDonkey lairave lesterminaux onne tésaux

plaques ADSL desservies par le lien GE observé et e i seulement sur 30 minutes. Cette

observation laisseprésager delataille gigantesque duréseau eDonkey.

1.2.2 Analyse des adresses

Sur les 30 minutes de apture, on dénombre 30,425 adresses de destination qui ont

om-muniqué en TCP omme indiqué dans le tableau 1.2. Seulement 33.1% de es adresses de

destination ont aumoins ommuniquéunefoisenp2p lair(i.e.reçuaumoinsunpaquetave

4662 ou 4661 omme portde sour e ou de destination). Ce pour entageatteint environ 72%

pour les adresses dessour es : surles 1,191,465 adresses de sour e (TCP) observées, 856,761

adresses ont ommuniqué en p2p lair. En e qui on erne les ouples (sour e, destination),

le pour entagedes ouples qui ont ommuniqué en p2p lair estintermédiaire et avoisineles

62%(2,388,909 ouples surles 3,821,608 ouples).

TCP eDonkey

AdressesSour e. 1,191,465 856,761(72%)

AdressesDest. 30,425 10,072(33.1%)

Couples 3,821,608 2,388,909(62%)

Tab.1.2 Lesadresses de sour e etde destination TCP et eDonkey.

Un oupled'adresseseDonkey lairs'é hange(statistiquesurunseulsens)en moyenne24

paquets (36 paquets pour TCP). Le volume de données é hangé par ouple est en moyenne

égal à 10 Ko tet ( umulé sur 30 mn), il est le double pour TCP (le volume eDonkey est

ontenu dans le volume TCP total). En analysant par adresse, on remarque qu'en moyenne,

une adresse de sour e de type eDonkeyenvoie environ28 Ko tets (toujours sur30 minutes).

Uneadressededestinationreçoitenmoyenne environ2.5Mo.Cesdonnéesreçuesproviennent

enmoyenne de238adressesdesour eet vont vers3adressesdedestination.Lefaible volume,

en moyenne, transmispar les sour ess'explique par le faitque les utilisateurs qui rapatrient

des données à partir d'un terminal onne té à l'une desplaques ADSL desservies par lelien

observé n'envoie que des messages d'a quittement ou alors que les lients ont ommuniqué

ave un super n÷ud. Par ontre, les lients ADSL qui rapatrient des données reçoivent un

volume onséquent(sur 30 mn).

En analysant les adresses de sour e de manière plus pré ise, on s'aperçoit que le serveur

belgeRazorba kest lasour e quia leplus ommuniqué ave desadresses dedestination (875

adresses). Dans le tra TCP, il n'est ependant lassé que 43ème. De plus sa ontribution

en volume est négligeable. Sur les adresses de sour e eDonkey, il n'est que le 1341ème lient

en volume. Ce i s'explique par le fait qu'un super n÷ud eDonkey sert seulement à la tâ he

(29)

des lients Internet. Les trois premiers sont des abonnés de FAIs fran ophones (le Suisse

Cable om, Free, le Québé ois Sympati o). Les lients français semblent avoir une préféren e

linguistique (lmsen versionfrançaise parexemple).

Sur toutes les adresses de sour e observées sur les 30 minutes, la plus importante en

volume est elle duserveur de news news-europe.giganews. om; e serveur aservi 4 adresses

de destination. Ce i onrme unefoisde plusl'augmentation desnews dansletra observé.

Ce serveur de news a le plus ontribué dans le volume total TCP. Il est en l'o urren e

responsable de la majeure partie du tra des news. Par ailleurs, plus de 8.500 adresses de

sour e génèrent 80% du tra eDonkey. Cette onstatation reste vraie pour les adresses de

destination mais le volume est mieux réparti sur les lients. En eet, 80% du volume sont à

destination d'environ 8% des lients soit 750 adresses de destination. La loi de Pareto (une

faible proportion des adresses engendre la majorité du volume)n'est passpé ique au tra

p2p. La gure 1.1 montre en outre que le tra eDonkey est plus réparti sur les adresses

destination que letra TCP global. Le phénomène est en ore présent lorsque on s'intéresse

aux ouplesd'adressesetilestmêmeplusintense.Plusde90%dutra eDonkeyestengendré

par seulement 1%des ouples d'adresses.

Ces gros fournisseurs (ou onsommateurs) du tra eDonkey lair sont également parmi

les gros onsommateurs de la bande passante du tra TCP. Le tra eDonkey des

fournis-seurs représente 94%de leurtra total.Pour les onsommateurs (adressede destination) e

pour entage estde l'ordrede 70%.

10

−8

10

−6

10

−4

10

−2

10

0

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

% Address

% Volume

Src. eDonkey

Dest. eDonkey

Src. TCP

Dest. TCP

Fig. 1.1 Répartitionduvolumesuivant lepour entagedesadressesde sour eet de

destina-tion

Con lusions partielles. L'analyse des adresses donne des renseignements très importants sur

lastru ture du réseau eDonkey :

1. environ30%des lientsontreçudutra surlesports standard; si eux- isont utilisés

omme port d'é oute, on peut s'attendre à e que 30% des lients jouent le rle de

serveursp2p;ils orrespondentàpeuprèsauxheavyusers entermesdetra quisont

régulièrement observéslors de l'analysedu tra ADSL;

2. une faible proportion de lientsrapatriedes données(8%sur lademi-heure observée);

(30)

1.2.3 La di hotomie Souris/Eléphants

L'appli ationdeladi hotomieSouris/Eléphantssurletra eDonkey lairetletra TCP

montrequelenombre deséléphants(otsave plus20 paquets)estlargement inférieurà elui

dessouris(ots ave moins20 paquets).Eneet,lesots sourisreprésentent plusde 96%du

nombre total desots(98%pour letra eDonkey).Malgrél'infériorité numérique en termes

deots, leséléphantsreprésentent 93%duvolumetotal pourletra TCPet également pour

letra eDonkey lair.Lorsqu'ons'intéresseaunombredepaquets,le ontrasteentre esdeux

typesdeotsestmoinsintense;leséléphantsengendrentenviron62%despaquetsetlessouris

sont essentiellement forméesde paquetsdepetite taille.

L'analyse de la répartition de la taille des paquets des éléphants montre l'existen e de

deux lasses (voir1.2(a) et 1.2(b)).Lapremière lasseest on entrée autourdelataillede40

o tets; e sont les paquets des éléphants ACK (a quittements). La deuxième lasse se situe

dans l'intervalle 1200 et 1500 o tets. Ce sont les éléphants réguliers, qui sont asso iés aux

transferts de données. Un pi est présent au niveau de la taille de 576 o tets, relative à la

valeur delaMTU duproto oleIPstandard.

0

200

400

600

800

1000

1200

1400

1600

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

packet size (bytes)

percentage

(a)PaquetsTCP

0

200

400

600

800

1000

1200

1400

1600

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

packet size (bytes)

percentage

(b)PaquetseDonkey lair

Fig. 1.2La répartition delataille despaquets

Lespaquets souris sont essentiellement de petite taille. Cette dernièrene dépasse pasles

140 o tets.Le pi prin ipal estsituéauniveau delavaleurde 40o tets(40%despaquetsont

ette taille).

En se basant sur la taille moyenne des paquets d'un ot, on sépare les ots éléphants

en deux lasses : les éléphants d'a quittement (éléphants ACK) et les éléphants réguliers qui

orrespondentautransfertdedonnées.Lesotsréguliersnereprésententque58%delatotalité

dunombre deséléphants, maisen revan he,ilsontresponsablesde lamajoritéduvolume des

éléphants umulé surles 30minutes(97% du volume).

L'analysedesdeux lassesmontrentune ertainesimilitudelorsqu'ons'intéresseaunombre

de paquets par ot. Par ontre, des disparités apparaissent dès qu'on s'intéresse au ritère

volume. Un ot éléphant régulier transporte en moyenne 0.8 Mo. Cette moyenne est 25 fois

plus petite pour les ots ACK.Ces moyennessont al ulées surla duréede la apture de30

minutes. Il est possible que des ots soient tronqués e qui explique l'absen e d'une valeur

(31)

10

2

10

3

10

4

10

5

10

6

10

7

10

8

10

−5

10

−4

10

−3

10

−2

10

−1

10

0

Flow volume (bytes)

CCDF

Elephants Regulier

Elephant Ack

Fig. 1.3 Fon tionde répartition umulative omplémentaire de lataille deséléphants

1.3 Les premières observations sur un lien OC3

Dans ette se tion, onanalyse une tra e de

3

heures réalisée dansles deux sensd'un lien

OC3le7Mars2005 entre

18

het

21

h. Onselimite dans e quisuit àuneanalysedespaquets

TCP. Onappelle sensdes endant lesensquivéhi uleletra verslesutilisateurs. Lesensqui

remonte des utilisateurs vers le RBCI est appelé sens montant. Les adresses de destination

du liendes endant etles adressesdesour e dulien montantserontappeléesadressesinternes

(i.e. les adresses des lients ADSL onne tés à laplaque ADSL observée) par oppositionaux

adresses externes.

1.3.1 Généralités

Le nombre de paquets TCP observés pendant les 3 heures dans le sens des endant est

de 82,540,876. Ces paquets engendrent un volume égal à 49,900,262,357 o tets. Sur le sens

montant,on apture2%deplusdepaquetsTCP(84,140,885).Enrevan he,levolume umulé

surles3heuresdanslesensmontantnereprésenteenvironque67%duvolume umulédansle

sens des endant.Cette dissymétrienaturelle de l'a ès ADSLn'est passurprenante maiselle

est malgré tout assez modeste, e qui indique une utilisation de plus en plus symétrique du

réseau ave lamontée enpuissan e desproto oles p2p; une symétrisation parfaiteest en ore

ontrariée par desdébits d'a èsdiérents d'un sensà l'autre.

Pourillustrerlephénomènedesymétrisationdesux,prenonsparexempleleréseau

eDon-key. Levolumeengendrépar eréseaudanslesensmontant (52.55%duvolume)estdeuxfois

plus important quelevolume observé danslesens des endant.L'évolution du tra montant

des lients, négligeable avant la montée en puissan e desappli ations p2p, va probablement

pousser les FAIs à repenser leur modèle é onomique. En eet, e modèle basé sur une

hy-pothèse d'asymétrie des deux sens, n'est plus valable quand le p2p est plus important que

le web dans le palmarès des appli ations les plus populaires. Ce dernier est marqué par un

fort ontraste entre les deux sens. L'analyse de la tra e montre que le tra Web représente

34.57% du volume des endant et seulement 6.22% du volume umulé pendant 3 heures sur

le sens montant. La répartition du volume pour le reste des appli ations est donnée dans le

(32)

Appli ation Pour entageUp Pour entageDown p2p eDonkey 53% 17% Gnutella 5% 5% Bittorrent <1% <1% Napster 1% 1% nonp2p HTTP 6% 35% NNTP <1% 1% Autres 34% 41%

Tab.1.3 Répartition duvolumepar appli ation (sens montant et des endant).

Notons i i quel'on entend par tra eDonkey letra TCP qui passe non seulement par

lesportsstandard del'appli ationeDonkeymaisaussi eluiquipasseparlesportsvoisinstels

que le 5662, 40662 et le 14662. Dans le tableau 1.4, on donne la ontribution de ha un de

es ports dansletra eDonkey obtenu.

Port Pour entage Up Pour entageDown

Portsstandards 4662 90.52% 66.24%

4661 2.88% 5.63%

Portsvoisins 5662 5.17% 20.08%

14662 <1% <1%

40662 1.12% 7.65%

Tab.1.4 Pour entage envolume desports standardet portsvoisins.

1.3.2 Analyse des adresses

Surles3heuresd'observation,ondénombre2,848adressesdedestinationTCPdanslesens

des endant.Prèsdelamoitiéde esadressesont ommuniquéeneDonkey(soit1,423adresses).

Lepour entagedesadressesdesour equiont ommuniqué enp2pestplusimportant.Surles

684,941 adresses de sour e TCP, 436,658 ont ommuniqué en p2p (soit63.75%). Les ouples

d'adressesp2p représentent 58% dunombre de ouples TCP (679,096 sur1,170,084).

Comme indiqué dans le tableau 1.5, l'analyse du sens montant montre que le nombre

d'adressesinternesTCPestlégèrementdiérentdunombred'adresseinternevuesdanslesens

des endant(2,639adresses ontre2,848):soit esadressesnerépondentpasauxsolli itations

des lients extérieurs, soit es adresses ne sont plus a tives (terminaux éteints ou en veille,

ou adresses plus allouées). Cette onstatation n'est pas valable pour les adresses externes :

684,941 adresses externes dans le sens des endant ont été observées et dansle sens montant

ledouble aété observé (1,366,782).

TCPDown TCPUp eDonkeyDown eDonkeyUp HTTPDown HTTPUp

Ext. 684,941 1,366,782 436,658(63.7%) 467,851(34.2%) 23,786(3.4%) 75,181(5.5%)

Int. 2,848 2,639 1,423(49.9%) 732(27%) 2,638(92.62%) 2,450(92.8%)

Couples 1,170,084 1,861,887 679,096(58.0%) 726,941(39.04%) 100,292(8.5%) 150,450(8%)

Tab.1.5 Répartition desadressesinternes et externesen fon tion desappli ations.

Cephénomène estinversé quandon analyse letra eDonkey lair. Pour les adresses

(33)

ontre 436,658) alors que pour les adresses internes, on observe 732 adresses dans le sens

montant et 1,423danslesens des endant.

LesadresseseDonkeyexternesont ommuniquémajoritairementeneDonkey.Enmoyenne,

95% du volume reçu ou envoyé par es adresses est du tra eDonkey (plus de 83% de es

adresses ont ommuniqué uniquement en eDonkey). Ce omportement n'est pas observé au

niveaudesadressesinternes.Pourlesensmontant,letra eDonkeyde esadressesreprésente

38%deleurtra total.Cepour entagedes endà16%lorsqu'onanalyseletra des endant.

Ce i onrmera les onstatations que nous avons pu faire lorsqu'on a appliqué la méthode

méthode d'identi ation basée sur les annuaires (voir la se tion 1.4). Les adresses eDonkey

externes ne sont onta tées que par e qu'elles appartiennent au réseau eDonkey. Le tra

reçu ou envoyé par es adresses externes est un tra purement eDonkey. En revan he, le

tra envoyéoureçupar lesadressesinternesestlerésultatd'uneagrégationd'unemultitude

d'appli ations (p2p,http,mail,...).Celaneveutpasdirepourautantquelesadressesexternes

p2p n'utilisent que les appli ations p2p. En fait, le réseau, asso ié à un point d'observation

parti ulier, devient une fon tion de ltrage intrinsèque. Cette fon tion permet d'éliminer le

tra desappli ationsnonp2pdesadressesp2p.En ontrepartie,unepartiedeleurtra p2p

est probablement ignorée.

1.3.3 Le tra d'un lient eDonkey

Cadre expérimental

Nousanalysons dans erapport, letra d'un lient eDonkey suruneduréede 15heures.

An desemettredansun ontexteréel etpourse omporter omme un lienttypedu réseau

eDonkey, nous mettons en partage un  hier

f

1

en partage. Le  hier

f

1

a une taille de

732,476,072 o tets.Nouslançons en parallèle letélé hargement d'un  hier

f

2

d'unetaille de

733,878,272 o tets. Nous ongurons le lient ave les numéros de port d'é oute 4662 pour

les onnexions TCP et le 4672 pour les ommuni ations UDP. Nous limitons le nombre de

sour es pour un  hier à 500 sour es et nous limitons le nombre de onnexions simultanées

à 600 onnexions. Une troisième et dernière limite a été imposée par rapport aux débits de

ré eption et d'émission (920kbpsen ré eption et 200kbps en émission).

En analysant la répartition du tra entre TCP et UDP, nous remarquons d'emblée que

le tra UDP est négligeable en termes de volume et de nombre de paquets par rapport au

tra TCP. Cette observation explique la tendan e des études de modélisation de tra qui

se on entrent sur l'étude du tra TCP. Une deuxième observation aussiimportante quela

première on erne lasymétrie entre le sens montant et des endant dutra . Le tra pair à

pair renverse le sens de l'asymétrie up/down du tra web. Le volume umulé envoyé par le

lient durant la apture estsupérieure auvolume umulé qu'ilreçoit. Le onstat estlemême

lorsque nousnousintéressonsaunombre umuléde paquets(voirlesgures1.4(a)et 1.4(b)).

Le tra TCP

Nous nous intéressons dans un premier lieu au tra TCP. Dans le système eDonkey, le

proto oleTCPjoueunrleprépondérantdanslasignalisationetdansletransfertdesdonnées.

An de mettre en éviden e e double rle assuré par le proto ole TCP, nous appliquons la

di hotomie souris/éléphant sur les ots TCP observés durant la apture. En plus de ette

di hotomie, nous avons s indé les éléphants en deux lasses supplémentaires. La première

(34)

TCP

UDP

0

5

10

15

x 10

8

Volume (bytes)

Volume (TCP et UDP)

(a)volume

TCP

UDP

0

2

4

6

8

10

12

14

16

18

x 10

5

# packets

# packets

(b)nombredepaquets

Fig.1.4 StatistiquesTCP et UDP

taille moyenne des paquets est supérieure à 80 o tets. Les éléphants dont la taille moyenne

des paquets est inférieure à e seuil sont dits éléphants d'a quittement. La deuxième lasse

d'éléphants et omme son nom l'indique représente les ots qui a quittent le rapatriement

d'un  hier dans le sens opposé. La première lasse d'éléphants représente le transfert de

 hier. L'analyse de ette lassemontre queles éléphantsréguliers sont enta hés de périodes

d'ina tivité. Le transfert des données se fait ave des rafales de transmission séparées de

périodesd'ina tivité. Nousprenonslavaleurde20 se ondes omme duréed'ina tivité [6 ℄.Un

éléphantrégulierestalors unesu essiondegroupementsdepaquetsséparéspardespériodes

d'ina tivité. Si le groupement ontient moins de 20 paquets, il est dit sourisd'éléphant. Par

ailleurs,silegroupement ontientplusde20paquetsilestditmini-éléphants.En onséquen e,

un éléphant régulier peut être alors l'agrégation de mini-éléphant et de souris d'éléphant. Le

tableau1.6indiquela ontributionde haqueentitédansletra globalen termesdevolume,

nombre de ots et entermes de nombre depaquets.

Souris Éléphants EACK EREG Mini-E SE

Up Nbots 6,715 337 124 213 237 754 Volume 4,876,902 1,434,290,896 12,834,599 1,421,456,297 1,421,048,759 407,538 Nbpaquets 57,094 1,644,887 282,829 1,362,058 1,359,659 2,399 Down Nbots 6,752 295 146 149 223 162 Volume 4,418,271 817,474,470 19,312,380 798,162,090 797,841,242 320,848 Nbpaquets 52,735 1,360,499 470,198 890,301 889,789 512

Tab. 1.6Di hotomie elephant souris

Conrmantlesétudesantérieures surladi hotomiesouris/éléphants, etteanalysepermet

de mettre en éviden e la prédominan e des souris en termes de nombre de ots. En termes

de volumes, les éléphants sont largement prépondérants. Les statistiques sur les ots sont

résumées dansles gures1.5(a), 1.5(b),1.6(a), 1.6(b) et 1.6( ).

Par ailleurs, la ara térisation des mini-éléphants dans la tra e du lient montre que les

transferts se font généralement d'une façon ontinue. En eet, dans la majorité des as, les

éléphants régulierssont onstituésd'un seul mini-éléphant (65% deséléphants régulierssont

(35)

# Flots

Volume

# Paquets

0

10

20

30

40

50

60

70

80

90

100

%

Sens up

Souris

Eléphants AcK

Eléphants Reg

(a)sensmontant

# Flots

Volume

# Paquets

0

10

20

30

40

50

60

70

80

90

100

%

Sens down

Souris

Eléphants ACK

Eléphants REG

(b)sensdes endant

Fig.1.5 Di hotomiesouriséléphants: statistiques I

Total

Souris

ACK

REG

0

1000

2000

3000

4000

5000

6000

7000

8000

# Flots

upstream

downstream

(a)nombredeots

Total

Souris

ACK

REG

0

2

4

6

8

10

12

14

16

18

x 10

5

# Paquets

upstream

downstream

(b)nombredepaquets

Total

Souris

ACK

REG

0

5

10

15

x 10

8

Bytes

Volume

upstream

downstream

( )volume

(36)

éléphantsréguliersgarantit une ertainestabilité dansleurs débits maisnegarantit enau un

aslastabilitédudébitglobalà ausedel'absen edesyn hronismeentrelessour es.Ce iest

du, premièrementau ara tèretrèsdynamiqueduréseaupairàpair( onnexion,dé onnexion,

et ..) et deuxièmement au mé anisme de péremption desles d'attente au niveau des lients

emule.

Surlesgures1.7(a)et1.7(b)nousreprésentonslesdébits(ave unintervalled'intégration

égal à 100 se ondes). La gure 1.7(b) montre que le débit des endant est instable au ours

du temps. En revan he,nousremarquons quele débit montant est plutt stableau ours du

temps. Cette onstatation montre l'impa t de la disponibilité du lient sur la variabilité du

débit.Notre lientdemeure onne téetdon disponiblelelongdeladuréedela apture(pasde

onnexion/dé onnexion). En plus, lenombre de mini-éléphants simultanés reste relativement

onstant dans le sens montant ontrairement au sens des endant (voir les gures 1.8(a) et

1.8(b)).

Notons aussi que des limites sur les débits d'émission et de ré eption ont été instaurées.

Nous remarquons que le débit d'émission se stabilise au niveau de la limite instaurée(

200

kbps). Cette stabilisation au niveau de la limite ne ontredit pas l'argumentation que nous

avons présentée plus haut sur la stabilité du débit d'émission. En eet, malgré l'intervalle

d'intégrationrelativement grand,ledébitdes endant estextrêmement variable ontrairement

au débit montant qui montre une variabilité négligeable autourde lalimite de 200 kbps.Le

débit d'émission ne hute pasau ours dutemps endessousde ette limite.

0

1

2

3

4

5

6

x 10

4

10

1

10

2

10

3

10

4

10

5

10

6

Temps (seconde)

nb octet par interval de 100 secondes

Souris (agrégation sur 100 secondes)

upstream

downstream

(a)Souris

0

1

2

3

4

5

6

x 10

4

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

5.5

6

x 10

6

Temps (seconde)

nombre d’octets sur 100 secondes

Mini−éléphants (agrégation 100 secondes)

upstream

downstream

(b)Mini-Éléphants

Fig. 1.7 Débitsdesdiérentes lasses dutra

Avantdes'intéresseràl'analysedu omportementdesadressesexternes,nousavonsétudié

les ara téristiques des grands transferts de  hiers représentés par les éléphants réguliers.

L'étude des ara téristiquesdeséléphantsréguliersnouspermet dedé elerlesspé i itésdes

transferts eDonkey selon quelques ritères donnés. Pour e faire, nous avons hoisi quatre

ritères.

Lesdeuxpremiers ritères sontlevolume et ladurée. Surlesgures 1.9(a)et 1.9(b),nous

avonsreprésenté les fon tionsde répartition omplémentaires selon esdeux ritères pourles

éléphants réguliers. Sur les gures 1.10(a) et 1.10(b), nous avons représenté les fon tions de

répartition omplémentairesasso iéesauxdeuxautres ritères.Ces deux ritères sontledébit

et lataille moyenne despaquets.Indépendamment du sensobservé,levolume transportépar

Figure

Fig. 1.1  Répartition du volume suivant le pourentage des adresses de soure et de destina-
Fig. 1.3  F ontion de répartition umulative omplémentaire de la taille des éléphants
Tab. 1.5  Répartition des adresses internes et externes en fontion des appliations.
tableau 1.6 indique la ontribution de haque entité dans le tra global en termes de volume,
+7

Références

Documents relatifs

Hypothesis 1: For creating realistic load conditions, such as presented by [3], the test driver must scale up by distributing the test tasks and sending concurrent requests to

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

Persistence. Since grid applications can handle large masses of data, data transfer among sites can be costly, in terms of both latency and bandwidth. In order to limit these

Persistence. Since grid applications can handle large masses of data, data transfer among sites can be costly, in terms of both latency and bandwidth. In order to limit these

The sys- tem provides services for publishing informa- tion about existing streams, and for query- ing this information in particular for stream reuse.. We briey describe at the end

• Current P2P DHT replication strategies does not support high churn levels. •

Fabien Mathieu

Avec l'arrivée de l'Internet et son rôle actif croissant dans l'économie et la société, l'informatique réseau n'a eu de cesse de trouver des innovations pour exploiter les