HAL Id: tel-00803195
https://tel.archives-ouvertes.fr/tel-00803195
Submitted on 21 Mar 2013
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
Oualid Saddi
To cite this version:
Oualid Saddi. Métrologie dans les réseaux Peer-To-Peer. Réseaux et télécommunications [cs.NI].
Université Pierre et Marie Curie - Paris VI, 2007. Français. �NNT : 2007PA066259�. �tel-00803195�
La m´
etrologie dans les r´
eseaux p2p
TH`
ESE
pr´esent´ee et soutenue publiquement le 12 octobre 2007
pour obtenir le titre de
Docteur de l’Universit´
e Pierre et Marie Curie - Paris VI
(sp´
ecialit´
e informatique et t´
el´
ecommunications)
par
Oualid Saddi
Composition du jury
Rapporteurs :
Catherine Rosenberg (University of Waterloo, Canada).
Philippe Owezarski (LAAS-CNRS, France).
Examinateurs :
Kav´e Salamatian (LIP6, France).
Patrice Abry (ENS Lyon, France)
Directeurs :
Serge Fdida (LIP6, France).
Je tiens à remer ier, en toutpremier lieu,Monsieur SergeFdida,professeur à l'université
Pierre et Marie Curie, et Monsieur Fabri e Guillemin, ingénieur re her he et développement
à Fran e Tele om, qui ont dirigé ette thèse. Mer i à Monsieur Fabri e Guillemin qui a su
orientermes re her hes auxbonsmoments grâ eà ses ompéten ess ientiques.Je voudrais
aussi le remer ier pour sa rigueur et sa patien e qui ont énormément fa iliter ma tâ he et
m'ont permis d'aboutirà laprodu tion de ette thèse.Mer i àlui, ainsiqu'à MonsieurSerge
Fdida, pour leurs pré ieux onseils.
Je remer ie tousparti ulièrement MadameCatherine Rosenberg, professeurà l'université
de Waterloo,ainsiqueMonsieurPhilippe Owezarski, hargédere her hesauLAAS-CNRS à
Toulouse, qui ont a epté de juger e travailet d'en êtreles rapporteurs.
Je tiens également à remer ier Monsieur Patri e Abry, dire teur de re her he au CNRS,
et Monsieur Kavé Salamatian, maitre de onféren e à l'université de Pierre et Marie Curie,
d'avoir a epté de parti iper au juryde ette thèse.
Je remer ie Mr Christian Guillemot, responsable du laboratoire "Core Pa ket Networks
for NGN &IMS"à Fran eTele omR&D,pour m'avoir a ueilliau seinde ette institution.
Mesplussin ères remer iements vont également à MonsieurJeanPhilippe LeBrenn,
res-ponsable de l'unite de re her he et développement "Tra and Networks Se urity" à Fran e
Télé om R&D, qui m'a haleureusement a ueilli dans son équipe. Ses onseils et ses
om-mentaires ontété fortutiles.
Je remer ie tous eux sansqui ette thèse ne serait pas e qu'elle est : aussibien par les
dis ussionsquej'aieu la han ed'avoirave eux,leurs suggestionsou ontributions. Jepense
i i en parti ulier à Monsieur Fabri e Clérot et MonsieurMar Boullé membres de l'unité de
re her he et développement "Statistique et Traitement de l'Information" à Fran e Tele om
R&D,àMonsieurPhilippeRobert,membrede l'unitédere her heRAPàl'INRIA
Ro quen- ourt.
J'aimerais également exprimer leplaisir quej'ai eu àtravailler ave ma ollègue Madame
Stéphanie Moteau, jetiens aussià laremer ierpourlesoutienmoral qu'ellesm'afourni tout
aulongdelaréalisationde estravauxetpourlesmomentsagréablesquej'ai passésave elle
(mer i pour sarele turedesmesprodu tionsé rites,sans elle,monmanus ritaurait ontenu
ledouble de fautesd'Aurthografe).
Jeremer ie aussiprofondémentMonsieurJoelFrançoisetMonsieurThierryHoudoin, qui
m'ontfournilesdonnéesexpérimentalessurlesquellesestbaséeunegrandepartiedemathèse.
Je n'oublierai pas les aides permanentes reçues de Jean-Louis Baron, Catherine Blanquart,
André Castelli, Gérard Augoyat, Thierry Thalagrand pour résoudre les problèmes d'ordre
informatique. Mes plus vifs remer iements à Mme Françoise Douerin et Mme Sylvie Gillot,
se rétaire du laboratoire CORE/CPN à Fran e Tele om R&D, pour leur sympathie et leur
exprime ma profonde sympathie et leur souhaite beau oup de bien. Mes remer iement vont
aussiàmes ollègues del'URDFAMEave lesquels,j'aieudesdis ussionstrèsfru tueuseset
partagé les plaisirsdespauses afétrès instru tives.
Je souhaiteaussiremer iermesamis,en parti ulierMoez,Imène, SidMo,Yassine,Ramzi,
Narjess, Marie,Estelle,RiadhZ, Nadhem,Asma,Wassym,Liv,Zineb,Romak,Julie,
Alexan-dra, Daly, Mohammed, Riadh K, Walid,Sophie, Sana, Nassima, JeanLouis, Mounir (désolé
pour euxquine gurentpasdanslaliste,lenombre de pagesdansune thèseest
malheureu-sementlimité à3000 pages)don mer iàtousmesamistémoinsdemesjoies,demesfatigues,
de mes enthousiasmeset de mes hautset bas.
Pour nir("last but not least"), ma gratitudeest adressée à mamère Hayet, àmon frère
Ziad, àmas÷urDhouhaetàmonon leChedlydont lesen ouragementset lagénérositésont
inestimables. Mesplus haleureux remer iements vont àA htart, magrandesour e
Cettethèses'ins ritdansledomainedelamétrologiedutra Internet.Nousportonsdans
notre étude un intérêt parti ulier au tra peer-to-peer (p2p) et plus pré isément le tra
eDonkey, prin ipale omposante du tra dans les réseaux de Fran e Tele om. Nous avons
analyséles diérentesméthodesd'identi ation dutra p2pand'extraire etteimportante
omposante du tra . Après avoir obtenu une proportion de tra jugée représentative de
l'é hantillondelapopulationeDonkeyétudiée,nousavonsétudiéles ara téristiquesentermes
de tra de ette omposante p2p en utilisant entre autres la di hotomie souris/éléphant.
Outre les ara téristiques du tra , nous avons également analysé la topologie du réseau
eDonkey dansleréseau de Fran eTele omà l'é helle nationale et internationale. Un modèle
mathématique dé rivant lamanièreave laquelleleréseaueDonkeyse onstruitestégalement
présenté.
Abstra t
This thesis is a ontribution to the domain of Internet metrology. We study in this
do ument the hara teristi s of p2p tra and espe iallyeDonkey tra . eDonkey proto ol
givesriseto the prevalent partoftra in someEuropean ountries(Fran e, Germany,et .).
We have analyzed manyreal tra tra es fromhigh speed linksof Fran e Tele om networks
arrying ADSLtra .Inordertoanalyzethistype oftra ,severalp2p identi ation
meth-ods have been developed. By extra ting a representative part of eDonkey tra , we have
analyzed its hara teristi s using the mouse/elephant di hotomy. Furthermore, the topology
of the eDonkey ommunity in the Fran eTele omnetwork hasbeen investigated.Finally, to
Table des gures xi
Liste des tableaux xiii
Introdu tion générale
Chapitre 1
Les premièresobservationsdu tra
1.1 La ara térisationdesréseaux pairà pair . . . 6
1.1.1 Lesparamètres de ara térisation . . . 6
1.1.2 Lesmesures . . . 6
1.1.3 Constat surlesparamètres desréseauxp2p réels . . . 8
1.2 Lespremières observationssur unlien GigabitEthernet . . . 8
1.2.1 Une analyse desnumérosde port . . . 9
1.2.2 Analyse desadresses . . . 11
1.2.3 La di hotomieSouris/Eléphants. . . 13
1.3 Lespremières observationssur unlien OC3 . . . 14
1.3.1 Généralités . . . 14
1.3.2 Analyse desadresses . . . 15
1.3.3 Le tra d'un lient eDonkey . . . 16
1.4 Heuristiquespour l'identi ation dutra eDonkey . . . 27
1.4.1 Prin ipesthéoriques et réalitéde l'identi ation . . . 28
1.4.2 Étatde l'artdes méthodesd'identi ation du tra pairà pair . . . 28
1.4.3 Le tra non identié et potentiellement eDonkey surlelien GE . . . . 32
1.4.4 Identi ation dutra eDonkey potentiel surlelien OC3 . . . 35
1.4.5 Lespremiers paquetsauservi ede l'identi ation . . . 41
Chapitre 2
La topologie des réseaux pair à pair : du pair jusqu'au système autonome 47
2.1 Introdu tion . . . 48
2.2 La topologie desréseaux pairà pairdanslalittérature . . . 48
2.3 Cadre expérimentalet onventions . . . 49
2.4 Méthodes delo alisation géographique desadresses IP . . . 49
2.5 Les premièresobservations surlalo alisation . . . 50
2.6 La géolo alisationà l'é helle nationale . . . 53
2.6.1 Contexteexpérimental et dénitions . . . 53
2.6.2 Premières observations . . . 54
2.6.3 Comparaison entreles grandesdestinations . . . 58
2.6.4 La lo alisation géographique dutra dansleRBCI . . . 59
2.6.5 La symétrie desvolumes . . . 64
2.7 Stabilité temporellede lamatri e de tra . . . 64
2.8 Le tra dansleréseau detransit de Fran eTele om . . . 66
2.9 Con lusions et perspe tives . . . 73
Chapitre 3 La modélisation des réseaux p2p 75 3.1 Introdu tion . . . 76
3.2 État del'art delamodélisation desréseauxp2p . . . 76
3.2.1 Les lesd'attente au servi ede lamodélisation . . . 77
3.2.2 Les modèles uides . . . 79
3.2.3 Des équations pour lepair àpair . . . 83
3.2.4 Des équations pour desproblèmes analogues. . . 86
3.3 Un modèlepour laformation d'un réseaueDonkey . . . 88
3.3.1 L'expansion duréseau sansfreeriders . . . 88
3.3.2 L'expansion duréseau ave freeriders . . . 92
3.4 Con lusion. . . 95
Con lusion Générale 97
Annexe 101
Annexe A
A.1.2 Identi ateur lient . . . 102
A.1.3 Identi ateur Utilisateur . . . 102
A.1.4 Communi ation Client-serveur TCP . . . 102
A.1.5 Communi ation Client-Client TCP . . . 103
A.1.6 Communi ation Client-Client UDP . . . 104
A.1.7 Communi ation Client-Serveur UDP . . . 105
A.1.8 Communi ation Serveur-Serveur UDP . . . 105
A.1.9 Quelquesmé anismes du systèmeeDonkey. . . 105
Annexe B La théorie du hampmoyen dans la littérature 107 B.1 La théoriedu hampmoyen danslalittérature . . . 107
B.2 Le hampmoyen,une appro he théorique . . . 109
Annexe C Quelques Notions surles graphes et les réseaux 111 C.1 QuelquesNotionssur lesgraphes et les réseaux . . . 111
C.2 La modélisationdansle mondedesgraphes . . . 112
C.2.1 Lesgraphes aléatoires . . . 112
C.2.2 Lesmodèlesd'expansion . . . 114
Bibliographie 116
1.1 Répartition du volume suivant le pour entage des adresses de sour e et de
destination . . . 12
1.2 La répartitionde lataille despaquets. . . 13
1.3 Fon tion de répartition umulative omplémentaire de latailledes éléphants . . 14
1.4 StatistiquesTCP et UDP . . . 17
1.5 Di hotomiesouriséléphants: statistiques I. . . 18
1.6 Di hotomiesouriséléphants: statistiques II . . . 18
1.7 Débitsdes diérentes lasses du tra . . . 19
1.8 Nombre d'éléphants a tifspar se onde . . . 20
1.9 df : Leséléphantsréguliers . . . 20
1.10 df : les éléphantsréguliers . . . 21
1.11 A tivitédesadresses externes entermes de souris . . . 22
1.12 A tivitédesadresses externes entermes de mini-éléphants . . . 22
1.13 Souris (volume en é helle logarithmique) . . . 23
1.14 Éléphants réguliers(volume en é helle logarithmique) . . . 24
1.15 Éléphants ACK(volume en é helle logarithmique) . . . 24
1.16 Nombre de souris (reçuesouenvoyées) par adresseexterne . . . 24
1.17 Nombre d'éléphants réguliers(reçus ou envoyés) par adresseexterne . . . 25
1.18 Nombre d'éléphants réguliers(reçus ou envoyés) par adresseexterne . . . 25
1.19 CCDF du nombre de sourispar adresseexterne . . . 25
1.20 Nombre de paquetspar éléphant . . . 26
1.21 Lesdurées desots UDP. . . 27
1.22 Comparaison entre lesdeux sensde apture : adressesinternes. . . 38
1.23 La répartitiondu volume surles otséléphants . . . 40
1.24 Comparaison entre lesens montant et lesensdes endant pourle p2pet le Web. 40 1.25 Apprentissage : Strasbourg 2006 et Test : Strasbourg 2006 . . . 43
1.26 Apprentissage : Strasbourg 2006 et Test : Rennes2007 . . . 43
1.27 Apprentissage : Rennes2007 et Test: Rennes2007 . . . 43
1.28 Apprentissage : Rennes2007 et Test: Strasbourg 2006 . . . 44
2.1 La répartitiondu volume et desadressessur lespays . . . 51
2.2 Répartition desadresses surles pays . . . 52
2.3 Répartition du volume surlespays . . . 52
2.4 Lesdestinations dutra eDonkey . . . 55
2.5 Lesdestinations dutra web . . . 55
2.7 Composition dutra ADSLpar appli ation (Lyon,le03 Janvier 2006) . . . . 56
2.8 Répartition desadresses externes dutra web (Lyon, 07Mars 2005) . . . 57
2.9 Répartition dutra websurlespaysen termesdevolumeLyon,07 Mars2005) 58 2.10 Les destinationsdu tra eDonkey . . . 59
2.11 Les destinationsdu tra BitTorrent . . . 59
2.12 Les destinationsdu tra web . . . 60
2.13 Répartition du tra eDonkeydans leRBCI(sites CIPA) . . . 61
2.14 Répartition du tra eDonkeydans leRBCI(sites Wanadoo) . . . 61
2.15 Répartition du tra eDonkeyau sein duRBCI . . . 62
2.16 Répartition du tra webau sein duRBCI. . . 62
2.17 Répartition du tra webdansle RBCI(sites CIPA) . . . 63
2.18 Répartition du tra webdansle RBCI(sites Wanadoo) . . . 64
2.19 Symétrie dutra total . . . 65
2.20 Symétrie dutra eDonkey . . . 65
2.21 Symétrie dutra web . . . 65
2.22 Symétrie dutra BitTorrent . . . 66
2.23 Stabilité de lamatri e de tra total (site6) . . . 67
2.24 Stabilité de lamatri e de tra total (site3) . . . 67
2.25 Stabilité de lamatri e de tra eDonkey(site 6) . . . 67
2.26 Stabilité de lamatri e de tra eDonkey(site 3) . . . 68
2.27 Stabilité de lamatri detra web (site6) . . . 68
2.28 Stabilité de lamatri detra web (site3) . . . 68
2.29 Stabilité de lamatri detra BitTorrent (site6) . . . 69
2.30 Stabilité de lamatri detra BitTorrent (site3) . . . 69
2.31 Stabilité de lamatri detra Gnutella (site6) . . . 69
2.32 Stabilité de lamatri detra Gnutella (site3) . . . 70
2.33 La proportion dutra eDonkey lairsurune durée de98 heures . . . 71
2.34 Prin ipales omposantes dutra dansleréseau OTIP . . . 71
2.35 Prin ipales omposantes dutra dansleréseau OTIP . . . 72
3.1 Fra tion depair en oursde télé hargement en fon tion dela harge. . . 90
3.2 Fra tion entrelenombre de serveurso upésetlenombre de serveursen fon -tion dela harge. . . 91
3.3 Fra tion deserveurspar rapportà lapopulation totale enfon tion de la harge. 91 3.4 Fra tion deserveurso upés par rapport àà lara ine de
N
. . . 913.5 Convergen edesmarginalesdelamesure
M
[N ]
quandN
tendversl'innipourρ = 1.2
. . . 933.6 Rationentrelenombredepairsatta hésauxserveursetlelenombredeserveurs en présen edesfreeriders. . . 94
3.7 Ratio entrele nombre de serveurs o upéset lenombre total de lapopulation en présen edesfreeriders. . . 94
1.1 Compositiondu volume par appli ation (TCP) . . . 9
1.2 Lesadresses de sour e etde destination TCP et eDonkey. . . 11
1.3 Répartition du volume par appli ation (sensmontant et des endant). . . 15
1.4 Pour entageen volume desportsstandard et portsvoisins. . . 15
1.5 Répartition desadresses internes et externes en fon tiondesappli ations. . . . 15
1.6 Di hotomieelephant souris . . . 17
1.7 Lesstatistiques du premieret de deuxième ordre . . . 21
1.8 Le tra UDP: di hotomieélephant souris. . . 26
1.9 Pour entage en termes de volume du tra estimé eDonkey par rapport à la sour e et àla destination par appli ation. . . 34
1.10 Pour entagedutra estiméêtredel'eDonkeypourlesprin ipales omposantes dutra .. . . 35
1.11 Pour entageduvolume onsidéré ommedel'eDonkeypourlesprin ipales om-posantesdu tra en onsidérant les annuairesélagués. . . 36
1.12 Pour entagedu tra dé laré eDonkey pour haque appli ation. . . 37
1.13 Répartition en nombre de otset en volume par typed'appli ation. . . 38
1.14 Répartition en nombre de otset en volume par typed'appli ation. . . 39
2.1 Correspondan eentrenuméroset destinations. . . 54
2.2 Sites OTARIE CIPA et Wanadoo . . . 58
2.3 Le lassementdesASdesour eetdedestinationselonlevolumetotal,levolume eDonkeyet le degré. . . 73
En1972,BobKhanetVintonCerf,deuxingénieursaméri ains,présentaiento iellement
et pour la première fois les résultats d'un projet lan é depuis la n des années soixante :
ARPANET.Le lan ement duprojetétait intimement liéà l'ambian e de laguerre froide qui
régnaitàl'époque.Eneet,les on epteursdel'ARPANET her haientà réeruneplateforme
de ommuni ations invulnérable fa e à une attaque nu léaire tou hant l'un des onstituants
de etteplateforme.Cepremierréseau plataévoluédepuis ettepremièredémonstrationet a
donnénaissan eauréseaudesréseaux:Internet.Pendant etteévolution,Internetestdevenu
au fur et à mesure très hiérar hique et ara térisé par une intense entralisation. Ce hemin
inverse au on ept de la genèse d'Internet que le monde de la re her he et de l'industrie a
emprunté se traduit par la prédominan e d'une ar hite ture extrêmement entralisée qu'est
l'ar hite tureClient/Serveur.Leweb,l'illustrationlapluspédagogiquede ettear hite ture,a
étél'élément lédansladémo ratisationd'Internetdanslemondeaudébutdesannées90.Le
web estl'appli ation quiamarqué lemondedesréseauxtout aulongde ladernièredé ennie
du XX siè le. Malgré les tailles réduites des pages HTML plus ou moins enri hies ave des
images, le web représentait la omposante majoritaire du tra Internet. Le tra web a fait
l'objetdediversesétudesdemétrologieetdemodélisationmathématique.Cettehégémoniene
vapastarderàdisparaître pour éderlapla e àunenouvelle formed'appli ation pluspro he
dansleurphilosophiedu on eptoriginelduréseauplat.En1999,leréseauNapster, onsidéré
depuis ommelepremierréseauPeer-to-Peer(p2p),permettaitàsesutilisateursdetélé harger
pas moins de 2 millions de titres MP3. Au paroxysme de sa réussite, le serveur de Napster
a été fermé à ause des poursuites judi iaires lan ées à son en ontre. Le serveur Napster
a bous ulé l'industrie audiovisuelle en proposant un a ès gratuit aux ontenus numériques
soumisauxdroitsd'auteurs.CetteaaireNapster,n'apasempê hél'emergen ed'unepanoplie
d'appli ationsp2pdepartagede hiers.Cesappli ationsp2psontdevenuestrèsrapidementla
sour edelamajeurepartiedutra danslesréseauxIPdesopérateursdestélé ommuni ations
danslemonde entier.
Eneet, aujourd'hui, l'observationdes lienstransportant letra ADSLmontrent quela
partdutra desservi esp2pestrelativementgrande etdépasse parfoislabarredes70%du
tra global. Cette observation est ommune pour tous les réseaux publi s et en parti ulier
pourleréseaude Fran eTélé om.La ompréhensiondufon tionnement desappli ations p2p
et laprédi tion des éventuels impa ts sur leréseau desopérateurs sont devenuesalors
indis-pensables pour un opérateur omme Fran e Télé om. L'émergen e de e phénomène estdue
à plusieurs fa teurs très variés. Cependant, la démo ratisation des a ès haut débit reste le
fa teur leplusdéterminant dansl'évolution vertigineusede esappli ationsp2p.En eet,les
temps detélé hargement des ontenus audiovisuels(musique, vidéo)sonténormément réduits
ave lesbandespassantesoertesparlate hnologie ADSL.Aujourd'hui,lamajeurepartiedes
onte-nus é hangésne sont paslibresde droits.Cet aspe tlégal aétémarqué par l'aaireNapster,
le pionnierdessystèmes p2p d'é hanges de ontenu. Lespoursuites judi iaireslan ées à
l'en- ontre des on epteursde Napsteront onduità lafermeturedu serveur.Mais ontrairement
à e qu'on attendait, ette dé ision n'afait qu'amor er ledéveloppement d'une multitude de
nouveauxsystèmes d'é hanges de hiers plus robusteset moinsvulnérables.
Cependant, espoursuites judi iaires ont énormément ompliquéles étudesde e type de
réseau.Eneet,lesutilisateurspréfèrent amouerleurtra p2pvialesdiérentsmé anismes
misàleurdisposition.La ara térisationdelapopulationeDonkeys'estrévéléeen onséquen e
relativement di ile. En eet, elle- i passe par une identi ation plus au moins pré ise du
tra engendré par l'appli ation eDonkey. L'appro he lassique pour observer le tra d'une
ertaine appli ation onsiste à analyser les ports sour e et destination. Cette appro he que
nous avons adoptée au début n'est pas très e a e dans le as des appli ations p2p. La
ontributiond'eDonkeyestbizarrementendessousdenosprédi tions.Cetteobservationnous
laisse présager qu'une bonne partie du tra passe par les ports non usuels. L'étude des
réseaux p2p passe tout d'abord par une étape d'identi ation. Cette étape préliminaire est
essentiellepourla ara térisationde esréseauxentermesdetra etdetopologie.Lepremier
hapitre de la thèse traite de ette problématique d'identi ation du p2p et essentiellement
de l'eDonkey, en présentant une panoplie de méthodes qui existent dans la littérature ainsi
que d'autres méthodes développées au ours de la thèse. Après avoir obtenu une proportion
de tra jugée représentative de l'é hantillon de la population eDonkey étudiée, nous avons
étudiéles ara téristiquesentermesdetra de ette omposantep2penutilisantentreautres
ladi hotomiesouris/éléphant
Outre les ara téristiques du tra , nous avons analysé, dans le deuxième hapitre, la
topologie du réseau eDonkey dansle réseau de Fran eTele om à l'é helle nationale et
inter-nationale. Lapremièreétapedela ara térisationd'unetopologie d'unsystèmedonnérevient
à ara tériser une image gée dans letemps et formalisée sousla formed'un graphedont les
sommetsreprésentent lespairsetoùlesar sreprésentent uneinformation binaire(est equ'il
ya eu une onnexion oupasentre esdeux pairs?).And'enri hir ette image,troisa tions
possibles peuvent être menées. La première onsiste à introduire despoids sur les liens. Ces
poids nousrenseignent sur lesvolumes é oulésentredeux sommetsou en orele débitmoyen
qu'on a pu observer entre eux. La deuxième a tion onsiste à obtenir des poids instantanés
au lieu despoidsmoyennés surla période de lamesure. Ce i permet d'intégrer le paramètre
du temps pour ernerladynamiquedu système.La onnaissan e du omportement d'un seul
lient p2p aidera à omprendre et à formaliser ette dynamique. Une troisième a tion agit
plutt surles sommets du graphe. Ces sommets représentent les adresses IP des lients p2p.
An de onnaître la apa ité des systèmes p2p à utiliser d'une façon optimale, la topologie
physiquesous-ja ente,d'autresniveauxde granularité doiventêtre introduits.Uneagrégation
des adressesIP selondesentitésplus grandes,intimement liéesauxmé anismes detransport
hez l'opérateur, omme les AS,les pays ou lesrouteurs de ra ordement auréseau doit être
réalisée. Eneet,un lient eDonkey nepossède au une ons ien e géographique et ilest
pos-sibleparfoisderapatrierdes hiersà partirde sour essituées unpeupartout danslemonde
même si le ontenu re her hé est disponible hez un voisin géographique. Dans le système
eDonkey, un voisin logique n'est pas for ément un voisin géographique. L'équivalen e entre
es deux types de voisins est bénéque non seulement aux FAI ( oût de peering, tra inter
FAI) mais aussi pour les utilisateurs qui auront des temps de télé hargement et de réponse
plus petits. Nous avonstendan e à onsidérer que le systèmeeDonkey n'est régi par au une
permettent d'avoir une ertaine onnaissan e surle tra p2p. Des travauxantérieurs sur la
métrologie, menésauseindeFran eTélé omdansle adred'unethèsepré édente,ontpermis
d'inférer quelques ara téristiques propres au tra p2p. Ce tra est marqué par une forte
a tivitédesignalisation,quisemanifestepardesrafalesdepetitsmessages.Parallèlementàla
signalisation, on observe également desphases de transfert des données ara térisées par des
onnexionsdelonguesduréesetunnombre élevédepaquets.L'apparition de esdeux
ompo-santes detra p2p estindisso iable du omportement des lientsp2pet surtout dumodede
fon tionnement des proto oles qui régissent la ommuni ation dansles réseaux logiquesp2p.
Ces deux omposantes de tra se prêtent bien à une modélisation mathématique dèsqu'on
adopte un dé oupage approprié du tra observé. Le tra de signalisation peut être dé rit
par unmodèlebasésurdespro essussto hastiquesliésàdeslesd'attente dutype
M/G/∞
.Cetra , malgré saprédominan e en termesde nombre deots, ontribue àmoinsde 5%du
volume total.Cedéséquilibreentrenombredeotset ontribution envolumeestladiéren e
fondamentale ave la deuxième omposante du tra p2p, onstituée d'un petit nombre de
ots maisengendrant la majeure partie du volume observé.En se basant sur une agrégation
adéquate,letra desdonnéespeutêtreluiaussidé rit parunmodèlemathématique simple.
En plus de la modélisation du tra p2p, il est important de ompléter es travaux par une
analysedu omportementdessystèmesp2presponsablede etra .L'analysede e
omporte-ment permet de omprendreplusieurs phénomènesquenouspouvonsobserver danslaréalité.
Eneet,l'observationdessystèmesréelsmontredessystèmesd'uneextrême omplexité.Cette
omplexité est attendue étant donné que les systèmes en question se présentent omme une
gigantesque nébuleuse onstituée d'un très grand nombre de pairs très hétérogènes et
solli i-tée par des humains aux omportements très divers. An de prédire le omportement de es
systèmes omplexes et d'évaluer les performan es qu'ils orent aux utilisateurs, leur
modéli-sation est une tâ he né essaire. Dans la littérature, plusieurs modèles des réseaux p2p sont
proposés.Ces modèles utilisent unemyriade deformalismesmathématiques (réseaufermé ou
ouvert de les d'attentes, modèles uides,...et .). Dans le troisième hapitre nous présentons
notre propre modèle mathématique qui dé rit la manière ave laquelle le réseau eDonkey se
onstruit.Unsimplemodèlepréliminairebasésurlasimulationaétéproposé.Cemodèlenous
fournit une expli ationplausible de lafortea tivité designalisation quenousobservonsdans
Les premières observations du tra
Sommaire
1.1 La ara térisation des réseauxpairà pair. . . 6
1.1.1 Lesparamètresde ara térisation. . . 6
1.1.2 Lesmesures . . . 6
1.1.3 Constatsurlesparamètresdesréseauxp2préels . . . 8
1.2 Les premièresobservationssur unlien GigabitEthernet . . . 8
1.2.1 Uneanalysedesnumérosdeport . . . 9
1.2.2 Analysedesadresses . . . 11
1.2.3 Ladi hotomieSouris/Eléphants . . . 13
1.3 Les premièresobservationssur unlien OC3 . . . 14
1.3.1 Généralités . . . 14
1.3.2 Analysedesadresses . . . 15
1.3.3 Letra d'un lienteDonkey . . . 16
1.4 Heuristiques pour l'identi ationdu tra eDonkey . . . 27
1.4.1 Prin ipesthéoriqueset réalitédel'identi ation . . . 28
1.4.2 Étatdel'artdesméthodesd'identi ationdutra pairàpair . . . 28
1.4.3 Letra nonidentiéetpotentiellementeDonkeysurlelien GE . . 32
1.4.4 Identi ationdutra eDonkeypotentielsurlelien OC3 . . . 35
1.4.5 Lespremierspaquetsauservi edel'identi ation . . . 41
1.1 La ara térisation des réseaux pair à pair
1.1.1 Les paramètres de ara térisation
Pour ara tériser un système p2p, un ensemble de paramètres doit être mesuré. La
litté-rature identie quatre lasses de paramètres de ara térisation:
La topologie : Lesparamètres de ette lasse visent à ara tériser latopologie du système.
La onnaissan e de la distribution des pairs géographique ou logique (identiés selon
plusieurs niveaux d'agrégation par leurs adresses IP ou par les préxes AS,...)permet
de onnaître lataille dusystème. La onnaissan e des degrés despairesdu systèmeest
un premier pasversladétermination de latopologie.La ara térisation delatopologie
onsistedansunpremierlieuàétablirungraphedontlespaires(selonun ertainniveau
d'agrégation) représentent lessommets.Lesar squilientles sommetsreprésententà e
point de l'analyse une information binaire (une onnexion est en ours entre es deux
paires) sansau une pré ision supplémentaire (pasde poids surles liens).
Le Tra : Les paramètres de tra permettent de donner un poids aux liens qui lient les
sommetsdu graphe. Lespoids peuvent représenter les volumesé oulésentredeux
som-mets ou le débit observé entre eux pendant la mesure. Ces paramètres préparent le
terrain pour une éventuelle omparaison entre l'é oulement de tra d'une appli ation
p2p et d'autres appli ations. Malgré la présen e du paramètre temps dans le débit, le
graphe établijusqu'à maintenant reste une image gée du réseau réel aumoment de la
mesure. Cetteimage n'exprime pasle ara tère évolutif du systèmeétudié.
La dynamique : Ces paramètres ara térisent l'évolution du système au ours du temps.
Les systèmes p2p évoluent très rapidement. Les paires arrivent et quittent le système
d'une façon aléatoire et laduréede vie desliens esttrès variable. Cette aspe tévolutif
du systèmeétudié doit être pris en ompte en déterminant d'autresparamètres tel que
laduréed'une onnexion,laduréed'a tivitéd'unpaireoulespériodesdesonina tivité.
Les paramètres so iaux : L'étude de es paramètres revient à déterminer et à
ara téri-ser d'éventuelles ommunautés sémantiques. Dans ette lasse on pourra intégrer des
onnaissan essurledegréde oopérationdespairesetleur ontributiondanslesystème
étudié.
1.1.2 Les mesures
Pour ara tériserlatopologiedesréseauxpairàpairréels,la ampagnedemesuresestune
étapepréliminaireindispensable.Danslalittérature,ilexisteunemultituded'appro hespour
faire desmesures mais que nous pouvons lasser tout de même dansdeux grandes familles:
les mesures a tiveset les mesurespassives.
Mesures A tives
Lesmesuresa tives onsistentàintégrerun rawlera tifdanslesystème.Le rawlerestun
lient d'une appli ation donnée quel'on modiedanslebut de fairede mesuressurle réseau
asso iéà etteappli ation.Enfaisantpartieintégrante de edernier,le rawlera tifpro édera
à une olle te d'informations et de ara téristiques desdiérents élémentsdu système.
Engénéral,un rawlera tifestun lientp2pmodiéquipermetd'avoirdes ara téristiques
passante des lients, les délais de propagation, les fréquen es de onnexion/dé onnexion, les
hiers partagésou ledegréde oopération,...et .
Le degré de sophisti ation du rawler a tif varie énormément. Il peut partir d'une
ap-pro he très simple en utilisant des outils basés sur le proto ole ICMP (ping/pong basique).
Cependant, les résultats de ette appro he restent limités. Au ontraire, des méthodes plus
évoluées né essitent un logi iel spé ialisé [58 ℄. Entre les deux, des appro hes intermédiaires
sont possibles et orent un bon ompromis entre l'e a ité et la simpli ité. Pour étudier le
réseau Gnutella, les auteurs de [73 ℄ ont utilisé un outil appelé LF. Cet outil se base sur la
plateforme de mesureSting [76 ℄.
Dansune première étape,les auteurs [73 ℄ re ensent les lients onne tés au réseau
Gnu-tella.La deuxièmeétape onsisteà onta ter ànouveautousles lientsre ensésande
déter-miner un ertain nombre de leurs ara téristiques. L'ensemble des pairs Gnutellaprésentent
une hétérogénéité remarquable en termes de temps de laten e, de bande passante et de
dis-ponibilité. Les auteurs [73℄ ont noté également la tendan e des paires à fournir de fausses
informations. En plus des temps de laten e ou de labande passante disponible des pairs du
système Gnutella, le rawler a tif permet également de donner la topologie qui maille
l'en-semblede seséléments.
Lesauteursde[70 ℄ontutiliséun rawlera tifdanslebutd'établirunetopologieduréseau
Gnutella. Pour efaire,le rawlerestpré onguré ave unelistedepairsGnutella.Cetteliste
est par ouru séquentiellement et haque pair est onta té. Le rawler ré upère la liste des
voisins du pair orrespondant présente dans les messagesPong du proto ole Gnutella. Cette
appro he onsomme énormément de ressour es (ressour es réseau et CPU). En eet, pour
onstruire une topologie ave seulement 4000 n÷uds, la olle te a duré plus de 50 heures.
Pour ontourner e problème, les auteurs de [70℄ ont eu l'idée de paralléliser la tâ he entre
plusieurs lients.Chaque lients'o uped'unepartiedelalistepublique.Cetteparallélisation
a élère l'opération maisaufond leproblème estloin d'être résolu.
La nature de l'objet de mesure exige énormément de ressour es CPU et beau oup de
bande passante. En eet,la topologie d'un réseau p2p évolue ave une rapidité extrême. En
onséquen e,le rawlerdoitêtrepourvud'énormesressour espourobtenirune opiedèledu
réseau.Sansressour e,le rawlerseraittrèsrapidement in apablededresserlatopologied'un
réseau de taille onséquente. En plus des ressour es, l'appro he du rawler a tif exige aussi
une onnaissan e trèspré ise duproto ole étudié.Cette ontrainte n'est pastoujours fa ileà
satisfaire.Eneet,lesspé i ationsdes lientspourquelquesproto olessonttoutsimplement
toutabsents.
Pour nirave e typed'outilde mesure, notonsquele rawler a tifpeutendosserle rle
de n'importe quel élément du système peerto peer. Prenons l'exemple du système eDonkey.
L'indexation des ontenus se fait d'une façon entralisée au niveau d'un ertain nombre de
serveurs géographiquement dispersés. Le serveur peut être installé sur n'importe quelle
ma- hinedésirantjouerunrle dansl'indexation.En onséquen e,unserveur peutjouer,en plus
de son rle d'indexation, un rle d'espion sur le système en analysant les requêtes envoyées
par les lientset par les autres serveurs d'indexation. L'analysede esdeux entités(requêtes
et réponses) aide à déterminer, par exemple, la popularité d'un ertain ontenu (nombre de
requêtes reçues) ou la liste des pairs sus eptibles d'être onta tés par le lient qui a fait la
requête.
L'observation du système eDonkey à partir d'un serveur d'indexation ore une vue plus
panoramique que l'appro he lient. Mais malgré son e a ité pour l'analyse de omposants
l'é oulement du tra entre les pairs. En eet, laliste des sour esde ontenu envoyée par le
serveur vers le lient n'implique pas for ément un é hange de données entre e lient et les
sour es. En plus,il estpossibled'initierun transfertsans êtreamener àinterroger leserveur.
Par exemple, les auteurs du lient emule supposent que deux pairs qui s'é hangent un
hier ont une forte probabilité d'avoir des entres d'intérêts en ommun. En onséquen e,
le logi ielpermet aux lients en ommuni ation de s'é hangerleurs listes de hiers partagés
sans passerpar unserveur d'indexation.
Mesures passives
Pourlesmesurespassives,l'outild'observationnefaitpluspartiedusystèmeétudié.Ce
a-ra tèrenonintrusifdelaméthodelimiteleséventuellesinterféren esentrel'outild'observation
et l'objet observé.Lesmesures passivespeuvent être exhaustivesou é hantillonnées.
Une mesure exhaustive onsiste à apturer tousles paquets d'un lien donné.La première
étape onsiste à hoisir le lieu de l'observation de tra . Pour étudier le tra Kazaa, les
auteursde[33 ℄ontfaitleur apturesurunliendesortied'un réseaud'un ampusuniversitaire
à Washington. L'auteur de [83℄ a également utilisé une apture d'un lien de sortie dans un
réseau universitaire pour étudier le tra eDonkey. Quant aux auteurs de [44℄ et de [43℄, le
tra étudié est un tra ommer ial. Le lien sur lequel le tra a été apturé est un lien
OC48 (2.5Gbps) d'un fournisseur d'a ès Internet améri ain. Le but de ette de apture est
de ara tériser letra p2p.
1.1.3 Constat sur les paramètres des réseaux p2p réels
L'analysedes ara téristiquesdesréseauxp2prévèlentunfortdegréd'hétérogénéitéentre
les pairs de essystèmes.
Lepremierniveaudedisparitéexisteentrelessystèmesp2p.Ce iestrelativementprévisible
étant donnéque les proto oles et les prin ipesqui régissent deux systèmesp2p distin tssont
généralement très diérents.
Il existe aussi un deuxième degré d'hétérogénéité qui est au ontraire inattendu. Cette
hétérogénéitéestobservableauseind'unmêmesystèmep2p.Eneet,lesdiérents lientsd'un
même réseau peuvent évoluer les uns indépendamment des autres. Cette évolution ontinue
et peut induire des omportementsdiérents.
Letroisièmeetdernierdegréd'hétérogénéitéestrelatifauxdiéren esd'usageentreles
uti-lisateursdesréseauxpairàpair. La ontributionde haquen÷udentermesdetra n'estpas
du touthomogène.Cettedisparité setraduit par l'apparitiondelanotiondes lients-serveurs
(heavy users) et des lients- onsommateurs (free riders). Mais en général, es disparités ont
tendan e àdisparaître dèsque nousatteignons un ertainniveau d'agrégation.Eneet,dans
une étuded'AT
&
T [78 ℄,l'analyse des tra esNetowissues des routeursde bord montre queles volumes entre lessystèmes autonomesrestent relativement stablesau oursdu temps.
1.2 Les premières observations sur un lien GigabitEthernet
Dans ette se tion, nous présentons quelques résultats sur le tra observé sur un lien
Gigabit Ethernet (GE) reliant le Réseau Ba kbone de la Colle te IP (RBCI) à plusieurs
plaques ADSL.La aptureaétéfaite danslesens des endant(sens duRBCIvers lesplaques
les 137,725,328 paquets observés sur le lien, 81% sont des paquets TCP. Ces paquets TCP
représentent environ88% duvolume umulé surles 30minutes.
Lespremièresanalysessesontfo aliséessurletra engendréexpli itement parles lients
p2pduréseaueDonkey. Letra p2ppassethéoriquement surlesports standard4665et4672
en UDPet 4661et le4662en TCP.Dans equisuit,letra eDonkeyquipassepar lesports
standard sera appelé tra eDonkey lair; il représente 27% du volume total umulé surles
30 minutes (TCPet UDP).
Enprenant en ompte le tra eDonkey lair, on observe que e proto ole engendre 42%
des paquetsTCP. Cette ontribution est plus faible (17%) pour les paquets UDP. Lorsqu'on
s'intéresse aux volumes umulés, on remarque que la ontribution d'eDonkey dans le tra
TCP est de30% et qu'ellen'est quede 4%pour UDP.
Dans letableau 1.1, on peut trouver la omposition du tra ADSL(TCP) apturé sur
lelien GigabitEthernet, en termesde volume.
Appli ation Pour entage p2p eDonkey 30.36% Gnutella 2.44% Bittorrent 0.35% Kazaa 0.35% Napster 0.95% nonp2p http 27.77% NNTP 1.52% RTSP 1.01% FTP 0.77% POP3 0.88% Autres 31.46%
Tab.1.1 Compositiondu volume par appli ation (TCP) .
L'analyse du tra UDP montre que la ontribution d'eDonkey est plus signi ative en
nombre de paquets qu'en volume, e dernier restant relativement négligeable. Cela onrme
le fait que dans le réseau eDonkey, UDP ne sert pas à réaliser les transferts de hiers; son
rle selimite à lare her he et l'indexation de ontenus.
1.2.1 Une analyse des numéros de port
Analyse des numéros de port
L'analysedutra surle lienGE onrme l'importan ede la ontributiondu p2p.Même
enselimitant àune analysedelapartie lairedutra p2p, elui- iapparaît danslalistedes
appli ationslesplusprésentesdansletra global.Parmilesdixpremiersportsdedestination
envolume,ontrouvehuitportsdedestination onnus ommeportsstandarddup2p(eDonkey,
Gnutella, Bittorrent,Napster,...). En e qui on erne lesports desour e,3portsstandard du
p2pgurentdanslelistedes5premiers portsqui ontribuent leplusen volume.Leproto ole
eDonkey est deloin leplus produ tif parmi les appli ations p2p.L'analyse desports montre
quelesport4662et4661représententplusde20%(resp.10%)detouslesportsdedestination
(resp. sour e).
Nousnotons également, l'importan e du tra Web. Celui- i est leplus volumineux
portsdedestination,letra webestpresqueinexistant(moinsde1%).Notonsi iqueleport
80 dédié habituellement au proto ole http peut être utilisé omme portd'é oute pour le p2p
an de déguiser elui- i en tra web et ontourner ainsi d'éventuels ltrages au niveau des
mé anismes de pare-feu. Par ailleurs, quelques réseaux p2p utilisent expli itement le
proto- ole httppour lasignalisation. Citons par exemple Bittorrent où l'on trouveun serveur http
tournant surleTra ker ( oordinateur detélé hargement d'un hier).
En dehors du web, on remarque également une évolution du tra due aux news. Le
proto ole NNTP se lasse tout de suite après les deux plus importantes appli ations p2p
(eDonkeyet Gnutella). Ce ipeut êtreexpliquéparl'utilisation desnews pour lesé hangesde
hiersmultimédia(lms,MP3,...).Cettemigrationesttrèsprobablementla onséquen edela
médiatisationdespoursuitesjudi iaires ontreles utilisateursdup2p.Uneautre onséquen e
de ettemédiatisationestl'utilisationdesportsnonstandard.Lesports5662,14662 ou40662
sont sans doutedes ports d'é oute pour les appli ations du réseau eDonkey. Par exemple, le
port5662(entantqueportsour e)arrivedevantleportduproto oleftpen equi on ernele
volume.Les mêmes onstatations surla ontribution desappli ations p2p en volume restent
vraiespourla ontributionennombredepaquetspour enumérodeport.Entantqueportde
destination, elui- i arriveen se ondeposition avantlesappli ationsp2p Bittorrent,Gnutella
ou Napster.
L'analysedespaquetsUDPmontrequeeDonkeyet Gnutellasont pratiquement lesseules
appli ations quiutilisent onjointement TCP etUDP. Ave WinMX(presque inexistantdans
letra TCP),eDonkeyetGnutellasontlesseulesappli ationsp2pdanslalistedes5premiers
portslesplusprodu tifsenvolume.Dans etteliste, ontrouveenpremièrepla e, leproto ole
d'en apsulation L2TP qui ontribue à plusque 70%duvolume enUDP. Le reste est partagé
entre les appli ations p2p, les jeux en réseau (HalfLife, Quake) et aussi le port 5672 qui
onrme la onstatation faitesurleport5662 pourTCP. Laprédominan edeL2TPen equi
on erne letra UDPestdue aufaitque letra desISP tiersesttransportédansleréseau
de Fran e Télé om dansdestunnels L2TP.
Con lusion partielle sur l'identi ation du tra p2p. Pour on lure ette se tion, on peut
remarquerqueletra eDonkey,endehorsdesportsstandard4661et4662,estessentiellement
transmis en utilisant des ports voisins tels que 5662, 14662 ou 40662. En fait, en prenant
en ompte es ports et les ports standard, on arrive à identier une bonne partie du tra
eDonkey, àsavoir 90%dansle asparti ulier onsidérédans ette se tion,qui n'est peut être
pasreprésentatif à ause desadurée limitée(30 minutes).
Analyse des ouples de portssour e/destination
Enanalysant letra TCP,ondénombre 1,278,301 ouplesdeports(sour e,destination).
En moyenne un ouple de ports engendre 107 paquets et un volume de 63 Ko; la moitié de
es ouples de ports se sont é hangés moins de neuf paquets. Les ports relatifs au proto ole
eDonkey sont lesportsqui ommuniquent leplusave d'autresports distin ts.
Alorsquelamoyenneestde20portsdedestinationpourunseulportsour e,leport4662,
en tantqueportdedestination,a ommuniqué ave 58,999 ports desour e(sur seulement 30
minutes). Sa hant qu'on observe lamême moyenne lorsqu'onanalyse les ports de sour e, on
onstate queleport4662 a ommuniqué ave 52,707 ports de destination distin ts.
A titre de omparaison, le port 80 relatif au proto ole HTTP est le port d'é oute pour
Les ports 4662 et 4661 ommuniquent rarement entre eux; dans le réseau eDonkey, ils sont
plutt desports d'é oute.Un lient qui veut initier une onnexion ave un autre lient,joint
e dernier sur sonport d'é oute (4662 ou 4661 par défaut) et utilise un numéro portsour e
aléatoire entre 1025 et 65535 (1025 est le numéro de port qui a le plus ommuniqué ave le
port4662).
Con lusion partielle. En observant les ports de destination, on onstate, en supposant que
haqueutilisateuraunnumérodeportdesour ediérent,qu'unnombre olossald'utilisateurs
(plus de50,000) aessayé de ommuniquereneDonkey lairave lesterminaux onne tésaux
plaques ADSL desservies par le lien GE observé et e i seulement sur 30 minutes. Cette
observation laisseprésager delataille gigantesque duréseau eDonkey.
1.2.2 Analyse des adresses
Sur les 30 minutes de apture, on dénombre 30,425 adresses de destination qui ont
om-muniqué en TCP omme indiqué dans le tableau 1.2. Seulement 33.1% de es adresses de
destination ont aumoins ommuniquéunefoisenp2p lair(i.e.reçuaumoinsunpaquetave
4662 ou 4661 omme portde sour e ou de destination). Ce pour entageatteint environ 72%
pour les adresses dessour es : surles 1,191,465 adresses de sour e (TCP) observées, 856,761
adresses ont ommuniqué en p2p lair. En e qui on erne les ouples (sour e, destination),
le pour entagedes ouples qui ont ommuniqué en p2p lair estintermédiaire et avoisineles
62%(2,388,909 ouples surles 3,821,608 ouples).
TCP eDonkey
AdressesSour e. 1,191,465 856,761(72%)
AdressesDest. 30,425 10,072(33.1%)
Couples 3,821,608 2,388,909(62%)
Tab.1.2 Lesadresses de sour e etde destination TCP et eDonkey.
Un oupled'adresseseDonkey lairs'é hange(statistiquesurunseulsens)en moyenne24
paquets (36 paquets pour TCP). Le volume de données é hangé par ouple est en moyenne
égal à 10 Ko tet ( umulé sur 30 mn), il est le double pour TCP (le volume eDonkey est
ontenu dans le volume TCP total). En analysant par adresse, on remarque qu'en moyenne,
une adresse de sour e de type eDonkeyenvoie environ28 Ko tets (toujours sur30 minutes).
Uneadressededestinationreçoitenmoyenne environ2.5Mo.Cesdonnéesreçuesproviennent
enmoyenne de238adressesdesour eet vont vers3adressesdedestination.Lefaible volume,
en moyenne, transmispar les sour ess'explique par le faitque les utilisateurs qui rapatrient
des données à partir d'un terminal onne té à l'une desplaques ADSL desservies par lelien
observé n'envoie que des messages d'a quittement ou alors que les lients ont ommuniqué
ave un super n÷ud. Par ontre, les lients ADSL qui rapatrient des données reçoivent un
volume onséquent(sur 30 mn).
En analysant les adresses de sour e de manière plus pré ise, on s'aperçoit que le serveur
belgeRazorba kest lasour e quia leplus ommuniqué ave desadresses dedestination (875
adresses). Dans le tra TCP, il n'est ependant lassé que 43ème. De plus sa ontribution
en volume est négligeable. Sur les adresses de sour e eDonkey, il n'est que le 1341ème lient
en volume. Ce i s'explique par le fait qu'un super n÷ud eDonkey sert seulement à la tâ he
des lients Internet. Les trois premiers sont des abonnés de FAIs fran ophones (le Suisse
Cable om, Free, le Québé ois Sympati o). Les lients français semblent avoir une préféren e
linguistique (lmsen versionfrançaise parexemple).
Sur toutes les adresses de sour e observées sur les 30 minutes, la plus importante en
volume est elle duserveur de news news-europe.giganews. om; e serveur aservi 4 adresses
de destination. Ce i onrme unefoisde plusl'augmentation desnews dansletra observé.
Ce serveur de news a le plus ontribué dans le volume total TCP. Il est en l'o urren e
responsable de la majeure partie du tra des news. Par ailleurs, plus de 8.500 adresses de
sour e génèrent 80% du tra eDonkey. Cette onstatation reste vraie pour les adresses de
destination mais le volume est mieux réparti sur les lients. En eet, 80% du volume sont à
destination d'environ 8% des lients soit 750 adresses de destination. La loi de Pareto (une
faible proportion des adresses engendre la majorité du volume)n'est passpé ique au tra
p2p. La gure 1.1 montre en outre que le tra eDonkey est plus réparti sur les adresses
destination que letra TCP global. Le phénomène est en ore présent lorsque on s'intéresse
aux ouplesd'adressesetilestmêmeplusintense.Plusde90%dutra eDonkeyestengendré
par seulement 1%des ouples d'adresses.
Ces gros fournisseurs (ou onsommateurs) du tra eDonkey lair sont également parmi
les gros onsommateurs de la bande passante du tra TCP. Le tra eDonkey des
fournis-seurs représente 94%de leurtra total.Pour les onsommateurs (adressede destination) e
pour entage estde l'ordrede 70%.
10
−8
10
−6
10
−4
10
−2
10
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
% Address
% Volume
Src. eDonkey
Dest. eDonkey
Src. TCP
Dest. TCP
Fig. 1.1 Répartitionduvolumesuivant lepour entagedesadressesde sour eet de
destina-tion
Con lusions partielles. L'analyse des adresses donne des renseignements très importants sur
lastru ture du réseau eDonkey :
1. environ30%des lientsontreçudutra surlesports standard; si eux- isont utilisés
omme port d'é oute, on peut s'attendre à e que 30% des lients jouent le rle de
serveursp2p;ils orrespondentàpeuprèsauxheavyusers entermesdetra quisont
régulièrement observéslors de l'analysedu tra ADSL;
2. une faible proportion de lientsrapatriedes données(8%sur lademi-heure observée);
1.2.3 La di hotomie Souris/Eléphants
L'appli ationdeladi hotomieSouris/Eléphantssurletra eDonkey lairetletra TCP
montrequelenombre deséléphants(otsave plus20 paquets)estlargement inférieurà elui
dessouris(ots ave moins20 paquets).Eneet,lesots sourisreprésentent plusde 96%du
nombre total desots(98%pour letra eDonkey).Malgrél'infériorité numérique en termes
deots, leséléphantsreprésentent 93%duvolumetotal pourletra TCPet également pour
letra eDonkey lair.Lorsqu'ons'intéresseaunombredepaquets,le ontrasteentre esdeux
typesdeotsestmoinsintense;leséléphantsengendrentenviron62%despaquetsetlessouris
sont essentiellement forméesde paquetsdepetite taille.
L'analyse de la répartition de la taille des paquets des éléphants montre l'existen e de
deux lasses (voir1.2(a) et 1.2(b)).Lapremière lasseest on entrée autourdelataillede40
o tets; e sont les paquets des éléphants ACK (a quittements). La deuxième lasse se situe
dans l'intervalle 1200 et 1500 o tets. Ce sont les éléphants réguliers, qui sont asso iés aux
transferts de données. Un pi est présent au niveau de la taille de 576 o tets, relative à la
valeur delaMTU duproto oleIPstandard.
0
200
400
600
800
1000
1200
1400
1600
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
packet size (bytes)
percentage
(a)PaquetsTCP0
200
400
600
800
1000
1200
1400
1600
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
packet size (bytes)
percentage
(b)PaquetseDonkey lair
Fig. 1.2La répartition delataille despaquets
Lespaquets souris sont essentiellement de petite taille. Cette dernièrene dépasse pasles
140 o tets.Le pi prin ipal estsituéauniveau delavaleurde 40o tets(40%despaquetsont
ette taille).
En se basant sur la taille moyenne des paquets d'un ot, on sépare les ots éléphants
en deux lasses : les éléphants d'a quittement (éléphants ACK) et les éléphants réguliers qui
orrespondentautransfertdedonnées.Lesotsréguliersnereprésententque58%delatotalité
dunombre deséléphants, maisen revan he,ilsontresponsablesde lamajoritéduvolume des
éléphants umulé surles 30minutes(97% du volume).
L'analysedesdeux lassesmontrentune ertainesimilitudelorsqu'ons'intéresseaunombre
de paquets par ot. Par ontre, des disparités apparaissent dès qu'on s'intéresse au ritère
volume. Un ot éléphant régulier transporte en moyenne 0.8 Mo. Cette moyenne est 25 fois
plus petite pour les ots ACK.Ces moyennessont al ulées surla duréede la apture de30
minutes. Il est possible que des ots soient tronqués e qui explique l'absen e d'une valeur
10
2
10
3
10
4
10
5
10
6
10
7
10
8
10
−5
10
−4
10
−3
10
−2
10
−1
10
0
Flow volume (bytes)
CCDF
Elephants Regulier
Elephant Ack
Fig. 1.3 Fon tionde répartition umulative omplémentaire de lataille deséléphants
1.3 Les premières observations sur un lien OC3
Dans ette se tion, onanalyse une tra e de
3
heures réalisée dansles deux sensd'un lienOC3le7Mars2005 entre
18
het21
h. Onselimite dans e quisuit àuneanalysedespaquetsTCP. Onappelle sensdes endant lesensquivéhi uleletra verslesutilisateurs. Lesensqui
remonte des utilisateurs vers le RBCI est appelé sens montant. Les adresses de destination
du liendes endant etles adressesdesour e dulien montantserontappeléesadressesinternes
(i.e. les adresses des lients ADSL onne tés à laplaque ADSL observée) par oppositionaux
adresses externes.
1.3.1 Généralités
Le nombre de paquets TCP observés pendant les 3 heures dans le sens des endant est
de 82,540,876. Ces paquets engendrent un volume égal à 49,900,262,357 o tets. Sur le sens
montant,on apture2%deplusdepaquetsTCP(84,140,885).Enrevan he,levolume umulé
surles3heuresdanslesensmontantnereprésenteenvironque67%duvolume umulédansle
sens des endant.Cette dissymétrienaturelle de l'a ès ADSLn'est passurprenante maiselle
est malgré tout assez modeste, e qui indique une utilisation de plus en plus symétrique du
réseau ave lamontée enpuissan e desproto oles p2p; une symétrisation parfaiteest en ore
ontrariée par desdébits d'a èsdiérents d'un sensà l'autre.
Pourillustrerlephénomènedesymétrisationdesux,prenonsparexempleleréseau
eDon-key. Levolumeengendrépar eréseaudanslesensmontant (52.55%duvolume)estdeuxfois
plus important quelevolume observé danslesens des endant.L'évolution du tra montant
des lients, négligeable avant la montée en puissan e desappli ations p2p, va probablement
pousser les FAIs à repenser leur modèle é onomique. En eet, e modèle basé sur une
hy-pothèse d'asymétrie des deux sens, n'est plus valable quand le p2p est plus important que
le web dans le palmarès des appli ations les plus populaires. Ce dernier est marqué par un
fort ontraste entre les deux sens. L'analyse de la tra e montre que le tra Web représente
34.57% du volume des endant et seulement 6.22% du volume umulé pendant 3 heures sur
le sens montant. La répartition du volume pour le reste des appli ations est donnée dans le
Appli ation Pour entageUp Pour entageDown p2p eDonkey 53% 17% Gnutella 5% 5% Bittorrent <1% <1% Napster 1% 1% nonp2p HTTP 6% 35% NNTP <1% 1% Autres 34% 41%
Tab.1.3 Répartition duvolumepar appli ation (sens montant et des endant).
Notons i i quel'on entend par tra eDonkey letra TCP qui passe non seulement par
lesportsstandard del'appli ationeDonkeymaisaussi eluiquipasseparlesportsvoisinstels
que le 5662, 40662 et le 14662. Dans le tableau 1.4, on donne la ontribution de ha un de
es ports dansletra eDonkey obtenu.
Port Pour entage Up Pour entageDown
Portsstandards 4662 90.52% 66.24%
4661 2.88% 5.63%
Portsvoisins 5662 5.17% 20.08%
14662 <1% <1%
40662 1.12% 7.65%
Tab.1.4 Pour entage envolume desports standardet portsvoisins.
1.3.2 Analyse des adresses
Surles3heuresd'observation,ondénombre2,848adressesdedestinationTCPdanslesens
des endant.Prèsdelamoitiéde esadressesont ommuniquéeneDonkey(soit1,423adresses).
Lepour entagedesadressesdesour equiont ommuniqué enp2pestplusimportant.Surles
684,941 adresses de sour e TCP, 436,658 ont ommuniqué en p2p (soit63.75%). Les ouples
d'adressesp2p représentent 58% dunombre de ouples TCP (679,096 sur1,170,084).
Comme indiqué dans le tableau 1.5, l'analyse du sens montant montre que le nombre
d'adressesinternesTCPestlégèrementdiérentdunombred'adresseinternevuesdanslesens
des endant(2,639adresses ontre2,848):soit esadressesnerépondentpasauxsolli itations
des lients extérieurs, soit es adresses ne sont plus a tives (terminaux éteints ou en veille,
ou adresses plus allouées). Cette onstatation n'est pas valable pour les adresses externes :
684,941 adresses externes dans le sens des endant ont été observées et dansle sens montant
ledouble aété observé (1,366,782).
TCPDown TCPUp eDonkeyDown eDonkeyUp HTTPDown HTTPUp
Ext. 684,941 1,366,782 436,658(63.7%) 467,851(34.2%) 23,786(3.4%) 75,181(5.5%)
Int. 2,848 2,639 1,423(49.9%) 732(27%) 2,638(92.62%) 2,450(92.8%)
Couples 1,170,084 1,861,887 679,096(58.0%) 726,941(39.04%) 100,292(8.5%) 150,450(8%)
Tab.1.5 Répartition desadressesinternes et externesen fon tion desappli ations.
Cephénomène estinversé quandon analyse letra eDonkey lair. Pour les adresses
ontre 436,658) alors que pour les adresses internes, on observe 732 adresses dans le sens
montant et 1,423danslesens des endant.
LesadresseseDonkeyexternesont ommuniquémajoritairementeneDonkey.Enmoyenne,
95% du volume reçu ou envoyé par es adresses est du tra eDonkey (plus de 83% de es
adresses ont ommuniqué uniquement en eDonkey). Ce omportement n'est pas observé au
niveaudesadressesinternes.Pourlesensmontant,letra eDonkeyde esadressesreprésente
38%deleurtra total.Cepour entagedes endà16%lorsqu'onanalyseletra des endant.
Ce i onrmera les onstatations que nous avons pu faire lorsqu'on a appliqué la méthode
méthode d'identi ation basée sur les annuaires (voir la se tion 1.4). Les adresses eDonkey
externes ne sont onta tées que par e qu'elles appartiennent au réseau eDonkey. Le tra
reçu ou envoyé par es adresses externes est un tra purement eDonkey. En revan he, le
tra envoyéoureçupar lesadressesinternesestlerésultatd'uneagrégationd'unemultitude
d'appli ations (p2p,http,mail,...).Celaneveutpasdirepourautantquelesadressesexternes
p2p n'utilisent que les appli ations p2p. En fait, le réseau, asso ié à un point d'observation
parti ulier, devient une fon tion de ltrage intrinsèque. Cette fon tion permet d'éliminer le
tra desappli ationsnonp2pdesadressesp2p.En ontrepartie,unepartiedeleurtra p2p
est probablement ignorée.
1.3.3 Le tra d'un lient eDonkey
Cadre expérimental
Nousanalysons dans erapport, letra d'un lient eDonkey suruneduréede 15heures.
An desemettredansun ontexteréel etpourse omporter omme un lienttypedu réseau
eDonkey, nous mettons en partage un hier
f
1
en partage. Le hierf
1
a une taille de732,476,072 o tets.Nouslançons en parallèle letélé hargement d'un hier
f
2
d'unetaille de733,878,272 o tets. Nous ongurons le lient ave les numéros de port d'é oute 4662 pour
les onnexions TCP et le 4672 pour les ommuni ations UDP. Nous limitons le nombre de
sour es pour un hier à 500 sour es et nous limitons le nombre de onnexions simultanées
à 600 onnexions. Une troisième et dernière limite a été imposée par rapport aux débits de
ré eption et d'émission (920kbpsen ré eption et 200kbps en émission).
En analysant la répartition du tra entre TCP et UDP, nous remarquons d'emblée que
le tra UDP est négligeable en termes de volume et de nombre de paquets par rapport au
tra TCP. Cette observation explique la tendan e des études de modélisation de tra qui
se on entrent sur l'étude du tra TCP. Une deuxième observation aussiimportante quela
première on erne lasymétrie entre le sens montant et des endant dutra . Le tra pair à
pair renverse le sens de l'asymétrie up/down du tra web. Le volume umulé envoyé par le
lient durant la apture estsupérieure auvolume umulé qu'ilreçoit. Le onstat estlemême
lorsque nousnousintéressonsaunombre umuléde paquets(voirlesgures1.4(a)et 1.4(b)).
Le tra TCP
Nous nous intéressons dans un premier lieu au tra TCP. Dans le système eDonkey, le
proto oleTCPjoueunrleprépondérantdanslasignalisationetdansletransfertdesdonnées.
An de mettre en éviden e e double rle assuré par le proto ole TCP, nous appliquons la
di hotomie souris/éléphant sur les ots TCP observés durant la apture. En plus de ette
di hotomie, nous avons s indé les éléphants en deux lasses supplémentaires. La première
TCP
UDP
0
5
10
15
x 10
8
Volume (bytes)
Volume (TCP et UDP)
(a)volumeTCP
UDP
0
2
4
6
8
10
12
14
16
18
x 10
5
# packets
# packets
(b)nombredepaquetsFig.1.4 StatistiquesTCP et UDP
taille moyenne des paquets est supérieure à 80 o tets. Les éléphants dont la taille moyenne
des paquets est inférieure à e seuil sont dits éléphants d'a quittement. La deuxième lasse
d'éléphants et omme son nom l'indique représente les ots qui a quittent le rapatriement
d'un hier dans le sens opposé. La première lasse d'éléphants représente le transfert de
hier. L'analyse de ette lassemontre queles éléphantsréguliers sont enta hés de périodes
d'ina tivité. Le transfert des données se fait ave des rafales de transmission séparées de
périodesd'ina tivité. Nousprenonslavaleurde20 se ondes omme duréed'ina tivité [6 ℄.Un
éléphantrégulierestalors unesu essiondegroupementsdepaquetsséparéspardespériodes
d'ina tivité. Si le groupement ontient moins de 20 paquets, il est dit sourisd'éléphant. Par
ailleurs,silegroupement ontientplusde20paquetsilestditmini-éléphants.En onséquen e,
un éléphant régulier peut être alors l'agrégation de mini-éléphant et de souris d'éléphant. Le
tableau1.6indiquela ontributionde haqueentitédansletra globalen termesdevolume,
nombre de ots et entermes de nombre depaquets.
Souris Éléphants EACK EREG Mini-E SE
Up Nbots 6,715 337 124 213 237 754 Volume 4,876,902 1,434,290,896 12,834,599 1,421,456,297 1,421,048,759 407,538 Nbpaquets 57,094 1,644,887 282,829 1,362,058 1,359,659 2,399 Down Nbots 6,752 295 146 149 223 162 Volume 4,418,271 817,474,470 19,312,380 798,162,090 797,841,242 320,848 Nbpaquets 52,735 1,360,499 470,198 890,301 889,789 512
Tab. 1.6Di hotomie elephant souris
Conrmantlesétudesantérieures surladi hotomiesouris/éléphants, etteanalysepermet
de mettre en éviden e la prédominan e des souris en termes de nombre de ots. En termes
de volumes, les éléphants sont largement prépondérants. Les statistiques sur les ots sont
résumées dansles gures1.5(a), 1.5(b),1.6(a), 1.6(b) et 1.6( ).
Par ailleurs, la ara térisation des mini-éléphants dans la tra e du lient montre que les
transferts se font généralement d'une façon ontinue. En eet, dans la majorité des as, les
éléphants régulierssont onstituésd'un seul mini-éléphant (65% deséléphants régulierssont
# Flots
Volume
# Paquets
0
10
20
30
40
50
60
70
80
90
100
%
Sens up
Souris
Eléphants AcK
Eléphants Reg
(a)sensmontant
# Flots
Volume
# Paquets
0
10
20
30
40
50
60
70
80
90
100
%
Sens down
Souris
Eléphants ACK
Eléphants REG
(b)sensdes endantFig.1.5 Di hotomiesouriséléphants: statistiques I
Total
Souris
ACK
REG
0
1000
2000
3000
4000
5000
6000
7000
8000
# Flots
upstream
downstream
(a)nombredeots
Total
Souris
ACK
REG
0
2
4
6
8
10
12
14
16
18
x 10
5
# Paquets
upstream
downstream
(b)nombredepaquetsTotal
Souris
ACK
REG
0
5
10
15
x 10
8
Bytes
Volume
upstream
downstream
( )volumeéléphantsréguliersgarantit une ertainestabilité dansleurs débits maisnegarantit enau un
aslastabilitédudébitglobalà ausedel'absen edesyn hronismeentrelessour es.Ce iest
du, premièrementau ara tèretrèsdynamiqueduréseaupairàpair( onnexion,dé onnexion,
et ..) et deuxièmement au mé anisme de péremption desles d'attente au niveau des lients
emule.
Surlesgures1.7(a)et1.7(b)nousreprésentonslesdébits(ave unintervalled'intégration
égal à 100 se ondes). La gure 1.7(b) montre que le débit des endant est instable au ours
du temps. En revan he,nousremarquons quele débit montant est plutt stableau ours du
temps. Cette onstatation montre l'impa t de la disponibilité du lient sur la variabilité du
débit.Notre lientdemeure onne téetdon disponiblelelongdeladuréedela apture(pasde
onnexion/dé onnexion). En plus, lenombre de mini-éléphants simultanés reste relativement
onstant dans le sens montant ontrairement au sens des endant (voir les gures 1.8(a) et
1.8(b)).
Notons aussi que des limites sur les débits d'émission et de ré eption ont été instaurées.
Nous remarquons que le débit d'émission se stabilise au niveau de la limite instaurée(
200
kbps). Cette stabilisation au niveau de la limite ne ontredit pas l'argumentation que nous
avons présentée plus haut sur la stabilité du débit d'émission. En eet, malgré l'intervalle
d'intégrationrelativement grand,ledébitdes endant estextrêmement variable ontrairement
au débit montant qui montre une variabilité négligeable autourde lalimite de 200 kbps.Le
débit d'émission ne hute pasau ours dutemps endessousde ette limite.
0
1
2
3
4
5
6
x 10
4
10
1
10
2
10
3
10
4
10
5
10
6
Temps (seconde)
nb octet par interval de 100 secondes
Souris (agrégation sur 100 secondes)
upstream
downstream
(a)Souris0
1
2
3
4
5
6
x 10
4
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
5.5
6
x 10
6
Temps (seconde)
nombre d’octets sur 100 secondes
Mini−éléphants (agrégation 100 secondes)
upstream
downstream
(b)Mini-Éléphants
Fig. 1.7 Débitsdesdiérentes lasses dutra
Avantdes'intéresseràl'analysedu omportementdesadressesexternes,nousavonsétudié
les ara téristiques des grands transferts de hiers représentés par les éléphants réguliers.
L'étude des ara téristiquesdeséléphantsréguliersnouspermet dedé elerlesspé i itésdes
transferts eDonkey selon quelques ritères donnés. Pour e faire, nous avons hoisi quatre
ritères.
Lesdeuxpremiers ritères sontlevolume et ladurée. Surlesgures 1.9(a)et 1.9(b),nous
avonsreprésenté les fon tionsde répartition omplémentaires selon esdeux ritères pourles
éléphants réguliers. Sur les gures 1.10(a) et 1.10(b), nous avons représenté les fon tions de
répartition omplémentairesasso iéesauxdeuxautres ritères.Ces deux ritères sontledébit
et lataille moyenne despaquets.Indépendamment du sensobservé,levolume transportépar