• Aucun résultat trouvé

les calculs en utilisant un mix de flux refl´etant le partage actuel du trafic sur Internet. Nous proposons un stockage des contenus VoD au niveau des routeurs d’acc`es, vu leur volume faible par rapport aux autres types de donn´ees. Les autres types devraient ˆetre stock´es dans un cache tr`es volumineux, probablement constituant un deuxi`eme niveau de caches.

Chapitre

8

Mesure du trafic et

performances des caches

Pour estimer les taux de hit d’une architecture `a deux niveaux, il est primordial de

mesurer les caract´eristiques du trafic, car les taux de hit d´ependent fortement de la nature du trafic et de son volume.

8.1 Mesure du trafic

Nous pr´esentons les caract´eristiques du trafic Internet, et nous discutons des pa-ram`etres les plus importants pour nos ´evaluations.

8.1.1 Types de contenu

Le “Cisco Visual Networking Index” publi´e en 2011 [29] classifie le trafic Internet et la demande globale pr´evue pour la p´eriode 2010-2015. 96% du trafic repr´esente le transfert de contenus susceptibles d’ˆetre stock´es dans les m´emoires cache. On peut les classifier en quatre cat´egories :

– Donn´ees web : Ce sont les pages web visit´ees par les internautes.

– Fichiers partag´es : G´en´eralement g´er´es par des protocoles pair `a pair, cr´eant une communaut´e d’entraide : Un utilisateur (leecher) peut t´el´echarger un fichier stock´e dans une des machines des autres utilisateurs (seeders). D`es que son t´el´echargement est termin´e, le leecher devient `a son tour seeder. Les r´eseaux pair `a pair rencontrent de plus en plus de probl`emes `a cause de la violation des droits

52 8.1. MESURE DU TRAFIC

d’auteur par leurs utilisateurs. Ces derniers peuvent mettre en t´el´echargement

du contenu ill´egal. R´ecemment, `a titre d’exemple, le site Demonoid n’est plus

disponible, probablement `a cause de la violation des droits d’auteur.

– Contenu g´en´er´e par les utilisateurs (UGC) : C’est un ensemble de contenus

g´en´er´es par les utilisateurs, ou directement mis `a disposition par ces derniers. La communaut´e utilisant ce partage utilise des logiciels libres, des contenus avec des licences de droit d’auteur flexibles, permettant des ´echanges simples entre des utilisateurs, mˆeme ´eloign´es g´eographiquement. A la diff´erence des r´eseaux pair `a pair, les donn´ees sont sauvegard´ees sur les serveurs priv´ees du fournisseur de contenu. Il d´etient alors la possibilit´e de v´erifier les contenus charg´es par les utilisateurs avant leur publication.

– Vid´eo `a la demande (VoD) : C’est une technique de diffusion de donn´ees

permettant `a des utilisateurs de commander des films ou ´emissions. La t´el´evision sur IP est le support le plus utilis´e. Le service VoD est propos´e g´en´eralement par des fournisseurs d’acc`es Internet, et il est dans la plupart des cas payant. Le contenu propos´e est lou´e pour une p´eriode donn´ee, assurant ainsi le respect des droits num´eriques.

Les proportions du trafic sont indiqu´es dans le tableau 8.1.

Fraction du trafic (pi) taille de la taille moyenne

2011 2015 population(Ni) des objets (θi)

Web .18 .16 1011 10 KB

File sharing .36 .24 105 10 GB

UGC .23 .23 108 10 MB

VoD .23 .37 104 100 MB

Table 8.1 – Les caract´eristiques des contenus du trafic Internet

8.1.2 La taille des contenus et des objets

– Web : La soci´et´e Netcraft1 publie chaque mois le nombre de sites, estim´e grˆace `

a un sondage fait aupr`es de soci´et´es d’h´ebergement et d’enregistrement des noms

de domaine. Elle estime le nombre de sites actifs `a 861 379 152, en consid´erant

la moyenne de nombre de pages par site `a 2732 nous comptons plus de 2 ∗ 1011

pages web. Pour notre ´etude, on suppose que le nombre de pages web est de 1011

et leur taille moyenne est de 10KB [30].

– Fichiers partag´es : On estime le nombre de fichiers partag´es grˆace aux

statis-tiques relev´ees sur le site Demonoid3 `a 400 000 fichiers de taille moyenne de 7.4 GB. Nous arrondissons ces chiffres dans le tableau 8.1.

1 http ://news.netcraft.com/archives/category/web-server-survey/ 2 http ://www.boutell.com/newfaq/misc/sizeofweb.html 3 www.demonoid.me/

CHAPITRE 8. MESURE DU TRAFIC ET PERFORMANCES DES CACHES 53

– UGC : Les contenus UGC sont domin´es par Youtube. Une ´etude r´ecente, faite

par Zhou et al. [31], estime le nombre de vid´eos Youtube `a 5 × 108 de taille

moyenne de 10 MB. Actuellement avec une simple recherche du mot clef ”a” sur

Youtube nous comptons plus de 109 vid´eos.

– VoD : Les vid´eos `a la demande sont estim´ees `a quelques milliers et sont de

taille moyenne de 100 MB. Ce sont sans doute des sous-estimations avec l’essore r´ecente de certaines applications VoD mais elles sont suffisamment pr´ecises pour les ´evaluations pr´esent´ees dans la suite.

8.1.3 Distribution de la popularit´e

La distribution de la popularit´e est un des ´el´ements essentiels du calcul des perfor-mances d’un cache.

– Web : La popularit´e des pages web suit g´en´eralement la loi de Zipf : le taux de

demandes q(n) pour le ni´eme objet le plus populaire est proportionnel `a 1/nα.

Selon [32] et [30] le param`etre α varie entre 0.64 and 0.83.

– Fichiers partag´es : Il est possible de calculer la popularit´e des torrents en

utilisant les statistiques extraites du site Demonoid. En entrant un mot clef, on peut classer les torrents d’une mani`ere d´ecroissante suivant le nombre de t´el´echargements en cours (mais le site ne permet l’affichage que des 10 000

premiers et les 10 000 derniers torrents). La loi de popularit´e correspond `a peu

pr`es `a une loi de Zipf de param`etre α ´egal 0.82. On estime que la popularit´e du site PirateBay suit une loi de Zipf de param`etre 0.75.

On trace la popularit´e des vid´eos partag´es pour deux sites ”PirateBay” et ”tor-rentreactor” 4. Apr`es une recherche par mot clef, les sites affichent les vid´eos et le nombre de leechers correspondants. En choisissant comme mot clef la seule lettre ”a”, et apr`es un tri d´ecroissant du nombre de leechers, nous tra¸cons les popularit´es pr´esent´ees dans 8.1(a) et 8.1(b). Pour le site torrentreactor, la po-pularit´e suit la loi Zipf(0.75) pour les premiers rangs, puis la courbe s’incline et suit une loi Zipf(1.2) pour la queue de la loi. La mˆeme observation concerne le site PirateBay.

– UGC : Les flux UGC suivent une loi de Zipf avec α estim´e `a 0.56 [11] ou `a

0.8 [13]. Des travaux r´ecents de Carlinet et al. [33] sugg`erent plutˆot une loi Zipf(0.88).

– VoD : L’´etude de Carlinet et al. ´evalue ´egalement les VoD. La loi de popularit´e n’est pas de Zipf, mais une combinaison de deux lois de Zipf. La premi`ere est de param`etre 0.5 pour les 100 objets les plus populaires, la deuxi`eme est de param`etre 1.2 pour les objets suivants. Des statistiques ´etudi´ees par Yu et al. [34] pour un service VoD en Chine sugg`erent une loi de Zipf avec α variant ente 0.65 et 1.

4

Documents relatifs