• Aucun résultat trouvé

Modélisation du trafic Internet au niveau flux

Chapitre 1: Mesure, caractérisation et modélisation du trafic Internet

3. Modélisation du trafic Internet

3.2 Modélisation du trafic Internet au niveau flux

La modélisation du trafic Internet au niveau flux est motivée par le fait que l’analyse des performances du réseau s’effectue plus aisément, à ce niveau. Par ailleurs, les différents schémas d’architectures de routage, de « traffic engineering » (MPLS, routage orienté QoS, etc.), voire de fourniture de services différenciés (IntServ, DiffServ), prennent en compte, également, la notion de flux selon des niveaux d’agrégation très variables.

Les modèles proposés dans la littérature concernent aussi bien la distribution de la taille et de la durée des flux, ainsi que le temps d’inter-arrivée des flux.

3.2.1 Distribution de la taille et de la durée des flux

Toutes les analyses de traces de trafic, produites dans la littérature, mettent en évidence des lois de distribution à décroissance lente, dès que l’on s’intéresse à un paramètre lié à la taille ou à la durée des flux. Ce phénomène de décroissance lente signifie que la probabilité d’obtenir de très grandes valeurs de la variable aléatoire est asymptotiquement beaucoup moins faible que pour une loi exponentielle.

La figure 1.7 montre que la distribution des tailles des flux a évolué entre 2000 et 2003 en s’éloignant, de plus en plus, de la distribution exponentielle en ayant une queue de plus en plus lourde. Ceci s’explique par le fait que la généralisation de l’accès Internet à haut débit et l’augmentation des capacités des ordinateurs ont permis aux internautes d’échanger des fichiers multimédias de plus en plus volumineux et de générer, ainsi, des flux de durée et de taille de plus en plus grandes.

Figure 1.7 : Évolution de la distribution de la taille des flux [Owez04]

Pour modéliser les distributions des tailles ou des durées des flux, les lois de probabilité couramment utilisées sont la loi de Pareto, la loi de Weibull et la loi log-normale. Toutefois, il est important de signaler que seule la loi de Pareto est une loi à décroissance lente, puisque sa distribution (cumulative complémentaire) est proportionnelle à

x

α avec

α

f0. De plus, pour

α∈] [0,2

, la moyenne de la variable aléatoire est finie, mais sa variance ne l’est pas ; alors que pour

α∈]0,1]

, les deux sont infinies32. Les deux autres lois log-normale et Pareto ne sont pas des lois à décroissance lente. En effet, la loi log-normale est seulement à décroissance sous-exponentielle [Paxs94b] ; alors que la loi de Weibull n’est qu’une généralisation de la loi exponentielle qui peut avoir, dans certains cas, une décroissance sous-exponentielle.

Par ailleurs, la loi de Pareto ne fournit pas un bon modèle de représentation de l’ensemble de la distribution puisque seule la queue de la distribution est identifiée comme étant à décroissance lente. En effet, pour modéliser le corps de la distribution, [Paxs94c et Nabe98] proposent d’utiliser la loi log-normale ; alors que, dans [Jena00], les auteurs ont proposé de modéliser l’ensemble de la distribution par des mélanges de lois (log-normal / Pareto).

32

Chapitre 1 : Mesures, caractérisation et modélisation

3.2.2 Processus d’arrivée des flux

Les processus poissoniens ont été historiquement utilisés pour modéliser les appels téléphoniques. Par la suite, ils ont été repris par la plupart des modèles de performance décrivant les arrivées des flux dans le trafic Internet [Bara02]. Or, si on considère qu’un flux correspond, plus au moins, à une demande de transfert d’un document (page Web par exemple) ou d’une fraction d’un document (objet d’une page Web) ; alors au sein d’une même session d’un utilisateur, il est logique de s’attendre à des inter-dépendances dans le processus temporel d’apparition des flux, lequel devra alors s’écarter sensiblement du modèle Poissonnien. C’est ce que l’on vérifie expérimentalement, dans plusieurs études métrologiques [Paxs94b et Feld00 et Oliv01].

En effet, dans [Feld00 et Oliv01], les auteurs ont estimé la fonction d’auto-corrélation des temps d’inter-arrivée des flux et ont mis en évidence l’existence d’une corrélation persistante dans le temps entre les arrivées des flux (sur une ou quelques dizaines de secondes), quoique de niveau assez faible. Il est remarquable que ces deux études ont adopté chacune une spécification différente ; en effet, dans [Oliv01], les auteurs s’intéressent aux micro-flux unidirectionnels TCP ou UDP, tandis que dans [Feld00], ils s’intéressent aux connexions TCP bidirectionnelles. De plus, [Feld00] met en évidence la présence de la LRD dans le nombre d’arrivées de connexions TCP par unité de temps, sur toutes les échelles de temps au-delà d’une seconde et remarque que ce phénomène est lié au protocole http utilisé dans le web.

Par ailleurs, les auteurs de [Oliv01] montrent que les modèles de représentation des processus d’arrivée des flux sont similaires pour UDP et TCP, notamment pour leur caractère non Poisonnien. En utilisant la double classification (souris/éléphants , tortues/libellules ), l’auteur de [Larr05] a étudié les processus d’arrivée des flux de chaque classe, en utilisant des traces de trafic collectées dans le cadre du projet de métrologie français Metropolis. Il a établi que la dépendance à long terme est bien marquée au niveau des arrivées des flux souris (paramètre de Hurst estimé à 0,805 sur les traces analysées), alors que le processus d’arrivée des flux éléphants est assimilable à un processus Poissonnien (paramètre de Hurst estimé à 0,57 sur les traces analysées). Il a également établi que la différence en termes de LRD entre les flux tortues et les flux libellules n’était pas aussi importante et déduit, ainsi, que la durée des flux a beaucoup moins d’influence sur la LRD du trafic (observé au niveau flux) que le volume des flux. Il a, aussi, étudié les caractéristiques de la LRD par type d’application, il a montré qu’il n’existe pas d’application particulière à l’origine de la LRD du trafic global. En effet, toutes les applications classiques et émergentes y contribue, car chacune est capable dans certaines configurations d’utilisation de générer des flux éléphants.