• Aucun résultat trouvé

Techniques utilisant des métriques de volume

Chapitre 2: Détection d’anomalies dans les réseaux Internet

3. Techniques de détection d’anomalies de trafic

3.2 Techniques utilisant des métriques de volume

Les anomalies de volume sont des variations inhabituelles et significatives qui apparaissent au niveau des métriques relatives au volume du trafic telles que le nombre de paquets, d’octets ou de flux envoyés / ou reçus sur un lien par unité de temps. Dans [Braf02], les auteurs définissent quatre types d’anomalies de volume de trafic. Il s’agit des foules subites12, des attaques via le réseau, des pannes au niveau du réseau et des problèmes au niveau du système de mesures lui-même. Ainsi, nous constatons qu’à part les attaques réseau et, dans une moindre mesure, les foules subites, les deux autres types ne correspondent pas à des activités malicieuses ; elles concernent des évènements ayant peu d’intérêt pour l’administrateur du réseau. En effet, les pannes et les problèmes au niveau du système de mesures sont efficacement détectées par d’autres techniques, notamment en utilisant le protocole SNMP ou les outils de mesures actives. De plus, à part les attaques qui génèrent un volume de trafic considérable, notamment les dénis de service par inondation ou les balayages de ports massifs engendrés par la propagation de vers informatiques, tous les autres types d’attaques ne peuvent être détectés en utilisant les métriques de volume.

Malgré ces limites, la détection d’anomalies basée sur les métriques de volume continue de susciter l’intérêt des chercheurs dans le domaine, notamment à cause du fait qu’elle se base sur des mesures faciles à collecter et peu volumineuses. En effet, les métriques de volume sont traditionnellement collectées au niveau des réseaux d’opérateurs grâce aux systèmes de gestion de réseaux ; de plus la collecte de ces métriques est peu coûteuse en ressources matérielles puisque la taille des traces obtenues ne dépend pas du volume du trafic véhiculé par le réseau mais uniquement de la fréquence de collecte de ces métriques.

Les systèmes de détection d’anomalies de volume, proposés dans l’état de l’art, se différencient selon l’origine des données qu’ils traitent. En effet, certains détectent les anomalies affectant le volume du trafic au niveau d’un seul lien [Brut00, Balf02 et Borg07], alors que d’autres s’intéressent aux anomalies qui modifient la structure de corrélation entre les trafics de plusieurs liens [Lakh04 et Ring07].

12

Une foule subite est le fait qu’un grand nombre de personnes sollicitent, durant le même laps du temps, le même service Internet. C’est le cas par exemple de l’engouement observé lors des événements du 11 septembre 2001 vers les sites d’informations en continu.

Chapitre2 : Détection d’anomalies dans Internet

3.2.1 Détection d’anomalies de volume au niveau d’un lien

La plupart des approches de détection d’anomalies de volume au niveau d’un lien réseau [Brut00, barf02 et Borg07] se basent sur l’utilisation d’un modèle statistique décrivant le volume du trafic sur le lien supervisé. Le calcul des paramètres du modèle de référence nécessite une phase d’apprentissage durant laquelle le trafic réseau est supposé normal. De plus, la conception de tels systèmes se heurte à un défi de taille qui réside dans la construction de modèles de trafic capables de modéliser sa variabilité normale, tout en restant sensibles aux variations anormales engendrées par des activités malicieuses. Pour y parvenir, plusieurs modèles de trafic issus des études métrologiques ont été exploités par les TADSs proposés dans la littérature.

Dans [Brut00], l’auteur considère comme anomalie, tout intervalle du temps, durant lequel l’écart entre le trafic mesuré sur le lien supervisé et celui prédit par le modèle de prévision (construit durant la période d’apprentissage) , dépasse un seuil fixe prédéfini. Plus concrètement, il s’agit de collecter périodiquement le nombre de paquets (ou d’octets) envoyés (ou reçus) par lien. Puis, pour chaque série temporelle obtenue, un modèle de prévision du trafic, supposé décrire sa variabilité normale au cours du temps, est construit en utilisant l’algorithme de Holt-Winters13 (qui est une généralisation de la méthode de lissage exponentiel14). Enfin, il s’agit de marquer comme anomalie toute observation, pour laquelle l’écart le volume du trafic mesuré et celui prédit, dépasse le seuil de détection fixé.

L’avantage principal de cette méthode réside dans son implémentation dans l’outil RRDtool15 , permettant ainsi une exploitation facile par les administrateurs de réseau. Concernant ses limites, la méthode proposée par Brutlag est incapable de détecter les anomalies de courtes durée (moins d’une heure).

Dans [Barf02], les auteurs proposent de collecter périodiquement pour chaque lien supervisé le nombre de paquets envoyés/reçus, le nombre d’octets envoyés/reçus et le nombre de flux IP. Ensuite, ils utilisent la décomposition en ondelettes pour filtrer chacune de ces séries temporelles selon trois bandes de fréquences : la bande de hautes fréquences, celle des fréquences moyennes et

13

L’algorithme de Holt-Winters consiste à décomposer une série temporelle en trois composantes : une référence (baseline), une composante linéaire (linear trend) et composante saisonnière. Puis d’utiliser la méthode de lissage exponentiel pour prédire chacune de ces trois composantes, ainsi la valeur prédite de la série temporelle est la somme des valeurs prédites pour ces trois composantes.

14

La méthode de lissage exponentiel permet de prédire la valeur d’une série temporelle à l’instant t+1 en utilisant sa valeur mesurée à l’instant t, ainsi que la valeur prédite pour cet instant.

15

RRDtool est l’acronyme de Round Robin Database, il s’agit d’un système libre pour sauvegarde et visualisation de données chronologiques (séries temporelles)

celle des basses fréquences. Puis, ils calculent la variance locale des données filtrées, si cette variance dépasse un seuil prédéfini, alors une anomalie est détectée.

Enfin, la méthode de détection d’anomalies de [Borg07] permet de détecter les anomalies via une analyse conjointe du trafic agrégé sur plusieurs intervalles de temps. Pour ce faire, elle se base sur la modélisation de la série temporelle nombre de paquets par intervalle de temps, collecté au niveau d’un lien donné, par un modèle non gaussien et à longue mémoire (utilisant les lois Gamma et Farima), et ce pour différents intervalles d’agrégation de trafic (allant du 1ms à 10s). Puis, elle calcule la distance Kullback-Leibler entre les paramètres calculés pour une fenêtre quelconque w et ceux estimés sur une fenêtre de référence composée uniquement de trafic normal ; Si cette distance dépasse un seuil fixe prédéfini alors la fenêtre w est marquée comme anormale, autrement elle est considérée normale. La particularité de la technique proposée par Borgnat [Borg07] réside dans le fait qu’elle s’intéresse aux anomalies de courtes durées et ce contrairement à [Brut00 et Barf02] qui s’intéressent uniquement aux anomalies ayant des durées supérieures à 1 heure.

En conclusion, l’inconvénient majeur des approches de détection des anomalies de volume au niveau d’un lien réside dans le fait qu’elles analysent les séries temporelles (relatives au trafic sur ce lien) les unes indépendamment des autres. Ainsi elles ne permettent pas d’exploiter les relations de corrélations qui existent entre les différentes séries supervisées (nombre de paquets, d’octets envoyés/reçus). Or, l’expérience montre que c’est grâce à la comparaison des séries temporelles les unes par rapport aux autres que les administrateurs de réseaux arrivent à détecter les anomalies et à déterminer leurs types. Par exemple, une augmentation du nombre de paquets en entrée sur lien, non accompagnée d’une augmentation équivalente de celui des paquets en sortie ou de celui des octets reflète le plus souvent des attaques de déni de service ou des balayages de ports massifs. De la même façon, le fait que ces approches analysent les séries temporelles, relatives aux différents liens d’un même réseau, les unes indépendamment des autres, ne leur permet pas d’offrir à l’administrateur une vue globale sur les anomalies affectant son réseau. De plus, ces méthodes n’exploitent pas les relations de corrélation qui existent entre les séries relatives aux différents liens du réseau.

3.2.2 Détection d’anomalies au niveau d’un réseau

Lakhina a proposé dans [Lakh04], une méthode de détection d’anomalies de volume à l’échelle d’un réseau étendu. Pour cela, il utilise conjointement toutes les séries temporelles représentant le nombre de flux OD16 transmis (durant dix minutes) par chaque lien du réseau surveillé. Il obtient ainsi un espace à N dimensions (avec N égal au nombre du liens du réseau). En utilisant l’analyse en composantes principales, la méthode de détection proposée dans [Lakh04], décompose l’espace

16

Un flux OD (origine/destination) est défini par une paire : adresse IP source (SIP), adresse IP destination (DIP) ; il est composé par tous les paquets ayant comme adresse IP source SIP et comme adresse IP destination DIP.

Chapitre2 : Détection d’anomalies dans Internet

représentant ces mesures en deux sous-espaces : l’espace représentant le trafic normal et celui représentant le trafic résiduel. Le premier espace est composé par les axes principaux majeurs, alors que le second est composé par les axes principaux mineurs. Ainsi, chaque vecteur de dimension N, correspondant à une fenêtre de temps w, est décomposé en un vecteur normal et un vecteur résiduel. Par la suite, une anomalie est détectée dans la fenêtre de temps w, si la norme L217 du vecteur résiduel est supérieure à un seuil de détection prédéfini. Autrement la fenêtre w serait considérée normale.

L’approche de [Lakh04] présente deux avantages ; le premier réside dans son exploitation des inter-corrélations entre les volumes du trafic sur les différents liens d’un réseau. Le second réside dans le fait qu’elle ne dépend pas d’un modèle statistique pour le trafic normal.