Évaluation des systèmes de détection d’anomalies

Chapitre 2: Détection d’anomalies dans les réseaux Internet

4. Évaluation des systèmes de détection d’anomalies

Valider un système de détection d’anomalies est une tache complexe qui nécessite de mesurer sa performance de détection face à des anomalies légitimes et illégitimes diverses. Pour cela, nous avons besoin de définir des métriques de performance globales et des métriques de performance par type d’attaque.

4.1 Métriques d’évaluation des ADSs

4.1.1 Métriques standards

Un système de détection d’anomalies peut se trouver confronté aux quatre situations différentes résumées dans le Tableau 2.1 :

En effet, la plupart des modèles proposés dans la littérature décrivent uniquement les temps d’arrivée des paquets et / ou des flux et ne permettent pas de représenter leurs contenus.

Chapitre2 : Détection d’anomalies dans Internet

L’échantillon observé ne présente pas d’anomalie et l’algorithme de détection le marque avec le label « Normal » ; c’est un vrai négatif « True Negatif ».

L’échantillon observé ne présente pas d’anomalie mais l’algorithme de détection le marque avec le label « anomalie » ; c’est un faux positif « Flase Positif ».

L’échantillon observé représente réellement une anomalie et l’algorithme de détection le marque avec le label « anomalie », c’est un vrai positif « True Positif ».

L’échantillon observé représente réellement une anomalie, mais l’algorithme de détection le marque avec le label « Normal », c’est un faux négatif « False Negatif ».

Label prédit de l’échantillon observé

Normal Anomalie Normal Vrai négatif (TN) Faux positif (FP)

Label réel de

l’échantillon Anomalie Faux négatif (FN) True Positif (TP)

Tableau 2.1: Métriques standards pour l’évaluation des ADSs

Les métriques principales sont le taux de détection, le taux de fausses alarmes et la précision. Elles sont définies comme suit

FN TP TP détection de Taux ⁼ + FP TN FP alarmes fausses de Taux + = FP TP TP écision ⁼ + Pr 4.1.2 Métriques additionnelles

Toute technique de détection d’anomalies associe un score (correspondant généralement à une mesure de distance par rapport à la référence utiliséé) à chaque connexion traitée ou échantillon observé. Lorsque, le score devient supérieur à un seuil de détection prédéfini, le système de détection d’anomalies considère qu’une anomalie est survenue.

La Figure 2.3, montre l’évolution au cours du temps du score associé à chaque échantillon observé en présence d’une attaque qui s’étend sur plusieurs échantillons. En effet, les lignes verticales représentent les échantillons observés, la ligne discontinue représente la courbe réelle de l’attaque (qui est à un durant l’attaque et nulle ailleurs) et la courbe verte, dessinée en trait plein, correspond au score associé à chaque échantillon observé.

Figure 2.3: Évolution du score calculé lors d’une attaque [Laza03]

Ces deux courbes (courbe de l’évolution du score et courbe réelle de l’attaque) nous permettent de dériver des métriques d’évaluation additionnelles. En effet, plus la surface entre la courbe de l’attaque réelle et celle de l’attaque prédite (surface hachurée en \\\ dans la Figure 2.3) est petite, meilleur est l’algorithme de détection d’anomalies (de même pour la surface hachurée en x).

La Figure 2.4 définit deux nouvelles métriques:

Burst Detection Rate (bdr) est défini pour chaque rafale, il représente le ratio entre le nombre total d’échantillons intrusifs qui ont un score supérieur au seuil de détection (ndi) et le nombre total d’échantillons réellement intrusifs dans la rafale d’attaque (Nbi).

bi di

N n

bdr=

Le temps de réponse (treponse) représente le temps écoulé depuis le début de l’attaque jusqu’au moment où un échantillon est correctement classé comme intrusif.

Figure 2.4: Représentation graphique des métriques additionnelles [Laza03]

4.2 Discussion autour du besoin en traces étiquetées

Le calcul des métriques d’évaluation, vues précédemment, nécessite de connaître, avec précision l’ensemble des évènements anormaux; ce qui revient à disposer de traces de trafic correctement étiquetées.

Chapitre2 : Détection d’anomalies dans Internet

Une technique classique pour marquer les anomalies contenues dans les traces de trafic réel est de demander à un expert en sécurité de détecter tous les évènements suspects dans la trace. Pour cela, il utilise plusieurs outils adhoc et inspecte visuellement les traces selon plusieurs angles de vues (répartitions du trafic par adresse IP ou par numéro de ports, recherche des connexions TCP les plus volumineuses, …). Bien que ces spécialistes soient très expérimentés, il arrive souvent qu’ils manquent une anomalie ou bien qu’ils en ajoutent une, alors que le trafic est parfaitement normal. Mais, malgré l’imperfection de leur étiquetage, les traces manuellement étiquetées, sont très utiles pour l’évaluation des systèmes de détection d’anomalies puisqu’elles reflètent l’ensemble des anomalies qu’un algorithme de détection doit pouvoir reconnaître pour être aussi performant qu’un expert humain. Toutefois, les traces réelles manuellement étiquetées contiennent généralement un nombre réduit et peu diversifié d’anomalies, ce qui limite leur intérêt.

À ce jour, très peu de traces de trafic sont librement mis à la disposition de la communauté scientifique, pour des raisons évidentes de confidentialité. De plus, les traces publiques contenant des anomalies bien documentées sont encore plus rares. En effet, les seules traces publiques étiquetées, que nous avons pu trouver sont les suivantes :

Les traces de KDD99 [KDD99] crées spécialement pour l’évaluation d’outils de détection d’anomalies lors du « Third International Knowledge Discovery and Data Mining Tools Competition » ;

Et les traces DARPA98 [DARPA98], datant des années 1998-2000, elles sont issues de simulations de trafic réseau (pour la génération du trafic normal) et d’attaques expérimentales [Mchu00].

Bien que ces traces aient été utilisées pour la validation d’un grand nombre d’IDSs issus de la recherche académique, elles sont aujourd’hui obsolètes car trop anciennes pour refléter la nature du trafic Internet actuel et la diversité des attaques dont est le véhicule.

Face à la non disponibilité de traces publiques récentes étiquetées, la plupart des techniques de détection d’anomalies proposées dans la littérature ont été validées en utilisant un nombre réduit de traces de trafic réel manuellement étiquetées.

Une approche alternative proposée dans [Auss07], pour la validation des outils de détection d’anomalies, consiste à créer des anomalies artificielles sur un réseau opérationnel, puis de collecter le trafic résultant. L’intérêt principal de cette méthode est qu’elle permet de contrôler précisément les paramètres des anomalies générées (le volume, la durée ou encore le nombre de flux impliqués dans l’anomalie). Toutefois, ces traces sont généralement limitées à un nombre réduit de type d’anomalies ; par conséquent elles ne reflètent ni la diversité des anomalies réelles, ni leur structure complexe. Ainsi, dans [Auss07], seulement deux types d’anomalies ont été synthétisés : les attaques de déni de service par inondation et les foules subites.

Par ailleurs, parallèlement aux systèmes de détections d’anomalies, les administrateurs de réseaux font recours à d’autres techniques pour assurer une sécurité renforcée des réseaux Il s’agit des techniques de pots de miel et des télescopes réseaux qui seront détaillés dans le paragraphe suivant.

Dans le document Mesures et Caractérisation du Trafic dans le Réseau National Universitaire (RNU) (Page 64-68)