• Aucun résultat trouvé

DESCRIPTION ET PRÉ-TRAITEMENT DES DONNÉES

4.2 L’ensemble de données de DARPA

En fait, cet ensemble de données est le fruit d’une simulation d’attaques sur un réseau de l’armée de l’aire américaine durant neuf semaines. Chaque connexion est étiquetée en tant que connexion normale ou attaque. Chaque attaque est identifiée par une étiquettes spécifique. Et peut appartenir à l’une des quatre catégories suivantes (table 4.1) :

Table 4.1 – Catégories d’attaques dans KDD’99. Categorie Attaque

Dos back, land, neptune, pod, smurf, teardrop Probe ipsweep, nmap, portsweep, satan

R2L ftp_write, guess_passwd, imap, multihop, phf, spy, warez-client, warezmaster

U2R buffer_overflow, loadmodule,perl, ps, rootkit

— DOS( Denial of Service Attack) : Regroupe les attaques visant à porter atteinte à la disponibilité des services en saturant les ressources de la machine cible. Certaines at-taques de cette catégorie exploitent les bugs des applications et d’autres les vulnérabilités dûs aux mauvaises implémentations ou aux faiblesses des protocoles.

— U2R (User To Root Attack) : Dans cette catégorie d’attaques, L’attaquant, qui est un utilisateur interne légitime, tente d’acquérir les droits d’un utilisateur root(Administ-rateur) à partir d’un simple compte utilisateur par l’exploitation des vulnérabilités. Cette catégorie d’attaques exploitent généralement la saturation des Buffers causée par les erreurs de programmation.

— R2L(Remote to Local Attack) : Regroupe les attaques visant à contourner ou usur-per, à partir d’une machine distante, les paramètres d’authentification d’une machine cible en exploitant ses vulnérabilités afin d’acquérir un accès illégal. La plupart de ces attaques sont issues de la sociale ingénierie.

— Surveillance et écoute(Probing Attack) : Ensemble d’attaques dont l’objectif consiste à collecter les informations sur une ou plusieurs machines. Les attaques de cette caté-gorie utilisent des techniques de balayage des ports afin de connaître les services offerts par le système de la machine cible, la topologie du réseau, les protections déployées, etc. Il existe plusieurs types attaques probes : certaines abusent les utilisateurs légitimes et d’autres utilisent les techniques d’ingénierie pour collecter les informations. Ces attaques sont les plus perpétuées car elle ne nécessité qu’une expertise technique minime.

Cet ensemble de données est constitué de 4 898 431 enregistrements dont 972 781 sont issus d’un trafic normal et 3 925 650 correspondent à 22 attaques. Un sous-ensemble ne contenant que 10% des données pris au hasard de cet ensemble de données a été créé et est, généralement, utilisé dans le cadre d’un processus d’apprentissage. Les tableaux 4.2 et 4.3 présentent les distributions des différentes classes dans, respectivement, l’ensemble des données d’apprentissage et celui des données de test. Classe Taille % Dos 391 458 79.24 Normal 97 278 19.69 Prob 4 107 0.83 R2L 1 126 0.23 U2R 52 0.01 Total 494 021 100

Table 4.2 – Répartition des classe dans l’ensemble d’apprentissage Classe Taille % Dos 3 883 370 79.278 Normal 972 781 19.859 Prob 41 102 0.839 R2L 1 126 0.023 U2R 52 0.001 Total 4 898 431 100 Table 4.3 – Répartition des classe dans

l’ensemble de test

Chaque enregistrement décrit une connexion à l’aide de 41 attributs dont 7 qualitatifs et les 34 autres sont quantitatifs. Ces attributs sont regroupés en trois classes décrites comme suit :

— Les Attributs de base(table 4.4) : Cette catégorie regroupe neuf attributs intrinsèques décrivant les données au niveau paquet. Ces attributs sont directement obtenus à partir des paquets capturés et sont utilisés pour calculer d’autres attributs et peuvent être utilisés pour détecter plusieurs attaques. L’attribut Src_bytes, par exemple, représen-tant la quantité de données envoyées de la source vers la destination, sert à détecter les attaques par buffer_overflow.

— Les Attributs de contenu(table 4.5) : Ces attributs sont relatifs aux contenus des paquets d’une connexion et permettent de révéler certaines actions malveillantes tels que les accès aux fichiers systèmes, tentatives d’accès non autorisés, etc. Ils sont particulièrement utiles pour la détection des attaques U2R (User to Root) et R2L (Remote to Local access). La définition de ce type d’attributs nécessite des connaissances à priori sur les différentes stratégies d’attaques.

— Attributs temporels (time-based features)(Table 4.6) : Cette catégorie d’attribut est constituée de deux sortes d’attributs : Des attributs relatifs aux connexion ayant le même hôte de destination que la connexion courante durant les deux dernières minutes et des attributs décrivant des connexions ayant le même service que la connexion courante durant les deux dernières minutes.

N Attribut Description Type

1 duration durée de la connexion continu 2 protocol_type type du protocole discret 3 service service réseau (destination) discret

4 flag statut de la connexion continu

5 src_bytes nb de données (en octets) de la source

vers la destination continu 6 dst_bytes nb de données (en octets) de la

desti-nation vers la source continu 7 land 1 si la connexion est de/vers le même

hôte/port ; 0 sinon continu 8 wrong_fragment nb de fragments erronés continu 9 urgent nb de paquets urgents continu

Table 4.4 – Attributs de base d’une connexion TCP individuelles

N Attribut Description Type

10 hot nb d’indicateurs hot continu

11 num_failed_logins nb d’essais login ratés continu 12 logged_in 1 si succès du login ; 0 sinon discret 13 num_compromised nb de conditions de compromis continu 14 root_shell 1 si la racine shell est obtenue ; 0 sinon discret 15 su_attempted 1 s’il y a tentative de la commande

ra-cine su ; 0 sinon discret 16 num_root nb d’accès à la racine continu 17 num_file_creations nb de créations d’opérations de fichiers continu 18 num_shells nb de shell prompts continu 19 num_access_files nb opérations sur les fichiers de contrôle

d’accès continu

20 num_outbound_cmds nb de commandes outbound dans une

session ftp continu

21 1is_host_login 1 si le login appartient à la liste hot ; 0

sion discret

22 is_guest_login 1 si le login est login invité ; 0 sinon discret Table 4.5 – Attributs de contenu

N Attribut Description Type

23 count nb de connexion pour le même

hôte continu

24 srv_count nb de connexion pour le même

service continu

25 serror_rate % de connexion pour le même

hôte ayant l’erreur SYN continu 26 srv_serror_rate % de connexion pour le même

ser-vice ayant l’erreur SYN continu 27 rerror_rate % de connexion pour le même

hôte ayant l’erreur REJ continu 28 srv_rerror_rate % de connexion pour le même

ser-vice ayant l’erreur REJ continu 29 same_srv_rate % de connexion pour le même

hôte utilisant le même service continu 30 diff_srv_rate % de connexion pour le même

hôte utilisant différents services continu 31 srv_diff_host_rate % de connexion pour le même

ser-vice utilisant différents hôtes continu 32 dst_host_count nb de connexion pour le même

hôte continu

33 dst_host_srv_count nb de connexion pour le même

hôte utilisant le même service continu 34 dst_host_same_srv_rate % de connexion pour le même

hôte utilisant le même service continu 35 dst_host_diff_srv_rate % de connexion pour le même

hôte utilisant différents services continu 36 dst_host_same_src_port_rate % de connexion pour le même

hôte ayant le port src continu 37 dst_host_srv_diff_host_rate % de connexion pour le même

hôte et le même service utilisant différents hôtes

continu

38 dst_host_serror_rate % de connexion pour le même

hôte ayant l’erreur SYN continu 39 dst_host_srv_serror_rate % de connexion pour le même

hôte et le même service ayant l’er-reur SYN

continu

40 dst_host_rerror_rate % de connexion pour le même

hôte ayant l’erreur REJ continu 41 dst_host_srv_rerror_rate % de connexion pour le même

hôte et le même service ayant l’er-reur REJ

continu

Par ailleurs nous avons constater que cet ensemble de données souffre, essentiellement, des lacunes suivantes :

— Contient un nombre important d’enregistrement redondants. En présence de telle redon-dance, tout algorithme de classification se trouve biaisé vers les attaques fréquentes et donnera moins d’importance aux attaques rares tel que R2L et U2R qui sont, générale-ment, les plus nuisibles.

— Contient des attributs non pertinents qui ajoutent, simplement, du bruit aux données et affectent, négativement, la précision de tout modèle de classification.

A fin de lever ces lacunes, nous avons procéder à une étape de pré-traitement.