Résultats - Application des Réseaux Bayésiens

5.4.2 Application des Réseaux Bayésiens

5.4.2.6 Résultats

Avant de présenter les résultats obtenus, indiquons tout d’abord les mesures de performance utilisées en fonction des indicateurs déjà précisés dans le paragraphe 5.1.3. Ces indicateurs sont :

F. 5.12 – Les structures obtenues par l’algorithme MWST pour les données de deux experts. Les noeuds (1 à 25) sont les variables mesurées par les experts et le noeud LOC est le noeud classe.

– PCC: pourcentage de bonne classification (vrais positifs + vrais negatifs).

– Hit Rate (HR) : pourcentage de détection des points attaques (vrais positifs).

– Faux Positifs (FP) : pourcentage des points normaux classifiés comme attaques.

Un bon système de classification binaire est celui qui donne un grand PCC. Par contre, pour un système de filtrage des alarmes issues d’un NIDS ou en général pour un IDS, un bon système de clas-sification n’est pas celui qui donne une valeur élevée de PCC, mais celui qui peut détecter d’abord la majorité des attaques (100% HR) tout en minimisant ensuite les faux positifs (0% FP).

Approche brute Le tableau 5.3 présente les résultats obtenus par l’application de l’approche brute sur les données de deux experts. Rappelons que le modèle construit est celui du RB naïf qui contient 7200 noeuds et le noeud classe (§5.4.2.2). Nous cherchons ici à déterminer l’état global du réseau en fonction des variables mesurées par les experts pour les machines internes du réseau. Ces résultats montrent que cette méthode de détection n’est pas efficace. Pour l’expert 1 (meilleurs résultats) 50% des vraies attaques ne sont pas détectées et 38% des données normales sont mal classifiées.

T. 5.3 – Résultats de l’implémentation de l’approche brute sur les données de deux experts.

Expert HR FP PCC

Expert1 50 % 38.27 % 71.47 %

Expert2 45.65 % 48.79 % 61.63 %

Approche modulaire

Influence des variables contextuelles (OS et type) Le tableau 5.4 présente les résultats obtenus par l’implémentation des différents modèles sur les variables mesurées par l’expert1. A partir de ces ré-sultats on peut facilement constater que l’intégration des deux variables contextuelles OS et type avec les autres variables n’a pas d’influence sur les résultats. Ce résultat paraît logique du point de vue détection d’intrusions. En effet, et comme signalé dans le chapitre 3 (§3.8), le fonctionnement général de notre

5.4. Application

F. 5.13 – Les deux structures obtenues par le modèle multinet à partir des données normales (à gauche) et données attaques (à droite) pour les variables (1 à 25) mesurées par l’expert1.

approche de filtrage est similaire à l’approche comportementale dans les IDS. Dans cette architecture, nous essayons de construire un profil des machines internes (IP_interne) à partir des alarmes générées par les NIDS et déterminer s’il y a une attaque réelle à partir de ce profil. L’intégration des informations contextuelles comme le système d’exploitation ou le type de serveur peut aider à la détection des scé-narios spécifiquesd’attaques si ces systèmes sont vulnérables contre ce genre d’attaques. Par exemple, si la machine est attaquée par une attaque Web contre un serveur IIS, et son système d’exploitation est Windows alors l’intégration de cette information supplémentaire (i.e OS) va influencer sur le résultat final. Tandis que cette influence est négligable si cette information est "Unix".

T. 5.4 – Résultats des différents modèles sur les variables mesurées par l’expert1. Le signe (+) indique l’intégration des deux variables contextuelles OS et type.

Modèle HR FP PCC Naïf 46 % 12 % 87.4 % Naïf+ 46 % 12 % 87.4 % TANB 74 % 11 % 88.8 % TANB+ 72% 17% 83% Multinet 0 % 0 % 98.7 % Multinet+ 0 % 0 % 98.7 %

Comparaison entre les experts La table 5.5 présente les résultats obtenus pour l’application des différentes structures de RB sur les variables des deux experts et la combinaison des deux. En analysant ces résultats, on peut noter les remarques suivantes :

– Les résultats obtenus pour l’expert2 sont en général meilleurs que ceux de l’expert1 (en terme de détection d’intrusions).

– la combinaison entre les variables des deux experts a très peu amélioré les résultats en diminuant le taux de FP de 15% à 10% avec le même taux de HR ≅ 60%.

– L’algorithme multinet appliqué à l’expert2 a donné les meilleurs résultats. Il a pu détecter la plupart des attaques (8% de faux négatifs), et a filtré (64%) des points normaux (FP = 36%).

T. 5.5 – Résultats des différents algorithmes. Le signe (+) indique l’intégration des deux variables contextuelles OS et type.

Expert1 Expert2 Combinaison

Modèle HR FP PCC HR FP PCC HR FP PCC Naïf 46 % 12 % 87.4 % 62 % 12 % 87.7 % 60 % 11 % 88.7 % Naïf+ 46 % 12 % 87.44 % 62 % 15 % 84.7 % 60 % 10 % 89.70 % MWST 36 % 3 % 96.2 % 12 % 2 % 96.9 % - - -TANB 74 % 11 % 88.8 % 62 % 17 % 82.7 % - - -TANB+ 72% 17% 83% 66% 19% 81.8% - - -Multinet 0 % 0 % 98.7 % 92 % 36 % 64.4 % - - -Multinet+0 % 0 % 98.7 92% 48% 52.5% - -

-Nature des données la nature des données joue un rôle dominant sur les résultats obtenus, surtout quand les bases de données ne contiennent pas un nombre suffisant d’exemples d’attaques. On peut remarquer l’influence de la nature des données surtout sur le modèle Multinet. En effet, dans ces types de structures (multinet), la probabilité à priori de la variable classe est très importante, en particulier quand les deux vraisemblances P(A/C = normal) et P(A/C = attaque) sont proches. Le tableau 5.6 présente l’influence de la probabilité à priori sur les résultats. Il présente les résultats de classification avec la règle de décision maximum à postériori en tenant compte de la probabilité à priori de la classe (P(C = normal) = 0.99 et P(C = attaque) = 0.01) et avec la règle de décision de maximum de vraisemblance (i.e. en considérant que la probabilité à priori est uniforme). Dans ce cas, nous pouvons noter que les résultats sont meilleurs (HR = 100% et FP = 24%).

Donc, les structures multinet et surtout celle appliquée à l’expert2 semblent les plus intéressantes à cette problématique. La création d’un réseau bayésien pour chaque catégorie de données (normale et attaque) a permis de négliger l’influence de la dominance des données normales sur le modèle construit, et par conséquent les données attaques sont mieux détectées (vraisemblables) par le modèle construit à partir des données attaques d’apprentissage.

T. 5.6 – Influence de la probabilité à priori de la classe sur les résultats de classification. Le signe (+) indique l’intégration des deux variables contextuelles OS et type.

Max de vraisemblance P(A/C) Max à postériori P(A/C)*P(C) Algorithme HR FP HR FP Multinet(Expert1) 84% 14% 0% 0% Multinet(Expert2) 100% 24% 92% 36% Multinet+(Expert1) 80% 15% 0% 0% Multinet+(Expert2) 100% 32% 92% 48%

Nature des structures Les résultats obtenus dans le tableau 5.5 montrent que les structures pré-définies telles que les structures naïves ou naïves+ ne sont pas adéquates à notre problématique. Les structures déterminées à partir des données (et surtout les multinet) ont donné les meilleurs résultats car ces structures réflètent mieux la relation entre les variables.

5.4. Application T. 5.7 – Résultats obtenus en utilisant le noyau linéaire. HR : pourcentage de détection d’attaques, FP : pourcentage des faux positifs et PCC : pourcentage de bonne classification.

C HR FP PCC 0 92% 20% 80.2% 1 96% 17.6% 82.5% 10 96% 64.5% 36.3% 100 100% 79% 22% 1000 100% 79.8% 21.2% 5.4.2.7 Discussion

Les résultats obtenus pour les deux approches brutes et modulaires montrent clairement que l’ap-proche modulaire a amélioré les performances d’une facon importante. Cette conséquence parait logique pour les raisons suivantes :

– Dans l’approche brute le modèle est très sommaire, c.à.d les variables de toutes les machines internes sont regroupées et présentées au modèle sans aucune distinction.

– Les résultats de l’approche brute dépendent de toutes ces variables. En général, dans les grands réseaux, un nombre limité de machines est visé par des attaques et par conséquent, la plupart des variables du réseau bayésien réflètent les mesures de l’état normal. Donc le comportement des machines attaquées est noyé dans le comportement de l’ensemble.

– Dans l’approche modulaire, les variables de chaque machine interne sont présentées à part et l’état de cette machine est calculé en fonction de ces variables. Donc il n’y a pas influence de la part des variables des autres machines.

– L’état global du réseau est déterminé dans l’approche modulaire en fonction des états locaux des machines internes et non pas directement des variables de mesures.

– Dans l’approche modulaire, on peut déterminer la (les) machine (s) interne (s) cible (s) d’une attaque.

Dans le document Une architecture semi-supervisée et adaptative pour le filtrage d'alarmes dans les systèmes de détection d'intrusions sur les réseaux (Page 108-112)