Les limites des systèmes de détection d’intrusion basés data mining

PARTIE I État de l’art

4. Chapitre 4 Les IDSs Adaptatifs

4.2. Les limites des systèmes de détection d’intrusion basés data mining

Les systèmes de détection d’intrusion basés data mining ont traité les limites de la première génération des IDSs comme l’étroite dépendance de l’environnement cible, la difficulté liée à l’évaluation, les limites de performance, le temps de traitement, l’intervention des experts humains. De plus, cette deuxième génération a montré beaucoup d’avantages qui ont un caractère adaptatif comme l’adaptation au grand volume de données et au réseau à grande échelle. Malgré tous ces grands avantages et ces bonnes caractéristiques, cette deuxième

Page 93

génération des systèmes de détection d’intrusion souffre de certaines limites qu’on peut les résumer par les points suivants (Bensefia, 2009):

La nécessité de préparer un ensemble de données d’apprentissage: Cette étape est indispensable pour l’apprentissage d’un modèle de détection d’intrusion basé data mining. Les données doivent être collecté du différent fichier de trace d’audité puis formater dans une forme spécifique adaptée à notre modèle. Dans le cas où on utilise une approche par scénario et que le mode d’apprentissage est un apprentissage supervisé, ces données doivent être étiquetées par un expert de sécurité. Dans le cas où on utilise une approche comportementale, les instances des attaques doivent être supprimées. Avec les grands volumes de données de trace d’audité générées par les différents réseaux et machines cette étape de collecte et traitement manuel des traces d’audite est devenu fastidieuse et très couteuse en temps et en effort.

Le temps nécessaire pour l’apprentissage: Les systèmes de détection d’intrusion basés data mining ont besoin du temps pour faire l’apprentissage, ce temps varie de quelque milliseconde à des heures d’après la technique de data mining utilisée. Ce temps d’apprentissage peut devenir presque nul dans le cas d’un apprentissage continu. Le temps d’apprentissage jeux un rôle très important dans le déploiement et la mise à jour d’un système de détection d’intrusion. Un temps d’apprentissage très court rend le déploiement plus rapide, de plus le système sera plus disponible vu que le temps de mise à jour sera très court.

Le problème de déploiement: Les systèmes de détection d’intrusion basés data mining dépends fortement des données d’apprentissage. Un système de détection d’intrusion entrainé par un ensemble de données qui provient d’un environnement donné ne fonctionne pas avec des données qui proviennent d’une autre source de données. Donc, il est indispensable de refaire l’étape de collection et de formatage des données afin de réformer notre système de détection d’intrusion. Ce coût élevé de collection et de formatage des traces d’audit est associé à chaque déploiement d’un IDS.

La difficulté de détecter les nouvelles formes d’attaques: Malgré que les systèmes de détection d’intrusion de la seconde génération se basent sur divers techniques de data mining, la plupart d’entre elles se posent à la difficulté de la reconnaissance des nouvelles formes d’attaques. Généralement une nouvelle

Chapitre 4: Les IDSs Adaptatifs

Page 94

forme d’attaque peut être soit une variation de la forme d’une attaque déjà connue, une représentation ultérieure d’une ancienne attaque ou une attaque complètement nouvelle qui vise un nouveau service ou un nouveau protocole. La capacité de généralisation des techniques de data mining a donné aux systèmes de détection d’intrusion de la seconde génération la capacité de détecter les attaques qui ressemblent aux formes des attaques utilisées pendant la phase d’apprentissage. Malgré cette capacité, les systèmes de détection d’intrusion basés data mining ont montré des limites face aux attaques complément nouvelles qui ne ressemblent pas aux attaques déjà rencontrées. Malgré que l’approche comportementale peut détecter ces nouvelles attaques, mais le taux très élevé de faux positif nous pousse à l’écarter comme une solution de ce problème.

La nécessité d’une mise à jour régulière: À chaque fois qu’une nouvelle attaque est détectée, notre système de détection d’intrusion devient obsolète et la nécessité de mettre à jour notre IDS devient primordiale. Afin de mettre à jour notre système de détection d’intrusion, on doit :

Premièrement, mettre à jour notre ensemble de données d’apprentissage en ajoutant les nouvelles attaques.

Deuxièmement, refaire l’apprentissage de la technique de data mining utilisée.

Cette mise à jour peut être immédiate à chaque fois qu’une nouvelle attaque est détectée ou périodique chaque heure ou chaque jour. Cette fonction de mise à jour est très couteuse en temps et en effort.

4.2.1. Le traitement des limites des systèmes de détection d’intrusion de la deuxième génération

Afin de traiter les limites de la deuxième génération des systèmes de détection d’intrusion, plusieurs solutions ont été proposées ainsi que d’autres solutions nous avons nous même proposées. Chaque une de ces solutions a été apportée afin de résoudre l’une des limites de la deuxième génération des systèmes de détection d’intrusion. Malgré tout l’avancement technologique certains problèmes restent persistants. On peut présenter ces solutions comme suit :

La solution pour la nécessité de préparer un ensemble de données

Page 95

étape indispensable pour les systèmes de détection d’intrusion basés data mining. Malheureusement, le formatage et l’étiquetage des différents enregistrements restent toujours une étape qui demande l’intervention d’un expert en sécurité informatique. Si on utilise un système de détection qui se base sur l’approche comportementale, on peut connaitre si la connexion est une attaque ou non, mais on va rencontrer le problème de taux élevé de fausse alarme, de plus on ne peut pas connaitre le type exact de cette attaque. Pour créer un IDS avec un taux acceptable de fausse alarme et réussir à trouver le type de l’attaque on doit utiliser un IDS basée scénario ce qui rend les étapes de collecte, formatage et étiquetage inévitable pour n’importe quel type de système de détection d’intrusion performant.

La solution pour le temps d’apprentissage: Le temps d’apprentissage joue un rôle très important dans l’apprentissage, la mise à jour et le déploiement d’un système de détection d’intrusion. Si on utilise un système de détection avec un mode d’apprentissage continu ce temps sera presque nul, mais le système ne sera pas performant dès sa mise en œuvre, c’est avec le temps qu’il sera plus en plus performant. Pour traiter ce problème du temps d’apprentissage, il faut que le système soit très rapide en termes de temps d’apprentissage. Par exemple un temps d’apprentissage de quelque second au maximum. Un système de détection d’intrusion basé sur un mode d’apprentissage continu avec un temps d’apprentissage initial très court sera la solution idéale.

La solution pour le problème de déploiement: Un système de détection d’intrusion sans coût de déploiement est un système de détection portable qui sera compatible avec n’importe quel système ou plateforme, donc il faut que les données collectées de la trace d’audit de tous les enivrements soient standardisées. Cette problématique a été abordée par Michel and Mé (Michel and Mé, 2001) mais ce sujet reste très difficile à réaliser vu qu’aucun standard n’a été publié. De plus chaque système de détection d’intrusion utilise un ensemble de données différent des autres. En outre, les systèmes de détection d’intrusion sont de plus en plus liés à des systèmes spécifiques ce qui rend les efforts de standardisation moins en moins fructueux.

La solution pour la difficulté de détecter les nouvelles formes d’attaques: Les nouvelles attaques qui ne sont que des modifications des formes des attaques déjà

Chapitre 4: Les IDSs Adaptatifs

Page 96

détectées ou utilisées dans la phase d’apprentissage ne représentent pas un grand problème parce qu’un système de détection d’intrusion de la deuxième génération avec une grande capacité de généralisation a la capacité de les détecter. Le vrai problème est avec les attaques émergentes et complètement nouvelles. Ces attaques peuvent être détectées avec un IDS de type comportemental, mais à cause du taux très élevé de faux positif nous écartons cette solution. Les solutions qu’on peut utiliser sont :

mettre à jour notre système de détection d’intrusion à chaque fois qu’une attaque complètement nouvelle est détectée.

l’utilisation d’un mode d’apprentissage continu. l’utilisation des techniques d’apprentissage adaptatif.

La grande capacité de généralisation de notre système nous permet de détecter toutes les attaques drivées de cette nouvelle attaque.

La solution pour la nécessité de la mise à jour régulière: La solution idéale pour la mise à jour est l’apprentissage continu où notre système peut apprendre à tout moment, donc l’apprentissage des nouvelles formes d’attaques ne sera pas couteux en termes de temps. La deuxième solution est de développer un IDS très rapide en termes de temps d’apprentissage où le réapprentissage ne sera pas très couteux. Il nous reste toujours le problème incontournable de la préparation des enregistrements pour faire la mise à jour.

On peut résumer la discussion précédente concernant les résolutions des problèmes des systèmes de détection d’intrusion de la deuxième génération par les solutions suivantes :

L’utilisation des techniques d’apprentissage adaptatif.

La création d’un système de détection d’intrusion très rapide en termes d’apprentissage.

La création d’un système de détection d’intrusion qui possède une grande capacité de généralisation.

La création d’un système de détection d’intrusion avec un mode d’apprentissage continu.

Page 97

Ces solutions peuvent être utilisées seules ou combinées avec d'autres solutions dans le même modèle afin d’obtenir le système de détection d’intrusion adaptatif le plus performant.

Dans le document Système de détection d'instruction adaptatif et distribué (Page 117-122)