Approche logique pour l'analyse de traces d'exécutions

(1)

Approche logique pour l’analyse de traces

d’exécutions

Mémoire

Rimeh Zribi

Maîtrise en informatique

Maître ès sciences (M.Sc.)

Québec, Canada

© Rimeh Zribi, 2013

(2)

(3)

R´

esum´

e

Les techniques traditionnelles de détection d’intrusions s’appuient sur différentes approches permettant d’identifier une utilisation non prévue et non autorisée de différentes ressources d’un système informatique. Afin de détecter ces comportements, nous décrivons dans ce m´ e-moire une approche logique de détection d’intrusions basée sur l’identification, dans des traces d’exécutions, de violations de politiques de sécurité données. Le modèle développé spécifie l’état des ressources d’un système ainsi que les effets des différents appels système sur cet ´

etat. Le système obtenu, qui s’apparente à un système expert, s’appuie sur un ensemble de règles logiques décrivant les connaissances d’un expert en sécurité informatique. Tout com-portement illégal, c’est-à-dire non conforme aux politiques de sécurité considérées, est signalé et est considéré comme une tentative d’intrusion. Le système implémenté est capable de d´ e-tecter une large classe d’attaques puisque l’approche développée ne se base pas sur certaines séquences particulières d’actions déjà recensées, mais plutôt sur les effets des différentes ac-tions effectuées. De plus, il est capable de détecter de nouveaux comportements malveillants non préalablement identifiés.

(4)

(5)

Abstract

Traditional techniques for intrusion detection based on different approaches for identifying unintended and unauthorized use of different resources of a computer system. To detect these behaviors, we describe in this paper a logical approach to intrusion detection based on the identification, in execution traces, of violations of given security policies. The developed model specifies the state of system resources as well as the effects of different system calls on this state. The resulting system, which is similar to an expert system, relies on a set of logical rules describing the knowledge of an expert in computer security. Any illegal behavior, that means not conform to the considered security policies, is reported and is considered as an intrusion attempt. The implemented system is able to detect a wide class of attacks since the approach is not based on some particular sequences of actions already identified, but rather on the effects of different actions performed. In addition, it is able to detect new malicious behavior not previously identified.

(6)

(7)

Table des mati`

eres

R´esum´e iii

Abstract v

Table des mati`eres vii

Liste des tableaux ix

Liste des figures xi

Avant-propos xvii

I Etat de l’art´ 3

1 Propriétés de sécurité 5

1.1 Définitions. . . 5 1.2 Propriétés de sécurité . . . 7

2 D´etection d’intrusions 11

2.1 Techniques de d´etection d’intrusions . . . 11

2.2 Optimisation de l’analyse des intrusions . . . 21

3 Analyse de traces du noyau 31

3.1 Traces Lttng. . . 31

3.2 Analyse de traces du noyau : AFI . . . 34

II Contribution 39

4 Approche logique pour l’analyse d’une trace 41

4.1 Description g´en´erale . . . 41

4.2 Mod´elisation . . . 44

4.3 Exemples . . . 54

5 Impl´ementation 75

5.1 Module d’´echange de donn´ees avec AFI . . . 76

(8)

5.3 Mod`ele de raisonnement en Prolog . . . 77

6 Conclusion 81

6.1 Approche propos´ee . . . 81

6.2 Travaux futurs . . . 82

(9)

Liste des tableaux

2.1 Modes d’incertitude. . . 25

4.1 Syntaxe du mod`ele. . . 47

4.2 (a) Sp´ecifications des actions et des ´etats. . . 49

4.3 (b) Sp´ecifications des actions et des ´etats. . . 50

4.4 Liste des faits ajout´es . . . 58

4.5 Application des r`egles . . . 59

4.6 Application des r`egles dans l’exemple «ajout d’un utilisateur» . . . 61

4.7 Faits ajoutés pour échapper à une prison chroot . . . 63

(10)

(11)

Liste des figures

2.1 Utilisations de Snort.. . . 14

2.2 Architecture de MulVAL. . . 20

2.3 Correspondance d’observation. . . 25

2.4 Mod`ele interne. . . 26

2.5 Architecture du syst`eme de raisonnement. . . 27

3.1 Format des ´ev´enements Lttng. . . 32

3.2 Instrumentation Lttng. . . 33

3.3 Architecture de AFI. . . 34

3.4 Algorithme général du moteur de détection. . . 36

3.5 Module d’affichage AFI. . . 37

4.1 Architecture d’un syst`eme expert. . . 43

4.2 Approche propos´ee. . . 44

4.3 Architecture du mod`ele propos´e. . . 45

4.4 Description de l’´etat des ressources du syst`eme. . . 48

4.5 Exemple de description de l’´etat du syst`eme. . . 48

4.6 Exemples de spécification formelle de politique de sécurité. . . 53

4.7 Exemples de sp´ecification formelle de r`egles. . . 54

4.8 Code C de l’attaque race condition. . . 56

4.9 Trace Lttng de l’attaque race condition. . . 57

4.10 Code assembleur pour la cr´eation d’un utilisateur. . . 60

4.11 Trace Lttng de la cr´eation d’un utilisateur. . . 61

4.12 Effets des fonctions syst`eme de la cr´eation d’un nouvel utilisateur. . . 61

4.13 Code C pour ´echapper `a une prison chroot. . . 64

4.14 Trace Lttng pour ´echapper `a une prison chroot. . . 65

4.15 Code pour l’escalade des privil`eges.. . . 67

4.16 Trace Lttng pour l’escalade des privil`eges. . . 68

4.17 Escalade des privil`eges. . . 68

4.18 Code C de la variante de l’attaque «race condition sur les fichiers syst`eme». . . 70

4.19 Trace Lttng de la variante de l’attaque «race condition sur les fichiers syst`eme». . 71

4.20 Race condition sur les fichiers syst`eme.. . . 71

4.21 Code C de la variante de l’attaque «´echappe `a une prison chroot». . . 72

4.22 Trace Lttng de la variante de l’attaque «´echappe `a une prison chroot». . . 73

5.1 Module de traitement du r´esultat AFI re¸cu. . . 76

(12)

5.3 Interface graphique de l’application impl´ement´ee. . . 77

5.4 Sp´ecification des effets des fonctions syst`eme. . . 78

(13)

`

A mon trésor Acil, à qui j’ai donnée naissance. À ma chère Nefissa, qui m’a donnée naissance.

(14)

(15)

Tant qu’il y a de la vie, il y a de l’espoir, et inversement : sans espoir, plus de vie !

(16)

(17)

Avant-propos

Je tiens à remercier tous ceux qui, de près ou de loin, ont contribué à la réussite de ce travail. Je désire remercier tout particulièrement mon directeur de recherche, le professeur Béchir Ktari sans qui cette aventure n’aurait vu son épilogue si tôt et pour la confiance qu’il m’a montrée tout au long de ces deux années de travail. J’exprime également toutes mes reconnaissances et ma gratitude aux professeurs Laurence Capus et Luc Lamontagne pour avoir accepter d’évaluer ce mémoire. Je remercie le personnel administratif du département d’informatique pour les nombreux services qu’il m’a rendus.

Je tiens à remercier tous les collègues du LSFM pour leur support technique et moral. Je remercie le centre de recherche et de développement pour la défense Canada (DRDC) et Ericsson Canada qui ont couvert en intégralité tous les frais reliés à mes études et mon séjour. Enfin, mon dernier et plus gros mot de remerciement va à mon mari Mohamed Aymen pour le support qu’il m’a donné dès mes premiers pas à Québec. Les remerciements vont aussi à ma famille pour leur support moral et surtout à mon trésor Acil qui m’a donné le courage de travailler davantage.

(18)

(19)

Introduction

Les évolutions récentes et rapides de l’informatique ont contribué à l’accélération des échanges d’information. Les entreprises se trouvent ainsi confrontées au contrôle efficace de l’accès à leur information, et plus précisément à la nécessité d’assurer la confidentialité, l’intégrité et la disponibilité de leur information. Véritable point névralgique, le système d’information est souvent en proie à de multiples attaques qui menacent l’activité des entreprises et qui requièrent la mise en place de mesures adéquates afin de protéger leur système d’information ; ces mesures nécessitent au préalable la définition d’une politique de sécurité que l’on va par la suite renforcer dans le système d’information1.

L’utilisation de méthodes, de techniques et d’outils chargés de protéger les ressources d’un système informatique est devenue essentielle afin d’assurer la sécurité d’un système d’informa-tion, notamment à travers des outils comme les systèmes de détection d’intrusions permettant d’identifier des attaques ou des violations de politiques de sécurité. Toutefois, à l’instar de tous les systèmes de détection d’intrusions, ils peuvent présenter des failles (engendrant de faux négatifs), émettre de fausses alertes (faux positifs) ou être contournés afin d’aboutir à une action malveillante. Dans le cadre de notre travail de recherche, notre défi consiste à proposer une solution efficace pour analyser les traces d’exécutions d’un système en vue d’en détecter des comportements malveillants ; ces traces correspondent à des séquences d’appels système effectués par le noyau du système d’exploitation.

L’énorme quantité d’information générée par les outils de tra¸cage rend difficile leur analyse. De plus, cette analyse requiert une bonne connaissance des aspects techniques du noyau du système d’exploitation (Linux). Ainsi, nous proposerons de mettre en place une approche logique qui reproduit le raisonnement d’un expert en sécurité informatique en analysant les appels système extraits d’une trace du noyau afin de détecter les comportements malveillants. Par conséquent, la solution proposée consiste à concevoir un système expert2d’analyse logique de traces d’exécutions. Pour ce faire, il est nécessaire de représenter les connaissances et les

1. Au chapitre1, une définition des notions de propriétés (confidentialité, intégrité et disponibilité) et de politiques de sécurité est proposée.

(20)

raisonnements utilisés pour spécifier le modèle proposé en se basant sur une approche visant la détection de comportements qui violent une politique de sécurité donnée. Par exemple, le non respect de cette politique peut être décrit à travers les attaques accédant aux systèmes de fichiers, ou autorisant les utilisateurs qui essayent de s’accorder des autorités supplémentaires pour lesquelles ils ne devraient pas avoir accès, ou permettant à des utilisateurs d’abuser de leurs privilèges : une alerte devrait être déclenchée en cas de détection d’un tel comportement. Dans ce travail de recherche, l’outil de tra¸cage Lttng (Linux Trace Toolkit - next generation) a été utilisé (8; 35) afin de tracer le système et de fournir des événements de bas niveau correspondant à des appels système (syscall ). Ces événements peuvent concerner les systèmes de fichiers, la communication inter-processus, les appels système ou la gestion de la mémoire et du réseau. En plus de Lttng, notre travail se base sur un précédent travail, AFI (chapitre 3), (53), qui comprend un engin de détection de patrons de comportements ; cet engin est utilisé comme source de données pour la base de connaissances du système que nous avons con¸cue.

En résumé, ce travail de recherche a pour objectif de mettre en œuvre une approche logique qui assure l’extraction des données à partir de traces d’exécutions. Cette approche permet la représentation des connaissances et de l’état des ressources du système, la reproduction du raisonnement d’un expert en sécurité informatique à travers la mise en place d’un moteur d’inférence et la spécification d’une politique de sécurité à respecter.

Dans ce mémoire, il nous apparaˆıt pertinent de présenter à titre préalable les propriétés de sécurité à vérifier dans un système informatique (chapitre1), puis, de présenter les différents types de techniques de détection d’intrusions, en particulier celles basées sur la détection de violation de politiques de sécurité (chapitre 2). Par la suite, au chapitre 3, une présentation des outils utilisés dans ce projet (tels que Lttng et AFI) est proposée. Aux chapitres 4 et5, l’approche logique con¸cue pour l’analyse de traces d’exécutions est présentée, illustrée par quelques exemples pratiques d’utilisation. Finalement, une conclusion est présentée en fin de mémoire afin de résumer nos contributions et de présenter quelques travaux futurs.

(21)

Premi`

ere partie

´

(22)

(23)

Chapitre 1

Propri´

et´

es de s´

ecurit´

e

L’avènement des systèmes informatiques, des réseaux et d’Internet a certes révolutionné la vie quotidienne des individus et des entreprises, mais leur popularité (due notamment à leur facilité d’emploi) n’offre pas que des avantages. Ils contribuent souvent à altérer la fiabilité des systèmes. Conséquemment, de nouvelles contraintes sont apparues comme la nécessité d’assu-rer la disponibilité des services offerts par le système, ainsi que l’intégrité et la confidentialité des données qui y sont stockées.

Dans ce chapitre, nous précisons différentes notions permettant de mieux cerner le contexte dans lequel se situe notre travail : détection d’intrusions ou de comportements malveillants.

1.1 D´

efinitions

Les d´efinitions suivantes permettent de mieux situer le domaine de la d´etection d’intrusions.

Système informatique Un système informatique est composé d’outils matériels et lo-giciels qui cohabitent et collaborent pour le traitement et l’échange de données. Il est composé d’une ou de plusieurs machines reliées entre elles à l’aide d’un réseau. Il peut être situé sur un seul site ou sur plusieurs sites éloignés.

Intrusion Tous les systèmes de détection d’intrusions partagent une définition générale de l’intrusion comme étant l’utilisation non autorisée ou l’abus d’utilisation d’un système informatique.

Vulnérabilité Les vulnérabilités présentes dans un composant informatique représentent toutes les anomalies de conception ainsi que toutes les lacunes causées par sa configuration. Par ailleurs, les vulnérabilités d’un système informatique correspondent à la combinaison des vulnérabilités de ses composants. La présence de certains composants particuliers entraine

(24)

souvent l’apparition de nouvelles vulnérabilités. Toutes ces vulnérabilités représentent des faiblesses pour le système et ainsi des opportunités d’attaques pour les intrus.

Politique de sécurité Une politique de sécurité correspond à un ensemble de règles établies par les administrateurs des systèmes informatiques. Elle modélise et formalise les actions à autoriser et celles à interdire en considérant tous les composants figurant dans un système donné. Ces autorisations et interdictions sont basées sur les vulnérabilités de chaque outil.

Système de détection d’intrusion (ou IDS : Intrusion Detection System) Un tel sys-tème est caractérisé par la présence d’un mécanisme destiné à repérer des activités anormales ou suspectes sur la cible analysée (un réseau ou un hôte).

Attaque Pour lancer une attaque sur un système informatique, l’intrus collecte, dans un premier temps, de l’information par le biais d’outils communs comme les scanners de ports. Il exploite ensuite l’information recueillie pour s’introduire dans le système ciblé. Une fois que le système de sécurité est déjoué, l’intrus organise son propre environnement en créant un compte avec tous les privilèges ou en installant des applications de prise de contrôle (cheval de Troie, par exemple). Il procède, ensuite, à l’exploration de la cible et enfin il accomplit son action malicieuse.

Alerte Une alerte représente l’information transmise par un IDS à l’intention de l’ad-ministrateur. Elle doit être claire, nette et précise.

Faux positif On parle d’un faux positif lorsqu’un IDS consid`ere un fonctionnement normal comme une attaque.

Faux négatif On parle d’un faux négatif lorsqu’un IDS ne détecte pas une vraie attaque.

Signature d’attaque Une signature d’attaque est un motif (patron de comportement) représentant toute l’information concernant une attaque connue. C’est par ce moyen que l’administrateur réseau configure les systèmes de détection d’intrusions.

Toutes ces définitions vont nous aider à mieux comprendre la signification des termes utilisés dans ce mémoire, plus précisément, dans la description des techniques de détection d’intrusion et leurs fonctionnements (chapitre2). Dans la section suivante, un aper¸cu des propriétés de sécurité à vérifier par un IDS est présenté afin d’assurer le respect d’une politique de sécurité donnée.

(25)

1.2 Propri´

et´

es de s´

ecurit´

e

Dans le cadre de notre projet de recherche, on con¸coit un système qui détecte la violation d’une politique de sécurité donnée. Cette politique définit une exécution qui est jugée inac-ceptable (46). En général, une politique de sécurité est spécifiée sous la forme de règles ou de propriétés décrivant des comportements, jugés malicieux ou bénins. Nous présentons dans cette section les propriétés de sécurité que nous avons recensées. La plupart de ces propriétés sont mentionnées couramment dans la littérature.

1.2.1 Confidentialit´e

«La confidentialit´e est le maintien du secret des informations» (Le Petit Robert).

La confidentialité assure donc que seules les personnes autorisées ont accès à certains éléments donnés. Ainsi, cette propriété est violée si une information est lue par un utilisateur sans avoir les autorisations d’accéder à cette ressource. Et c’est à travers une telle propriété de sécurité que l’on spécifie que les utilisateurs des dites ressources possèdent uniquement les droits qui leur ont été octroyés.

Exemples : La propriété de confidentialité n’est pas respectée si on accède à une ressource privée sans autorisation ou si on accède à une ressource privée avec autorisation et qu’on la rend publique sans avoir les droits nécessaires permettant son accomplissement (29). Comme exemple, on peut considérer les situations suivantes :

– accès en lecture à un fichier secret (comptes utilisateurs, mots de passe, etc.) par un utilisateur non autorisé ;

– envoi d’un fichier secret sur le r´eseau.

Les attributs des ressources sont précisés au niveau de la politique de sécurité. Ils précisent ce qui est confidentiel de ce qui ne l’est pas. Dans le modèle que nous proposons au chapitre 4, une étiquette (de type secret) est ainsi associée à toute ressource que l’on veut protéger. Plus précisément, les ressources qui sont jugées sensibles (secrètes) sont :

– les fichiers spéciaux contenant le noyau et les fichiers de configuration du système, les pilotes des périphériques et les données sensibles des utilisateurs ;

– le réseau et ses ports de communication ; – la mémoire allouée aux processus du système.

Il existe deux actions complémentaires permettant d’assurer la confidentialité des ressources : – limiter leur accès par un mécanisme de contrôle d’accès ;

– transformer les donn´ees par des proc´edures de chiffrement.

Par ailleurs, ces actions peuvent être spécifiées dans la politique de sécurité globale de l’en-treprise.

(26)

1.2.2 Int´egrit´e

Le critère d’intégrité est relatif au fait que des ressources ne sont pas modifiées, altérées ou détruites tant de fa¸con intentionnelle que de manière accidentelle. Ce type de propriété est violée si une ressource sensible est modifiée sans en avoir les autorisations.

Exemples : Les comportements malicieux qu’on cherche à détecter et qui sont liés au critère d’intégrité consistent principalement à la modification d’une ressource sensible, tel qu’un fichier de mots de passe, afin d’atteindre des objectifs malintentionnés. Parmi les exemples représentatifs, on peut citer ceux qui suivent :

– modification du fichier des comptes utilisateurs (ajout d’un nouvel utilisateur par exemple) par un agent non autoris´e ;

– modification des droits d’acc`es d’un fichier de mots de passe et son envoi sur le r´eseau.

1.2.3 Disponibilit´e

Pour un utilisateur, la disponibilité d’une ressource est l’assurance de pouvoir mener correc-tement, à terme, une session de travail. La disponibilité d’une ressource est indissociable de son accessibilité : il ne suffit pas qu’elle soit disponible, elle doit être utilisable avec un temps de réponse acceptable.

On parle de violation de cette propriété dès que les services, les systèmes ou les programmes donnant accès à une ressource donnée sont interrompus ou utilisés d’une manière inacceptable. Exemple : L’exemple le plus répandu et qui est associé directement à ce type de priorité est l’attaque par déni de service. Il s’agit en général de l’inondation et de la saturation d’un réseau afin d’empêcher son fonctionnement par l’envoi systématique de paquets.

1.2.4 Autres propriétés de sécurité

Aux trois propriétés déjà citées s’ajoutent d’autres qui permettent, par exemple, de prouver l’identité des entités (notion d’authentification), et qui indiquent que des actions ou év´ ene-ments ont bien eu lieu (notions de non-répudiation, d’imputabilité et de tra¸cabilité).

Authentification

L’authentification est une propriété qui assure la reconnaissance de l’identité d’une entité (personne, ordinateur, etc.), afin d’autoriser l’accès à des ressources (systèmes de fichiers, réseaux, processus, etc.). L’authentification permet donc de valider l’authenticité d’une entité, et de protéger l’usurpation d’identité.

(27)

Plusieurs attaques visent à violer l’authentification en utilisant des moyens de déguisement (mascarade). En effet, pour s’introduire dans un système, un intrus essaye de piéger des usagers et de se faire passer pour quelqu’un d’autre (usurpation d’identité).

Exemple : La technique de spoofing, qui consiste à envoyer des paquets d’information avec une adresse d’expéditeur fausse, peut engendrer un problème d’authentification dans la mesure où le destinataire des paquets aura une idée erronée à propos de l’expéditeur.

Non-r´epudiation

La non-répudiation est une propriété qui assure que l’auteur d’une action ne peut pas nier l’avoir effectué. Plus généralement, la non-répudiation consiste à garantir que l’auteur d’un message ou d’un document ne peut nier l’avoir écrit ou transmis. Elle est principalement utilisée dans les protocoles d’échange équitable.

Exemple : L’utilisation de signatures avec des mécanismes de chiffrement asymétrique permet de s’assurer que l’émetteur d’un message ne puisse pas répudier son émission. Par exemple, si l’agent Alice signe un courriel pour l’agent Bob avec sa clé privée et qu’elle l’envoie, alors d’une part, Bob est sûr de l’intégrité du message, et d’autre part, du fait qu’Alice en est bien l’émettrice ; il obtient également une preuve de non-répudiation de l’émetteur : il peut prouver qu’Alice est bien l’émettrice, quoi qu’elle affirme. De même, si Bob envoie un acquittement (par exemple, par l’envoi d’un hash signé du message re¸cu), alors Alice obtient une preuve de non-répudiation de réception : elle peut alors prouver à tous que Bob a bien re¸cu son message, et en cas de litige, Bob ne pourra pas affirmer le contraire (54).

Conclusion Il n’est pas suffisant de définir une politique de sécurité (en termes de confi-dentialité, d’intégrité et de disponibilité des données et ressources du système à protéger) et de mettre en œuvre des mécanismes implantant cette politique. Il faut aussi être capable de détecter toute tentative de violation de la politique de sécurité, et donc toute intrusion. A cette fin, dans le cadre de notre travail, nous voulons mettre en place une approche de détection des intrusions, ce qui implique une surveillance permanente des actions entreprises sur le système afin d’en assurer la légitimité. Cette surveillance est réalisée par le biais d’un mécanisme de collecte d’événements (actions réalisées sur un système) à partir de traces d’exécutions. Le nombre d’attaques ciblant ce type de système est en constante augmentation. La mise en œuvre de politiques de confidentialité et d’intégrité au sein de ces systèmes est une tâche complexe.

Afin de résoudre les problèmes de sécurité, tout en prenant en compte les différentes propriétés `

a défendre, nous présenterons dans le chapitre2 les travaux antérieurs relatifs à la détection des intrusions. Diverses approches sont généralement employées pour la protection des données

(28)

d’un système, permettant de s’assurer a priori du respect de la politique de sécurité.

Deux grandes approches ont été proposées dans la littérature, l’approche comportementale et l’approche par scenarios :

– Dans l’approche comportementale, une attaque est qualifiée par la mesure d’une d´ evia-tion sensible du système surveillé par rapport à un comportement de référence, réputé sain et défini auparavant.

– Dans l’approche par signatures, le système de détection possède une base de signatures qui modélisent les différentes attaques connues. L’analyse consiste à rechercher l’occur-rence d’un motif caractéristique d’une attaque dans le flux d’événements.

Avant la description de notre modèle proposé, nous décrivons dans le prochain chapitre les différents types de techniques de détection utilisés dans ces approches, afin de tirer profit de leurs points forts, de bien situer leurs problèmes, et d’essayer alors d’en tenir compte dans notre conception et notre implémentation.

(29)

Chapitre 2

D´

etection d’intrusions

En sécurité informatique, la détection d’intrusions est l’acte de détecter des actions qui es-saient de compromettre la sécurité d’un système, notamment la confidentialité, l’intégrité ou la disponibilité d’une de ses ressources (6). Elle représente la méthodologie adoptée pour d´ e-tecter toutes les vulnérabilités du système et elle est essentiellement utilisée pour surveiller le fonctionnement des systèmes informatiques.

Pour décrire le fonctionnement des systèmes de détection d’intrusion, nous nous sommes basés sur différents travaux de la littérature. Dans ce chapitre nous présentons, dans un premier temps, les principales techniques de détection d’intrusions et quelques exemples illustrant leur fonctionnement. Dans un deuxième temps, nous présentons différentes techniques permettant d’optimiser l’analyse des alertes, et ainsi rendre plus fiable la détection d’intrusions.

2.1 Techniques de d´

etection d’intrusions

Plusieurs approches sont apparues pour protéger et sécuriser les systèmes informatiques. Elles sont toutes complémentaires les unes par rapport aux autres, mais demeurent insuffisantes. Une classification suivant la technique utilisée pour la détection d’intrusions est proposée dans cette section afin de prendre connaissance des différentes approches con¸cues et implémentées. Nous distinguons trois grandes approches de détection d’intrusions : la détection à base de signatures, la détection d’anomalies et la détection à base de politiques de sécurité. Dans ce qui suit, chaque technique est détaillée et quelques exemples sont proposés pour les illustrer.

2.1.1 D´etection `a base de signatures

Cette technique s’apparente aux techniques utilisées par les antivirus : elle est basée sur la notion de signatures d’attaques. Une telle signature caractérise l’attaque considéré. Plus précisément, elle correspond à un élément distinctif de l’attaque comme, par exemple, un

(30)

fragment de code, un début de requête, etc. La technique consiste donc à analyser des flux de données et de les comparer à des signatures prédéfinies pour identifier d’éventuelles intrusions (41).

Il est évident qu’en utilisant une telle technique, une menace dont on ignore la signature ne pourra pas être détectée. Comme il est fréquent que la variante d’une attaque ne possède pas la même trace collectée (la même signature), il est difficile de la détecter. Ainsi, afin de déjouer la sécurité d’un système de détection d’intrusions, les attaquants utilisent des méthodes pour modifier l’aspect, ou la signature, de leurs attaques déjà répertoriées par le système, et atteindre ainsi leurs objectifs. Par exemple, en menant une attaque sur plusieurs étapes, en changeant l’ordre des actions, et en lan¸cant leurs attaques depuis plusieurs sources différentes, l’attaquant arrive à modifier les signatures de ses attaques. Le nombre de variantes d’une attaque pouvant être nombreux, trouver la signature de chaque nouvelle variante n’est pas une solution viable. Ceci est le principal reproche fait vis-à-vis des techniques de détection `

a base de signatures (6).

Ce modèle est en revanche très aisé à implémenter et à optimiser. Il permet la séparation du moteur logiciel de la base de signatures qui peut ainsi être mise à jour de manière autonome. Il permet également une classification relativement facile des attaques signalées (41). Par ailleurs, il existe plusieurs mécanismes pour mettre en œuvre cette approche. Parmi eux, on peut citer ceux qui suivent.

D´etection par comparaison (pattern matching )

Cette technique de reconnaissance d’intrusions est la plus ancienne des méthodes d’analyse des NIDS1 et elle est encore couramment utilisée (30). Le principe de cette approche est de faire correspondre à chaque signature d’attaque un motif (pattern) qui a la forme d’une chaine de caractères. Durant l’analyse du flux de données, qui correspond aussi à une chaine de caractères, le système de détection d’intrusion tente de reconnaˆıtre les motifs d’attaques déjà connus (31). Une alerte est déclenchée si un motif est détecté. Par exemple, la recherche de la chaˆıne de caractères «/cgi-bin/phf» indique une tentative d’intrusion sur le script CGI appelé «phf». Cette méthode est aussi utilisée en complément de filtres sur les adresses IP sources et destinations utilisées par les connexions, les ports sources ou destinations.

Les principaux avantages de cette technique se situent au niveau de sa facilité de mise à jour. Dans la mesure où on recherche des motifs spécifiques, la qualité de la détection est bonne ; et cette méthode peut facilement être adaptée à tous les protocoles.

Il faut tout de même être conscient du fait que les outils de recherche de motifs présentent certains inconvénients. D’abord, les motifs doivent être de bonne qualité pour éviter de d´

(31)

clencher de fausses alertes (faux positifs) (50). Aussi, un pirate expérimenté peut déguiser son attaque de manière à ce qu’elle ne soit pas détectée (faux négatif), ce qui peut conduire parfois à la multiplication de nombres de signatures pour détecter une unique attaque. Enfin, cette technique peut s’avérer consommatrice en terme de mémoire et de temps processeur si le nombre de signatures est important.

D´etection par analyse de transition d’´etats

Dans ce cas, on crée un modèle tel que, à l’état initial, le système ne soit pas compromis. L’intrus accède au système ; il exécute une série d’actions qui provoquent, à chaque fois, des transitions sur les états du modèle, pouvant être des états considérés comme compromis (47). Cette approche de haut niveau peut reconnaˆıtre des variations d’attaques qui passeraient inaper¸cues avec des approches de plus bas niveau. USTAT (21; 22) est une implémentation mature de l’analyse de transitions d’états pour la détection d’intrusions. Le système est ini-tialement dans un état considéré sûr et, à travers un certain nombre d’actions modélisées par des transitions d’états, peut se retrouver dans un état compromis.

Un exemple de scénario d’intrusion présent dans les systèmes Unix BSD, version 4.2, est : cp /bin/sh /usr/spool/mail/root

chmod 4755 /usr/spool/mail/root echo | mail root /usr/spool/mail/root

L’attaque consiste à afficher le courriel de l’utilisateur « root ». L’intrus exploite la faille que la commande mail ne change pas le bit « setuid » lorsqu’il change le propriétaire du fichier (courriel). Pour réussir cette intrusion, il suppose certaines conditions qui peuvent être vues comme un état de départ comme par exemple « root » n’a pas de courriel. Ainsi, son attaque n’est pas valide si « root » a du courriel dans l’état courant du système. Chaque étape fait changer le système d’état vers un état plus proche d’un état compromis. La première transition sera la création d’un fichier dans le répertoire de mail, la deuxième sera le changement du mode d’accès à ce fichier pour pouvoir y accéder en dernière étape.

Pour terminer, notons qu’il existe plusieurs systèmes de détection d’intrusions commerciaux, ou des logiciels libres, qui se basent sur la méthode d’analyse à base de signatures. Parmi ces systèmes, on retrouve Snort.

Snort (48) est un système de détection d’intrusions réseau. Il observe et analyse le trafic suivant des indicateurs ou des signatures d’attaques, tout comme il peut agir en envoyant des alertes ou en enregistrant le trafic. Sous forme de règles, Snort décrit les signatures des attaques et effectue une détection par comparaison lors de la phase de détection d’intrusions. Une fois la signature d’une attaque identifiée, l’écriture d’une règle Snort ne prend que quelques minutes.

(32)

L’exemple suivant repr´esente une signature Snort :

alert tcp $EXTERNAL NET any → $HOME NET any (msg :”SCAN nmap TCP”; stateless ; flags :A,12 ; ack :0 ; reference :arachnids,28 ; classtype :attempted-recon ; sid :628 ; rev :3 ;)

qui se lit comme suit : si un paquet TCP provenant d’une adresse externe ($EXTERNAL NET) pénètre dans notre réseau ($HOME NET), peu importe les ports (any), et que ce paquet a le drapeau ACK activé, de même que les deux bits réservés (flags :A,12), et que le numéro d’acquiescement est 0 (ack :0), peu importe l’ état de la session (stateless), il faut alors signaler un balayage TCP fait avec nmap (11).

Snort peut décoder et analyser le contenu des paquets sur le réseau (2). Son accès à la couche application du réseau lui permet de détecter les signatures pouvant se trouver dans le contenu d’un paquet. C’est le cas avec les attaques de débordement de mémoire, de balayage de port, de scan cgi, etc.

WWW SMTP DNS Postes clients Pare-feu Internet 2 1 3

Figure 2.1 – Utilisations de Snort.

Cet outil de d´etection poss`ede trois utilisations primaires suivant sa position comme l’illustre la figure2.1:

– Position (1) : sur cette position, Snort peut détecter l’ensemble des attaques frontales, provenant de l’extérieur, en amont du pare-feu. Ainsi, beaucoup d’alertes seront remon-tées ce qui rendra les logs difficilement consultables ;

– Position (2) : Snort détecte les attaques qui n’ont pas été filtrées par le pare-feu et qui relèvent d’un certain niveau de compétence. Les logs seront ici plus clairs à consulter puisque les attaques bénignes ne seront pas recensées ;

– Position (3) : Snort peut ici rendre compte des attaques internes, provenant du réseau local de l’entreprise. Il peut être judicieux d’en placer un à cet endroit, étant donné le fait que la majorité des attaques proviennent de l’intérieur.

(33)

Snort présente les avantages d’être un logiciel libre qui concurrence habilement les outils de détection d’intrusion commerciaux et il offre un format ouvert et documenté qui permet d’écrire les règles de son choix. Il peut facilement diagnostiquer une attaque spécifique et autorise l’administrateur à traquer les problèmes de sécurité. Snort ne peut cependant détecter que les attaques connues ; il lui est difficile de détecter les variantes d’une attaque et il requiert une mise à jour quotidienne avec sa base de signatures des attaques.

En résumé, la détection à base de signatures admet certains inconvénients essentiellement dûs au fait qu’elle ne détecte que les attaques connues. Une signature doit alors être créée pour chaque attaque, et de nouvelles attaques ne peuvent être détectées. Les systèmes de détection d’intrusions à base de signatures sont également sujets à de faux positifs car ils sont généralement basés sur des expressions régulières. Les signatures fonctionnent bien contre les attaques avec un motif de comportement fixe. La détection est encore compliquée par les progrès technologiques qui permettent aux utilisateurs malveillants de générer différentes variantes d’attaques. L’approche comportementale (détection d’anomalies), présentée dans la section qui suit, apporte une première réponse à cette limite.

2.1.2 D´etection d’anomalies

Contrairement à l’approche à base de signatures, cette approche se base sur le comportement passé des entités comme les utilisateurs, les applications et les services. Le principe repose sur la modélisation de ces entités pour mieux les contrôler. En effet, dans un premier temps, on fait correspondre un profil à chaque entité en se basant sur son comportement normal. Dans un deuxième temps, pendant la phase de détection, on observe l’entité modélisée et tous les ´

evénements, qui ne sont pas représentés dans le profil, déclenchent des alertes d’attaques. Cette approche a été largement étudiée et mise en œuvre dans un grand nombre de systèmes (38). Elle tente de quantifier le comportement acceptable et donc identifier un comportement anormal comme une intrusion. Durant la phase d’apprentissage, les profils sont améliorés en définissant le comportement normal de chaque entité. Cette phase d’apprentissage peut ˆ

etre limitée dans le temps ou bien continue tout au long de l’exploitation. La mise en œuvre effective de la détection d’anomalies dépend de l’approche utilisée pour construire les profils. Nous présentons ici trois des approches les plus utilisées.

Approche statistique

La détection par approche statistique (36) observe le comportement du système informatique surveillé et apprend de manière adaptative ce qui est considéré normal pour les sujets. Les sujets correspondent à des utilisateurs individuels, des groupes, des hôtes distants et l’ensemble du système. Le comportement observé est marqué comme une intrusion potentielle s’il s’écarte de manière significative par rapport au comportement attendu par ce sujet.

(34)

Dans ce type de détection, la construction des profils se base sur des mesures quantitatives de l’utilisation des ressources systèmes. L’approche tient à jour une base de connaissances statis-tiques composée de profils. Un profil correspondant à une description du comportement normal d’un sujet en respectant un ensemble de mesures de détection d’intrusions. Les profils sont con¸cus pour n’exiger qu’un minimum de stockage de données historiques et d’enregistrer que les informations suffisantes. Ces profils peuvent être facilement décodés et interprétés lors de la détection d’anomalies. Plutôt que de stocker toutes les données, les profils maintiennent seule-ment des statistiques comme des tableaux de fréquence, des moyens ou des covariances (50). Le système prend en entrée des enregistrements traités, il génère périodiquement une valeur indicative de son anomalie. Cette valeur est une fonction des valeurs anormales des mesures individuelles comprenant le profil de l’utilisateur. Par exemple, si S1, S2, ..., Sn représentent les valeurs anormales des mesures d’un profil M1, M2, ..., Mn, une fonction de combinaison des valeurs individuelles Si peut ˆetre : a1S12+ a2S22+ ... + anSn2, ai > 0.

En gén´eral, les mesures M1, M2, ..., Mn peuvent ne pas être mutuellement indépendantes ce qui mène à une fonction complexe qui les combine.

Approche probabiliste

Dans cette approche, la construction des profils se base sur la probabilité qu’un événement ait lieu par rapport à une séquence d’autres événements. Un profil constitue par définition la référence à laquelle tout comportement observé doit être conforme pour ne pas être considéré suspect. La définition précise d’une anomalie est évidemment variable en fonction des impl´ e-mentations et des buts poursuivis (55). Les exemples des événements suivants peuvent être considérés comme une anomalie :

– apparition d’un événement non prévu par le profil ;

– apparition trop fréquente d’un événement de très basse probabilité ; – non-apparition d’un événement attendu.

Dans l’article (55), un exemple d’exécution d’un serveur HTTP est mentionné. La séquence d’événements exécutée est la suivante :

– connexion d’un client sur le port 80 ; – r´eception d’une requˆete HTTP GET.

Le profil de ce serveur peut indiquer que dans ce cas, le prochain événement pourrait être : – lecture du fichier dont le nom apparaˆıt dans l’URL (probabilité 60%) ;

(35)

– renvoi d’un message d’erreur HTTP 404 (probabilit´e 10%).

Si, après la séquence d’événements citée, le profil accorde à l’événement suivant une probabilité de 8% tandis qu’il se produit en pratique dans 10% des cas, le système pourrait lever une alerte pour signaler une violation du profil, donc une attaque potentielle. Cependant, vu le faible ´

ecart entre la probabilité attendue et la fréquence observée, il ne s’agit quasi-certainement pas d’une intrusion, notamment si ce chiffre est stable au cours d’une longue période. Deux réactions sont possibles dans ce cas : soit laisser le système lever les alertes ; soit modifier le profil et porter la probabilité «normale» à 10% afin de mieux la faire correspondre au fonctionnement réel.

R´eseaux de neurones artificiels

Ce type de détection se base sur le comportement de chaque utilisateur (7). Le profil normal d’un utilisateur est construit en prenant en compte les activités de l’utilisateur comme ses outils préférés, ses habitudes de travail, sa vitesse de frappe au clavier, etc. Le profil est ensuite représenté par un réseau de neurones2 _{qui enregistre les op´}_{erations de l’utilisateur durant une}

fenêtre temporelle et tente de prédire la prochaine opération.

Leur rapidité permet l’analyse, en temps réel, d’importants flux de données. On peut utiliser les réseaux neuronaux pour filtrer et sélectionner les informations suspectes permettant une analyse détaillée par un système expert3_{. On peut aussi les utiliser directement pour la d´}

e-tection de malveillances. Mais leur apprentissage est extrêmement délicat, et il est difficile de savoir quand un réseau est prêt pour l’utilisation.

Les réseaux de neurones peuvent être exploités pour obtenir une modélisation statistique du comportement d’un utilisateur. Cependant, lorsqu’un réseau de neurones signale une anomalie, il n’en précise pas la cause, ce qui ne facilite pas la prise de décision pour rectifier la situation. Un exemple de ce type de détection est IDES (Intrusion Detection Expert System) (23; 38) développé par le SRI (Stanford Research Institute). Il intègre un module statistique et un système expert. Il repose sur l’hypothèse que le comportement d’un utilisateur reste à peu près le même au cours du temps, et que la manière dont il se comporte peut être résumée en calculant diverses statistiques sur son comportement.

IDES construit ses profils par groupes d’utilisateurs censés avoir un comportement proche et tente de corréler le comportement actuel d’un utilisateur avec son comportement passé et le comportement passé du groupe. Il observe trois types de sujets : les utilisateurs, les hôtes

2. Un réseau de neurones artificiels est un modèle de calcul dont la conception est très schématiquement inspirée du fonctionnement des neurones biologiques. Il est optimisé par des méthodes d’apprentissage de type probabiliste, en particulier bayésien.

3. Un système expert est un outil capable de reproduire les mécanismes cognitifs d’un expert, dans un domaine particulier. Il est détaillé dans la partie contribution.

(36)

distants et les systèmes cibles. Au total, 36 paramètres sont mesurés : 25 pour les utilisateurs, 6 pour les hôtes et 5 pour les systèmes cibles (3). Toutes ces mesures font partie de ces deux catégories :

– mesure catégorique : c’est une mesure de nature discrète et dont les valeurs appar-tiennent à un ensemble fini. On y retrouve par exemple les commandes invoquées par un utilisateur ;

– mesure continue : c’est une fonction réelle. On a par exemple le nombre de lignes im-primées pendant la session ou la durée de la session.

Par conséquent, IDES apporte une réponse aux différents types d’intrusions suivant le sujet invoqué. Voici les types d’attaques possibles suivant Andersons (5) :

– attaquants externes : ils n’ont pas d’acc`es au mat´eriel ;

– attaquants internes : ils ont un accès légitime au système informatique pour réaliser une tâche particulière, mais tentent d’obtenir un accès à des privilèges qu’ils ne pos-sèdent pas normalement. Ils constituent la menace la plus importante en cas de sinistre informatique ;

– utilisateurs malfaisants : ils ont un accès légitime au système informatique et possèdent des privilèges importants, mais abusent de leurs privilèges ou des ressources mises à leurs disposition.

IDES traite chaque enregistrement d’audit quand il apparait sur le système. Pour détecter des comportements anormaux pendant une session, alors que tous les paramètres de la session ne sont pas encore disponibles, IDES extrapole les valeurs et les compare au profil de l’utilisateur. En guise de conclusion, bien que cette recherche montre de grandes promesses dans la d´ etec-tion des comportements anormaux des utilisateurs, des applicaetec-tions et dans l’apprentissage automatique du savoir-faire à partir des données de formation, tout ce qu’elle peut faire est de détecter des comportements anormaux, ces comportements pouvant être bénins ou mal-veillants. Malheureusement, un comportement anormal bénin est plus fréquent qu’un compor-tement malveillant, menant à un taux de faux positifs important pour les régimes de détection d’anomalies. Il s’agit d’une limitation fondamentale dans cette approche.

En outre, il n’existe aucune garantie que tous les actes de malveillance soient anormaux. En effet, un pirate peut mener son attaque de telle manière qu’un système de détection ne la considère pas comme anormale (20).

Les deux techniques déjà présentées (à base de signature et d’anomalies) se sont avérées assez efficaces et sont largement utilisées. Cependant, elles souffrent aussi de plusieurs problèmes.

(37)

Un système de détection d’intrusions à base de signatures nécessite une maintenance active et continue de sa base de données des attaques (signatures). De nouvelles attaques ne sont généralement pas détectées. Une méthode comportementale peut quand à elle générer une grande quantité de faux positifs, même si les actions observées sont parfaitement légitimes. Dans tous les cas, face à un comportement légitime, mais non planifié, il y a une problématique qui se pose. Ces problèmes peuvent être résolus de plusieurs fa¸cons sophistiquées et avancées. Une autre fa¸con possible de traiter ces problèmes est d’utiliser des règles de détection. Une approche basée sur une politique de sécurité détecte toute anomalie qui viole les règles d’une politique plutôt que d’un comportement déjà recensé, ou appris et considéré comme «normal» (18;19).

2.1.3 Détection à base de politiques de sécurité

Le premier modèle de système de détection d’intrusion paramétré par une politique de sécurité a été proposé par Ko et Redmond (27). Ils sont intéressés aux problèmes de violations d’une politique d’intégrité par les attaques de type race-condition, littéralement situation de com-pétition. Cette forme d’attaques correspond à un problème particulier de synchronisation : l’attaquant profite de l’exécution concurrente et non synchronisée d’opérations dont l’une au moins est «sensible» (typiquement une vérification de contrôle d’accès sur une ressource «sen-sible» suivi d’un accès à cette même ressource) pour lire ou modifier des données auxquelles il n’a pas accès. Ko et Redmond (27) modélisent le système par une machine à états et la politique de sécurité par une propriété de «non-interférence». Ils montrent ensuite que la détection en temps réel des violations de cette politique peut être réalisée par un algorithme prouvé par un théorème de déroulement. Cet algorithme a été implémenté au sein d’un HIDS4 sous Linux. Les expérimentations réalisées ont montré que l’IDS est alors capable de détecter les violations de politique d’intégrité résultant d’une attaque de type race-condition.

Zimmermann (55; 56) a proposé un modèle plus générique de détection paramétrée par une politique : le modèle à flux de références. Ce modèle permet de couvrir un spectre d’attaques plus large que le modèle proposé par Ko et Redmond (27). L’approche de Zimmermann permet en effet de traiter les violations de l’intégrité et de la confidentialité, et ce quel que soit le scénario d’attaque utilisé.

Une telle approche a le potentiel d’apporter des améliorations sensibles par rapport à la d´ etec-tion statistique d’anomalies et à la détection de scénarios en terme de fiabilité, d’exactitude et de maintenance requise. Idéalement, la maintenance est nécessaire uniquement pour changer la politique spécifiée, sans besoin de mise à jour ou de phase d’adaptation (9). Par exemple, une politique pourrait indiquer que Telnet ne doit pas être utilisé du tout, ou que Ftp doit être

4. HIDS : Host based IDS, signifiant «système de détection d’intrusions machine» sont des IDS dédiés à un matériel ou un système d’exploitation.

(38)

utilisé uniquement à certaines heures et sur des sites spécifiques. Les systèmes de détection devraient alors vérifier si ces contraintes sont respectées et déclencher une alerte en cas de violation (55).

Ce type de d´etection pr´esente essentiellement deux avantages :

1. La politique de sécurité est explicitement définie, ce qui n’est pas le cas avec les méthodes classiques. L’adéquation de la base de signatures ou des profils à une politique donnée est en effet un problème délicat et la possibilité d’exprimer directement une politique est l’un des traits les plus attractifs de ces projets.

2. Un tel système peut théoriquement détecter de nouvelles attaques (on ne suppose pas la connaissance d’un scénario particulier). De même, la comparaison de l’activité du système à une politique et non à un profil doit réduire considérablement le taux de faux négatifs engendrés par le système car un comportement inhabituel, mais légitime, ne doit pas être signalé.

L’inconvénient majeur de cette technique est que le fait d’écrire les règles de la politique de détection peut se révéler très pénible. En outre, si ces règles venaient à être connues de l’attaquant, elles pourraient être contournées.

MulVAL (37) est un outil parmi ceux qui se basent sur une analyse d’intrusions paramétrée suivant une politique de sécurité donnée. Il est développé par Kansas State University (37;43;

44). Son but est de générer automatiquement des graphes d’attaques à partir d’une base de

connaissances contenant des faits et des règles logiques. MulVAL utilise le langage Datalog, un dérivé de Prolog, pour exprimer ces faits et règles.

R`egles

d’interaction Environnement Prolog

scanneur OVAL hôte 1 scanneur OVAL hôte N Configuration réseaux

Politique de s´ecurit´e Violation & trace d’attaque

D´efinition OVAL Base de donn´ees

ICAT

... ...

Figure 2.2 – Architecture de MulVAL.

Les faits Datalog sont employés pour décrire l’ensemble du système : machines, topologie réseau, règles de pare-feu, applications installées, vulnérabilités, emplacement de l’attaquant,

(39)

etc. Ils sont écrits en utilisant OVAL (Open Vulnerability and Assessment Language) (34;45) qui est un langage pour spécifier les tests et fournir les résultats d’analyse de vulnérabilités comme ce qui est décrit dans la figure2.2.

Les règles décrivent de fa¸con générique les étapes des attaques connues, sous forme de condi-tions logiques. MulVAL est fourni avec un ensemble de règles de base qui peut être étendu au cours du temps pour ajouter de nouvelles connaissances. MulVAL emploie aussi toutes ces informations pour déterminer tous les chemins d’attaques possibles depuis l’attaquant jus-qu’aux cibles. Le résultat est un graphe d’attaques qui est logiquement complet et exhaustif par rapport aux données fournies.

2.1.4 Conclusion

Un des inconvénients majeurs de la détection par signatures d’attaques est son manque de flexibilité et par conséquent sa vulnérabilité aux mutations. D’une part, pour pouvoir définir une signature, il faut avoir déjà été confronté à l’attaque considérée. D’autre part, certaines de ces signatures se basent sur des caractéristiques «volatiles» d’un outil, comme par exemple le port choisi par le pirate. Les caractéristiques retenues pour définir la signature sont donc fragiles, et les signatures extrêmement sensibles aux mutations. Contre ce genre de problème, une parade consiste à définir ce qu’est l’état de «compromission», c’est-à-dire l’état attendu d’une machine pendant ou après une attaque. On peut alors essayer de détecter quand la machine entre dans cet état : on ne saura pas comment la machine a été attaquée si l’attaque ´

etait de type inconnu, mais on se sera quand même aper¸cu que quelque chose a eu lieu. Bien sûr, la difficulté majeure dans cette parade est de définir ce fameux état de «compromission». On pourrait donc penser qu’un modèle comportemental serait une bonne alternative. L’ana-lyste humain déciderait alors lui-même si l’activité relevée est une attaque ou non tout en se basant sur une spécification de la politique de sécurité adoptée. Ce raisonnement constitue le cœur de l’approche que nous avons modélisée.

Après avoir mis en place un système de détection d’intrusions à partir de traces d’exécutions, il est souhaitable d’optimiser le résultat obtenu en limitant le nombre d’alertes affichées. Cette optimisation peut se faire à travers différentes techniques de réduction des alertes à savoir : la corrélation, le regroupement ou la vérification des alertes. Un niveau de certitude peut aussi ˆ

etre associé aux attaques détectées afin d’optimiser l’analyse des intrusions.

2.2 Optimisation de l’analyse des intrusions

Des méthodes de la littérature peuvent contribuer à l’optimisation du processus de détection d’intrusions en appliquant différentes techniques de réduction des alertes. En effet, plusieurs alertes peuvent être liées à une même attaque. La corrélation, le regroupement et la v´

(40)

erifica-tion constituent un axe d’amélioration prioritaire bien que ce surcoût soit en partie inhérent `

a l’approche utilisée. D’autres techniques, permettant l’optimisation de la méthode d’analyse d’intrusions, peuvent être utilisées. Il est par exemple possible d’attribuer un niveau de cer-titude aux événements détectés par un IDS comme il est présenté par Xinming Ou (42) dans son approche. Ces deux voies d’amélioration du système font l’objet de cette section.

2.2.1 Techniques de r´eduction des alertes

Les systèmes de détection d’intrusions détectent un flot important d’alertes. Il devient de plus en plus difficile de reconnaˆıtre les vraies attaques noyées dans ce flot de données. Ainsi, il est nécessaire de concevoir des méthodes pour réduire ces alertes afin d’éliminer les redondances. Il existe différentes techniques qui agissent à ce niveau. Parmi ces techniques, nous nous intéressons à la corrélation, au regroupement et à la vérification des alertes.

Corr´elation des alertes

La plupart des systèmes de corrélation d’alertes fonctionnent sur des états spécifiques utilisant des pré/post-conditions qui poussent un modèle de corrélation et s’appuient sur l’existence d’un mappage des alertes à leur pré/post-conditions (40). Les alertes obtenues correspondent toujours à des alertes trop élémentaires. La conséquence sera la difficulté pour l’administrateur de sécurité de prendre la bonne décision lors de la réception de ces alertes. Par conséquent, une analyse complémentaire doit être effectuée. C’est l’objet de la fonction de corrélation. Le principe de la fonction de corrélation est de considérer que l’intrus veut atteindre un objectif malveillant, mais il ne peut pas généralement arriver à ses fins par l’exécution d’une seule attaque. Au lieu de cela, il effectue habituellement plusieurs attaques qui correspondent aux étapes d’un plan plus global d’intrusion qui lui permet d’atteindre son objectif malveillant. Il est inclus, dans le plan d’intrusion, les étapes préliminaires que l’intrus réalise généralement afin de recueillir diverses informations sur la configuration du système cible d’attaque. Les systèmes de détection d’intrusions classiques ne détectent que des attaques élémentaires qui correspondent aux étapes de ce plan d’intrusion.

L’objectif de la fonction de corrélation est donc de corréler des alertes afin de reconnaˆıtre le plan d’intrusion qui est actuellement exécuté par l’intrus (16).

Regroupement des alertes

Lors d’un regroupement d’alertes, un ensemble d’alertes similaires est regroupé et représenté comme une seule alerte. Par exemple, des alertes ayant des adresses IP source et destination similaires, mais à différents intervalles de temps, sont regroupées et représentées comme une seule alerte. L’écart de temps du nouveau prédicat sera l’écart ayant le premier et le dernier

(41)

intervalle de temps de l’ensemble des alertes similaires. Cette étape permet de réduire la redondance des alertes générées par le système de détection d’intrusions. Une limitation du regroupement d’alertes est qu’il ne prévoit pas une prise de conscience de haut niveau de la situation du réseau et du lien de causalité entre les événements regroupés.

Dans ce contexte, Julish (25) a proposé une technique de forage de données5 basée sur le regroupement d’alertes pour découvrir les causes profondes. Selon ses travaux, quelques di-zaines de causes représentent généralement plus de 90% des alertes. En identifiant les causes profondes, il est possible de filtrer les alertes provoquées par des causes bénignes et de r´ e-duire ainsi la charge future d’alertes. Le regroupement est une bonne technique pour réduire l’information redondante dans les alertes.

V´erification des alertes

La vérification d’alertes est définie comme un processus de vérification de la réussite des attaques, c’est-à-dire qu’en cas d’attaque (et d’alerte correspondante soulevée par un système de détection d’intrusions), c’est le processus de vérification d’alertes qui détermine si cette attaque a réussi ou pas (1). Il existe différentes techniques qui peuvent être utilisées pour effectuer cette vérification. Une des possibilités est de comparer la configuration de la machine de la victime (par exemple, le système d’exploitation ou la gestion des services) aux exigences d’une attaque réussie. Lorsque la victime n’est pas vulnérable à une attaque particulière (car la configuration ne satisfait pas les exigences d’attaque), l’alerte peut être marquée comme ayant échoué. Par exemple, un certain «exploit» peut exiger que la victime exécute une version vulnérable d’un serveur Microsoft IIS, alors que, la configuration de la victime en cours d’exécution est un serveur Apache sous Linux, l’«exploit» ne peut pas réussir.

Une importante distinction entre les différents mécanismes de vérification d’alertes est de savoir s’ils sont actifs ou passifs. Les mécanismes de vérification actifs sont définis comme des mécanismes qui recueillent des données de configuration ou des traces légales après qu’une alerte ait lieu. D’autre part, les mécanismes passifs recueillent des données de configuration en une seule fois (ou à intervalles réguliers) et des données disponibles avant l’attaque (28). Le fait de réduire le nombre des alertes déclenchées permet de faciliter énormément le suivi de l’état du système par l’administrateur de sécurité. Mais, il se trouve parfois dans la confusion de décider de la sévérité d’une alerte. Il ne peut pas qualifier la certitude de l’action effectuée. C’est dans ce contexte que Xinming Ou (42) a présenté une approche empirique pour la modélisation de l’incertitude en reproduisant le raisonnement humain dans l’interprétation des observations.

5. Le forage de donn´ees est une technique qui a pour objet l’extraction d’un savoir ou d’une connaissance `

(42)

2.2.2 Mod´elisation d’incertitude

Après avoir étudié différentes techniques de détection et d’analyse d’intrusions, nous d´ ecri-vons dans cette section une approche empirique de détection qui est inspirée d’observations d’attaques réelles afin de modéliser le niveau d’incertitude des observations. La qualification des actions par niveaux de certitude ajoute des informations au système (expert) pour réagir convenablement au comportement suspect.

L’article (42) présente une conception du modèle de raisonnement et l’architecture de ce processus. Il est alimenté par deux éléments principaux : la correspondance d’observation et le modèle interne, afin d’identifier les intrusions. Nous détaillons d’abord ce modèle de raisonnement et nous décrivons, par la suite, la méthodologie adoptée.

Mod`ele de raisonnement

De nos jours, plusieurs outils de détection d’intrusions existent sur le marché. Ces outils détectent des événements de bas niveau d’abstraction comme des paquets réseau, des motifs dans des fichiers logs, etc. Or, le but de l’analyse d’intrusions est la détection d’événements de haut niveau d’abstraction comme le fait de déterminer si une machine est compromise ou si elle est utilisée pour menacer d’autres machines. La notion d’incertitude apparaˆıt dans ce contexte pour qualifier les observations.

Les observations de bas niveau peuvent révéler des actions légitimes qui ne sont pas toujours des tentatives malveillantes. De ce fait, le défi basé sur l’incertitude est de pouvoir développer un modèle qui relit de multiples observations de bas niveau à des conditions de haut niveau. Cela permet de spécifier le niveau de confiance dans les affirmations.

Par exemple, la détection d’un trafic sur le réseau (observation de bas niveau) peut révéler une activité de l’attaquant sur le réseau (condition de haut niveau). De même, la détection d’un code malicieux en mémoire du système (observation de bas niveau) peut indiquer qu’il est susceptible que la machine soit compromise par un attaquant (condition de haut niveau). Toutes ces affirmations sont associées à des degrés d’incertitude variés. Le modèle de rai-sonnement empirique développé dans (42) est présenté dans ce qui suit. La correspondance d’observation trace la carte de l’observation bas niveau vers les conditions haut niveau ; le modèle interne capture les relations entre ces conditions de haut niveau pour alimenter le processus de raisonnement ; et les modes capturent le degré d’incertitude. Chacune de ces notions est détaillée dans ce qui suit.

La table 2.1 montre que le modèle de raisonnement utilise trois modes, p (possible), l (sus-ceptible) et c (certain), pour exprimer différents niveaux de confiance : faible, moyen et haut. Ces niveaux d’incertitude sont affectés par l’homme. L’ordre entre ces niveaux parait évident (p < l < c) et il n’y a pas de fourchettes de probabilité attribuées à chaque niveau.

(43)

Table 2.1 – Modes d’incertitude.

Niveau de confiance Mode

Faible Possible : p

Moyen Susceptible : l

Haut Certain : c

Avec cette notion qualitative d’incertitude, les deux types d’assertions logiques sont introduits dans ce modèle de raisonnement : la correspondance d’observation et le modèle interne (appelé aussi conditions internes). Obs(O) est utilisé pour exprimer une observation O et int(F) pour indiquer une condition interne F.

A1 : obs(anormalyHighT raf ic)

p

−→ int(attackerN etActivity)

A2 : obs(netf lowBlackListF ilter(H, BlackListedIP ))−→ int(attackerN etActivity)l

A3 : obs(netf lowBlackListF ilter(H, BlackListedIP ))−→ int(compromised(H))l

A4 : obs(memoryDumpM aliciousCode(H)) l −→ int(compromised(H)) A5 : obs(memoryDumpIRCSocket(H1, H2)) l −→ int(exchangeCtlM essage(H₁, H2))

Figure 2.3 – Correspondance d’observation.

Par exemple, obs(memoryDumpMaliciousCode(ip)) est une observation dans la m´emoire de la machine ip d’un code susceptiblement malicieux alors que int(compromised(ip)) est une condition interne qui d´esigne que la machine ip est compromise.

Correspondance d’observation La figure 2.3 pr´esente la correspondance d’observation ainsi que les modes d’incertitude associ´es.

Dans A1, un trafic réseau anormal obs(anomalyHighTraffic) est mappé à int(attackerNetActivity),

c’est-à-dire qu’un attaquant est en train d’exécuter une activité sur le réseau. Il s’agit d’un jugement de faible confiance, car un trafic anormal dans le réseau n’indique pas forcément une activité malveillante. Il peut être le résultat d’opération de téléchargement de vidéos par exemple qui est une activité légale. C’est pour cette raison qu’on associe le mode p à cette observation. Le mode p indique qu’il y a d’autres interprétations possibles pour la même observation.

A2 et A3 identifient une alerte `a travers l’analyse du flux net et la communication avec des

adresses IP malicieuses connues. Ces activités sont une indication d’une activité de l’attaquant et des machines compromises. Le mode attribué `a A2et A3est l car il reste d’autres possibilités

qui peuvent être l´egales. Dans A4, à partir de l’analyse de la mémoire de la machine H, on

(44)

A5 identifie une communication entre les machines H1 et H2. Ainsi, il existe un transfert

de données entre les deux machines ce qui mène `a dire que la machine H1 est utilisée pour

menacer la machine H2.

Ces affirmations de correspondances d’observation sont subjectives. Quantifier les résultats de détection d’intrusions d’une manière solide reste un problème difficile pour diverses raisons et il n’est pas évident d’avoir une classification objective de tous les événements. Le but de cette approche est de concevoir un modèle flexible et léger dans lequel un administrateur système peut se nourrir dans ses croyances de certitude et de voir quelles conséquences surviennent. Par exemple, l’administrateur syst`eme peut penser que le mode de A4 ou de A5 est c ce qui

est acceptable. Un avantage de cette logique est de faciliter le partage des connaissances de s´ecurit´e.

Modèle interne Le modèle de raisonnement doit exprimer les relations logiques entre les conditions de haut niveau. Ainsi, chaque connaissance est mappée pour la corrélation d’év´ e-nements de bas niveau.

I1f : int(compromised(H1)) f,p −→ int(probeOtherM achine(H₁, H2)) I1b : int(probeOtherM achine(H1, H2)) b,c −→ int(compromised(H₁)) I2f : int(compromised(H1)) f,p −→ int(sendExploit(H₁, H2)) I2b : int(sendExploit(H1, H2)) b,c −→ int(compromised(H₁)) I3f : int(sendExploit(H1, H2)) f,l −→ int(compromised(H₂)) I3b : int(compromised(H2)) b,p −→ int(sendExploit(H1, H2)) I4f : int(compromised(H1)), int(compromised(H2)) f,p −→ int(exchangeCtlM essage(H1, H2)) I4b1 : int(exchangeCtlM essage(H1, H2)) b,c −→ int(compromised(H1)) I4b2 : int(exchangeCtlM essage(H1, H2)) b,c −→ int(compromised(H2))

Figure 2.4 – Mod`ele interne.

Pour la représentation des conditions internes dans ce modèle, on utilise l’opérateur Cl m1m2

−→ C_r qui veut dire que la condition à gauche de l’opérateur Cl entraine celle de droite, Cr. Comme résultat, Cr doit avoir lieu après celle à gauche. On doit respecter l’ordre chronologique dans l’occurrence des conditions dans ce type de relations. Il y a deux modes m1 et m2 qui sont

associés à la règle. Comme dans la correspondance d’observation, m1 spécifie le niveau de

confiance et prend comme valeur p, l ou c, le mode m2 exprime la direction de l’inf´erence et

il peut ˆetre f (en avant) ou b (en arri`ere).