9Janvier-18Mai2007MathieuBOISSIERBenoˆıtMILLONJulienROUQUETTEOlivierVERGES RapportTERDétectiond’attaquesHTTP(côtéserveur) UniversitéMontpellierIIDépartementInformatiqueResponsablesduprojet:MasterInformatiqueAbdelkaderGoua¨ıch,PremièreAnnéeMarcPlant

(1)

Universit´e Montpellier II D´epartement Informatique

Responsables du projet : Master Informatique

Abdelkader Goua¨ıch, Premi`ere Ann´ee

Marc Plantevit, Chedy Ra¨ıssi

Rapport TER

D´ etection d’attaques HTTP (cˆ ot´ e serveur)

9 Janvier - 18 Mai 2007

Mathieu BOISSIER Benoˆıt MILLON

Julien ROUQUETTE Olivier VERGES

(2)

Table des mati`eres

1 Introduction 6

1.1 Présentation générale . . . 6

1.2 Probl´ematique . . . 6

1.3 Contraintes . . . 7

2 Organisation du projet 8 2.1 Environnement de d´eveloppement . . . 8

2.1.1 Jeu de donn´ees . . . 8

2.1.2 Langages et outils de d´eveloppement . . . 8

2.2 Planification des tˆaches . . . 10

2.3 R´epartition des tˆaches . . . 10

3 Pr´erequis 11 3.1 Concepts importants . . . 11

3.1.1 Notions sur les ontologies . . . 11

3.1.2 Notions li´ees `a la partie analyseur . . . 13

3.1.3 Notions de classification et d’apprentissage . . . 13

4 Etat de l’art 16 4.1 Les attaques Web les plus courantes . . . 16

4.1.1 Modifications d’URLs . . . 16

4.1.2 Injections de commandes . . . 16

4.1.3 Injections SQL . . . 16

4.1.4 Cross-Site Scripting (XSS, CSS) . . . 17

4.1.5 Violations de contrˆole d’acc`es . . . 17

4.1.6 Buffer Overflow . . . 17

4.1.7 Traitements inappropri´es des erreurs . . . 17

4.1.8 Directory Traversal . . . 18

4.1.9 D´enis de service (DoS) . . . 18

4.1.10 Exploitations de vuln´erabilit´es encore inconnues . . . 18

4.2 Les diff´erentes techniques de protection . . . 18

4.2.1 Utilisation de listes blanches/noires d’URLs (s´ecurit´e positive) . . . 18

4.2.2 L’apprentissage . . . 19

4.2.3 Les pare-feux . . . 20

4.2.4 Les syst`emes de d´etection d’intrusion (IDS) . . . 20

4.2.5 Les syst`emes de pr´evention d’intrusion (IPS) . . . 20

4.2.6 L’authentification forte . . . 21

4.2.7 Les pots de miel (honeypots) . . . 21

(3)

TABLE DES MATI `ERES

4.3 Les logiciels de protection . . . 21

4.3.1 SG800 . . . 21

4.3.2 Deny All . . . 21

4.3.3 Mod Security . . . 21

4.3.4 SNORT . . . 22

4.4 Les limites des moyens de d´etection . . . 22

4.4.1 Limites des Pare-feu applicatifs . . . 22

4.4.2 Limites des IDS . . . 22

4.4.3 Limites des IPS . . . 23

4.5 Ontologies et s´ecurit´e . . . 23

4.5.1 NRL Security Ontologie . . . 23

4.5.2 Les dif´erentes ontologies . . . 23

4.6 Conclusion de l’´etat de l’art . . . 24

5 Notre contribution 25 5.1 Vision globale de l’application . . . 25

5.1.1 Diagramme de s´equence de l’application . . . 25

5.2 Le module ontologie . . . 26

5.2.1 Rappel . . . 26

5.2.2 Modélisation typée Système d’Exploitation . . . 26

5.2.3 Mod´elisation avec des ´etiquettes simples . . . 28

5.2.4 Mod´elisation avec des ´etiquettes composites . . . 30

5.3 Analyseur . . . 32

5.3.1 Analyseur . . . 33

5.3.2 Post-traitement . . . 34

5.3.3 Etiqueteur . . . 35

5.4 Classifieur . . . 38

5.4.1 Arbre de décision généré par algorithme C4.5 . . . 38

5.4.2 Le classifieur na¨ıf de Bayes . . . 38

5.4.3 Classification d’une requˆete apr`es apprentissage . . . 38

5.5 Int´eraction entre les composantes . . . 40

5.5.1 Interaction Analyseur-Etiqueteur . . . 40

5.5.2 Tableau de signature conceptuelle . . . 41

6 Exp´erimentations 42 6.1 Plateforme d’exp´erimentations . . . 42

6.2 Tests globaux sur l’application . . . 42

6.2.1 Dur´ee de classification . . . 42

6.3 R´esultats des tests d’apprentissage . . . 43

6.3.1 Variation du nombre de r`egles de CYK . . . 43

6.3.2 Variation du nombre de donn´ees . . . 43

6.3.3 variation du type des donn´ees . . . 43

6.4 Conclusion des tests . . . 44

7 Conclusion 45 7.1 Bilan du groupe . . . 45

7.2 Perspectives . . . 45

7.2.1 Am´elioration des composantes de l’application . . . 46

7.2.2 Amélioration de l’application en général . . . 46

A Glossaire 47

(4)

Table des figures

2.1 Diagramme de Gantt . . . 10

3.1 Exemple de mod´elisation RDF . . . 12

3.2 Validation croisée à 10 plis sur un jeu de données . . . 15

4.1 Illustration de diverses attaques connues . . . 19

4.2 Installation d’un IDS . . . 20

5.1 Diagramme de séquence général de la classification d’une requête HTTP . . . 25

5.2 premi`ere approche de l’ontologie . . . 28

5.3 deuxi`eme approche de l’ontologie . . . 29

5.4 troisi`eme approche de l’ontologie . . . 31

5.5 Diagramme de s´equence de l’analyseur . . . 32

5.6 Arbre syntaxique . . . 34

5.7 Arbre syntaxique segmenté et décodé . . . 34

5.8 Arbre de d´ecision . . . 38

6.1 Graphe de la dur´ee de classification en fonction du nombre de sous-mots . . . 43

6.2 Comparaison des taux de classification . . . 44

(5)

Remerciements

Nous souhaitons tout d’abord remercier nos tuteurs Messieurs GOUAICH, PLANTEVIT et RAISSI pour l’aide qu’ils nous ont apportée tout au long du projet, aussi bien au niveau de la compréhension que de la programmation ou lors de difficultés rencontrées.

Merci à l’entreprise Beware pour nous avoir fourni un jeu de données, fruit de nombreuses années de travail.

Nous tenons également à remercier l’équipe de recherche TATOO.

Enfin, tous ceux qui ont participé de près ou de loin au bon déroulement du projet trouvent ici l’expression de notre profonde gratitude.

(6)

Fiche de projet

P´eriode du projet : du 09/01/07 au 18/06/07

Le groupe : Mathieu BOISSIER (MB), Benoˆıt MILLON (BM), Julien ROUQUETTE (JR), Olivier VERGES (OV)

Niveau d’´etude : Master I Math´ematique Informatique Statistique

Institut : Universit´e Montpellier II

Sujet : Détection d’attaques par requêtes HTTP (coté serveur)

Contacts : MBmathieu.boissier@free.fr, BMbenoit-millon@hotmail.fr, JRjulienrouquette@hotmail.com, OVolivier.verges@gmail.com

Domaine d’application : Sécurité réseau

Tuteurs : Abdelkader GOU AICH, M arc P LAN T EV IT, Chedy RA¨ ISSI¨

(7)

Chapitre 1

Introduction

1.1 Pr´ esentation g´ en´ erale

Internet est devenu avec le temps, un outil de travail innovant et en perpétuelle évolution. Il permet de s’affranchir des barrières de l’espace et du temps en transmettant toute information numérique de manière instantanée dans le monde entier.

Les organisations, aussi bien publiques que privées, possèdent toutes ou presque une vitrine accessible au monde extérieur.

Les serveurs ont également évolué et ne sont plus de simples machines se limitant au stockage d’informations.

En effet, ils sont utilisés, entre-autres, pour exécuter des programmes en ligne, héberger des sites ou encore des bases de données pouvant contenir des informations importantes.

Les serveurs sont régulièrement victimes d’attaques visant soit à les rendre défaillants (DoS), soit à accéder aux données sensibles qu’ils contiennent. Il est devenu primordial de les protéger contre des actes malveillants.

1.2 Probl´ ematique

Les attaques que nous avons étudiées sont celles réalisées par le biais de requêtes HTTP, envoyées aux serveurs par l’utilisation de divers vecteurs comme un navigateur web, un shell ou encore un programme malicieux.

Cependant, comment déterminer si une requête est « normale » ou pas, et qu’est-ce qu’une requête normale ?

Les réponses à ces questions ne sont pas si évidentes.

Prenons par exemple le site du lirmm, la requˆete« http ://www.lirmm.fr», permet de consulter la page d’accueil du site.

Comment déterminer la nature de n’importe quelle requête entrant sur le serveur hébergant ce site comme la requête« http ://www.lirmm.fr/../../etc/passwd »?

Est-elle très, peu, ou pas dangereuse pour ce serveur et les données auxquelles ce dernier a accès ? Qu’a-t-elle essayé de faire ?

En effet, une attaque peut avoir été lancée de manière aléatoire et ne pas être nuisible pour le système sur lequel on est (tentative dáccès à un fichier windows sur un serveur sous linux par exemple). Elle peut néanmoins avoir été complètement dirigée par une personne ou un programme possédant des connaissances sensibles sur le serveur (comme le système d’exploitation, le type de serveur web ou l’emplacement de certains fichiers particuliers), par conséquent cette requête peut être considérée comme très dangereuse.

Il existe de nos jours, de nombreux outils permettant de se pr´emunir contre des attaques mais

(8)

CHAPITRE 1. INTRODUCTION

ne fournissent pas d’informations suffisantes expliquant pourquoi une requête a été considérée comme une attaque et comment elle a été classifiée.

Notre projet s’inscrit dans cette problématique, i.e. créer un ensemble d’outils, se rapprochant d’un pare-feu applicatif, qui évaluera une requête re¸cue par un serveur. Si elle s’avère être une attaque de plus amples informations seront retournées sur cette dernière (niveau et type par exemple), facilitant ainsi la tâche de l’administrateur.

1.3 Contraintes

Cet ensemble doit r´epondre `a certaines contraintes :

– Rapidité : Etant donné qu’un serveur re¸coˆıt énormément de requêtes par seconde, et qu’il doit être très réactif, nous devons réduire le plus possible le temps de traitement d’une requête.

– Portabilité : il doit pouvoir reconnaˆıtre et différencier une attaque sur n’importe quel système d’exploitation (Windows, MacOS, Linux).

– Intuitivité et modularité : Devant reconnaˆıtre le maximum d’attaques possibles et suivant l’évolution rapide d’internet, nos outils doivent être facilement modifiable afin de pouvoir reconnaˆıtre de nouvelles attaques sans que la structure du programme en soit affectée.

(9)

Chapitre 2

Organisation du projet

Danc cette partie nous pr´esentons les outils de travail qui nous ont permis de mener `a bien ce projet.

2.1 Environnement de d´ eveloppement

2.1.1 Jeu de donn´ees

Nous avons à notre disposition un jeu de données réelles au format XML, fourni par l’entreprise Beware. Ce jeu de données contient 50.116 requêtes HTTP. Environs 13.000 de ces requêtes sont des attaques, les autres étant des requêtes valides. Après l’avoir inséré dans une base de données pour plus de lisibilité, nous avons pu en tirer de nombreuses informations telles que des concepts à insérer dans l’ontologie ainsi que des règles sur la structure syntaxique des requêtes.

Ces requêtes servent également à l’apprentissage du classifieur de notre projet.

2.1.2 Langages et outils de d´eveloppement

A l’origine, comme cité dans le cahier des charges, nous devions développer l’application en C++. Cependant, nous avons finalement opté pour une conception entiérement faite enJAVA, car :

– il s’agit d’un langage open source sous licence GNU GPL, donc cela n’entraˆıne pas de coˆut pour la r´ealisation de notre projet,

– il présente la particularité d’être portbale sur plusieurs systèmes d’exploitation tels que Unix, Microsoft Windows, Mac OS...,

– il permet une conception plus ais´ee des interfaces graphiques.

Bien que nous y perdions en rapidité d’exécution, nous y gagnions en efficacité de développement et en rendement, mais ces raisons seules n’expliquent pas tout. En effet, l’implémentation d’un classifieur viable sans aucune connaissance nous menait droit à l’échec, or WEKA, qui permet d’utiliser ses classifieurs codés enJAVAdirectement dans notre application, nous était nécessaire.

La plateforme de développementJAVAutilisée est Eclipse que l’on a choisie pour sa simpli- cité et ses performances.

La programmation de l’ontologie s’est faite avec le langage OWL. Nous n’avons cependant pas directement programmmé en OWL, mais avons utilisé le logiciel Protégé, qui simplifie nettement la création d’ontologies à l’aide d’une interface graphique intuitive. Par contre, l’exploitation de l’ontologie par l’application est implémenté enJAVA, à l’aide de la librairie JENA.

(10)

CHAPITRE 2. ORGANISATION DU PROJET

La partie concernant l’analyse syntaxique a quant à elle été developpée en«JAVACC»(JAVA Compiler Compiler) qui est un compilateur de compilateurs ou un générateur d’analyseur lexical et syntaxique. Il sagit donc dun outil qui lit les spécifications d’une grammaire et qui les convertit en un programme JAVA. Ce programme peut ensuite analyser du code suivant la grammaire définie. De plus ce programme est gratuit, ce qui n’entraine pas de coût pour cette partie de l’application.

La grammaire que nous utilisons pour effectuer l’analyse syntaxique d’une URL HTTP est issue du rfc 1738 (rfc de l’url). En ce qui concerne l’analyse morpho-syntaque nous avons utilis´e l’algorithme de Cocke Younger Kasami (CYK) issue du cours de M.CHAUCHE (enseignant chercheur `a Montpellier).

Le classifieur a été implémenté grâce aux algorithmes tirés du logicielWEKA, spécialisé dans la classification, et écrits en JAVAégalement. Certains graphiques affichés dans le rapport sont aussi tiré de WEKA.

(11)

CHAPITRE 2. ORGANISATION DU PROJET

2.2 Planification des tˆ aches

Selon le temps imparti au projet, nous avons fait une plannification des tˆaches telle qu’on peut la voir sur la figure 2.1.

Fig. 2.1 – Diagramme de Gantt

2.3 R´ epartition des tˆ aches

Nous pr´esentons ici bri`evement la contribution de chacun dans ce projet.

Dès le début, un coordinateur a été désigné et nous nous sommes répartis les différentes composantes du projet de la fa¸con suivante :

Mathieu BOISSIER

– R´ealisation de la composante de classification.

– Cr´eation de la composante de signature conceptuelle.

Benoˆıt MILLON – Coordinateur

– Mod´elisation de l’ontologie.

– Programmation de la partie exploitation de l’ontologie.

– R´ealisation de l’interface graphique.

Julien ROUQUETTE

– R´ealisation de la composante analyseur.

– Recherches et ajouts des r`egles de grammaire.

Olivier VERGES

– Mod´elisation de l’ontologie.

– Ajout des concepts `a l’ontologie.

(12)

Chapitre 3

Pr´erequis

Une grande partie du projet était dédiée à la compréhension des concepts qui entraient en jeu dans ce sujet. Les notions d’ontologie, de classification par exemple étaient nouvelles, et nous avons dû, à travers de nombreuses lectures de documents, de recherches, franchir le pas de la découverte et de la nouveauté pour parvenir à raisonner et proposer des solutions aux problèmes qui nous étaient posés.

Nous allons maintenant nous intéresser aux concepts nécessaires à la compréhension du fonctionnement de chacune de ces composantes.

3.1 Concepts importants

Ce chapˆıtre va rendre compte des notions cl´es de ce projet suivant ses diff´erentes composantes.

3.1.1 Notions sur les ontologies

D´efinition

Le mot ontologie vient de ontos (ˆetre) et de logos (langage + raison), ce qui signifie repr´e- senter et expliquer ce qui existe.

En informatique une des d´efinitions qui fait autorit´e est :

Une ontologie est la sp´ecification d’une conceptualisation d’un domaine de connaissance, Thomas R. Gruber .

Ce terme désigne l’ensemble des connaissances servant à décrire et hiérarchiser un domaine.

A la diff´` erence d’un vocabulaire, une ontologie cherche donc à représenter le sens des concepts et des relations qui les lient à l’aide des :

– Classesreprésentant les nombreux domaines d’intérêts, – Relationspouvant exister entres ces domaines,

– Instances (ou les attributs) associ´ees `a ces domaines.

Formellement, une ontologie O est définie comme un tuple (C, R) où C ={c1, c2, ...cn} est l’ensemble des classes et où R = {r1, r2, ..rm} regroupe l’ensemble des relations entre classes (R1) et les propriétés des classes (R2).

Une relation r1∈R1 associe deux noms de classes, (∀ r1 (t1,t2)⇒C, t2∈ C), et une propriété r2∈R2 relie un nom de classe à un littéral (∀r2 (t1, t2)⇒ t1∈C, t2∈λoù λest un littéral).

(13)

CHAPITRE 3. PR ´EREQUIS Mod´elisation

Le World Wide Web Consortium(W3C), a developpé dans le cadre de l’activité web séman- tique, deux composants permettant de modéliser des ontologies.

RDF(Resource Description Framework)

Ce composant est un modèle de graphe destiné à décrire de fa¸con formelle les ressources Web et leurs métadonnées, de fa¸con à permettre le traitement automatique de telles descriptions.

Il est basé sur le triplet {sujet, prédicat, objet} représentant respectivement la ressource à décrire, le type de propriété que l’on peut lui appliquer et une donnée la concernant.

Chaque membre de ce triplet est repr´esent´e par une URI.

Fig. 3.1 – Exemple de mod´elisation RDF – RDF/XML

RDF étant un modèle de graphe il peut être facilement écrit sous format XML.

RDF/XML est la normalisation syntaxique pour représenter ce modèle proposé par le W3C.

La figure 3.1 sera transcrite en RDF/XML de la sorte :

<exterms :creation-date>August 16, 1999</exterms :creation-date>

</rdf :Description>

</rdf :RDF>

– RDFS (Resource Description Framework Schema)

Ce composant est une«extension»de RDFS dans le sens o`u il fournit un vocabulaire plus

´etendu. Il permet de d´ecrire les ressources sous formes de concepts au lieu d’URI.

OWL (Web Ontology Language)

Ce composant a été con¸cu comme une«extension»de RDF. En effet, son vocabulaire permet de décrire des classes, des propriétés et leurs instances de manière plus structurée.

Avec OWL, la figure 3.1 pourra ˆetre retranscrite de la sorte :

<rdf :RDF xmlns=”http ://www.owl-ontologies.com/Ontology1179498392.owl#”

xml :base=”http ://www.owl-ontologies.com/Ontology1179498392.owl”

xmlns :xsd=”http ://www.w3.org/2001/XMLSchema#”

xmlns :rdfs=”http ://www.w3.org/2000/01/rdf-schema#”

xmlns :rdf=”http ://www.w3.org/1999/02/22-rdf-syntax-ns#”

(14)

CHAPITRE 3. PR ´EREQUIS

xmlns :owl=”http ://www.w3.org/2002/07/owl#”>

</owl :DatatypeProperty>

<creation-date rdf :datatype=”&xsd ;string”>August 16, 1999</creation-date>

</Ressource>

</rdf :RDF>

OWL est défini en trois sous-langages offrant une expressivité différente.

– OWL LITECe langage est utilis´e principalement pour une ontologie ayant des contraintes simples dans une classification de type hi´erarchique.

– OWL DL(Direct Logical)

Celui-ci offre une expressivité maximum. Il comprend toute les structures du langage OWL avec des restrictions comme la séparation des types (une classe est soit un individu soit une propriété).

– OWL FULL

Ce dernier langage offre une expressivité maximum avec la liberté syntaxique de RDF, mais sacrifie la garantie de résultat d’un système de raisonnement.

3.1.2 Notions li´ees `a la partie analyseur

Dans notre projet, l’analyseur a pour rôle la transformation d’une suite de caractères en une structure riche (abre), facilement exploitable. Pour cela il se décompose principalement en trois parties : l’analyse lexicale, l’analyse syntaxique et l’etiquetage morpho-syntaxique.

– L’analyse lexicale a pour tâche principale de lire les caractères d’entrée et de produire comme résultat une suite d’unités lexicales que l’analyseur syntaxique aura à traiter.

En plus, l’analyseur lexical réalise certaines tâches secondaires comme l’élimination de caractères superflus (commentaires, tabulations, fin de lignes,...).

– L’analyseur syntaxique re¸coit une suite d’unités lexicales de la part de l’analyseur lexical et doit verifier que cette suite peut être engendrée par la grammaire du langage. Cette grammaire décrit comment les unités lexicales doivent être agencées. Le principe de l’analyseur syntaxique est d’essayer de construire un arbre de dérivation qui est une représentation de la structure de la suite d’unités lexicales re¸cus.

– L’étiquetage morpho-syntaxique consiste à associer une étiquette à chaque unités lexicales issus de l’analyse lexicale.

3.1.3 Notions de classification et d’apprentissage

Le classifieur est un agent qui permet de regrouper des objets en groupes ou classes de telles sorte que :

– Deux objets d’une mˆeme classe se ressemblent le plus possible, – Deux objets de deux classes distinctes diff`erent le plus possible.

On distingue deux types d’apprentissage possibles, l’apprentissage supervisé et l’apprentissage non supervisé. L’apprentissage supervisé est une technique d’apprentissage auto-

(15)

matique qui consiste à produire automatiquement des règles à partir d’un jeu de données contenant des exemples de cas déjà traités. Le jeu de données étant péalablement ordonné en classes par un expert, le classifieur qui en découle peut tirer des règles qui permettront de classer des instances ne faisant pas partie du jeu de données.

L’apprentissage non supervisé, lui, apprend sur un jeu de données non organisé en classes et doit essayer de minimiser la similarité intra-groupe et de maximiser la similarité inter- groupes. Nous nous interesserons ici à l’apprentissage supervisé, le jeu de données mis

`

a notre disposition étant ordonné de telle sorte que pour chaque requête répertoriée on connaisse son type. Voici les deux types d’apprentissage retenus :

Apprentissage par arbres de d´ecision :

Les arbres de décisions permettent de modéliser un raisonnement régit par une succession de conditions qui permettent, à partir d’un attribut discriminant dans le jeu de données et via d’autres attributs jouant le rôle de noeuds, d’arriver à un résultat aisément interprétable pour une personne. Chaque noeud de l’arbre est un attribut et chaque feuille, une valeur de la classe. L’attribut le plus discriminant doit être la racine de l’arbre permettant le meilleur apprentissage possible. L’apprentissage par arbre de décision ne doit pas être un apprentissage par coeur car il serait quasiment impossible de classifier dans cet arbre une nouvelle requête sans faire d’erreur. Par ailleurs, une validation croisée (décrite ci- après) sur un apprentissage par-coeur montre que le taux d’erreurs de classification est extrèmement élevé. Afin d’éviter le sur-apprentissage (overfitting), on utlise un algorithme d’élagage pré ou post apprentissage. Ce type d’algorithme permet de couper des parties de l’arbre considérées comme non nécessaires afin de le généraliser davantage, en d’autres termes, de diminuer sa forte spécialisation. Le choix d’un apprentissage à l’aide d’un arbre de décision permet de suivre le chemin menant à la prédiction de la classe à laquelle appartient l’instance testée. Cette procédure de classification est compréhensible par un utilisateur averti et permet de savoir si le classifieur donne une réponse correcte ou non.

Apprentissage par r´eseaux de Bayes :

Le réseau bayésien tire son nom de Thomas Bayes qui est à l’origine de la théorie du même nom, qui sert de base au calcul de probabilités. Il s’agit d’un modèle de représentation pro- babiliste des connaissances que l’on reproduit sous la forme d’un graphe orienté acyclique.

Le graphe en lui-même est appelé la structure du modèle et les tables de probabilités de chacun des sommets, ses paramètres. Ceux-ci peuvent être fournis par un expert, mais en règle générale, ce qui sera la cas ici, seule la structure sera définie, les paramètres étant calculés à partir de données expérimentales. Son utilisation permet d’inférer, c’est-à-dire calculer la probabilité des données non observées en fonctions des informations observées prélablement.

Les types d’apprentissage expliqués précédemment ne donnent pas forcément de bons résultats et il nous faut donc une méthode capable de donner une idée de la fiabilité de la classification. Cette méthode est la validation croisée.

Validation crois´ee sur l’apprentissage

Afin de v´erifier si l’apprentissage est bon, sans jeu de test, une validation crois´ee s’impose.

Elle consiste à choisir aléatoirement une partie du jeu de données pour en faire un jeu de test et ensuite, à lancer l’apprentissage sur le jeu de données restant. Une validation croisée

`

a 10 plis, comme le montre la figure 3.2, consiste `a prendre 10% du jeu de donn´ees qui sera

(16)

Fig.3.2 – Validation croisée à 10 plis sur un jeu de données

le jeu de tests, de faire l’apprentissage sur les 90% restants et enfin tester le taux d’erreur avec le jeu de 10% récupéré auparavant, et ce, sur 10 apprentissages successifs. Au final, on fait la somme du taux d’erreurs et on le divise par le nombre de plis, en l’occurence 10 afin d’obtenir le taux d’erreur moyen du classifieur.

Une petite précision s’impose. La sélection du jeu de test est aléatoire par conséquent les requètes retenues pour faire partie de lui ne sont pas forcément côtes à côtes contrairement

`

a ce que nous montre le sch´ema 3.2.

Lors de la validation croisée, comme on peut le voir ici avec 10 plis, 10 apprentissages sont lancés ce qui fait que 10 arbres de décision sont créés. Plus ces arbres ont de similitudes entre eux et plus l’apprentissage a un taux d’erreur stable. Si le delta d’erreur en validation croisée est peu élevée, on pourra considérer que l’apprentissage est bon.

(17)

Chapitre 4

Etat de l’art

Ce chapitre rend compte de nos recherches sur l’état de l’art. Tout d’abord, nous allons donc étudier dans le détail, quelles sont les principales attaques HTTP. Ensuite suivra une

étude des différentes techniques de protection existantes. Nous continuerons par l’étude des limites des logiciels dits pare-feux applicatifs. Enfin, nous terminerons par une partie concernant les ontologies orientées sécurité informatique.

4.1 Les attaques Web les plus courantes

Jour après jour, les hackers redoublent d’ingeniosité pour créer de nouvelles attaques. Voici quelques types d’attaques parmi les plus courants.

4.1.1 Modifications d’URLs

Ce type d’attaque consiste en la modification des paramètres utilisés dans les URLs, ce qui peut entrainer l’accès à des données confidentielles. Une solution possible pour parer à ce type d’attaque, peut être l’utilisation de la méthode POST au lieu de la méthode GET, qui assure une transmission des paramètres non visibles par l’utilisateur.

Les données contenues dans une URL sont la plupart du temps créées dynamiquement par la navigation des utilisateurs à travers le site Internet, ainsi il n’est pas rare d’avoir une URL de la forme suivante :

«http ://monsite/blog/index.php3 ?cat=4»

Dans ce cas, si l’utilisateur modifie manuellement la valeur des paramètres de l’URL, dans notre exemple«cat=4»par«cat=8», si le concepteur du site n’a pas pris en considération cette éventualité, l’utilisateur peut potentiellement accéder à des données«protégées».

4.1.2 Injections de commandes

Cette attaque s’appuie sur l’envoi de commandes (shell par exemple) à l’application. Elle donne ainsi accès au système d’exploitation ou à des données sensibles situées sur le serveur. Le filtrage des données re¸cues par le serveur permet de contrer ces attaques.

4.1.3 Injections SQL

SQL est un langage structuré de requêtes, destinées à interroger ou à manipuler une base de données relationnelle. Le principe des injections SQL consiste à envoyer une requête

(18)

CHAPITRE 4. ETAT DE L’ART

SQL non prévue par le système. Cela permet à un utilisateur malveillant d’accéder, modifier ou supprimer des informations de la base de données. Une solution possible consiste

`

a utiliser les procédures stockées, à la place du SQL dynamique ou filtrer les saisies de l’utilisateur. Par exemple si le site utilise la requête suivante pour identifier un utilisateur :

«SELECT user id WHERE user name = ’dupont’ AND user password =

’457b3a2af6879c4ff17f8d1174760f62’.»

Dans ce cas, si il n’y a aucune v´erification sur la saisie de l’utilisateur, alors il suffit d’en- trer :«durant’–» comme nom d’utilisateur pour s’identifier comme l’utilisateur Durant.

En effet en SQL«–» signifie que ce qui va suivre est un commentaire, par cons´equent la suite de la requˆete :

«AND user password = ’457b3a2af6879c4ff17f8d1174760f62’» va être considérée comme un commentaire d’où l’inutilité du mot de passe pour se connecter.

4.1.4 Cross-Site Scripting (XSS, CSS)

La technique consiste à envoyer du code malicieux sur un site Web vulnérable, ce code sera interpreté et executé par le navigateur des autres utilisateurs.

Par exemple sur un forum présentant aucune sécurité pour ces attaques, si l’on envoie ce type de message«<script>alert(’bonjour’)</script>», alors les utilisateurs qui souhai- teront lire les messages verront apparaˆıtre une fenêtre contenant le message«bonjour», au lieu d’un simple message texte. Il existe plusieurs solutions pour contrer ces attaques notamment en interdisant les scripts à certains endroits du code, en vérifiant le format des données saisies par l’utilisateur ou encore en encodant les données entrées par l’utilisateur.

4.1.5 Violations de contrˆole d’acc`es

Cette technique consiste à exploiter une faiblesse de restriction des droits utilisateur, ce qui donne l’accès à d’autres comptes utilisateur avec leurs droits associés. Un paramétrage correct des droits utilisateur suffit à éviter ce genre d’attaque.

4.1.6 Buffer Overflow

Cette attaque consiste à saturer le buffer de l’application, qui possède une taille limitée.

Elle permet le crash ou la prise de contrôle du système. Pour faire face à ces attaques, l’application doit vérifier la taille des données saisies par l’utilisateur.

4.1.7 Traitements inappropri´es des erreurs

Comme tout programme informatique, les applications Web peuvent connaˆıtre des dysfonctionnements tels que l’inaccessibilité d’une ressource ou des problèmes liés à la mémoire.

La plupart du temps ces dysfonctionnements génèrent des codes d’erreur permettant leur identification par les concepteurs de l’application. Cependant il n’est pas rare que ces codes soient directement fournis à l’utilisateur via l’affichage d’une page Internet, ce qui représente une mine d’informations pour l’utilisateur malveillant, car cela l’informe sur la structure de l’application et sur ses vulnérabilités.

(19)

CHAPITRE 4. ETAT DE L’ART 4.1.8 Directory Traversal

L’utilisateur malicieux va structurer sa requête de sorte à obtenir une branche du système de fichiers au lieu d’un fichier. L’utilisateur peut ainsi accéder à des informations sensibles.

Pour parer à cela, l’utilisation d’une page par défaut à chaque noeud de l’arborescence de fichier ainsi qu’une bonne configuration du serveur suffisent.

Par exemple il suffit d’utiliser la chaine«../» qui permet de remonter dans l’arborescence du système de fichiers et ainsi accéder à des informations non autorisées.

Remarque : une évolution possible consiste à encoder le caractère « /» par «%2F» (Hexadécimal) ou encore«%u2216» (Unicode).

4.1.9 D´enis de service (DoS)

Une attaque est considérée comme un déni de service si un utilisateur bloque délibérément l’accès à un serveur, privant ainsi les autres utilisateurs de l’accès à celui-ci. Une technique possible consiste à saturer le serveur en lui envoyant des données inutiles. Il existe un dérivé de cette attaque qui repose sur une parallélisation d’attaque DoS, simultanément menées par plusieurs systèmes contre un seul. Pour éviter de telles pertubations, il est possible d’utiliser une liste noire contenant les adresses IP des machines hostiles. Lorsque le serveur recevra une requête provenant d’une machine contenue dans sa liste noire, la requête sera rejetée.

Remarque : Le fait de débrancher un serveur avec l’intention de nuire est considéré comme un déni de service.

4.1.10 Exploitations de vuln´erabilit´es encore inconnues

Les utilisateurs malicieux ou plus couramment appelés hackers sont sans cesse à la recherche de nouvelles failles de sécurité. Ces failles présentent un double intérêt pour eux.

D’une part cela leur permet de passer `a travers les protections existantes et ainsi acc´eder

`

a des données «protégées». D’autre part ils peuvent découvrir de nouvelles techniques d’attaques, ce qui est une forme de reconnaissance pour eux. Par conséquent ces attaques sont fortement redoutées par les réponsables de la sécurité, car elles leurs sont actuellement inconnues.

La figure 4.1 illustre certaines des attaques présentées précédemment, contre un serveur Web relié à une base de Données. On peut y voir une attaque par Cross-Site Scripting, une injection SQL, un DoS, et un Directory Traversal.

4.2 Les diff´ erentes techniques de protection

Pour faire face aux multiples types d’attaques existants , il est indispensable de possé- der une parade efficace à chacune d’elle. Cela entraˆıne naturellement la multiplication des techniques et outils de protection que nous avons regroupés ci-après.

4.2.1 Utilisation de listes blanches/noires d’URLs (sécurité positive) Les listes blanches et les listes noires sont deux techniques, qui permettent un filtrage des URLs ; le principe repose sur l’utilisation d’une bibliothèque d’URLs. Dans le cas des

(20)

Fig. 4.1 – Illustration de diverses attaques connues

listes blanches, la bibliothèque contient les URLs autorisées, tandis que, dans le cas des listes noires la bibliothèque contient les URLs interdites qui seront bloquées par le système.

– Listes blanchesdynamiques

Certains outils ne se basent pas sur une liste générale des attaques connues, mais sur une liste construite en fonction du contenu qu’ils protègent. Les listes dynamiques sont un bon exemple. Là où la méthode dynamique diffère d’une méthode statique (liste fixe), c’est que la liste est construite au fur et à mesure des interactionsapplication <->

utilisateur. Prenons par exemple un serveur qui h´eberge des sites Web :

Lorsqu’un utilisateur navigue sur un site du serveur, le système de détection analyse chaque page demandée par l’utilisateur, et vérifie la conformité avec l’application de chaque donnée que ce dernier renvoie (les types de données, les valeurs possibles et autres).

– Listes blanchesproactive

Les listes blanches proactive sont construites suite à une phase d’apprentissage. Contrai- rement aux listes dynamiques, elles sont construites avant toute interaction avec un utilisateur quelconque. Elles sont constituées de l’ensemble de toutes les interactions possibles entre un utilisateur et l’application. Ainsi, toute requête sortant de cette liste sera im- médiatement bloquée. Cette phase d’apprentissage permet un gain de temps précieux, car la création de la liste ne se fait pas pendant, mais avant le dialogue application <->

utilisateur, avant mˆeme la mise `a disposition des informations sur Internet.

4.2.2 L’apprentissage

En science cognitive l’apprentissage se définit ainsi :«Capacité à améliorer les performances au fur et à mesure de l’exercice d’une activité». Dans le cadre de la sécurité informatique cette technique peut permettre à l’aide d’une accumulation de connaissances de tirer des règles, qui doivent s’appliquer à des situations non encore rencontrées. Par exemple dans le cas des listes noires, l’apprentissage doit permettre au fur et à mesure de son expérience, un enrichissement de sa bibliothéque d’entités non autorisées.

(21)

CHAPITRE 4. ETAT DE L’ART 4.2.3 Les pare-feux

Un pare-feu est un élément du réseau informatique, logiciel et/ou matériel, qui a pour fonction de faire respecter la politique de sécurité du réseau, celle-ci définissant quels sont les types de communication autorisés ou interdits. Il existe differentes catégories de pare-feu :

1. Pare-feu sans état : Il regarde chaque paquet indépendamment des autres et le compare à une liste de règles préconfigurées.

2. Pare-feu à état : Il doit vérifier l’ordonnancement des données qui circulent sur le réseau pour une connexion.

3. Pare-feu applicatif : Il vérifie la complète conformité du paquet à un protocole attendu.

Par exemple, ce type de pare-feu permet de v´erifier que seul du HTTP passe par le port TCP 80.

4. Pare-feu identifiant : Il v´erifie les addresses IP des paquets lui arrivant et les rejette si il les consid´ere commme suspectes.

4.2.4 Les syst`emes de d´etection d’intrusion (IDS)

Cette catégorie de systèmes de protection se décompose en deux familles :

1. Les N-IDS (Network Based Intrusion Detection System), qui surveillent l’état de la sécurité au niveau du réseau. Pour cela ils utilisent une liste noire qui recense les signatures des attaques connues. Cependant, face à une attaque inconnue ce système est inefficace.

2. Les H-IDS (HostBased Intrusion Detection System), qui surveillent l’état de la sécurité au niveau des hôtes. Ce système repose sur une analyse comportementale et définit ainsi une norme. Si une activité s’éloigne de la norme, une alerte est générée.

La figure 4.2 représente une fa¸con d’installer un IDS afin de protéger un réseau.

Fig.4.2 – Installation d’un IDS 4.2.5 Les syst`emes de pr´evention d’intrusion (IPS)

Les IPS permettent la protection contre les intrusions. D’une part ils les identifient et les signalent. D’autre part ils ont la possibilit´e de les bloquer contrairement `a la plupart des IDS qui se contentent d’afficher un message d’alerte.

(22)

CHAPITRE 4. ETAT DE L’ART 4.2.6 L’authentification forte

De plus en plus de données et d’informations circulent sur les réseaux. Ces données peuvent ˆ

etre vitales pour les organisations (comme leurs informations bancaires par exemple), c’est pourquoi il est indispensable de sécuriser les échanges entre les machines. Pour assuser cette sécurité il existe des protocoles d’authentification, qui reposent sur l’échange d’un secret entre le client et le serveur. Par la suite ce secret peut être utilisé pour chiffrer les données échangées, permetant d’en garantir l’intégrité et la confidentialité.

4.2.7 Les pots de miel (honeypots)

Ce n’est pas un outil de protection au sens strict du terme, mais plutôt une technique permettant la recolte d’information. Le principe consiste à mettre en place un système informatique présentant volontairement des failles de sécurité, et analyser les stratégies utilisées par les hackers pour exploiter ces failles.

4.3 Les logiciels de protection

Nous décrivons ci-après les spécificités de plusieurs logiciels de protection dédiés à la surveillance du traffic HTTP.

4.3.1 SG800

Créé par la société Blue Coat Systems, SG800 est un pare-feu applicatif dédié exclusivement

`

a la surveillance du trafic HTTP. Il se charge d’analyser le contenu des messages du trafic HTTP que le serveur re¸coˆıt. Il contient un module qui se charge d’analyser et filtrer les URLs.

Ce pare-feu est dôté une capacité d’apprentissage et d’un moteur de règles à partir desquels seront formalisées des interdictions ou des acceptations. Il est également capable de modifier des messages ou les rediriger selon des paramètres pré-établis.

4.3.2 Deny All

C’est un pare-feu très évolué, et qui propose de nombreuses techniques de détection com- binées, pour un maximum d’efficacité, ceci est appelé le filtrage applicatif multiple. Parmi ces différentes techniques, nous pouvons citer :

– Le Reverse Proxy, qui se charge de filter les requˆetes HTTP ou HTTPS entrantes, en

éliminant celles qui présentent des éléments non-conformes au protocole HTTP(S) et en les transmettant ensuite à une liste noire.

– Le suivi des utilisateurs (User Tracking), qui est basé sur un système d’authentification forte dont nous avons déjà parlé auparavant.

– Le modèle de sécurité positive, qui contient une liste blanche dynamique ainsi qu’une liste blanche proactive.

4.3.3 Mod Security

Mod Security est un module pour Apache. Il a la capacité d’analyser très précisément toute requête envoyée au serveur HTTP ou HTTPS et de la bloquer si elle peut représenter un danger pour l’applicatif WEB. Basé sur un système de règles relativement simples, le filtre de Mod Security s’applique sur toute requête en fonction de patterns prédéfinis ou définis par l’utilisateur.

(23)

CHAPITRE 4. ETAT DE L’ART 4.3.4 SNORT

SNORT est un IDS ou encore plus communément appelé«sniffer» sous licence GPL capable d’effectuer des analyses de trafic et d’identifier les paquets sur un réseau IP en temps réel. Il est capable de détecter les dépassements de tampons, les scans des ports, et est capable d’analyser les trames HTTP.

4.4 Les limites des moyens de d´ etection

Ces solutions, aussi efficaces soient-elles, pr´esentent des limites que nous explicitons ci-apr`es.

4.4.1 Limites des Pare-feu applicatifs

Filtrage par liste noire

Les listes noires spécifiques de données demandent des mise-à-jours extrêmement fréquentes afin de maintenir un haut niveau de sécurité tout en étant capable de traiter les requêtes dites

«normales»afin de ne pas perturber les communications entre le client et le serveur HTTP.

Certaines solutions manipulent des listes noires trop générales et de ce fait, entraˆınent des faux positifs, c’est-à-dire, que certaines requêtes HTTP tout à fait normales seront traitées comme des attaques.

Filtrage par liste blanche

La sécurité positive est certes efficace, mais assez lourde à mettre en oeuvre et à garder à jour. Si le modèle de toutes les possibilités d’intéractions entre les utilisateurs et l’application n’est pas exhaustif, certaines requêtes sans danger pour la sécurité pourraient être considérées comme non conformes et traitées comme des attaques potentielles. S’il y a une modification de l’application et des requêtes qu’elle engendre, il faudra modifier cette liste blanche afin de ne pas perturber les communications et le bon fonctionnement de cette mise à jour d’application.

Les pare-feux se basent sur ce système de liste noire, liste blanche et n’offrent, dans la majorité des cas, une protection valable uniquement après qu’une attaque ait été perpétrée et répertoriée.

4.4.2 Limites des IDS

N-IDS

Ils sont basés sur une bibliothèque de signatures d’attaques connues, bibliothèques qui de- vront être mises à jour dès lors qu’une nouvelle attaque sera répertoriée. Si celle-ci ne contient pas la signature d’une attaque spécifique et récente, cette dernière passera au travers des mailles du filet et la sécurité des données ainsi que du réseau en général sera menacée.

H-IDS

Ils sont basés sur l’analyse de l’activité sur un hôte qui génère une alerte si une activité s’éloigne de la norme, mais si dans un cas exceptionnel une affluence de requête justifiée mais non prévue par le système venaient à arriver en masse, cette méthode de protection risquerait de générer des alertes infondées.

Les H-IDS ne sont pas fiables car ils ne font que générer des alertes, et ce sera à un administrateur en charge de la sécurité du réseau de dire si telle ou telle requête est valable ou pas. En terme de temps, cela coûte cher, et en terme de fiabilité, cela est perfectible.

(24)

CHAPITRE 4. ETAT DE L’ART 4.4.3 Limites des IPS

Ils sont une amélioration des IDS avec en plus la possibilité de bloquer la tentative d’intrusion. Si ils détectent une attaque ou une activité suspecte alors qu’elle n’a pas lieu d’être, ils provoqueront des perturbations sur le réseau. Comme pour les N-IDS, si la signature d’une attaque n’est pas répertoriée, la sécurité y perdra en efficacité.

Toutes ces solutions présentent le désavantage de ne détecter une attaque seulement quand elle a déjà été perpétrée, ce qui limite sensiblement leur efficacité et oblige à de multiples mises à jour dès lors qu’une nouvelle attaque est répertoriée. Ceci étant, elles permettent de se prémunir contre des attaques déjà existantes et de ce fait, ne laissent la porte entrouverte qu’au véritables pirates qui recherchent la moindre faille.

4.5 Ontologies et s´ ecurit´ e

Cette section traite de l’existant sur une partie du sujet : l’ontologie. Si l’on peut dire que les parties «classifieur»et «analyseur» seront traitées à l’aide d’algorithmes pré-existants et efficients, il n’en est pas de même pour la partie ontologie.

Sur le domaine qui nous intéresse nous conceptualiserons, entre autres, les dossiers et les fichiers présents sur le système d’exploitation du serveur. Nous leur ajouterons des propriétes comme

«un fichier se trouve dans un dossier»,«un fichier est sensible». Mais la question qui se pose

`

a ce niveau du projet est :

Existe-t’il des ontologies traitant de la s´ecurit´e web ?

4.5.1 NRL Security Ontologie

De nos jours les données rapportées par des éléments de sécurité sont nombreuses et variées (notamment ceux des pare-feux et des IDS comme SNORT). L’administrateur se retrouve noyé dans ce flot de données qu’il va essayer de décortiquer afin d’obtenir des informations utiles.

Le NRL (Navy Research Laboratory) a proposé un ensemble de 7 ontologies, basé sur un ancien ensemble DAML Security Ontology, afin de décrire les informations concernant la sécurité de n’importe quelle ressource. Il donne, ainsi, la possibilité de créer une ontologie facilement exten- sible et qui facilite la liaison informative entre les équipements de sécurité de bas et haut niveau.

4.5.2 Les dif´erentes ontologies Security Main Ontology

Le noyau de la NRL Security Ontology se compose d’une classe SecurityConcept partag´ee en 3 sous-classes :

– «SecurityProtocol»: regroupe les différents protocoles offrant un niveau de sécurité comme les protocoles d’identification(SAML, Kerberos), Internet(SSH,TTL).

– «SecurityMechanism»: regroupe les différents mécanismes sur les hôtes(safehost), sur les réseaux (VPM), et les applications.

– «SecurityPolicy»: regroupe les différentes politiques de sécurité mises en place.

La classe SecurityObjective permet de déterminer quel niveau tel protocole ou tel mécanisme gère.

Elle permettra de r´epondre `a la question :

(25)

«Quelles sont les instances qui ont pour propriété laconfidentialité ?»

Certaines de ces classes ont pour propri´et´es «hasAlgorithm», «hasAssurancy», «reqCreden- tial».

Ces propri´et´es relient des instances de la classe principale aux ontologies suivantes :

SecurityAlgorithms : regroupe les diff´erents types d’algorithmes existants (comme cryp- tage et contrˆole).

Cette classe permet de sp´ecifier quels algorithmes sont utilis´es par les protocoles mis en place.

Security Assurance : regroupe les différents types d’assurances proposés par les algorithmes, protocoles et mécanismes.

Standard, Accr´editation, Evaluation et Certification sont les 4 sous-classes.

Security Credential: regroupe les différents moyens d’authentification aussi bien physique, que biométrique et électronique. Côté électronique, ont été regroupés les adresses IP, cookies, mots de passes, certificats.

Service Security : Cette ontologie permet de sp´ecifier que les classes du Security Main Ontology, SecurityConcept et SecurityObjective, sont des sous-classes de OWL-S¹

Service Agent : représente un service local cherchant à communiquer avec une application extérieure. Peut contenir les valeurs des classes SecurityConcept et SecurityObjective.

Information Object: sert à récupérer des informations cryptées ou signées.

4.6 Conclusion de l’´ etat de l’art

Comme nous l’avons vu, l’existant est assez riche en solutions logicielles ou matérielles, mais plutôt pauvre en solutions efficaces et vraiment fiables. Ceci étant, elles sont les seules existantes pour le moment, et permettent de se prémunir contre des attaques déjà répertoriées.

Ces solutions, par contre, ne suffisent pas `a se prot´eger efficacement contre les nouvelles attaques, inconnues jusqu’alors.

Notre TER s’inscrit dans l’optique de se pr´emunir contre des attaques de toutes sortes qu’elles soient connues ou non et ainsi d’anticiper leurs agissements.

1OWL-S est une ontologie proposée par le Consortium W3C afin d’apporter un vocabulaire standard compré- hensible pour des agents cherchants à accéder à certains services web.

(26)

Chapitre 5

Notre contribution

Dans cette partie, nous allons présenter les différentes composantes de notre application ainsi que le travail effectué. Dans un premier temps, nous donnerons un aper¸cu général du fonctionnement de cette dernière. Par la suite, nous détaillerons les parties dont elle est composée.

5.1 Vision globale de l’application

La fonction principale de l’application, c’est à dire le traitement de requêtes HTTP est constitué de plusieurs composantes bien distinctes. Dans le but d’une conceptualisation simple et claire nous l’avons divisée en trois parties principales :

– L’ontologie.

– L’analyseur.

– Le classifieur.

5.1.1 Diagramme de s´equence de l’application

Fig. 5.1 – Diagramme de séquence général de la classification d’une requête HTTP Sur la figure 5.1, on peut observer facilement le parcours que suit une requête lors de l’exé- cution de l’application. La prodédure principale fournit la requête en entrée à l’analyseur. Ce dernier utilise ensuite le contenu de l’ontologie pour transformer ce qui lui a été transmis. Après ce traitement interne, il renvoie une nouvelle forme de la requête à la procédure principale. La procécdure principale transmet ce qu’elle a re¸cue précédemment de l’analyseur au classifieur, qui se charge de classer la requête dans une certaine catégorie, en fonction de ce qu’il a appris.

C’est cette dernière étape qui définit si oui ou non la chaˆıne de caractères initiale correspond à une attaque.

(27)

CHAPITRE 5. NOTRE CONTRIBUTION

5.2 Le module ontologie

Ce module est celui qui a subi le plus de transformations tout au long du projet. En effet, les trois modules étant interconnectés, de nouvelles contraintes sont apparues en même temps que l’étude de l’analyseur et du classifieur s’effectuait.

Nous allons présenter les 3 grandes modélisations de l’existant que nous avons effectuées au cours de ce projet.

5.2.1 Rappel

L’ontologie est la mod´elisation de l’existant.

Ici l’existant concerne d’une part tout ce qui est laissé volontairement, ou involontairement, accessible sur un serveur par Internet et d’autre part les moyens d’accès à cette information.

Dans ce projet, l’ontologie sert à apporter une«coloration» à un«mot» envoyé par l’analyseur i.e.lui retourner des étiquettes le décrivant à un plus haut niveau. L’étude faite sur les différents types d’attaques, le jeu de données fourni ainsi que notre expertise nous ont permis de faire une liste de ce que nous devions conceptualiser.

Information

Sur Internet, la grande majorité de l’Information se trouve sous forme defichiers situés dans desdossiers. Elle se trouve sur dessystèmes d’exploitation et peut être utilisée par des serveurs web.

Note : Ici nous ne consid´erons que deux familles de syst`emes d’exploitation :

– unix : comprenant aussi bien les distributions Linux que celles de MacOs car elles possèdent des commandes systèmes, fichiers et répertoires communs.

– windows : comprenant toutes les versions de ce sytème Méthodes d’accès

Qu’elles soient sensibles ou non sensibles, les méthodes d’accès à l’information sont desins- tructions de langage qui correspondent à un langage ou descommandes systèmes.

5.2.2 Modélisation typée Système d’Exploitation

Cette modélisation a été la première que nous ayons faite et a servi de base aux autres.

Pour commencer nous avons formalis´e le domaine afin de le conceptualiser et de le hi´erarchiser.

Formalisation Dossier

Dossier regroupe tous les dossiers existants sur le serveur sur une configuration normale d’un serveur suivant n’importe quel syst`eme d’exploitation.

Un Dossier se trouve dans un syst`eme d’exploitation.

Un Dossier contient 0, 1 ou plusieurs Dossiers.

Un Dossier contient 0, 1 ou plusieurs Fichiers.

Un Dossier est contenu dans 0 ou un Dossier.

Un Dossier est un Dossier sensible ou non sensible.

(28)

CHAPITRE 5. NOTRE CONTRIBUTION Fichier

Fichier regroupe tous les fichiers existants.

Un Fichier se trouve dans un Dossier.

Un Fichier est sensible ou non sensible. Un Fichier poss`ede 0 ou 1 extension.

S´eparateur

Ce concept sert à rassembler les caractères spéciaux comme «.» ou «/» qui séparent les chaˆınes de caractères. Ces instances seront envoyées à l’analyseur qui les utilisera afin de séparer les différents tokens.

Commande

Ce concept regroupe les commandes systèmes. En effet, certains pirates tentent d’envoyer des commandes systèmes au serveur, enfin d’obtenir un accès, en lecture ou en ecriture, sur les informations du système.

Une Commande est associ´ee `a 1 ou plusieurs OS.

Une Commande peut ˆetre sensible ou non sensible.

Langage

Ce concept rassemble les différents langages pouvant être utilisés dans des requêtes adressées au serveur comme xml etjavascript.

Un Langage poss`ede plusieurs Instructions de Langage.

Instruction de Langage

Toutes les instructions de langages existants commeif, then, else.

Une Instruction correspond `a ou plusieurs Langages.

Une instruction fonctionne sur 0 ou 1 Serveur Serveur

Serveur regroupant les serveurs web comme Apache.

(29)

CHAPITRE 5. NOTRE CONTRIBUTION Ce qui donne le sch´ema suivant :

Fig. 5.2 – premi`ere approche de l’ontologie

Bilan

Cette mod´elisation, suivant la figure 5.2, permet d’avoir une vision globale de tout ce qui peut ˆ

etre trouv´e sur le serveur aussi bien au niveau de l’information que de la mani`ere de l’obtenir et de la modifier.

Les propriétés permettent de trouver les relations entres les différences ressources. Les instances, mises à titre d’information, sont les«mots» envoyés par l’analyseur.

Cependant, cette modélisation ne correspond pas réellement à notre domaine d’étude dans la mesure où nous nous sommes trop concentrés sur les noms des classes, et des instances alors que ces dernières sont les identifiants des concepts.

En effet, conceptualiser des instances de la classe Fichier par des noms de fichiers est trop ré- ducteur. Un fichier peut être caractérisé aussi par son inode, son utilisateur et son groupe. Or nous ne nécessitons que du nom.

Pour finir, chaque instance correspondant au «mot» envoyé par l’analyseur possède des pro- priétés différentes ce qui complexifie la recherche des étiquettes.

5.2.3 Mod´elisation avec des ´etiquettes simples

Il fallait donc revenir vers l’optique du sujet et simplifier l’accès aux différentes données.

Le but ce module étant de donner des étiquettes au «mot», ou token, envoyé par le le module analyseur, nous avons décidé de transfomer notre ontologie en la basant sur ces deux concepts- clés.

(30)

CHAPITRE 5. NOTRE CONTRIBUTION Changement au niveau des classes

La classe Token va regroupertous les mots reconnaissables par notre application.

La classe Etiquette regroupera, elle, les différentes étiquettes que l’on retournera à l’Analy- seur.

Changement au niveau des propri´et´es

On a besoin de créer une propriété entre les classes Token etEtiquette.

Cette propri´et´e est a pour etiquette qui a pour domaineToken et pour codomaineEtiquette.

Il est donc inutile maintenant de garder les propriétés de la première modélisation.

Formalisme : Un Token a pour etiquette 1 ou plusieurs Etiquette.

Fig. 5.3 – deuxi`eme approche de l’ontologie

Bilan

Cette modélisation est plus proche du sujet que la première. L’avantage principal de cette version est le gain de temps réalisé lors de la recherche d’un token.

Dans la première, nous devions le chercher parmi toutes les instances de toutes les classes. A chaque occurence trouvée, nous devions récupérer sa classe et par ses propriétés certaines instances auxquelles elle était liée. Maintenant, la recherche se fait uniquement parmi les instances de laclasse Token. Chacune d’entre elles étant relié à toutes les étiquettes possibles le caracté- risant par la propriétéa pour etiquette.

Cependant nous sommes confront´es aux probl`emes suivants :

(31)

– Comment faire la différence entre plusieurs groupes d’étiquettes ? En effet, un Token peut avoir plusieurs significations différentes.

Exemple : «/» est un{dossier AND sensible AND unix}OU {s´eparateur}.

Dans l’´etat actuel, nous obtenons{dossier AND sensible AND unix AND separateur}sans savoir comment les s´eparer.

– Comment g´erer le probl`eme des doublons ?

Si cr´eer le conceptToken a permis de ne garder qu’une occurence d’un mot recherch´e, les

étiquettes posent encore ce problème. Il y a par exemple l’instance de la classeOS windows et l’instance de Token windows, or il ne peut y avoir d’identifiant similaire. Un autre exemple : la notion sensible, se trouve aussi bien dans Dossier, Fichier, Commande que d’autres. Le problème est que si nous désirons supprimer par la suite la notion de sensibilité de notre ontologie, il faudrait supprimer toutes les instances utiliser pour représenter cette notion.

5.2.4 Mod´elisation avec des ´etiquettes composites

Cette 3e modélisation est la dernière à ce jour et donc celle que nous utilisons dans l’application.

Changement au niveau des classes

Pour pallier au problème de la différenciation entre groupes d’étiquettes, nous créons la classe EtiquetteComposite.

Cette dernière va servir de lien entre le token et chaque groupe d’étiquettes ce qui va permettre d’obtenir simplement les groupes d’étiquettes.

Un autre changement majeur est la création des classesNature etPropriété.

En effet un token est soit une Instruction, soit un Dossier, soit un Fichier... cela est sa nature premi`ere. La classeNature rassemble donc ces anciennes classes.

De plus celui-ci concerne un Langage ou un OS, et peut être sensible ou pas, executable...La classe Propriété rassemble ces termes et les regroupe.

Propriété se retrouve aussi surclasse de OS,Langage et Serveur. Elle a pour instance les pro- priétéssensible,executable,multimedia.

Changement au niveau des propri´et´es

De part la création de la classe EtiquetteComposite rempla¸cant la classe Etiquette, il faut donc aussi remplacer la propriété a pour etiquette par :

– a pour etiquette composite : qui lie une instance deToken `a une ou plusieurs instances de EtiquetteComposite faire le d´etail : fonctionnel, relationnel...

– est composee : qui lie une instance de EtiquetteComposite avec au moins 1 Etiquette, la sous-classeNature.

En ce qui concerne problème sur les doublons, nous avons créé une «datatype property» qui lie une chaˆıne de caractères aux instances de la classeToken par la propriétéTokenValue. Ainsi le token sera cherché parmis ces chaˆınes de caractères. Elles ne poseront aucun problème avec les identifiants nécessaires à la création de l’ontologie .

Formalisme : Un Token a pour etiquetteComposite au moins une EtiquetteComposite.

UneEtiquetteComposite est compos´ee de au moins une Etiquette.

(32)

Fig. 5.4 – troisi`eme approche de l’ontologie

(33)

5.3 Analyseur

Lors de l’arrivée d’une url sur le serveur, celle-ci est une simple chaˆıne de caractères i.e une structure contenant peu d’informations. Le but de l’analyseur est de la transformer en une structure enrichie. Dans notre cas nous utiliserons un arbre. L’analyseur se compose de trois parties complémentaires :

– Analyseur : d´ecoupage en jetons de l’url.

– Post-traitement : segmentation de chaque jeton en fonction des s´eparateurs fournis par l’ontologie.

– Etiqueteur : association d’une étiquette à chaque sous-mot composant l’url et généralisa- tion de l’url.

Dans le but d’avoir une vision globale de cette composante du programme voici un diagramme de s´equence repr´esentant ses trois parties avec leurs interactions.

Fig. 5.5 – Diagramme de s´equence de l’analyseur

(34)

CHAPITRE 5. NOTRE CONTRIBUTION 5.3.1 Analyseur

Dans cette partie l’analyseur va prendre en entrée une l’url sous forme d’une chaˆıne de caractères et construire l’abre syntaxique de cette url selon la grammaire de l’url definie dans le rfc 1738. Ce qui suit est une description de style BNF de la syntaxe d’une url HTTP. Le caractère

’|’ sert à désigner les alternatives, et les crochets [ ] entourent les éléments facultatifs ou répétés.

Les éléments sont représentés par un caratère ou un intervalle (a-z), les éléments facultatifs sont eux entre [crochets], et des éléments peuvent être précédés de <n>* pour désigner n ou plus répétitions de l’élément suivant (par défaut n à pour valeur 0).

httpurl = http :// hostport [ / hpath [ ? search ]]

hpath = hsegment [ / hsegment ]*

hsegment = [ uchar|;|:|@|&|= ]*

search = [ uchar|;|:|@|&|= ]*

escape = % hex hex hex = digit|A-F |a-f lowalpha = a-z

hialpha = A-Z

digit = 0-9

safe = $|- | |.|+ extra = !|* |’|( |)|,

Remarque : Etant donné que notre application se situe sur un serveur, nous nous intéressons uniquement à cette partie de l’url : [ / hpath [ ? search ]] , car tout ce qui la précède correspond

`

a l’adresse du serveur.

(35)

Voici un exemple d’arbre syntaxique engendré par la grammaire précédente :

Fig.5.6 – Arbre syntaxique

Comme on peut le voir, cet arbre se décompose en 2 parties : hpath et hsegment, avec pour chacune d’elles leurs feuilles associées. Les feuilles de cet arbre représentent chaque partie de l’url. L’étape suivante consiste à découper chacune de ces feuilles selon les séparateurs contenus dans l’ontologie.

5.3.2 Post-traitement

Dans un premier temps il va y avoir un décodage de chaque feuille. Dans notre exemple, seule la feuille du search«4e=%27%3B+++++drop+++table++admin»nécessite un décodage.

Voici le résultat après ce décodage :«4e=’ ; drop table admin».

Ensuite la fonction post-traitement va récupérer dans l’ontologie tout ce qui est classé comme séparateur et va effectuer une segmentation de chaque feuille selon ces séparateurs. Si par exemple l’ontologie renvoie les séparateurs suivants : ( ” . space < > ( ) ’ ; = : @), l’arbre précédent va ˆ

etre transform´e de la fa¸con suivante :

Fig. 5.7 – Arbre syntaxique segmenté et décodé

(36)

Comme on peut le voir, chaque feuille composée de séparateurs a été segmentée, ainsi la feuille «rpdpMrcW3@EO.jpg»a été segmentée en «rpdpMrcW3 - @ - EO - . - jpg».

Remarque : La segmentation de chaque feuille est dépendante des séparateurs contenus dans l’ontologie. En effet, si l’ontologie ne contient aucun séparateur alors cette étape n’effectura aucune modification par rapport à l’étape précédente.

5.3.3 Etiqueteur

Cette étape se décompose en deux parties, la premiére consiste à prendre chaque feuille de l’arbre et pour chacune d’elles leur affecter une étiquette issue de l’ontologie. Voici le déroulement de cette étape :

– l’analyseur va passer à l’ontologie chaque élément de chaque feuille, sous forme d’une chaˆıne de caractères

– l’ontologie va chercher si elle connaˆıt cette chaˆıne de caractères et retourner son ou ses résultats à l’analyseur

– l’analyseur va affecter à chaque partie de chaque feuille l’étiquette retournée par l’ontologie Exemple d’étiquetage :

eAtmenn : string

itL : string

iperloOMGFx : string

. : dot, s´eparateur

O : string

R : string

rpdpMrcW3 : string

@ : arrobas, s´eparateur

EO : string

jpg : jpg, extension multimedia

4e : string

= : eq, s´eparateur

’ : quote, s´eparateur

; : semicolon, s´eparateur drop : instruction sql sensible

«space» : space, s´eparateur table : instruction sql

«space» : space, s´eparateur

admin : string

Cet exemple nous montre l’association de chaque partie de l’url avec son étiquette issue de l’ontologie. Si une entité n’est pas présente dans l’ontologie par défaut, son étiquette sera«string». Une fois cette opération terminée chaque composante de l’url aura une ou plusieurs étiquettes associées. La partie suivante va permettre de faire un tri parmi elles, ce qui a pour but une généralisation de l’url.

(37)

Cette partie de l’étiquetage consiste à sélectionner uniquement les concepts qui permettent cette généralisation. Pour cela nous utilisons l’algorithme de Cocke Younger Kasami (CYK) qui permet de déterminer si un mot appartient à un langage hors contexte et fournir toutes les structures syntaxiques de ce mot.

Voici l’algorithme de CYK :

Routine CYK( grammaire G = (V,N,S,P) et phrase a₁..a_n) :entr´ee reconnue D´ebut

Pour j variantDe 1 `a n Faire M1,j ←{ A | A → aj ∈ P } FinPour

Pour l variantDe 2 `a n Faire

Pour j variantDe 1 `a n−l+ 1 Faire M_l,j ← ∅

Pour i variantDe 1 `a l−1 Faire i⁰ ← l−1

j⁰ ← j+i

Ml,j ← Ml,j ∪ { A | A → BC ∈ P, B ∈ Mi,j, C ∈ M_i⁰_,j⁰ } FinPour

FinPour FinPour

Retourner S ∈ M_1,n Fin

Algorithme de CYK

Principe de l’algoritme de CYK

Cet algorithme construit les découpages possibles en«remontant», c’est-à-dire en calculant les découpages de longueur 1, 2...n si n est la longueur de l’entrée w = a1. Ces découpages sont calculés dans une matrice triangulaire n×n (appelée également table de reconnaissance) dans laquelle l’élementM_i,j est l’ensemble des non-terminaux produisanta_j..aj+i−1. L’entrée est reconnue siMn,1 contient l’axiome S (symbole initial).

La grammaire utilisée par l’algorithme de CYK doit être en forme normale de Chomsky (CNF), c’est-à-dire n’avoir que des productions de la forme A → a ou A → BC (elle est donc sans productions vides, et elle ne produit pas de cycles).

Remarque : cet algorithme peut être adapté pour fonctionner sur une grammaire qui n’est pas en CNF. Cependant cela rend l’algorithme plus compliqué notamment par la possibilité d’avoir des règles générant des cycles.

Dans notre application la grammaire G = (V,N,S,P) se compose de la fa¸con suivante : – V : ensemble non vide de symboles terminaux, correspondent au jeton issu de l’url apr`es

segmentation.

– N : ensemble de symboles non-terminaux, correspondant aux etiquettes fournit par l’ontologie.

– S : symbole initial (concepte g´en´eralisant une url«requete ).

– P : ensemble de r`egles de productions. (d´ecrite ci-dessous)