"Système distribué de capteurs pots de miel: discrimination et analyse corrélative des processus d'attaques"

(1)

HAL Id: pastel-00001751

https://pastel.archives-ouvertes.fr/pastel-00001751

Submitted on 16 Nov 2010

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

discrimination et analyse corrélative des processus

d’attaques”

Fabien Pouget

To cite this version:

Fabien Pouget. ”Système distribué de capteurs pots de miel: discrimination et analyse corrélative des

processus d’attaques”. domain_other. Télécom ParisTech, 2006. Français. �pastel-00001751�

(2)

P

A

R

I

S

Thèse

présentée pour obtenir le grade de do teur

de l'E ole nationale supérieure

des télé ommuni ations

Spé ialité : Informatique et Réseaux

Fabien Pouget

Système Distribué de Capteurs Pots

de Miel:

Dis rimination et Analyse Corrélative

des Pro essus d'Attaques

soutenue le 23 01 2005 devant le jury omposé de

Pr. Ludovi ME Président

Pr. John M HUGH Rapporteurs

Dr. Hervé DEBAR

Pr. Pas al URIEN Examinateurs

Pr. Mar DACIER Dire teur de thèse

(3)

(4)

P

A

R

I

S

PhD thesis

E ole nationale supérieure des télé ommuni ations

Communi ations and Ele troni s department

Computer S ien e group

Fabien Pouget

Distributed System of Honeypot

Sen-sors:

Dis rimination and Correlative

Anal-ysis of Atta k Pro esses

Defense date: 01, 23 2005

Committee in harge:

Pr. Ludovi ME Chairman

Pr. John M HUGH Reporters

Dr. Hervé DEBAR

Pr. Pas al URIEN Examiners

Pr. Mar DACIER Advisor

(5)

(6)

(7)

(8)

Remer iements

L'aboutissementde travaux,que esoitdanslemondedubâtimentoudelare her he, n'est jamais l'oeuvre d'une seule et unique personne. C'est le résultat d'un ensemble favorable de fa teurs on omitants.

Il en va de même pour ette thèse, ee tuée à l'Institut Euré om, qui n'aurait jamais pu aboutir sans la ollaboration ave le Professeur Mar Da ier. Je lui dois bien plus qu'ilne seraitpossibled'é rireen une pagede remer iements. Ses onseils,son attention, sa uriosité et son impressionnante lu idité sont autant de fa teurs qui m'ont été très favorables,tantsurleplanprofessionnelquepersonnel. Jen'ai jamaiseuàregretter ette aventure a adémique, bien au ontraire. Un tout grand mer i!

Mer i également aux membres du jury de ette thèse qui ont pris soin de lire le do -ument et qui, par leurs onseils avisés, ont permis son aboutissement. Je remer ie tout parti ulièrementMonsieurJohnM Hugh, Professeuràl'UniversitéDalhousieauCanada, ainsi queMonsieurHervéDebar, travaillantausein du départementSé uritédes Servi es etdesRéseaux(SSR)de Fran eTélé omR&DàCaen,quionta epté dejuger e travail et d'en être les rapporteurs. Je tiens également à adresser mes remer iements à Mon-sieur Ludovi Mé,Professeurà Supele Rennes, etàMonsieurPas alUrien, Professeur à Télé om Paris(ENST), pour leur parti ipation aujury de ette thèse.

Je suis er en tout as du projet Leurré. om, et des diérents onta ts que elui- i m'a permis de réer. J'aieu leprivilège et l'honneur de toyer des personnes de grande valeur: mer iàHervéDebar pour sesdiérentssoutiensauprojet,mer iàGeorgeMohay etAndrewClark,dem'avoirfaitdé ouvrirlesri hessesaustraliennes,mer iàMohammed Kaani he, Vin entNi ometteetEri Alatapour touteslesdis ussionsque nousavons pu avoir à Toulouse, et un grand mer i à tous les partenaires du projet, qui ont, grâ e à leur onan e, permis de onstruire un tel outil. Je remer ie également toutes les personnes ayant ontribuéàmes travaux,sousformedepubli ationsoudedis ussions, et enparti ulierGuillaumeUrvoy-Keller,quiapassébeau oupdesontempsàmesupporter. Ses multiplesapparitions dans lebureau C022 ontensoleillé nombre de mes journées.

Parmi les fa teurs favorables, il faut aussi noter l'environnement d'Euré om, adre propi e abritant une multitudede personnes harmantes et ompétentes, sans oublier la vue plongeante sur la mer Méditerranée. Je tiens à saluer la sympathie du personnel

(9)

apparente) du servi e informatique, vis-à-vis de mes requêtes in essantes, mes ennuis et mes besoins. Patri k Petitmengin aura parti ulièrementsouert de ma présen e à Euré- om, et je lui suis re onnaissant de sa patien e et de son sérieux. Je remer ie également Gwenaelle le Stir, qui a eu l'amabilitéde se harger des nombreuses démar hes relatives à ette thèse.

A tous, amis, ollègues, mer i.

Il y a eux qui sont déjà partis, Anwar Alhamra, Laurent Bussard, Raphael Chand. Il y a eux qui restent et qui ont guidé ette n de thèse, Walid Bagga, Jérome Haerri, Matti Siekkinen et Melek Onen. Il y a enn eux qui ne sont pas dire tement en rela-tion ave Euré om et es travaux. Ils sont résidents de la Cte d'Azur, omme Karine et Stephan (quelles belles soirées Trivial Poursuite et Brainstorm!) et la petite famille Courtel: Gérard, Sophie et Chantal. D'autres sont un peu plus éloignés, mais je garde toujours pour euxune immenseestime: Laurent Perpète, Cedri Lo hon, Fran ois Pitie, Sebastian Hirs hler, Benoit Huet, Fran ois Ferrand, Ni olas Kiefer. Et à tous eux que j'oublie, pardonnez-moi. L'âge ommen e déjàà peser... :)

Et puis, j'adresse une dédi a e parti ulière à mes parents, à ma grand-mère et à ma soeur, pour m'avoiren permanen esoutenu, mêmesimes hoixn'ontjamaisété simples. Delamêmefaçon qu'un ar -en- iel,jeleur en aifaitvoirde toutesles ouleurs, maisleur soutienetleur onan eontété imperturbablestoutaulongde es annéesd'études. Sans oublier pour autant le reste de la famillequi s'est très agréablement élargie es dernières années.

EnnNoémie, toiquipartage mavie. Que dire que tune sa hes déjà? Cette thèse est àtoi,pourtoi,et ave toi... Jene pourrai pas nirnon plus ette pagede remer iements sans laisser une empreinte de mon humour,s'il n'est glorieux, du moins populaire. Don Noémie, voi i une phrase que je te soue: "Youare su h a honey!.... fromyour favorite honey buzzard."

(10)

Resumé

Il est di ilement on evable de onstruire les systèmes de sé urité sans avoir une bonne onnaissan epréalable des a tivitésmalveillantespouvantsurvenir dansleréseau,

ni une bonne ompréhension des pro essus d'attaques. Malheureusement, il apparaît

que e savoir n'est pas aisément disponible, ou du moins il reste ane dotique et souvent biaisé par des suppositions injustiées, des sour es d'information partialesou des bruits de ouloir.

Cette thèse a pour obje tif prin ipalde faire progresser l'a quisitionde e savoir sur lesa tivités malveillantes par une solideméthodologie.

Dans un premier temps, il onvient de travaillersur un ensemble intéressant de don-nées. Malheureusement, les données sont rarement publiques, ou alors, elles mélangent à la fois du tra normal dit de produ tion et du tra malveillant, omme par exemple les é hantillons fournis par la métrologie des réseaux. Dans ette situation, il est di- ile d'établir un distinguo entre les deux formes de tra ; e problème est au ÷ur des sou isdela ommunautédere her he travaillantsurladéte tiond'intrusions,et edepuis plusieursannées. Pour ontourner e i,nousavons déployéun réseaudistribuédesondes, aussi appelées pots de miel, à travers le monde. Lespotsde mielsont des ma hines sans a tivité parti ulière, e qui implique que toute onnexion les iblant est potentiellement malveillante. Ce réseau de sondes nous a don permis de apturer un volume important de données suspe tes sur plusieurs mois. Il est importantde noter que ette ar hite ture parti ulière nous fournit une surveillan e très lo ale de e genre de tra .

Dansle adrede ettethèse,nousprésentonsuneméthodologieappeléeHoRaSis(pour HoneypottRa analySis),qui apour butd'extraire automatiquementdes informations originaleset intéressantes àpartir de et ensemble remarquable de données. Elleest for-mée de deux étapesdistin tes: i) ladis riminationpuis ii) l'analyse orrélative du tra olle té. Plus pré isément, nous dis riminons d'abord les a tivités observées qui parta-gentune empreinte similairesur lessondes. Cette étape doit tenirégalement omptedes diverses inuen esduréseau. Lasolutionproposées'appuie surdes te hniquesde lassi- ation etde regroupement. Puis, dans une se onde phase,nous her hons à identier les pré édentes empreintes qui manifestent des ara téristiques ommunes. Ce i est ee tué surlesbasesd'unete hniquedegraphesetdere her he de liques. Demultiplesexemples illustrent lesintérêts respe tifsde es deux phases.

Plusqu'unete hnique,l'appro heHoRaSisquenousproposonstémoignedelari hesse des informationspouvantêtre ré upérées àpartir de ettevisionoriginale du tra mali- ieux de l'Internet. Ellemontre égalementlané essité d'une analyserigoureuse et ordon-née du tra pour parvenir à l'obtention de ette base de onnaissan es susmentionnée.

(11)

(12)

Abstra t

Se urity systems annot be e iently designed without i) a good preliminary under-standingofmali iousa tivitieswhi hmighto urinthewildandii)agood omprehension of atta k pro esses. Unfortunately,it seemsthat this knowledgeis eithernot available or remains ane dotal and often biased by un lear assumptions, partial informationsour es

and rumors.

The goal of this thesis is primarily to better understand the mali iousa tivities that o ur and to provide a methodology that would help to a quire this knowledge. It is ne essary in a rst step to work on a valuable dataset. However, publi data is not easilyavailable, orit frequently mixesprodu tionandmali ioustra ,likewithnetwork measurementdatasets. Inthiss enario,thedistin tionbetweenprodu tionandmali ious tra is a omplex problem that has o upied the Intrusion Dete tion ommunity for several years. Toaddressthis issue,we have deployed aworldwidedistributednetworkof sensors, also alledHoneypots. Honeypots are ma hinesthat are not publi lyadvertised. Hen e, any onne tion targeting su h a ma hine is potentially mali ious. This network of sensors has thus ontributed to apture ahuge amount of suspi ious data over several months. In addition, this parti ular sensor ar hite ture enables us to obtain a lo al monitoring of mali ioustra .

In the s ope of this thesis, we propose a framework, alled HoRaSis (for Honeypot tRa analySis), whi h aims at automati ally extra ting meaningful informationout of this remarkable dataset. It basi ally onsists in two major stages: i) the dis rimination andii)the orrelativeanalysisofthe olle tedtra . Morepre isely,werstdis riminate olle ted a tivities a ording tothe ngerprints they let onea hsensor. This stage must also onsiderthepotentialdisturban esintrodu edbythenetwork. Theproposedsolution relies ondedi ated lustering and lassi ation te hniques. We then identify allprevious ngerprintswhi hsharestrong ommon hara teristi s. This taskisperformedthanks to a graph-theory approa h, and, in parti ular, thanks to the sear h of maximal weighted liqueswithingraphs. Dierent hara teristi sbasedonourpreliminaryexperimentshave been onsidered. Several ases exemplifythe value of ombiningthese two stages.

Thanks to the proposed HoRaSis framework, we show that a rigorous and methodi- al analysis of honeypot tra learly helps to get a better understanding of mali ious a tivities.

(13)

(14)

Contents Remer iements 4 Résumé 7 Abstra t 8 Table of Content 10 Table of Figures 14 List of Tables 16 Notations 17 Synthèse en français 19 1 Introdu tion 1

2 Ba kground and Related Work 7

2.1 Ba kground . . . 7

2.1.1 Introdu tion . . . 7

2.1.2 MonitoringMalware A tivities . . . 8

2.1.3 The Purposes . . . 9

2.2 On the Capture of Relevant Tra . . . 10

2.2.1 Honeypots, Honeynets, Honeytokens . . . 10

2.2.2 Darknets, Teles opes, Bla kholes . . . 12

2.2.3 Logs Sharing . . . 17

2.2.4 Others . . . 18

2.3 On the Analysis of Tra . . . 20

2.3.1 Positioning . . . 20 2.3.2 Netow . . . 20 2.3.3 BillyGoat . . . 22 2.3.4 MonitoringConsoles . . . 24 2.3.5 VizualizationTe hniques . . . 24 2.3.6 Modeling . . . 25

(15)

2.3.8 Others . . . 26

2.4 Summary . . . 27

2.4.1 Observations fromthis State-of-the-Art . . . 27

2.4.2 First Con lusions . . . 28

3 The Information Generation 29 3.1 Introdu tion . . . 29

3.2 The Leurré. om Proje t . . . 30

3.2.1 The Obje tives . . . 30 3.2.2 Prin iples . . . 30 3.2.3 HoneypotSensors . . . 32 3.3 GlobalPi ture. . . 33 3.3.1 First Figures . . . 33 3.3.2 First Analyses . . . 34

3.3.3 On the Advantages of Lo al DistributedSensors . . . 36

3.3.4 First Dis ussions . . . 37

3.4 Observation Positioning . . . 38

3.4.1 Sensors Limitations . . . 38

3.4.2 About Non-Observable Mali ious A tivities. . . 39

3.5 DataStorage . . . 40 3.5.1 A Need . . . 40 3.5.2 Denitions . . . 40 3.5.3 ER diagram . . . 42 3.5.4 Web interfa e . . . 42 3.5.5 Colle tion Issues . . . 43 3.5.6 Con lusion. . . 44

4 Dis rimination Step: Fingerprinting A tivities 47 4.1 Introdu tion . . . 47

4.1.1 Need for Classi ation . . . 47

4.1.2 Con epts and Challenges . . . 48

4.2 Fingerprintsof A tivities . . . 49

4.2.1 Denitions . . . 49

4.2.2 Analyti al Eviden e. . . 50

4.2.3 Classi ationRequirements . . . 51

4.3 Clustering Algorithm . . . 52

4.3.1 HighLevelDes ription . . . 52

4.3.2 Network Disturban es . . . 53

4.3.3 Dis rete Parameters . . . 59

4.3.4 Supervised Intervals . . . 62

4.3.5 Validation: Unsupervised Classi ation . . . 68

4.3.6 Global Consisten y Index . . . 73

4.3.7 In rementalVersion of the Algorithm . . . 75

(16)

4.4.2 Atta kers vs. S anners . . . 78

4.4.3 Ports, Ports Sequen es and Clusters . . . 79

4.4.4 Interesting A tivityBehaviors . . . 80

4.4.5 Atta k ToolIdenti ation . . . 82

4.5 Mis lassied Tra and Renement . . . 84

4.6 PotentialEvasions Me hanisms . . . 86

4.6.1 PotentialS enarios . . . 86

4.6.2 The Witty Worm S enario . . . 87

4.7 Summary . . . 88

5 Correlative Analysis 91 5.1 PreliminaryStudies . . . 91

5.1.1 Introdu tion . . . 91

5.1.2 Case Study 1: Country CSpe ialties . . . 91

5.1.3 Case Study 2: Atta ks From Serbia-Montenegro . . . 92

5.1.4 Case Study 3: Apparent Temporal Relations . . . 93

5.1.5 Interesting Analyses . . . 94

5.2 The Theory . . . 95

5.2.1 Underlying Motivations. . . 95

5.2.2 BuildingSimilarity Matri es . . . 97

5.2.3 The Theory . . . 98

5.2.4 RelationDis overy: MaximalCliques using DominantSets . . . 98

5.3 BuildingSimilarity Matri es . . . 107

5.3.1 Chara teristi s Representations . . . 107

5.3.2 PotentialDistan es . . . 107

5.4 Similarity Matri es: Appli ations . . . 114

5.4.1 Introdu tion and Chosen Distan es . . . 114

5.4.2 Geographi alLo ation . . . 115

5.4.3 Targeted Environments . . . 116

5.4.4 Atta king OperatingSystems . . . 116

5.4.5 Name Resolutionand Regular Expressions . . . 117

5.4.6 Common IPs . . . 118

5.4.7 Time Series Analysis . . . 119

5.4.8 IP Proximities . . . 119

5.4.9 Summary . . . 120

5.5 Derived Properties . . . 121

5.5.1 MixingSimilarityMatri es . . . 121

5.5.2 AlgorithmLimitations . . . 122

5.5.3 Validation: RelationProje tion . . . 123

5.6 Con lusion . . . 124

6 Automated Knowledge Dis overy 127 6.1 PreliminaryResults . . . 127

(17)

6.1.3 Example 2: A_Env . . . 129

6.1.4 Example 3: A_Geo vs. A_Env . . . 130

6.1.5 Time Correlationbetween Fingerprints . . . 132

6.1.6 Che king Time Series Te hnique . . . 136

6.2 Knowledge Dis overy . . . 138

6.2.1 Surprising Results. . . 138

6.2.2 Case Study 1 . . . 138

6.2.3 Case Study 2 . . . 139

6.3 Dis ussion . . . 140

6.3.1 AbnormalCorrelation and PotentialImprovements . . . 140

6.3.2 On the Labeling of DominantSets . . . 141

6.3.3 On the Derivationof Observations . . . 141

6.3.4 Summary . . . 142

7 Con lusions and Perspe tives 145

Bibliography 151

A Entity Relationship Diagram 169

B Leurré. om Interfa es 171

C Reporting A tivities on the Leurré. om Proje t 173

(18)

List of Figures

1 Méthode d'analyse viaun réseaudistribué de pots de miel . . . 25

2 Des journaux T pdump àune base de donnée stru turée . . . 29

3 Exemple de he signalétiqueobtenue . . . 33

4 Exemple de he signalétiqueobtenue . . . 37

5 S héma de la méthode HoRaSis . . . 39

1.1 DistributedHoneypot SensorAnalysis . . . 6

2.1 Darknet Tra Garbage Meter from[87℄ . . . 16

2.2 Blaster's Infe tion Steps [93℄ . . . 21

2.3 Database Stru ture used inBillyGoat [118℄ . . . 23

3.1 Ar hite ture of a HoneypotSensor . . . 33

3.2 AverageNumberof Atta kingIPs perHoneypot Environment . . . 34

3.3 Distin t IP Sour es Observed perDay on ThreeSensors. . . 35

3.4 AverageNumberofBytes sentbyAtta kingIPsperPlatform(TCPpayload) 35 3.5 AverageNumberof Atta kingIPs perHour(lo altime) . . . 36

3.6 Dshield vs Leurré. om data: Dshield [14℄ . . . 37

3.7 Dshield vs Leurré. om data: Leurré. om data . . . 37

3.8 Cumulative LogSize Colle ted from the Sensors . . . 40

3.9 UML Diagram: Relationshipsbetween Denitions . . . 42

3.10 A Cubi Spline Interpolation of y=(sin(x)+ os(x)) 3 4 . . . 44

3.11 From DumpLogs toa Stru turedDatabase . . . 46

4.1 A Ports Sequen e Asso iated toan Observed A tivity . . . 51

4.2 Forward Reordering from[48℄ . . . 54

4.3 Honeypot-oriented Observations during Pa ketLosses orReordering . . . . 55

4.4 Classi ationPro ess of Out-of-Sequen ePa kets [57℄ . . . 56

4.5 Impa t of Loss and Retransmission . . . 57

4.6 CDF: # Re eived Pa kets perVirtual Ma hine . . . 60

4.7 Distributionof Sizes among Clusters . . . 62

4.8 Distributionof the Duration Values overall Large_Sessions . . . 63

4.9 Examples of DurationDistribution amongTwo Clusters . . . 64

4.10 Peak Terminologyof a Given Distribution . . . 65

4.11 ModalProperty of AttributeD: Weightof First 5 Peaks . . . 66

(19)

4.14 SimpleAppli ationof the Levenshtein Distan e . . . 70

4.15 Pyramid: Levenshtein-Based Distan e Splitting . . . 72

4.16 Splitting: ClusterConsisten y . . . 72

4.17 GlobalConsisten y Ladder . . . 74

4.18 Pyramid: In remental Hierar hy Approa h . . . 77

4.19 Larges_Sessions Targeting Allvs. One Virtual Ma hines from Feb.2003 . . 79

4.20 Deloder A tivity (Nb asso iated atta k sour es) . . . 81

4.21 AnExample of the Atta k Phrase Generalization . . . 83

4.22 Example of aCluster Signature . . . 83

4.23 Observation of HPSIM A tivities . . . 85

5.1 Atta king Countries Observed on SensorsC and F. . . 92

5.2 Atta ks from YU Observed onEa h HoneypotSensor per Month. . . 93

5.3 Examples of TimeCorrelation between Clusters . . . 94

5.4 Observed A tivities on some Targeted Ports . . . 95

5.5 SimpleExamples of Cliques . . . 99

5.6 RemovingEdges vs. RemovingNodes . . . 102

5.7 Dominant Set Extra tion: A SimpleExample . . . 106

5.8 Peak Pi kingDistan e between Distributions . . . 109

5.9 Peak Pi king: Con ept and Example . . . 110

5.10 Time SeriesAnalysis: SAX-Based Steps . . . 112

5.11 Appli ationof the SAX Steps ona Time Series . . . 112

5.12 Example of aLookup Table for anAlphabetof Cardinality 4 . . . 113

5.13 IP_DistComputation and Distan e Distribution . . . 120

5.14 Mixing3 Similarity Matri es: an Example . . . 121

5.15 Proje tion on Honeypot Environments . . . 124

6.1 SAX and CompressionRatios . . . 137

6.2 Labeled Clusters . . . 141

6.3 New Cluster Signature . . . 143

A.1 DataStorage: DatabaseAr hite ture . . . 170

B.1 Publi Interfa e www.leurre om.org . . . 171

B.2 Partner DB Interfa e: GUI . . . 172

C.1 Partner Reports from the Leurré. om Interfa e . . . 173

(20)

List of Tables

1 Lesétapesde haque analyse orrélative . . . 36

2 Lesétapesde haque analyse orrélative: un exemple . . . 36

3 Matri esd'analyses utilisées dans ette thèse . . . 36

2.1 Some Relevant NetFlowFields(v5) . . . 20

3.1 Level Intera tion and Honeypots. . . 31

4.1 Classi ationin fun tionof some dis rete values . . . 62

4.2 Toleran e indexes i . . . 67

4.3 Classi ationwith Supervised Intervals . . . 68

4.4 Classi ationwith Supervised Intervals . . . 76

4.5 Ports vs Clusters: dierent informationlevels . . . 80

5.1 Countries onsidered in the distribution (% TotalSour es) . . . 125

5.2 Considered Operating Systems used tobuild A_OSs . . . 126

5.3 HostnamesClassi ation basedon Regular-Expressions . . . 126

5.4 AnalysisMatri es used inthis thesis . . . 126

6.1 Cliques obtained fromMatrix A_Geo. . . 130

6.2 Cliques obtained fromMatrix A_Env . . . 130

6.3 Clique Interse tion from A_Env and A_Geo . . . 131

6.4 Clusters from A_Env ID 2and A_Geo ID3 . . . 131

6.5 Cliques obtained fromMatrix A_SAX . . . 132

6.6 Some liques obtained fromMatrix A_SAX . . . 133

6.7 Interse tion btw A_SAX and other matri es . . . 134

(21)

(22)

A ronyms

Wegroup inthis se tionmost of the a ronyms ornotations whi h have been used in the dierent hapters of this thesis.

CER T Computer Emergen y Response Team

CR Compression Ratio (SAXmethod)

CSIR T Computer Se urity In identResponse Team

DNS Domain Name System

DFT Dis rete Fourier Transform

DoS Denial ofServi e

DS DominantSet

DWT Dis rete Wavelet Transform

FHP Fren hHoneynet Proje t

FIR ST Forum of In ident Response and Se urity Teams

GCI Global Consisten y Index

HoR aSis Honeypot Tra Analysisframework

ICMP InternetControlMessage Proto ol

IDS IntrusionDete tion System

IGR Information Gain Ratio

IP InternetProto ol

IPID IP Identier

IPS IntrusionPrevention System

IR C InternetRelay Chat

ISAC Information Sharingand Analysis Center

NAT Network Address Translation

PAA Pie ewise Aggregate Approximation

R CA Root-Cause Analysis

SAX Symboli AggregateApproximation

SR SplittingRatio

TLD Top-Level Domain

TCP Transmission ControlProto ol

(23)

(24)

Synthèse en français

Introdu tion

La sé urité est le sou i d'un grand nombre de domaines d'a tivité. Internet a la parti -ularité de onne ter les gens de façonplus ou moins anonyme, et sans grand ontrle du tra . Cet atout, qui fait le su ès de la toile, présente aussi des in onvénients majeurs : des a tivités malveillantes peuvent prendre aisémentune grande amplitude etproduire des atastrophes. Avaleurillustrative,l'équipeaméri ainedeStanifordmontredans[215℄ qu'il est possible, en théorie, pour un ver, de saturer un millionde ma hines vulnérables en l'espa e de 510 milli-se ondes. Dans la même idée, il faut noter la re rudes en e des fraudes éle troniques,quipeuventse hirer à plusieursmillionsde dollars paran. Inter-netfa ilitelebanditismeetles rimesàgrandeé helle. Ilsemblealorstrèsimportant,si e n'estvital,d'a quérirdesolides onnaissan es surlesmena es etlesstratégiesd'attaques. Uneméthode pourobtenir e savoirrésidedans l'observationetl'analyseàgrandeé helle d'a tivitésmalveillantes.

Plusieurste hniquesexistenta tuellement,dont ertaines appartiennentàla atégorie nommée pot de miel (ou honeypot en anglais). Ce terme est ré ent, quand bien même le on ept existe depuis de nombreuses années. Dans les années 1980, Cliord Stoll a eu l'idée de pla er des données en apparen e ondentielles an de tromper et mettre en éviden e les voleurs. L'idée a été reprise sous le terme anglais honeytoken par Lan e Spitzner dans [214℄. Ce dernier a proposé dans e même ouvrage la dénition suivante d'un pot de miel :

Un pot de miel est une partie ou l'ensemble d'un système d'information dont la valeur ajoutée est d'être ompromise ouutilisée de manière illi ite.

Nous garderons ette dénition tout aulong de lathèse.

Le grand avantage de es pots de miel réside dans leur apa ité à olle ter du tra suspe t uniquement. Depuis plusieurs années, es tra es parti ulières se mélangeaient ave elles dites de produ tion, e qui n'aidaitpas lespersonnes en harge de la sé urité à déterminer les a tivités malveillantes. Ce problème est maintenant révolu grâ e aux pots de miel. Ces trois dernières années, un eort ertain a été ee tué par diverses ommunautés pour onstruire des ar hite tures pots de miel sûres et utiles, i.e. des systèmes apables deré upérerde l'information,allantde simplespaquetsde balayage de portsàune ommuni ationIRC omplète,sans mettreendangerleréseauhébergeur. Les

(25)

utilisées, présentant un intérêt aussi bien pour les grands groupes antivirus que pour les organisationsinternationalesetgouvernementales, telles lesCSIRTs, l'ENISA (European Network and Information Se urity Agen y ou les entres d'analyse ISAC (Information Sharingand Analysis Center).

Malheureusement, nous onstatons que très peu d'eorts sont faits pour partager les informations olle téesaumoyendes potsde miel. A ontrario,desdonnées publiques ex-istent,grâ eàdesinitiatives ommeDhshield,MyNetWat hmanouleComputerNetwork DefenseOperationalPi ture[34℄. CesprojetsprésententsurdespagesInternetattra tives des statistiques, mais la sour e de es informations n'est pas toujours laire. Ils invitent toutun ha unàenvoyerlesar hivesdepare-feuxoudesystèmesdedéte tiond'intrusions (IDS) pour extrairedes valeurs statistiquesrelativementsimples. L'informationest ainsi limitée ( omptagepar port), etles hires intègrentle biais liéau tra de produ tion.

En résumé, les pots de miel sont une sour e d'information de grande valeur. Cepen-dant, omme il a était brièvement mentionné i-dessus, le plus gros eort est fait pour optimiserleurar hite ture,etpeud'initiativesontémergépourorganiser ettirertous les béné es de la ri hesse des données qu'ils fournissent.

En parallèle, les solutions d'analyse existantes se limitent fréquemment à résoudre un problème en parti ulier. Il peut s'agir de te hniques pour surveiller les attaques par déni de servi e, les balayages de ports, ou ertains s énarios d'attaques bien pré is. La plupartde l'existanta d'ailleursété développépar les personnes de la ommunautéde la Déte tion d'Intrusion. Cependant, l'appro he est sensiblement diérente ave les pots de miel, omme tout le tra apturé reste par dénition suspe t. Les faux-positifs ne sont don pluslesou i prin ipal, omme ela est en orele as pour lamajoritédes te hniques de déte tion d'intrusions. Ce i nous amèneà établirle onstat suivant :

Constat : Les pots de miel sont largement déployés, et ils sont te hniquement ma-tures. Leste hniquesd'analyse,en revan he, sontmaladaptéespourproterde laqualité de l'informationoerte.

Sur labase de e onstat, nousavonsdé idéde onstruirenotrepropreenvironnement de type pot de miel, dans le but de olle ter d'indispensables données ; la motivation premièreétantde travaillersur desdonnées de tra malveillanta essibles etutiles pour l'analyse. Ce i a été fait dans le adre d'un projet nomméLeurré. om, qui regroupe des partenaires de nombreux pays. Grâ e à ette ommunauté, nous avons réussi à olle ter un volume de données onsidérable à partir de plusieurs environnements pots de miel. Il est important de omprendre que et ensemble de données est unique, et qu'il est a essiblepour haque partenaire. Nousne onnaissons pasd'équivalentpour lemoment. L'hypothèse de notre problème est don lasuivante :

Hypothèse : Noustravaillonssurunensemblededonnéesunique, onstituéd'a tivités malveillantes observées dans diérentsendroits du globeet dans des réseaux très divers.

(26)

d'analyse de tra : il existe les outils traditionnels omme netow ([75℄) ou t pdump ([17℄), oudes méthodes théoriques plus omplexes. En revan he, au une n'est spé ique au type de données fournies par les pots de miel. Plus important en ore, rien de très onstru tif n'a été proposé, jusqu'à présent, pour é hanger aisément de l'information à partir de es analyses. Il est légitimeà e stade de se demander si e nouvelensemble de données apporte de l'informationnouvelleet originale. Silaréponse devaitêtre positive, serait-il possible de l'extraire automatiquement? Pour simplier,nous her hons don à savoirs'il existe une méthode pour faire ela. Sielleexiste, nous lanommerons HoRaSis (pourHoneypottRa analySis), ommeétantunebase pourl'analysedetra despots de miel. La thèse présentée dans e do ument serésume ainsi :

Positionnement de la thèse : Nous voulonsmontrer dans ette thèse que

1. un réseaudistribuéde simplessondespotsdemielfournitdes données intéressantes pour l'analyse et la ompréhension des mena es etstratégies d'attaques.

2. ilexisteuneméthode automatiquepourextrairedel'informationintéressanteà par-tirde esdonnées. Celle- iseranomméeHoRaSis(pourHoneypottRa analySis).

Les pots de miel permettent de re ueillir des données très singulières, qui peuvent né essiter une te hnique d'analyse dédiée. Cette remarque sera plus amplement justi-ée dans les premiers hapitres de e do ument, par les expérimentations préliminaires prometteusesdesdonnées. Apartirdenotresavoir-faire onstruitauldesdonnées,ilest apparu ommevital de réer une méthode (appelée Honeypot Tra Analysis ou HoRa-Sis) an de rendre mé anique l'extra tion d'information à partirdes données olle tées.

L'analyse de tra es issues des pots de miel est à la jon tion de plusieurs espa es de re her he, et la méthode HoRaSis que nous her hons ne peut prétendre les sur lasser tous. Par voie de onséquen e, la méthode doit être ouverte à de futures améliorations, en orantune stru ture modulaire. De manièreplus générale, nous listons i-dessous les ritères quela méthode HoRaSis doit préserver :

Validité : Un ensemble d'analyses a été ee tué de façon empirique, en tirantpeu à peu le l d'Ariane. Cette tâ he, bien que peu e a e, a fourni des résultats préliminairesprometteurs. Laméthodeautomatiquequenous her honsnedoitpas ontredire es expérien es, et a ontrario devrait enri hir les observations, omme le ritère suivant indique.

Dé ouverte d'information : La méthode HoRaSis doit être une nouvelle sour e de onnaissan es.

Modularité : La méthode HoRaSis se trouve à la roisée de plusieurs domaines de re her he. Nouspouvons d'oreset déjà iter eux des Réseaux, de laSé urité et de l'Analyse de Données. Il existe aussi une multitudede sous-domaines, prenant di-versesdire tionsthéoriquesette hniques. Denouveauxapparaissentrégulièrement, et il est apital que la méthode présente une stru ture modulaire an de pouvoir

(27)

Généralisation: Lesdonnées olle téespeuvent hangerdemanièredrastiqueselon l'apparition de nouvelles a tivités etde nouveaux pro édés d'attaque. La méthode HoRaSis doit don être susamment indépendante des données, oudu moins, être adaptable àdes ensembles de données aux ara téristiquestrès diérentes.

Simpli ité : La méthode HoRaSis doit extraire de l'informationà partir d'un en-semblededonnées (dansnotre as,fourniparleprojetLeurré. om). Ledestinataire de ette informationest l'analyste; e dernier doit omprendre le heminement qui a onduità l'extra tion de es nouvelles onnaissan es. La méthode ne doit pas se présenter ommeune boîte noireaux résultats obs urs.

Nousprouvons dans e rapportqu'unetelle méthode existe,etqu'elle nouspermetde trouverdes résultatsprometteurssur lesa tivitésmalveillantes observables. HoRaSis est un moyen automatique de valider (ou de rejeter)nombre de suppositions.

Les ontributions de ette thèse sont :

Le déploiement et administrationd'un système distribué de potsde mielpour ol-le ter des données.

La on eption d'une méthode appelée HoRaSis pour analyser lesdonnées.

La réationde nouvelles te hniquespourtirerprotdespropriétésdedonnéesissues de potsde miel.

Lavalidationde la méthode HoRaSis grâ e aux analyses préliminairesee tuées.

L'améliorationde la ompréhension des a tivités observées. Certaines de es a tiv-ités ontpu être lairement identiées, lesautressontde nouvelles questionsoertes à la ommunautéSé urité.

Ainsi,la thèse peut se résumer au s héma suivant:

HYPOTHÈSES : Unear hite ture de potsde mieldéployée pour olle terdes don-nées.

DONNÉESINITIALES:Ungrandvolumedetra esréseaux, ha uneétant malveil-lante, ou du moins suspe te.

PROBLÈME : Est- eune nouvellesour e d'informationd'intérêt ? Sitelest le as, omment bâtirune solide méthode analytique à partir e elle- i?

D'une manière on rète,HoRaSis estuneméthodearti uléeautourdequelquesétapes majeures, quisontsymboliséessur lagure1. Lesétapes1et2 on ernentledéploiement et la olle te de données à partir de pots de miel. Ce travail a été rendu possible par l'intermédiaire du projet a adémique appelé Leurré. om. An de fa iliterla ompréhen-siond'HoRaSis etdesproblématiquesexistantes,nousdé rivons e projetdansle hapitre

(28)

étapes 3 et 4 dans les hapitres respe tifs 4 et 5. L'étape 3 onsiste à grouper les a tiv-ités présentant des ara téristiquesidentiques, ou, en d'autres termes, toutesles adresses IPs ayant laissé une empreinte équivalente sur les diérentes sondes pots de miel. Dans l'étape4,nousanalysonslesrelationsémergentesquipeuventapparaîtresuiteà epremier groupement. Toutes les empreintes observées sur les sondes pots de miel qui partagent de mêmes singularités sont déte tées puis analysées. Le hapitre 6 dé rit l'information obtenue suite àl'appli ationd'HoRaSis, elle- i étant alors exploitableetpartageable au sein de la ommunauté Sé urité. Chaque hapitre reprend des résultatsobtenus àpartir de l'ensemblede données Leurré. om.

Les étapes de la méthode HoRaSis se trouvent sur la gure 1, ainsi que le numéro des hapitres orrespondants. Elles sont brièvement résumées dans les paragraphes qui suivent en français.

Chapitre 3

SONDES HONEYPOTS

CAPTURE & STOCKAGE

Chapitre 4

EMPREINTES ACTIVITES

ANALYSE GRAPHES

Chapitre 5

Chapitre 6

CONCLUSIONS

Figure1: Méthode d'analysevia un réseau distribuéde potsde miel

Motivations et terminologie d'usage

Introdu tion de et état de l'art

La ompréhension des a tivitésmalveillantesest un pré requis àl'élaborationd'une te h-niquedéfensivee a e. Paranalogie, onstruireun murneprotègerapas d'uneagression aérienne. Ainsi, onnaître la mena e ne peut être un fa teur à ignorer, parti ulièrement quand les vendeurs sont friands de te hnologies agui hantes, mais qui peuvent s'avérer inutiles, outout simplement inadaptées.

HoRaSis est la méthode que nous her hons pour analyser des données issues des potsde miel, an de béné ier de leurspropriétés intrinsèques. Denombreux projetsont ré emmentémergépour apturer destra esmalveillantes. Enparallèle,une multitudede solutionsprovenantde divers axesde re her he sontapparues pour ee tuerdes analyses sur des données an d'en identier des a tivités anormales. Pour es raisons, et pour garderune ertaine lartédansl'étatdel'art,nous hoisissonsde distinguerde atégories, dis utées par la suite :

(29)

malveil- Les te hniques dont la nalité est d'extraire de l'information à partir d'un tra donné.

Capturer des tra es originales

Il existe plusieurs projets ré ents qui ont pour nalité de bâtir des environnements de apture e a es, souvent dans l'idée de apturer de nouvelles a tivités malveillantes (les a tivités malveillantes qui n'ont pas en ore été observées sont appelées 0-jour). Nous détaillonsen parti ulier dans le do ument original:

Les outils en logi iel libre asso iés aux termes anglais honeypots, honeynet, honey-tokens.

Letéles ope réseau(ou Network Teles ope développé par CAIDA (Cooperative As-so iation for Internet Data Analysis), qui onsiste à l'observation au niveau d'un équipementréseaud'unetrès largeplage(préxe /8par exemple)d'adresses IPnon utilisées(ou très peu utilisées).

Leprojet Darknet de Team Cymru, pro he dans l'espritdu projet pré édent. Leur siteorequelquesgraphesreprésentantuneestimationquantitativedubruitdefond (ou ba kground radiation observé.

iSinkde l'université de Wis onsin-Madison, qui était d'avantage un outil d'analyse de performan e réseau àl'origine.

IMS (ou Internet Motion Sensor proposé par l'Université Mi higan, qui propose l'utilisationdesondes. L'information,par ontre, estextraitede haque sonde,sans analyse orrélative entre les informationstrouvées.

MINOS de l'université UC Davis, dont le prin ipe fondamental est de marquer le tra suspe t an de pouvoirle suivre plus aisément.

Lobster (an iennement SCAMPI), projet européen her hant à fa iliter la surveil-lan e des réseaux auniveau matériel.

Mw olle t,outiltrès ré ent,ayantfusionnéave un autreprojetnomméNepenthes, dont l'obje tif onsiste à apturer des a tivités malveillantes her hant à exploiter des vulnérabilités bien pré ises (DCOM, Lo alSe urity Authority Servi e LSASS, NetBIOS, SQL Server, et ).

Le partage d'ar hivage, proposé par de nombreux sites, tels WormRadar, Internet Storm Center de l'Institut SANS, Dshield, MyNetWat hman, et . Les résultats se basent malheureusementsur des données in ertaines à lasour e.

Te hniques d'analyse

(30)

NetFlow, le format d'agrégation en ux utilisé dans des appareilsde type routeurs pourlimiterlevolumede donnéessto ké. Quelquesanalysess'appuientsur es ux, bien qu'ils présentent des limitations : un ux NetFlow n'a pas d'équivalent lair auniveau proto olaire (TCP), etse limiteà un ensemblerestri tif de hamps.

Leprojet BillyGoat proposé par Dupon heletal. d'IBM,oùun eortest faitpour ar hiverlesdonnées olle téesde manièrepratique. L'extra tiond'informationreste ependant limitéà e stade.

honeyStat,ainsiqued'autreste hniquesissuesdumondedeladéte tiond'intrusion (projet Collapsar de l'université de Purdue). Ces te hniques se résument souvent à une innovation théorique testée dans des onditions parti ulières. L'information extraite reste don d'autant limitée, même si es te hniques peuvent s'appliquer dans des analyses bien pré ises.

Les onsolesdesurveillan esontnombreuses etvariées. Uneanalysequenousavons faite montre l'étendue des solutions existantes. Nous sommes malheureusement arrivés à la on lusion que la plupart se limitent à des te hniques pragmatiques simples, omme des expressions régulières ou des requêtes SQL dans une base de données à lastru ture assez standard.

La modélisation est un sujet a tif de re her he. Le manque de données librement utilisableempê henéanmoinslavalidationdesmodèlesproposés. Ceux- iselimitent par ailleurs àquelques stratégies de propagation de vers onnusa priori.

Con lusions on ernant l'état de l'art

Certaineste hniquesde apture etd'analysessontprometteuses. Cependant,ellesrestent loisonnées ets'adaptent malau ontexte des potsde miel. Ainsi,les nouvelles solutions

pour apturer du tra via un pot de miel ne béné ient pas vraiment de méthodes

d'analyse propres et e a es. C'est i i la ontribution de ette thèse, qui onstitue à apporter un élément de réponse à e problème.

Projet Leurré. om

Brève introdu tion au projet

Auseindel'InstitutEuré om(www.eure om.fr),nousavonsutilisélate hnologiedespots demieland'arriveràunemeilleure ompréhensiondespro essusd'attaques. Nousavons implémentéune plateformede test qui aété ensuiteinstallée dansun réseau omprenant a tuellement une quarantaine de partenaires provenant des inq ontinents. Les données olle tées depuis deux ans sont enri hies puis étudiées au moyen de te hniques diverses et variées, qui sont détaillées dans les trois derniers hapitres du do ument (analyse en séries temporelles,te hniques de regroupement,règles asso iatives, graphes).

(31)

ma hines diérentes (Windows NT Server, WIndows 98 et Linux Red Hat 7.3), ave les ports de l'installation par défaut ouverts, ainsi que quelques s ripts orrespondant à des servi es hoisis (serveurs ftp et web par exemple). Une omparaison des données olle téesestparailleursmaintenueave unsystèmeplus omplexe(i.e. desservi esréels, nonémulés) orrespondant àune ongurationéquivalente. Celle- iapourbutde vérier qu'au un biais n'est introduit par l'utilisation de e système à faible intera tion. Il est importantde omprendre leslimitationsde la apture avant une quel onque analyse.

Leurré. om est un projet ouvert à tout partenaire urieux etdésireux de mieux om-prendre l'a tivité malveillante iblant ses ressour es. Il lui sut pour ela d'installer une plateforme pot de miel dé rite i-dessus à l'extérieur de son réseau. L'installation et la maintenan e sont totalement prises en harge par Euré om et ne né essitent pas d'investissement parti ulier : un simple ordinateur et quatre adresses IP routables (une pour lama hined'a ueil,ettroispourlesma hinesémuléesparlepotde miel)sont su-isantspour sa miseen pla e. En ontrepartie, Euré omore l'a èsàl'analyse des infor-mations olle téesetétudiées parlegroupedere her he surlesattaquesde laplateforme partenaire. Nous proposons une interfa e intégrant des résultats simpliés répondant à desrequêtesfréquentes, ouun a èsdire tauxdonnées parlemoyen d'unebaseintégrant diérents degrés d'information. Un rapport d'a tivité personnalisé de la plateforme est égalementémis sur demande pour haque partenaire.

Ar hivage des données

Nous ré upérons haque jour les tra es réseau (format t pdump) sur les plateformes, orrespondant au tra é hangé entre les ma hines virtuelles et d'autres ma hines de l'Internet. Elle ontient a tuellement des données à partir de février 2003, et le nombre de partenairesne esse de roître. Pour sto kerun sigros volumede données, nous avons onstruit la base de données dans l'idée de pouvoir :

her her tout type d'information rapidement, que e soit de l'informationgénérale oupointue ( hampsproto olaires).

ajouter rapidement une nouvellesour e d'analyse,en relationave lesinformations déjàsto kées.

.

Sans rentrer danslesdétails de l'ar hite ture,nous avons dé idéde labâtir autourde quatre dénitions, dé rites i-dessous :

Sour e : Une Sour e orrespond à une adresse IP observée sur une ou plusieurs

plateformes,etpourlaquelleletempsd'arrivée entre deux paquets onsé utifs reçusreste inférieuràun ertainseuil (25heures). La diéren edetemps se al uleen onvertissant toutes lesdates au format GMT.

Global_Session: UneGlobal_Sessionestl'ensembledepaquetsquiontétéé hangés entre une Sour eet toutesles plateformespots de mieldu projet Leurré. om.

(32)

Tiny_Session : Une Tiny_Session est l'ensemble de paquets qui ont été é hangés entre uneSour eetunema hinevirtuelledonnée. Comme haque plateformepotde miel émuletroisma hinesvirtuelles,uneLarge_Sessionest omposéed'auplus3Tiny_Sessions.

Lesdonnées sontintroduitesdanslabase, maisnous appliquonségalementun ensem-bled'appli ationspourenri hir es donnéesprimaires. Parexemple,pour haque Sour e, nous voulons asso ier une position géographique, ou du moins un pays (Maxmind, Net-geo, IP2lo ation). De même, pour haque Global_Session, nous voulons déterminer (de manièrepassive)quelsystèmed'exploitationestutiliséparlaSour e(p0f,etter ap,dis o). Le pro essusglobal pour ar hiverl'ensembledes données est symbolisé par lagure 2.

INTERNET

INSTITUT EURECOM

EVENTS

TOOLS

SOURCES

GLOBAL SESSIONS

LARGE SESSIONS

TINY SESSIONS

IP headers

TCP headers

ICMP headers

UDP headers

Payloads

IP geolocation

TCP stats

Name resolution (DNS, whois)

Passive OS fingerprinting

IDS alerts

Generalization Scripts

Sensor N: logs(t)

Sensor 1: logs(t’)

(33)

Ce travailpréliminairede olle teetdesto kageévolueàtravers leprojetLeurré. om. L'ensemble de données olle tées au ours des trois dernières années est unique à e jour. Maisquellesvaleursapportent-ellesréellement? Dansquellesmesures peut-ontirer partiede esdonnées pouraméliorernotre ompréhensiondespro essusd'attaques ? Ces questions qui dé oulent naturellement de e paragraphe, sont à l'origine de la méthode d'analyse proposée dans les hapitres 4 et 5 du présent do ument, et dans la ontinuité des motivationsà développerune méthode HoRaSis.

Empreintes d'A tivités

Con epts

L'analyse doit proter de la propriété suivante : les sondes (ou "plateformes pots de miel" : nous utiliserons lesdeux termes indiéremment dans la suite du do ument) sont distribuéesdansdiérentspays,diérentsréseauxetdiérentesorganisations. Ilfautalors her herun moyende omparer e quisurvient sur haque sonde,and'êtreàmêmed'en déduire equiest ommunoupassur unensembledesondes. Cetteétapeest primordiale pour appréhender les ara téristiques des pro essus observés.

Nous avons déni dans un paragraphe pré édent une Large_Session omme étant

l'ensemble des paquets envoyés par une Sour e sur une sonde. Une Large_Session est don lamanifestation d'une a tivité, elle- i étant :

A tivité : Une a tivité est l'ensemble des a tions exé utées par une Sour e sur une plateformepotde miel.

Il est possible de ara tériser une a tivité par l'empreintequ'elle peut laisser sur une sonde pot de miel. Ce i onduità dénirune empreinte d'a tivité omme :

Empreinte d'a tivité : Une empreinte d'a tivité est un ensemble de paramètres (non né essairement uniques) qui ara térise une même a tivité sur diérentes sondes pots de miel.

Il est important à e stade de omprendre qu'une a tivité se ara térise par une em-preinte,mais que etteempreintepeut ara tériserdiérentsoutils (sijamaislesa tivités de es outils ne sont pas distinguables à partir de la onguration a tuelle des sondes). Nous supposons don , d'une ertaine mesure, que si les outils d'attaque ont un om-portement susamment déterministe, nous devrions observer des empreintes d'a tivités semblablessur toutes lessondes ayant été la iblede mêmesoutils d'attaque.

Paramètres ara térisant une empreinte

Nous dé idons, dans la ontinuité des remarques pré édentes, de regrouper toutes les a tivités observées (sto kées sous la forme de Large_Sessions dans des groupes, appelés lusters. Les paramètres hoisis sont basés sur l'expérien e que nous avons a quise pour distinguer manuellement les a tivités, après le ture dire te de hiers t pdump. Les paramètres initiaux sontainsi :

(34)

2. Les séquen es de ports : à partir des paquets ordonnés par temps d'arrivée, nous pouvons extrairela séquen e de ports distin ts iblés sur haque ma hine virtuelle.

3. Lenombretotalde paquetsenvoyésparlaSour eàl'attentiond'uneplateformepot de miel.

4. Le nombre de paquets envoyés par la Sour e vers haque ma hine virtuelle.

5. Laduréetotalependantlaquellelasour eaétéobservéesurlaplateforme(diéren e entreladated'arrivée de sondernierpaquetenvoyé etde son premierpaquetémis).

6. Ordonnan ement de l'a tivité. Les paquets ont-ils été envoyés vers toutes les ma- hines virtuelles en parallèle,ou vers l'une puis les autres?

7. Le ontenu des paquets (s'ilexiste) envoyé par la Sour e.

Malheureusement, es paramètres peuvent varier d'une instan e d'attaque à l'autre, du simplefaitde ertainesperturbationsdans leréseauInternet. Parmi lesperturbations envisageables, il peut y avoir:

duréordonnan ement: quandlespaquetsnesontpasreçusdansleurordred'émission.

de pertes : quand des éléments a tifs du réseau (routeurs) dé ident de jeter des paquets.

des retransmissions : quand l'émetteur ne reçoit pas dans les temps un a usé de ré eption.

du retard : quand les éléments du réseau introduisent des laten es et délais de traitementdi ilementprévisibles.

et

Nousprésentonsdansledo umentunete hnique,quis'appuiesurunepropriétédu hamp IPIDdes entêtes IPs. Danslaplupartdessystèmesd'exploitationa tuels, e hampn'est pasutilisé,mais s'in rémentede1à haqueenvoid'unnouveaupaquetIP.Ens'appuyant sur ettepropriété,ilest possibledelimiterlesimpa tsduréordonnan ementetd'estimer les pertes. Cette te hnique ne peut malheureusement prétendre à orriger toutes les perturbations du réseau. Ceux- i sont autant de u tuations dans ertains paramètres dé rits i-dessus pour dénirune empreinte d'a tivité.

A partir de e onstat, nous avons hoisi de lasser les paramètres en deux groupes distin ts:

Les paramètres dis rets: nous estimons que es paramètres sont peu sensibles aux perturbationsduréseau,etleursvaleursdoiventêtre onsidéréesde manièreexa te. Parmi eux- i, il peut y avoir les séquen es de ports, ou le nombre de ma hines

(35)

Lesparamètresmodaux: ils'agitdeparamètresprésentantunedistributionmodale forte. Dans e as, leurs valeurs peuvent se généraliser par des intervalles, dont la largeur orrespond àl'in ertitudeliéeauxperturbationsduréseau. Lenombretotal de paquets envoyés par une Sour e, ouladurée pendantlaquelle ette Sour ea été observée, fontpartie de es paramètresaux valeurs généralisées.

La ontribution respe tive de haque paramètre dans la formation de lusters peut être évaluée au moyen d'indi ateurs utilisés en théorie de l'information, omme l'IGR (pour Information Gain Ratio). Cet indi e nous permet de réaliser, par exemple, que le hoix du paramètre n'est (ou n'est pas) dis riminant.

Nousregrouponsdon à estadetouteslesmanifestationsd'a tivité(Large_Sessions), ayant les mêmes valeurs dis rètes, et ayant les valeurs des paramètres modaux dans les mêmes intervalles,en lusters.

L'étape suivante onsiste à vérier que les lusters ainsi obtenus sont bien valides. La démar he que nous avons entreprise onsiste à vérier que les Large_Sessions ainsi regroupées restent ohérentes enterme de ontenu(oupayload)de paquets. L'algorithme proposé s'appuie sur la on aténation des diérents ontenus de paquets au sein d'une même Large_Session sous forme de phrase. La distan e de Levenshtein et utilisée pour évaluer la distan e entre les diérentes phrases au sein d'un luster. Une trop grande disparité en terme de distan e peut amener à diviser le luster en de nouveaux lusters plus homogènes.

Remarques générales et résultats

Cette méthode apermis de regrouper1431000 Large_Sessions dans 52159 lusters, dont 8382 ontiennent plus de 5 Large_Sessions. Ce regroupement en a tivité distin te ore plusieursrésultats détaillésdans le do ument, dont :

Une étude de l'évolution des a tivités iblant systématiquement les trois ma hines virtuelles, e qui peut être asso iéà un balayage linéaire dans une plage d'adresses donnée. Ces énario,fréquentparmilesa tivitésobservéesaudébutdel'expérien e, s'est raréé au ours de l'année 2004, pour s'a entuer de nouveau en 2005. Cet exempletémoignedel'importan ed'unesurveillan edes odesmalveillants, arleur omportement hange rapidementaul des mois.

Uneétude relationnelle entre trois types d'analyses, s'appuyant respe tivement sur 1) lesports iblés, 2) lesséquen es de ports iblés et3) les a tivités asso iées à un portetuneséquen e deportsdonnés. Cetteanalysemontre lairementqu'ilestpeu signi atif de produire uniquement des statistiques sur un port donné,voire même de se limiterà la séquen e de ports.

L'observation de l'apparition (ou disparition) de ertaines a tivités au ours des mois. Nous montrons dans le do ument, à valeur illustrative, l'observation de la mortd'unver. Cever,nomméDeloder,afaitgrandbruitdanslesmédiasaumoment

(36)

faire de la rétro-ingénierie de ode (tâ he non triviale), ou sans une surveillan e et une distin tion des a tivités omme nous venons de leprésenter.

Identi ation des outils

Nous rappelons i i que le terme outil représente tout ode à l'origine de l'a tivité ob-servée sur l'une des plateformes. Chaque a tivité est asso iée à un ensemble de valeurs de paramètres (dis rètes ou modales). En e qui on erne le ontenu des paquets, il est possible d'extraire une phrase résumant eux asso iés à une même a tivité. Les phrases sont estimées pro hes selon la distan e de Levenshtein. Nous nous sommes appuyés sur le al ulde ettedistan e pour proposerune méthode simplede généralisation. Des solu-tionsplus omplexesexistent( ommeparexemplel'algorithmeteiresias,l'e¢hantillonneur ELPH Gibbs, et ).

Regroupant ainsi toutes ses valeurs, il est possible de réer une he signalétique, ou d'identi ation, des outils. Une telle he est présentée par lagure 3.

* Payloads: yes (DCOM, Netbios, WebDav)

CLUSTER ID:

IDENTIFICATION:

2145

W32/Gaobot.worm.gen.k

Backdoor.Agobot.Id

W32/Agobot−GM (sophos), also known as:

FINGERPRINT:

* Number Targeted Virtual Machines: 1

* Ports Sequence: 2745,2082,135,1025,445,3127,6129,139,1433,5000,80

* Number Packets sent VM: 33

* Global Duration: 7s < t < 11s

* Avg Inter Arrival Time: < 1s

Figure3: Exemple de he signalétique obtenue

L'étapesuivante onsisteàasso ier unnom ommun à haque he. Cettetâ he n'est ependant pas aisée, pour plusieursraisons :

Les outils en a tivité ne sont pas parfaitement onnus. Certains font l'objet d'une ertaine popularité, mais ne onstituent pas né essairement la majorité du tra malveillant olle té. Ce besoin d'une meilleure ompréhension est la motivation première du projet Leurré. om.

Suite à la remarque pré édente, nous notons aussi une dé on ertante uniformité de l'information,quand elle- i semble disponible. Les sites tendent à répandre de l'information,non validée, etdont lasour e reste obs ure.

En s'appuyant sur les résultats préliminaires de notre analyse d'empreintes, nous obtenons un ordre de grandeur du nombre d'outils observables à partir des sondes

(37)

ontétéobservés ommeprovenantd'auminimum5sour esdistin tes). L'asso iation entre he signalétique et nom ommun ne peut don pas être résolue de manière simple.

Quelques outils ne sont que des variantes (diérentes ongurations et implémen-tations)d'un mêmeoutil générique. Il orrespondra don à plusieurs hes signalé-tiques, telles que nous les on evons.

Dis ussion

Cette lassi ationdes a tivitésobservées onduitàdes résultatsintéressants,et ertains d'entreeuxontfaitl'objetdepubli ations. Ilfautaussiavoir ons ien eque elle- in'est pas insensible à des te hniques malveillantes pour la ontourner. Nous dé rivons de tels s énarii dans la se tion 4.6 du do ument. Les outils peuvent hanger de omportement pour tromper ette lassi ation, mais e hangement ne sera visibleque par une obser-vation de leurs a tivités. Il fautalors ontrler ertains indi ateurs(nombre de nouvelles a tivités enregistrées, fréquen es de leur apparitions, et ), an de déte ter tout hange-ment omportemental. Ce iestunedire tionpropredu projetquenousn'aborderons pas danslasuite, arellen'estpasdire tementliéeàlaproblématiqueposéepar edo ument.

L'étude des empreintes d'a tivitésnousrenseigne pour on lure sur plusieursaspe ts. Parmi eux- i, nous pouvons iter :

L'évolution temporelle des a tivités d'un même outil sur une é helle de temps de plusieursmois (années).

La détermination d'a tivités propres à une unique plateforme, ou un un ensemble (voire latotalité)de plateformes.

L'évaluation statistique de la représentation d'une a tivité donnée sur une plate-formedonnée.

Lamise en garde annonçant l'observation de nouvelles a tivités.

La orrélation quipeut exister entre lesa tivités observées etles alertesémises par lessystèmes de déte tion d'intrusionsinsérés dans leréseau hébergeur.

Cha un de ses aspe ts est abordé dans le projet Leurré. om, et ils restent ouverts à l'appli ationde nouvelles solutionset innovations.

Laméthode quenousproposons,pr«omméeHoRaSis pourraits'entenirà ette lassi- ationparempreinted'a tivité, ar elleestl'élémentfondateurpourdenouvelles études. Ilapparaîtnéanmoinsdesquestionsré urrentes,à ha unede esétudessurlesempreintes : Peut-onextrapler lapropriété de etteempreinteàun ensembled'autres empreintes ?, ou Est- e que la propriété observée pour es empreintes peut être mise en relation ave lespropriétés pré édemment annotées ?

(38)

appro-quin'estpasobligatoirementpartagéeparl'ensemble. Ainsi, ertainsoutilsimplémentent une ou he proto olaire TCP propre, ontenant des erreurs, ou du moins ertaines ar-a téristiques, qui forment un moyen supplémentaire d'identi ation. Il est bonde savoir si plusieursempreintes possèdent lesmêmes ara téristiques, an de savoir siles odes à l'origine de es tra es s'appuient sur la même ou he proto olaire imparfaite. Dans un sou i d'automatisation,nous sommesalors onfronter auproblème suivant :

Comment marquer toutes les empreintes d'a tivités qui possèdent de mêmes pro-priétés ?

Commenttrouverrapidementtoutes lesempreintes quipartagentlesmêmes ensem-bles de propriétés?

Comment ajouter de manière rapide et aisée une nouvelle analyse (étude d'une nouvellepropriété) aux résultatsdéjà établispar lesdeux questions pré édentes ?

C'est dans le but de répondre à es trois questions que nous proposons dans la se tion suivante une méthode omplémentaire pour orrélertoutes les analyses bâties ouà bâtir à partirdes empreintes. Il s'agit de l'analyse orrélative.

Analyse Corrélative

Cette étape répond à la problématique pré édente. Elle vise à automatiser la re her he derelationsentredes propriétéspartagéesparunensemblelimitéd'a tivités. Ellepermet de onduire indiéremmentdeux atégories d'analyse :

Analyse intra-a tivité : Au sein d'un même luster (asso iéà une a tivité), e type d'analyse her he àextrairedes propriétésquisontplus spé iquesà elui- iqu'aux autres, an d'enri hirnos onnaissan es sur le phénomène àl'originede es tra es.

Analyse inter-a tivité : La se onde analyse her he à trouver des propriétés om-munesà ertaines a tivités,puisàlesregrouper. Dansl'exemple itédans leslignes pré édentes, e type d'analyse permet de regrouper toutes les a tivités qui ont des empreintes présentant la même ara téristique auniveau proto olaire.

Nous her hons don i ià trouver tous les ensembles d'a tivitéspartageant plusieurs propriétés. Nousvoulons bien sûr que es ensembles n'oublientau une empreinte. Dans le as d'une analyse intra-a tivité,les ensembles ne ontiendront auplus qu'un élément, à ladiéren e d'uneanalyse intra-empreinte.

Pour parvenir à e résultat, nous protons d'une te hnique extraite de la théorie des graphes. Nous ramenons le problème à elui plus onnu de la re her he de sous-graphes omplets( liques)de poidsmaximum(dominantset dansungraphe. Demanière simpliée, il est né essaire pour haque analyse onsidérée de suivre un algorithme en 5 étapes, dé rites i-dessous dans le tableau 1. Le tableau 2 illustre haque étape par un exemple on ret quiaétéimplémenté. Ils'agit de her her touteslesa tivitésquiontété

(39)

Table 1: Les étapes de haque analyse orrélative

Etape Des ription

1 Dénir une propriété à étudier

2 Représenter lapropriété pour haque a tivité

3 Quantier sareprésentation

4 Dénir une distan e pour omparer lesa tivités

5 Construire lamatri e de similaritéentre a tivités

pour ette propriété

Table 2: Les étapesde haque analyse orrélative : un exemple

Etape Des ription

1 Distributiondes pays àl'origine de haque a tivité

2 Distributionve torielle

3 Pour entage des empreintes provenant du pays X pour une même a tivité

4 Distan e eu lidienne ve torielle

(ou te hnique du peak pi king

5 Matri e nomméei i A_Geo

Nousavons suivi etalgorithmepourdiérentesanalyses. Dansle adrede erapport, nous avons pu ainsi onstruire un ensemble de matri es, ha une représentant l'étude d'une propriété parti ulière,liée àune nalité donnée :

Table 3: Matri es d'analyses utiliséesdans ette thèse

Nom de la matri e Propriétés étudiées

A_Geo Distribution des pays d'où haque a tivité est observée

A_Env Distributiondes plateformes iblées par haque a tivité

A_OSs Distributiondes OSs asso iés à haque a tivité

A_IPprox Proximités des adresses IPs attaquantes

A_TLDs Distribution des TLDs (Top-LevelDomains)

A_Hostnames Catégories des ma hines attaquantes (nomsde ma hines)

A_CommonIPs A tivités lan éespar des adresses IPs attaquantes ommunes

A_SAX Evolution des empreintes de haque a tivité (par semaine)

Pour haque matri e,nous extrayons alors lesensembles de lusters (ou a tivités) de taille et de similarité maximales. An d'ee tuer haque analyse dans un intervalle de temps raisonnable, nous avons eu re ours à une méthode proposée par Pellilo et Pavin

(40)

jeux, pour a élérer la onvergen e vers lessolutions(l'extra tion des ensembles de taille et de similaritémaximales).

Une fois que e i est appliqué à haque matri e, il est alors possible de marquer les a tivités par un label,indiquant leur atta hement àlapropriété étudiée. Unexemple est fournie en gure 4.

A(OSs): clique 3

FINGERPRINT:

CORRELATIVE ANALYSIS:

* Number Targeted Virtual Machines: 3

* Ports Sequence VM1: {135,4444,135,4444}

* Ports Sequence VM2: {135}

* Ports Sequence VM3: {135}

* Number Packets sent VM2: 3

* Number Packets sent VM3: 3

* Global Duration: < 5s

* Avg Inter Arrival Time: < 1s

* Number Packets sent VM1: 10

CLUSTER ID:

IDENTIFICATION:

W32.Blaster.A (symantec), also known as:

W32/Lovesan.worm.a (McAffee)

Win32.Poza.A (CA)

Lovesan (F−Secure)

WORM_MSBLAST.A (Trend)

W32/Blaster (Panda)

Worm.Win32.Lovesan (KAV)

* Payloads: 72 bytes + 1460 bytes + 244 bytes

1931

A(SAX): clique 21

A(Env):

A(Geo):

A(Hostnames):

A(TLDs):

A(commonIPs):

A(IPprox):

Figure4: Exemple de he signalétique obtenue

L'interse tiondesensemblesobtenuspour haquematri epermetégalementderé upérer lessous-ensembles vériant non plus une mais plusieurspropriétés fortes.

Dé ouverte Automatique d'Information

Nousdétaillonsdanslase tion6de edo umentdesrésultatsobtenusàpartirde ertaines analyses (matri es) rées i-dessus. En parti ulier, nous étudions :

(41)

A_Env

L'interse tion de A_Geo etde A_Env

A_SAX

L'interse tion de A_SAX ave A_ ommonIPs, A_Hostnames et A_OSs

A_SAX est intéressante, ar elle s'appuie sur une méthode innovante (SAX, pour Symboli Aggregate approXimation) pour omparer les évolutions temporelles des dif-férentes a tivités. Elles'intègre fa ilementdans l'ar hite ture de la base de données.

Lesinterse tionsrévèlentaussilapertinen ede ertainesanalyses. Ainsi,lesensembles obtenus en roisantlesdeux matri esA_Env etA_Geo regroupent des a tivitésvenant de mêmes pays et ayant iblées les mêmes plateformes. Ces a tivités peuvent être par ailleurs très diérentes en terme d'attaques (servi es visés, ontenus des paquets, et ). On peut y voir plusieursraisons :

Certaines ma hines mal ongurées iblent régulièrementun mêmeréseau.

Il s'agit de la mêmeorigine, ouorganisation, pour toutes es a tivités.

D'autress énariisontaussienvisageables. Ilestpossiblede ontinuerl'analyseen roisant es informationsave d'autres omplémentaires (les noms des ma hines indiquent-ils des serveurs ? et ) an d'aner la ompréhension de e phénomène.

Cha une de es matri es peut être également remodelée par de nouvelles te hniques (séries temporelles, distan es entre adresses IPs, et ) et de nouveaux outils (te hniques de déte tion passive de systèmes d'exploitation, et ). D'autres, enn, peuvent s'ajouter aisément dans ette ar hite ture.

Con lusion

Nous avons présenté dans e do ument une méthode, nommée HoRaSis qui peut se

ré-sumer par lagure 5.

Des apteurs de type pots de miel ont été déployés dans divers réseaux et divers pays dans le monde. Ils ont une onguration susamment légère pour permettre leur déploiement,etun ontrle par des apteurs étalonsplus omplexesest requis pour véri-er périodiquement qu'au un biais n'est introduit pas le hoix des apteurs. Les don-nées brutes, ou paquets apturés, sont olle tés grâ e au projet Leurré. om, et sto kés dans une base de données dédiée. Les paquets liant une Sour e (terme qui qualie une adresse IP dans une fenêtre de temps ourt) à un apteur forment une Large_Session. Les Large_Sessions sont les représentations de diérentes a tivités. Nous regroupons alors toutes les Larges_Sessions partageant des paramètres similaires qui ara térisent l'empreinte d'une a tivité. A e stade, sur la première ligne de la gure 5, nous avons regroupétouteslesa tivités quipartagent unemêmeempreintesur aumoinsun apteur.

(42)

Figure 5: S héma de la méthode HoRaSis

d'un graphe pondéré entre les diérentes a tivités identiées. La méthode est automa-tisée grâ e à une te hnique de la théorie de graphes, nommée "extra tion de graphes dominants". Nous obtenons in ne une artographie des diérentes a tivités observées sur haque apteur, ainsi que l'ensembledes propriétés les liant(ou les diéren iant) des autres. Cetteméthode répond aux ritèresinitiaux d'une méthode HoRaSis.

Nousavonsmontréaumoyend'unensemble onséquentdedonnéesque etteméthode apporteunesolidefondationpoura roîtreles onnaissan esdes a tivitésobservablessur Internet.

Cette appro he ouvre aussi diérents axesde re her he, notamment :

Quelles relations peuvent exister entre des observations très générales (téles opes) etlo ales omme elles du projetLeurré. om ? Sont-elles modélisables?

La ongurationa tuelledesplateformeseststatique. Existe-t-ilunmoyend'intégrer

un ertain dynamisme des ongurations dans la méthode présentée ? Cela est

d'autant plus important que les appli ations etles systèmes d'exploitation ont des versions hangeant plus rapidement que la durée totale de notre analyse, qui peut s'étalersur plusieursannées.

La ré upération d'information ontextuelle est utile, mais pas susamment on-sidérée par la méthode HoRaSis dé rite dans e do ument. Elle peut se formuler, ependant, aux moyens de matri es ou graphes de similarité, et s'intégrer dans

(43)

Il n'est pas extraordinaire de nir une thèse par une ouverture vers plusieurs axes de re her he. Au ontraire, elanous onfortedans l'idéequ'ilexisteun besoinévidentpour mieux omprendre les a tivités qui surviennent, et que la méthode proposée, nommée

HoRaSis, ore une bonne fondation pour ontinuer sur ette voie. Elle permet déjà

de répondre à un ertain nombre de questions, et d'orir de solides bases pour essayer de répondre à d'autres. Nous invitons maintenant le le teur à se reporter dire tement au do ument, si l'anglais ne l'eraie pas, pour de plus amples détails on ernant les te hniques de la méthode etlesrésultats obtenus.

(44)

Chapter 1

Introdu tion

Se urity is a global on ern in many domains of a tivity. Internet has the parti ular

property of onne ting people in quite an anonymous way and without strong tra

ontrol. This advantage has also major drawba ks: mali ious a tivities an take large amplitudes and have atastrophi onsequen es. As an illustration, it has been shown by Staniford et al. in [215℄ that a worm ould saturate, in theory, 95% of one million vulnerable hosts on the Internet in 510 millise onds. Another example is the in reasing threat of ele troni fraudthat an result in losses rea hing several millions of dollarsper year(a ostof$150millionhasbeenreportedby theCommonwealthGovernmentin2001 in [106℄). Internet makeslarge-s ale rimes and devastatingdamages possible. It isthus really important to a quire a good understanding of threats and atta k strategies. One methodtoobtainthisknowledgeisthemonitoringandanalysisofmali iousa tivities,and itmust beperformedatalarges aletogain aglobalunderstanding ofthose phenomena.

Thismethodis urrentlytriedbymeansofnumerouste hniques,someofwhi hbelong tothe ategoryofso- alledhoneypots. Honeypots, honeytokens and honeynets have been used forsome time in omputing systems even if the use of this terminologyisre ent. In the late 80's, Cliord Stoll [218℄ had the idea of pla ing interesting data in appropriate pla es to lure ha kers. This idea is now formalized as a honeytoken by Lan e Spitzner [214℄. In the 90's, Cheswik implemented and deployed a real honeypot [72℄. Bellovin dis ussed the very same year the advantages and problems related to its usage [50℄. In 1998, Grunds hober and Da ier introdu ed in [107℄ the notion of snier dete tor, one of the various formsof whatis also alledtoday a honeytoken. As anattemptto larify the terminology,Lan e Spitzner has proposed the followingdenition for ahoneypot[214℄:

A honeypot is an information system resour e whose value lies in unauthorized or illi ituse of that resour e.