Filtrage de contenus numériques connus à haute vitesse optimisé sur plateforme GPU

(1)

FILTRAGE DE CONTENUS NUM ÉRIQUES CONNUS À HAUTE VITESSE OPTIMISÉ SUR PLATEFORME GPU

JONAS LEREBOURS

DÉPARTEMENT DE GÉNIE ÉLECTRIQUE ´

ECOLE POLYTECHNIQUE DE MONTR´EAL

MÉMOIRE PRÉSENTÉ EN VUE DE L’OBTENTION DU DIPL ÔME DE MAÎTRISE ÈS SCIENCES APPLIQUÉES

(G ÉNIE ÉLECTRIQUE) DÉCEMBRE 2012

c

(2)

´

ECOLE POLYTECHNIQUE DE MONTR´EAL

Ce m´emoire intitul´e:

FILTRAGE DE CONTENUS NUM ÉRIQUES CONNUS À HAUTE VITESSE OPTIMISÉ SUR PLATEFORME GPU

pr´esent´e par: LEREBOURS Jonas

en vue de l’obtention du diplôme de: Maˆıtrise ès Sciences Appliquées a été dûment accepté par le jury d’examen constitué de:

M. BRAULT Jean-Jules, Ph.D., pr´esident

M. DAVID Jean Pierre, Ph.D., membre et directeur de recherche M. SAVARIA Yvon, Ph.D., membre

(3)

« Rendez vous compte ! sur Internet, n’importe qui peut dire n’importe quoi ! »

Un député fran¸cais à l’assemblée nationale durant les débats sur HADOPI.

(4)

REMERCIEMENTS

J’aimerais remercier sincèrement le professeur Jean Pierre David, mon directeur de re-cherche, pour son suivi et ses conseils. Il a toujours su répondre à mes interrogations en pointant de nouveaux aspects, en proposant une solution innovante, m’incitant à chercher plus loin, avec toujours perspicacité et rigueur. Sa disponibilité m’a donc permis de m’am´ e-liorer sans cesse, et la confiance qu’il m’a accordée tout au long de ma maˆıtrise s’est avérée un précieux atout, duquel j’espère avoir pu profiter à la juste mesure.

Je souhaite également remercier le CRSNG, ainsi que NetClean et le Ministère des Fi-nances et de l’Économie du Québec pour les financements qui ont été attribués au projet et desquels j’ai pu bénéficier. Ces financements ont permis de mener à bien les exp´ erimen-tations, en travaillant sur du matériel de pointe, pour obtenir des résultats originaux et de premier plan.

Mes remerciements s’adressent aussi aux autres étudiants sous la supervision du pro-fesseur David et avec qui j’ai eu la chance de travailler : Tarek Ould Bachir, Marc-André Daigneault, Adrien Larbanet, Mathieu Allard et Patrick Grogan. Même si nos projets étaient pour certains complètement différents, ils ont toujours réussi à m’aider à prendre du recul et à débloquer des situations qui me paraissaient sans issue. Toute cette équipe a fait de notre laboratoire un espace de travail convivial. J’ai eu grand plaisir à discuter avec eux, à les connaˆıtre, et j’espère ne pas les perdre de vue.

Je remercie encore Élise Mellon, Maeva Jaffar et Vincent Lecomte, qui ont toujours été mes plus assidus supporters, pour leur soutien continu. Ils m’ont donné beaucoup de leur temps et ont considérablement apporté à ce mémoire par leurs commentaires inénarrables et plus qu’exhaustifs, fruits de relectures scrupuleuses.

(5)

R´ESUM´E

Beaucoup de données transitent sur les réseaux informatiques tels que le réseau Internet, et une partie de celles-ci peut être illégale. Les autorités qui contrôlent un réseau donné ont souvent besoin d’empêcher la transmission de certains documents, qu’ils soient dangereux, illicites, ou simplement refusés. Une entreprise pourrait par exemple vouloir empêcher que certains documents sortent de leur réseau interne, de même que des écoles pourraient chercher `

a filtrer l’accès à des sites sensibles. Nous allons présenter dans ce mémoire un système de détection et de blocage qui vise à repérer le passage de contenus spécifiés sur une connexion réseau. Le but est qu’un utilisateur ne puisse jamais charger ou envoyer une image, un film ou tout autre document référencé comme interdit, quelle qu’en soit la source.

Suivant le contexte, il peut être utile de travailler à grande échelle, c’est-à-dire de contrôler le trafic d’une large population avec un système unique et centralisé. On peut alors se placer au niveau des fournisseurs d’accès et de services Internet, ou encore sur la connexion `

a Internet d’une très grande entreprise. On contrôle ainsi l’ensemble des communications qui entrent et sortent de leurs réseaux sans avoir à modifier la configuration des postes utilisateurs. Le nombre de ce type d’interconnexion est relativement réduit, ce qui simplifie le déploiement. En revanche, les débits en ces points sont très élevés car ils concentrent le trafic de tous les utilisateurs. C’est là qu’apparait le principal défi, car les fibres optiques utilisées aujourd’hui permettent de faire passer 40 à 100 Gb/s, ce qu’un processeur classique d’usage général n’est pas capable de traiter.

Travailler avec de tels débits de données demande ainsi une puissance de de calcul im-portante, et impose de réduire et optimiser les traitements au maximum. Les approches existantes pouvant filtrer autant d’information se basent souvent simplement sur les des-cripteurs des communications tels que l’adresse de l’émetteur ou du destinataire. Lorsqu’un site internet est suspecté d’envoyer aux clients du contenu interdit, c’est l’ensemble du site internet qui est bloqué, ou l’ensemble des connexions du client qui sont coupées, ce qui manque de précision. Dans notre cas, on cherche à bloquer la transmission de certains conte-nus uniquement, préalablement référencés, en laissant passer le reste du trafic. Il faut donc ˆ

etre capable de repérer ces contenus (images, vidéos, programmes, etc.) au milieu de l’en-semble des données échangées. De plus, dans la plupart des réseaux utilisés aujourd’hui, les données ne sont pas transmises telles qu’elles en une seule fois, mais sont d’abord divisées en plusieurs petits fragments appelés paquets, qui sont transmis indépendamment. Il faut ainsi détecter des extraits des contenus interdits parmi d’autres données fragmentées, ce qui demande une plus grande précision de détection, ceci avec plusieurs millions de paquets de

(6)

donn´ees par seconde. On bloquera ensuite uniquement la connexion qui a transmis cette partie de document.

D’autre part, nous cherchons à référencer un nombre important de documents. Le sys-tème ne doit donc pas souffrir de ralentissement lié au nombre de contenus à bloquer. Les programmes antivirus ou de détection d’intrusion, qui fonctionnent sur le même modèle d’analyse des données transmises en temps réel, se réfèrent en général à des bases de don-nées de modèles d’attaques qui doivent être compilées avant d’être utilisées. Plus le nombre de règles à tester est important, plus la compilation est difficile et longue. Les systèmes qui se basent sur cette approche sont alors limités à quelques dizaines de milliers de règles. Notre système peut en revanche stocker un nombre théoriquement infini de documents sources, la seule limite étant la mémoire utilisée, sans impact sur les performances, grâce à un format de base de données de contenus interdits très simple et efficace.

Pour relever le défi de traiter de très hauts débits sans limiter le nombre de documents référencés, nous avons utilisé l’algorithme de max-hashing. Cet algorithme a été spécialement con¸cu pour détecter très rapidement des fragments de documents connus, en un minimum d’opérations. On distingue deux phases : le référencement des documents à détecter et blo-quer, puis l’analyse en temps-réel du flux réseau. Seule cette seconde partie est étudiée ici, le référencement étant réalisé hors ligne par les autorités qui décident quels documents in-terdire. Nous l’avons implémenté sur processeur graphique (GPU) afin de disposer de leur immense puissance de calcul parallèle, très adaptée pour l’analyse des innombrables paquets indépendants à traiter. Nous présentons dans ce mémoire le fonctionnement de ce type de matériel et les adaptations nécessaires pour qu’un algorithme utilise au maximum les res-sources disponibles et soit capable d’analyser le plus grand débit de données possible.

Nous détaillons l’implémentation de l’algorithme de max-hashing sur les GPU de NVidia, ainsi que les performances que nous avons pu mesurer. Un seul processeur graphique peut ainsi traiter plus de 70 Gb/s de données sources tout en référen¸cant plus d’un million de documents à détecter. La vitesse de traitement est néanmoins limitée par le bus qui transmet les données vers la carte graphique. Après étude des modes de ce bus, on parvient à envoyer à 45 Gb/s, ce qui offre tout de même les performances suffisantes pour analyser une connexion 40GbE, et est à notre connaissance sans équivalent dans la littérature. De plus, lorsque la configuration du bus le permet, des configurations à plusieurs cartes graphiques peuvent être mises en place, multipliant les débits traités et le nombre de références enregistrées.

Des tests sur un réseau réel à 10 Gb/s ont été réalisés, en transmettant les résultats du module de détection à un logiciel dédié au filtrage. Nous avons ainsi pu mettre en place très rapidement un système complet fonctionnant en temps-réel avec une seule carte graphique. On mesure une latence minimale de 6 ms entre l’arrivée d’un paquet de données et la mise en

(7)

place du blocage si nécessaire. Ce système peut s’intégrer de fa¸con totalement transparente sur le réseau à contrôler, et stopper la transmission de tout document interdit.

(8)

ABSTRACT

More and more data are being transmitted every day through computer networks such as the Internet. Part of these data may be illegal and networks authorities often need active filtering so that unwanted contents would not enter the network, or private documents would not leave the intranet. This thesis proposes such a filtering appliance, able to efficiently detect and block known documents passing through a watched connection. The main goal is that users could not load or send any document that would be known as forbidden, regardless of its origin.

Working at large scales can be necessary when one wants to control large populations with no need to setup filters on every connected device. One unique and centralized service deals with the whole traffic. Internet services providers are good examples as they agglomerate all their subscribers’ communications. They link with each other using quite few interconnection points, which simplifies a global deployment. The first challenge is that these links use fast media with 40 to 100 Gbps bandwidths. Such high data rate cannot be handled by a standard general-purpose processor and filtering that information is therefore very challenging.

Previous approaches that are able to filter such amounts of data suffer two different limitations. First, some only use communication descriptors such as emitter and receiver addresses. When a website is suspected to send forbidden information to a network user, either the whole website or the whole user connections are blacklisted as no further investi-gation is possible. We ought to block specific and previously listed contents only, allowing all harmless data. We therefore need to spot these contents (images, videos, software...) among other flowing data. Moreover, network protocols require splitting sent data into small chunks, namely packets, which are transmitted independently. Thus, we more pre-cisely need to spot extracts of the referenced contents among other fragmented data, at rates of millions of packets per second. Greater precision is required, but we can then block the only flow that is sending the spotted content.

The second limitation is the number of referenced documents. We want to detect an important set of different contents and the system cannot loose performances when this set enlarges. Antiviral or anti-intrusion systems, which are based on the same real-time analysis model, often use regular expression patterns as rules. These patterns need to be compiled before they can be used, and large rule sets make compilation slower and harder. Such systems are therefore often limited to several thousand rules. Our system can reference millions of documents with no impact on its computation speed, thanks to our simple and efficient forbidden files database format.

(9)

We describe a parallel implementation of the max-hashing algorithm that enables the detection of known content by processing network packets individually. The final system rises to the challenge of processing ultra-high bandwidths while referencing millions of documents. The target architecture is based on Graphics Processing Units (GPUs), which are known to offer tremendous performances for highly parallel applications, at low cost. The algorithm first collects a set of fingerprints from the listed documents to detect. Fingerprints are small subsets of the reference documents supposedly unique to the documents and easily identifiable. At detection time, those fingerprints are detected in the network packets and reported to an application that correlates all the matches. Results demonstrate that a single GPU board can theoretically monitor the Internet traffic up to 70 Gbps, with the ability to host hundreds of millions of reference fingerprints. Strangely, the most challenging task is to feed the board at such bandwidths through a standard interface such as PCIe. In fact, the bus cannot transfer more than 45 Gbps, which thus is the system limitation. Nevertheless multi-GPU configurations can be set up depending on the PCIe bus architecture, which multiplies the processing rate and optimize the different resources use.

A complete filtering system demonstrates the functionality of the proposed approach over a 10GbE connection. We measure a minimum latency of 6 ms and the system can be installed on network connections transparently.

(10)

TABLE DES MATI`ERES

D´EDICACE . . . iii

REMERCIEMENTS . . . iv

R´ESUM´E . . . v

ABSTRACT . . . viii

TABLE DES MATI`ERES . . . x

LISTE DES TABLEAUX . . . xiii

LISTE DES FIGURES . . . xiv

LISTE DES ANNEXES . . . xv

LISTE DES SIGLES ET ABR´EVIATIONS . . . xvi

CHAPITRE 1 INTRODUCTION . . . 1

1.1 Concepts de base . . . 2

1.1.1 Transmission de donn´ees . . . 2

1.1.2 Filtrage de donn´ees . . . 3

1.2 Analyse des besoins . . . 4

1.2.1 D´etection de fragments de documents . . . 4

1.2.2 D´etection rapide pour filtrer efficacement . . . 5

1.2.3 R´ef´erencement de nombreux documents . . . 6

1.3 Objectifs de recherche . . . 7

1.4 Plan du m´emoire . . . 8

CHAPITRE 2 REVUE DE LITT ´ERATURE . . . 9

2.1 Protocoles r´eseaux . . . 9

2.1.1 Connexion Ethernet . . . 9

2.1.2 Protocole TCP/IP . . . 10

2.2 Algorithmes de d´etection de donn´ees connues . . . 13

2.2.1 Reconnaissance de chaˆınes de caract`eres . . . 13

2.2.2 M´ethodes de Hachage . . . 17

(11)

2.3 Syst`emes d’analyse de flux r´eseaux . . . 24

2.3.1 Retour sur incident . . . 25

2.3.2 Analyse en temps r´eel . . . 26

2.3.3 Matériel spécialisé . . . 28

CHAPITRE 3 ARCHITECTURE PROPOS´EE . . . 32

3.1 Manipulations sur le trafic r´eseau . . . 32

3.1.1 Ecouter l’ensemble du trafic . . . .´ 33

3.1.2 Pont r´eseau . . . 34

3.1.3 Filtrage du trafic . . . 35

3.1.4 R´esum´e . . . 35

3.2 Processeur graphique . . . 36

3.2.1 Introduction . . . 36

3.2.2 Fonctionnement mat´eriel . . . 37

3.2.3 Programmation logicielle . . . 41

3.2.4 Conclusion . . . 44

3.3 Adaptation de l’algorithme de max-hashing . . . 45

3.3.1 Calcul des signatures . . . 45

3.3.2 Base de donn´ees . . . 53

3.4 Syst`eme complet . . . 56

3.4.1 R´epartition des tˆaches . . . 56

3.4.2 M´emoire n´ecessaire . . . 57

3.4.3 Mise en place finale . . . 57

CHAPITRE 4 ANALYSE DU SYSTÈME POUR LE PROBLÈME POSÉ . . . . 59

4.1 Performances du GPU . . . 60

4.1.1 Mesures de temps sur le GPU . . . 60

4.1.2 Transferts m´emoire . . . 61

4.1.3 Calcul des signatures . . . 62

4.1.4 Recherche des signatures . . . 63

4.1.5 Fonctions enchaˆın´ees . . . 65

4.2 Performances du r´eseau . . . 66

4.2.1 Pont r´eseau . . . 66

4.2.2 Copie du trafic . . . 67

4.2.3 Filtrage . . . 67

4.3 Choix de l’architecture . . . 69

(12)

4.3.2 Acquisition et filtrage du trafic . . . 70

CHAPITRE 5 CONCLUSION . . . 71

5.1 Synth`ese des travaux . . . 71

5.2 Limitations de la solution propos´ee . . . 72

5.3 Am´eliorations futures . . . 73

5.4 Neutralit´e . . . 73

5.4.1 Protection de la vie priv´ee . . . 73

5.4.2 Filtrage ou censure ? . . . 74

5.4.3 Risques inhérents à notre système . . . 75

BIBLIOGRAPHIE . . . 76

(13)

LISTE DES TABLEAUX

2.1 Résultats observés dans la littérature . . . 29 3.1 Configurations des différentes versions des processeurs NVidia . . . . 38 4.1 Débit du calcul des signatures . . . 62 4.2 Performances de la recherche de signatures . . . 64 4.3 Performances du pont réseau . . . 66

(14)

LISTE DES FIGURES

1.1 Carte 2012 de la connectivit´e Internet mondiale . . . 3

2.1 Mod`ele de paquet Ethernet II . . . 9

2.2 Mod`ele de paquet IP . . . 11

2.3 Mod`ele de paquet TCP et UDP . . . 11

2.4 Principe de comparaison directe . . . 14

2.5 Machines `a ´etats de l’algorithme d’Aho-Corasick . . . 15

2.6 Principe du hachage . . . 18

2.7 Principe du Tree Hash . . . 19

2.8 Principe du Context-Triggered Piecewise Hashing . . . 21

2.9 Principe du winnowing . . . 23

2.10 Principe du Max-Hashing . . . 24

3.1 Deux options pour surveiller une connexion . . . 32

3.2 Capture du r´eseau avec pcap . . . 34

3.3 Exemple d’utilisation d’ebtables . . . 35

3.4 Sch´ema de l’organisation d’un GPU . . . 38

3.5 Exemples de modèles d’accès à mémoire globale . . . 40

3.6 Lancement d’une fonction sur le GPU . . . 42

3.7 Exemple de kernel en CUDA C . . . 43

3.8 Les calculs de signatures dans le max-hashing . . . 45

3.9 Principe du calcul des signatures . . . 49

3.10 Calcul des signatures . . . 49

3.11 Evolution des acc`´ es m´emoire . . . 51

3.12 Introduction de divergences . . . 52

3.13 Base de donn´ees de signatures . . . 53

3.14 Principe de la recherche des signatures . . . 55

3.15 L’enchaˆınement complet des op´erations d’analyse . . . 56

4.1 Installation des serveurs pour les tests de r´eseau . . . 59

4.2 Mesure du temps sur le GPU . . . 60

4.3 Bande passante du PCI Express . . . 61

4.4 Temps de recherche d’une signature . . . 64

4.5 Pipeline de l’application . . . 65

4.6 Latence des ebtables . . . 68

(15)

LISTE DES ANNEXES

ANNEXE A Fonctions GPU . . . 83

A.1 Calcul des signatures . . . 83

A.1.1 D´efinitions pr´ealables . . . 83

A.1.2 Prototype . . . 83

A.1.3 D´eclarations et Initialisations . . . 84

A.1.4 Prise en compte des recouvrements . . . 85

A.1.5 Milieu du bloc de donn´ees . . . 86

A.1.6 Sauvegarde des maxima et de leurs positions . . . 87

A.2 Lecture et sauvegarde des octets entrants . . . 88

A.2.1 Cas complet . . . 88

A.2.2 Uniquement un octet entrant . . . 88

A.3 Mise `a jour de la signature . . . 89

A.4 Mise `a jour du maximum . . . 89

A.4.1 Avec un tableau de maxima . . . 89

A.4.2 Avec des registres . . . 90

A.5 Recherche de signatures . . . 91

ANNEXE B Fonctions CPU . . . 92

B.1 Analyse d’un buffer . . . 92

B.1.1 Prototype et initialisation . . . 92

B.1.2 Calcul des signatures . . . 93

B.1.3 Recherche des signatures . . . 93

(16)

LISTE DES SIGLES ET ABR´EVIATIONS

CPU Central Processing Unit

CUDA Compute Unified Device Architecture CTPH Context-Triggered Piecewise Hashing DFA Deterministic Finite Automaton DMA Direct Memory Access

DPI Deep Packet Inspection

FAI Fournisseurs d’Acc`es `a Internet FPGA Field-Programmable Gate Array

GPGPU General-Purpose computation on Graphics Processing Units GPU Graphics Processing Unit

IDS Intrusion Detection System IP Internet Protocol

IPS Intrusion Prevention System MAC Media Access Control

MD5 Message Digest #5

NFA Non-Deterministic Finite Automaton PCI Peripheral Component Interconnect PCIe PCI Express

SHA1 Secure Hash Algorithm

SIMD Single Instruction Multiple Data TCP Transmission Control Protocol UDP User Datagram Protocol

(17)

CHAPITRE 1

INTRODUCTION

En 2012, 2.5 exaoctets1 _{de donn´}_{ees sont cr´}_e´_{ees chaque jour [32] et sont amen´}_{ees `}_a

transi-ter sur des réseaux, notamment sur Internet. En conséquence, on mesure que chaque année le trafic Internet augmente d’environ 35% [11]. Ces chiffres peuvent paraˆıtre impressionnants, ou finalement assez modestes rapportés à la population mondiale, mais il est certain que la démocratisation du numérique entraˆıne un accroissement rapide des quantités de données produites et échangées. Une partie du contenu peut être illégale, la pornographie infantile en est un exemple, présenter des risques comme les virus informatiques, ou être simplement gênante, comme le spam.

Contrôler les données qui transitent sur les réseaux devient primordial pour les adminis-trateurs. Plus encore, il est intéressant de pouvoir en bloquer la transmission pour limiter leur propagation. Les fournisseurs de service d’email ont par exemple intérêt à développer leurs contrôles pour réduire la quantité de spam car ces courriers indésirables, outre amoin-drir la satisfaction des utilisateurs, consomment une très large part de leur bande passante, puisqu’ils représentent entre 65 et 75% des messages [13]. Il y a donc des intérêts tant ´

economiques que judiciaires à contrôler le trafic sur les réseaux.

Nous allons présenter dans ce mémoire une solution de blocage de contenus connus. Nous cherchons en effet un système capable d’être inséré de fa¸con transparente dans un réseau, c’est-à-dire sans en modifier la configuration. Il s’agira, après référencement du contenu de certains documents, images, vidéos ou autres, de repérer ces contenus parmi les informations transitant sur le segment surveillé et éventuellement de les bloquer. Le but est d’obtenir un système pouvant référencer un très grand nombre de documents différents, de l’ordre de plusieurs millions, et capable de traiter les données avec des performances, latence et bande passante par exemple, assez importantes pour pouvoir offrir ce nouveau type de contrôle à de grands réseaux d’entreprises ou à des Fournisseurs d’Accès à Internet (FAI). Travailler à ce niveau permet en effet une surveillance à très grande échelle, sans avoir à installer d’autres protections sur les postes utilisateurs, nombreux et hétérogènes. Une entreprise peut choisir de bloquer la diffusion de documents confidentiels vers l’extérieur, tandis qu’un FAI peut vouloir ou se voir imposer de bloquer la propagation de contenus illicites sur Internet.

(18)

1.1 Concepts de base

Avant de nous pencher sur la solution à mettre en place, il est important de comprendre le fonctionnement des transmissions sur Internet et les enjeux d’un tel filtrage. Nous allons donc dans un premier temps passer rapidement en revue les défis actuels dans l’analyse des communications réseaux, avant d’insister sur l’intérêt qui existe dans le filtrage de contenu. Finalement, nous étudierons le fonctionnement des réseaux et les protocoles utilisés pour l’échange des données.

1.1.1 Transmission de donn´ees

Comme nous l’avons évoqué dans le paragraphe précédent, la quantité de données qui transite en permanence sur l’ensemble des liaisons mondiales est immense. Des réseaux scien-tifiques ou industriels sont très utilisés pour le partage et la décentralisation des informations. De plus, la démocratisation du cloud computing accélère cette tendance : les fichiers et les programmes ne sont plus sauvegardés et exécutés sur l’ordinateur de l’utilisateur mais sur des serveurs distants. Ces services sont d’une grande qualité mais nécessitent une connexion `

a Internet puissante et imposent le transfert de beaucoup de donn´ees.

D’autre part, avec l’explosion de la connectivité (mobile comme fixe) de la population, chacun est à même de partager tout contenu, en temps réel. Les technologies évoluent pa-rallèlement : la résolution des appareils photos augmente, produisant des images de plus en plus volumineuses, les terminaux deviennent plus puissants, ce qui permet aux fournisseurs de proposer des plateformes en ligne de plus en plus élaborées. Les bandes passantes des réseaux de communication augmentent elles-aussi, ce qui permet aux utilisateurs d’accéder aux ressources disponibles en ligne de fa¸con similaire à celles localisées directement sur leur ordinateur. Tous ces éléments mènent à une utilisation de plus en plus grande des réseaux. De même, les entreprises, qui utilisaient historiquement des réseaux informatiques fermés pour plus de sécurité, s’ouvrent et s’étendent sur des réseaux virtuels multisites. Beaucoup de données sont donc créées et transmises, et doivent alors emprunter des voies de commu-nications adaptées, le réseau Internet en étant la principale composante.

Plusieurs études ont regroupé des données sur les débits des communications à l’échelle mondiale. On trouve notamment sur le site Internet de TeleGeography des cartes très claires sur la connectivité internationale, telles que celle reprise sur la figure 1.1. On constate qu’en 2011 l’Europe disposait d’une capacité globale de 40 Tb/s et l’Amérique du nord de 16 Tb/s. Même en période de pointe, ces bandes passantes sont largement prévues pour le trafic actuel (47% d’utilisation en Europe, 53% en Amérique du Nord en 2011) mais ces données donnent une idée claire du défi pour contrôler l’ensemble de ce trafic.

(19)

1.1.2 Filtrage de donn´ees

Pourquoi alors vouloir contrôler tant de données ? Deux buts principaux justifient sou-vent cette demande. La protection des réseaux et des utilisateurs contre les contenus illégaux ou dangereux est prédominante. Par exemple, les entreprises, écoles ou autres collectivités utilisent souvent un proxy pour filtrer les requêtes à Internet avec une liste de sites inter-dits. Cela permet aussi de limiter l’accès à des sites sensibles ou la transmission de fichiers exécutables et notamment de virus. Dans un autre contexte, repérer la diffusion de contenus interdits tels que les abus sexuels sur les enfants permet aux services de police de tracer les auteurs ainsi que d’en limiter les “utilisateurs”.

La copie et le plagiat menacent certains intérêts financiers en allant notamment contre le droit d’auteur. Le second but de l’inspection des flux de données est ainsi d’encadrer la reproduction incontrôlée de tout contenu. Par exemple, un éditeur peut vérifier la source des fichiers envoyés et publiés, à la recherche d’extraits de contenus existants. On peut alors

Carte par Telegeography (“Global Internet Map 2012 ”) Contenu sous licence Creative Commons BY-NC-ND 3.0

(20)

combattre le plagiat efficacement, voire limiter les tentations des auteurs directement en les avertissant. On met alors en place des outils d’analyse de r´eseau, `a plus ou moins grande ´

echelle, qui se chargent d’analyser les donn´ees transmises.

Les solutions existantes capables de travailler à de tels débits sont généralement basées sur uniquement l’analyse de la source et/ou de la destination des messages. On bloque ainsi une image ou un site Internet complet via leur adresse. Ces méthodes sont simples car elles ne s’intéressent qu’aux descriptions des transmissions, sans avoir à en reconnaˆıtre le contenu. Des systèmes de listes noires existent dans beaucoup de pays et sont imposés aux fournisseurs d’accès à Internet. Ils sont rapides à mettre en place mais ne peuvent pas combattre l’apparition de sites miroirs par exemple, ou le déménagement d’un site interdit à une autre adresse. La Chine est l’exemple le plus connu, où des lois régissent directement la liste des sites autorisés ou non pour les internautes de ce pays. Elle a cependant aussi mis en place d’autres techniques plus avancées qui permettent de terminer une connexion lorsqu’un certain nombre de mots-clés y ont été détectés. Un tel contrôle demande alors d’être capable d’analyser les communications de l’ensemble de la population.

C’est cette dernière approche qui nous intéresse, en élargissant les mots clés à tout contenu numérique. En terminant la connexion assez rapidement dès qu’un fragment interdit est repéré, on empêche tout passage d’un document complet.

1.2 Analyse des besoins

Différents besoins clés doivent impérativement être intégrés à un système de filtrage réseau. Nous allons dans cette partie les mettre en exergue afin de les étudier précisément. Nous pourrons alors les garder à l’esprit tout au long de la conception et de la validation. Une fois ces bases posées, nous pourrons justifier l’emploi des technologies choisies. Nous avons déjà évoqué les motivations et les protocoles à utiliser, nous détaillerons dans cette partie les besoins qu’ils entraˆınent : la détection de fragments de documents, le référencement de nombreux documents, et la détection en temps réel.

1.2.1 D´etection de fragments de documents

Le réseau Internet, de même que la grande majorité des réseaux actuellement, est basé sur le protocole Ethernet. Celui-ci impose que les documents transmis soient d’abord divisés en plusieurs sous-blocs envoyés successivement. Chaque bloc peut avoir une taille quelconque inférieure à 1500 octets, et est intégré dans une “trame”, qui contient en particulier l’adresse de la machine et du destinataire ainsi que la taille du bloc. Nous présenterons les protocoles utilisés dans les réseaux à la section 2.1. Notons que les trames ne sont pas nécessairement

(21)

de la taille maximale autorisée, mais peuvent être plus petites, la taille étant définie par les capacités respectives de tous les intermédiaires du réseau et adaptée au cours des commu-nications. Une application de détection doit alors être capable de repérer des fragments de documents de petite taille.

La recherche de texte dans une page web ou tout autre document est une illustration du repérage d’extraits. Les utilisateurs sont capables de retrouver tout extrait exact dans leur document source. On cherche dans ce mémoire à appliquer le même principe avec les trames passant sur le réseau : chercher le contenu des trames dans un ensemble de documents de référence.

Pour simplifier les traitements, on pourrait étudier la taille idéale des fragments à détecter et extraire uniquement ce fragment des trames re¸cues avant de le chercher dans les documents sources. Aux deux extrêmes, des extraits de très grande taille seraient difficilement repérables du fait du peu de chances qu’ils soient contenus en entier dans une trame, mais des extraits de toute petite taille produiraient beaucoup de faux-positifs du fait du peu d’éléments vraiment représentatifs du document original. Il faut donc soit choisir une taille de fragments assez importante pour être représentative du document et assez faible pour être contenue dans une trame, soit trouver des méthodes pour outrepasser cette question. Nous étudierons des méthodes existantes au chapitre 2.

1.2.2 D´etection rapide pour filtrer efficacement

Les Fournisseurs d’Accès à Internet (FAI) gèrent les connexions des utilisateurs au r´ e-seau Internet. Ils se chargent donc de faire l’agrégation du trafic et la bande passante qu’ils utilisent est la somme de toutes les bandes passantes de leurs clients. Les FAI sont gén´ era-lement reliés entre eux et aux fournisseurs de services par des fibres optiques qui autorisent des connexions à 40 Gb/s, voire 100 Gb/s. Le réseau déployé par la société Cogent [14] en est un bon exemple.

Nous avons besoin d’un point de passage des données pour pouvoir les observer et les filtrer. Les liaisons entre FAI paraissent intéressantes car il s’agit de points de passage pr´ e-existant regroupant beaucoup de trafic, et le nombre de ces liaisons est relativement limité. Il faut alors viser leur gamme de débits pour obtenir un système utilisable à grande échelle. De même, il devient impératif de traiter les paquets très rapidement puisque leur passage prend très peu de temps. En effet, les abonnés disposent couramment de bandes passantes de l’ordre de 10 Mb/s. Les paquets sont transmis à cette vitesse en 0.1 ms. Du fait des ´

etapes par les différents éléments des réseaux pour atteindre le serveur destinataire, les utilisateurs observent en général une latence de l’ordre de quelques dizaines de millisecondes entre le départ du paquet de leur machine jusqu’à l’arrivée sur la machine visée. Une latence

(22)

trop élevée diminue le confort de l’utilisateur en le faisant patienter entre chacune de ses action. Des domaines nécessitant une bonne réactivité comme la vidéoconférence, le contrôle `

a distance ou les jeux vidéos en ligne sont très vite impactés par une augmentation de la latence. Il est alors important de prendre en compte cet aspect et de créer un système qui ne bloque pas, ou très peu, les paquets pendant leur analyse.

Pour augmenter les débits traités sans impacter la latence, on peut utiliser du matériel capable d’analyser les paquets en parallèle. Nous avons évoqué à la section 1.2.1 que les docu-ments sont divisés en paquets avant d’être envoyés. Les paquets d’une source sont mélangés avec d’autres lorsque les trafics sont regroupés, notamment au niveau des routeurs. Deux paquets qui se suivent ne sont donc pas liés entre eux. De plus, la nécessité de reconnaˆıtre des fragments de documents abordée à la section 1.2.1 a été établie dans le but de travailler uniquement sur le contenu des paquets, sans devoir reconstruire le document original. Ces ´

eléments nous offrent la possibilité de travailler sur les différents paquets en parallèle. Avec du matériel compatible, on multiplie le débit par le nombre d’unités de traitement sans aug-menter la latence. Ce type de matériel est très en vogue actuellement et se développe très vite. Les plus communs sont les CPU, composés aujourd’hui de deux à douze cœurs de calcul, et les processeurs graphiques (Graphics Processing Unit (GPU)) qui comprennent plusieurs centaines d’unités de calcul plus limitées. D’autres dispositifs plus spécifiques existent. Les processeurs réseaux sont des puces très spécialisées dans le traitement de flux de données, utilisées principalement dans les routeurs ou cartes réseaux haut de gamme. Finalement, les Field-Programmable Gate Array (FPGA) présentent aussi l’intérêt d’un parallélisme intrin-sèque très adaptable puisque l’on peut implémenter autant d’instances que nécessaire d’une même unité de calcul dans la seule limite de la taille de la puce. Nous nous focaliserons dans ce mémoire sur les GPU, dont nous étudierons les atouts au chapitre 2.

1.2.3 R´ef´erencement de nombreux documents

Notre système est voué à filtrer un nombre de documents quelconque, potentiellement important suivant la politique de contrôle appliquée. Il convient donc de garantir que les performances finales ne diminueront pas avec l’augmentation du nombre de documents. Les originaux à filtrer doivent être référencés, dans une base de données qui sera consultée pour identifier les données analysées. Plusieurs points entrent en compte dans les performances de cette base de données. Tout d’abord, il faut spécifier dans quel format sont enregistrés les do-cuments référencés (ou les références à ces documents). Leur lisibilité peut être un problème puisque l’on cherche à traiter du contenu sensible. Si les administrateurs peuvent accéder à ces informations, on s’expose à des fuites de documents, ce que l’on cherche précisément à endiguer.

(23)

D’autre part, il faut tenir compte du fait que stocker beaucoup de documents peut n´ eces-siter beaucoup de mémoire, particulièrement s’il s’agit d’images ou de vidéos. Les dispositifs de stockage disposant de beaucoup d’espace, comme les disques durs ou encore des espaces de stockage en réseau, souffrent souvent de temps d’accès assez longs. Il faudra donc chercher `

a réduire les besoins en espace de stockage ou le nombre d’accès nécessaires à la mémoire pour masquer la latence induite par ces accès. Là encore le parallélisme peut être utile car une application massivement parallèle a toujours des calculs en attente qui peuvent combler les temps de latence de la mémoire. La bande passante diminue alors moindrement même si la latence augmente.

Finalement, il faudra prendre en compte le problème de redondance entre les documents. En effet, des documents semblables, ne serait-ce que par l’application dans laquelle ils ont été créés ou par leur type, comporteront de nombreuses parties identiques comme les entêtes, formatages ou autres méta-données. La détection de ces parties pourra donc facilement induire des faux-positifs, c’est-à-dire des alertes lancées sur des données qui ne présentent en réalité pas de risque. Disposer d’une base de données assez importante peut permettre d’éviter ces désagréments en effectuant une analyse statistique et en ne prenant pas en compte les parties redondantes des documents lors du référencement. Nous considérerons ici que seules les parties hautement représentatives des documents et donc a priori uniques, sont référencées. Nous nous concentrerons ainsi sur le travail de détection et de blocage en temps réel plutôt que sur la sélection des “meilleures” parties des documents qui pourra être effectuée séparément.

1.3 Objectifs de recherche

Finalement, en reprenant les éléments précédents, nous pouvons formuler la probl´ ema-tique de ce mémoire comme suit :

Comment repérer et bloquer efficacement des contenus numériques connus transitant sur un réseau, en travaillant en temps réel avec des bandes passantes très élevées (40 à 100 Gb/s) tout en gardant une latence assez faible pour ne pas

influer sur le confort des utilisateurs du r´eseau ?

On proposera ainsi une solution de filtrage de contenus préalablement référencés, capable de travailler à grande échelle sur le réseau Internet ou les réseaux de grandes entreprises ou universités.

L’un des points principaux sera l’analyse des solutions parall`eles qui paraissent pro-metteuses, ainsi que l’adjonction d’une base de donn´ees sans pertes de performances avec l’augmentation de sa taille.

(24)

1.4 Plan du m´emoire

La suite de ce mémoire, s’articulera en quatre chapitres. Tout d’abord, nous étudierons au chapitre 2 les solutions existantes, tant au niveau de l’algorithme que de l’architecture du système complet. Nous ferons ainsi ressortir l’intérêt de l’algorithme de Max-Hashing et des systèmes basés sur des processeurs graphiques (GPU). Nous commencerons cette sec-tion par un rappel sur les protocoles utilisés dans les réseaux. Nous présenterons ensuite au chapitre 3 l’implémentation et l’optimisation de cet algorithme pour de tels processeurs, en détaillant les adaptations nécessaires pour obtenir une implémentation efficace. Nous nous intéresserons aussi aux méthodes de récupération du trafic réseau, et aux moyens simples pour filtrer ce trafic. Nous pourrons ensuite construire un banc de tests pour analyser le système au chapitre 4. Nous mesurerons les performances et répondrons ainsi à la probl´ e-matique. Finalement, nous conclurons au paragraphe 5 sur l’ensemble des travaux, sur les limitations et les améliorations restantes. Nous signalerons aussi les problèmes de neutralité qui existent sur un tel système.

Le lecteur trouvera en annexe le code annoté décrivant l’analyse les données re¸cues du réseau pour y rechercher les correspondances avec les documents originaux.

(25)

CHAPITRE 2

REVUE DE LITT´ERATURE

Le but de ce mémoire est de présenter un système fonctionnel de filtrage de contenus numériques connus sur un flux réseau. Pour ce faire nous allons d’abord étudier les algo-rithmes de reconnaissance existants qui pourraient être adaptés à ce domaine, avant de nous intéresser aux méthodes d’analyse de flux réseaux. Nous insisterons sur les différents types de matériel communément utilisés et nous pourrons analyser les forces et les faiblesses de chacune des approches pour finalement constituer la meilleure réponse possible à notre problème.

2.1 Protocoles r´eseaux

Comme nous l’avons évoqué en introduction, les réseaux utilisent en général le protocole Ethernet. D’autres protocoles s’ajoutent dans celui-ci pour masquer les adresses matérielles et abstraire les communications. Nous allons détailler ici leur fonctionnement car nous serons amenés à les utiliser tout au long de ce mémoire. Le lecteur déjà à l’aise avec les protocoles Ethernet, IP, TCP et UDP pourra toutefois passer cette section sans incidence sur la suite de la lecture.

2.1.1 Connexion Ethernet

Ethernet est un protocole de communication au niveau physique normalisé en 1985 [33]. On construit les messages en commen¸cant par un en-tête identifiant l’émetteur et le r´ ecep-teur, avant de placer le contenu (ou payload ). L’ensemble transmis est appelé une “trame”. La taille du contenu est limitée à 1500 octets. Si les informations à transmettre sont trop volumineuses, alors elles sont divisées en plusieurs paquets de taille inférieure ou égale à 1500 octets. Le destinataire se charge de reconstruire l’information complète après avoir re¸cu l’ensemble des paquets correspondants.

Chaque machine est identifi´ee par une adresse unique, appel´ee adresse Media Access

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 . . . 1 2 3 4

Pr´eambule Adresse MAC Adresse MAC Taille Donn´ees Signature

source destination Type

(26)

Control (MAC), constituée de six octets. Il y a plusieurs types de trames Ethernet, avec chacune leur en-tête spécifique. La plus utilisée est Ethernet II. Son en-tête est très simple, comme l’indique la figure 2.1 :

– Adresse MAC de la machine destinataire – Adresse MAC de la machine source

– Type/Taille : d´etermine quel type de donn´ees est contenu dans la trame :

→ valeur ≤ 1500 : il s’agit directement de données brutes de la taille correspondante → valeur > 1500 : il s’agit du type de protocole utilisé dans le champ données – Données, jusqu’à 1500 octets

– Signature pour vérifier l’intégrité des données re¸cues

Il ne transite donc sur les réseaux que des trames de ce modèle ou équivalent. Il suffit alors de pouvoir les récupérer pour accéder à leur contenu. Il n’y a aucun contrôle ni restriction quant à la lecture par une autre entité que le destinataire. Les deux machines concernées ne sont pas nécessairement reliées directement l’une à l’autre et le message peut être retransmis par plusieurs intermédiaires, qui ont alors pleinement accès au contenu.

2.1.2 Protocole TCP/IP

On l’a vu, un protocole peut être indiqué dans les entêtes des trames Ethernet. Les données sont en effet très rarement transmises directement. Des abstractions sont ajoutées au dessus de l’Ethernet pour faciliter le routage des trames. La plus courante est l’Internet Protocol (IP). Il s’agit d’insérer un nouvel en-tête dans les données de la trame Ethernet. On communique alors entre machines non plus avec l’adresse MAC, considérée comme une adresse matérielle, mais avec une adresse logicielle, l’adresse IP. Plusieurs contrôles existent avec ce protocole comme la recherche de destinataires avec le DNS pour retrouver l’adresse IP à partir du nom de la machine ou l’ARP pour en retrouver l’adresse MAC à partir de l’adresse IP, ou encore l’assignation dynamique d’adresse avec le DHCP, qui permettent d’étendre les possibilités de communication. La version 4 de L’IP utilise 32 bits pour coder les adresses, la version 6 en cours de déploiement utilise dorénavant 128 bits. L’augmentation de la taille des adresses permet d’autoriser la connexion simultanée de beaucoup plus de périphériques dans un même réseau.

L’en-tête, schématisé à la figure 2.2, reprend le même principe que l’en-tête Ethernet, avec de nouveaux paramètres. Les paramètres communs aux deux versions sont les plus utiles :

– Version : spécifie quelle version de l’en-tête IP est utilisée – Taille

(27)

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Version Long. en-tˆete Type de service Cong Longueur totale

Identification Flags Fragment offset

Durée de vie Protocole Somme de contrôle de l’en-tête

Adresse IP source Adresse IP destination Options (facultatif) Donn´ees (a) IP v4 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

Version Classe de trafic Flow label

Taille des donn´ees Protocole Limite de renvois

Adresse IP source

Adresse IP destination

Donn´ees (b) IP v6

Figure 2.2 – Mod`ele de paquet IP

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

Port source Port destination

Numéro séquentiel Référence

Data offset Flags Taille de fenˆetre

Somme de contrˆole Pointeur d’urgence

Options (facultatif) Donn´ees (a) TCP

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

Port source Port destination

Taille Somme de contrˆole

Donn´ees (b) UDP

(28)

– Adresses IP de l’´emetteur et du destinataire

Lors de transferts de données entre deux machines, on utilise en général une abstraction supplémentaire, dite couche de transport, telle que le Transmission Control Protocol (TCP) ou l’User Datagram Protocol (UDP). Le TCP comprend des accusés de réception et est donc utilisé dans la majorité des cas, dès lors que l’on veut s’assurer que les données arrivent toutes `

a destination L’UDP, qui n’a aucun contrôle de ce type, est préféré dans la transmission de flux en temps réel. L’un comme l’autre utilisent l’adressage du protocole IP et ajoutent des “ports” aux machines, qui peuvent être considérés comme des accès indépendants, chacun dédié à une application logicielle sur ces machines. On adresse ainsi chaque paquet à un service donné sur la machine destinataire et on isole les services les uns des autres. Comme indiqué sur la figure 2.3, le port est identifié par un numéro compris entre 0 et 65535 La plupart des identifiants inférieurs a 1024 sont standardisés [31] et réservés à certains services courants. La connexion aux serveurs web pour naviguer sur un site Internet se fait par exemple usuellement par le port 80.

On arrive alors à un niveau où des programmes s’adressent aux programmes d’autres machines, grâce au couple adresse IP et port. Les abstractions supplémentaires qui existent sont des couches applicatives que nous ne considèrerons donc pas puisque nous n’avons pas besoin de nous spécialiser sur l’écoute des communications d’un programme spécifique. Une connexion est alors définie par les quatre paramètres suivants :

– Adresse IP de l’´emetteur – Port de l’´emetteur

– Adresse IP du destinataire – Port du destinataire

(29)

2.2 Algorithmes de d´etection de donn´ees connues

Reconnaˆıtre des motifs (en anglais “Pattern recognition”) dans un flux de donn´ees est `

a la base de nombreux algorithmes, depuis la détection de plagiat jusqu’aux antivirus. Il s’agit de balayer un texte, un fichier, ou n’importe quel ensemble de données pour y trouver un motif ou pattern, ou l’ensemble de ses occurrences. Nous cherchons ici à analyser une connexion réseau. Le protocole le plus répandu est l’IP, lui-même intégré dans le protocole Ethernet. Comme nous l’avons évoqué à la section 2.1, les données transférées selon ces protocoles sont divisées en paquets. On peut facilement “écouter” une connexion réseau et récupérer les paquets qui y transitent pour analyser leur contenu. Nous présenterons ces méthodes dans le chapitre suivant. Il paraˆıt alors intéressant d’appliquer les méthodes de reconnaissance de documents au contenu des paquets IP pour détecter le passage de données connues (interdites, illégales, secrètes ou autres) sur un flux réseau. Il suffirait alors de comparer ce contenu avec une liste de fichiers à repérer et de lancer des alertes en cas de correspondance.

`

A partir de ces idées, on peut établir un premier cahier des charges pour caractériser simplement l’algorithme de détection des données :

– Possibilit´e de rep´erer des fragments de documents et pas uniquement des documents complets, pour travailler avec le contenu de chaque paquet individuellement.

– R´ef´erencer un nombre important et quelconque de documents, quels que soient leur type et leur taille, sans perte de performance.

– Bande passante très importante pour pouvoir travailler à l’échelle de grandes entre-prises ou de FAI.

2.2.1 Reconnaissance de chaˆınes de caract`eres

Les chaˆınes de caractères sont très simples à représenter et à traiter, d’autant plus que nous pouvons facilement les appréhender. Chaque caractère est représenté par un octet, et tout ensemble de données peut alors être considéré comme une chaˆıne de caractères pas nécessairement lisible, il suffit pour s’en convaincre d’ouvrir un fichier quelconque avec un ´

editeur de texte. Il n’est donc pas surprenant que celles-ci aient été à la base des recherches dans le domaine. Le problème consiste à localiser une chaˆıne de caractères ou toutes ses occurrences dans un texte. On trouve notamment deux études sur les évolutions de tels algorithmes par Baeza-Yates [3] et Michailidis et Margaritis [50].

(30)

A7 BC 56 F7 79 00 8A DD 7D 9D 6B EF 12 AC CA 4C 6B F8 0A

= ? = ? = ? = ? = ? = ? = ? = ? = ? 9D 6B EF 12 AC CA 4C 6B

Chaque octet est comparé avec le modèle recherché.

Figure 2.4 – Principe de comparaison directe Comparaison directe

La première méthode adoptée a été une simple comparaison de la chaˆıne de caractères recherchée avec chaque partie du texte analysé. Cette approche a été utilisée dès les débuts de l’informatique mais n’a été étudiée rigoureusement que plus tard par Barth [4]. Elle est très simple, puisqu’il s’agit de déplacer le modèle recherché tout au long des données étudiées en comparant tous les caractères à chaque itération. Elle se classe donc parmi les méthodes de force brute, avec un temps d’exécution proportionnel à la taille du texte ainsi qu’à celle de la recherche. La figure 2.4 décrit le principe de base.

Pour réduire le nombre de comparaisons, différents algorithmes ont été proposés, opti-misant le déplacement du modèle au long du texte analysé. Ceux de Boyer et Moore [6] et Knuth et al. [41] sont devenus les références dans le domaine, et furent ensuite améliorés par Horspool [28] ou encore Takaoka [68]. Ces approches ajoutent un traitement préalable visant à réduire le nombre d’itérations, par exemple en repérant des parties redondantes. On obtient par ce biais des méthodes de moindre complexité par rapport à la longueur du texte et/ou du modèle.

Expressions r´eguli`eres

Pour réduire l’encombrement et la diversité des chaˆınes de caractères recherchées, des méthodes de représentation de ces chaˆınes de caractères ont été présentées. Il devient par exemple possible de spécifier qu’un caractère peut être répété, que n’importe quel caractère peut être placé à certains emplacements, etc. pour finalement décrire beaucoup plus large-ment des recherches qui peuvent s’adapter à différents cas. Une explication très complète est donnée par Aho [1].

`

A l’origine, cette approche n’était pas dédiée à la comparaison de documents. En effet, McCulloch et Pitts [47], puis Kleene [40] ont érigé les fondements théoriques dans le domaine

(31)

* * b a c abc abc bc bccbcc cc cc ab abc ou bcc ou cc

Inspiré de l’article « Algorithme d'Aho-Corasick » de Wikipedia

Une machine à états est créée à partir du modèle recherché. La lecture des données fait évoluer l’état courant jusqu’à aboutir à un état final.

Figure 2.5 – Machines `a ´etats de l’algorithme d’Aho-Corasick

des automates, en se basant sur des études et simulations de neurones. Leurs neurones for-mels pouvaient être excités ou inhibés, et produisaient une sortie en conséquence. Plusieurs ´

evolutions et simplifications ont ensuite mené aux travaux de Rabin et Scott [60], qui ont repris, élargi et prouvé les théories précédentes. Plusieurs méthodes de traitement ont été proposées, basées sur un principe général commun : créer des machines à états pour repr´ e-senter l’ensemble des objets recherchés. On lit ensuite les données étudiées, et les caractères rencontrés activent certaines transitions des machines à états, dont l’état courant évolue au fur et à mesure de la lecture. Lorsque celles-ci rencontrent un état final, alors un pattern recherché a été trouvé.

Les algorithmes sont souvent class´es en deux cat´egories :

– Deterministic Finite Automaton (DFA) [47] : La méthode d’origine dans laquelle les états représentent les avancées caractère par caractère. On ne peut alors évoluer dans la machine que d’un état à la fois, à la lecture de chaque caractère, avec des transitions exclusives. Le système n’est constitué que d’une machine à état.

– Non-Deterministic Finite Automaton (NFA) [60] : Théorie plus générale selon laquelle les états sont beaucoup plus ouverts, on peut effectuer une ou plusieurs transitions à chaque lecture, voire même sans lire de caractère. De plus, plusieurs transitions peuvent être activées simultanément à la sortie d’un état et plusieurs petites machines peuvent être exécutées simultanément.

L’implémentation des automates a été très largement étudiée par la suite. Aho et Corasick ont proposé un arbre de caractères [2] qui est devenu l’approche classique car très simple et efficace. Chaque état représente un caractère des motifs recherchés, mutualisant les préfixes identiques pour réduire le nombre de branches. La figure 2.5 présente ce principe. Plusieurs

(32)

´

evolutions se sont basées sur ces travaux pour ajouter certaines propriétés spécifiques. On citera par exemple des implémentations comme celle de Liu et al. [44], autorisant des re-cherches à très haute vitesse sur GPU (de l’ordre de 80 à 100 Gb/s) en divisant le texte ´

etudi´e en segments de la longueur maximale d’un motif, tout en optimisant la machine `a ´

etats et l’algorithme pour les sp´ecificit´es des processeurs graphiques.

Les expressions régulières permettent de limiter le stockage nécessaire tout en offrant des recherches beaucoup plus générales puisque l’on remplace la multitude d’éléments recher-chés par un modèle unique. On simplifie alors la maintenance mais on ajoute un processus nécessaire de vérification pour s’assurer de l’exhaustivité du modèle.

Le traitement par machine à états requiert que les modèles soient assez courts et peu nombreux (quelques milliers de modèles d’une centaine de caractères), sans quoi les calculs pour résoudre ces machines à états deviennent très complexes, longs, voire impossibles. De plus, dès lors que les patterns utilisés sont de petite taille pour être efficaces, il est difficile de les adapter à la détection de fichiers plus volumineux tels que des rapports ou des images. Reconnaissance approximative

Il existe un grand nombre de méthodes pour comparer des chaˆınes de caractères et d´ etec-ter les ressemblances en autorisant un certain nombre d’erreurs, qu’on appelle “Approximate String Matching”. Elles sont très utilisées pour détecter les fautes d’orthographe ou pour re-chercher des fragments d’ADN avec la possibilité d’une mutation. L’idée est de calculer le nombre de différences entre deux chaˆınes de caractères (modification, suppression ou ajout d’un caractère). On compare ainsi un modèle avec tous les originaux puis on compare les résultats pour trouver les plus proches.

De nombreux algorithmes implémentant des distances différentes ont été proposés. Une revue très complète a été publiée par Navarro [52], retra¸cant plus en détail les possibilités offertes dans ce domaine. Cette approche est aussi souvent utilisée pour de la recherche de plagiat ou de la copie illicite de documents [18].

Stockage de chaˆınes de caract`eres

Rechercher des chaˆınes de caractères, ou des modèles de chaˆınes demande de stocker ces modèles, qui sont des chaˆınes de caractères dont la longueur est indéterminée. Leur stockage peut donc poser plusieurs problèmes. Tout d’abord, rechercher un document reviendrait à stocker la quasi-totalité de ce document dans une nouvelle base de données, ce qui peut rapidement demander un espace de stockage gigantesque lorsque le nombre de documents à repérer devient important. Il faut alors utiliser des stockages de plus grande taille (disques

(33)

durs, espaces de stockage en réseau, etc.) qui sont souvent beaucoup plus lents. Les perfor-mances du système complet sont alors rapidement limitées par la faible bande passante et surtout les latences importantes des accès à la mémoire.

D’autre part, stocker des données hétérogènes mène souvent à des implémentations de bases de données moins efficaces. Les opérateurs de comparaison par exemple, doivent connaˆıtre la taille de la plus grande valeur stockée afin de comparer les autres sur la même base, qui revient à effectuer des comparaisons sur des données de très grande taille, ra-lentissant ainsi leur fonctionnement. On préfère souvent indexer des données de taille fixe, idéalement assez limitée, pour que les processeurs puissent les traiter efficacement.

La sensibilité des documents à stocker est elle-aussi un point important. À partir du moment où des données sensibles (interdites ou confidentielles par exemple) sont regroupées, il convient de les entourer de beaucoup plus de sécurité contre les vols ou les accès non autorisés. La constitution de telles bases de données peut même être interdite dans certains cas.

L’utilisation directe des chaˆınes de caractères constitue donc un inconvénient et une limitation majeure. Il apparaˆıt dès lors plus intéressant d’utiliser des représentations illisibles des données, codées et ne pouvant être décodées.

2.2.2 M´ethodes de Hachage

Pour accélérer les comparaisons de documents et simplifier la base de données de réf´ e-rence, on utilise souvent des signatures (“hashes”), aussi appelées empreintes ou clés, qui sont calculées à partir du contenu du fichier ou de l’ensemble de données traité. Dans la majorité des cas, on crée une signature de taille fixe, quelle que soit la taille des données sources. La principale propriété recherchée est l’injectivité : si deux empreintes sont identiques alors la source qu’ils représentent doit être la même. Ceci n’est vrai qu’avec une certaine probabilité ´

etant donné le nombre fini de valeurs différentes de taille fixe. Par exemple, la probabilité que deux mots aléatoires codés sur 64 bits soient identiques est 2−64. Malgré tout, la grande majorité des applications utilisant le hachage se base sur cette propriété, avec des signatures de plus grande taille pour limiter la probabilité de collision, c’est-à-dire que deux sources différentes soient représentées par la même signature.

On l’a vu, sauvegarder des signatures à la place des données d’origine présente plusieurs intérêts. Cela permet tout d’abord de ne pas travailler avec du contenu potentiellement confidentiel et/ou privé mais avec des représentations plus ou moins déchiffrables de ce contenu. Ensuite, cette approche rend les traitements beaucoup plus efficaces car le type des données est connu et uniforme. On peut par exemple définir les signatures comme des entiers positifs codés sur 128 bits et ainsi optimiser la recherche et l’indexation pour ce type

(34)

de données. Finalement, le stockage est là encore facilité car tous les éléments sont d’une taille fixe (ou au moins connue et bornée), ce qui permet une meilleure utilisation de l’espace mémoire, pour finalement référencer un nombre quasi-illimité de documents.

Le domaine judiciaire, auquel peut s’apparenter notre système, utilise largement le ha-chage pour les recherches de preuves parmi de grandes quantités de données ou l’analyse en temps réel de communications pour prévenir les menaces. Roussev a beaucoup travaillé sur ce type d’application dans ses articles [63, 64, 65]. L’auteur cite notamment des enquêtes impliquant d’immenses quantités de données à analyser, comme une saisie de 60 To de do-cuments à propos de la guerre en Irak [61]. Calculer les signatures de fichiers permet d’en ´

ecarter rapidement les plus communs, tels que les fichiers des systèmes d’exploitation ou de programmes répandus. Le NIST (National Institute of Standards and Technology) [51] maintient pour cela une base de données qui contient les signatures de tels fichiers. Les en-quêteurs peuvent la consulter afin de trier rapidement le contenu de disques durs saisis et de concentrer leurs recherches sur les fichiers les plus intéressants.

M´ethode de base

La méthode de base, telle qu’on l’utilise dans les exemples précédents, consiste à calculer les signatures de chacun des documents recherchés, puis celles des documents analysés et de les comparer. La figure 2.6 résume le principe. Lorsque les signatures sont identiques, on peut affirmer que les documents sont les mêmes selon la probabilité exposée dans le paragraphe précédent. Ce principe est souvent utilisé sur Internet pour télécharger de gros fichiers, avec lesquels on fournit la signature afin que l’utilisateur puisse vérifier que son fichier n’a pas été corrompu lors du transfert. Les algorithmes les plus utilisés sont Message Digest #5 (MD5) et Secure Hash Algorithm (SHA1).

Une première limitation intervient dans le traitement des documents : la moindre modifi-cation implique une valeur de signature différente. Si cette propriété est utilisée pour vérifier

1B86EAAFE6789BA40E

5F6CCFFF89C0021BDE

f(x)

BC45D878FF07C31A

M´ethode de base : on calcule une empreinte par fichier, `a partir de l’ensemble du fichier.

(35)

l’intégrité d’un ensemble de données, elle devient une contrainte lorsque l’on veut comparer des documents proches, ou légèrement corrompus. Des changements seront invisibles pour l’utilisateur, par exemple un octet ajouté à la fin du fichier, mais sa signature sera différente et il ne pourra donc pas être repéré. Plus important pour notre étude, on ne peut pas re-trouver des fragments de documents avec cette approche mais uniquement les documents complets. Or, comme on l’a annoncé au chapitre précédent, nous devons travailler sur les paquets réseaux, qui sont précisément des fragments de ces documents. Il n’est pas possible de reconstituer les originaux envoyés et nous devons donc raffiner cette méthode.

Fragmentation

Une première réponse au problème de fragmentation des données a été proposée par Merkle [49] avec son “hash tree” aussi appelé “arbre de Merkle”. Le principe consiste à diviser la source en plusieurs blocs de taille constante avant de calculer l’empreinte de chacun de ces blocs. On crée ensuite plusieurs étage en calculant à chaque fois une nouvelle empreinte à partir de pairs de l’étage précédent. On divise ainsi par deux le nombre de valeurs de chaque ´

etage jusqu’`a arriver `a la racine de l’arbre.

Cette méthode permet de vérifier l’intégrité de documents de manière efficace. En effet, lorsqu’une partie du document est altérée, seule la signature correspondant au bloc concerné est modifiée, ainsi que toutes les clés des étages supérieurs qui mènent à celle-ci. On n’a alors plus qu’à redescendre l’arbre depuis la racine vers les feuilles pour trouver le bloc mis en cause, ce qui réduit le nombre de comparaisons nécessaires. Cette méthode est utilisée pour transférer des ensembles importants de données, pour n’avoir qu’à renvoyer la partie altérée au lieu de l’ensemble de la source. La figure 2.7 illustre le principe.

D8ABCE A6FF4E 197BFE D1246A

Racine Étage 0 Étage 1

On divise cette fois le fichier en blocs de taille fixe et on calcule ensuite une signature pour chacun d’eux, puis on cr´ee un arbre de signatures. Une erreur est facilement rep´erable dans la source, il suffit de remonter

l’arbre.

(36)

Pourtant, cette méthode ne peut s’appliquer facilement aux paquets transmis sur un réseau du fait de la taille variable de ceux-ci et de la division imprévisible lors de la cr´ ea-tion des paquets. On ne peut prévoir ni le fractionnement ni la configuration des blocs qui seront transmis. Il paraˆıt impossible de spécifier une taille fixe qui garantirait que ces blocs soient transmis alignés correctement dans les paquets sur le réseau. Il faut donc trouver une méthode plus précise, qui ne se contentera pas de diviser un document en blocs fixes. Contexte

Dans la méthode précédente, la moindre suppression ou insertion de données dans un fichier modifie tous les blocs subséquents ainsi que toutes les signatures correspondantes. Par exemple, si un octet est inséré au début d’un document, toutes les signatures le caractérisant seront modifiées car le contenu de chaque bloc sera décalé. Le document modifié sera donc considéré comme un document entièrement nouveau, sans aucun lien avec l’original. La même idée s’applique pour les paquets Internet, puisqu’il s’agit de travailler sur un extrait quelconque (en taille et emplacement) du document, les blocs n’ont que très peu de chances de se trouver placés correctement dans des paquets Internet pour être détectés.

Les premiers à avoir proposé une solution à ces défis sont Hunt et McIlroy [29], qui ´ etu-diaient les textes par ligne, en recherchant la plus longue suite de correspondances. Tridgell a présenté en 2002 un logiciel appelé “SpamSum” [71] permettant de détecter les spams, textes généralement semblables les uns aux autres sans être réellement identiques. Sa m´ e-thode, proche du travail de Rabin [59], consiste à calculer des signatures ne dépendant que d’une petite fenêtre de calcul glissant sur l’ensemble des données. Cette idée sera reprise dans le domaine de la sécurité par Kornblum qui la baptisera “Context-Triggered Piecewise Hashing (CTPH)” [42], puis améliorée par Long et Guoyin en 2008.

Cette méthode développe la précédente : le document est divisé en blocs et les signatures sont calculées sur ces blocs uniquement. Ici les blocs sont beaucoup plus petits, on parle plutôt de contextes ou de fenêtres. Leur taille n’est pas constante et toutes les fenêtres ne donnent pas nécessairement lieu au calcul d’une signature. Tout revient à déterminer l’em-placement de ces fenêtres dans un ensemble de données, puis à déterminer quelles signatures seront conservées, à l’aide de propriétés et paramètres facilement réutilisables et applicables partout. Un premier exemple simple consisterait à garder l’idée de blocs de taille fixe, mais de très petite taille, en ne conservant que les signatures vérifiant une propriété donnée (par exemple un résultat modulo un paramètre). De manière plus élaborée et en illustrant l’idée de blocs de taille ne pouvant être prédéterminée, on pourrait décider de calculer une signature par phrase dans un texte. Ce principe est illustré sur la figure 2.8.