État de l’art des solutions de sécurité spécifiques

2.2 Solutions de sécurité appliquées à l’IoT et limites

2.3 La radio logicielle et les solutions existantes . . . . 43

2.3.1 Définition et fonctionnement de laSDR . . . 44 2.3.2 Détection d’anomalies basée sur les communications radio . . 46

2.4 Conclusion . . . . 47

d’hétérogé-1. redirection du trafic vers un nœud malveillant contrôlé par un attaquant

État de l’art des solutions de sécurité spécifiques

2.2 Solutions de sécurité appliquées à l’IoT et limites

2.2.1 État de l’art des solutions de sécurité spécifiques

Pour proposer une solution de détection adaptée aux problématiques de sécurité

des environnements et des objets connectés, il est nécessaire d’étudier les travaux

existants de la littérature ainsi que les technologies récentes pouvant nous aider dans

la réalisation de cette solution. Aujourd’hui, une grande majorité d’équipements

de sécurité utilise l’apprentissage automatique lors de la définition des modèles de

sécurité ou de l’établissement d’une politique de sécurité (règles d’un pare-feu, etc.).

Notre solution se basant également sur cette technologie, nous allons tout d’abord

en présenter la terminologie et les éléments de base nécessaires à sa compréhension.

Ensuite, nous présenterons un état de l’art des solutions spécifiques appliquées à

l’IoT, utilisant notamment des éléments d’apprentissage automatique. Les limites de

celles-ci nous permettront d’aborder un autre élément essentiel de notre approche,

la radio logicielle ou Software-Defined Radio (SDR), qui permettra de répondre

notamment aux problématiques d’hétérogénéité des protocoles. Finalement, avant

de conclure, nous étudierons la présence dans la littérature d’approches utilisant

justement la radio logicielle pour réaliser de la détection afin d’identifier l’intérêt

de cette technologie.

2.1 Apprentissage automatique

Pour établir un modèle de sécurité du type comportemental, en particulier

né-cessaire pour les IDS comportementaux, deux approches existent : une première

basée sur des experts et une seconde basée sur l’apprentissage automatique. La

première solution consiste à faire générer ce modèle par des experts qui ont une

connaissance complète des enjeux, des interactions et des comportements légitimes

ou illégitimes à détecter. Cependant, la définition d’un modèle de ce type comporte

un grand nombre de limites dans le cas d’un domaine comme celui de l’IoT. Tout

d’abord, l’expertise et la connaissance des différents éléments précédents dans le cas

d’environnements connectés sont des compétences extrêmement difficiles à trouver,

vis-à-vis de la relative jeunesse de l’IoT, et ces compétences sont souvent coûteuses,

en temps comme en argent. En outre, l’humain étant faillible, celui-ci n’est pas

toujours en mesure d’adapter rapidement ses connaissances pour être en mesure de

rendre son modèle robuste aux évolutions de l’environnement dans lequel il est

dé-ployé, ce qui est une des caractéristiques principales des environnements connectés.

Inversement, dans cette situation, la seconde solution qui repose sur l’apprentissage

automatique est souvent à privilégier. Cette méthode consiste à utiliser des

algo-rithmes, qui permettent à partir de données dites d’apprentissage, de paramétrer

un modèle générique pour l’adapter à un problème donné. Le principal

désavan-tage de cette deuxième solution repose sur la nécessité d’acquérir des données qui

soient représentatives du problème, et qui doivent être suffisamment nombreuses

pour obtenir un modèle précis, c’est-à-dire qui généralise correctement. De plus,

l’apprentissage, c’est-à-dire le paramétrage automatique du modèle, se base sur des

algorithmes à forte complexité, qui sont donc coûteux temporellement. Cependant,

contrairement à la première solution, l’utilisation de l’apprentissage automatique

pour la définition d’un modèle à partir de données rend celui-ci plus adaptable,

potentiellement améliorable via l’acquisition de nouvelles données, tout en étant

complètement automatique, donc moins coûteux. Ces raisons expliquent pourquoi

aujourd’hui l’apprentissage automatique est très couramment utilisé dans les

solu-tions de sécurité.

Cette section s’attarde donc sur les différents éléments constitutifs de

l’appren-tissage automatique, en expliquant tout d’abord le concept de modèle et le

vocabu-laire spécifique associé à celui-ci. Ensuite, nous nous focalisons sur l’apprentissage,

en commençant par sa définition, son fonctionnement, et les différentes familles

d’apprentissage existantes dans la littérature, puis en détaillant un principe

impor-tant de ce domaine qui est le compromis biais-variance. Finalement, l’utilisation du

modèle appris est expliqué via l’introduction des requêtes.

2.1.1 Modèle et apprentissage

L’objectif de l’apprentissage automatique est de transformer des données en

sa-voir, sous la forme d’un modèle, c’est-à-dire une description d’un système utilisant le

langage et des concepts mathématiques. Pour cela, différentes "familles" de modèles

(appeléesclasses de modèles) peuvent être utilisées. Un algorithme d’apprentissage

automatique a donc comme entrées une classe de modèles et des données et a pour

sortie un modèle qui est une instanciation de cette classe avec des paramètres, dont

ceux appris grâce aux données.

2.1. Apprentissage automatique 39

Plus précisément, on peut décomposer les paramètres constituants un modèle

en trois catégories :

— les paramètres de classe qui dépendent de la classe de modèle utilisée,

— les paramètres fournis par le développeur, appelés aussi hyperparamètres,

— les paramètres appris automatiquement lors de la phase d’apprentissage,

sim-plement nommé par la suite "paramètres".

De nombreuses classes de modèles existent, adaptées à différents problèmes.

Par exemple, des classes permettent de modéliser des comportements probabilistes

tandis que d’autres peuvent modéliser des évolutions temporelles.

L’apprentissage automatique vise à apprendre, à partir de données, un modèle

qui soit capable de généraliser, c’est-à-dire d’être à même d’agir ou de prédire de

nouvelles données. Selon la tâche à apprendre et le format des données, différentes

familles d’apprentissage peuvent être distinguées.

2.1.2 Différentes familles d’apprentissage

Nous pouvons identifier quatre différentes familles d’apprentissage, définies pour