Combinaison d'approche statique et dynamique pour l'application de politiques de sécurité

(1)

Combinaison d’approche statique et

dynamique pour l’application de politiques de

s´

ecurit´

e

M´

emoire

Th´

eophane Gloria Godonou

Maˆıtrise en informatique avec m´

emoire

Maˆıtre `

es sciences (M.Sc.)

Qu´

ebec, Canada

(2)

(3)

R´

esum´

e

Ce mémoire présente une approche d’application de politiques de sécurité qui utilise une analyse de types basée sur un système de types multi-valeurs. Cette analyse est suivie d’une instrumentation lorsque nécessaire. Le langage cible est un langage impératif. Notre approche vise à réduire les faux-positifs générés par une analyse statique, et à réduire la surcharge d’exécution en n’instrumentant que lorsque nécessaire. Les faux-positifs surviennent dans l’analyse de systèmes informatiques lorsqu’une information est manquante durant la compilation, par exemple le nom d’un fichier, et par conséquent, son niveau de sécurité. L’idée principale de notre approche est de distinguer les réponses négatives des réponses incertaines. Au lieu de rejeter les commandes potentiellement non sécuritaires, elles sont identifiées et étiquetées pour la seconde phase de l’analyse. Les réponses négatives et positives sont traitées comme cela se fait d’habitude. Ce travail est une approche hybride d’application de politique de sécurité : les points potentiellement sécuritaires du programme détectés par notre analyse par typage sont instrumentés par la suite avec des tests dynamiques. Le système de typage sur lequel se base le nôtre a ´

eté présenté par Desharnais et al. [12]. Notre approche a été acceptée pour publication [7]. Dans ce travail nous présentons les modifications apportées au précédent travail et la phase d’instrumentation qui la complète. La nouveauté de notre approche est de rajouter un niveau de sécurité aux trois du travail précédent. Nous traitons les canaux et les variables de fa¸con spéciale. Les programmes interagissent par le biais de canaux de communication. Des niveaux de confidentialité sont associés aux canaux plutôt qu’aux variables dont le niveau de sécurité est fonction de l’information qu’elles stockent. Notre analyse est sensible au flot.

(4)

(5)

Abstract

In this Master thesis, we present an approach to enforce information flow policies using a multi-valued type-based analysis followed by an instrumentation when needed. The target is a core imperative language. Our approach aims at reducing false positives generated by static analysis, and at reducing execution overhead by instrumenting only when needed. False positives arise in the analysis of real computing systems when some information is missing at compile time, for example the name of a file, and consequently, its security level. The key idea of our approach is to distinguish between negative and may responses. Instead of rejecting the possibly faulty commands, they are identified and annotated for the second step of the analysis; the positive and negative responses are treated as is usually done. This work is a hybrid security enforcement mechanism: the maybe-secure points of the program detected by our type based analysis are in-strumented with dynamic tests. The basic type based analysis has been reported by Desharnais et al. [12], this work deals with the modification of the type system and the instrumentation step. It has been accepted for publication [7]. The novelty of our approach is the handling of four security types, but we also treat variables and chan-nels in a special way. Programs interact via communication chanchan-nels. Secrecy levels are associated to channels rather than to variables whose security levels change according to the information they store. Thus the analysis is flow-sensitive.

(6)

(7)

Table des mati`

eres

R´esum´e iii

Abstract v

Table des mati`eres vii

Liste des tableaux ix

Liste des figures xi

Remerciements xix

1 Introduction 1

1.1 Motivation . . . 1

1.2 Approche et r´esultats escompt´es . . . 2

1.3 Structure du m´emoire . . . 3

2 Etat de l’art 5 2.1 Introduction . . . 5

2.2 Politiques de s´ecurit´e . . . 5

2.3 Approches statiques pour l’application des politiques de s´ecurit´e . . . . 6

2.4 Approches dynamiques pour l’application des politiques de s´ecurit´e . . 39

2.5 Approches hybrides pour l’application des politiques de s´ecurit´e . . . . 51

2.6 Conclusion . . . 55

3 Approche hybride bas´ee sur une analyse trivalu´ee 57 3.1 Introduction . . . 57

3.2 Langage cible . . . 58

3.3 Système de types de sécurité . . . 61

3.4 Algorithme d’inf´erence . . . 72

3.5 Instrumentation . . . 82

3.6 Conclusion . . . 89

4 Conclusion 93 4.1 Contributions . . . 93

(8)

(9)

Liste des tableaux

2.1 R`egles de typage. . . 17

2.2 R`egles de sous-typage. . . 18

2.3 Programme multithread avec fuite d’information . . . 21

2.5 S´emantique des commandes. . . 46

2.6 R`egles de transition du moniteur. . . 47

2.7 Sémantique et événements internes. . . 54

2.8 Moniteur sensible au flot. . . 54

3.1 S´emantique op´erationnelle structurelle . . . 62

3.3 Algorithme d’inf´erence . . . 74

(10)

(11)

Liste des figures

2.1 Exemple de construction de diagramme de flot de contrˆole. . . 9

2.2 Exemple de construction de diagramme de d´ependances donn´ees. . . 10

2.3 Exemple de d´ecoupage de programme. . . 11

2.4 Sch´ema illustratif de la certification de code. . . 36

2.5 Architecture TAL. . . 38

2.6 Architecture de Naccio.. . . 41

2.7 Exemple d’automate de sécurité et instrumentation associée. . . 44

2.8 Architecture du système de réécriture de politiques d’accès.. . . 45

2.9 Relations entre programmes accept´es par les syst`emes de types et les moni-teurs. . . 51

3.1 Analyse d’un programme pr´esentant un flot d’information implicite non s´ e-curitaire.. . . 69

3.2 Programmes illustrant l’utilisation de la commande if . . . 71

3.3 Exemple démontrant la nécessité d’une analyse itérative pour le bloc while 71 3.4 Un programme générant des valeurs de sécurité inconnues et nécessitant une instrumentation. . . 71

3.5 faux positifs : incertitude due à if et assignation d’un canal de niveau bas dans un contexte de niveau élevé. . . 72

3.6 Flot implicite . . . 75

3.7 L’envoi d’une valeur priv´ee sur un canal de niveau inconnu provoque une instrumentation . . . 76

3.9 Exemple inspir´e de Zdancewic et Myers [56] . . . 77

3.12 L’envoi d’une valeur inconnue sur un canal de niveau public provoque une instrumentation . . . 88

3.13 Exemple illustrant l’instrumentation d’un programme avec boucle while . 89 3.14 Exemple de programme rejet´e. . . 90

(12)

(13)

A toi ma très chère mère, pour avoir toujours cru en moi et m’avoir soutenu même lorsque je n’y croyais plus moi-même, je dédie ce mémoire.

(14)

(15)

Il n’y a pas de vent favorable pour celui qui ne sait o`u il va.

(16)

(17)

(18)

(19)

Remerciements

Le présent mémoire est le fruit des efforts consentis tout au long de ma formation au programme de maˆıtrise en informatique de l’Université Laval. Je profite de cette opportunité pour remercier tous ceux qui de près ou de loin, m’ont assisté dans la réalisation de cette œuvre.

Mes sincères et chaleureux remerciements à la professeure Nadia Tawbi, qui a accepté de diriger ce travail, ainsi qu’à ma co-directrice, la professeure Josée Desharnais. C’est grâce à leurs implication, suggestions et connaissances dont j’ai bénéficiées que ce travail a pu se réaliser.

Mes remerciements vont aussi à l’endroit de tous mes collègues du groupe de recherche Langages, Sémantiques et Méthodes Formelles (LSFM). Leur amitié, leurs suggestions et collaboration pendant les activités de recherche sont des qualités dont j’ai eu le plaisir de bénéficier. Je remercie particulièrement Jean-Claude Simo pour sa collaboration, ainsi que Gildas Kouko pour ses conseils. Je remercie aussi Andrew Bedford, qui grâce aux travaux effectués dans le cadre de son stage a permis l’implantation des algorithmes sur lesquels porte notre travail.

Je remercie ceux qui ont su m’accueillir à Québec pour atténuer la douleur de la distance qui me séparait des miens. Je voudrais remercier particulièrement le professeur Pierre Marchand et sa femme Denise, ainsi que Lucie Caron. Je remercie Emmanuelle Soudé et Georges Batona pour leur amitié très fraternelle.

Mes remerciements s’adressent à ma très chère mère Clotilde Tométy pour les sacrifices qu’elle a consentis pour la réalisation de tous mes projets d’étude, et plus globalement pour que je sois la personne que je suis aujourd’hui.

Mes sentiments de gratitude s’adressent enfin à mon Dieu tout puissant qui a toujours su me guider et m’éclairer depuis ma naissance. Il est mon refuge et ma forteresse, à lui je me confie.

(20)

(21)

Chapitre 1

Introduction

1.1 Motivation

L’omniprésence des technologies de l’information et de la communication est indéniable dans notre monde contemporain. On veut pouvoir accéder à l’information partout et très rapidement. Quasiment toutes les informations sont disponibles en ligne grâce à l’Internet. On y accède par un nombre presque illimité de moyens : ordinateurs por-tables, téléphones intelligents, tablettes, etc. Tout en assurant une disponibilité et un accès rapide à l’information, il est vital de se doter de moyens assurant que les infor-mations ne sont accessibles qu’aux entités autorisées.

Le travail que nous présentons dans ce mémoire s’intègre à l’ensemble des mécanismes d’application de politiques de sécurité. Plus précisément, il traite des politiques de contrôle du flot d’information entre variables et entités dans un système informatique. Nous pouvons distinguer deux types d’approches qui ont servi à appliquer les politiques de sécurité. Il s’agit des techniques statiques et des techniques dynamiques. Plus r´ ecem-ment, un nouveau type d’approche a vu le jour pour tirer profit des forces des deux types d’approches précédents, il s’agit de l’approche hybride. L’analyse statique évalue le comportement d’un programme dans toutes ses exécutions possibles, sans avoir à l’exécuter. Un programme validé par une analyse statique par rapport à une politique de sécurité peut être exécuté par la suite sans risque d’enfreindre la politique de s´ e-curité. Ce type d’analyse présente comme avantages principaux, une conclusion valide pour toutes les exécutions, et un impact quasi nul sur le temps d’exécution. En effet puisque ce type d’analyse est effectué sans exécuter le programme, il ne rajoute pas une surcharge d’exécution. Cependant certaines informations étant disponibles seulement

(22)

dynamiquement, ce type d’approche est souvent confronté à un problème d’ind´ ecidabi-lité. Ceci amène souvent les analyses à être très conservatrices et à générer beaucoup de faux positifs, des cas où un programme sécuritaire est rejeté du fait d’une mauvaise approximation. L’analyse dynamique quant à elle, s’effectue plutôt lors de l’exécution du programme. Elle tient compte de l’exécution courante, et sa portée ne peut aisément s’étendre à toutes les autres. L’autre faiblesse de cette approche est due à ce qu’elle s’ef-fectue dynamiquement. Elle rajoute donc une surcharge d’exécution. Néanmoins, elle présente comme force principale de pouvoir disposer de toutes les informations pour conclure contrairement à l’analyse statique. Elle n’est pas confrontée à l’indécidabilité inhérente à l’analyse statique.

1.2 Approche et r´

esultats escompt´

es

Notre approche est plutôt du type hybride. En effet, l’analyse statique que nous pr´ esen-tons est complétée par une analyse dynamique afin de pouvoir, lorsque c’est pertinent, aller rechercher dynamiquement les informations nécessaires qui seraient manquantes statiquement. Le but ultime de notre travail est de réduire le nombre de faux positifs inhérents à une analyse statique, tout en minimisant la surcharge d’exécution liée à une ´

eventuelle phase dynamique. Ce travail porte sur le contrôle du flot d’information. Il traite de politiques de sécurité concernant des restrictions liées à l’accès à l’information par les entités. Par exemple, il ne faudrait pas qu’une application de traitement de texte envoie, à l’insu de son utilisateur, ses informations confidentielles comme son numéro de carte de crédit. Ou bien qu’un site d’achat en ligne transmette les informations de connexion d’un utilisateur aux autres utilisateurs du site. Nous avons choisi d’adopter une analyse par typage. En effet cette approche est élégante car elle permet une s´ e-paration entre la spécification, les règles de typage, et l’implémentation, l’algorithme d’inférence. Elle permet également de faire la preuve de correction puisque la sp´ ecifi-cation est rigoureusement définie. Des règles sont définies dans celle-ci pour spécifier le comportement désiré du programme. Cette approche se base sur la syntaxe du langage de programmation défini à cet effet. La propriété de sécurité sur laquelle porte notre travail est une variante de la non-interférence de Goguen et Meseguer [16] adaptée à des canaux de communication. L’apport de ce travail consiste en deux axes. Le premier est de concevoir un système de types qui permet d’écarter les cas incertains, ceux pour lesquels l’analyse statique ne peut conclure. Le second est de concevoir une instrumen-tation pour traiter ces cas incertains laissés par l’analyse statique. Au terme des deux phases de l’analyse, nous sommes en mesure de réduire le nombre de faux positifs dus

(23)

`

a une analyse purement statique. Pour permettre à l’instrumentation de compléter le travail effectué par l’analyse statique, nous avons introduit un troisième type de sécurité inconnu par rapport aux deux classiques, public et privé. Ce troisième type permet de marquer les informations dont le niveau de sécurité ne peut être connu statiquement afin que l’instrumentation détermine leur type. Notre approche permet de réduire les faux positifs, tout en minimisant la surcharge d’exécution qui peut être liée à la phase dynamique.

1.3 Structure du m´

emoire

Le travail effectué dans le cadre de cette maˆıtrise s’inscrit dans un projet plus global. Celui-ci vise à mettre en place une approche d’application de politique de sécurité sur le flot d’information combinant analyse statique et dynamique pour la vérification de programmes. Il est envisagé d’évaluer des programmes écrits dans des langages de haut niveau et s’exécutant dans un environnement concurrentiel. Notre travail se restreint `

a des programmes écrits dans un langage impératif simple et la concurrence n’est pas traitée. Nous fournissons une base pour les travaux futurs qui approfondiront ces points. Ce mémoire est structuré comme suit : au chapitre 2, nous présentons les travaux exis-tants sur les mécanismes d’application de politiques de sécurité, les analyses statiques et les analyses dynamiques. Quelques analyses hybrides sont également abordées. Ce chapitre présente quelques techniques de contrôle du flot d’information. Le chapitre 3

présente notre approche, l’analyse hybride qui se base sur un typage trivalué. Nous présentons enfin une conclusion au chapitre 4.

(24)

(25)

Chapitre 2

Etat de l’art

2.1 Introduction

Le présent chapitre introduit quelques travaux importants traitant de techniques uti-lisées pour l’application des politiques de sécurité. Ceux-ci représentent le cadre dans lequel s’insère notre approche hybride combinant analyse statique et dynamique pour l’application de la politique de non-interférence. Nous commen¸cons par définir la notion de politique de sécurité, puis nous présentons quelques approches statiques d’application de politiques de sécurité. Par la suite, nous nous intéressons aux approches dynamiques et terminons par les approches hybrides dont fait partie notre travail.

2.2 Politiques de s´

ecurit´

e

Un système S peut exécuter des actions prises à partir d’un ensemble dénombrable possiblement infini Σ. On peut définir une exécution comme une séquence d’actions de Σ.

Selon Schneider [42], une politique de sécurité est un prédicat sur un ensemble d’ex´ ecu-tions effectuées. Un système S satisfait une politique de sécurité P si pour son ensemble d’exécutions ΣS, P ( ΣS ) est vrai. Un prédicat concernant une exécution précise σ du

système est appelé propriété de sécurité. Une politique de sécurité pourrait porter par exemple sur :

1. le contrôle d’accès : c’est la restriction d’opérations que des entités pourraient effectuer sur des objets.

(26)

par des objets, des entit´es en observant le comportement d’un syst`eme.

3. la disponibilité : c’est la restriction des possibilités dont disposent des entités à empêcher d’autres entités d’accéder à une certaine ressource.

Une politique de sécurité sur laquelle portera notre travail est la politique de non-interférence. C’est une politique de flot d’information. Elle a été introduite pour la première fois par Goguen et Meseguer [16]. Volpano et al. [48] la définissent comme suit :

Définition 1. (Non-interférence) : Un programme c satisfait la non-interférence si, pour toutes mémoires µ et ν qui co¨ıncident sur les variables de niveau public L (Low), les mémoires produites en exécutant c sur µ et ν co¨ıncident également sur les variables de niveau L (pourvu que les deux exécutions s’achèvent avec succès).

De fa¸con plus informelle, cette propriété stipule que l’exécution du programme c avec deux mémoires qui sont équivalentes en ce qui concerne les données publiques (mêmes variables avec les mêmes valeurs), produira deux mémoires qui sont également ´

equivalentes en terme de données publiques. Plus simplement, les données confidentielles n’interféreront pas (n’affecteront pas) les données publiques. Il faut cependant noter que cette définition de la non-interférence n’est valable que dans le cas d’un programme déterministe.

2.3 Approches statiques pour l’application des

politiques de s´

ecurit´

e

L’objet de l’analyse statique est d’examiner le code des programmes pour déterminer des propriétés de l’exécution dynamique sans même les exécuter. Elle consiste à extraire des informations valables pour toutes les exécutions possibles du programme. C’est un modèle du comportement du programme. L’analyse statique est une technique souvent utilisée par les développeurs de compilateur pour effectuer diverses analyses et transfor-mations sur le code afin de l’optimiser ou de vérifier sa conformité à certaines propriétés. En ce qui concerne les politiques de sécurité l’analyse statique permet de savoir si pour toutes les exécutions possibles du programme la politique est respectée. Un programme qui est jugé respectant la politique de sécurité après l’analyse statique, la respectera forcément dans quelque exécution effective que ce soit. Il est parfois vital de s’assurer

(27)

autant que possible de la fiabilité d’un logiciel avant même de l’exécuter. On imagine aisément qu’un constructeur d’avion qui con¸coit un nouveau modèle d’avion pourrait souhaiter que l’application qu’il installe sur celui-ci pour gérer le pilotage automatique ou des paramètres critiques comme l’altitude, satisfasse un ensemble de propriétés d´ esi-rées. Cela offrirait une sécurité plus accrue pour les passagers. Ainsi effectuer l’analyse statique qui permet de conclure sur la fiabilité de l’application par rapport à toutes ses exécutions, plutôt qu’une seule exécution comme l’analyse dynamique se justifie. Cependant l’analyse statique ne peut pas conclure dans tous les cas qu’un programme est sécuritaire ou pas. En effet pour déterminer qu’un programme s’exécute de fa¸con s´ e-curitaire, il est parfois important de tenir compte des données en entrée du programme. Par exemple, si on analyse un programme qui envoie de l’information confidentielle sur un canal choisi durant l’exécution, on ne peut savoir si celui-ci est sécuritaire ou pas. La difficulté qu’a l’analyse statique pour conclure s’explique bien par le théorème de Rice [38] :

Théorème 2. Toute propriété extensionnelle non triviale portant sur des programmes est indécidable.

On entend par propriété extensionnelle, une propriété qui ne dépend que de la s´ eman-tique du programme, pas de sa syntaxe. Une propriété non triviale en est une qui n’est ni toujours vraie, ni toujours fausse pour tous les programmes. Et on entend par propriété indécidable, une propriété pour laquelle tout algorithme qui décide si cette propriété est vraie ou fausse boucle indéfiniment ou bien se trompe au moins pour une infinité de programmes.

Il existe plusieurs techniques d’analyse statique. Nous pouvons distinguer les techniques d’analyse de flot de données et de flot de contrôle, celles basées sur le typage, l’inter-prétation abstraite ainsi que les techniques employant un compilateur certifié.

2.3.1 Techniques d’analyse de flot de donn´

ees et de flot de

contrˆ

ole.

Deux groupes de techniques existent principalement qui se basent sur l’analyse de flot par le biais de graphes. Nous avons les techniques d’analyse de flot de données et les techniques d’analyse de flot de contrôle. L’analyse de flot de contrôle et celle de flot

(28)

de données ont pour but de modéliser le comportement du programme sous forme de modèle pour en extraire certaines informations.

Analyse de flot de contrˆole

L’analyse de flot de contrôle modélise en général le comportement du programme sous la forme d’un graphe de flot de contrôle CFG (Control Flow Graph). Le flot de contrôle d’un programme est l’ordre dans lequel les différentes instructions et appels de fonctions individuels sont exécutés ou évalués dans le programme. Kildall présente le graphe de flot de contrôle dans [24], qu’il utilise pour permettre des optimisations de programme comme des suppressions de redondances. Un exemple de traduction de programme en CFG est représenté à la figure 2.1.

Dans un CFG, chaque nœud du graphe représente un bloc de base. Un bloc de base est un bout de code avec un seul point d’entrée et un seul point de sortie. On ne peut accéder à une partie du bloc, autre que son point d’entrée, par une instruction de saut (un jump) et qu’on ne peut en sortir, pour exécuter un autre bloc de base, que par son unique point de sortie. Des arêtes orientées représentent les sauts (jump) d’un bloc de base à un autre. Deux blocs spéciaux sont utilisés : le bloc d’entrée qui débute le contrôle dans le graphe de flot et le bloc de sortie par lequel tout le flot de contrôle sort. Le CFG peut cependant être construit avec des instructions simples comme nœud. C’est le cas du graphe de la figure 2.11_{. Cette analyse peut servir `}_{a des optimisations comme}

la suppression de code inutile, qui n’est jamais utilisé. On peut se rendre ainsi compte par exemple si un nœud n’est pas atteignable à partir du bloc d’entrée du graphe de flot de contrôle que celui-ci représente du code inutile et qu’il peut être supprimé sans le moindre impact sur le programme. En ce qui concerne les politiques de sécurité, on peut se servir d’un CFG pour tracer l’utilisation de primitives critiques d’un point de vue de la sécurité dans un programme comme l’ouverture d’un port (socket) ou l’envoi d’information sur un réseau.

Analyse de flot de donn´ees.

L’analyse de flot de données permet de calculer, selon le problème, les informations pertinentes à un point donné du programme. Un exemple d’analyse de flot de données est l’analyse de dépendances. Le programme de la figure 2.22 _{illustre ce type d’analyse.}

L’analyse de flot de dépendances calcule à un point donné d’un programme, les

infor-1. source : cours Certification de logiciels GLO-7003, Universit´e Laval 2. source : cours Certification de logiciels GLO-7003, Universit´e Laval

(29)

Figure 2.1 – Exemple de construction de diagramme de flot de contrˆole.

mations pertinentes qui lui parviennent. Un point de programme se situe entre deux instructions consécutives séquentiellement d’un programme ainsi qu’au début et à la fin d’un bloc de base. L’analyse de flot de données se sert du CFG généré par l’analyse de flot de contrôle pour comprendre l’effet de chaque instruction et voir comment les informations sont transmises à un point du programme. Deux formes d’analyse sont possibles. Une analyse locale qui s’effectue à l’intérieur d’un bloc de base, qui analyse l’effet de chaque instruction et la composition des effets depuis le début du bloc de base jusqu’au niveau de chaque instruction. Il y a aussi une analyse globale qui évalue l’effet de chaque bloc, la propagation des effets tout le long du graphe de contrôle puis l’application du résultat aux blocs de base.

Le problème de l’analyse de flot de données correspond à élaborer et à résoudre à chaque point donné d’un programme des équations de flot de données. En général, il faut calcu-ler de fa¸con itérative la sortie générée à partir des entrées jusqu’à atteindre une valeur stable, le point fixe. Cette approche a été présentée par Kildall [24]. L’analyse peut être faite de deux fa¸cons, soit vers l’avant soit vers l’arrière. Dans l’analyse vers l’avant, la sortie d’un bloc est fonction des données à l’entrée du bloc. Les données à l’entrée du bloc sont fonction des sorties des blocs précédents le bloc courant. Dans l’analyse vers l’arrière, c’est plutôt l’inverse. C’est plutôt l’entrée du bloc qui est fonction des sorties de celui-ci. Et les données en sortie du bloc sont fonction des entrées de ses

(30)

succes-Figure 2.2 – Exemple de construction de diagramme de d´ependances donn´ees.

seurs. Il faut noter que l’analyse de flot de donn´ees fait une estimation conservatrice des informations.

D´ecoupage de programmes (Program slicing)

La technique de découpage de programmes tel que mentionné par Weiser [52], à partir d’un sous-ensemble du comportement d’un programme, réduit le programme à une forme minimale qui présente encore le même comportement par rapport à un critère donné. Le découpage de programmes se sert d’une analyse de de flot de contrôle et d’une analyse de flot de données. Le programme produit est un programme indépendant pour lequel on a la garantie qu’il représente fidèlement le programme original dans le domaine spécifié du sous-ensemble propre à ce comportement. Ici, un comportement pourrait être simplement l’affectation d’une valeur particulière à une variable. On irait rechercher par exemple toutes les informations susceptibles de transmettre cette information. C’est une technique similaire à celle employée par un programmeur qui fait du débogage pour améliorer un programme. Il va juste sélectionner la ligne concernée et sauter les instructions jusqu’à celles qui sont affectées par celle-ci tout en ignorant tout le reste. L’avantage de cette méthode c’est qu’on se concentre uniquement sur la portion du code qui a un impact sur le comportement qu’on veut observer en ignorant tout le reste. Le comportement qu’on veut observer est appelé critère de découpage (slicing criterion) . La portion (slice) de programme est l’ensemble formé par les instructions qui affectent

(31)

Figure 2.3 – Exemple de d´ecoupage de programme.

ou qui sont affectées par le critère de découpage.

Plusieurs formes de découpage de programmes existent : le découpage de programmes statique, le découpage de programmes dynamique, le découpage de programmes avant, le découpage de programmes arrière, le découpage de programmes conditionnel. En ce qui concerne le découpage de programmes statique en particulier, on déduit le critère de découpage du code source pour toutes les valeurs d’entrée possibles du programme. On ne fait aucune hypothèse sur des valeurs possibles d’entrée. Il génère en général une portion de taille importante et contient toutes les instructions qui peuvent affecter une variable pour chaque exécution possible.

A partir de la définition initiale de Weiser, pour un critère de découpage C=(x,V) avec x, une instruction dans le programme P, et V un sous-ensemble des variables de P. Une portion statique comprend toutes les instructions qui affectent la variable v, pour un ensemble de toutes les valeurs entrées à l’instruction x en question. Les portions statiques sont déterminées en cherchant les ensembles successifs d’instructions qui sont indirectement pertinents conformément aux dépendances de données et de contrôle. Un exemple de découpage de programme est illustré à la figure 2.33_.

2.3.2 L’analyse par typage

Une forme d’analyse statique qui a intéressé plusieurs chercheurs est l’analyse par ty-page. L’idée de cette analyse est d’assurer le respect d’une politique de sécurité grâce à

(32)

un langage typé. L’analyse par typage se fonde sur la citation de Robert Milner selon laquelle les programmes bien typés ne peuvent se tromper : “Well typed programs cannot go wrong”. Les précurseurs de la sécurisation du flot d’information par l’analyse statique sont Denning et Denning [11]. Leur analyse s’appuie sur un treillis de classes de sécurité pour évaluer le flot d’information dans le programme. Néanmoins cette analyse n’est pas une analyse par typage. A l’origine, l’analyse par typage servait à inférer ou vérifier les types, mais elle a depuis été utilisée pour inférer d’autres types d’informations comme les effets de lecture ou écriture, le flot de contrôle, etc. L’analyse par typage consiste à donner des types à des variables et expressions, et en inférant progressivement le type d’expressions composées de celles dont on connaˆıt le type, déduire le comportement global de l’expression statiquement.

L’analyse par typage se d´ecompose en cinq grandes ´etapes :

• la définition de la sémantique dynamique (ou opérationnelle), ce sont les règles de typage.

• la définition de la sémantique statique (système de types) qui sera utilisée pour évaluer le programme

• la définition d’un algorithme d’inférence de types pour typer le programme cible. • la preuve de cohérence entre sémantique statique et sémantique dynamique

• les preuves de cohérence et de complétude entre système de types (sémantique sta-tique) et algorithme d’inférence.

La sémantique dynamique est utilisée pour associer aux expressions formées dans le langage, les valeurs précises concrètes qui leur sont associées. Elle spécifie la fa¸con selon laquelle un programme est exécuté.

La sémantique statique permet d’associer un type à un programme. Elle permet de généraliser les différentes valeurs que re¸coit le programme en paramètre, celles qu’il manipule, et celle de retour. La généralisation peut être vue comme une abstraction. Ainsi les règles de typage permettront de spécifier qu’un branchement conditionnel teste une expression de type booléen, avant d’effectuer le corps de celui-ci. La sémantique statique permet d’inférer à partir de blocs plus petits le type de blocs plus importants (de fa¸con compositionnelle).

L’algorithme d’inférence de types automatise le processus que suit l’analyse statique pour déduire les types d’expressions et des commandes. C’est en quelque sorte une tra-duction de l’analyse statique. Il peut ainsi être assez aisément implanté et être exécuté

(33)

par un ordinateur.

Après avoir parlé de quelques principes de base de l’analyse par typage, passons en revue quelques-uns des travaux importants qui l’ont traitée. Volpano et al. [48] ont présenté une preuve de cohérence pour le système de Denning. A cet effet ils ont formulé l’approche de Denning sous forme de système de type pour un langage déterministe. La preuve présentée est celle de la propriété de non-interférence. La preuve de cohérence faite peut se traduire par “Tout programme bien typé, possède la propriété de non-interférence”. Ce travail est majeur car il est le premier à présenter une bonne preuve de cohérence. Nous présentons dans le chapitre qui suit, le travail de Volpano et al. [48].

Exemple d’analyse par typage.

Un système de types est un système formel de règles d’inférence pour établir des juge-ments sur des programmes. Ils servent à établir que le type d’un programme est correcte dans des langages fortement typés, comme par exemple le Standard ML . Mais les sys-tèmes de types ne servent pas qu’à justifier le type de programmes. Ils peuvent être per¸cus plus globalement comme des systèmes logiques permettant de raisonner sur un bon nombre de propriétés de programmes. Une des propriétés pouvant ainsi être évaluée est celle des flots d’information sécuritaires, plus précisément la non-interférence. De fa-¸con intuitive, la non-interférence pour les programmes, signifie qu’une modification des valeurs en entrée confidentielles (high) ne peut provoquer une modification des valeurs en sortie publiques (low).

Plusieurs avantages existent à présenter l’analyse sous la forme d’un système de types. Cela joue le rôle de spécification formelle qui sépare de fa¸con assez nette les politiques de sécurité, des algorithmes. Cette séparation permet une forme de cohérence de l’ana-lyse semblable à la notion de non-interférence de Goguen et Meseguer [16]. De fa¸con intuitive, cette forme de cohérence dit que les variables dans un programme bien typé “n’interfèrent” pas avec des variables de niveaux inférieurs. Cette notion a été formalisée

comme un théorème de cohérence de types et démontrée.

Afin de mieux présenter le système de type, nous devons définir la notion de treillis de niveaux de sécurité. Cette définition se base sur une classification des niveaux de sécurité possibles des variables d’un programme. Un niveau de sécurité est une valeur qui désigne si une variable de programme est accessible publiquement ou pas. Un ni-veau de sécurité est associé à chaque variable de programme. Ainsi un niveau L (Low) désigne une variable publique et un niveau H (DeclareRobustCommand), une variable

(34)

privée. Le treillis est défini par ces classes de sécurité, et un ordre partiel sur elles (≤). Volpano et al.[48] l’étendent pour en faire une relation de sous-typage notée ⊆. En fait dans leur travail, ils distinguent deux niveaux dans leur système de types. Le premier niveau est celui des types de données, noté τ qui correspond aux classes que nous avons précédemment mentionnées (L et H en l’occurrence) qui sont utilisées pour les expressions. Le type d’une expression correspond au type le plus élevé des variables qui apparaissent dans sa définition. Lorsqu’une expression e peut être typée τ dans le système de types, alors selon une propriété dite de sécurité simple, seules les variables de type τ ou de types plus bas pourront être lues lors de l’évaluation de e. Le second niveau est celui des types de phrases. Il est plus général et inclut les types de données τ , les types de variables τ var et les types de commandes τ cmd. Une commande c a le type τ cmd si toutes les variables qu’elle modifie sont de niveau de sécurité τ ou plus ´

elevé. Cette propriété est dite de confinement et est nécessaire pour garantir que les flots d’information implicites sont sécuritaires. Notons que la relation ⊆ est antimono-tone ( contravariante) pour les types de commandes. Ainsi lorsque τ ⊆ τ0 alors on a τ0 cmd ⊆ τ cmd.

Le système de types garantit que les flots d’information implicites et explicites sont sécuritaires. Pour mieux comprendre la différence entre les types de flots d’information servons nous d’exemples. Considérons un programme qui assigne une variable de niveau H à une variable de niveau L. Dans ce cas, le flot d’information est dit explicite. Il existe ´

egalement des cas de flot d’information implicites. Consid´erons le programme suivant :

if((secret%2) == 0) leak = 0 ;

else

leak = 1 ;

Ce programme copie implicitement le dernier bit de secret dans leak. Implicitement, car la valeur finale de leak dépend de celle de secret bien que ce ne soit pas par une affectation directe. Le langage dans lequel sont définis les programmes évalués par le système de types de Volpano et al. [48] est un langage impératif simple. Les phrases du langage sont soit des expressions soit des commandes.

(phrases) p ::= e | c

(35)

(commandes) c ::= e := e0| c ; c0 _{| if e then c else c}0 _{| while e do c | letvar x :=e in c}

La métavariable x désigne les identifiants de variables (valeurs entières), l pour les locations (emplacements/adresses en mémoire), et n les littéraux d’entiers (identifiants de valeurs constantes). Les entiers sont les seuls valeurs. La valeur 0 sert à représente le booléen f aux et 1 vrai. Les locations sont supposées bien ordonnées. Les types tels que mentionnés préalablement sont les suivants :

(types de donn´ees) τ ::= s | H

(types de phrases) ρ ::= τ | τ var | τ cmd

Comme on peut s’en douter, le type τ var correspond au type des variables et τ cmd `

a celui des commandes. Le typage se base sur des jugements de typage de la forme : λ; γ ` p : ρ.

λ est l’environnement de typage des locations et γ est celui des identifiants. Le jugement peut se traduire par la phrase p a le type ρ en se basant sur le fait que λ donne les types des locations apparaissant dans p et γ les types des identifiants libres de p. Un environnement de typage d’identifiants est une fonction finie qui associe les identifiants `

a des types ρ ; γ(x) = ρ est le type associé à x par γ. De même, γ[x : ρ] est un environnement de typage modifié qui assigne le type ρ à x et le type γ(x’) à tout autre identifiant x’. Un environnement de typage de locations est une fonction finie qui associe `

a des locations (emplacements) `a des types τ .

Les règles de typage du langage sont celles de la figure 2.1. Ces règles sont complétées par celles de la figure 2.2 qui sont des règles de sous-typage. Celles-ci restreignent les généralisations de types pour respecter la sécurité. La nouveauté principale de leur tra-vail est la preuve de cohérence qui est faite. Elle est établie par rapport à la sémantique du langage choisi. La preuve est celle du théorème de cohérence suivant :

Si λ(l) = τ , pour une certaine location l, alors l’on peut arbitrairement modifier la valeur initiale d’une quelconque location l0 telle que λ(l0) n’est pas un sous-type de τ , ex´ecuter le programme, et la valeur finale de l restera la mˆeme pourvu que le programme se termine correctement.

Pour faciliter la preuve, les auteurs introduisent de nouvelles règles de typage qui in-cluent en même temps les cas rendus possibles par les règles de sous-typage. Ils d´ e-montrent en un premier temps, l’équivalence entre les nouvelles règles et les initiales.

(36)

Puis ils démontrent par induction structurelle sur l’expression e la propriété de sécurité simple et par induction structurelle sur la commande c, la propriété de confinement. Par la suite, ils présentent de fa¸con plus formelle la preuve de cohérence dans [48] comme suit.

Théorème 3. (Cohérence de type) Supposons

(a) λ ` c : ρ, (b) µ ` c ⇒ µ0, (c) ν ` c ⇒ ν0,

(d) dom(µ) = dom(ν) = dom(λ), et

(e) ν(l) = µ(l) pour tout l tel que λ(l) ≤ τ . Alors ν0(l) = µ0(l) pour tout l tel que λ(l) ≤ τ .

Finalement la preuve est faite par induction structurelle sur la d´erivation de µ ` c ⇒ µ0. Evolution de l’analyse par typage.

L’analyse par typage est une analyse qui se base sur le langage. On peut noter quatre domaines importants de recherche li´es `a l’analyse de flot d’information :

– l’enrichissement de l’expressivit´e du langage,

– l’analyse de l’impact sur la sécurité de la concurrence, – l’analyse des canaux cachés

– la sensibilit´e au flot d’information

Passons en revue quelques uns des travaux importants dans chacun de ces domaines. A - Expressivit´e du langage.

L’objectif de l’un de ses domaines importants est d’enrichir l’expressivité des lan-gages utilisés par l’analyse par typage, afin d’atteindre le niveau d’expressivité des langages de programmation de haut niveau. Au nombre des types de programma-tion étudiés, nous pouvons citer la programmation procédurale, la programmation fonctionnelle, la programmation avec les exceptions et la programmation orientée objet.

Programmation procédurale : Volpano et Smith [50] présentent un système de types avec des procédures de premier-ordre. Ils démontrent par la suite que le système de types garantit la non-interférence. Leur système de types

(37)

(INT) λ, γ ` n : τ

(VAR) λ, γ ` x : τ var , if γ(x) = τ var (VARLOC) λ, γ ` l : τ var , if λ(l) = τ (ARITH) λ, γ ` e : τ λ, γ ` e 0 : τ λ, γ ` e + e0: τ (R-VAL) λ, γ ` e : τ var λ, γ ` e : τ (ASSIGN) λ, γ ` e : τ var λ, γ ` e 0 : τ λ, γ ` e := e0: τ cmd (COMPOSE) λ, γ ` c : τ cmd λ, γ ` c 0 : τ cmd λ, γ ` c; c0: τ cmd (IF) λ, γ ` e : τ λ, γ ` c : τ cmd λ, γ ` c 0 : τ cmd λ, γ ` if e then c else c0: τ cmd (WHILE) λ, γ ` e : τ λ, γ ` c : τ cmd λ, γ ` while e do c : τ cmd (LETVAR) λ, γ ` e : τ λ, γ[x : τ var] ` c : τ 0 cmd λ, γ ` letvar x :=e in c : τ0cmd

Table 2.1 – R`egles de typage.

se sert beaucoup de la notion de polymorphisme. Le polymorphisme permet d’avoir des commandes et expressions dont les types sont g´en´eriques, c’est-`

a-dire dépendant du contexte. Par exemple, les procédures peuvent avoir des types de sécurité polymorphiques pour permettre d’ajuster leur invocation au contexte (high ou low).

Programmation fonctionnelle Heintze et Riecke [18] travaillent avec l’algèbre de processus SLam calcul qui est inspiré du lambda calcul. Ce langage est fonc-tionnel et supporte les fonctions de première-classe (fonctions utilisées comme valeurs ordinaires). Ils proposent un système de types pour la confidentialité et l’intégrité de SLam et démontrent un théorème de non-interférence en se servant des relations logiques. Ils étendent également SLam et le système de types avec les états et la concurrence cependant, ils n’en démontrent pas la non-interférence.

(38)

(BASE) τ ≤ τ 0 τ ⊆ τ0 (REFLEX) ` ρ ⊆ ρ (TRANS) ` ρ ⊆ ρ 0 _{` ρ}0_{⊆ ρ}00 ` ρ ⊆ ρ00 (CMD−) ` τ ⊆ τ 0 ` τ0 cmd ⊆ τ cmd (SUBTYPE) λ, γ ` p : ρ ` ρ ⊆ ρ 0 λ, γ ` p : ρ0

Table 2.2 – R`egles de sous-typage.

Zdancewic et Myers dans [55] et [57] définissent un langage sécuritaire qui possède des continuations de première-classe, des états et des références. Ils démontrent la non-interférence pour le système de types. Ils montrent ´ ega-lement qu’en rajoutant les états et les références à un fragment de SLam, celui-ci peut être traduit en leur langage sans perte de précision.

Pottier et Conchon [36] présentent une méthode systématique pour étendre les systèmes de types conventionnels avec le contrôle de flot d’information, dans le cas de langages fonctionnels. Leur approche simplifie la preuve de cor-rection. En effet, elle permet de déduire cette preuve de correction de celle du système de types initial.

Pottier et Simonet [37] ont travaillé sur une extension de la partie purement fonctionnelle du SLam calcul. Leur extension rajoute au Slam calcul les réf´ e-rences, les exceptions et le polymorphisme de types. Ils présentent également la preuve de non-interférence qui lui est associée.

Exceptions Les exceptions sont des mécanismes présents dans certains langages, qui peuvent être lancés par un programme lorsqu’une erreur est décelée à l’exécution. C’est le cas par exemple d’une division par zéro. Un program-meur peut aussi s’en servir pour signaler des conditions exceptionnels. Une exception peut être attrapée par une construction spéciale du langage, entraˆı-nant un transfert de contrôle non local à l’origine de l’exception. Ceci pouvant

(39)

potentiellement cr´eer des flots d’information implicites. Une exception non at-trap´ee peut aussi causer un flot d’information implicite.

Volpano et Smith [49] proposent un système de types simple qui permet de déceler la présence de flots d’information implicites liés à la gestion des ex-ceptions. Leur système de types est néanmoins assez restrictif.

Myers [32] juge imprécise les gestions précédentes faites des exceptions. En ef-fet il défend le fait que ces méthodes ne peuvent être convenablement utilisées dans des langages de programmation fréquemment utilisés. Ce travail porte sur une extension du langage orienté objet Java, JFlow. Cette extension du langage Java, lui rajoute des annotations de sécurité de flot d’information qui sont évaluées statiquement. Contrairement aux méthodes antérieures de ges-tion de flot d’informages-tion, Myers propose l’utilisages-tion d’étiquettes de chemin. Les étiquettes de chemin sont les étiquettes des informations transmises par de différents chemins de terminaison possibles : terminaison normale, termi-naison avec lancement d’exceptions, etc. Cela permet un suivi plus précis des flots implicites causés par les exceptions. Cependant ils n’ont pas démontré la non-interférence de leur système.

Pottier et Simonet [37] et Simonet[43] se sont intéressés à la programmation fonctionnelle avec une version de lambda calcul enrichie entre autres du poly-morphisme, des références et des exceptions. Ils proposent pour la gestion des exceptions une version plus flexible, avec une analyse polymorphe des effets, que celle de Myers qui utilise la gestion monomorphe, avec les clauses throws de Java. Leur analyse est assez précise et ils présentent aussi la preuve de non-interférence associée.

Programmation orientée objet La programmation orientée objet est également un concept important pour la majorité des langages de programmation r´ e-cents. Le langage JFlow, présenté par Myers [32] est une extension du langage orienté objet très populaire Java. JFlow rajoute au langage Java, des annota-tions pour lune analyse statique du flot d’information. Un système de types permet de vérifier si le flot d’information du programme est sécuritaire. Le compilateur Jif décrit par Myers et al.[33] a été implémenté en intégrant le système de types pour pouvoir traiter ce langage.

Abadi et Cardelli [2] notant l’absence d’une vraie th´eorie des objets, semblable au λ − calcul pour les langages fonctionnels, en proposent dans leur ouvrage qu’ils nomment les Objet-calculs. Une de leur version d’Objet-calcul est le F Ob1≤: qui est muni du sous-typage d’objet et de la subsomption. Barthe

(40)

et Serpette [6] analysent le flot d’information dans un langage orienté-objet simple basé sur F Ob1≤:. Ils démontrent que leur système de types assurent la

non-interf´erence.

Banerjee et Naumann [5] ont travaillé sur un langage orienté-objet s´ equen-tiel qui est muni entre autres de pointeurs, de l’héritage et des liaisons dy-namiques. Ils étudient l’allocation dynamique de mémoire. Leur système de sécurité étend celui de Volpano et Smith [50] avec les flots de données incluant les attributs d’objets mutables. Il contrôle le flot d’information lors d’invoca-tions de méthodes qui sont associées dynamiquement à la bonne classe. Ils démontrent que leur système de types assurent la non-interférence.

B - Concurrence.

La concurrence est un domaine de recherche important et à part entière qui a fait l’objet de plusieurs études. Le non-déterminisme est un des aspects, étudiés, les plus importants en concurrence. On peut aussi ajouter à celui-ci la concurrence de threads comme autre aspect ayant fait l’objet d’étude.

Non-déterminisme : Le non-déterminisme a été étudié sous plusieurs angles en ce qui concerne la concurrence. L’un de ceux concerne les processus s’ex´ e-cutant avec une mémoire partagée. Bien souvent, un programme peut être exécuté dans un environnement multi-processus, où tous les processus sont exécutés dans une mémoire partagée, on pourrait s’attendre à ce que le même programme ne produise pas les mêmes valeurs de sortie avec deux exécutions différentes. La définition initiale de Volpano et al. [48] n’est donc plus tout `

a fait appropriée. Smith [45] propose une autre définition désignée par non-interférence possibiliste qui vise à considérer l’aspect non déterministe des programmes. Elle est énoncée de la fa¸con suivante :

Définition 4. (Non-interférence possibiliste) : Un programme c satisfait la non-interférence possibiliste si, pour toutes mémoires µ et ν qui co¨ıncident sur les variables de niveau L, si l’exécution de c sur la mémoire µ peut produire la mémoire finale µ 0 , alors l’exécution de c sur ν peut produire une mémoire finale ν 0 telle que µ 0 et ν 0 co¨ıncident également sur les variables de niveau L.

Les règles de typage de la figure 2.1 ne sont plus appropriées pour as-surer l’interférence possibiliste comme le montre l’exemple de la figure 2.3

(41)

Thread α :

while (mask != 0) { while (trigger0 == 0)

;

leak = leak | mask ; ( ou binaire) trigger0 = 0 ; maintrigger = maintrigger+1 ; if (maintrigger == 1) trigger1 = 1 ; } Thread β : while (mask != 0) { while (trigger1 == 0) ;

leak = leak & mask ; ( et binaire avec le compl´ementaire de mask) trigger1 = 0 ; maintrigger = maintrigger+1 ; if (maintrigger == 1) trigger0 = 1 ; } Thread γ : while (mask != 0) { maintrigger = 0 ; if (secret & mask == 0)

trigger0 = 1 ; else trigger1 = 1 ; while (maintrigger != 2) ; mask = mask/2 ; } trigger0 = 1 ; trigger1 = 1 ;

Table 2.3 – Programme multithread avec fuite d’information

, tiré de Smith et Volpano [46]. Les valeurs initiales de toutes les variables sont 0, excepté mask, dont la valeur est une puissance de 2, et secret dont la valeur est un naturel arbitraire inférieur au double de mask. On peut re-marquer qu’avec un ordonnanceur équitable, ce programme copie toujours secret dans leak. Pourtant tous les trois threads sont bien typés lorsque que secret, trigger0 et trigger1 sont de type H et leak, maintrigger, et mask sont de type L.

Il faut donc ajouter de nouvelles restrictions pour les programmes multi-processus. Smith et Volpano [46] pour rétablir la propriété de non-interférence dans un environnement multi-processus, imposent deux nouvelles restrictions

(42)

pour typer les boucles while : ils exigent que la garde de la boucle while soit de type L, et que la boucle while elle-même soit de type L cmd. Ces nouvelles restrictions permettent effectivement d’éliminer l’exemple précédent du fait que trigger0 et trigger1 soient de type H, ils ne peuvent être utilisés dans les gardes des boucles while des processus α et β.

Cependant Smith [45] s’intéresse à l’ordonnanceur de processus et fait remar-quer que la notion de non-interférence possibiliste n’est suffisante que si nous supposons un ordonnanceur purement non-déterministe. Avec un tel ordon-nanceur , il n’y a pas d’approximation concernant la mémoire pouvant résulter de l’exécution du programme, une mémoire finale est simplement soit possible soit impossible. Pourtant un vrai ordonnanceur est forcément plus prévisible. Considérons l’exemple d’un ordonnanceur qui lance un pièce de monnaie à chaque étape pour choisir quel processus exécuter. Prenons l’exemple suivant de Mclean [28]. Le programme est constitué de deux processus :

Processus β

leak = secret ; Processus α

leak = random(100) ;

Supposons que random(100) retourne un nombre aléatoire entre 1 et 100 et que la valeur de secret est entre 1 et 100. Ce programme satisfait la non-interférence possibiliste, car la valeur finale de leak peut être n’importe quelle valeur entre 1 et 100 indépendamment de la valeur de secret. Mais avec un ordonnanceur probabiliste comme celui qui se sert des résultats d’un jet de pièce de monnaie, la valeur de leak sera la valeur de secret avec la probabilité 101/200 et pour tous les autres nombres entre 1 et 100, la probabilité 1/200. Cet exemple justifie le choix d’une propriété de sécurité plus forte, la non-interférence probabiliste. Nous proposons une définition informelle de celle-ci.

Définition 5. (Non-interférence probabiliste) : Un programme c satisfait la non-interférence probabiliste si, pour toutes mémoires µ et ν qui co¨ıncident sur les variables de niveau L, si l’exécution de c sur la mémoire µ peut produire la mémoire finale µ0 avec une distribution conjointe de probabilité des valeurs de niveau L, d , alors l’exécution de c sur ν peut également produire une

(43)

mémoire finale ν 0 telle que la distribution conjointe de probabilité des valeurs de niveau L, est également d .

Smith [45] décrit un système de types pour assurer la non-interférence pro-babiliste dans les programmes multi-processus. Ce système de types permet aux gardes de boucles while de contenir des variables H, mais pour empêcher une interférence due au temps d’exécution, il exige qu’une commande dont le temps d’exécution, dépend de variables H ne puisse être suivie d’une as-signation à une variable L. Cela s’explique intuitivement par le fait qu’une affectation à une variable L est dangereuse dans un environnement multi-processus. Car si un autre processus fait une affectation à la même variable, alors l’ordre possible dans lequel les affectations s’effectuent (et ainsi la valeur finale possible de la variable de type L) dépend de l’information H. Le système de types utilise les ensembles de type suivants :

(types de donn´ees) τ : := L | H

(types de phrases) ρ : := τ | τ var | τ1 cmd τ2 | τ cmd n

On note la substitution de la règle τ cmd par les deux dernières. Celles-ci peuvent être traduites :

• Une commande c est typ´ee τ1 cmd τ2 si elle assigne uniquement `a des

variables de type τ1 ou plus élevés et son temps d’exécution dépend

uni-quement de variables de type τ2 ou plus bas.

• Une commande c est typée τ cmd n si elle assigne uniquement à des variables de type τ ou plus élevés et si c’est garanti qu’elle termine en exactement n étapes.

Joshi et Leino [21], contrairement aux auteurs précédents, arrivent à traiter le non-déterminisme en utilisant une approche différente. Au lieu d’utiliser une approche syntaxique, ils se servent plutôt d’une approche sémantique avec une propriété de sécurité équationnelle. Ils définissent un programme HH (“destruction de h”) qui signifie informellement “affecter une valeur arbitraire”. Un programme C est considéré sécuritaire si et seulement si :

∀s ∈ S. [HH; C; HH]_s ≈ [C; HH]_s

pour une relation d’équivalence ≈ appropriée sur les ensembles de valeurs fi-nales. La présence de HH après C dans les deux équations permet d’égaliser l’ensemble des valeurs finales possibles de h. Cette équation se traduit intui-tivement par : “la modification de la valeur initiale de h ne se reflète pas dans l’ensemble des valeurs finales de l ”. Ce qui en fait une condition de sécurité possibiliste. Ils utilisent la logique des prédicats pour démontrer l’équivalence

(44)

de leur notion de programme ayant un flot d’information sécuritaire à celle de la non-interférence de Volpano et al. [48].

Sabelfeld et Sands [41] se servent de Relations d’Équivalence Partielles (PER) pour spécifier de fa¸con formelle les propriétés de sécurité. La spécification for-melle est faite en utilisant la sémantique dénotationnelle. Ils montrent que la propriété de sécurité équationnelle de Joshi et Leino [21] est une instance de leurs spécifications et traitent le non-déterminisme en étendant l’approche avec une sémantique de domaines puissance. Ils proposent également une m´ e-thode de formalisation des propriétés de sécurité probabilistes en se servant de sémantiques de domaines puissance probabilistes.

Langar et al. [26] adoptent une démarche différente. Ils proposent une tech-nique formelle et modulaire pour assurer de manière automatique une poli-tique de sécurité dans un système concurrent. Etant donné un programme concurrent P et une politique de sécurité φ, ils génèrent automatiquement un autre programme P0 qui satisfait φ. Le programme ainsi généré se comporte comme P dans tous les cas, sauf lorsque P viole la politique de sécurité φ. Dans ce cas, il arrête son exécution. Ils utilisent une version étendue de l’al-gèbre de processus ACP (Algebra of Communicating Process) [4] et l’algèbre de processus qu’ils nomment BPA∗_δ,1 (Basic Process Algebra) comme langages formels pour spécifier respectivement les systèmes concurrents et les politiques de sécurité.

Concurrence de threads : Dans le cas de programmes multithreads s’ex´ ecu-tant avec un même processeur, d’autres considérations doivent être prises en compte. Ainsi l’ordre d’exécution des threads peut rendre non sécuritaire, un thread qui de fa¸con indépendante serait sécuritaire. Par exemple, considérons le programme (thread) suivant :

h := 0 ; l := h

Ce programme est sécuritaire dans un typage sensible au flot. En effet, même si la variable h est considérée de niveau élevé (DeclareRobustCommand), lorsqu’on lui affecte la constante 0, elle deviendra une variable publique (low) comme cette constante. Alors l’affectation suivante est sécuritaire aussi et mettra l à h qui est dorénavant une variable publique. Cependant la sécurité peut être compromise si un autre programme(sécuritaire) est exécuté en pa-rallèle. Ainsi si ce programme modifie la valeur de h avec une valeur secrète DeclareRobustCommand : h := h’, immédiatement avant que le thread pr´ e-cédent n’exécute la commande l := h, celui-ci n’est plus sécuritaire. Car lors

(45)

de cette affectation la valeur affect´ee n’est plus celle de la constante publique 0, mais bien la valeur priv´ee h0.

Volpano et Smith [46] sont les premiers à démontrer pour un langage mul-tithread, la non-interférence. C’est une non-interférence possibiliste, c’est à dire qui est établie par rapport aux valeurs de sortie possibles. Deux condi-tions sont nécessaires dans leur système pour assurer la non-interférence. La première est qu’une boucle while ne devrait pas avoir de garde de niveau de sécurité élevé DeclareRobustCommand. La deuxième impose que les boucles while elles-mêmes soient de type low cmd. Il faut cependant noter que cette non-interférence s’appuie aussi sur le fait que l’ordonnanceur utilisé pour s´ elec-tionner le thread à exécuter doit être purement non-déterministe. Les auteurs mentionnent néanmoins qu’ils ne savent pas comment mettre en place un tel ordonnanceur en pratique. Avec la plupart des ordonnanceurs employés comme le round-robin, la propriété de non-interférence n’est plus valable. Cela est dû au fait que ces ordonnanceurs ne sont pas en réalité vraiment non-déterministe dans leur choix de thread, causant une fuite d’information. Pour arriver à restaurer la non-interférence, les auteurs proposent une nouvelle condition encore plus contraignante que les deux précédentes : les gardes de branchements conditionnels doivent également être de niveau de sécurité bas low. Cependant même si la non-interférence est ainsi préservée, cette dernière condition est trop restrictive en pratique.

Volpano et Smith [51] ont travaillé aussi avec un ordonnanceur probabi-liste. Dans leur travail, ils considèrent que l’ordonnanceur choisira le prochain thread à exécuter suivant une distribution de probabilité uniforme. Dans ce cas, la non-interférence possibiliste n’est pas suffisante. Ils utilisent ici une ap-proche différente de la précédente qui pour restaurer la non-interférence, a dû imposer la condition contraignante de ne pas permettre des gardes de condi-tionnelles de niveau de sécurité élevé high. Ils imposent plutôt de transformer les conditionnelles ayant une garde de niveau high en commandes atomiques, grâce à une nouvelle commande protect. Cela correspond en fait à faire fonc-tionner le thread en exclusion mutuelle jusqu’à la fin de la conditionnelle. En réalité, un nouveau type de flot d’information non sécuritaire qui survient avec les ordonnanceurs probabilistes est celui lié au temps d’exécution des commandes. Ils démontrent par la suite que les programmes “protégés” bien typés dans le système respectent la non-interférence probabiliste 5.

(46)

nou-veau typage des commandes qui est identique à celui qu’il présente dans [45] et que nous avons préalablement mentionné. C’est à dire que les commandes sont typées plutôt :

τ1 cmd τ2 | τ cmd n

Ce nouveau typage permet d’imposer des restrictions plus précises concernant la fuite d’information liée au temps d’exécution de la commande. Ainsi les conditionnelles avec une garde de niveau de sécurité élevé high, ne sont plus systématiquement rejetées. Il ne faut rejeter que celles qui sont immédiatement suivies par une affectation à une variable de niveau de sécurité publique, low. De ce fait, un thread ne manipulant que des variables de niveau de sécurité ´

elevé high, est toujours considéré sécuritaire.

Pottier [35] adopte une méthode syntaxique pour traiter la non-interférence dans une situation de concurrence de threads . Il choisit d’étendre le π-calcul de Milner [30] avec des étiquettes de sécurité et nomme le nouveau langage hπi-calcul. Ce langage décrit l’exécution indépendante d’une paire de processus, tout en gardant une trace des sous-processus qu’ils partagent. Son approche pour établir la non-interférence consiste à réduire celle-ci à une simple pro-priété de réduction du langage. C’est une bisimulation faible qui stipule que l’élimination de sous-termes ayant une étiquette de sécurité de niveau élevé n’est pas visible par un observateur public. Notons que ce travail étudie plutôt la non-interférence possibiliste 4 et pas celle probabiliste5.

C - Canaux cach´es.

Les canaux cachés sont des vecteurs d’information, au sein d’un système infor-matique, par le biais de mécanismes qui à la base ne sont pas censés fonctionner comme des canaux d’information. Certains flots d’information implicites sont des exemples de canaux cachés liés au stockage de l’information. Ils sont parfois plus difficiles à détecter. C’est le cas des flots d’information causés par des dépendances existantes entre des données sensibles et le temps d’exécution ou le comportement probabiliste d’un programme.

Canaux liés à la terminaison : Supposons qu’un attaquant puisse détecter la terminaison (ou non-terminaison) du programme suivant :

while h = 1 do skip

C’est un cas de flot d’information implicite car cela nous renseigne sur la va-leur de la variable secrète h. Volpano et Smith [49] s’intéressent à ce type de flots d’information implicites. L’idée principale de leur travail est d’imposer

(47)

que les constructions bien typées aient le niveau de sécurité minimum. Une nouvelle commande try est introduite pour analyser les cas de lancement d’exception comme une division par zéro, par exemple. La commande try ne possède pas un bloc catch pour attraper l’exception qui serait ainsi lancée. En fait les valeurs entières sont les seules valeurs possibles. Leur d´ emonstra-tion de la non-interférence est faite en trois étapes. La première est appelée accord de terminaison. Elle correspond à stipuler que si deux exécutions d’un programme ont les même valeurs pour les variables de niveau minimum en mémoire, alors si l’exécution de l’une ne se termine pas, il en sera de même pour l’exécution de la seconde. Dans le cas où les deux exécutions arrivent à terme, alors les mémoires produites par les deux exécutions contiennent les même valeurs pour les variables de niveau minimum. Par la suite, ils disent que l’accord de terminaison est une contrainte trop faible et qu’elle ne traite pas les cas où l’une des exécution ne se termine pas, alors que l’autre se termine de fa¸con anormale (à cause du lancement d’une exception). Ils en arrivent à une nouvelle notion, qu’ils nomment la progression mutuelle. Elle correspond à dire que pour deux exécutions du même programme à partir de deux mémoires qui sont identiques pour les variables de niveau minimum, si l’une des exécutions ne peut arriver à terme, alors en il en sera de même forcément pour la seconde. En somme si l’une des exécution peut progres-ser, il faut qu’il en soit de même pour l’autre. Finalement ils montrent que la progression mutuelle n’est pas vraiment suffisante car elle ne permet pas d’imposer aux deux exécutions du même programme d’atteindre leur état de terminaison (ou non-terminaison dans le même temps). La troisième notion qu’ils introduisent est donc un accord de temps d’exécution. Mais pour pou-voir l’assurer, des restrictions importantes ont dû être imposées. Ainsi, toutes les conditionnelles doivent aussi avoir un type minimal, les boucles ne pouvant ˆ

etre de niveau de sécurité élevé.

Abadi et al. [1] identifient un point commun entre une analyse de la sécurité d’un programme, une analyse dite binding-time analysis, le suivi des appels de fonctions et le découpage de programme (Program slicing). L’objectif de l’analyse dite binding-time analysis est de séparer dans un programme ce qui peut être évalué statiquement de ce qui ne peut l’être que dynamiquement. Le point commun à toutes ces analyses est qu’elles identifient des propriétés de dépendance. Elles expriment ces dépendance avec des Relations d’Équivalence Partielles (PER) pour un langage qui est une variante du λ-calcul. Ce langage

(48)

est nommé le DCC (Dependency Core Calculus). Leur méthode consiste à traduire chacune de ces analyses en DCC. Ils traduisent ainsi le système de type de Volpano et Smith [46] en DCC et démontrent la non-interférence.

Canaux liés au temps d’exécution : En fait les canaux liés à la terminaison peuvent être considérés comme une instance des canaux liés au temps d’ex´ e-cution. Car en pratique, on ne peut faire la différence entre la non-terminaison et une exécution qui prend énormément de temps. Même si plusieurs facteurs peuvent rendre ce type de canaux très peu efficaces, il ne faut pas les n´ egli-ger. Un exemple bien intéressant montre que certaines implémentations de l’Algorithme RSA permettent une fuite d’information concernant la clef de cryptage, du fait de leur comportement en fonction du temps. En effectuant un certain nombre de cryptages et en évaluant leur temps d’exécution, l’atta-quant pourrait deviner la clef entière.

Agat [3] propose une approche pour supprimer les canaux cachés liés au temps d’exécution des programmes. Cette approche se sert d’une technique de trans-formation de programme. Il présente un système de types et un algorithme de transformation s’appuyant sur le typage. Cette transformation supprime les canaux cachés des programmes afin de les rendre sécuritaires par rapport `

a une condition de sécurité basée sur la sémantique qui est exprimée comme une bisimulation. La transformation peut être représentée comme un système de types avec des mises à jour de type de la forme : C ,→ C₁0 : Sl.

Avec C, le programme original, C0 le résultat de la transformation et Sl, la tranche de bas niveau de C0. C0 et C sont sémantiquement équivalents, en effet ils effectueront la même séquence d’outputs et d’assignations aux variables globales . La différence entre Sl et C0 est que dans Sl, les sous-commandes de C0 qui manipulent des données de niveau de sécurité élevé, sont remplacées par des commandes aléatoires sans effet sur les variables de niveau élevé. Cela permet de conserver la relation d’équivalence entre Sl et C0 par rapport aux variables de niveau de sécurité bas. L’analyse du programme C se conclut soit par le rejet direct de celui-ci (dans le cas de flot d’information implicites ou explicites), soit à son acceptation suivie de sa transformation pour en retirer éventuellement toutes possibilités de flot d’information lié au temps d’exécution. Le système de types puis de transformation pourrait se résumer en la règle suivante :