Vérification des programmes basée sur la sémantique

Ce chapitre présente les travaux commencés pendant mon séjour à Cambridge dans l’équipe du professeur Mike Gordon. L’objectif est de fonder la vérification des programmes par exécution symbolique sur une sémantique opérationnelle du langage définie formellement dans l’assistant de preuves HOL4.

Je décris brièvement les principes d’HOL¹ et la philosophie spécifique aux

assis-tants de preuves. Je détaille ensuite une première approche que nous avons implémen-tée dans HOL4 et qui reprend mes travaux sur la vérification des programmes par exécution symbolique (voir section III.4 page 112), mais qui base l’exécution symbol-ique sur une sémantsymbol-ique opérationnelle du langage définie formellement dans HOL4. Ce premier travail m’a permis de me familiariser avec HOL4 et a permis une première collaboration avec Mike Gordon sur les preuves par bounded model checking, alors que le plus souvent, avec un assistant de preuves, l’usage est de réaliser des preuves complètes en générant une plus faible pré-condition. Ce travail est intégré à la distri-bution actuelle de HOL4 (HOL4 est téléchargeable sur http://hol.sourceforge. net/;nostravauxsetrouventdanslerpertoireexamples/opsemTools) et a donné

lieu `a un rapport de recherche [4]. J’ai choisi de le pr´esenter bien qu’il ne soit pas

encore publié, car il soulève de nombreuses questions ouvertes et perspectives dont je discute dans le chapitre VI section VI.2. Enfin, je présente une réflexion de synthèse qui formalise les preuves “en avant” (principe utilisé dans le bounded model check-ing) sous la forme d’un ensemble de règles pour générer une plus forte post-condition et les compare aux preuves complètes qui produisent une plus faible pré-condition.

Ce travail a donné lieu à une publication comme co-auteur pour célébrer le 75îème

anniversaire de Tony Hoare [7].

IV.1 L’assistant de preuves interactif HOL4

IV.1.1 Historique

Cette sous-section donne un bref aper¸cu de l’historique d’HOL. Mon objectif est d’en situer la philosophie de base et les majeures évolutions qui me paraissent significatives en tant que non spécialiste mais utilisatrice pour la vérification de programmes. L’article de Mike Gordon en l’honneur de Robin Milner [6] fournit un historique détaillé.

LCF HOL est un descendant du système LCF (Logic for Computable Functions), un programme de “vérification de preuves” créé à l’Université de Stanford par Robin Milner en 1972. La logique de LCF manipule des termes du lambda-calcul typé et des formules du calcul des prédicats. Ce système est décrit de la fa¸con suivante par Robin Milner lui-même :

”The proof-checking program is designed to allow the user interactively to generate formal proofs about computable functions and functionals over a variety of domains, including those of interest to the computer

Dans tout ce chapˆıtre, j’emploierai le nom HOL4 pour l’implémentation actuelle, et j’emploierai le nom plus générique HOL pour parler de la famille des assistants de preuves en logique d’ordre supérieur.

IV.1. L’ASSISTANT DE PREUVES INTERACTIF HOL4 165

scientist - for example, integers, lists and computer programs and their semantics. The user’s task is alleviated by two features : a subgoaling facility and a powerful simplification mechanism”.

Une preuve avec LCF consiste donc `a travailler sur un but `a prouver en le

prouvant directement par des règles de simplification ou en appliquant des règles d’inférence pour générer des sous-buts.

Edimburg-LCF LCF présentait deux problèmes majeurs : la taille des preuves était limitée par la capacité mémoire, et le nombre de commandes pour manipuler les

preuves était limité. LCF a donc donné lieu à une nouvelle version “Edimburg-LCF”

qui présente deux améliorations majeures. D’une part, seuls les résultats des preuves (i.e. les théorèmes) sont sauvegardés. L’idée maˆıtresse est qu’il est inutile de garder le déroulement des preuves. Au contraire, les théorèmes sont typés par un type abstrait de données dont les valeurs prédéfinies sont les axiomes et les opérations sont les règles d’inférence. Ainsi, un nouveau théorème est correct par construction car il ne peut être obtenu qu’à partir d’une dérivation de règles d’inférence à partir d’axiomes. D’autre part, Edimburg-LCF est basé sur le méta-langage ML pour définir les règles d’inférence et les axiomes, ce qui rend le système extensible.

Cambridge-LCF Au début des années 1980, Larry Paulson et Gérard Huet ont apporté des améliorations, en particulier sur ML (ces travaux ont donné lieu au développement de Caml par l’équipe de G. Huet), sur la gestion mémoire, et la fa¸con d’implémenter des outils de preuve. Ces travaux ont apporté une amélioration conséquente de la rapidité d’exécution de LCF.

HOL A la même période, Mike Gordon travaillait sur la vérification de matériel^`

et a appliqu´e les id´ees de composition des agents CCS “Calculus of

Communicat-ing Systems” de Robin Milner `a l’assemblage de composants mat´eriels. Pour cela,

il a défini la notation LSM (Logic of Sequential Machines), et l’a implémentée dans “Cambridge LCF-LSM”. Comme la modélisation de matériel nécessite d’écrire des relations entre entrées/sorties du composant, les connexions internes étant cachées, et nécessite d’autre part de décrire des signaux qui sont des fonctions sur le temps, il s’est avéré indispensable d’avoir une logique d’ordre supérieur avec quantifica-teurs. HOL (pour Higher Order Logic) est donc une implémentation dans LCF d’une logique d’ordre supérieur. Les différentes évolutions de HOL sont présentées en détail dans [6].

Applications d’HOL N’´etant pas une sp´ecialiste de HOL, je ne donne pas ici un

´etat de l’art exhaustif mais me contente de donner un aper¸cu des travaux que j’ai

étudiés lors de mon séjour à Cambridge.

Le démonstrateur HOL et ses dérivés ont été appliqués à de nombreux

do-maines allant de la vérification réalisée complètement “à la main” de théorèmes

math´ematiques (e.g. la preuve de la consistance de l’axiome du choix que Lawrence

automatisées comme la vérification de l’implémentation d’un Lisp sur différentes architectures [9].

HOL a été utilisé à son origine pour la vérification de matériel, avec les travaux

précurseurs de Mike Gordon et Warren Hunt présentés section II.1.3 page 28. Ces travaux ont été poursuivis notamment pour formaliser en HOL le jeu d’instructions du processeur ARM6 ainsi que sa micro-architecture et vérifier la correction entre ces deux niveaux [5]. Les travaux plus récents de l’équipe de Mike Gordon portent sur la compilation de langages assembleur (voir section II.3 page 37).

Enfin, les travaux actuels concernent aussi des aspects plus théoriques, pour enrichir le cœur même d’HOL. Il s’agit en particulier de la formalisation en HOL de la “separation logic”, une logique qui permet de gérer séparément deux états. Cela est utilisé en particulier pour modéliser la programmation objet en tenant compte du contexte d’appel des méthodes [13, 10]. D’autre part, de nombreux efforts portent sur l’intégration d’outils externes comme un solveur SAT [1, 14] ou un solveur SMT (travail en cours de Tjark Weber). Le principe est d’appeler le solveur externe pour son efficacité et d’utiliser des informations de la preuve effectuée pour reconstruire une preuve en HOL. Par exemple, pour un solveur SAT, si la formule est satisfiable,

alors le solveur fournit un exemple qui sert à générer un théorème HOL grâce à la

tactique “EXISTS TAC” (voir exemple IV.2) ; si la formule n’est pas satisfiable on peut utiliser la dérivation des résolutions qui ont permis de générer la clause vide [14].

IV.1.2 Caract´eristiques principales de HOL4

Je présente ici de fa¸con succincte les idées de base pour le développement d’une preuve avec HOL4. Ceci est illustré avec l’exemple fourni dans le tutorial de la distribution HOL qui définit et montre des propriétés de la division euclidienne.

HOL encourage les d´efinitions plutˆot que les postulats d’axiomes comme dans

LCF. En effet, la logique d’ordre supérieur rend possible la spécification de nom-breux objets mathématiques uniquement à partir de définitions. Une session avec HOL4 se présente donc de la fa¸con suivante. Tout d’abord il faut définir (ou utiliser) une théorie qui contient un ensemble de types, de signatures, d’axiomes et de théorèmes. Les types sont prédéfinis ou définis par l’utilisateur (de type Hol type). Les termes sont des variables, des constantes, des applications de fonctions et des lambda-abstractions. Les théorèmes sont des termes particuliers de type thm, notés

hypothese ⊢ conclusion (un axiome étant un théorème particulier où l’hypothèse

est vide). L’exemple IV.1 présente une théorie définie pour prouver le théorème d’Euclide.

Exemple IV.1 (Th´eorie de la division euclidienne) La th´eorie de la division

euclidienne utilise la théorie de l’arithmétique qui contient les types, définitions et propriétés élémentaires de l’arithmétique (e.g. le type num, la constante 0, les

opérations élémentaires +, −, ... définies à partir de l’opérateur suc et 0, la propriété

de commutativité du +, ...). Elle ajoute à cette théorie la définition de la divisibilité

IV.1. L’ASSISTANT DE PREUVES INTERACTIF HOL4 167

syntaxe usuelle syntaxe HOL

∧ /\ ∨ \/ ¬ ˜ ∀ ! ∃ ? ⇒ ==> ⊢ |– λx. \x.

Fig. IV.1 – Syntaxe des principaux op´erateurs logiques en HOL

théorèmes sont prouvés et ajoutés à la théorie. Les lignes suivantes sont directement

extraites du fichier d’exemple “euclid.sml” de la distribution de HOL ((*1*) est un commentaire). La syntaxe des principaux op´erateurs HOL est donn´ee figure IV.1. (*1*) open arithmeticTheory (*2*) val divides_def = Define ‘divides a b = ?x. b = a * x‘; (*3*) val prime_def = Define ‘prime p = ~(p=1) /\ !x. x divides p ==> (x=1) \/ (x=p)‘; (*4*) val DIVIDES_0 = store_thm

("DIVIDES_0",

‘‘!x. x divides 0‘‘,

METIS_TAC [divides_def,MULT_CLAUSES]);

La ligne (*1*) indique que la théorie d’Euclide utilise toutes les définitions et théo-rèmes de la théorie de l’arithmétique. La ligne (*2*) définit la division euclidienne sous le nom de “divides” avec la définition : a divise b si et seulement si il existe x tel

que b = a∗x. La ligne (*3*) d´efinit la primalit´e d’un nombre p sous le nom de “prime”

avec la définition que p est premier si et seulement si p est différent de 1 et pour tout x, si x divise p alors x = 1 ou x = p. La ligne (*4*) demande d’ajouter à la théorie le théorème de nom “DIVIDES 0” qui indique que pour tout x, x divise 0. Plus précisément, ce théorème est d’abord prouvé en appliquant la tactique “METIS” (qui combine plusieurs tactiques élémentaires et permet de prouver efficacement des propriétés de l’arithmétique), et en utilisant de fa¸con spécifique la définition de “divides” et le théorème “MULT CLAUSES” de la théorie de l’arithmétique :

|- !m n. (0 * m = 0) /\ (m * 0 = 0) /\ (1 * m = m) /\ (m * 1 = m)

/\ (SUC m * n = m * n + n) /\ (m * SUC n = m + m * n)

HOL est un assistant de preuves interactif c’est-`a-dire qu’il aide

l’utilisa-teur à effectuer la preuve en offrant des tactiques prédéfinies, en vérifiant que

Nom Syntaxe Théorème renvoyé

Assumption ASSUME t t|- t

Reflexivity REFL t |- t=t

Beta-conversion BETA CONV (\x.t1)t2 |-(\x.t1)t2 = t1[t2/x]

Substitution SUBST T1|-t1=t1’,...,Tn|-tn=tn’, T1...TN T|-t(t1’,...,tn’) T|-t(t1,...,tn)

Abstraction ABS x T|-t1=t2 T|-(\x.t1) = (\x.t2)

Discharge DISCH t1 T|-t2 T-{t1}|-t1 ==> t2

Modus Ponens MP T1|-t1 ==> t2, T2|-t1 T1 T2|-t2

Fig. IV.2 – R`egles d’inf´erence primitives

résultat. Il offre sept règles d’inférence primitives qui sont présentées dans la figure IV.2. Par exemple, la règle d’inférence “ASSUME” introduit le théorème t comme une hypothèse qui valide la conclusion t. L’utilisateur peut définir lui-même sa propre tactique comme un assemblage de tactiques primitives ou de tactiques pré-définies et en indiquant quels théorèmes utiliser.

Le d´eroulement d’une preuve en HOL est de deux types : les preuves en avant

qui utilisent principalement les règles d’inférence “ASSUME”, “MP” et “DISCH” (de telles preuves sont en général assez délicates à mener car peu intuitives), et les preuves dirigées par des buts. Dans ce dernier cas, les preuves sont des successions

d’utilisation de règles d’inférence primitives ou pré-définies. À chaque instant,

l’util-isateur indique quelle tactique il veut utiliser. HOL4 v´erifie que la tactique s’applique

et calcule les sous-buts `a prouver pour finir la preuve. Le processus est rendu plus

efficace grâce à un ensemble de procédures de décision associées à certaines théories

(e.g. vérification de tautologies basée sur la représentation des BDDs). De plus, la recherche de la preuve peut être dissociée de la preuve elle-même. Des programmes externes (comme un solveur SAT par exemple) peuvent être utilisés comme des or-acles pour fournir le résultat d’une preuve, sans que cette preuve ait besoin d’être construite en HOL (dans ce cas, le théorème résultat est “étiqueté” comme oracle pour que l’on sache qu’il n’a pas été prouvé avec la logique d’HOL). L’exemple IV.2 montre la preuve d’un lemme pour théorème d’Euclide.

Exemple IV.2 (Preuve d’un lemme pour le th´eor`eme d’Euclide) La

preu-ve du théorème d’Euclide est assez longue et complexe et peut être trouvée dans la distribution HOL et dans l’annexe VII.2.1 page 271. Le théorème d’Euclide qui dit

que l’ensemble des nombres premiers est infini (i.e. !n. ?p. n < p ∧ prime p) est

prouvé par induction sur n, il est donc nécessaire de prouver le lemme intermédiaire :

!x. divides x 0pour le cas de base. Ce lemme peut être prouvé directement grâce

a la tactique “METIS TAC” comme dans l’exemple IV.1. Nous montrons ici ce qui se passe si l’on utilise uniquement des tactiques primitives. Pour ˆetre plus pr´ecise et montrer la pile des buts, je donne une copie textuelle de l’interaction avec HOL4.

Tout d’abord, on donne le but `a prouver avec la commande “g”.

IV.1. L’ASSISTANT DE PREUVES INTERACTIF HOL4 169

> val it =

Proof manager status: 1 proof. 1. Incomplete:

Initial goal: !x. divides x 0 : proofs

Il y a une preuve en cours et un but `a prouver. On demande maintenant `a “expanser”

(commande e) la tactique de réécriture “RW TAC” en utilisant l’ensemble de règles de simplification de l’arithmétique “arith ss” et en utilisant la définition de la division “[divides def]”.

- e (RW TAC arith ss [divides def ]); OK..

1 subgoal:

> val it = ?x’. (x = 0) ∨ (x’ = 0)

Lors de l’expansion de la tactique, la définition de “divides” a été appliquée avec a =

x et b = 0 pour obtenir divides x 0 = ?x’.0=x*x’ et le th´eor`emeMULT EQ 0 = |- !m

n.(m*n=0) = (m=0) ∨ (n=0) a été utilisé comme règle de réécriture. Il reste alors à

prouver le sous-but?x’. (x = 0) ∨ (x’ = 0). Ce but est prouv´e de fa¸con triviale si

l’on instancie x^′ avec 0 ; il suffit pour cela d’utiliser la tactique “EXISTS TAC”.

- e (EXISTS TAC ‘‘0‘‘); OK.. 1 subgoal: > val it = (x = 0) ∨ (0 = 0) - e (RW TAC arith ss []); OK.. Goal proved. |- (x = 0) ∨ (0 = 0) Goal proved. |- ?x’. (x = 0) ∨ (x’ = 0)

> val it = Initial goal proved. |- !x. divides x 0

Ceci termine la preuve du lemme. ´Evidemment, mˆeme si des tactiques comme

la tactique “METIS TAC” permettent de prouver un grand nombre de formules de l’arithmétique sans autre précision, mener une preuve avec HOL4 requiert une grande habitude et une bonne connaissance des tactiques et théorèmes existants.♯

R`egle de simplification pour la v´erification de programmes Je termine

cette sous-section introductive `a HOL4 par deux exemples de r`egles que nous avons

définies dans le cadre de la vérification des programmes Java par rapport à une

spécification JML. L’exemple IV.3 illustre une tactique définie pour calculer la négation de la spécification JML et l’exemple IV.4 illustre comment transformer une quantification universelle sur un domaine fini en une conjonction. Ce dernier exemple illustre aussi le fait qu’HOL4 a une logique d’ordre supérieur : la tactique

Exemple IV.3 (Négation d’une spécification JML) Bon nombre des spécifica-tions JML des programmes que nous avons vérifiés sont en fait une conjonction des cas d’utilisation de la méthode. Par exemple, pour le programme T ritype de clas-sification d’un triangle en fonction de trois entrées i, j et k (voir figure III.14 page 123), la spécification JML est :

/*@ requires (i>=0)&&(j>=0)&&(k>=0); @ ensures

@ ((i+j<=k)||(j+k<=i)||(i+k<=j)) ==> \result == 4 &&

@ !((i+j<=k)||(j+k<=i)||(i+k<=j))&&((i==j)&&(j==k)) ==> \result == 3 && @ !((i+j<=k)||(j+k<=i)||(i+k<=j))&&!((i==j)&&(j==k))

@ &&((i==j)||(j==k)||(i==k)) ==> \result == 2 && @ !((i+j<=k)||(j+k<=i)||(i+k<=j))&&!((i==j)&&(j==k)) @ &&!((i==j)||(j==k)||(i==k)) ==> \result == 1; @*/

Pour utiliser la programmation par contraintes comme une procédure de décision, nous prenons la négation de la spécification. Pour calculer efficacement cette négation, tout en gardant une forme qui reste proche de la spécification initiale (et on peut l’espérer des expressions du programme), nous avons défini une règle de

conver-sion² qui utilise la loi de De Morgan `a un seul niveau. La r`egle de conversion est la

NOT CONJ IMP CONV ¬((A1 ==> B1) ∧ ... ∧ (An ==> Bn) ∧ TM) = |- (A1 ∧ ¬B1) ∨ ... ∨ (An ∧ ¬Bn) ∨ ¬TM

Elle a été écrite en ML, et utilise des règles de conversion et des théorèmes basiques comme par exemple le théorème de la théorie des booléens qui énonce la loi de De Morgan :

DE MORGAN AND THM = !A B. ¬(A ∧ B) = ¬A ∨ ¬B

Dans cette r`egle de conversion les Ai et Bi sont des termes quelconques.♯

Exemple IV.4 (Quantificateur universel born´e) La primitive \forall de JML

permet d’exprimer une propriété pour un ensemble de valeurs comprises entre deux bornes. Par exemple, la pré-condition de la recherche binaire d’une valeur dans un tableau en JML est la suivante :

\forall int i ;0<=i && i<a.length-1 ; a[i]<=a[i+1]

La règle de conversionboundedForAll CONV, écrite en ML, utilise des règles de

con-version basiques et le théorème d’ordre supérieur suivant :

BOUNDED FORALL THM = |- !c. 0<c ==> (( !n. n<c ==> P n) = P (c-1) ∧ !n. n<c-1 ==> P n) : thm

Ce théorème expanse d’un cran la propriété P (n) vraie pour tout n inférieur à c. P est ici un prédicat quelconque qui s’applique à la variable n ; c’est en ce sens que la règle de conversion est d’ordre supérieur.

Cette r`egle de conversion simplifie au passage les sous-termes obtenus. Appliqu´ee `

a une fonction f quelconque, elle calcule simplement la conjonction de tous les f (i) pour i < c.

2Une règle de conversion est un théorème qui est utilisé par une tactique de réécriture de gauche `

IV.2. EX ÉCUTION SYMBOLIQUE BAS ÉE SUR LA S ÉMANTIQUE 171

-val tm = ‘‘ !n. n<8 ==> f(n)‘‘ ; -val btm = boundedForAll CONV tm ; > val btm = |- ( !n. n<8 ==> f n) =

f 7 ∧ f 6 ∧ f 5 ∧ f 4 ∧ f 3 ∧ f 2 ∧ f 1 ∧ f 0 : thm

Si maintenant f est le pr´edicat n < n + 1 qui est toujours vrai, la r`egle de

conversion renvoie T c’est-`a-dire la valeur “vraie”.

-val tm2 = ‘‘ !n. n < 8 ==> n<n+1‘‘ ; -val btm2 = boundedForAll CONV tm2

> val btm2 = |- ( !n. n<8 ==> n<n+1) = T : thm ♯

IV.2 V´erification des programmes par ex´ecution

sym-bolique bas´ee sur la s´emantique

Je présente ici mes travaux sur le bounded model checking (BMC) de programmes dont la sémantique est définie en logique d’ordre supérieur. L’idée initiale est de trouver un compromis entre l’efficacité fournie par des solveurs externes et une plus grande correction en basant les étapes de l’exécution symbolique sur la sémantique

d´efinie dans HOL4. Notre objectif `a long terme est d’offrir aussi bien une preuve

incomplète par BMC qu’une preuve complète avec HOL4 dans un cadre sémantique cohérent.

IV.2.1 Principes

Le principe général est celui présenté dans l’algorithme section III.4 figure III.13 : le programme est exécuté symboliquement en coupant à la volée les chemins

Dans le document Contribution à la vérication formelle et programmation par contraintes (Page 180-194)