Egalit´e entre types ´ - From types to logical assertions : automatic or assisted proofs of pro

était aussi vérifiée. Toutes ces précieuses informations de typage peuvent être recouvrées dans le corps de la branche associée à ce motif. Ainsi, de l’évaluation de a résulte une valeur de type β1, de celle de b une valeur de type β2. Le couple (eval(a), eval(b)) est donc du type β1× β2, c’est-à-dire un type égal

à α ce qui rend la branche bien typée. Dans le cas de Pair , notons que des variables universellement quantifiées (β1 et β2) sont introduites automatiquement par le typeur.

Exhaustivit´e plus pr´ecise

Pour finir, la précision accrue des schémas de type des constructeurs de données induit un meilleur diagnostic statique de l’exhaustivité des pattern matchings. En effet, reprenons l’exemple de la fonc- tion eval mais spécialisons son type en term int → int. On restreint le domaine d’application de l’évaluateur en n’évaluant que des termes de type int. Le typeur peut donc déterminer statiquement que la branche IsZ peut être supprimée sans atteinte à l’exhaustivité de l’analyse car les valeurs construites à partir de IsZ sont de type term bool.

3.2 ´Egalit´e entre types

Le traitement des égalités de type associées aux constructeurs de données est au centre des pro- blèmes de vérification et d’inférence de type lorsque l’on ajoute les GADT à ML. Dans cette section, nous tâchons de donner informellement une idée de ces difficultés.

3.2.1 R`egle de conversion

Si on tente de formaliser les arguments qui nous ont convaincus du bon typage de la fonction eval de la section3.1.3, plusieurs ingr´edients interviennent.

En premier lieu, la présence d’égalités de type locales aux corps des branches induit l’existence d’un ensemble d’égalités de type valides en chaque point du programme. Du point de vue de la formalisation, cela nécessite l’introduction d’un nouvel objet au sein des hypothèses du jugement de typage : la liste

E des égalités de types récoltées dans le contexte o`u est plongé le terme dont on veut déterminer le type. En conséquence, la forme du jugement de typage pour ML muni de GADT est

Γ, E ` t : τ

et se lit dans l’environnement de typage Γ et sous les hypothèses d’égalités de type E, le terme t a le type τ .

Pour saisir le rôle de E, il faut alors se poser les deux questions suivantes : Quand augmente-t-on le système d’équations E ? Quand utilise-t-on les égalités du système E ?

L’augmentation de E est effectu´ee par le typage des match. En effet, la confrontation du type du terme analys´e (dans eval t qui a le type term α) et du type du motif (ici, le motif Lit(i) qui a le type

term int) implique une égalité entre types (par exemple, l’égalité α = int). Le système d’équations E

est donc localement augmenté dans la branche par cette égalité.

L’utilisation de E est moins localisée dans le sens o`u elle ne dépend pas de la forme du terme qu’on cherche à typer. En d’autres termes, aucune indication syntaxique ne permet de décider où utiliser les équations de E. En fait, la contribution de E est implicite car elle contraint le typage à s’effectuer modulo toutes les égalités de type impliquées par E. Nous avons utilisé cette propriété dans notre exemple pour montrer que le corps de la branche avait bien le type attendu pour le retour de la fonction eval. Plus précisément, voici la dérivation que nous avons utilisé dans notre explication informelle :

eval : ∀α.term α → α, t : term α, i : int; α = int ` i : int α = int |= α = int eval : ∀α.term α → α, t : term α, i : int; α = int ` i : α

32 3. Extension de ML par des GADT

Elle se lit ainsi : sachant que le terme i est un entier et que le système d’équations E (ici α = int) implique l’égalité α = int alors le terme i est aussi de type α. Cette forme de règle de déduction est appelée règle de conversion car elle permet de convertir le type d’un terme en raisonnant non pas sur le terme mais sur son type. Voici la version générale de cette règle :

Γ, E ` t : τ2 Γ, E |= τ1= τ2

Γ, E ` t : τ1

Cette règle de conversion ainsi qu’une légère modification de la règle habituelle pour typer le

pattern matching sont les seules modifications à apporter à ML pour introduire les types algébriques

généralisés. La décidabilité du bon typage dépend alors de la décidabilité des implications entre égalités de type (comme le montre l’hypothèse de la forme Γ, E |= τ1 = τ2). Or, si on se limite aux types

standards de ML, ces implications sont d´ecidables efficacement par l’algorithme appel´e congruence

closure (Baader & Nipkow,1998,Nelson & Oppen,1980).

3.2.2 Probl`eme de l’inf´erence de types

Un des traits caractéristiques du langage de programmation ML est l’inférence de types découverte par Roger Hindley et Robin Milner (Damas & Milner,1982). L’objectif de l’inférence de types est de calculer un type principal (le plus général) pour tout programme ML bien typé. L’adaptation de cet algorithme est la difficulté principale posée par les types algébriques généralisés. Dans cette section, nous allons essayer de fournir une intuition sur la nature de cette difficulté.

Perte de la principalit´e

La première difficulté réside en la perte de la principalité. En effet, une fois les GADT introduits dans le langage, un programme ML ne possède plus un type plus général que tous les autres. Pour le comprendre, appuyons-nous sur l’exemple de la figure3.8.

type eq =

| Eq : ∀α.eq α α

let cast = λe.λx.match e with Eq → x

Fig. 3.8: Une fonction poss´edant plusieurs types principaux.

Ces deux sch´emas de type ML sont acceptables pour la fonction cast : – ∀αβγ. eq α β → γ → γ

– ∀αβ. eq α β → α → β – ∀αβ. eq α β → β → α

Si le premier schéma doit sembler naturel au lecteur intime avec l’inférence habituelle de ML, le second schéma nécessite une explication (le troisième schéma est du même acabit). Une valeur de type eq peut être vue comme la preuve d’une égalité entre deux types. Ainsi, lorsque l’on apprend que le terme e, de type eq α β, est Eq, de type eq δ δ (pour un certain δ), on apprend du même coup l’égalité

α = β = δ. Or, comme x est de type α, x est aussi de type β ce qui justifie le type de retour affect´e `a

la fonction cast.

Le point important, c’est qu’aucun de ces schémas de type n’est plus général que l’autre (aucune instanciation des paramètres de l’un ne permet de retrouver l’autre et réciproquement). Nous verrons

3.2 ´Egalit´e entre types 33

dans la section suivante qu’il faut généraliser la syntaxe des types pour réussir à trouver un type plus général que ces trois là.

Cette perte de la principalité pose diverses problèmes. Tout d’abord, la principalité est une pro- priété au centre de l’algorithme efficace d’inférence de types de Hindley-Milner car elle permet de traiter l’inférence de manière incrémentale sans retour en arrière. Ensuite, si un programme ne pos- sède pas un unique schéma de type plus général, doit-on le rejeter, doit-on calculer l’ensemble des schémas de type plus généraux valides pour ce programme ou peut-on se permettre de faire un choix arbitraire entre tous les schémas possibles ?

Détermination et utilisation des égalités de type

La seconde difficulté est inhérente à la présence de l’ensemble des égalités de type contenues dans le jugement de typage. Dans le cadre de l’inférence de types, les deux questions de la section précédente, quelles sont les nouvelles égalités de type ? et où utilise-t-on ces égalités ? ne sont plus indépendantes mais au contraire interdépendantes.

Pour approfondir notre intuition sur ce problème d’inférence de types, on peut rappeler les travaux de Fran¸cois Pottier et Vincent Simonet (Simonet & Pottier, 2007) sur HMG(X). Ils généralisent la réduction de l’inférence de types de ML à la résolution de contraintes sous préfixes mixtes (Pottier & Rémy, 2005) en augmentant le langage des contraintes par des implications. Sans rentrer dans les détails, la contrainte à résoudre dans le cas de cast est de la forme :

. . . def x : γ1 in γ2= γ3⇒ γ1= γ4. . .

Les variables γ1, γ2, γ3, γ4sont les variables de la contrainte de typage. Ici, la variable γ1correspond

au type de la variable x, les variables γ2et γ3sont telles que le terme e a le type eq γ2γ3et la variable γ4représente le type de retour de la fonction cast. Pour résoudre cette contrainte, plusieurs opérations

sont utiles.

Pour traiter cette implication, on doit naturellement explorer plusieurs voies de résolution. L’une suppose la partie gauche valide dans la partie droite c’est-à-dire γ2 = γ3 et effectue la résolution

des égalités entre types modulo cette égalité. La seconde suppose la partie gauche invalide et relâche alors la contrainte en ignorant la partie droite de l’implication. On touche du doigt une explosion combinatoire dans la résolution de ces contraintes et, effectivement, dans le cas général, ce nouveau langage de contraintes nécessite un algorithme de résolution dont la complexité est non élémentaire.

Un autre point important mis à jour par l’étude de HMG(X) (Simonet & Pottier, 2007) est la nécessité d’étendre la syntaxe des schémas de type pour retrouver la propriété de principalité du typage. Seuls des schémas de type contraints, i.e. de la forme ∀α[C].τ , permettent de capturer dans toute sa généralité le type d’un programme ML utilisant des GADT. Par exemple dans HMG(=) (Simonet & Pottier,2007), le schéma de type contraint le plus général et valide pour la fonction cast est :

∀γ1γ2γ3γ4.[γ1= γ2⇒ γ3= γ4].eq γ1γ2→ γ3→ γ4

Cependant, cette forme de schémas de type ne nous semblent pas adéquate pour un langage de programmation car elle fait apparaˆıtre des contraintes dont les formes résolues sont très lourdes et dont la résolution ne peut pas être effectuée de tête par le programmeur.

3.2.3 Solution retenue pour l’inf´erence de types

MLGX, une dose d’explicite pour retrouver la principalit´e

La section précédente a montré dans quelle mesure la détermination des égalités de type et leur utilisation étaient sujets à des choix interdépendants. Le caractère implicite de la règle de conversion

34 3. Extension de ML par des GADT

et la nature disjonctive de l’implication sont à l’origine de ce non-déterminisme. C’est pourquoi nous choisissons de supprimer ces deux traits du langage en élaborant un langage plus explicite que nous appelons MLGX.

Nous supprimons tout d’abord la règle de conversion implicite au profit d’une explicitation syn- taxique de l’utilisation des égalités de type. Pour cela, on introduit un opérateur de coercion de la forme :

(t : τ1 . τ2)

Il signifie au système de type qu’un changement explicite du type d’un terme est nécessaire en indiquant qu’un terme dont le type est τ1doit être vu comme un terme de type τ2. Bien évidemment,

cette construction est acceptée par le système de type seulement si les égalités de type du contexte établissent effectivement l’égalité τ1= τ2.

Nous supprimons ensuite la n´ecessit´e des implications de type dans le langage de contraintes en

for¸cant l’expression observée par un pattern matching à être annotée par un type rigide ou connu.

Dès lors, on extrait des égalités de type simplement en confrontant le type de chaque motif et ce type connu. Cette confrontation est locale et peut être effectué indépendamment de la vérification et de la synthèse des types. On peut donc déterminer en tout point du programme, dans une passe préliminaire, les égalités de type qui y sont valides.

Dans MLGX, la fonction cast s’´ecrit :

let cast = ∀αβ.λe x.match (e : eq α β) of Eq → (x : α . β)

Pour pouvoir spécifier le type rigide de la valeur analysée à l’aide d’une annotation, on a introduit deux variables de type universellement quantifiées. Ensuite, on explicite la coercion du type α de la variable x en un type β.

Il n’y a pas d’ambigu¨ıt´e sur le sch´ema de type de cast, il s’agit de

∀αβ. eq α β → α → β

Plus généralement, cette dose d’explicitation permet à MLGX de recouvrer des types principaux. Mieux encore, la suppression des implications de type dans le langage de contraintes permet de retrouver l’inférence de types dans le style de Hindley-Milner. En effet, une fois vérifiée la validité des coercions, on peut interpréter (x : α . β) comme l’application de la fonction identité (sans contenu calculatoire) de type α → β ce qui est un cas standard d’application de fonction en ML.

MLGX est d´ecrit dans le chapitre4de cette th`ese.

MLGI, une dose d’inférence locale prévisible pour alléger le travail d’annotation

Le point noir de MLGX est la lourdeur des annotations de type. Pour s’en donner une idée, la figure8.3explicite les coercions et les annotations nécessaires pour écrire la fonction eval dans MLGX. En observant ces annotations, on constate que certaines sont difficiles à inférer tandis que d’autres se déduisent facilement du contexte. Plus précisément, on a vu précédemment que déterminer le schéma de type d’une fonction utilisant des GADT est très complexe1_{. L’annotation soulignée dans la figure}

devrait donc être requise. Par contre, une fois cette annotation connue, les annotations en gris sont déduites facilement. Notons la présence de variables de type dans les motifs, comme dans le motif  Pair β1β2a b . Il s’agit d’une introduction de variables de type universellement quantifiées dont le scope est limité au corps de la branche de ce motif.

La solution proposée pour décharger le programmeur de ce fardeau qu’est l’annotation est un algorithme d’inférence locale (aussi appelé élaboration) qui va insérer automatiquement des coercions

Dans le document From types to logical assertions : automatic or assisted proofs of property about functional programs (Page 32-36)