Perspectives - Intégration des collections topologiques et des transformations dans un langage

a imposer une d´eclaration du type des fonctions par le programmeur.

D’autres systèmes de types permettent de vérifier des propriétés plus fortes dans des langages `

a base de règles. Par exemple Structured Gamma [FLM98] munit le langage Gamma d’un système de types dédié à la vérification de l’intégrité de certaines structures de données.

De nombreux langages proposent un filtrage plus expressif que celui de ML. Citons TOM [MRV03] pour le filtrage associatif, ELAN [MK98], MAUDE [CDE+03] et CiME [CM96] pour le filtrage associatif et commutatif, CDUCE [FCB02] et G’CAML [Fur02] pour le filtrage sur le type et Generic Haskell [HJ03] pour le filtrage polytypique. Ces trois derniers langages sont munis d’un système de type original. Le langage que nous avons typé ici propose toutes ces caractéristiques, ainsi que du filtrage sur des structures non algébriques.

Le système de types proposé ici ainsi que le système de [Coh03c] ont été intégrés à un com-pilateur MGS. Ceci a permis d’éliminer l’étiquetage des valeurs par leur type lorsque celui-ci est inutile et a apporté de grandes améliorations des performances. Ceci nous incite à intégrer d’autres optimisations fondées sur les types telles que l’élimination des règles inutiles (voir sec-tion IX.3) et à affiner les règles de typage des transformasec-tions pour obtenir des types plus précis (voir ci-dessous).

VII.10 Perspectives

Nous décrivons ici des perspectives à court terme relatives au système de types présenté.

VII.10.1 Des types plus pr´ecis.

Analyse des motifs

Nous avons vu que notre système permettait d’inférer des types assez précis. Nous donnons ici trois cas où des types plus précis existent.

– Le type inféré pour la transformation {x : int ⇒ [true]} est [α]θ → [α ∪ (bool?(α ∩ int))]θ. Ce type ne porte pas l’information que la collection renvoyée ne contient plus d’entiers.

– Le type inféré pour la transformation {x : int ⇒ [x]; x : int ⇒ [true]} est [α]θ → [α ∪ (bool?(α ∩ int))]θ. Or la deuxième règle ne s’applique jamais car tous les entiers sont consommés par la première donc le type [α]θ → [α]θ qui est plus précis convient.

– Le type inféré pour la transformation {x : int ⇒ [x+1]; x ⇒ [x+.1.0]} est [float]θ → [float]θ à cause de l’opération flottante de la seconde règle. Pourtant la collection peut contenir des entiers sans provoquer d’erreur. Le type le plus précis serait [α]θ → [α]θ avec la contrainte α ⊆ int ∪ float.

154 Typage ensembliste

Ces trois exemples montrent qu’une analyse plus fine des règles permettrait de gagner en précision dans les types inférés. Ces améliorations nécessitent d’intégrer le complément ensembliste (ou une forme approchée) au système de types. Ceci se fait simplement puisque nous disposons déjà de l’opération de complément sur les types fermés par le haut. Les tests de types dans les motifs étant limités à des types fermés par le haut (types atomiques, tests de topologies pour les collections et éventuellement tests pour savoir si une valeur est une fonction), des compléments de types non fermés par le haut ne semblent pas nécessaires pour réaliser les analyses décrites ci-dessus.

Limitations du typage ensembliste

Par ailleurs l’utilisation des types union est source d’une autre perte d’information, indépen-dante du typage des collections et des transformations. L’exemple suivant met en évidence ce problème. Considérons une fonction map du type (α → β) → [α]θ → [β]θ. Appliquons-la à une fonction f du type α → α et à une collection c du type [int]seq ∪[bool ]seq. La collection étant une séquence soit d’entiers, soit de booléens, nous savons que le résultat sera une séquence contenant soit des entiers, soit des booléens. Or notre système de types saura uniquement indiquer que le résultat a le type [int ∪ bool ]seq, ce qui porte moins d’information que le type [int]seq ∪ [bool ]seq. Le problème est dû au type que nous donnons à map. Celui-ci indique que le deuxième argument de map doit avoir un type de la forme [θ]α. Or le plus petit type de c ayant cette forme est [int ∪ bool ]seq. C’est ce type qui sera utilisé pour calculer le type renvoyé, d’où la perte d’information. Un exemple similaire peut être donné pour le système de [AW93].

Notons que ceci est plus gênant si on considère une collection c du type [int]seq ∪[bool ]bag. En effet, dans notre système ce type ne peut s’écrire sous la forme [α]θ. Pour pallier à ce problème il suffit d’utiliser des topologies union comme on utilise des types union. La collections c pourrait alors avoir le type [int ∪ bool ](seq ∪ bag).

Cette fuite d’informations est une question que nous n’avons pas r´esolue pour le moment.

VII.10.2 Erreurs de structure newtonienne.

Notre syst`eme de types garantit l’absence d’erreurs de types au sens o`u

– aucune valeur n’étant pas une fonction ne peut être appliquée comme une fonction

– et aucune fonction ou opérateur attendant des valeurs d’un type particulier ne sera ap-pliquée à une valeur d’un type ne convenant pas.

Toutes les erreurs d’un programme ne sont pas des erreurs de type. Par exemple, les divisions par 0 ne peuvent généralement pas être détectées par les systèmes de types utilisés. Dans MGS nous rencontrons une erreur qui n’est pas à proprement parler une erreur de type mais qui semble détectable par des méthodes de typage. Il s’agit des erreurs de structure newtonienne (shape) survenant lorsqu’une transformation tente de modifier l’organisation des éléments d’une collec-tion à structure rigide. Un système fondé sur le système que nous proposons ici et permettant de détecter les erreurs de structure est proposé dans le chapitre suivant.

VII.10.3 Topologies complexes.

Dans ce chapitre nous avons considéré les topologies comme des symboles. Si on considère une topologie comme la donnée d’un ensemble d’opérateurs (les constructeurs et la substitution topologique) comme au chapitre IV, celle-ci induit des propriétés sur les collections produites.

Par exemple, une grille est une collection dont chaque élément a au plus quatre voisins, et dont les direction commutent et sont inverses deux à deux (nord x y ⇔ sud y x). Une topologie peut donc également être considérée du point de vue des propriétés. Nous proposons au chapitre suivant un moyen de garantir dans le système de types qu’une structure newtonienne est préservée par une transformation, i.e. que le motif et la séquence rempla¸cante des règles de la transformation ont toujours la même taille.

On peut imaginer des propriétés complexes sur les topologies où cette vérification n’est pas suffisante. Prenons comme exemple un damier int-bool, soit une grille dont les éléments booléens n’ont que des entiers comme voisins et vice-versa. L’analyse ici doit être plus fine. Elle ne peut être réalisée par notre système de types mais cette sorte d’analyse peut être traitée par un système de types, voir par exemple le système de [Mon94] pour cette propriété particulière.

La variété des collections topologiques/structures de données et des propriétés dont on peut avoir besoin de les équiper garantit une richesse dans les travaux potentiels sur le typage des collections et des transformations.

Variantes sur le syst`eme de types

Les travaux présentés dans la première section de ce chapitre ont été publiés dans [Coh03c], et [Coh04].

Nous avons vu dans le chapitre précédent comment donner un système de types puissant au langage MGS. Nous nous tournons à présent vers deux évolutions possibles de ce système. La première évolution est orientée vers l’optimisation : optimisation du code produit mais aussi simplification et accélération de l’inférence de types. Cette évolution est fondée sur la remarque que si on se limite aux collections homogènes (qui contiennent des valeurs de même nature) on peut :

– éliminer toutes les informations de types à l’exécution, le typage est alors complètement statique ;

– abandonner la relation de sous-typage fond´ee sur l’inclusion ensembliste, on n’utilisera plus de types union.

Ceci nous amènera également à proposer un algorithme d’inférence de types à la Damas/Milner. Ce système de types simple (sans sous-typage) est présenté en section VIII.1.

La seconde évolution est orientée vers la vérification. Le système de types du chapitre précédent ne permet pas de vérifier l’absence d’erreurs de structure à l’exécution. Nous pro-posons d’aborder ce problème en ajoutant une information sur la taille des collections dans leur type. Cette modification du type collection est faite de manière à modifier le moins possible notre système de types afin de pouvoir utiliser l’algorithme d’inférence déjà établi. Ce système est présenté en section VIII.2.

VIII.1 Typage simple

Par typage simple nous entendons un typage sans relation de sous-typage. Le typage simple a de nombreux avantages : la mise en œuvre est simple, bien connue et efficace. Il est utilisé dans de nombreux langages (dans OCaml par exemple même s’il existe des moyens d’avoir du sous-typage, notamment sur les objets). Enfin, il permet de produire du code dénué d’informations de types et donc plus efficace que du code dynamiquement typé.

Intégrer les collections topologiques et les transformations dans un système de type simple permet également de montrer qu’elles peuvent s’intégrer dans un langage préexistant, qu’il soit muni de sous-typage ou non.

158 Variantes sur le syst`eme de types

Nous commen¸cons dans cette section par regarder l’influence du typage simple sur le langage à considérer. Ensuite nous montrons comment on peut se ramener à un typage simple à partir du système présenté dans le chapitre VII. Enfin, nous détaillons un système plus proche du style Damas/Milner puis nous revenons sur les caractéristiques de l’approche simplement typée.

VIII.1.1 Collections homog`enes

Comme discuté en section VII.8.4, nous nous restreignons aux collections homogènes pour pouvoir développer un typage simple. Simple signifie sans sous-typage et donc sans types union. Cette absence de types union nous mènera à ne pas pouvoir accepter d’expressions comme 1::true::seq:()(collection hétérogène) ou comme if p then 1 else false.

Les tests de types deviennent également inutiles dans le langage (ou du moins ils ne peuvent avoir la même utilité qu’avec des collections hétérogènes). Nous les laisserons donc de coté.

L’homogénéité des collections doit être garantie par le système de types si l’on veut ga-rantir l’absence d’erreurs de type à l’exécution. Ceci impose de vérifier que les transforma-tions préservent bien l’homogénéité des collectransforma-tions. Par exemple la transformation { x/x=0 => [true] } renvoie une collection hétérogène dès que la collection à laquelle elle est appliquée contient des entiers nuls et des entiers non nuls. Elle doit donc être rejetée.

Il y a deux fa¸cons de garantir qu’une transformation préserve l’hétérogénéité :

– Soit la transformation ne change pas le type des éléments contenus dans la collection à laquelle elle est appliquée. La transformation { x/x=0 => [-1] } est dans ce cas.

– Soit elle filtre avec succès tous les éléments de la collection et les remplace par des éléments d’un même type. La transformation { x/x=0 => [true] ; x => [false] } est dans ce cas.

Pour vérifier ce dernier point, nous nous limiterons à vérifier que la transformation a une règle attrappe-tout, c’est à dire une règle dont le motif est de la forme x (ou bien ) et qui filtre donc tout élément.

VIII.1.2 Variation sur le typage ensembliste

Le système de types du chapitre VII peut être transformé en système simple en rempla¸cant les contraintes de sous-typage par des égalités dans les règles de typage. Dans les règles (trans) et (trans all) cette modification garantit que le type des éléments rempla¸cants est le même pour toutes les règles. Dans la règle (trans) elle garantit en outre que le type contenu de la collection argument est le même que celui de la collection renvoyée.

L’inférence automatique peut se faire en résolvant par unification les égalités produites. Ceci est plus efficace que la méthode de réduction de contraintes de sous-typage (en théorie ce problème est DEXPTIME-complet [KM89], donc meilleur que la résolution de contraintes ensemblistes mais est encore difficile, en pratique, les cas coûteux ne sont pas rencontrés comme en témoigne la grande satisfaction des utilisateurs de l’inférence à la Damas/Milner). L’unifica-tion ne pose ici aucun problème puisque les types sont des termes simples (i.e. ni associatifs, ni commutatifs, etc.).

VIII.1.3 Variation sur le syst`eme de Damas/Milner

Nous proposons de reformuler ce système dans un style à la Damas/Milner sans contraintes en partie gauche du symbole ⊢ et avec un algorithme fondé sur W [DM82]. Cet algorithme

produit les contraintes et les r´esout en une seule passe. R`egles de typage

Les r`egles de typage sont donn´ees dans la figure 1. Comme usuellement la fonction Gen

Γ(x) ≤ τ Γ ⊢ x : τ ^{(var − inst)} T C(c) ≤ τ Γ ⊢ c : τ ^{(const − inst)} Γ ∪ {x : τ₁} ⊢ e : τ2 Γ ⊢ (λx.e) : τ₁ → τ₂ ^{(f un)} Γ ⊢ e₁: τ^′→ τ Γ ⊢ e₂ : τ^′ Γ ⊢ e₁ e₂: τ ^(app) Γ ⊢ e₁: τ₁ Γ ∪ {x : Gen(τ₁, Γ)} ⊢ e₂ : τ₂ Γ ⊢ (let x = e₁ in e₂) : τ₂ ^(let) Γi⊢ ei: [τ ]seq Γi ⊢ gi : bool (1 ≤ i ≤ n) Γ ⊢ {m₁/g₁ ⇒ e1; . . . ; m_n/g_n⇒ en} : [τ ]ρ → [τ ]ρ^(trans) La règle ci-dessous ne peut être utilisée que si g_n est true :

Γ_i ⊢ ei : [τ^′]seq Γ_i ⊢ gi : bool (1 ≤ i ≤ n)

Γ ⊢ {m₁/g₁⇒ e1; . . . ; m_n/g_n⇒ en} : [τ ]ρ → [τ′]ρ^{(trans all)} o`u Γ_i = Γ ∪ γ_τ(m_i) et avec γ d´efinie par :

γτ(x) = {x : τ } γ_τ(∗ as x) = {x : [τ ]seq} γ_τ(µ, m) = γ_τ(µ) ∪ γ_τ(m) Fig. 1 – R`egles de typage simple.

généralise un type τ en schéma de type

∀α1, . . . , α_n, θ₁, . . . , θ_m.τ

où les variables de type et de topologie quantifiées sont les variables du type qui ne sont pas liées dans le contexte de typage.

Inf´erence automatique

La figure 2 donne l’algorithme W d’inférence automatique basé sur l’algorithme de Da-mas/Milner. Dans cet algorithme, ϕ dénote la substitution courante (dans un style impératif). Les fonctions f resh_t et f resh_r donnent des variables de type et des variables de topologie fraˆıches. Si l’algorithme échoue le programme est mal typé et sinon il calcule le type principal au sens de [DM82] du programme considéré.

160 Variantes sur le syst`eme de types

W (Γ ⊢ e) = (* cas originaux - Damas/Milner *) ife = x

let∀α1, . . . , α_n, θ₁, . . . , θ_m.τ = Γ(x) letα^′₁, . . . , α^′_n= fresh_t, . . . , fresh_t letθ₁^′, . . . , θ_m^′ = fresh_r, . . . , fresh_r

returnτ [α₁ α^′₁, . . . , α_n α^′_n, θ₁ θ₁^′, . . . , θ_m θ^′_m] if e = f un x → e letα = fresh_t letτ = W (Γ ∪ x : ∀.α ⊢ e) returnα → τ ife = e₁ e₂ letτ₁= W (Γ ⊢ e₁) letτ2= W (Γ ⊢ e2) letα = fresh_t do ϕ mgu(ϕ(τ₁) = ϕ(τ₂ → α)) ◦ ϕ ife = let x = e1 in e2 letτ₁= W (Γ ⊢ e₁) letσ = Gen(ϕ(τ₁), ϕ(Γ)) returnW (Γ ∪ {x : σ} ⊢ e2)

ife = {p₁/g₁ ⇒ e1; . . . ; p_n/true ⇒ e_n} (* cas suppl´ementaires pour *) letα, β = fresh_t, fresh_t (* traiter les transformations *) letθ = fresh_r fori = 1..(n − 1) letτ_i= W^¡Γ ∪ γ_α(p_i) ⊢ g_i) do ϕ mgu^¡{ϕ(τ_i) = bool}) ◦ ϕ letτ_i^′= W^¡Γ ∪ γ_α(p_i) ⊢ e_i^¢ do ϕ mgu^¡{ϕ(τ_i^′) = ϕ([β]seq)}^¢◦ ϕ letτ_n^′ = W^¡Γ ∪ γ_α(p_n) ⊢ e_n^¢ do ϕ mgu^¡{ϕ(τ_n^′) = ϕ([β]seq)}^¢◦ ϕ return[α]θ → [β]θ ife = {p1/g1 ⇒ e1; . . . ; pn/gn⇒ en} (gi6= true) letα = fresh_t letθ = fresh_r fori = 1..n letτ_i= W^¡Γ ∪ γ_α(p_i) ⊢ g_i) do ϕ mgu^¡{ϕ(τi) = bool}) ◦ ϕ letτ_i^′= W^¡Γ ∪ γα(pi) ⊢ ei^¢ do ϕ mgu^¡{ϕ(τ_i^′) = ϕ([α]seq)}^¢◦ ϕ return[α]θ → [α]θ

Fig. 2 – Algorithme d’inf´erence automatique W .

VIII.1.4 R´esultats

Le typage simple des collections et des transformations a les avantages suivants :

– Les performances de l’inférence automatique sont bonnes et ce style d’inférence est très répandu dans les langages fonctionnels.

– Aucun test de type n’est nécessaire à l’exécution et le code produit peut donc être non étiqueté. Le code produit est donc très efficace.

– L’hétérogénéité peut toujours être obtenue avec des types sommes (« l’ univers » sera donc défini à la main) ou avec des enregistrements extensibles.

Par ailleurs, puisque ce système peut être vu comme une modification du système du chapitre précédent (en rempla¸cant ⊆ par =), on peut utiliser la preuve de correction de ce dernier si l’on souhaite établir une preuve de correction pour le système simple.

Les inconvénients de ce système sont relatifs à l’absence de types union et ont été discutés en section VII.8.2, page 151.

Dans le document Intégration des collections topologiques et des transformations dans un langage fonctionnel (Page 170-178)