Conception d’une extension mat´erielle - Compilation optimisante pour processeurs extensibles

un seul nœud codant l’instruction du processeur utilis´ee. Le compilateur standard du processeur extensible se base ensuite sur cette repr´esentation pour effectuer l’allocation des registres et l’ordonnancement.

Cependant, l’algorithme d’ordonnancement du GPP hôte ne tient généralement pas compte du parallélisme entre l’extension et le GPP hôte. Pour pallier cette insuffisance, il est possible d’utiliser un algorithme d’ordonnancement spécifique généré à partir de la description de l’architecture et du jeu d’instructions du processeur [118,191,33] (dans un langage ADL15 _{comme LISA [}₈₉_{]) ou encore}

de n’utiliser l’ordonnancement du compilateur que pour des zones de code où aucune instruction spécialisée n’est utilisée. Dans ce cas, une nouvelle version du code de l’application est générée ou écrite par le concepteur : pour chaque zone optimisée par des ISE, l’ordonnancement des instructions est décrit explicitement par une séquence d’instructions assembleur en ligne qui ne sera pas analysée par le compilateur.

1.2 Conception d’une extension mat´erielle

Concevoir un ASIP consiste, par définition, à analyser une ou plusieurs applications qui corres- pondront à la cible logicielle du processeur. C’est cette analyse qui permettra d’explorer les multiples possibilités architecturales afin de répondre aux besoins de l’application ainsi qu’aux contraintes ma- térielles du produit. L’objectif de cette section est de présenter l’intérêt et le principe d’un flot de conception ASIP reposant sur une exploration itérative des nombreux paramètres à évaluer.

1.2.1 Conception par exploration

Quels que soient l’architecture du processeur et le niveau de conception (i.e., complète ou partielle) d’un ASIP, la compilation de l’application sur le processeur constitue le cœur de la problématique. En effet, comme évoqué dans la sous-section1.1.2, c’est lors de la compilation que sont sélectionnées les instructions du processeur. C’est donc uniquement après cette étape que l’architecture concrète du processeur pourra être définie. Ces informations permettront alors au concepteur d’évaluer la pertinence des instructions sélectionnées et leur adéquation avec les différentes contraintes applicatives et architecturales.

Il est aujourd’hui admis qu’un flot de conception ASIP ne peut pas être entièrement automa- tisé [92]. En effet, l’espace des possibilités architecturales est trop vaste et complexe pour être entiè- rement modélisé par des fonctions de coût qui sont pourtant les seuls moyens de quantifier la qualité de choix automatiques. Il s’agit plutôt d’identifier un compromis acceptable, en fonction du contexte applicatif et matériel, entre les critères de performance et les coûts en surface et en consommation. Un tel choix ne peut raisonnablement reposer que sur l’expertise du concepteur et l’objectif des outils est alors d’automatiser la compilation tout en laissant au concepteur la possibilité de définir un cadre architectural en adéquation avec ses exigences et contraintes.

Pour répondre au mieux à cette problématique, les méthodologies de conception d’ASIP s’appuient sur un processus cyclique [77,99,47,74] qui assiste le concepteur à atteindre un compromis satisfai- sant par une exploration itérative de l’espace de conception. Les principales étapes de ce processus de

22 Chapitre 1. Contexte et ´etat de l’art sur l’extension de jeux d’instructions Compilation Analyse de l'application Exploration architecturale Génération de code Évaluation/ Simulation/ Synthèse Selection de code Ordonnancement Génération / Extension du jeu d'instruction Allocation registres Concepteur

Figure 1.8 – Conception assist´ee d’un ASIP par exploration.

conception peuvent être résumées par la figure1.8. Tout d’abord, le concepteur analyse l’application pour identifier les parties critiques et en déduire les modèles d’architecture et d’exécution (e.g., SIMD, VLIW, etc.) qui lui semblent les plus adaptés pour le futur processeur spécialisé. Les caractéristiques issues de cette exploration architecturale sont alors utilisées par le compilateur ASIP qui sélectionne les instructions du processeur et produit un code assembleur exploitable par l’architecture. La description matérielle de cette dernière peut être générée à partir du modèle architectural retenu lors de l’étape précédente et des instructions sélectionnées. Les informations obtenues sur les performances de l’application (par simulation [47,74] ou par évaluation d’une fonction de coût) combinées à celles issues de la synthèse de la description matérielle du processeur permettront au concepteur d’établir si le compromis entre les performances de l’application et les contraintes matérielles est acceptable. Si ce n’est pas le cas, le processus de conception sera raffiné par une nouvelle exploration. Une fois que le concepteur est satisfait des performances et de l’architecture, le processus est terminé.

1.2.2 Couplage de l’extension mat´erielle au processeur

Dans le cas d’un processeur extensible, la première étape de l’exploration architecturale consiste à choisir un couplage entre l’extension matérielle et le GPP hôte :

• Couplage fort (e.g., OneChip [192] ou Chimaera [203]). L’extension matérielle est assimilée à une nouvelle unité fonctionnelle connectée au chemin de données du GPP hôte. Elle accède directement à sa file de registres pour lire les opérandes et écrire les résultats des ISE et le coût des communications entre le processeur et l’extension est négligeable.

1.2. Conception d’une extension matérielle 23 • Couplage lâche (e.g., Microblaze [199,22] ou S6000 [174] ). L’extension matérielle peut égale- ment communiquer avec le processeur hôte par l’intermédiaire de mémoires et éventuellement en utilisant un DMA16, les ISE sont généralement de taille plus importante que pour un couplage fort. Si une communication utilise une mémoire, son coût n’est plus négligeable et dépend de la technologie utilisée.

• Coprocesseur (e.g., GARP [86] ou ADRES [131]). L’indépendance de l’extension matérielle est élevée : elle dispose généralement de sa propre file de registres ainsi que de mémoires internes qui lui permettent d’exécuter des zones de code pouvant aller jusqu’à des fonctions entières. Ainsi, un coprocesseur peut avoir son propre flot de contrôle et communique très peu avec le processeur hôte.

La liste des architectures citées est loin d’être exhaustive et, pour une étude plus complète, le lecteur est invité à consulter les articles [63,84,187] qui référencent et présentent les plus répandues.

1.2.3 Granularit´e de la sp´ecialisation

La granularité des instructions spécialisées est liée au couplage entre l’extension matérielle et le processeur hôte. Ainsi, des ISE de petite taille sont généralement utilisées dans des extensions matérielles fortement couplées. D’autre part, il est évident que la granularité des ISE joue sur la flexibilité de l’extension : des motifs de taille réduite auront plus de probabilité d’être présents dans de multiples applications en comparaison avec des motifs contenant plus de nœuds et donc plus spécifiques. Réciproquement, des instructions spécialisées dont la taille est importante offrent souvent, mais pas systématiquement (cf.section 1.1.2.3, page20), plus d’opportunités d’accélération matérielle.

! " #! #" $! $" %! %" &! &" "! ! #!! $!! %!! &!! "!! '!! (!! )*+,-./01 /)02-3/45/6537.*87405 ) *+ ,- ./ 0 1/ 65 37 .* 87 40 53

(a) Distribution of size of extension instructions.

! "!! #!! $!! %!! &!! '!! (!! " "! "!! "!!! "!!!! )*+,-./01 /)02-3/45/67348/6908: ) *+ ,- ./ 0 1/ 6 7 34 8/ 6 90 8: 3

(b) Distribution of size of basic blocks (logarithmic scale). Figure 2: The distribution of the number of nodes in the graphs used for graph-subgraph isomorphism.

1.3 Overview

The remainder of this paper is structured as follows. In section 2 we introduce extensible processors and the existing approaches to automated instruction set extension. This is followed in section 3 by a presentation of our novel code generation methodology for AISEgenerated instruction patterns. We demonstrate the effective- ness of our approach through experimental evaluation in section 4 before we discuss related work in section 5. Finally, in section 6 we summarize our results, conclude and provide an outlook to future work.

2. BACKGROUND

This section provides a short overview of the technologies relevant to the work of this paper.

2.1 Extensible Processors

Extensible processors are based on the premise that processor performance, die area, and power consumption can be improved if the architecture of the processor is extended to include some fea- tures that are application-specific. This approach requires an abil- ity to extend the architecture and its implementation, as well as the compiler and associated binary utilities, to support the application- specific extensions.

Architecture extensions begin with the capability to add custom instructions to a baseline instruction set. In their simplest form these may be predefined packs of add-on instructions, such as the ARMDSP-enhanced extensions included in the ARM9E[3], the various flavors of MIPSApplication Specific Extensions [17], or SYNOPSYS’ floating-point extensions to the ARCOMPACTinstruc- tion set [2].

These are domain-specific extensions, they can be used across many related tasks. Application-specific instruction set extensions are not predefined by the processor vendor but are instead identified by the system integrator through analysis of the application. To allow such instructions to be incorporated into a pre-existing processor pipeline, there must be a well-defined extension interface. From a high-level architecture perspective this interface will allow the extension to operate as a “black-box” functional unit at

the execute (Ex) stage of a standard RISCpipeline. This is an over- simplification though, standard RISCinstructions are two-input and one-output. Effective extension instructions require this constraint to be relaxed as extensions exploit the parallelism available in large instructions. This, therefore, generally requires an extended or ad- ditional register file, hence the need for an extension interface. Practical extensible processors for the embedded computing mar- ket, such as those from SYNOPSYSand TENSILICA, normally have single-issue in-order pipelines of 5-7 stages. This permits operat- ing frequencies in the range 400-700MHz at the 90nm technology node. Extension instructions may be constrained to fit within a single clock cycle, or may be pipelined to operate across multiple cycles.

The representation of instruction set extensions varies from one vendor to another, but essentially describes the encoding and se- mantics of each extension instruction in ways that can be under- stood by both a processor generator tool and all of the software tools (e.g. compilers, assemblers and simulators). There follows a process of translating the abstract representation of the extension instructions to structural form using a Hardware Description Lan- guage (HDL) such as VERILOGor VHDL. This is then incorporated into the overall HDLdefinition of the processor, that is then synthe- sized to the target silicon technology or perhaps to an FPGA.

2.2 Automated Instruction Set Extension

Many algorithms for AISEhave been described in the literature, [11] provides a comprehensive survey of the topic. The algorithm used for the generation of ISEs in following sections of this paper, however, is ISEGEN[5].

The most basic constraints on extension instructions are:

1. The template is convex (i.e. there is no dataflow path between two operations in the template that includes an operation that is not in the template), so that it may be scheduled. 2. Input and output port constraints are met (i.e. the number of

Figure 1.9 – Tailles des ISE identifi´ees par ISEGEN [23] dans les blocs de base de 179 benchmarks [137].

Définir la taille des instructions spécialisées constitue donc un autre paramètre supplémentaire de l’espace d’exploration d’un flot de conception ASIP. Lors d’une étude récente, la répartition des ISE en fonction de leurs tailles a été mesurée pour 179 benchmarks (télécommunications, multimédia et

24 Chapitre 1. Contexte et ´etat de l’art sur l’extension de jeux d’instructions

cryptographie) en utilisant ISEGEN [23], un algorithme glouton qui identifie à chaque itération une ISE qui maximise le profit d’une fonction de mérite. Les résultats de ces expérimentations ont été obtenus pour la représentation intermédiaire de GCC (options de compilation-O2) et sont résumés par la figure1.9. Il y apparaˆıt clairement que le nombre d’ISE de plus de dix nœuds est très faible et que la taille des blocs de bases ne dépasse que rarement 200 nœuds.

1.2.4 Espace d’exploration des architectures de l’extension

Les caractéristiques de l’architecture conditionneront les performances de l’application exécutée sur le processeur spécialisé et de nombreux paramètres sont donc à évaluer par le concepteur lors du processus d’exploration.

• Parallélisme spatial des opérations. Les opérations d’une représentation intermédiaire de type DAG peuvent être exécutées en parallèle si elles ne sont pas liées par des chemins de dépendances de données. L’extension comportera alors de multiples ressources matérielles qui occuperont d’autant plus de surface.

• Modèle d’exécution VLIW. Un modèle d’exécution VLIW pour les ISE utilisera simul- tanément plusieurs unités fonctionnelles reconfigurables de l’extension matérielle. Ainsi, le parallélisme spatial est exploité tout en augmentant le degré de réutilisation du matériel. • Modèle d’exécution SIMD. Le matériel de l’extension est dupliqué pour exécuter simul-

tanément plusieurs instances du comportement d’une ISE pour des données différentes. Ce comportement peut être fait à granularité fine (subword-parallelism) ou encore entre plusieurs itérations d’un même corps de boucle. On parle également de vectorisation.

• Modèle d’exécution pipelinée. Des ISE multicycles peuvent être pipelinées afin d’augmenter le débit de l’extension matérielle ou encore de réduire l’impact des contraintes issues de son nombre restreint d’entrées et de sorties [150].

• Approximation des flottants. Le traitement des flottants peut être simplifié en utilisant une approximation par virgule fixe dont la précision acceptable est dépendante de l’application. • Arithmétique des opérations. Le choix de l’arithmétique utilisée pour mettre en œuvre les

opérations de l’application peut augmenter les performances des calculs (par des opérateurs matériels plus efficaces) ou encore améliorer la sécurité du matériel [181].

• Mémorisation sur l’extension. L’utilisation de ressources mémoires embarquées sur l’extension réduit la pression sur le processeur hôte en limitant le nombre de communications nécessaires. Ainsi, une donnée intermédiaire produite sur l’extension restera sur l’extension si elle n’est pas utilisée par le processeur.

• Alimentation de l’extension. Les techniques de clock-gating et de power-gating peuvent également être envisagées pour réduire la consommation dynamique et statique de l’extension matérielle si celle-ci n’est pas utilisée lors de l’exécution d’un programme.

• Réseau d’interconnexions. La capacité d’un élément de calcul à communiquer avec d’autres ressources de calculs ou de mémorisation conditionne les performances de l’architecture. Ainsi, un réseau de communication très permissif (e.g., full-crossbar ) facilitera l’allocation des ressources au prix d’une surface matérielle élevée.

Dans le document Compilation optimisante pour processeurs extensibles (Page 30-34)