High Performance Fortran - Langages de programmation

2.3 Langages de programmation

2.3.1 High Performance Fortran

Le langage HPF [51] (High Performance Fortran) a été con¸cu dans les années 90 avec l’ambition de devenir un standard pour la programmation des machines parallèles à mémoire distribuée. Construit au dessus du langage Fortran 95, HPF a ainsi pour objectif d’offrir une solution de choix à la fois pour la parallélisation incrémentale des codes de calcul scientifique existants et pour l’écriture de nouvelles applications parallèles. Bien que HPF soit un langage à part entière, on s’intéresse à sa partie directives, leur expressivité, leur compilation et leur impact sur les performances du code généré.

Les directives HPF sont des indications au compilateur sur la fa¸con d’implémenter le programme sur une machine à mémoire distribuée et n’affectent pas sa sémantique. Deux types d’indications sont notamment données au compilateur : la fa¸con de dis- tribuer les données et le parallélisme potentiel des boucles référen¸cant les données distribuées.

Le modèle global de distribution des données avec HPF est décrit dans la figure 2.2. Les éléments de tableaux peuvent être alignés les uns aux autres avec une directive

ALIGNet plusieurs tableaux peuvent être alignés au même tableau virtuel, appelé tem- plate. Les tableaux, parfois via des templates, sont ensuite distribués avec la directive DISTRIBUTE sur un ensemble de processeurs déclarés avec la directive PROCESSORS.

Figure _{2.2 – Distribution des donn´ees avec HPF}

HPF offre au programmeur le moyen d’indiquer au compilateur quelles itérations de boucles peuvent être exécutées en parallèle. La directive INDEPENDENT indique que les instructions d’une boucle ne comportent pas de dépendances entre les itérations. Une clause de réduction, REDUCTION, peut être ajoutée à une boucle parallèle pour déclarer une variable pour laquelle le compilateur doit implémenter une réduction parallèle. La clause NEW permet d’indiquer des variables pouvant être privatisées, une opération utile notamment pour la gestion des tableaux temporaires aux nids de boucles. La construction de boucles FORALL, passée dans le langage Fortran 95, permet de regrouper plusieurs indices de boucles. Couplée avec la directive INDEPENDENT, plusieurs dimensions d’un nid de boucles peuvent ainsi être déclarées parallèles. La construction FORALL évalue tous les membres droits des expressions d’affectation avant d’écrire les membres gauches.

Les compilateurs HPF interprètent les directives de distribution pour générer un programme parallèle dans lequel chaque processeur est propriétaire d’une partie des données distribuées, c’est-à-dire que les données sont alloués uniquement sur ce processeur. Cependant, aucune indication n’est donnée au compilateur sur la fa¸con de répartir les itérations sur les différents processeurs. La plupart des compilateurs HPF utilisent une heuristique connue sous le nom de owner-computes. Cette règle stipule que le calcul d’une expression est effectué par le propriétaire de la donnée où le

résultat est stocké. Des communications doivent être générées afin de récupérer tous les éléments nécessaires au calcul et dont le processeur actif n’est pas propriétaire. Cependant, cette règle n’est pas toujours suffisante pour répartir les itérations. Un contre-exemple évident est la présence pour une même itération de plusieurs instances d’instructions écrivant des éléments de différents tableaux. Par exemple, dans le code suivant, il n’est pas évident de déterminer quel processeur doit exécuter une itération i si les propriétaires des éléments A(i) et B(i-1) ne sont pas le même processeur. DO i=1, N

A(i) = f(i) B(i-1) = g(i) END DO

L’extension ON HOME de HPF permet de lever la contrainte owner-computes et de généraliser la définition des processeurs devant exécuter une instruction au propriétaire d’une référence quelconque. Dans l’exemple qui suit, le propriétaire de l’élément B(i) exécute l’instruction. Si ce processeur n’est pas propriétaire de l’élément écrit A(i-1), alors une communication doit être générée pour envoyer la nouvelle valeur de cet élément à son propriétaire.

!HPF$ ON HOME(B(i)) A(i-1) = B(i) + C(i)

Les distributions régulières par blocs et bloc-cycliques proposées par HPF per- mettent de paralléliser des programmes pour lesquels les dimensions parallèles des différents nids de boucles du programme co¨ıncident avec les dimensions distribuées des tableaux accédés. Des schémas d’accès tels que les balayages par lignes, ren- contrés dans les applications implémentant des intégrations ADI (Alternate Direct Implicit) présentent un défi pour les distributions HPF de base. En effet, pour ces types d’accès, quelle que soit la dimension distribuée, elle sera a un moment accédée de fa¸con séquentielle par une boucle du programme, alors que l’accès aux autres dimensions est parallèle. Pour pouvoir bénéficier du parallélisme sur toutes les dimensions, HPF propose la directive REDISTRIBUTE qui permet de redistribuer dynamiquement les tableaux afin d’avoir, pour chaque nid de boucles, une correspondance entre les dimensions parallèles et les dimensions distribuées des tableaux. La figure 2.3 montre un exemple illustrant ce problème. Si le tableau est distribué par lignes (a), alors le calcul sur la première dimension est séquentialisé et prend quatre temps de calcul en plus des communications induites par les dépendances de données entre les processeurs. Si le tableau est distribué par colonnes, alors le problème symétrique se poserait pour les dépendances sur la deuxième dimension. Si le tableau est distribué sur les deux dimensions, alors il faudrait deux temps de calcul, avec la moitié des processeurs inactifs à chaque temps (b). Enfin, si le tableau est redistribué dynamiquement afin d’exploiter le parallélisme selon la deuxième dimension, alors le calcul se fait en un seul temps (c). Si la dernière solution apporte un meilleur équilibrage de charge, le coût des communications nécessaires à la redistribution peut être prohibitif pour les performances globales du programme. Les mesures de performances des benchmarks

NAS parallélisés avec HPF [43] montrent une perte de performance importante pour les programmes SP et BT à cause du coût important de la redistribution.

Figure _{2.3 – Le problème des calculs en front-d’onde en HPF avec différentes} stratégies de distribution

Dans le document Programmation haute performance pour architectures hybrides (Page 40-43)