Approches sp´eculatives - Cas des m´ethodes gloutonnes

A.2 Champ de tenseurs m´etriques

B.1.2 Cas des m´ethodes gloutonnes

B.1.2.2 Approches sp´eculatives

motivations. Ainsi malgré ses bonnes propriétés de convergence, une approche Monte-Carlo reste encore inadaptée à notre contexte. En recherche d’une autre alternative, nous nous sommes tournés vers les approches spéculatives pour le calcul d’une partition de stables par le biais de coloring. Il s’agit d’algorithmes parallèles structurés en rounds (synchrone) et basés sur un schéma d’exécution optimiste : une pseudo-solution ˜_{U est d’abord calculée, et les erreurs sont ensuite résolues dans une} étape à part comme illustré sur la figureB.1. Ici, le caractère synchrone permet de mieux structurer la gestion des contentions d’accès en mémoire partagée d’une part, et d’analyser la convergence de ces algorithmes d’autre part.

A l’instar des approches probabilistes, les approches spéculatives sont également basées sur des heuristiques gloutonnes. Parmi les travaux plus récents [204–206,211], un intérêt particulier est donné à First-fit en raison de son efficacité en terme de ratio entre qualité de la solution _{U et complexité} ou nombre de rounds. En vue d’inférer notre propre heuristique, nous nous sommes intéressés en particulier à trois d’entre elles.

gebremedhin et al. La première version spéculative de First-fit a été initiée par Gebremedhin dans [205, 200], et est basée sur une partition de G par blocs. L’idée est d’assigner une couleur en parallèle sans se soucier des data races dans une phase dite de pseudo-coloration, puis de résoudre les conflits – c’est à dire deux voisins ayant la même couleur – dans une phase de correction. Pour cela, le graphe est partitionné en k blocs Vi de tailles égales |Vi| ≈ dn_pe qui seront ensuite assignés aux k

c 2018. HOBY RA K OTO ARIVELO

144 B.1. Extraction de stable maximal

threads punaisés sur k cores. Pour chaque sommet, on choisit systématiquement la plus petite couleur admissible par le biais de First-fit. La phase de correction est scindée en trois étapes synchrones5 _:

• chaque stable Uj ∈ P est re-partitionné en k blocs, puis on procède à leur pseudo-coloration.

• les sommets conflictuels restants sont ensuite identifiés et indexés dans une table R; • les sommets vi∈ R sont ensuite colorés en séquentiel.

Ici la majorité des sommets de G est correctement coloré à l’issue de la pseudo-coloration qui s’effectue de manière complètement asynchrone6_{. `}_{A l’issue de cette phase, le nombre de sommets conflictuels est}

borné par ∆¯₂(p− 1) et est donc indépendante de n = |G|. Durant la correction, le nombre de sommets restants à traiter en séquentiel est borné par _n2p2_∆2_{et décroˆıt significativement quand le ratio} n

p est

grand.

çatalyurek et al. En dépit du faible ratio de conflits, l’approche précédente comporte une étape séquentielle relative à la phase de correction. En notant r le ratio du temps d’exécution relative à cette étape sur le temps de restitution, son accélération est bornée par 1_r quelque soit le nombre p de cores, d’après la loi d’Amdahl. Dans ce cadre, une extension de l’algorithme a été développée par Ç atalyurek et al. dans [204], et dédiée aux machines manycore et aux architectures massivement parallèles. Ici l’idée est d’éliminer l’étape séquentielle relative à la correction. Ainsi l’algorithme ne comporte plus que deux phases synchrones relatives à :

• la pseudo-coloration : chaque thread maintient un tableau local forbidden associant à chaque sommet v les couleurs qui lui sont interdites car déjà attribuées à ses voisins.

• la détection de conflits : les threads réexaminent les couleurs d’un sous-ensemble de sommets marqués, et qui vont ensuite être recolorés à l’itération d’après. En cas de conflit, le sommet voisin de plus petit ID est marqué comme étant à recolorer et placé dans une liste de tâches R. Dans sa version générique, il s’agit d’une approche itérative contrairement à la précédente. Elle ne nécessite aucun partitionnement de G mais implique deux barrières de synchronisation par itéré. Notons qu’une version dataflow a été con¸cue spécialement pour le portage de l’algorithme sur une machine Cray XMT nécessitant une synchronisation à granularité plus fine (pas de barrière mais des instructions dédiées purge, readff, readfe, writeef, voir [220,221]), dans le but d’assigner un maximum de couleurs correctes et définitives aux sommets dès le premier itéré.

Aucune étude théorique n’est fournie quant à la convergence et l’efficacité. Néanmoins le nombre constaté de conflits reste négligeable comparé au ratio n_p. De plus, le nombre d’itérés ne croˆıt que de manière logarithmique en p tandis que le nombre _{|R| de sommets à traiter décroit de manière} exponentielle à chaque itéré.

rokos et al. Malgré une bonne vitesse de convergence et une bonne scalabilité sur des machines NUMA classiques (dual-socket Intel Nehalem et Sun Niagara avec 4 et 8 cores par socket) et massivement manycore (Cray XMT avec 128 nœuds reliés par un DSM et 128 cores par nœud), l’approche précédente implique une contrainte non négligeable : elle nécessite deux barrières par itéré. Ainsi les pénalités liées au déséquilibre de charges entre les p cores croˆıt proportionnellement à p et au nombre d’itérés. Dans l’optique d’en fournir une version plus asynchrone, une extension a été développée par Rokos et al. dans [206]. Dans ce cadre, quand un sommet s’avère défectueux, il est immédiatement recoloré au lieu de reporter le traitement à l’itéré suivant, ce qui permet de lever la seconde barrière de synchronisation.

Ici encore aucune garantie théorique n’est donnée quant à la convergence contrairement à [205]. Le gain effectif par rapport à l’approche précédente est nuancé avec une accélération relative de 1.35 et un nombre d’itérés sensiblement identique sauf pour les instances de graphes très irrégulières telles que RMAT-B[207]. En effet, on constate un ratio important de sommets correctement colorés dès la première phase (près de 70%) : ainsi le surcoût induit par le déséquilibre est due en grande partie à la première barrière qui elle est inévitable. De plus, la suppression de la seconde barrière induit un comportement

5_{Les ´}_{etapes sont s´}_epar´_{es par des barri`}_{eres de synchronisation.} 6_{Elle ne requiert ni verrous, ni points de synchronisation.}

c 2018. HOBY RA K OTO ARIVELO

inattendu sur les architectures SIMD : l’algorithme peut tomber dans une boucle infinie et ne jamais se terminer. C’est typiquement ce qui se passe lorsque deux threads ont systématiquement la même vision de la plus petite couleur admissible car ils prennent les décisions au sein d’un même cycle CPU.

Table B.2: Synth`ese d’approches gloutonnes parall`eles pour le calcul de stables.

approche avantages inconv´enients

Luby 4 bonne convergence en O(log n) 7 regénération coûteuse de graines.

4 faible probabilit´e que U? _incorrecte _{7 calcul coˆuteux du sous-graphe induit.}

Gebremedhin

4 pseudo-coloration asynchrone 7 r´esolution s´equentielle de conflit.

4 nombre de conflits ind´ependant de n 7 ordonnancement fig´e.

4 routine non it´erative. 7 phase de correction multi-´etapes.

C¸atalyurek

4 résolution parallèle de conflits. 7 routine itérative.

4 nombre de conflits ncn´egligeable en n_p. 7 pas de borne th´eorique sur nc

4 granularité fine et convergence rapide 7 deux barrières par itéré : déséquilibre.

4 version dataflow massivement parall`ele 7 version dataflow non portable

Rokos

4 une seule barrière par itéré 7 pas de borne théorique sur nc et tmax.

4 faible nombre d’it´er´es tmax en pratique. 7 terminaison non garantie si SIMD.

4 efficace sur les graphes irréguliers 7 asynchrone : irrégularité accrue

Dans le document Contributions au co-design de noyaux irréguliers sur architectures manycore : cas du remaillage anisotrope multi-échelle en mécanique des fluides numérique. (Page 144-146)