Consistance des donn´ees d’incidence - Parall´elisation des noyaux

4.2 Parall´elisation des noyaux

4.2.3 Consistance des donn´ees d’incidence

A ce point nous disposons de moyens pour extraire le parallélisme amorphe inhérent `` a chaque noyau. En fait nous n’avons géré que les conflits de tâches relatives à laconformité de la topologie,

45Uneréductionest une agrégation de données locales aux processus.

c2018.HOBYRAKOTOARIVELO

afin de maximiser le nombre de tâches extraites en vue d’alimenter suffisamment les cores. Ainsi il nous reste à gérer explicitement la consistance des données d’incidence lorsqu’elles sont mises à jour de manière concurrente. Rappelons que la topologie est stockée et maintenue dans les listes d’incidences (page58). Maintenant, on vise à définir une synchronisationlock-freepour la mise à jour concurrente de ces listes de manière à minimiser les transferts de données.

4.2.3.1 Contraintes en lock-free

approches. En fait fournir une stratégie lock-freeet non coûteusepour la mise à jour des données d’incidence n’est pas trivial. Le problème est souvent résolu de deux manières :

• évitement. Le recours à une structure de données orientée de type carte combinatoire⁴⁶ per-met d’éviter ce problème, comme énoncé à la section 4.2.1.3. En fait les mises à jour restent locales au sous-ensemble de mailles en cours de modification, et aucune synchronisation n’est nécessaire dans ce cas. Néanmoins elle induit un nombre important d’indirections mémoire lors des requêtes de voisinage⁴⁷: cela impacte directement au scaling des noyaux, notamment pour la simplification (page153). Une autre alternative possible est de prendre en compte les mises

a jour du graphe d’incidence au moment de l’extraction des tâches. Dans [210] par exemple, freitag contourne le problème grâce à une 2-coloration de graphes. Néanmoins elle est plus coûteuse et requiert plus de couleurs que le cas classique : comme la partition obtenue est plus grande, la taille des stables est réduite. Ainsi le nombre de tâches extraites par itéré est réduit, tandis que le nombre d’itérés nécessaire pour converger augmente. En effet le nombre chroma-tiqueχ2,G est plus grand que χ1,G et croˆıt selon le degré maximal ∆ deG. Plus précisément, si la triangulation est :

isotropealors on aχ_1,G≤χ_2,G≤∆ + 5, avec un degr´e max ∆≈6.

anisotropealors on aχ_1,G≤χ_2,G≤ ³₂∆ avec ∆≥8 (preuve dans [201]).

• gestion différée. Une autre solution consiste à stocker localement les mises à jour à chaque itéré, puis de procéder à une réduction dans le conteneur partagé en fin d’itéré. Dans [199,167]

par exemple,rokosfournit une alternative lock-free pour la mise `a jour du graphe d’incidence.

A l’itéré` t, elle consiste à reporter la copie des données topologiques en fin du traitement des tâches deU^[t], ce qui garantit d’utiliser des données valides puisque la topologie est figée à cet instant. Pour cela, il dispose d’une matrice de listes de mise à joursdef décrite à (4.1).

updates

commits







t0 t1 t2 ··· t_p

t₀ def[0][0] def[1][0] def[2][0] · · · def[p][0]

t₁ def[0][1] def[1][1] def[2][1] · · · def[p][1]

t2 def[0][2] def[1][2] def[2][2] · · · def[p][2]

... ... ... ... . .. ...

t_p def[0][p] def[1][p] def[2][p] · · · def[p][p]







(4.1)

Ici, on distingue deux vagues d’op´erations :

updates: lorsque un thread i doit mettre `a jour le voisinage d’un point, il copie la liste partielledans celle du thread index´e parj =i modp, avecple nombre total de threads.

commits : à l’issue du traitement de U^[t], chaque thread i parcourt le tableau de listes de chaque thread k ∈ [1,p], puis repère la liste def[k][i] qui lui a été réservée. Ensuite il transfère chaque liste`∈def[k][i] dans le conteneur associé au graphe (P,M,N).

In fine les listes partielles{ì,j}i=1,prelative à un pointpjsont bien copiées par ununique thread: il n’y a donc pas dedata races. L’inconvénient de cette stratégie est qu’elle engendre énormément de transferts et recopies de données, ce qui est réellement critique dans notre contexte.

46Dans ce cas, la topologie est représentée par les relations d’adjacence des demi-arêtes (next,twin), voir page27.

47boule d’un point, mailles voisines, coquilles d’une arˆete par exemple.

c2018.HOBYRAKOTOARIVELO

116 4.2. Parall´elisation des noyaux

4.2.3.2 Notre synchronisation

principe. Partant de ces constats, nous proposons une mise `a jour synchronis´ee en deux temps.

Rappelons qu’ici, chaque point garde les références des mailles qui lui sont incidentes. Ici, nous distinguons les opérations d’insertions et de suppressions de références dans la liste d’incidenceincid[p]

de chaque pointp. Pour chaque noyau, l’idée est de permettre aux threads de rajouter les références de manière asynchrone dans une vague à part. Pour cela, les threads incrémentent de manière atomique le degrédeg[p] du point qui est stocké explicitement sous forme d’un tableau. En effet, cela va permettre de déterminer les offsets des listes d’incidences de manière asynchrone : chaque thread met à jour incid[p] et poursuit son chemin. Comme sa liste d’incidence peut contenir des références obsolètes, le point est ensuite marqué comme étant à réparer, et cela de manière atomique par le biais d’un flag fix[p]. Enfin quand tous les threads ont terminé leurs modifications, les listes d’incidence de chaque point marqué sont réparées dans une vague à part comme illustré sur l’exemple de la figure4.12.

4 primitives bas-niveau peu coˆuteuses.

r´eduction avecdeg: fetch add

marquage avecfix: compare swap 4 pas de transferts inutiles de donn´ees.

ETAT INITIAL´

Figure 4.12: Mise `a jour synchronis´ee en deux temps du graphe d’incidence.

Notons juste que les listes d’incidence ont une capacité fixe, et il se peut qu’un thread ne puisse plus insérer ses données. Après avoir calculé son offset, le thread vérifie si la taille des données à insérer excède cette capacité, auquel cas il réalloue la liste d’incidence en doublant sa capacité actuelle. Pour

éviter une réallocation multiple (plusieurs threads), nous recourons au patternsingleton implémenté par un double checking (voir algorithme4.3). En pratique, la mémoire allouée au graphe d’incidence est ajustée aux paramètres des noyaux (seuil sur les itérés, nombre de mailles créées etc.) de manière

à minimiser ces réallocations. La routine complète est décrite à l’algorithme4.3.

efficacité. Comparée aux alternatives précédentes, notre stratégie présente quelques avantages :

• les primitives atomiques utilis´ees sontpeu coˆuteuses⁴⁸, et on a peu d’indirectionscontrairement

`a une carte combinatoire.

• elle préserve un degré de parallélisme élevé, car seuls les conflits de conformité sont considérées au moment de l’extraction de tâches, contrairement à l’approche defreitag[210].

• il induit un mouvement minimal de donn´ees contrairement `a l’approche de rokos [199, 167].

En fait les threads mettent directement à jour les listes d’incidences au moment où elles doivent l’être, au lieu d’en garder une copie locale puis de procéder à une réduction des listes partielles au sein du graphe d’incidence.

∗ ∗ ∗

48Ils sont de l’ordre de 15-30 cyclescpusi le compteur est d´ej`a en cacheL1.

c2018.HOBYRAKOTOARIVELO

Algorithme 4.3: Primitives de mise `a jour du graphe d’incidence.

fonctionins´erer(pi, `tid)

atomic compare swap(fix[i],1)^a k=atomic fetch add(deg[i], n)^b

sin+kexc`ede la capacit´e de incid[i]alors

#critical . double check pattern si pas encore reallou´ealors

doubler la capacit´e de incid[i]^c. fin si

fin si

copier`_tid dans incid[i][k].

fin

afix: marqueurs des points `a r´eparer.

bdeg: degr´e des points⇔offsets sur incid.

cincid: listes d’incidence des points.

fonction r´eparer(pi, `tid) sifix[i]^a alors

pourchaque maille K de incid[i]faire sipi référencé dans Kalors

ajouter K dans`_tid fin

vider incid[i]

r´einitialiser deg[i] =|`_tid|^b.

trier`_tid and ´echanger avec incid[i]^c. fin si

fin

afix: marqueurs des points `a r´eparer.

bdeg: degr´e des points⇔offsets sur incid.

cincid: listes d’incidence des points.

4.3 EVALUATION NUM´´ ERIQUE

Dans le document The DART-Europe E-theses Portal (Page 115-118)