Parall´ elisation - Une approche statistique multi-échelle au recalage rigide de surfaces : App

dΦ dχ ⁼ 1 2 X i          P jA_{T ij}^d dD(sT i,mj ) dT t dχ −P jAT ij^dD(s_dT^{T i}^,m^j⁾ t .^dD(sT i,mj) dχ +P jA_ij.^dD(sT i,mj) dT t P kA_ik.^dD(sT i,mk) dχ          Dans le cas o`u les points sont ind´ependants, et Σ_m = 0 on obtient finalement :

G = P iG_i.R.Σ⁻¹_s isi.Rt.Gt i +P jG_j.Σ⁻¹_m jmj.Gt j G_i = ¹₂ ^∂sT i ∂T t .        P jAT ij(HsT iD(sT i,mj)) −P jA_{T ij}^dD(sT i,mj) dsT i t .^dD(sT i,mj) dsT i +P jA_ij.^dD(sT i,mj) dsT i t P kA_ik.^dD(sT i,mk) dsT i        G_j = ¹₂ ^∂sT i ∂T t .        P jA_{T ij}(H_s_{T i}D(s_{T i},m_j)) −P jAT ij^dD(s_ds^{T i}^,m^j⁾ T i t .^dD(sT i,mj) dsT i +P jA_ij.^dD(sT i,mj) dsT i t P kA_kj.^dD(sT k,mj) ds_{T k}       

Nous reviendrons sur cette formule de prédiction de l’incertitude adaptée à l’EM dans le cadre de la prédiction théorique de la précision du recalage sur les surfaces, section 5.4.

4.6 Parall´elisation

4.6.1 Introduction

Lorsque l’on dispose de plusieurs processeurs, il peut être intéressant de répartir les calculs entre eux, afin de profiter de toute la puissance disponible et accélérer ainsi le recalage. Ceci peut arriver dans deux cas de figures différents :

au-trefois extrêmement chères et spécialisées, sont devenues courantes, à l’image des PC bi-pros disponibles chez Epidaure. Il faut savoir que sur ce type de PC, un pro-gramme normal ne sera exécuté que sur un seul processeur. L’intérêt est de pouvoir faire tourner plusieurs programmes en même temps. Cependant, à l’aide d’une pro-grammation spécifique (dite “par processus allégés”, “multi-thread” en anglais), on pourra adapter un programme pour qu’il se divise en plusieurs processus qui seront répartis sur les différents processeurs. Ces différents processus pourront communi-quer rapidement entre eux et partager la même mémoire mais il faudra alors faire attention qu’il n’écrivent pas au même endroit en même temps, ce qui peut rendre la parallélisation assez délicate.

– Les réseaux de machines : lorsque plusieurs machines sont connectées entre elles via un réseau, on peut les faire communiquer pour qu’elles se répartissent le travail. Le partage de mémoire sera en revanche impossible, et les communications assez lentes (de l’ordre de 0.1 ms).

Nous ne nous consacrerons ici qu’au deuxième cas, plus général. En effet, on pourra toujours lancer deux instances du programme sur un bi-pro et les faire communiquer comme si elles étaient sur des machines différentes. Les programmes seront alors répartis sur les deux processeurs par le système d’exploitation, réalisant ainsi la parallélisation. Ils ne pourront en revanche pas partager la mémoire (on aura donc deux copies des mêmes données) et les communications seront plus lentes. Ceci ne sera heureusement pas gênant dans notre cas, car le recalage utilise peu de mémoire (quelques méga-octets pour des nuages de 100.000 points), et ne nécessite pas de communications intensives et rapides, comme nous le verrons par la suite.

Pour parall´eliser un algorithme, il faut distinguer (voir figure 4.3 86) :

– les parties parallèles : il s’agit des parties où plusieurs calculs indépendants doivent ˆ

etre menés. Dans le cas de l’ICP et ses variantes, il s’agit des traitements pour chaque point de la scène (la recherche des voisins, le calcul des distances, des poids, ...), qui sont indépendants pour deux points de la scène différents. C’est bien évidement ces calculs que nous devrons répartir entre les différentes machines.

– les parties séquentielles : il s’agit des calculs qui ne peuvent pas être rendus ind´ e-pendants, et ne peuvent donc être parallélisés. Dans notre cas, ce sera le calcul de la nouvelle estimée de la transformation. D’une part, ce calcul dépend des résultats des calculs pour chaque point de la scène, et on doit donc attendre que tous les points de la scène aient été traités avant de pouvoir l’effectuer. D’autre part, il ne peut lui-même pas se décomposer en calculs indépendants, et ne peut donc être effectué que sur une seule machine.

Le gain de temps entre la version classique et la version parallèle de l’algorithme est conditionné par les temps relatifs des calculs parallèles et séquentiels. En notant t_s le

Fig. 4.3 – Division des calculs en phases parall`eles et s´equentielles.

temps total des calculs séquentiels (identique dans les deux versions), t_p le temps des calculs parallèles dans la version classique et t_p_i les temps des calculs parallèles effectués sur la machine i dans la version parallélisée, on peut exprimer le temps de la version classique T_classique= t_s+ t_p et le temps de la version parallèle T_parallele = t_s+ max(t_p_i). Le temps optimum sera atteint quand d’une part la parallélisation en elle-même n’introduit pas de temps supplémentaire (dû par exemple à la communication entre les machines ou à l’algorithme de répartition des calculs entre les machines), i.e. quandP t_p_i = t_p, et quand, d’autre part les calculs sont équitablement répartis entre les machines, i.e. quand les tpi

sont tous ´egaux. On a alors tpi = tp/n o`u n est le nombre de machines. Le rapport optimum entre les temps de calcul des deux versions est donc : ^Tparallele

Tclassique = ^max(tpi^)+ts

tp+ts = ^tp/n+ts

tp+ts que l’on peut ´ecrire plus simplement :

T_parallele Tclassique = ^{1 − F} n ^{+ F} ^avec ^{F =} t_s tp + ts

Cette loi est appelée loi d’Amdahl et donne donc le facteur d’accélération maximum possible, en fonction du pourcentage de calcul séquentiel.

Dans le cas de l’ICP, ce pourcentage est très faible (le temps de calcul de la nouvelle transformation est négligeable), si bien que le temps de calcul est théoriquement divisé par un facteur proche du nombre de machines mises en jeux, à condition de bien répartir les calculs et ne pas perdre de temps avec les instructions de la parallélisation elles-mêmes.

4.6.2 Parall´elisation statique

Nous allons dans un premier temps montrer comment répartir les calculs entre les différentes machines sans chercher à rendre cette répartition efficace. Pour cela nous allons diviser la scène en plusieurs sous-nuages qui seront traités sur chaque machine. Nous verrons comment regrouper ensuite les résultats des traitements. Nous utiliserons pour

cela une bibliothèque appelée MPI, que nous allons maintenant présenter.

MPI

Nous devons faire communiquer les machines entre elles. Nous utiliserons pour cela le protocole MPI, qui présente l’avantage d’être standardisé et disponible sur la plupart des machines et systèmes d’exploitation possible (et en particulier sur les PC Linux utilisés chez Epidaure et sur les PC Windows utilisés chez AREALL). Les différentes versions de MPI se composent de :

– une bibliothèque de fonctions dédiées à la communication entre machines que l’on peut directement utiliser en C et C++.

– un moteur (un exécutable) permettant de lancer simultanément sur plusieurs ma-chines plusieurs instances d’un même programme (ou même plusieurs programmes différents) ainsi que les modules qui leur permettront effectivement de communiquer grâce aux fonctions de la bibliothèque.

Lorsqu’on lance les différentes instances à l’aide du moteur, celui-ci va leur attribuer des numéros entre 0 et n − 1 (où n est le nombre d’instances). On pourra en particulier faire jouer un rôle particulier à l’une de ces instances (la 0 en général), que l’on appellera alors le maˆıtre, les autres étant les esclaves.

Nous aurons besoin des fonctions MPI suivantes :

– MPIInit(), MPICommrank(int& id proc), MPICommsize(int& nb proc) : ces fonc-tions permettent d’initialiser le processus de communication en d´ebut de programme et de connaˆıtre le num´ero d’identification de l’instance ainsi que le nombre total d’instances.

– MPIReduce(variables, int id maitre) : cette fonction additionne les variables des es-claves aux variables du maˆıtre, identifi´e par son num´ero d’instance (souvent 0). – MPIBroadcast(variables, int id maitre) : cette fonction copie les variables du maˆıtre

dans celles des esclaves.

Ces fonctions sont bloquantes : il faut attendre que tous les processeurs aient appelé la même fonction avant qu’elle ne libère la main et laisse ainsi chaque instance poursuivre ses calculs. Il sera donc préférable de ne les utiliser qu’en début et fin de phase parallèle pour synchroniser les différents processus à ces moments là, et de ne pas les appeler pendant la phase parallèle elle-même pour ne pas bloquer les calculs.

Parall´elisation formelle de l’ICP/EM

Rappelons maintenant l’algorithme de l’ICP/EM :

Initialisation : Calculer une première estimée de T , et mettre le paramètre d’échelle σ2

R´ep´eter

// Décimation : Décimer la scène avec un rayon de sphère α.σ. ´

Etape E : Pour chaque point s_i ide la scène décimée avec le poids de décimation n_s_i:

Chercher les points du mod`ele m_j tels que kT ? s_i− m_jk2 < σ2.µ2

max en utilisant un kD-Tree.

Calculer les poids (A_T)_ij suivant l’eq. 4.12 ´

Etape M : R´e-estimer la transformation T en minimisant P

ijn_s_i(A_T)_ij.kT ? s_i− m_jk2.

Recuit simulé : Diviser σ2 par le coefficient de recuit. Si σ2 est inférieur à l’échelle finale, le mettre à l’échelle finale.

Jusqu’`a convergence

Nous devons maintenant nous demander quelle est la plus grande partie que nous pouvons paralléliser. On ne peut évidemment pas effectuer plusieurs itérations simultanément car une itération dépend de la précédente.

A l’intérieur d’une itération, les calculs pour chaque point de la scène sont ind´ epen-dants. On peut donc répartir les points entre les différents processeurs et ne récupérer que leur résultat sur un maˆıtre. Mais jusqu’où peut-on synthétiser le résultat sur un processeur donné pour limiter au maximum les communications et les déséquilibres entre maˆıtre et esclaves? Les grandeurs qui nous intéressent sont les suivantes :

– Le crit`ere C(T ) =P

ilogP

jp(s_i/T ? m_j) et ses variantes (e.g. la distance quadra-tique moyenne entre points appari´es).

– La nouvelle transformation, dont le calcul par la méthode de la SVD (voir 3.2.4) est basé sur les barycentres des nuages pondérés comme s =

P i(P jAijsi) P i(P jAij) pour la scène et sur la matrice de corrélation en repère barycentrique K =

P i(P jAij.mj.st i) P i(P jAij) − m.st. – Les statistiques comme la distance quadratique moyenne

P i(P jAijd2(si,mj)) P i(P jAij) .

On peut constater que toutes ces grandeurs peuvent être définies comme des accumulations de grandeurs pour chaque point de la scène, i.e. mises sous la forme F = P

i f (s_i) : on peut donc se contenter de transmettre les valeurs par point de la sc`ene f (s_i) voire les accumuler sur chaque machine et ne transmettre que les valeurs pour des groupes de points P

{i1,...,ip} f (s_i).

Finalement nous pouvons sur un processeur effectuer les calculs pour un groupe de points donné, accumuler les valeurs f (s_i), et attendre que tous les points aient été traités pour effectuer les communications (l’addition finale sur le maˆıtre des sommes partielles de chaque instance, à l’aide de la fonction MPIReduce) et les calculs séquentiels sur

le maˆıtre (le calcul de la nouvelle transformation, les affichages, le passage à l’itération suivante). Il faudra ajouter à cela des communications au début de la nouvelle itération (la communication de la nouvelle transformation aux esclaves, à l’aide de la fonction MPIBroadcast). Ainsi le temps de communication et le temps séquentiel est extrêmement réduit.

En ce qui concerne la répartition des points, nous nous contenterons ici d’une r´ e-partition équitable en nombre entre les différentes instances du programme. L’instance de numéro id devra donc traiter les points int((id ∗ nb_points)/nb_process) à int(((id + 1) ∗ nb_points)/nb_process) − 1 où int désigne la partie entière. C’est tellement simple qu’aucune communication ne sera nécessaire pour faire connaˆıtre cette répartition.

Lors de l’implémentation effective de l’algorithme, il faudra bien vérifier que la ver-sion parallèle produit bien exactement les mêmes résultats que la version classique. Nous l’avons bien évidement systématiquement vérifié, et n’aborderons plus ce point par la suite.

4.6.3 Parall´elisation dynamique

La parall´elisation statique permet d’atteindre des vitesses satisfaisantes (sup´erieures `

a la moitié de la vitesse maximale théorique). Les temps pour chaque point de la scène peuvent varier énormément (en fonction du nombre de points du modèle à proximité), et la répartition équitable en nombre de points à traiter n’est donc pas synonyme de répartition équitable en temps. Mais ces déséquilibres sont atténués par le grand nombre de points si bien que les temps de calculs de chaque instance restent voisins. Cependant ces résultats se dégradent lorsqu’apparaissent des déséquilibres entre la puissance des différentes machines, soit parce qu’elles sont différentes soit parce que certaines sont déjà occupées. La machine la plus lente fait alors attendre toutes les autres pour la phase séquentielle. Ainsi nous avons comparé les résultats entre une grappe de n bi-pros à 935 MHz et une grappe de n bi-pros à 935 MHz et 1 bi-pro à 500 MHz. Nous avons tracé le temps de calcul en fonction de la puissance totale disponible (figure 4.4 gauche). L’expérience confirme qu’un seul processeur moins rapide retarde significativement les autres. Le rendement (rapport entre temps effectif et temps théorique) varie entre 50 et 80 %.

Pour remédier à cet inconvénient, on utilisera une technique usuelle de répartition dynamique des calculs appelée vol de tache : un processeur qui a fini ses calculs propose au plus chargé de lui reprendre une partie de ses calculs pour le soulager. Ceci suppose que les processeurs puissent communiquer entre eux pour se tenir informés de l’avancement de leur tache. On peut envisager plusieurs stratégies :

– Une strat´egie maˆıtre/esclave : un processeur joue ici un rˆole particulier, celui de centraliser les informations. Chaque esclave ne peut communiquer qu’avec le maˆıtre, ce qui simplifie beaucoup le nombre de messages en circulation.

Fig. 4.4 – Temps de calcul de l’ICP en fonction de la puissance disponible : temps th´ eo-rique sur une seule machine, temps mesuré sur une grappe homogène et sur une grappe hétérogène. Les rendements se situent entre 50 et 80 % pour la parallélisation statique (à gauche) et sont supérieurs à 90 % pour la parallélisation dynamique (à droite).

– Une stratégie complètement connecté : aucun processeur ne joue de rôle particulier, et tous peuvent communiquer avec tous. Ceci permet d’accélérer les communications (on ne passe par aucun intermédiaire), mais il peut y avoir plusieurs messages en circulation au même moment, ce qui peut devenir complexe à gérer.

– Une stratégie cyclique : chaque processeur ne peut communiquer qu’avec le suivant (et le dernier avec le premier), formant un cycle. Ainsi, tous jouent le même rôle et il devient très simple de contrôler le nombre de messages en circulation. En revanche, la communication entre deux processeurs éloignés sur le cycle passera par plusieurs intermédiaires et sera donc plus lente (de l’ordre de 1 ms pour 10 processeurs). Nous choisirons une stratégie cyclique, préférant la simplicité à la rapidité. Nous simplifie-rons encore en faisant circuler en permanence un unique message sur le cycle. Pour cela, nous utiliserons les fonctions de communication non-bloquantes entre deux machines de MPI :

– ISend(destinataire, message, id message) : demande au moteur MPI d’envoyer un message à un destinataire donné. L’envoi n’est pas forcément effectué imm´ ediate-ment, mais la main est rendue au programme, permettant ainsi de poursuivre les calculs. Un numéro d’identification est donc donné au message, permettant de tester ultérieurement s’il a bien été envoyé.

– IRecv(expéditeur, message, id message) : demande au moteur MPI de se préparer à recevoir un message d’un expéditeur donné. La main est rendue immédiatement au programme, permettant ainsi de poursuivre les calculs. Un numéro d’identification est donc donné au message, permettant de tester ultérieurement s’il a été re¸cu. – Test(id message) : permet de tester si le message a été effectivement envoyé (suite à

– Wait(id message) : attend que le message ait été effectivement envoyé (suite à ISend) ou re¸cu (suite à IRecv). Cette instruction est donc bloquante.

Ainsi, nous ne perdrons pas de temps avec la communication. L’inconvénient est que nous ne serons pas immédiatement prévenu qu’un message est arrivé, il faudra attendre pour cela l’appel effectif de la fonction Test. En pratique, nous appellerons la fonction Test après le calcul de chaque point de la scène, car la fréquence de traitement est inférieure à celle des communications (0.1ms par point).

Le message que nous ferons circuler contiendra les informations suivantes :

– Le nombre de points déjà traités par chaque processeur : ceci permettra d’avoir une idée de la vitesse de chacun pour pouvoir optimiser la répartition.

– Le nombre de points restant à traiter : ceci permettra de savoir quels processeurs sont disponibles (ceux qui n’ont plus de points à traiter) et lesquels sont encore très chargés.

– Une instruction éventuelle, permettant d’indiquer les opérations à faire pour réaliser effectivement le vol de tâche : il y a deux instructions possibles : la proposition de vol (l’instance i propose de soulager l’instance j), l’acceptation de vol (l’instance i confie les points n₁ à n₂ à l’instance j).

L’algorithme de répartition dynamique doit tenir compte de l’aspect périmé des messages : le temps que le message transite entre l’instance i et j, l’instance i aura traité de nouveaux points. Les informations la concernant ne seront pas à jour. L’instance j, si elle est libre, ne peut donc pas se lancer aussitôt dans le traitement de points d’une autre instance, car celle-ci les a peut-être déjà traités entre temps. Elle doit donc se contenter de proposer ses services et attendre qu’on lui réponde.

La question est alors de savoir à qui elle offre ses services. Elle peut le décider elle-même en jugeant la vitesse et la charge de chaque processeur, informations hélas périmées. On pourrait alors penser laisser ce choix aux autres processeurs, au moment où ils re¸coivent le message : le premier processeur accepte le vol de tache, puis le deuxième lui reprend s’il est plus chargé (il juge alors sur des informations récentes) et ainsi de suite. Mais il faudrait alors signaler au premier processeur que ce n’est finalement pas lui qui a été délesté, ce qui complique la communication.

Nous avons finalement opté pour la solution suivante : l’instance libre choisit l’instance qu’elle va délester et envoie le message adéquat, et l’instance à délester choisit lorsqu’elle le re¸coit le nombre de points optimal à donner, et envoie le message adéquat. Finalement, le vol de tache se fait en un seul cycle de communication.

Le choix du nombre de points à voler se fait de la fa¸con suivante : si v_i est le nombre de points déjà traité et c_i le nombre de points restant pour l’instance i (c_j = 0 pour l’instance libre), la nouvelle répartition des points c⁰_i doit être proportionnel au nombre de points

déjà traité :

c⁰_i = ^vⁱ P v_i

X ci

Si le temps de traitement des points était uniforme, cette répartition serait optimale (le temps de calcul restant, proportionnel à c_i/v_i, est identique pour toutes les instances). Enfin, pour le choix de la meilleure instance à délester, on calcule c⁰_i pour chaque instance encore chargée, et on choisit celle pour laquelle le gain de temps (c_i − c0

i)/v_i est le plus important.

L’algorithme final au niveau de chaque instance est finalement le suivant :

Si le message a ´et´e re¸cu par l’instance j

Mise à jour : On met à jour les informations relative à l’instance j (nombre de points déjà traités et restant à traiter)

Confirmation : Si une instruction du type acceptation de vol concernant l’instance j est lancée (l’instance i confie les points n1 à n2 à l’instance j)

On lance le traitement des points n1 à n2 sur l’instance j, et on met à jour le message (nouveau nombre de points à traiter pour j, effacement de l’instruction de vol)

Acceptation : Si une instruction du type proposition de vol concernant l’instance

Dans le document Une approche statistique multi-échelle au recalage rigide de surfaces : Application à l'implantologie dentaire (Page 95-104)