Parallélisation de l’inférence de domaines protéiques.

(1)

Parallélisation de l’inférence de domaines protéiques.

Cl´ ement Rezvoy

2005-2006

Diplˆ ome pr´ epar´ e : M2 Approches Math´ ematiques et Informatiques du Vivant

Laboratoires d’accueil : Laboratoire de l’Informatique du Parall´ elisme

Laboratoire de Biom´ etrie et Biologie ´ Evolutive

Encadrant : Fr´ ed´ eric Vivien , Daniel Kahn .

ProDom est une base de données de familles de domaines protéiques construite automatiquement par comparaison de séquences à l’aide de l’algorithme MkDom2. Avec l’augmentation exponentielle du nombre de séquences connues, le temps de construction de la base de données Prodom a explosé jusqu’à devenir impraticable (plus de deux ans de calcul à l’heure actuelle). Cette étude montre qu’il est possible de répartir efficacement le temps de calcul de fa¸con à permettre une accélération d’un facteur de plus de 50 et définit les limites de cette parallélisation imposées par la nature de l’algorithme MkDom2.

(2)

Table des mati` eres

1 Introduction 1

2 Analyse 2

2.1 L’algorithme MkDom2 . . . 2

2.2 Les principales charges de calcul . . . 3

2.3 Les strat´egies de parall´elisation envisageables . . . 4

2.3.1 Parall´elisation interne . . . 4

2.3.2 Parall´elisation externe . . . 5

2.3.3 Tentative précédente de parallélisation . . . 5

2.4 Cons´equences du relˆachement de l’heuristique biologique . . . 6

2.4.1 Conflits de résultats entre requêtes parallèles . . . 6

2.4.2 Pr´evoir les conflits pour les ´eviter . . . 7

2.4.3 Conséquence de la parallélisation sur les résultats . . . 8

2.5 Les limitations informatiques . . . 8

2.5.1 L’´equilibrage de charge entre travailleurs . . . 9

2.5.2 Gestion de l’hétérogénéité de la plate-forme . . . 10

2.5.3 L’´equilibrage de charge maˆıtre-travailleurs . . . 11

2.6 Les optimisations possibles . . . 12

2.6.1 Un meilleur usage des ressources . . . 12

2.6.2 Eviter les requˆ´ etes orphelines . . . 13

3 Impl´ementation et test de la solution 14 3.1 L’algorithme distribu´e MPI MkDom2 . . . 14

3.1.1 Principe g´en´eral . . . 14

3.1.2 Créations des lots de séquences requêtes . . . 15

3.1.3 Gestion des relations d’adjacence entre s´equences . . . 15

3.1.4 Organisation et traitement des r´esultats . . . 16

3.1.5 Diff´erences d’impl´ementation entre MkDom2 et MPI MkDom2 . . 16

3.2 Tests . . . 17

3.2.1 Efficacit´e de la parall´elisation . . . 17

3.2.2 Am´eliorations lin´eaires . . . 18

3.2.3 Utilisation des processeurs . . . 18

3.2.4 Effet de la d´esynchronisation maˆıtre-travailleurs . . . 18

3.2.5 Effets de la parall´elisation sur les r´esultats . . . 18

(3)

4 Discussion 20

4.1 La pr´ediction des conflits s’av`ere efficace . . . 20

4.2 Efficacit´e des diff´erentes optimisations . . . 20

4.3 Equilibrage de charge . . . .´ 21

4.4 Limites du modèle maˆıtre-travailleurs . . . 21 4.5 Comparaison de l’implémentation parallèle et de l’implémentation séquentielle 21

5 Conclusions et perspectives 22

(4)

1 Introduction

De nombreuses protéines sont constituées d’un arrangement d’unités structurales indé- pendantes et évolutivement conservées appelées(( modules)) [1] ou(( domaines))[2]. Des domaines similaires peuvent se retrouver au sein de plusieurs protéines. Ces domaines similaires (on parlera de famille ou decluster de domaines) ont souvent des caractéristiques fonctionnelles communes, ou adoptent des structures secondaires ou tertiaires voisines [1].

Dans le cadre de l’étude des protéines, de leurs mécanismes évolutifs ou de leurs fonc- tions, il est souvent nécessaire de pouvoir connaˆıtre la structuration en domaines d’une protéine.

Plusieurs solutions ont été proposées pour permettre l’identification et la classification de ces domaines. Ces méthodes se différencient par les données d’entrée qu’elles nécessitent ainsi que par leur degré d’automatisation. SCOP [3] et CATH [4] infèrent et classifient les domaines en se basant sur la conformation tridimensionnelle des protéines.

SCOP est construite suivant une approche manuelle tandis que la construction de CATH est partiellement automatisée. Les méthodes expérimentales permettant d’obtenir la structure 3D d’une protéine restent encore à l’heure actuelle complexes et coûteuses. Les méthodes de séquen¸cage au contraire ont connu au cours des années 90 une véritable in- dustrialisation qui a rendu disponible une grande quantité d’information. De nombreuses méthodes ont été développées pour inférer le découpage des domaines ainsi que leur classification en exploitant ces données de séquences ; plusieurs bases de données comme Pfam [5], ou SMART [6] sont ainsi construites manuellement par des experts à l’aide d’outils de comparaison de séquences et offrent une information de haute qualité. Avec l’augmentation exponentielle du nombre de séquences connues, les méthodes manuelles ou même semi-automatiques sont cependant vouées à ne traiter qu’une faible partie des données disponibles. Un traitement exhaustif et non biaisé de l’ensemble des séquences protéiques passe forcément par une approche automatique. C’est dans ce but que la base de données ProDom [7] a été créée. ProDom est une base de données de familles de domaines protéiques construite automatiquement à partir des séquences répertoriées dans la base de données de séquences protéiques Uniprot [8]. Les familles de domaines protéiques contenues dans ProDom sont inférées par comparaison de séquences par l’algorithme sé- quentiel MkDom2 [9]. La complexité de cet algorithme est Θ(n²) où n est le nombre de séquences à traiter ; le temps de calcul quadruple donc quand la quantité de données à traiter double. Avec l’augmentation exponentielle du nombre de séquences répertoriées dans les banques, et malgré l’évolution constante de la puissance des processeurs, le temps de calcul des versions successives de ProDom a augmenté constamment, jusqu’à devenir prohibitif. La version 2005.1 actuellement en ligne a été calculée en 6 mois à partir de

(5)

1 067 651 séquences. Le calcul de la version 2006.1 devant lui succéder a été lancé en Mai 2006 sur 2 001 128 séquences, ce calcul est toujours en cours. Dans cette perspective, le calcul d’une version 2007 de ProDom prendrait plus de 2 ans.

Il apparaˆıt donc aujourd’hui impossible d’assurer la mise à jour de ProDom à l’aide de cet algorithme séquentiel. L’augmentation exponentielle de la cadence des processeurs n’a pas réussi à maintenir le temps de calcul de ProDom à un niveau raisonnable. Qui plus est, cette course au mégahertz s’est aujourd’hui ralentie ; l’augmentation de la puissance de calcul passe désormais par l’accrétion de plusieurs cœurs au sein d’une même puce, de plusieurs processeurs au sein d’une machine, de plusieurs machines dans une grappe voir même de plusieurs grappes pour former une grille de calcul. Afin de pouvoir tirer parti de ces ressources, l’algorithme MkDom2 doit au préalable être modifié de fa¸con à pouvoir ˆ

etre exécuté en parallèle sur plusieurs machines. Ces modifications doivent cependant ˆ

etre réalisées avec le souci double d’utiliser au mieux des ressources distribuées tout en modifiant le moins possible les heuristiques biologiques de l’algorithme séquentiel original.

2 Analyse

2.1 L’algorithme MkDom2

L’algorithme MkDom2 est basé sur l’heuristique suivante : la séquence protéique la plus courte d’un ensemble de séquences, ou son unité de répétition si elle présente des répétitions internes, est une séquence mono-domaine [9]. Plus le jeu de séquences est grand plus cette hypothèse a de chances d’être vérifiée. L’algorithme MkDom2 est un algorithme glouton qui répète les opérations suivantes jusqu’à ce que la totalité des données d’entrée ait été épuisée (voir Fig. 1) :

1. Les séquences de moins de 20 résidus sont éliminées, elles sont considérées trop petites pour constituer un domaine.

2. La plus courte séquence du jeu de données est sélectionnée et on vérifie si elle contient des répétitions internes. Cette séquence, ou sa plus petite répétition interne, est considérée comme étant un domaine.

3. Une recherche d’homologies sur l’ensemble du jeu de données est effectuée à l’aide de l’algorithme PSI-BLAST [10] en prenant comme requête ce premier domaine.

4. Les résultats de plus de 20 résidus ainsi que la requête sont considérés comme des domaines constituant une famille de domaines apparentés. Ces domaines sont alors retirés du jeu de données.

(6)

(a) (b)

Fig. 1 – Schéma détaillant le fonctionnement de l’algorithme MkDom2 (a) et illustration de son fonctionnement sur deux itérations (b) [9].

2.2 Les principales charges de calcul

Dans son impl´ementation actuelle, MkDom2 consiste en un script Perl faisant appel

`

a des programmes externes de la suite ncbi BLAST [10]. L’étude du comportement de MkDom2 (Fig. 2) montre que la sous-routine SYSTEM est la plus coûteuse en temps de calcul. SYSTEM est une fonction utilitaire chargée d’appeler les exécutables externes. Le script en lui même ne représente donc en fait qu’une faible partie du temps de calcul, devenant de plus en plus négligeable avec l’augmentation de la taille des données.

Les deux sous-routines les plus coûteuses après SYSTEM sont PsiBlast et Upda- teDB. PsiBlast est chargée de la recherche d’homologies et fait appel au programme blastpgp via la fonction SYSTEM. UpdateDB effectue la mise à jour de la base de données entre deux requêtes. Elle fait notamment appel, via la fonction SYSTEM, au programme formatdb dont le rôle est de formater la base de données en amont de la recherche BLAST. C’est donc sur ces deux parties de l’algorithme que les efforts de pa- rallélisation devront être portés en priorité.

(7)

0100002000030000400005000060000

Database size (kAA)

Temps d'exécution (s)

477 2449 4893 12268

sous−routines SYSTEM PsiBlast UpdateDB HSPDejaReporte NormalEndBlast

Fig. 2 – Somme des temps d’exécution des appels aux 5 sous-routines les plus coûteuses de MkDom2 en fonction de la taille de la base de données. Les bases de données ont été définies comme des sous-ensembles de la base SWISS-PROT. Il est à noter que ces temps d’exécution sont inclusifs (i.e., le temps de calcul d’une routine inclut également le temps de calcul de ses sous-routines).

2.3 Les strat´ egies de parall´ elisation envisageables

2.3.1 Parall´elisation interne

La structure de MkDom2 permet d’envisager deux approches différentes pour distribuer l’exécution deblastpgpsur plusieurs processeurs. Une première stratégie consiste à répartir une recherche PSI-BLAST sur plusieurs processeurs. On appellera cette stratégie parallélisation interne car elle consiste à paralléliser l’intérieur de la boucle principale de MkDom2. Cette première approche a l’avantage de ne pas modifier la structure de l’algorithme original, mais en pratique, elle n’offre pas de très bonnes perspectives. La fa¸con la plus simple de mettre en pratique cette approche serait d’utiliser le mécanisme de multithreading interne à blastpgp. Ce mécanisme permet, sur une machine à mémoire partagée, d’assigner à chaque processeur une partie de la base de données et de faire traiter une même requête par tout les processeurs simultanément, chacun comparant la requête à la partie de la base de données lui ayant été assignée. Une parallélisation à grande échelle implique l’utilisation d’une ou plusieurs machines à mémoire distribuée et l’utilisation d’un mécanisme de passage de messages entre les processeurs. L’algorithme

(8)

PSI-BLAST consiste en une succession de recherches BLAST [10]. Entre chaque recherche, la requête est modifiée pour prendre en compte les résultats trouvés précédemment et

´

elargir la recherche. Le processus itère jusqu’à ce que l’ensemble des résultats se stabilise ou qu’un nombre maximum d’itérations (en l’occurrence dix) soit atteint. Une exécution distribuée de cet algorithme nécessiterait une synchronisation avec échange de données entre les différentes machines entre chacune des itérations constituant une recherche PSI- BLAST. Si les communications interviennent trop fréquemment, représenteront un coût trop important par rapport au coût d’une itération de PSI-BLAST. On peut noter que la suite mpiBLAST [11], qui est une tentative de parallélisation sur machines à mémoire distribuée de BLAST, n’a pas parallélisé blastpgp pour des raisons similaires [12].

2.3.2 Parall´elisation externe

Une deuxi`eme approche est de lancer plusieurs recherches PSI-BLAST en parall`ele.

On appellera cette stratégieparallélisation externecar elle ne modifie pas l’intérieur même de la boucle principale. Cette solution implique de modifier l’algorithme original et de sélectionner non plus seulement comme requête la plus petite séquence mais les n plus petites séquences. On assigne à un processeur maˆıtre la charge de répartir les requêtes sur les autres processeurs et de regrouper les résultats une fois les requêtes traitées. Si cette seconde solution permet d’envisager une parallélisation à plus grande échelle, elle ne va pas cependant sans poser de problème, comme nous le verrons dans le paragraphe 2.4.

2.3.3 Tentative précédente de parallélisation

La parallélisation de MkDom2 a déjà fait l’objet d’un stage de DEA [13] en 2004. Un algorithme parallèle avait été proposé et implémenté suivant la deuxième approche mais Le coût de la parallélisation s’était révélé trop important, l’algorithme parallèle allant jusqu’à 50% plus lentement que MkDom2 sur un seul processeur. L’algorithme parallèle présentait également des difficultés de passage à l’échelle, l’exécution sur 5 processeurs allant plus lentement que l’exécution sur 4 processeurs.Par rapport à la version séquentielle initiale, lors de ce stage le temps avait été diminué au mieux de 40% lors de l’exécution sur une machine distribuée Les conclusions de ce DEA furent que pour être efficace la parallélisation devrait utiliser des machines à mémoire partagée pour éviter le surcoût lié aux communications réseaux. L’utilisation d’une machine à mémoire partagée per- mettrait en effet de limiter le coût de la parallélisation et de simplifier sa mise en place, elle en limiterait cependant également les bénéfices. Les machines à mémoire partagée ne regroupent que quelques dizaines de processeurs. En concevant un algorithme pour machines à mémoire distribuée, on peut espérer exécuter cet algorithme sur plusieurs cen-

(9)

taines de processeurs simultan´ement, si l’on utilise par exemple les nœuds d’une grappe ou d’une grille de calcul. Il est par ailleurs plus simple d’adapter un algorithme distribu´e

`

a une exécution locale que l’inverse. Une parallélisation distribuée avec passage de messages entre les différents processeurs peut cependant s’avérer plus compliquée à mettre en place. Il existe dans le cas présent plusieurs points qui peuvent poser problème dans le cadre de cette parallélisation : certains sont liés à la sémantique de l’algorithme, d’autres sont des problèmes d’ordre informatique liés à l’implémentation de l’algorithme.

2.4 Cons´ equences du relˆ achement de l’heuristique biologique

L’exécution en parallèle implique une modification de l’heuristique fondamentale de MkDom2. Au lieu de considérer uniquement la plus courte séquence du jeu de données comme un domaine, on considérera plusieurs séquences simultanément comme des domaines potentiels. Ce changement permet l’occurrence de situations nouvelles que l’algorithme devra gérer et peut amener à des différences entre les résultats de l’algorithme parallèle et ceux de l’algorithme séquentiel.

2.4.1 Conflits de résultats entre requêtes parallèles

Dans son principe MkDom2 est fortement séquentiel puisqu’il nécessite que les can- didats soit traités les uns après les autres par ordre de taille croissante. Ceci pose deux problèmes lorsqu’on veut calculer plusieurs requêtes simultanément. Avec plusieurs re- quêtes traitées en parallèle, il est possible que deux requêtes aient des résultats qui se chevauchent (voir illustration Fig. 3). Dans ce cas là, l’arbitrage est de donner la priorité

`

a la séquence qui aurait été traitée en premier si l’exécution avait été séquentielle, son résultat est pris en compte, celui de la seconde requête n’est pas conservé, la requête sera recalculée une fois la base de données mise à jour et les parties conflictuelles supprimées.

Les conflits de ce type amènent à faire des calculs pour rien et donc à un gaspillage des ressources. Si ces conflits sont fréquents, ils auront un impact négatif sur l’efficacité de la parallélisation. Le fichier de données de départ peut contenir des séquences identiques ou proches (par exemple deux protéines homologues). Le tri des séquences par ordre de taille croissante a de plus tendance à rapprocher les séquences similaires et par conséquent à augmenter la fréquence des conflits. Dans la précédente version parallèle [13], l’ensemble des nœuds de travail étaient interrompus lorsqu’un chevauchement était détecté, la base de données était mise à jour et les calculs étaient ensuite redémarrés sur la nouvelle version de la base de données. Cette politique permettait de coller de très près au fonctionnement de MkDom2 mais rendait également les conflits coûteux.

(10)

Fig. 3 – Illustration d’un conflit entre deux résultats. Dans la version séquentielle (à droite), la mise à jour entre les deux requêtes empêche l’occurrence du conflit.

2.4.2 Pr´evoir les conflits pour les ´eviter

La solution choisie afin d’éviter l’occurrence de conflits entre résultats de requêtes simultanées est de chercher à prédire les séquences potentiellement conflictuelles à partir du résultat de la comparaison de chaque séquence du jeu de données contre l’ensemble de celui-ci. Si une homologie est trouvée entre deux séquences A et B, ces deux séquences sont considérées comme étant adjacentes. Elle ne pourront pas être sélectionnées (ni aucune sous séquence issue de A ou de B) simultanément comme requêtes. À partir de ces relations d’adjacences entre séquences on peut déterminer des jeux de requêtes non- adjacentes pouvant être traitées en parallèle. Une recherche PSI-BLAST est différente d’une recherche BLAST simple et aura tendance à avoir des résultats plus large. Si on est sûr que deux requêtes adjacentes auront des résultats de PSI-BLAST chevauchant, l’inverse n’est pas vrai. Il est possible que deux requêtes non adjacentes aient des résultats chevauchant. Par conséquent, un système de vérification de l’indépendance des résultats a posteriori est nécessaire. Cette information sur les relations a priori doit cependant permettre de maintenir la fréquence des conflits à un niveau acceptable afin qu’ils ne deviennent pas un handicap pour la parallélisation.

Cette comparaison de l’ensemble des séquences entre elles représente en soi un calcul coûteux en temps. Cependant, contrairement à MkDom2, il est très facilement pa-

(11)

rallélisable puisque les BLAST de chacune des séquences contre le reste de la base sont indépendants les uns des autres. D’autre part, ce calcul est également utilisé pour le calcul d’autres bases de données comme par exemple Hogenom [14] et pourrait être à terme mutualisé entre les différentes bases.

2.4.3 Conséquence de la parallélisation sur les résultats

Le traitement simultané de plusieurs requêtes peut par ailleurs amener à une modification des résultats par rapport à la version séquentielle. Lorsqu’une mise à jour de la base de données retire les domaines recrutés par une requête, elle peut créer une nouvelle plus courte séquence qui sera sélectionnée comme requête pour la prochaine itération (voir exemple Fig. 1(b)). Si plusieurs requêtes tournent en parallèle et qu’une nouvelle plus courte séquence est générée par une de ces requêtes, elle passera systématiquement après les requêtes en cours même si, en suivant scrupuleusement l’heuristique de faire passer les séquences par ordre de taille croissante, elle aurait dû les précéder. Ces différences dans l’ordre de traitements des requêtes entraˆıneront des différences au niveau des résultats.

Les séquences traitées en parallèles étant non adjacentes (voir partie 2.4.2), le résultat de la sous-séquence se faisant((doubler))devrait dans la majorité des cas ne pas être modifié par cette inversion. On ne peut cependant pas exclure que le résultat d’une requête PSI- BLAST recrute, du simple fait du système de score d’alignement BLAST, certains résidus qui auraient dû, en suivant l’algorithme séquentiel, faire partie d’une autre famille de domaines. Si ces résidus sont retirés d’un domaine détecté ((de justesse))par PSI-BLAST, cela peut même entraˆıner la disparition d’un domaine complet de la famille lésée. Enfin, ce chevauchement entre résultats peut également se produire avec une séquence qui aurait dû être une requête en suivant l’algorithme séquentiel, auquel cas ce chevauchement entraˆınerai la disparition d’une famille de domaine complète.

Il peut toutefois arriver dans certains cas que la version parallèle soit plus ((juste))au sens de l’heuristique que la version séquentielle. Si deux séquences A et B sont traitées en parallèle, A étant plus petite que B et que B contient une répétition interne plus petite que A, la version parallèle pourra traiter les résultats de la répétition interne de B avant ceux de la séquence A, tandis que la version séquentielle traitera en premier lieu les résultats de A puis, ceux de la répétition interne de B.

2.5 Les limitations informatiques

Une solution na¨ıve pour implémenter la parallélisation externe serait de désigner un maˆıtre qui génère un jeu de séquences non-adjacente et envoie une requête issue de ce jeu

`

a chaque travailleur, attend les r´esultats, les traitent puis envoie la mise `a jour de la base

(12)

de données à tous les travailleurs avant de recommencer. Cette solution engendrerai une utilisation inefficace des ressources de calcul et est améliorable sur de nombreux points.

2.5.1 L’´equilibrage de charge entre travailleurs

0 50 100 150 200 250 300 350

20406080100

Appels successifs à la sous−routine PsiBlast

Temps d'exécution (s)

(a)

0 5000 10000 15000 20000 25000

−2024

Appels successifs à la sous−routine PsiBlast

Temps d'exécution (log(s))

(b)

Fig. 4 – Temps d’exécution des appels successifs à PsiBlast pendant les 8 premières heures de traitement par MkDom2 d’une base de 2 000 000 de séquences (a), ainsi que pour l’intégralité du traitement par MkDom2 d’une base de 30246 séquences (b)

L’étude du comportement de MkDom2 révèle également que le temps d’exécution de blastpgp varier au fil des exécutions (voir Fig. 4). La complexité en temps d’une recherche BLAST est O(mn) où m est la taille de la séquence requête et n la taille de la base de données cible. Ce temps décroˆıt donc globalement en suivant la décroissance de la taille du jeu de données au fil des itérations. Il varie également en fonction de la requête et du nombre de résultats qu’elle va engendrer. Dans le cadre de MkDom2, une recherche PSI-BLAST peut être constituée de une à dix requêtes BLAST le nombre d’itérations variant en fonction du nombre de résultats et de la rapidité de stabilisation du jeu de résultats. Il peut donc théoriquement y avoir un ratio de plus de 1 à 10 entre le temps d’exécution de deux requêtes successives. Dans notre solution na¨ıve, le maˆıtre attend que tous les travailleurs aient fini de traiter leur requête pour poursuivre. Si sur dix travailleurs, neuf finissent de traiter leur requête en une seconde et que le dixième met dix secondes à traiter la sienne, on aura perdu 81% du temps processeur disponible.

Cette variabilité des temps d’exécution, dépendant des résultats de la requête, est par nature imprévisible. On peut cependant chercher à minimiser son impact : en envoyant

(13)

non plus une mais plusieurs requêtes en même temps à chaque travailleur, on peut espérer niveler les différences entre travailleurs et ainsi diminuer le taux d’inutilisation des processeurs.

Cette solution laisse d’autre part le temps au maˆıtre de commencer à calculer la mise à jour de la base de données ainsi que de nouveaux lots de séquences de fa¸con désynchronisée par rapport aux travailleurs, en commen¸cant ce calcul avant d’avoir re¸cu la totalité des résultats. Ces lots préparés en avance peuvent être envoyés de fa¸con asyn- chrone aux travailleurs de fa¸con à ce que chacun re¸coive son lots au moment ou il est près, sans attendre que tous les autres travailleurs aient également fini. Ceci offre ainsi un deuxième moyen permettant d’équilibrer la charge entre les différents travailleurs.

Cela permet également un recouvrement du temps de calcul du maˆıtre et des travailleurs (voir illustration Fig 5). Il faudra alors tenir compte des séquences encore en cours de traitement lors de la sélection des requêtes. Les séquences devront non seulement être indépendantes entre elles mais également indépendantes des requêtes encore en cours.

(a)

(b)

Fig.5 – Utilisation des processeurs en fonction du temps (Diagramme de Gantt) avec un maˆıtre synchrone (a) et un maˆıtre désynchronisé (b). Dans le premier cas les travailleurs sont utilisés à 44% ; dans le deuxième cas ils sont utilisés à 54%. Le temps total d’exécution dans le deuxième cas est réduit de 25% par rapport au premier.

2.5.2 Gestion de l’hétérogénéité de la plate-forme

En plus des variations de temps de traitement non-prévisibles entre les différentes requêtes, il existe des variations systématiques plus faciles à atténuer. Un algorithme

(14)

distribué pourra être exécuté dans un environnement hétérogène de grappe ou de grille. Au sein d’un tel environnement, il n’est pas garanti que toutes les machines soient identiques, certaines pourront être plus rapides que d’autres. Il est donc nécessaire d’adapter la taille des lots de requêtes à traiter à la capacité individuelle de chaque machine. Pour cela, le nœud maˆıtre devra, en préambule du traitement, réaliser un audit de la plate-forme pour estimer la puissance de calcul de chaque nœud.

2.5.3 L’´equilibrage de charge maˆıtre-travailleurs

Il faut au maˆıtre un certain temps pour pouvoir définir un nouveau jeu de requêtes non-adjacentes. Il faut pour chaque nouvelle séquence vérifier son indépendance avec les séquences déjà sélectionnées. Pour que notre solution soit efficace, il faut que le maˆıtre ait le temps de calculer un nouveau jeu de séquences non-adjacentes avant que tous les travailleurs aient fini, afin de faire attendre le moins de nœuds de travail possible. Le maˆıtre ne doit cependant pas s’arrêter trop tôt car il faut que les lots de requêtes aient une certaine taille pour assurer un bon équilibrage de charge. Si τ(n) est le temps nécessaire au maˆıtre pour trouvernséquences indépendantes,ρle temps moyen de traitement d’une requête par un processeur et ω le nombre de travailleurs, on cherchera un n vérifiant :

τ(n)≤ ^ρn_ω

τ(n) dépend de n. Plus il y a de séquences dans le jeu de requêtes non adjacentes, moins il est probable qu’une nouvelle séquence n’ait aucun voisin dans cet ensemble et plus il faut faire de tests pour le vérifier. Ce temps de calcul augmente donc de fa¸con sur-linéaire en fonction den.ρ dépend, pour sa partie prévisible, de la taille de la base de données, de la taille moyenne des séquences requêtes ainsi que de la puissance de calcul moyenne des processeurs. Pour une taille de base de données et une taille moyenne de séquence données, le temps de calcul des nœuds de travail augmentera de fa¸con linéaire avec le nombre de requêtes. Pour une taille de base de données fixée il existe donc unn à partir duquel le temps de calcul du maˆıtre dépasse de fa¸con chronique celui des travailleurs et à partir duquel les travailleurs devront attendre le maˆıtre à la fin de chaque itération.

Le nombre de travailleurs maximum utilisable sera donc limit´e par la capacit´e du maˆıtre

`

a fournir du travail de manière efficace à tous les travailleurs. Comme la taille de la base de données décroˆıt au cours de l’exécution, cela implique également que n devra évoluer au fil du temps pour s’adapter à l’évolution du temps de calcul des travailleurs.

On voit qu’une charge trop importante du nœud maˆıtre peut engendrer une forte inefficacité. On a donc intérêt à alléger au maximum la charge de travail du maˆıtre afin de faciliter l’équilibrage. Pour cette raison le maˆıtre devra déléguer aux travailleurs, en plus du calcul proprement dit, la charge de vérifier la présence de répétitions internes

(15)

0 5000 10000 15000

0500100015002000

nombre de requêtes

Temps (s)

w=100 w=50 w=10

Fig. 6 – Illustration pour une base de données 200 000 séquences et un temps de traitement moyen par requête de 2 secondes. La courbe dénote le temps nécessaire au nœuds maˆıtre pour générer n séquences indépendantes entre elles. Les différentes droites montrent le temps nécessaire pour traiter ces n séquences pour différents effectifs de nœuds de travail.

dans les requêtes qui leur sont distribuées. De même, on ne pourra pas avoir une base de données centralisée mise à jour par le maˆıtre, il faudra que chaque noeud de travail ait une copie de la base qu’il mettra à jour lui même. Cela entraˆıne une redondance des calculs, et notamment des appels àformatdb, ce qui peut sembler coûteux. Cela ne fait cependant pas perdre de temps puisque, dans le cas d’une mise à jour centralisée, les travailleurs ne peuvent rien faire et doivent attendre pendant que le maˆıtre met à jour la base de données. Avoir une base de données par travailleur est également nécessaire pour permettre une désynchronisation des travailleurs et permettre à ceux qui ont fini en avance de mettre à jour leur base de données sans attendre pour pouvoir commencer à traiter les séquences suivantes.

2.6 Les optimisations possibles

2.6.1 Un meilleur usage des ressources

MkDom2 dans son fonctionnement utilise beaucoup le disque dur. À chaque itération, le fichier de données doit être écrit sur le disque pour être formaté pour la recherche

(16)

BLAST parformatdb. Une fois la recherche effectuée et les résultats traités, il faut relire le fichier pour retirer les morceaux faisant partie de la nouvelle famille de domaine et retrier les séquences par ordre de taille croissante. Les opérations sur le disque sont coûteuses et certaines d’entre elles peuvent être évitées. En maintenant en mémoire l’ensemble des séquences dans une structure de données, on évite d’avoir à relire la base de données à chaque itération. D’autre part, cette structure de données peut être maintenue triée ce qui permet également de gagner du temps sur le tri.

Le fait d’envoyer plusieurs requêtes à chaque itération permet également de faire diminuer le nombre de mises à jour de la base de données ; on fera moins fréquemment de grosses mises à jours et on diminue le nombre de réécritures de la base sur le disque.

Le regroupement des requêtes permet également de mieux utiliser le réseau en évitant d’envoyer trop souvent des petits messages. Le coup unitaire d’un message et la latence réseau font qu’il est préférable d’envoyer moins souvent des messages de plus grosse taille.

Dans un schéma maˆıtre-travailleurs, la position centrale du maˆıtre représente un goulot d’étranglement potentiel, il est donc important que les communications du maˆıtre aux travailleurs soient faites le plus efficacement possible.

Le fait d’avoir une base de données par travailleur (voir partie 2.5.3) et non plus une seule base de données centralisée comme c’était le cas lors du stage précédent par exemple, peut également apporter une amélioration dans l’utilisation des ressources. Une base de données centralisée doit par définition être accessible par tous les nœuds et par conséquent, résider sur un système de fichier sur réseau, typiquement une système de fichier NFS. Ces systèmes de fichier ont une latence et des taux de transferts beaucoup plus faible que les système de fichier locaux. En répliquant la base de données sur tous les nœuds de travail, on peut ainsi décongestionner le réseau en éliminant le trafic en- gendré par le système de fichier NFS et améliorer les performances des travailleurs en leur permettant d’accéder plus rapidement aux données.

2.6.2 Eviter les requˆ´ etes orphelines

Une recherche PSI-BLAST commence par une recherche BLAST classique. Si cette première recherche ne génère aucun résultat, la recherche PSI-BLAST s’arrête sans itérer.

Les séquences n’ayant donné aucun résultat dans le tout contre tout ne donneront pas non plus de résultat dans la première recherche BLAST de PSI-BLAST. On peut donc déterminer en amont à partir du tout contre tout les recherches qui seront forcément in- fructueuses. Si ces requêtes ne peuvent pas donner de résultat, elle peuvent tout de même faire partie du résultat d’une autre requête, on ne peut donc pas supprimer préalablement tout les séquences non-adjacentes de la base de données. On peut cependant, lorsqu’une requête n’ayant aucune adjacence se présente, éviter de lancer la recherche puisqu’on est

(17)

sûr que cette recherche n’engendrera pas de résultat autre que la séquence requête contre elle même.

3 Impl´ ementation et test de la solution

3.1 L’algorithme distribu´ e MPI MkDom2

3.1.1 Principe g´en´eral

Fig. 7 – Diagramme de s´equence des communications entre le maˆıtre et les travailleurs.

Après avoir étudié l’algorithme MkDom2, la fa¸con dont se comportent les différentes parties de cet algorithme et les différentes possibilités pour distribuer son exécution, nous proposons un nouvel algorithme (voir Fig. 7). Ce nouvel algorithme suit un schéma maˆıtre-travailleurs qui fonctionne de la manière suivante jusqu’à épuisement des données :

(18)

1. Le nœud maˆıtre sélectionne un premier jeu de séquences indépendantes, il envoien requêtes indépendantes à chaque travailleur en adaptant n à la capacité de calcul de chaque nœud travailleur.

2. Le maˆıtre collecte ensuite les résultats. À partir d’un certain seuil sur le nombre de résultats re¸cu, défini de fa¸con à ce que le temps de calcul du maˆıtre ne dépasse pas celui des travailleurs, le maˆıtre commence à mettre à jour la base de données.

3. Les indications concernant les parties qui doivent être retirées de la base de données ainsi qu’un nouveau jeu de requêtes sont calculés par le maˆıtre et envoyés aux travailleurs sans attendre la réception de l’intégralité des résultats, de fa¸con asyn- chrone, pour que les travailleurs ayant déjà fini puissent commencer l’itération suivante.

4. Retour `a l’´etape 2.

3.1.2 Créations des lots de séquences requêtes

La première tâche du maˆıtre est de définir un jeu de séquences indépendantes entre elles et de les répartir sur les différents nœuds de travail. Pour permettre au maˆıtre d’adapter la taille de lots de requêtes à la capacité des différents nœuds, un benchmark de la plate-forme est effectué avant de commencer à traiter les données. Le maˆıtre envoie cinq séquences prises au hasard dans le jeu de données à tous les travailleurs et les travailleurs renvoient au maˆıtre le temps qu’il leur a fallu pour traiter chacune de ces cinq séquences. À partir de ces résultats le maˆıtre définit la puissance de chaque nœud de calcul proportionnellement au nœud le plus rapide et peut ensuite adapter la taille des lots de requêtes en fonction de ces résultats.

3.1.3 Gestion des relations d’adjacence entre s´equences

L’information concernant les relations d’adjacence entre les séquences du jeu de données de départ doivent être consultées par le maˆıtre à chaque fois qu’il crée de nouveaux lots de requêtes. Pour chaque nouvelle requête potentielle, il faut vérifier qu’elle n’est voisine d’aucune séquence déjà sélectionnée dans le jeu de requêtes. Il faut donc que cette information soit accessible rapidement, sous peine de voir le maˆıtre ralentir l’ensemble du processus. Cette information est très volumineuse : pour un jeux de données de 100 Méga- octets, les relations d’adjacence occupent plus de 350 Méga-octets. Dans la perspective de traiter de très gros jeux de données, il apparaˆıt difficile de maintenir cette information en mémoire. L’utilisation d’un fichier texte qu’il faudrait parcourir pour vérifier l’indépendance de chaque requête serait quant à elle beaucoup trop pénalisante en terme de temps d’exécution.

(19)

Afin de parvenir à un compromis entre rapidité et occupation mémoire, les relations d’adjacence entre séquences sont stockées sur disque dans un fichier sqlite. Un fichier sqlite[15] est un fichier binaire se comportant comme une base de données relationnelle.

Les données sont ainsi maintenues triées et indexées et sont accessibles via des requêtes en langage SQL. Seules les relations des séquences déjà sélectionnées comme faisant parties du jeu de séquence non-d’adjacences sont maintenues en mémoire. Cela permet de maintenir une occupation mémoire très faible tout en limitant les accès au disque dur.

3.1.4 Organisation et traitement des r´esultats

Les relations d’adjacence ne garantissant pas l’indépendance des résultats, il est nécessaire que le maˆıtre traite les résultats de fa¸con à s’assurer qu’ils sont distincts les uns des autres. Afin de préserver au maximum l’heuristique séquentielle, les résultats sont traités par ordre croissant sur la taille des requêtes. Si le résultat d’une requête arrive et que des requêtes plus courtes sont encore en cours de calcul, il est mis en attente jusqu’à ce que les résultats des requêtes plus courtes aient été re¸cus et traités. Le traitement d’un résultat consiste à vérifier qu’il n’a aucun résidu commun avec les résultats des requêtes plus petites. Si aucun chevauchement n’est détecté le résultat est considéré valide et est

´

ecrit sur le disque. Si une intersection non vide existe entre ce résultat et le résultat d’une séquence plus courte, On considère le résultat comme invalide. La requête devra être recalculée sur la prochaine version de la base de données, une fois les résidus conflictuels

´

elimin´es.

3.1.5 Diff´erences d’impl´ementation entre MkDom2 et MPI MkDom2

Mise à part la parallélisation du calcul, il existe également d’autres différences d’im- plémentation entre MkDom2 et MPI MkDom2. Afin de réaliser rapidement un prototype dont on puisse ensuite tester les performances parallèles, certain aspects du code de MkDom2 ont été volontairement simplifiés. Dans MkDom2, les répétitions internes sont détectées en traitant les résultats d’un blast de la séquence requête contre elle même à l’aide du script Perl Mkrep2, qui effectue notamment un alignement la séquence contre elle même. La reprise du même mécanisme dans MPI MkDom2 aurait impliqué soit l’intégration de MPI MkDom2 au sein de l’environement Xdom2 dont dépendent Mk- Dom2 et Mkrep2, ou la réécriture complète de Mkrep2 dans MPI MkDom2. Ce mécanisme n’a pas été repris dans MPI MkDom2. Afin cependant de ne pas biaiser le temps de calcul en défaveur de MkDom2, Une recherche de répétition interne simplifiée a été incluse dans MPI Mkdom2, reprenant notamment l’alignement de la séquence contre elle-même. Mk- Dom2 inclut également dans sa fa¸con de traiter les résultats la possibilité qu’une requête

(20)

génère 2 familles disjointes, ce qui n’est pas possible avec le code parallèle actuel. Les deux programmes diffèrent également dans les versions des exécutables externes qu’ils utilisent, notamment ceux de la suite BLAST. Le code parallèle ne reprend pas non plus pour l’instant les différents mécanismes mis en place dans MkDom2 pour gérer les erreurs des programmes externes.

3.2 Tests

MPI MkDom2 a été testé sur 2 grappes de la plateforme grid5000 [16], La grappe sagittaire regroupant 70 nœuds bi-processeurs cadencés à 2.4 GHz et la grappe paraquad regroupant 64 nœuds bi-processeurs bi-coeurs à 2.3 GHz. Les tests ont été effectués sur deux jeux de données différents. Le premier jeu correspond au protéome complet de Caenorabditis elegans, Ce qui représente une base de données de départ de 22 480 séquences soit environ 11 Méga-octets. Le second jeux de données correspond à l’ensemble des protéomes eukaryotes complets compris dans Uniprot. Ce Jeu de données regroupe 169 388 séquences soit environ 92 Méga-octets.

●

● ● ●

0 20 40 60 80

050001000015000

Nombre de processeurs travaileurs

Temps de traitement (s)

●

(a)

●●

●

0 20 40 60 80

24681012

Nombre de processeurs travaileurs

Speedup

(b)

Fig. 8 – Variation du temps de traitement du protéome complet de C. elegans par MPI MkDom2 en fonction du nombre de processeurs de travail (i.e., maitre exclu) (a) et accélération (b). Tests effectués sur les machines bi-processeurs du cluster sagittaire, (i.e., 10 processeurs = 5 travailleurs bi-processeurs). Le point plein correspond au temps de calcul de MkDom2 pour le même jeu de données, la courbe marquée de ronds correspond aux exécutions asynchrones et la courbe marquée de triangles aux exécutions synchrones.

3.2.1 Efficacit´e de la parall´elisation

Le traitement du protéome complet deC.elegans en faisant varier le nombre de processeurs (voir Fig. 8) montre que la parallélisation permet de diviser par 14 le temps de calcul par rapport à la précédente version de MkDom2 en utilisant 20 nœuds bi-processeurs.

(21)

A partir de ces résultats, on peut détailler les effets de différentes améliorations de MPI MkDom2 par rapport à MkDom2. On voit également sur le deuxième test (voir Fig. 9) que l’acceleration dépend de la taille de la base de données et qu’une base de données plus grosse permet une plus forte accélération par rapport au temps séquentiel.

On peut estimer l’accélération pour le traitement de ce deuxième jeu de données à au moins 50 passant d’au moins 6 jours et 8 heures à moins de 3 heures.

3.2.2 Am´eliorations lin´eaires

Avec un seul travailleur MPI MkDom2 est plus rapide que MkDom2 d’environ 6%.

Cette amélioration est le résultat de la différence entre les différents coûts qu’implique la parallélisation (sélections des requêtes, transmission de messages, etc.) et les différentes améliorations séquentielles (diminution des accès disques, tri de la base de données,etc.).

L’apport du nœud maˆıtre dans ce gain est jugée négligeable, le maˆıtre ne participant pas aux calculs à proprement parlé et n’ayant qu’un rôle ((administratif)).

3.2.3 Utilisation des processeurs

On observe que sur des nœuds multiprocesseurs, MkDom2 n’utilise pas l’ensemble de la puissance disponible, mˆeme en param´etrant blastpgp pour utiliser le multithreading.

Les nœuds bi-processeurs bi-cœurs par exemple sont en général utilisés à 50% de leur puissance totale. Une solution pour utiliser de manière plus efficace tous les processeurs d’une machine serait de lancer plusieurs processus travailleurs par nœuds. Cette solution n’est cependant pas applicable, les besoins mémoire étant trop importants pour que deux travailleurs puissent résider en même temps en mémoire. La cohabitation de deux processus travailleurs sur une même machine entraˆınerait une utilisation accrue du disque dur via le mécanisme de swap, car les besoins en mémoire dépasseraient la capacité de la mémoire physique.

3.2.4 Effet de la d´esynchronisation maˆıtre-travailleurs

L’asynchronisme entre le maˆıtre et les travailleurs permet également de gagner en effi- cacité, l’exécution durant jusqu’à 20% moins longtemps sur 10 processeurs. Cet avantage ne se maintient pas quand la charge du maˆıtre augmente.

3.2.5 Effets de la parall´elisation sur les r´esultats

Les résultats de MPI Mkdom2 et de MkDom2 ont été comparés pour le traitement du protéome deC. elegans. Les résultats de la version parallèle diffèrent de ceux de la version séquentielle. MPI MkDom2 génère moins de familles de 2 séquences ou plus que MkDom2

(22)

●

● ● ● ● ●

0 50 100 150 200

020006000

Nombre de coeurs travaileurs

Temps de traitement (m)

(a)

●

0 50 100 150 200

01020304050

Nombre de coeurs travaileurs

Speedup

(b)

Fig. 9 – Variation du temps de traitement de l’ensemble des protéomes complets eukaryotes de Uniprot par mpi mkdom2 en fonction du nombre de processeurs de travail(i.e., maitre exclu)(a) ainsi que l’accélération correspondante (b). Tests effectués sur les machines bi-processeurs bi-cœurs du cluster paraquad, (i.e., 60 cœurs = 15 nœuds bi-processeurs bi-cœurs). Le temps pour le points d’abscisse 1 est un temps partiel, l’exécution s’étant arrêtée sur une erreur. L’accélération est par conséquent sous-estimée.

(25% de moins) et génère des familles de plus grosse taille en moyenne(6,15 séquences par famille en moyenne contre 5,75 dans le cas de MkDom2). Parmis les familles de plus de 2 séquences définies par MkDom2, 79% trouvent un homologue dans les résultats de MPI MkDom2 et le recouvrement des familles définies par Mkdom2 par leur homologue dans les résultats de MPI MkDom2 est en moyenne de 49% .

Il y a plusieurs origines vraisemblables à ces différences. Dans la version parallèle, le code des travailleurs devrait dans l’idéal coller scrupuleusement à la boucle de l’algorithme séquentiel MkDom2, mais ce n’est actuellement pas encore le cas. Notre prototype ce différencie de MkDom2 dans la fa¸con dont ils détecte et appréhende les répétitions internes ou encore dans la fa¸con dont ils réagit aux erreurs des programmes externes (voir partie 3.1.5). Certaines de ces différences entre la version séquentielle et la version pa- rallèle peuvent avoir une forte influence sur le résultat final du fait du caractère itératif de l’algorithme. Une différence de quelques résidus sur le résultat de l’une des premières requêtes aura une influence sur toutes les itérations suivantes.

Comme évoqué précédemment (voir partie 2.4.3) la parallélisation modifie l’ordre dans lequel les requêtes sont traitée, et par conséquent sur les résultats. L’ordre des différentes requêtes peut être modifié localement par la fonction de tri. Dans le cas d’un ex aequo sur la taille des séquences, l’algorithme de tri dans la version parallèle ne procédera pas forcement de la même manière que celui de la version séquentielle. Ces différences dans l’ordre de traitement des séquences entraˆıneront elles aussi des modifications des résultats.

L’influence relative de ces différents facteurs n’est pas encore établie. L’évaluation des

(23)

résultats de l’influence des différents facteurs ainsi que les tests sur de plus gros jeux de données sont encore en cours.

4 Discussion

Après avoir analysé le fonctionnement et le comportement de MkDom2, ainsi que les différentes possibilités permettant sa parallélisation, nous avons défini un nouvel algorithme reprenant le principe de MkDom2 tout en permettant son exécution sur une ou plusieurs machines à mémoire distribuée. Ce nouvel algorithme apporte des améliorations par rapport à l’algorithme séquentiel en permettant d’envisager de traiter des jeux de données plus importants. Il présente néanmoins lui aussi des limitations.

4.1 La pr´ ediction des conflits s’av` ere efficace

D’un point de vue biologique, la principale différence de cette tentative de para- llélisation avec la tentative précédente est l’utilisation des relations d’adjacence entre séquences pour prévoir et éviter les résultats parallèles se chevauchant. Pour le traitement du protéome deC.elegans, le nombre de ces conflits représente 1% des séquences traitées.

Cette approche s’av`ere efficace puisqu’elle permet de maintenir la fr´equence des conflits

`

a un niveau suffisamment faible pour qu’ils ne p´enalisent pas la parall´elisation.

4.2 Efficacit´ e des diff´ erentes optimisations

Les différentes optimisations réalisées se montrent également efficaces. Elles permettent de contrebalancer les coûts liés à la parallélisation et amène même une amélioration par rapport au temps de calcul de la version séquentielle. Il est envisageable que ces optimisations, notamment celles liées à l’usage des disques durs, gagnent encore en efficacité avec l’augmentation de la taille des jeux de données. La version parallèle a été implémentée de fa¸con à tirer parti au maximum des ressources disponibles sur les noeuds de calcul, les gains en performance se font au prix d’une utilisation accrue de la mémoire vive. Cette ressource étant limitée, il est probable que une fois celle-ci épuisée l’impact de ces optimisations diminuent à mesure que l’usage du disque deviendra de plus en plus nécessaire.

A l’extrˆ` eme, cela pourra entraˆıner un swap total de la base de données entre le disque et la mémoire à chaque itérations.

(24)

4.3 Equilibrage de charge ´

L’équilibrage de charge entre le maˆıtre et les travailleurs s’avère être crucial pour obtenir une bonne utilisation des ressources. Si cet équilibrage est fait correctement, le maˆıtre a le temps de préparer l’itération i+ 1 pendant que les travailleurs calculent l’itération i. Les nœuds de travail n’ont dès lors plus à attendre que le maˆıtre prépare de nouvelles requêtes après chaque itération. En utilisant des communications désynchronisées, on permet également aux travailleurs de recevoir et de commencer à traiter les requêtes suivantes dès qu’ils le peuvent. Cet équilibrage est étroitement conditionné par la taille des données à traiter : plus la taille des données est importante, plus le maˆıtre aura de temps pendant que les travailleurs calculent pour traiter les résultats et préparer de nouvelles requêtes. Pour profiter pleinement de la désynchronisation maˆıtre-travailleurs il est préférable de maintenir le maˆıtre à un niveau de charge relativement bas.

4.4 Limites du mod` ele maˆıtre-travailleurs

La définition de l’algorithme sur un modèle maˆıtre-travailleurs amène à une limite supérieure dans le nombre de nœuds utilisables efficacement sans surcharger le maˆıtre.

De plus, Dans le cadre d’une exécution à très grande échelle (plusieurs centaines de machines réparties sur plusieurs sites) le modèle maˆıtre-travailleurs peut devenir très vite inefficace dans son utilisation du réseau, le maˆıtre représentant un point de congestion puisqu’il est soit le destinataire soit l’expéditeur de toutes les communications. dans le cas de MkDom2, si on veut modifier au minimum l’heuristique de départ, il est difficile de se passer de cette centralisation. Il est possible de repousser encore ces limitations en modifiant légèrement l’implémentation. Par exemple en répartissant le travail du maˆıtre sur plusieurs processeurs, ou en organisant les communications de fa¸con hiérarchique pour décongestionner le nœud maˆıtre. À plus long terme, si le choix d’une nouvelle heuristique et la définition d’un nouvel algorithme sont envisagés, ces considérations informatiques devront être prises en compte.

4.5 Comparaison de l’impl´ ementation parall` ele et de l’impl´ e- mentation s´ equentielle

Au cours de cette étude, nous nous sommes atachés à réaliser et à tester un prototype d’implémentation parallèle de MkDom2 en nous focalisant dans un premier temps sur les aspects informatiques du problème : répartition de la charge, usage des ressources etc.

Le prototype réalisé et testé au cours de ce stage a permis de montrer qu’il est possible d’effectuer efficacement ce calcul de fa¸con distribuée. Cette version parallèle devra main-

(25)

tenant être reprise pour la rendre utilisable et y intégrer les aspects de MkDom2 laissés dans un premier temps de coté pour les intégrer à MPI MkDom2 de fa¸con d’améliorer la qualité des résultats produits .

5 Conclusions et perspectives

L’inférence automatique des domaines protéiques est un problème complexe et très coûteux en temps de calcul. L’algorithme MkDom2 avait jusqu’ici permis d’assurer des mises à jour régulières de ProDom mais il se heurte à la croissance exponentielle de la quantité de données à traiter. La dernière version de ProDom remonte à 2005 et il est probable que la version 2006 sera la dernière à pouvoir être calculée en utilisant MkDom2. ProDom est une base de données de référence utilisée par de nombreux cher- cheurs à travers le monde, notamment via son intégration à la méta-base de données Interpro [17]. L’arrêt de la mise à jour de ProDom signifierait l’obsolescence graduelle de son contenu, il est donc primordial pour ProDom de pouvoir continuer à être mise à jour régulièrement, de fa¸con à intégrer les nouvelles données arrivant chaque jour plus nombreuses et de continuer de permettre son utilisation en conjonction avec d’autres base de données génomiques ou phylogénétiques. Ce travail montre qu’il existe des solutions pour répartir efficacement la charge de calcul d’une nouvelle version de ProDom sur plusieurs machines. Le gain permis par les différentes modifications évoquées dans ce rapport, ainsi que leurs influences relatives sur la pertinence des résultats restent encore

`

a définir mais on peut dès lors envisager continuer à mettre à jour ProDom en utilisant une version parallèle de MkDom2. Il faut désormais modifier le prototype réalisé au cours de ce stage et en reprenant les simplifications faites par rapport à MkDom2 pour rendre son fonctionnement plus semblable à celui de la version séquentielle.

Nous avons également montré au cours de ce stage que MkDom2, de part sa nécessité de centralisation impose de forte contraintes limitant le passage à l’échelle de la pa- rallélisation. À moyen terme, la nature quadratique de l’algorithme associée à ce besoin intrinsèque de centralisation font que la version parallèle atteindra elle aussi ces limites. Il est donc dès aujourd’hui nécessaire de réfléchir à de nouvelles approches qui permettront de calculer à grande échelle la délimitation et la classification des domaines protéiques.

(26)

R´ ef´ erences

[1] R. F. Doolittle and P. Bork. Evolutionarily mobile modules in proteins. Sci Am, 269(4) :50–6, 1993.

[2] D. B. Wetlaufer. Nucleation, rapid folding, and globular intrachain regions in proteins. Proc Natl Acad Sci U S A, 70(3) :697–701, 1973.

[3] A. G. Murzin, S. E. Brenner, T. Hubbard, and C. Chothia. SCOP : a structural classification of proteins database for the investigation of sequences and structures.

J Mol Biol, 247(4) :536–40, 1995.

[4] C. A. Orengo, A. D. Michie, S. Jones, D. T. Jones, M. B. Swindells, and J. M.

Thornton. CATH–a hierarchic classification of protein domain structures. Structure, 5(8) :1093–108, 1997.

[5] E. L. Sonnhammer, S. R. Eddy, E. Birney, A. Bateman, and R. Durbin. Pfam : multiple sequence alignments and HMM-profiles of protein domains. Nucleic Acids Res, 26(1) :320–2, 1998.

[6] J. Schultz, R. R. Copley, T. Doerks, C. P. Ponting, and P. Bork. SMART : a web-based tool for the study of genetically mobile domains. Nucleic Acids Res, 28(1) :231–4, 2000.

[7] E. L. Sonnhammer and D. Kahn. Modular arrangement of proteins as inferred from analysis of homology. Protein Sci, 3(3) :482–92, 1994.

[8] C. H. Wu, R. Apweiler, A. Bairoch, D. A. Natale, W. C. Barker, B. Boeckmann, S. Ferro, E. Gasteiger, H. Huang, R. Lopez, M. Magrane, M. J. Martin, R. Ma- zumder, C. O’Donovan, N. Redaschi, and B. Suzek. The Universal Protein Resource (UniProt) : an expanding universe of protein information. Nucleic Acids Res, 34(Da- tabase issue) :D187–91, 2006.

[9] J. Gouzy, F. Corpet, and D. Kahn. Whole genome protein domain analysis using a new method for domain clustering. Comput Chem, 23(3-4) :333–40, 1999.

[10] S. F. Altschul, T. L. Madden, A. A. Schaffer, J. Zhang, Z. Zhang, W. Miller, and D. J.

Lipman. Gapped BLAST and PSI-BLAST : a new generation of protein database search programs. Nucleic Acids Res, 25(17) :3389–402, 1997.

[11] A.E. Darling, L. Carey, and W. Feng. The Design, Implementation, and Evaluation of mpiBLAST. Proceedings of Cluster World Conference & Expo, 2003.

[12] http ://www.mpiblast.org/Docs.FAQ.html#other-blast, 4 June 2007.

[13] Samuel Blanquart. Extraction et Classification Parall`ele des Domaines Prot´eiques.

Master’s thesis, Universit´e de Rennes-1, 2004.

(27)

[14] http ://pbil.univ-lyon1.fr/databases/hogenom.html.

[15] http ://www.sqlite.org.

[16] https ://www.grid5000.fr/mediawiki/index.php/Grid5000 :Home.

[17] N. J. Mulder, R. Apweiler, T. K. Attwood, A. Bairoch, A. Bateman, D. Binns, P. Bork, V. Buillard, L. Cerutti, R. Copley, E. Courcelle, U. Das, L. Daugherty, M. Dibley, R. Finn, W. Fleischmann, J. Gough, D. Haft, N. Hulo, S. Hunter, D. Kahn, A. Kanapin, A. Kejariwal, A. Labarga, P. S. Langendijk-Genevaux, D. Lonsdale, R. Lopez, I. Letunic, M. Madera, J. Maslen, C. McAnulla, J. McDowall, J. Mistry, A. Mitchell, A. N. Nikolskaya, S. Orchard, C. Orengo, R. Petryszak, J. D. Selengut, C. J. Sigrist, P. D. Thomas, F. Valentin, D. Wilson, C. H. Wu, and C. Yeats. New de- velopments in the InterPro database.Nucleic Acids Res, 35(Database issue) :D224–8, 2007.