Perspectives : vers un partage transparent de données structurées ?

FIG. 6.1 – Comment fournir un accès transparent à grande échelle à des données structurées ?

6.2 Perspectives : vers un partage transparent de données structurées ?

L’ensemble des travaux que nous venons de décrire a été réalisé en ayant comme cible une classe particulière d’applications : les simulations numériques distribuées. Il s’agit donc d’applications issues du domaine du calcul parallèle à hautes performances, avec des contraintes particulières, notamment pour ce qui concerne l’efficacité des accès aux données. Cette cible a eu un impact significatif sur nos choix : par exemple, c’est bien cette classe d’applications qui avait été visée dans le passé par les systèmes à MVP, que nous avons considérés comme « briques de base » pour la construction de notre service de partage de données pour grilles.

Aujourd’hui, la pure performance des accès n’est clairement plus un critère de premier ordre : en témoigne le fort développement récent des applications réparties collaboratives ou à base de services, dans lesquelles d’autres critères sont mis en avant : l’interopérabilité, l’adaptabilité, la haute disponibi-lité. Un bon nombre de ces applications ont besoin d’infrastructures permettant de stocker d’énormes volumes de données structurées, réparties à grande échelle, et d’effectuer des accès à grain fin au sein de ces données. Cette structuration met en premier plan la nécessité d’une gestion adéquate des

méta-données : c’est un point-clé, avec un impact potentiel considérable sur les propriétés des systèmes de

stockage de données qui en dépendent, que ce soit en termes de disponibilité ou de performance. C’est vers cette direction que nous souhaitons orienter nos prochaines recherches. L’objectif sera de capitaliser les résultats acquis lors de nos recherches autour du concept de service de partage de données pour grille et d’explorer différentes voies permettant d’utiliser, d’étendre ou d’adapter ces résultats à un contexte applicatif différent : l’objectif n’est plus de satisfaire les contraintes des simulations numériques à hautes performances, mais plutôt de répondre aux besoins des applications manipulant des données structurées, plus complexes, typiquement stockées et accédées via des langages de bases de données.

La Figure 6.1 donne une illustration synthétique de l’évolution des systèmes de stockage. Nous avons choisi une représentation tridimensionnelle qui met en évidence une progression suivant trois

axes : un axe de la distribution, depuis les architectures centralisées vers celles parallèles (grappes) et réparties (grilles) ; un axe lié à la performance des accès, depuis le stockage sur disque vers le stockage en mémoire vive ; et un troisième axe lié à la structuration des données gérées, depuis les données non structurées accédées de manière brute en lecture ou en écriture, vers des systèmes à base de requêtes plus expressives (utilisant, par exemple, des langages issues du domaine des bases de données). Nous retrouvons dans cet espace plusieurs types de systèmes de gestion de données : les systèmes à MVP, les SGBD centralisés, les SGBD avec stockage en mémoire vive (in-memory databases), les SGBD répartis, ou encore JUXMEM, qui peut être considéré comme l’équivalent d’un système à MVP à l’échelle d’une grille. L’une des limitations majeures de JUXMEM est, à notre avis, la non prise en compte de l’axe « structuration des données ».

Lors de nos études autour du concept de service de partage de données, nous nous sommes appuyés sur les résultats de plusieurs domaines : celui des systèmes à MVP, celui des systèmes P2P, et celui des systèmes tolérants aux fautes. Bien qu’il s’agisse de micro-communautés différentes, nous sommes restés dans le périmètre (plus grand) des systèmes répartis et nos recherches ont porté une coloration « grille ». La prochaine étape consistera sans doute à approfondir les connexions avec les résultats issus des recherches du domaine des bases de données. Nos échanges avec la communauté des chercheurs de ce domaine (ayant eu lieu notamment dans le cadre de l’École DRUIDE que j’ai organisée en 2004, ainsi que dans le cadre du projet RESPIRE de l’ANR durant ces trois dernières années, en collaboration avec Stéphane Gançarski et Patrick Valduriez) nous ont permis de constater l’existence de nombreuses pro-blématiques communes autour de la cohérence des données. Ces propro-blématiques ont traditionnellement été traitées selon des approches différentes par la communauté des systèmes répartis et par celle des bases de données. Au-delà des différences de terminologie, on peut clairement identifier des efforts pa-rallèles et quelque peu redondants d’un côté, mais aussi des hypothèses et des contraintes foncièrement différentes par ailleurs, issues de besoins applicatifs différents.

La confrontation des résultats des ces deux domaines dans le contexte des applications collaboratives exploitant de grands volumes de données réparties à très grande échelle sur une infrastructure dynamique est, à notre avis, une source fertile et particulièrement prometteuse. À titre d’exemple, il sera nécessaire de revisiter les notions de modèle de cohérence et de protocole de cohérence afin d’intégrer l’important héritage laissé par le domaine des bases de données réparties, dont le développement a été parallèle à celui des systèmes à MVP. Il faudra également explorer l’impact d’une éventuelle assimilation de ces résultats sur le concept de service de partage de données tel que nous l’avons défini (de manière plus restrictive, sans doute) dans le contexte des grilles à haute performance.

Nous pensons que l’investigation de cet « espace » situé entre les systèmes répartis et les bases de données n’a pas encore mobilisé suffisamment d’efforts, et d’autant moins dans le contexte assez récents des infrastructures réparties à très grande échelle. Nous ne faisons bien évidemment pas sem-blant d’ignorer les contributions apportées par la communauté des chercheurs du domaine des bases de données réparties sur des grappes (cluster databases), ni des quelques essais de passer à l’échelle en construisant des bases de données sur des grappes de grande taille – parfois appelées grilles par abus de langage (citons par exemple Oracle-10g). Les défis restent entiers lorsqu’il s’agit de penser un système de stockage pour une infrastructure géographiquement répartie à très grande échelle où les ca-ractéristiques de l’infrastructure physique sont plus proches de celles des grilles multisites que de celles des grappes de très grande taille. L’émergence des infrastructures dédiées au cloud computing, permet-tant aux utilisateurs d’externaliser le stockage de leurs données, avec des possibilités de configuration à distance des ressources selon les besoins exprimés, ne fera que mettre en évidence encore davantage ces défis. Nous pensons donc que l’objectif de l’accès transparent à des données structurées dans ce contexte reste d’actualité : le poursuivre contribuera sans doute au développement de ces applications collaboratives réparties et à leur acceptation par les utilisateurs. Cela d’autant plus si les solutions qui seront proposées réussiront à « cacher » les détails ennuyeux du stockage physique (tout en les traitant de manière « intelligente » !), fût-ce sur des grilles ou sur des clouds...


