Probl` eme sp´ eciﬁque de l’agr´ egation dans un entrepˆ ot de donn´ ees distribu´ e

De plus, les chemins d’adaptation peuvent impliquer d’autres aspects sémantiques tels que la qualité du contenu final produit. En effet, selon l’ordre des opérations, on pourra obtenir un contenu final différent, par exemple en convertissant le contenu original, on perdra en qualité du flux audio impliquant une baisse de la qualité des sous-titres produits, ce qui pourrait être évité en extrayant immédiatement le flux audio du contenu original. Or l’utilisateur pourra vouloir trouver un équilibre entre la qualité et le temps d’exécution, équilibre qui dépend des performances de l’infrastructure matérielle.

Ajoutons à cela que chaque opération logique peut être prise en charge par différents services physiques possiblement répliqués sur le réseau, et nous obtenons un nombre rapidement important de chemins physiques correspondant aux chemins logiques. Par exemple si nous supposons que deux services physiques peuvent fournir chaque opération logique, compte tenu des six chemins logiques possibles, nous obtenons 6× 28 = 1536 chemins physiques possibles. Alors que l’exemple pris n’est pas très compliqué, on peut déjà se rendre compte que ce genre de problème n’est pas gérable par des décisions intuitives.

Pour conclure sur cet exemple, nous pouvons donc noter que de nombreux aspects sont impliqués dans la résolution d’un tel problème.

– l’emplacement des instances des différentes ressources à composer – les caractéristiques des données échangées

– les caractéristiques de la portion d’infrastructure matérielle concernée – le ou les aspects à optimiser

Lesquels aspects relèvent tantôt de caractéristiques des ressources, des choix et besoins utilisateur et des capacités de l’infrastructure matérielle. Ils obligent donc l’utilisateur à faire face à un problème d’équilibre très sensible et complexe, en particulier compte-tenu du nombre de solutions possibles qui s’offrent à lui, alors qu’il n’a ni les connaissances, ni les compétences pour trancher.

2.4 Problème spécifique de l’agrégation dans un entrepôt de

don-n´ees distribu´e

Les trois exemples présentés précédemment représentent les trois problèmes classiques liés à la r´ e-partition de ressources. En réalité, ils ne représentent que la partie commune à (pratiquement) tous les utilisateurs. Or dans la plupart des applications de grilles, on rencontre des problèmes très spécifiques qui ne rentrent pas exactement dans les trois cas sus-cités (malgré certains points communs).

Nous avons rencontré de nombreux exemples lors du développement de la plateforme logicielle GGM décrite Section 1.2.1. Le plus emblématique concerne l’entrepôt de données distribués. De fa¸con grossière, un entrepôt de données est une base de données dont le schéma prévoit un niveau d’agrégation pour chaque donnée : les données au niveau le plus détaillé proviennent généralement directement des sources, alors que les données de plus haut niveau d’agrégation sont des statistiques calculées sur l’ensemble des données de niveau inférieur. L’exemple classique est celui des ventes dans une chaˆıne de magasins : au plus bas niveau, on trouve chacune des ventes unitaires par lieu et date, puis au niveau supérieur on trouve la somme des ventes par région ou par jour, et au niveau le plus haut on trouve le total des ventes depuis leur début et sur l’ensemble des magasins.

un agrégat, l’entrepôt peut soit lui fournir directement s’il est déj`a matérialisé, soit le calculer `a partir des agrégats matérialisés de niveau inférieur. Une hiérarchie simple est présentée Figure 2.9 : les agrégats de niveau 3 (par exemple les ventes d’une année) sont calculés à partir de tous les agrégats de niveau 2 (les ventes des deux semestres de l’année) qui, eux-mêmes, le sont à partir des agrégats de niveau 1 (les ventes des trimestres de l’année).

Fig. 2.9 – Exemple de hiérarchie d’agrégation d’entrepôt de donnée

2.4.1 Pr´esentation du point de vue de l’infrastructure

La Figure 2.10 montre un exemple d’une telle situation : client1.athome.com veut recevoir l’agrégat de niveau 3. Certains hôtes du domaine grid.com hébergent une instance du service d’en-trepôt distribué (not´e DDW pour Distributed DataWharehouse) lequel est capable d’effectuer des agrégations. Les différents agrégats sont stockés par le service de caches collaboratifs disponibles sur d’autres hôtes. Ces agrégats sont inclus dans des fichiers qui peuvent contenir plusieurs agrégats non nécessairement continus. Ces fichiers peuvent être répliqués et les agrégats peuvent être inclus dans plusieurs fichiers différents. Ainsi, un même agrégat peut être inclus dans deux fichiers de tailles très différentes. Or, la structure de ces fichiers impose que leur totalité soit récupérée avant d’extraire un agrégat donné.

Fig. 2.10 – Le problème spécifique de l’agrégation vu depuis l’infrastructure

L’objectif du problème spécifique de l’agrégation est de décider quelle(s) instance(s) du service d’entrepôt distribué et quel(s) fichier(s) utiliser pour fournir l’agrégat demandé par l’utilisateur. Une telle décision implique des choix du type : vaut-il mieux récupérer directement un agrégat inclus dans

2.4 Problème spécifique de l’agrégation dans un entrepôt de données distribué 29

un fichier de grande taille sur un hôte proche ou bien dans un fichier de faible taille mais sur un hôte plus distant, ou encore vaut-il mieux recalculer cet agrégat à partir des agrégats de niveaux inférieurs en fonction des fichiers dans lesquels ils sont inclus.

2.4.2 Pr´esentation du point de vue de la superstructure GGM

La Figure 2.11 illustre le problème spécifique de l’agrégation vu depuis la superstructure GGM : (1) un client, qui peut être un utilisateur ou un autre composant logiciel de la superstructure, émet une requête d’entrepôt dont le résultat est un agrégat ; (2) ce dernier établit la liste des différentes solutions d’agrégation en fonction de la hiérarchie présentée précédemment et de l’indexation des agrégats dans les fichiers logiques ; (3) l’emplacement des différents fichiers logiques est demandé au cache ; (4) ce dernier informe l’entrepôt des emplacements physiques et de la taille des fichiers demandés ; (5) l’entrepôt évalue le coût de chacune des solutions d’agrégation selon ses modèles de coûts propres ; (6) selon la solution retenue, il récupère les fichiers physiques ; (7) puis en extrait les agrégats nécessaires et procède aux agrégations demandée ; (8) enfin il renvoie l’agrégat demandé à l’utilisateur.

Fig. 2.11 – Le problème spécifique de l’agrégation vu depuis la superstructure GGM

On peut noter une difficulté annexe impliquée par la dissociation des informations impliquée dans la décision. En effet, la décision ne peut être prise qu’en regroupant les informations détenues par l’entrepôt distribué et le service caches collaboratifs. Cela implique donc un fort couplage entre ces deux composants et des problèmes de synchronisation. Par exemple : que se passe-t-il si un fichier ait supprimé après que l’entrepôt est construit son plan d’agrégation ? De plus, seule une étroite collaboration permet à ces deux services d’implémenter des stratégies complémentaires en ce qui concerne le déploiement des fichiers et leur sélection. Par exemple, l’entrepôt peut décider de construire un fichier contenant de très nombreux agrégats compte-tenu de leurs régulières utilisations conjointes, alors que le cache peut décider de découper ce fichier afin de le stocker plus facilement selon l’espace disque disponible sur la grille. On voit ici la mise en œuvre de deux stratégies concurrentes, ce qui risque fort de s’avérer néfaste pour les performances.

2.4.3 Analyse

Dans un entrepôt classique hébergé sur une unique machine, le problème de décider quelles données doivent être matérialisées est déjà assez complexe et relève d’un problème d’équilibre entre charge disque, charge de calcul et temps de réponse. Avec la distribution de l’entrepôt sur plusieurs hôtes différents, non seulement ce problème est exacerbé, mais il oblige également à gérer la réplication de certaines données afin d’assurer leur disponibilité, ce qui renvoie aux problématiques présentées Section 2.1.

De plus lorsqu’une données et demandée, il ne s’agit plus simplement de savoir si elle est mat´ eria-lisée, car elle peut l’être mais sur un hôte distant dépourvu d’une bonne capacité de communication, alors que les données des niveaux inférieurs permettant son calcul sont sur des hôtes proches, dispo-sant d’une grande capacité de calcul et de communication : parfois l’agrégation sera plus efficace que le simple transfert, ce qui n’était pas le cas dans les entrepôts classiques. Cette agrégation pourra se faire à partir de différentes données répliquées de niveaux différents, présentant ainsi un grand nombre de possibilités. On voit ici apparaˆıtre un problème de déploiement/sélection complexe et spécifique aux entrepôts de données distribués.

Qui plus est, la notion de fraˆıcheur prends ici une importance cruciale : lorsqu’un agr´egat est matérialisé, il doit être maintenu lors de la mise à jour des agrégats de plus bas niveau. Or ce processus de maintenance peut s’avérer extrêmement consommateur de ressource et peut prendre de longues heures. Un premier impact est que la stratégie de réplication/placement des agrégations s’en trouve complexifiée et doit être élaborée en conséquence. Le second impact est que cette maintenance implique un décalage de fraˆıcheur entre données agrégées et données détaillées qui doit être pris en compte lors d’une requête : un utilisateur pourra préférer obtenir une réponse rapide au détriment de la fraˆıcheur, ou le contraire. Enfin, suivant la sensibilité de la demande de certaines agrégations, le concepteur de l’entrepôt pourra délibérément décider de les maintenir plus ou moins fréquemment. On voit ici apparaˆıtre un problème complètement nouveau et spécifique à ce contexte.

En résumé, dans cet entrepôt distribué on retrouve les problèmes classiques de déploiement, s´ e-lection, composition de ressources, mais dans un contexte particulier soumis à des contraintes et problématiques spécifiques. De plus, on voit apparaˆıtre le nouveau problème de la gestion de la main-tenance des données agrégées, toujours en relation avec les problématiques de répartition de ressources, mais sans solution disponible dans la littérature. Enfin, on remarque encore que les différents aspects relèvent tour à tour des choix du concepteur de l’entrepôt, de son utilisateur, des caractéristiques des données et des performances de l’infrastructure matérielle.

Dans le document Modèle et outils génériques pour la résolution des problèmes liés à la répartition des ressources sur grilles (Page 38-41)