Résultats expérimentaux obtenus - Évaluation théorique et réelle sur Teradata

Évaluation théorique et réelle sur Teradata

5.2.2 Résultats expérimentaux obtenus

Nous avons effectué plusieurs sortes d’expériences, afin d’obtenir une riche et fiable évalua-tion expérimentale de F &A. Tout d’abord, nous l’avons comparé à la méhode de concepévalua-tion itérative, où la fragmentation et l’allocation sont exécutées séquentiellement et sans aucune itération, déployée sur un environnement de grappe de bases de données hétérogènes.

Pour les deux méthodes de conception de l’EDP, nous fixons comme solution initiale une

distribution aléatoire des valeurs des attributs de partitionnement candidat.

Comme F &A, la fragmentation de l’approche itérative est basée sur les heuristiques HC [55] et GA [78] et l’allocation des fragments générés est faite avec l’algorithme F &A-ALLOC . En ce qui concerne F &A, nous avons fixé le seuil de fragmentation W à 500 et nous avons mesuré le temps d’exécution des requêtes par rapport à la variation du nombre des nœuds de la grappe M sur l’intervalle [2 : 128]. La figure 5.4 montre les résultats obtenus à partir de la première expérience, et nous confirme que l’approche conjointe surpasse l’approche itérative d’une manière significative. D’après les résultats obtenus, nous observons aussi que l’approche conjointe F &A basée sur GA comme algorithme de fragmentation surpasse F &A qui utilise l’algorithme HC comme algorithme de fragmentation.

Figure 5.4 – Approche conjointe vs approche séquentielle

Dans la deuxième expérience, nous avons mis l’accent sur la rapidité et la scalabilité de l’approche F &A. Nous avons examiné quatre scénarii d’application différents: F &A en fonc-tion de GA; F &A en foncfonc-tion de HC; une approche séquentielle classique basée sur GA; une approche séquentielle classique basée sur HC. Nous gardons les mêmes paramètres que la pre-mière expérience, W = 500 et M ∈ [2 : 10]. La figure 5.5 montre les résultats obtenus, en

particulier, ce qui concerne le facteur de rapidité. La figure 5.6 montre la mise à l’échelle de F &A et l’approche séquentielle classique.

Figure 5.5 – Speed-Up de F &A vs Speed-Up de l’approche itérative

Pour ce qui concerne l’analyse de l’évolutivité, nous avons considéré un seuil de fragmen-tation de 200. Initialement le nombre de nœuds de la machine parallèle M est initialisé à 2 et la table de fait à 24786000 tuples. Ensuite, nous faisons varier la taille de la table de faits et le nombre de nœuds proportionnellement. Pour chaque valeur, nous calculons le facteur de passage à l’échelle résultant de l’exécution des 55 requêtes.

Figure 5.6 – Scale-Up de F &A vs Scale-Up de l’approche itérative

A partir de l’analyse des résultats obtenus, nous pouvons dire que la methode de conception F &A est évolutive, ce qui est une contribution remarquable de notre étude. Nous remarquons également que le speed up et le scale up obtenus possèdent une tendance sub-linéaire. Cela est dû à deux facteurs qui peuvent probablement empêcher l’obtention d’une vitesse linéaire : la

5.2. Évaluation de performance de F &A temps de collecte et de consolidation des résultats obtenus au niveau des nœuds de traitement

par le nœud coordinateur. Le deuxième facteur étant une conséquence du premier facteur. Dans la troisième expérience, nous avons mis l’accent uniquement sur F &A. Nous avons évalué expérimentalement la configuration idéale d’une grappe hétérogène qui peut remplacer la configuration d’une grappe homogène. Pour cette fin, nous avons observé F &A dans quatre scénarii d’application différents qui peuvent survenir dans les environnements de clusters réels: – un environnement grappe hétérogène dont sa puissance de calcul moyenne est notée

AV GHetP ,

– un environnement grappe homogène, appelé P ++, dont la capacité de calcul AV GHomP est supérieure à la moyenne des puissances de calcul de l’environnement hétérogène

AV GHetP (AV GHomP AV GHetP ),

– un environnement grappe homogène, appelé P −−, dont la capacité de calcul AV GHomP est inférieure à la moyenne des puissances de calcul de l’environnement hétérogène AV GHetP (AV GHomP ≺≺ AV GHetP ),

– un environnement grappe homogène, appelé P = AV G, dont la capacité de calcul

AV GHomP est égale à la moyenne des puissances de calcul de l’environnement

hété-rogène AV GHetP (AV GHomP == AV GHetP ).

Pour tous les scénarii, nous avons supposé que la capacité de stockage satisfait la l’hypothèse

M −1 X m=0

S_m > T aille(DW ), (5.1)

(a)

Figure 5.7 – Effet de l’hétérogénéité de la grappe sur la performance du système

La figure 5.7 illustre les résultats obtenus et montre que l’approche F &A atteint le meilleur score de performance dans le cas du scénario P + +, comme prévu. D’autre part, notons un phénomène intéressant et garanti: la performance sur les environnements des grappes de bases

de données hétérogènes surpasse la performance sur les deux scénarii restants, soit P − − et P = AV G. Ainsi, nous pouvons conclure qu’une infrastructure hétérogène AV GHetP peut

calcul moyenne de AV GHomP tel que AV GHomP = AV GHetP . C’est l’observation clé qui confirme clairement les avantages découlant de la méthode proposée F &A.

Dans la quatrième expérience, nous avons examiné la performance de l’approche F &A. Dans un premier temps, nous étudions l’importance de la prise en considération de la puis-sance de calcul dans le modèle de coût. Ainsi, la phase d’allocation de F &A a été effectuée en tenant compte de la puissance de calcul de nœuds dans le modèle du coût, alors que dans le second scénario la puissance de traitement de nœuds n’a pas été considérée. La figure 5.8 montre les résultats obtenus et confirme l’utilité de la prise en compte de la puissance de calcul.

Figure 5.8 – Effet de la puissance de calcul sur la performance du système

Dans un second temps, nous étudions l’utilité de la prise en considération de la capacité de stockage, nous avons examiné deux scénarii liés à ce facteur critique, c’est à dire des environ-nements de la grappe de bases de données (hétérogènes) tels que les nœuds sont caractérisés par une grande capacité de stockage et des environnements de grappes de bases de données (hétérogènes) tels que les nœuds sont caractérisés par une faible capacité de stockage. Comme le montre la figure 5.9, F &A fonctionne mieux lorsqu’une grande capacité de stockage est prévue au niveau des nœuds.

Enfin, dans la cinquième expérience, nous étudions la performance de notre approche par rapport à la contrainte de maintenance W . Nous avons fait varier W dans l’intervalle [100−500] en utilisant 40 prédicats et pour chaque valeur de W, nous exécutons l’algorithme sous la grappe de machines à 10 nœuds et nous calculons le temps d’exécution nécessaire pour le traitement de la charge de requêtes et le pourcentage de réduction du coût total de traitement de la charge de requête. La figure 5.10 et la figure 5.11 montrent les résultats obtenus pour les deux expériences. De ces résultats, il ressort clairement que l’augmentation du seuil améliore généralement la performance des requêtes car en relâchant W , plus d’attributs sont utilisés pour fragmenter l’entrepôt. Lorsque W est grand, les domaines sont décomposés en plus de partitions et donc chaque partition est moins volumineuse. Cela implique moins de données chargées pour exécuter les requêtes utilisant les attributs de fragmentation. Les résultats

obte-5.2. Évaluation de performance de F &A

Figure 5.9 – Effet de la capacité du stockage

nus montrent que le nombre de fragments et d’E/S sont proportionnels au nombre d’attributs de fragmentation utilisés et au nombre de nœuds du cluster. Il convient de noter également que la performance de F &A se stabilise à partir de la valeur de W = 400. Ce résultat expé-rimental nous confirme l’importance de bien choisir le nombre final de fragments qui peuvent être générés.

Figure 5.10 – Effet du Seuil de Fragmentation W sur la Performance de l’approche F &A

Maintenant, nous avons pu estimer que nos algorithmes donnent de bons résultats, mais cela ne reste que des simulations donc il faut valider notre approche sur un environnement réel. Dans la section suivante, nous testons la performance du meilleur schéma de déploiement trouvé sur la plateforme Teradata.

Figure 5.11 – Pourcentage de réduction du coût de traitement

Dans le document Le déploiement, une phase à part entière dans le cycle de vie des entrepôts de données : application aux plateformes parallèles (Page 174-179)