Résultats obtenus - Évaluation théorique et réelle sur Teradata

Évaluation théorique et réelle sur Teradata

5.3.2 Résultats obtenus

Qautre expériences nous ont permis d’examiner l’efficacité et l’efficience de notre approche.

Première expérience: l’analyse de performances

Dans le premier test, nous avons comparé F &A&R avec trois autres approches de concep-tion d’un EDP: le particoncep-tionnement, l’allocaconcep-tion et la réplicaconcep-tion sont traités de manière isolée, la réplication de données est effectuée une fois que la fragmentation et d’allocation sont effectuées conjointement, l’allocation et la réplication sont traitées de manière conjointe et séparément du partitionnement. La figure 5.20 compare les performances relatives des quatre méthodes en fixant le seuil de fragmentation à 100 et le skew de valeur d’attribut à 0, 5.

Figure 5.20 – Comparaison entre les approches de conception d’un EDP

Pour chaque approche de conception, nous faisons varier le degré de réplication de 1 à 10 et pour chaque valeur, nous avons calculé le nombre d’E/S nécessaires pour exécuter la charge des requêtes sur une grappe de 10 nœuds. Nous remarquons que l’approche F &A&R est plus adaptée à la conception d’un EDP que l’approche itérative et ses variantes. A partir de ces résultats, nous constatons également que l’augmentation du degré de réplication implique une augmentation de la performance du système en minimisant le coût d’exécution des requêtes.

Dans un second test, nous avons étudié l’impact de la réplication sur la scalabilité de notre approche. Pour cela, nous calculons le facteur de rapidité (speed up). Pour un seuil de fragmen-tation de 100, nous avons fait varier le nombre de nœuds de 1 à 32 et pour chaque valeur, nous

5.3. Évaluation de performance de F &A&R

calculons le speed up pour les degrés de réplication suivants: R: 8(25%), 16(50%), 24(75%) et 32(100%). Les résultats obtenus sont présentés dans la figure 5.21 et confirment que l’approche proposée est bien adaptée à la conception d’un EDP. De plus, l’augmentation du degré de réplication permet d’offrir une meilleure accélération. Dans le cas R = 100%, l’accélération est approximativement linéaire. Cela est dû au fait que la réplication donne des avantages supplémentaires découlant de l’équilibrage de charge qui n’élimine pas complètement les effets du skew. Cependant, la réplication requiert plus de mémoire pour le stockage et pour la main-tenance des répliques (que nous négligeons dans cet article). Le degré de réplication doit donc être bien paramétré.

Figure 5.21 – Effet du degré de réplication sur le speed-up de F &A&R

Deuxième expérience: la dépendance entre les paramètres de conception d’un EDPs

Dans le premier test, nous avons étudié la dépendance entre le degré de skew des valeurs d’attribut et le degré de skew de placement des fragments. Nous avons fixé le seuil de frag-mentation à 100 et le nombre de nœuds à 10. Nous faisons varier le degré de skew des valeurs d’attribut de 0, 2 à 1 et pour chaque valeur, nous avons calculé le degré de skew de placement des fragments. La figure 5.22 montre les résultats obtenus et confirme que la mauvaise répar-tition de données augmente considérablement quand le degré de skew des valeurs d’attribut augmente.

Dans la deuxième évaluation, nous avons étudié l’impact du degré de réplication sur le traitement en parallèle. Nous faisons varier le degré de réplication de 1 à 10 et, pour chaque valeur, nous avons calculé le degré de d’équilibrage de charge. Comme le montre la figure 5.23, l’augmentation du degré de réplication réduit les effets négatifs du skew de données. D’autre part, l’augmentation du degré de réplication facilite l’atteinte de la haute performance de l’EDP.

Figure 5.22 – Skew des valeurs d’un attribut vs Skew de Partitioning de Données

Figure 5.23 – Dépendance entre degré de réplication et skew de traitement.

Troisième expérience: l’effet de skew de données

Nous avons fixé le degré de skew de placement des fragments à 0, 5 et le seuil de fragmenta-tion à 100. Nous faisons varier le degré de skew de placement des fragments de 0.2 à 1 et pour chaque valeur, nous calculons le coût d’exécution des requêtes sur une grappe de 10 nœuds pour un degré de réplication R égal à 2, 5, 8 et 10. La figure 5.24 montre que l’augmentation du degré de skew de placement des fragments dégrade la performance du système. Cela est du au fait que le degré d’équilibrage de charge augmente quand le degré de skew de placement des fragments augmente.

Dans un second test, nous nous sommes intéressés à l’effet du degré de skew des valeurs d’attribut sur le partitionnement. nous faisons varier le seuil de fragmentation W de 100 à 350 et le degré de skew des valeurs d’attribut de 0.2 à 1. Pour chaque valeur nous calculons le temps d’exécution de la charge de requêtes sur une grappe de 10 nœuds. Les résultats obtenus montrent que le degré de skew des valeurs d’attribut impacte la performance du système par la

5.3. Évaluation de performance de F &A&R

Figure 5.24 – Effet du degré de skew des valeurs d’un attribut sur le seuil de fragmentation

minimisation du nombre des fragments générés. Cela est dû au fait que notre approche élimine les attributs ayant un degré de skew des valeurs d’attribut élevé de la liste des attributs de fragmentation candidats. Ainsi le nombre de fragments se réduit et leur taille s’accroit. En conséquence, le degré de l’équilibrage de charge s’accroit ( voir figure 5.25).

Figure 5.25 – Effet du degré de skew des valeurs d’un attribut sur le temps d’exécution

Ainsi, nous pouvons conclure que le degré de skew des valeurs d’attribut et de placement des fragments impacte le traitement parallèle. La performance du système augmente quand le degré de réplication augmente.

Quatrième expérience: l’effet d’hétérogénéité

Dans les expériences précédentes, nous avons supposé que la grappe est homogène (tous les nœuds ont la même capacité de calcul). Dans celle-ci, nous étudions l’effet de l’hétérogénéité. La puissance de calcul de chaque nœud a été attribuée en utilisant une fonction aléatoire pour tenir compte de l’hétérogénéité de la puissance de traitement de chaque nœud. Tous d’abord, nous avons normalisé les puissances de calcul des nœuds puis nous avons adapté notre approche comme suit:

1. pour l’algorithme d’allocation, nous utilisons notre algorithme F &A_ALLOC pour assigner les classes des fragments aux nœuds. Il est à noter que l’algorithme F &A-ALLOC prend en considération l’hétérogénéité de la puissance de calcul et du stockage des nœuds. 2. pour la stratégie d’allocation des requêtes, nous assignons chaque sous-requête au nœud

le plus puissant qui peut la traiter

Nous avons gardé les mêmes paramètres que l’expérience précédente et nous avons étudié les performances de notre approche adaptée en mesurant le coût d’exécution moyen de la charge sur une grappe homogène et sur une grappe hétérogène. La puissance de calcul de chaque nœud de la grappe homogène est égale à la moyenne des puissances de calcul de la grappe hétérogène. Les résultats représentés dans la figure 5.26 montrent l’intérêt de la prise en considération des paramètres d’hétérogénéité de la grappe dans la stratégie de placement des données et des requêtes.

Figure 5.26 – Effet d’hétérogénéité sur la performance.

5.4 Bilan et discussion

Les résultats expérimentaux sont encourageants et montrent la faisabilité de nos approches. Aussi pouvons-nous conclure que nos approches F &A et F &A&R sont efficaces et efficientes pour le déploiement d’un EDP sur les clusters de bases de données homogénes ou hétérogènes. Ces résultats démontrent clairement les avantages de notre proposition.

5.4. Bilan et discussion

Néanmoins, F &A souffre principalement d’un problème d’équilibrage de charges, ce qui est probablement dû à une mauvaise répartition des données et à une mauvaise répartition des charges entre les nœuds de traitement de la grappe de machines (le deuxième facteur étant une conséquence du premier). Cette mauvaise distribution s’explique par une distribution biaisée des valeurs des attributs de fragmentation ainsi que par une distribution biaisée de données lors de la phase de placement.

En revanche, les expérimentations de l’approche F &A&R donnent de bons résultats. Cela est dû au fait qu’elle : (1) prend en considération la distribution biaisée durant les phases d’allocation et de fragmentation et (2) prend en considération l’intégration de la réplication dans les phases de notre conception. Nous relevons aussi, lorsque les données sont répliquées, le transfert de données entre les nœuds diminue.

Bien que les approches proposées soient tout particulièrement destinées au déploiement d’un EDP sur les grappes de bases de données, il est intéressant d’examiner comment elles pourraient être appliquées à d’autres plateformes de données distribuées, comme les réseaux Peer-To-Peer (P2P) [104] et les infrastructures grille [62].

Pour ce qui concerne les réseaux P2P, malheureusement nos méthodes ne peuvent pas être appliquées, en raison du fait que, dans ces réseaux, les nœuds peuvent rejoindre et quitter le réseau librement, et que la même topologie de réseau peut changer rapidement. Ces caractéris-tiques font que les approches F &A et F &A&R sont inappropriées pour le déploiement d’un EDP au-dessus des réseaux P2P.

Contrairement aux réseaux P2P, dans un environnement de grappe de machines, les nœuds peuvent être ajoutés et supprimés de manière contrôlée, ce dernier étant une propriété es-sentielle de nos approches. Et pour ce qui concerne la mise en place des infrastructures de grille, nos approches peuvent être facilement adaptées pour couvrir ces environnements dis-tribués spécialisés. Ainsi, dans une vision plus large, les grilles peuvent être conçues comme des grappes à haute performance, fortement hétérogènes. En conséquence, F &A et F &A&R auraient seulement besoin d’une fragmentation spécialisée et de modèles d’allocation capables de faire face aux particularités des réseaux, l’approche générale reste identique.

Conclusion

Tout au long du présent chapitre, nous avons présenté et discuté les mesures de perfor-mances que nous avons mené pour valider l’approche proposée. Les résultats expérimentaux sont encourageants et montrent la faisabilité de notre approche. Néanmoins, dans le but d’avoir de meilleures performances, des améliorations peuvent être apportées, et c’est ce que le chapitre suivant évoque.

Dans le document Le déploiement, une phase à part entière dans le cycle de vie des entrepôts de données : application aux plateformes parallèles (Page 189-196)