• Aucun résultat trouvé

7.3 Détection d'anomalies dans les traces d'exécution

7.3.1 Engorgement dans le réseau de communication

La trace analysée dans ce premier cas d'étude provient d'une application de 188 processus, chacun alloué à une machine de la plate-forme Grid'5000. Les 188 machines ainsi dédiées au calcul sont répartis sur 5 sites : Porto Alegre (13 machines), Bordeaux (25 machines), Toulouse, Rennes et Nancy (50 machines chacun).

Site homogène

(Rennes) Site hétérogène(Porto Alegre) Figure 7.4 Treemap microscopique (188 processus visualisés)

L'analyse de la treemap microscopique (gure 7.4) nous apprend que la grande majorité des processus a passé très peu de temps dans l'état Steal, ce qui indique une bonne répartition des charges de travail. Cependant, certains processus du site de Porto Alegre (en bas à droite) ont passé beaucoup plus de temps que les autres à voler du travail, ce qui indique un éventuel problème dans l'algorithme de répartition. Cette anomalie peut être expliquée par une analyse technique plus approfondie : le site de Porto Alegre est connecté à la plate-forme par un réseau privé virtuel (VPN ) maintenu via Internet. Du fait de ce statut particulier, la latence du réseau entre le site de Porto Alegre et les sites français est bien plus grande que dans le reste du réseau. Or, l'algorithme classique de répartition proposé par KAAPI ne prend pas en compte ce genre de propriétés locales : les processus envoient leurs requêtes pour le vol de travail de manière aléatoire, indépendamment des performances techniques du réseau de communication. Dans le cas d'un réseau hétérogène, comme celui de Grid'5000, il résulte des temps de vols de travail plus longs au niveau de la connexion VPN du site de Porto Alegre ; on parle alors d'engorgement8.

La treemap microscopique n'est pas optimale dans la mesure où beaucoup d'information redondante y est représentée au sein des sites homogènes (par exemple le site de Rennes). L'analyse détaillée de tous les processus peut dicilement être généralisée à de très grands systèmes, faisant par exemple intervenir les 7 900 processeurs de la plate-forme Grid'5000. L'utilisateur peut alors visualiser la trace à un niveau d'abstraction supérieur pour sim-plier l'analyse.

Figure 7.5 Treemap entièrement agrégée (1 valeur visualisée)

8Pour plus de détails concernant l'analyse technique de ce cas d'étude, voir [SHN12].

Ici, l'objectif des représentations treemaps n'est pas d'expliquer directement le compor-tement des processus, mais de repérer des irrégularités an d'informer l'utilisateur de la présence de zones problématiques au sein de l'exécution.

112 CHAPITRE 7. VISUALISATION DE PERFORMANCE L'anomalie décrite précédemment ne peut bien évidemment pas être dé-tectée à partir de la treemap entièrement agrégée (gure 7.5) dans la mesure où les diérences de comportement entre les sites ne sont pas visualisées. La treemap agrégée au niveau des sites (gure 7.6) pourrait en revanche don-ner quelques indications. En eet, l'utilisateur remarque alors que le site de Porto Alegre a globalement passé plus de temps à voler du travail que les autres sites. Cependant, une telle représentation peut être mal interprétée. En particulier, l'utilisateur peut supposer que tous les processus du site de Porto Alegre ont volé du travail de manière inattendue. Il s'agit de l'hypothèse de redistribution uniforme (cf. interprétation 1 gure 7.7). L'utilisateur peut également penser que seulement trois ou quatre processus ont été entièrement inactifs (cf. interprétation 2). Dans les deux cas, il s'agit d'interprétations er-ronées qui peuvent nuire à l'analyse de l'application. En vérité, 7 processus ont eu un comportement similaire au reste de la plate-forme et 6 ont eu un comportement inattendu (cf. interprétation 3). Même si l'utilisateur fait ce genre d'hypothèse, il est impossible de déterminer quels sont les processus problématiques à partir de la donnée agrégée. La représentation ne fournit donc pas toute l'information pertinente pour décrire et expliquer l'anomalie détectée.

Figure 7.6 Treemap au niveau des sites (5 sites visualisés) Cluster agrégé

Ñ

Interprétations possibles

(1) erronée (2) erronée (3) correcte Figure 7.7 Trois interprétations possibles d'une valeur agrégée au niveau d'un site

L'algorithme des partitions hiérarchiques optimales permet de supprimer l'information redondante tout en maximisant la quantité d'information rela-tive à la représentation microscopique. Il constitue pour cela des treemaps multirésolution. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 91% 1% coefficient de compromis α qualité de la par tition optimale

réduction de complexité optimale perte d'information optimale

Figure 7.8 Graphe de qualité des treemaps optimales en fonction du coecient de compromis α

Site homogène

(Rennes) Site hétérogène(Porto Alegre)

Figure 7.9 Treemap optimale préservant au moins 99% de l'information microscopique

114 CHAPITRE 7. VISUALISATION DE PERFORMANCE Le graphe des qualités optimales (gure 7.8) indique la réduction de com-plexité (en bleu) et la perte d'information (en rouge) associées aux treemaps optimales engendrées par l'algorithme en fonction du coecient de compro-misα spécié par l'utilisateur (cf. sous-section 4.3.3). Il apparaît que la tree-map microscopique peut être aisément simpliée sans perdre beaucoup d'in-formation (la réduction de complexité augmente considérablement pour de faibles valeurs deα, alors que la perte d'information reste très faible). Ainsi, lorsque α est inférieur à0.88, la treemap optimale (gure 7.9) conserve 99% de l'information contenue dans la treemap microscopique et atteint 91% de la réduction de complexité maximale. Elle contient deux niveaux de représen-tation : l'exécution des sites homogènes est agrégée, alors que l'exécution du site de Porto Alegre est représentée au niveau des processus. Contrairement à la treemap agrégée au niveau des sites (gure 7.6), l'algorithme garantit à l'observateur que les sites agrégés sont eectivement homogènes. Celui-ci peut faire les bonnes hypothèses concernant le comportement des processus sous-jacents, sans procéder à une analyse plus détaillée de ces parties de la visualisation.

En supposant que l'organisation du système explique le comportement des individus et que l'hétérogénéité est ainsi l'indice de potentielles ano-malies, les partitions optimales attirent l'attention sur les zones problé-matiques de l'exécution sans représenter celle-ci dans son intégralité.

bordemer bordeplage bordereau