Les techniques de visualisation - Fouille visuelle des données

3.1 Fouille visuelle des données

3.1.2 Les techniques de visualisation

De nombreuses techniques de visualisation sont étudiées et utilisées dans les logiciels. Il s’agit de présentations de données multidimensionnelles, faisant l’objet de transformations géométriques, comme les coordonnées parallèles, de visualisations à base d’icônes, d’affichages empilés, comme les Treemaps, etc. Nous en présentons quelques unes dans ce paragraphe.

Visualisations géométriquement transformées (Geometrically-Transformed Displays)

Elles présentent des données multidimensionnelles, après leur avoir appliqué des fonctions de transformation. Il s’agit par exemple des coordonnées parallèles abordées précédemment. Les représentations de type scatter plot7 visualisent deux ou trois attributs de variables multidimensionnelles, selon que l’on représente un espace respectivement 2D ou 3D. Une telle représentation sera étudiée plus loin dans le chapitre 3.1.4. Un dérivé de ce concept est la matrice scatter plot [Carr 86], permettant d’étudier, au sein d’une seule matrice, la corrélation entre plusieurs variables prises deux-à-deux. La colonne et la ligne de la case correspondent à une paire de variables. Le splatterplot [Mayorga 13] reprend le principe du scatter plot ou de la matrice scatter plot, mais, au lieu de dessiner les points, ceux-ci sont agrégés dans les régions denses, en surfaces colorées et fermées, tout en gardant l’information de densité et en autorisant la visualisation détaillée des données par un zoom (Cf. Figure 3.8 (b)).

Affichage d’icônes (Iconic Displays)

Au lieu d’afficher des points, comme dans le cas du scatter plot, ceux-ci sont remplacés par des icônes, ou glyphes, dont les attributs graphiques sont associés à une combinaison

Chapitre 3 : Visual Data Mining

(a) (b)

Figure 3.8 – Matrices scatter plot et splatterplot.

(a) : la matrice permet d’étudier la corrélation entre les variables prises deux à deux8. (b) : le splatterplot regroupe les zones de fortes densités en surfaces fermées [Mayorga 13].

de dimensions. Ainsi, un glyphe est un objet graphique conçu pour représenter des données multidimensionnelles [Ware 00]. Cela permet de concentrer en un espace réduit plusieurs dimensions d’une donnée. Cette technique fait appel à la perception pré-attentive (Cf. Chapitre 2.1.1). Les visages de Chernoff [Chernoff 73] en sont l’exemple le plus connu. Ils présentent une donnée ayant jusqu’à 18 dimensions sur un visage, en associant une dimension à une caractéristique de celui-ci, comme la taille globale, la taille des yeux, la longueur du nez. . . En positionnant ces visages, par exemple dans le plan, cela permet de rajouter deux dimensions (Cf. Figure 3.9 (a)). Horn et al. [Horn 98] reprennent cette technique de visualisation à l’aide de glyphes, pour représenter des paramètres physiologiques dans le cadre d’une surveillance de patients en service de néonatologie. Ainsi, 15 paramètres sont codés graphiquement par des formes simples (rectangles, triangles, traits. . .), des tailles, et des couleurs à l’aide de l’outil VIE-VISU. De plus, ces formes sont concaténées dans des animations, afin de d’avoir une connaissance de l’évolution des paramètres dans le temps (Cf. Figure 3.9 (b)).

Affichages à forte densité de pixels (Dense Pixels Displays)

Le principe consiste à associer chaque dimension à un pixel coloré, et de regrouper les pixels correspondant à la même dimension [Keim 95]. Le recouvrement d’informations est donc exclu, car chaque pixel ne correspond qu’à une seule dimension. Le nombre de pixels nécessaires pour ce type de visualisation est facilement calculable. L’affichage de n données, ayant chacune

m attributs, recouvre donc une surface de n × m pixels. L’encombrement de l’affichage d’un

grand nombre de données est ainsi optimisé, et il n’y a pas de risque de recouvrement, ce qui n’est pas le cas de l’affichage des glyphes, abordé ci-dessus. De plus, grâce à la perception

(a) (b)

Figure 3.9 – Visualisation d’objets multidimensionnels par des glyphes.

(a) : les visages de Chernoff [Chernoff 73] permettent de représenter jusqu’à 18 dimensions. (b) : VIE-VISU [Horn 98] représente, en un seul objet, 15 attributs correspondant à des

paramètres physiologiques.

(a) (b)

Figure 3.10 – (a) : Dense Pixel Display [Keim 03]. (b) : Pixel Bar Chart [Keim 02].

pré-attentive, les régularités ou irrégularités sont facilement perçues (Cf. Chapitre 2.1.1). Avec le Pixel Bar Chart, [Keim 02], Keim et al. reprennent ce principe en codant les données, non plus en pixels, mais en barres verticales dont les caractéristiques graphiques représentent des attributs de données.

Affichages empilés (Stacked Displays)

Il s’agit de présenter les données partionnées dans une structure hiérarchique, en encapsu- lant, de manière itérative, une coordonnée dans une autre. Un exemple classique est la Treemap [Johnson 91] qui visualise des données hiérarchiques dans un espace déterminé. Les données sont représentées par des rectangles dont la surface et la couleur correspondent à des attributs des données. Ces rectangles remplissent la fenêtre d’affichage. Chacun est ensuite divisé en plusieurs sous-rectangles qui le remplissent, et qui correspondent à des sous-catégories de celui-ci. Ce processus peut être réitéré autant de fois que nécessaire, en fonction des données et de leur hiérarchie. La figure 3.11 (a) montre l’évolution du marché boursier américain pendant

Chapitre 3 : Visual Data Mining

(a) (b)

Figure 3.11 – Exemples de visualisations empilées.

(a) : Treemap de l’évolution du marché boursier des Etats-Unis en 2013. (b) : Cam Tree [Robertson 91]

une année9_{. Il est composé de secteurs, tels que Health Care, Consumer Services, Technology. . .} Un rectangle correspond à un titre, dont la couleur indique son évolution. Les tons de rouge correspondent à une baisse, les verts à une hausse, et les blancs à une globale stabilité. Le Cone Tree [Robertson 91] est un arbre tridimensionnel, dans lequel une sous-partie d’un nœud est située dans un volume conique ou cylindrique sous celui-ci. Deux nœuds de même niveau hiérarchique se trouvent dans le même plan. Le Cam Tree [Robertson 91] en est une variante, dans laquelle, l’arbre est horizontal (Cf. Figure 3.11 (b)).

Table Lens

Présenté par Rao & Card [Rao 94], la Table Lens est une technique de visualisation d’une grande quantité de données tabulées. Les valeurs des cellules du tableau sont représentées graphiquement par des petites barres horizontales, ce qui permet de les compresser verticale- ment, et ainsi de représenter beaucoup de données. De outils permettent de visualiser des groupes de barres sous forme explicite, et ainsi de connaître les valeurs des cellules. L’outil MiDAVisT [Johansson 09], présenté au chapitre 3.3.3, contient une Table Lens dans sa partie supérieure droite (Figure 3.39).

Techniques de visualisation hybrides

De nouvelles méthodes de visualisation sont régulièrement présentées, mettant en œuvre plusieurs techniques simultanément. Des états de l’art dans le domaine du Visual Analytics [Sun 13,Keim 10a, Mittelstadt 12] permettent d’avoir une connaissance de quelques uns de

9. http ://www.marketwatch.com/tools/stockresearch/marketmap - 55 -

Figure 3.12 – Exploration de données temporelles avec RankExplorer [Shi 12].

ces travaux. Nous en présentons deux, pour illustrer la richesse de cette intégration.

Présenté par Shi et al. [Shi 12], RankExplorer est un outil d’analyse de données temporelles combinant ThemeRiver [Havre 00], des barres de couleur et des icônes (Cf. Figure 3.12). Il permet d’étudier les variations dans le temps de grandes séries de données. Les données sont subdivisées en segments, dont les variations temporelles sont visualisées dans un outil de type ThemeRiver (Cf. Chapitre 3.1.1). Des barres verticales et des icônes sont insérées dans ThemeRiver pour visualiser les changements intrinsèques à chaque thème, et ceux qui interviennent entre les thèmes. Des interactions sont mises en œuvre, comme la sélection, le filtrage et le zoom. Il est également possible de visualiser sous forme textuelle, le contenu et le nombre d’occurrences des items contenus dans une sélection.

La visualisation de données spatio-temporelles fait l’objet de nombreuses études. Dans le domaine du contrôle aérien, il s’agit de l’outil principal avec l’image radar. Tominksi et al. [Tominski 12] proposent de visualiser des trajectoires selon une approche hybride faisant cohabiter des vues 2D, qui sont des trajectoires de voitures à San Francisco, et des vues 3D, qui correspondent à l’empilement vertical de ces trajectoires pour plusieurs voitures (Cf. Figure 3.13 (gauche)). Un code couleur indique la vitesse des voitures. Des outils d’interaction, comme la sélection d’intervalles de vitesse, le déplacement vertical de la carte, pour particulariser une voiture, ou la sélection circulaire de zones géographiques sur le plan de base, permettent de naviguer dans cette représentation, de manière interactive. Ainsi, la sélection d’une zone de la carte permet de visualiser le trafic hebdomadaire dans cette zone, à l’aide d’une loupe temporelle (Time Lens) (Cf. Figure 3.13 (droite)).

Dans le document Algorithmes automatiques pour la fouille visuelle de données et la visualisation de règles d’association : application aux données aéronautiques (Page 72-76)