• Aucun résultat trouvé

1.1 Visualisation d’Information

1.1.2 Exemples de visualisations

Les Figures 1.4,1.5, 1.6 et 1.7 pr´esente quelques exemples de visualisations g´en´er´ees `

a partir du jeu de donn´ees 1983 ASA Data Exposition dataset [150]. Ce jeu de donn´ees contient un ensemble d’informations relatives `a 406 voitures de l’´epoque. Le nombre de dimensions attach´e `a chaque ´el´ement du jeu de donn´ees est de 8. Le d´etail de ces dimensions est le suivant :

– le nombre de cylindres dans le moteur (cylinders) – la cylindr´ee du moteur (displacement)

– l’acc´el´eration de la voiture

– le nombre de chevaux du moteur (horsepower )

– le nombre demiles par galon d’essence (mpg) – le poids de la voiture (weight)

– l’ann´ee du mod`ele de la voiture

– le pays du constructeur automobile de la voiture

Tous ces exemples de visualisations ont ´et´e g´en´er´es `a l’aide de la plateforme de Visuali-sation d’Information Tulip [9,10,120], d´evelopp´ee au sein de notre ´equipe de recherche. Les ´el´ements graphiques repr´esentant les voitures ont ´et´e color´es en fonction du nombre de cylindres du moteur. La coloration utilis´ee est la suivante :

– 3 cylindres : bleu clair – 4 cylindres : bleu fonc´e – 5 cylindres : jaune pˆale – 6 cylindres : jaune fonc´e – 8 cylindres : rouge

La Figure1.4pr´esente une visualisation d’histogrammes de fr´equence pour six dimen-sions. Ils sont pr´esent´es sous forme deSmall multiple, soit une grille de visualisations simi-laires afin d’en faciliter la comparaison. Ce terme a ´et´e popularis´e par Edward Tufte [180].

La Figure1.5 montre une matrice de scatter plot permettant d’´etudier la corr´elation entre deux dimensions. Les scatter plots sont des repr´esentations populaires et largement utilis´es pour l’analyse de donn´ees multi-dimensionnelles. Des versions plus interactives de ce type de visualisation existent comme par exemple le projetScatterDice de Elmqvist et al. [66].

La Figure1.6pr´esente une visualisation de typepixel-oriented sur six dimensions. Ce type de technique de visualisation de donn´ees a ´et´e ´elabor´e par Keim [115].

La Figure 1.7 pr´esente une visualisation appel´ee coordonn´es parall`eles, ´elabor´ee par Inselberg et Dimsdale [104], repr´esentant six dimensions du jeu de donn´ees.

Ces quelques exemples mettent en exergue l’int´erˆet de la Visualisation d’Information dans un contexte d’analyse de donn´ees. L’exploitation de nos capacit´es visuelles `a recon-naˆıtre des formes et des couleurs ainsi que de diff´erencier des positions nous permet de d´egager rapidement des tendances sur les donn´ees repr´esent´ees.

Figure 1.4: Histogrammes de fr´equence de six dimensions du jeu de donn´ees [150]. Les ´el´ements graphiques repr´esentants chaque voiture (des carr´es) ont ´et´e empil´es dans chaque barre mat´erialisant une classe de l’histogramme. Ce type de visualisation permet de se faire une id´ee de la distribution des donn´ees sur ces dimensions.

Figure 1.5: Matrice de scatter plot comparant six dimensions du jeu de donn´ees [150] deux `a deux. Dans ce type de repr´esentation, chaque ´el´ement graphique repr´esentant une voiture est positionn´e dans le plan suivant deux axes mat´erialisant l’´echelle de valeur de chaque dimension. Les repr´esentations r´esultantes permettent de sugg´erer des corr´elations positives, n´egatives ou nulles entre paire de dimensions. Les couleurs de fond des cases de la matrice refl`etent le coefficient de corr´elation entre les deux dimensions. Plus la couleur de fond est verte, plus les dimensions sont positivement corr´el´ees. Plus la couleur de fond est bleue, plus les dimensions sont n´egativement corr´el´ees. On peut ainsi observer que le nombre de chevaux et la cylindr´ee sont tr`es positivement corr´el´ees, on peut en conclure que sur les mod`eles de voiture dans ce jeu de donn´ees, plus la cylindr´ee est importante, plus le nombre de chevaux l’est ´egalement.

Figure 1.6: Visualisation de type pixel-oriented sur six dimensions du jeu de don-n´ees [150]. Ce type de technique de visualisation de donn´ees a ´et´e ´elabor´e par Keim [115] pour repr´esenter une tr`es grande masse de donn´ees en associant `a chaque donn´ee un pixel. Les donn´ees sont g´en´eralement ordonn´ees en fonction d’une dimen-sion et positionn´ees dans une image via l’utilisation d’une courbe de remplissage. Une coloration pertinente des pixels permet alors une analyse de tendance entre les diff´erentes dimensions. Dans notre cas, les pixels repr´esentant les voitures ont ´et´e positionn´es en utilisant une courbe de type spirale. Ainsi pour chaque dimension les ´el´ements ayant les valeurs les plus faibles se retrouvent au centre et ceux ayant les valeurs les plus ´elev´ees sur l’ext´erieur. Les donn´ees sont toujours color´ees en fonction du nombre de cylindres dans le moteur des voitures. En comparant les repr´esentations associ´ees `a chaque dimension, on peut par exemple observer que plus le moteur des voitures contient de cylindres, plus le nombre de miles par galon d’essence diminue.

Figure 1.7: Visualisation de type coordonn´ees parall`eles sur six dimensions du jeu de donn´ees [150]. Dans ce type de visualisation, ´elabor´e par Inselberg et Dimsdale [104], chaque dimension est mat´erialis´ee par un axe repr´esentant son ´echelle de valeurs. Les axes sont ensuite plac´es dans le plan de mani`ere parall`ele et sont r´eguli`erement espac´es. Une donn´ee est alors repr´esent´ee en tra¸cant une ligne bris´ee/courbe entre les diff´erents axes en fonction des valeurs de ses dimensions. On peut de cette fa¸con observer des corr´elations entre plusieurs dimensions. Ici les donn´ees sont repr´esent´ees par des courbes de Catmull-Rom (voir section5.1.3) interpolant les points de chaque axe. On peut par exemple observer que les dimensions : nombre de chevaux, nombre de cylindres et cylindr´ee sont tr`es fortement corr´el´ees.