• Aucun résultat trouvé

Après avoir abordé la visualisation des données (Cf. Chapitre 3.1) puis celle des résultats algorithmiques (Cf. Chapitre 3.2), l’approche mixte correspond à la visualisation améliorée, la fouille améliorée et la visualisation et la fouille intégrées [Bertini 09]. Elle se situe, au sein d’un continuum présenté par Bertini & Lalanne [Bertini 09], entre l’exploration exclusive des données, sans assistance d’algorithmes, et l’analyse uniquement automatique des données, sans l’aide d’aucune visualisation. Aujourd’hui, cette approche est fondamentale dans le Visual Analytics, parce qu’elle répond parfaitement à ses objectifs d’exploiter de manière optimale

Chapitre 3 : Visual Data Mining

les qualités de l’homme et celles de la machine. Des travaux précurseurs, dont quelques uns sont cités ci-dessous, avaient pressenti cette nécessité. Plus récemment, de nombreuses études montrent cette recherche d’intégration entre la visualisation et l’algorithme, tout en gardant, au cœur du processus, l’opérateur humain. L’intégration est notamment réalisée par la présence simultanée, ou au choix, de multiples techniques de visualisations (Cf. Chapitre 3.1.2). Après un court survol des travaux précurseurs, nous abordons dans ce chapitre quelques études illustrant cette intégration.

3.3.1 Quelques travaux précurseurs

Ils remontent à Tukey [Tukey 77] qui, dès 1977, a énoncé le besoin de passer de la représentation graphique de résultats à l’exploration visuelle interactive des données et des résultats. Cela a donné l’EDA (Exploratory Data Analysis), dont le but est de découvrir des motifs dans les données, grâce à des techniques de visualisation. En 1986, Mackinlay [Mackinlay 86] a proposé APT, un outil de représentation de graphiques à base de règles, pour automatiser le processus de visualisation. En 1999, Wong [Wong 99a] considère qu’un système de fouille visuelle de données ne doit pas exiger de connaissances de la part de l’utilisateur, mais doit le guider pour trouver des conclusions au travers du processus de fouille de données. Plus tard, Keim et al. [Keim 04] ont présenté trois types d’approche permettant d’intégrer l’homme dans la boucle (Cf. Chapitre 3.1 et Figure 3.2).

3.3.2 ViA, un assistant de visualisation

Healey et al. [Healey 08] ont réalisé ViA (Visualization Assistant) qui partage le processus de visualisation entre le système et l’utilisateur. Ce dernier renseigne préalablement le système sur l’importance et le type des attributs, ainsi que sur le type de tâche qu’il souhaite entreprendre. Par exemple, cela peut être une recherche sur l’évolution d’une zone de la visualisation dans le temps ou la détection de frontières entre différentes zones. Puis le système réalise des appariements entre les attributs des données et les variables visuelles. Chaque appariement est évalué, pour donner lieu à une visualisation qui est proposée à l’utilisateur. Il lui est ensuite possible de suggérer un nouveau paramétrage, qui provoquera un nouveau cycle et ajustera le paramétrage des visualisations.

3.3.3 MIDAVisT : explorateur visuel d’ensembles de données mixtes

Avec MIDAVisT [Johansson 09], Johansson présente un outil interactif pour l’analyse de données mixtes, c’est-à-dire numériques et nominales. Elle élabore, dans un premier temps, une catégorisation des données, grâce à une approche combinée, d’une part, algorithmique, et, d’autre part, adaptée par l’utilisateur à l’aide de la visualisation des données. En effet, ayant une connaissance de la base, ce que l’algorithme n’a pas, il peut faire des choix plus pertinents. Dans un second temps, l’outil de visualisation reprend des techniques présentées dans le chapitre 3.1.2, c’est-à-dire les coordonnées parallèles, les matrices scatter plot et les

Figure 3.39 – MiDAVisT [Johansson 09].

Table Lens. Ces trois visualisations, simultanées et coordonnées, permettent ainsi d’explorer de manière interactive les données.

3.3.4 Miner3D

Miner3D15 est un produit commercial, distribué actuellement dans la version 7, décliné en plusieurs versions (Cf. Figure 3.40). Il combine la visualisation de données et la mise en œuvre d’algorithmes. Les techniques de visualisations sont multiples, comme le scatter plot, les matrices 3D, les matrices scatter plot, les lignes, les surfaces et les cartes de chaleur (heatmap). Cette dernière technique consiste à représenter, avec un gradient de couleur du bleu au jaune, puis au rouge, l’intensité des points relativement à la valeur maximale des données, pour une dimension donnée. Pour assister l’utilisateur, plusieurs sortes de filtres sont utilisables, comme les plages de valeur ou des données textuelles. Il est également assisté par des outils algorithmiques permettant, entre autres, le partitionnement en classes ou clustering (Cf. Chapitre 1.2.2), et l’analyse en composante principale pour réduire le nombre de dimensions. La version professionnelle propose des fonctionnalités adaptées aux domaines pharmaceutiques et biochimiques pour l’étude des molécules.

3.3.5 Text Mining et visualisation

Don et al. [Don 07] proposent une intégration de la visualisation dans la fouille de données textuelles (Text Mining). A partir d’une base de documents, le système détecte des répétitions

Chapitre 3 : Visual Data Mining

Figure 3.40 – L’outil commercial Miner3D.

de mots ou d’expressions, ou des similarités. Les résultats sont visualisés selon plusieurs techniques. Dans la partie inférieure (Document Overview) de la figure 3.41, les documents de la collection sont représentés sous forme de rectangles verticaux, dont chaque ligne colorée correspond à un paragraphe. En sélectionnant des mots dans la liste inférieure gauche, leurs occurrences sont visualisées, pour chaque paragraphe de chaque document, dans le Document

Overview, selon un code de couleur permettant d’illustrer si ces occurrences sont importantes

ou pas. Il est ainsi aisé de détecter visuellement la présence simultanée de plusieurs mots au sein d’un même paragraphe. En sélectionnant une ligne, le paragraphe correspondant est présenté dans la partie droite de l’outil.

Un graphique, donnant le nombre d’occurrences en fonction des documents, est représenté dans la partie supérieure de l’outil. Sur la gauche de celle-ci, il est possible de rechercher librement des mots qui n’ont pas été mis en valeur par l’algorithme initial, de trier les motifs par nombre d’occurrences et par nombre d’items. La partie Trends est constituée d’icônes permettant de détecter des profils dans l’évolution d’un mot, que ce soit au sein de l’ensemble des documents de la base, ou uniquement au sein d’un document.

3.3.6 Assistant utilisateur pour le paramétrage de la visualisation

Guettala et al. [Tahir Guettala 12] proposent un assistant utilisateur pour guider l’util- isateur dans le choix et le paramétrage de la visualisation (Cf. Figure 3.42). Cela se fait en deux étapes. Dans un premier temps, le système propose d’abord plusieurs appariements entre la base de données et les visualisations. Il s’appuie sur les objectifs de l’utilisateur, les caractéristiques des données, et les caractéristiques et l’importance des variables visuelles selon Bertin [Bertin 67] et Card et al. [Card 99]. Les données sont constituées d’attributs, chacun étant caractérisé par un type, une valeur et un degré d’importance fixé par l’utilisateur (vue 2D ou 3D, classes ou vue d’ensemble) ou de manière automatique. Les appariements sont

Figure 3.41 – FeatureLens : intégration du Text Mining et de la visualisation [Don 07].

réalisés à partir d’une base de connaissances sur les visualisations et sur la perception visuelle. A l’issue du traitement, huit vues sont proposées par ordre d’importance en fonction d’une valeur d’appariement. Puis l’utilisateur peut changer l’importance des variables visuelles, ce qui a un effet dans le résultat de l’appariement qui est à nouveau calculé.