• Aucun résultat trouvé

5.2 Génération automatique de visualisations à partir de l’ensemble des règles

5.2.3 Paramétrage de la visualisation des données à partir des clusters de

Pour un cluster choisi par l’utilisateur, nous reprenons la méthode exposée dans le chapitre 5.1 pour ordonner les attributs des prémisses des règles qu’il contient, assigner les variables visuelles, la scène et les gradients. En choisissant un autre cluster de règles, la configuration de la visualisation est alors modifiée en conséquence.

Chapitre 6

Conclusion sur les liens entre la

fouille de données automatique et la

fouille visuelle de données

Cette partie a présenté les liens entre la fouille visuelle des données et la fouille automatique. Pour cela, nous avons abordé, dans un premier temps, le processus allant des données visualisées vers les résultats algorithmiques. Le processus inverse, des résultats vers les données, a ensuite fait l’objet du second chapitre.

Nous avons tout d’abord présenté une formalisation de la visualisation, qui permet de préciser la notion de filtre du modèle de Card & Mackinlay (Cf. Chapitre 2.3). Différents opérateurs sont mis en œuvre pour passer de l’espace des données initiales aux données sélectionnées. Cela passe par le filtrage, le zoom et l’excentrement, et enfin par la sélection. Ainsi, le lien entre les attributs de données et les variables visuelles a été formalisé par les fonctions map, f et vis. Puis, la scène sc permet de connaître les données visualisées. A partir de celle-ci, la sélection finalise la détermination des données qui sont effectivement exploitées par l’algorithme de Data Mining. Les opérateurs de sélection que nous utilisons prennent en compte l’hétérogénéité des données aéronautiques et leurs types, numériques, entiers ou flottants, et alphanumériques. La sélection est réalisée à la souris par des opérateurs de type

brushing (Cf. Chapitre 3.1.3), et par des requêtes pour chaque attribut alphanumérique.

Les données traitées par l’algorithme de Data Mining reflètent la visualisation élaborée par l’utilisateur. Pour cela, les niveaux d’organisation des variables visuelles, issus de la sémiologie graphique de Bertin (Cf. Chapitre 2.2), conditionnent la structure des règles d’association extraites, en termes de prémisses et de conclusions. Les données doivent cependant faire l’objet de regroupements en étant traitées par l’algorithme de partitionnement k-means. L’exploration des résultats algorithmiques est ensuite mise à profit pour enrichir la visualisation des données initiales, par assignation de mesures aux variables visuelles, ce qui permet de les valoriser.

Dans un second temps, nous avons présenté une méthode pour générer automatiquement

des visualisations à partir des règles. Soit celles-ci sont choisies par l’utilisateur, soit elles sont considérées dans leur globalité, et, dans ce cas, elles sont regroupées en classes par l’algorithme

k-means, en s’appuyant sur un critère de distance inter-règles que nous avons proposé. Chaque

groupe de règles donne lieu à la génération automatique d’une visualisation, en ordonnant d’abord les 1-itemsets qui les constituent, puis les attributs des données. Cet ordre conditionne ensuite l’assignation des attributs aux variables visuelles, en s’appuyant sur la sémiologie graphique.

Les processus aller et retour, entre les données et les règles d’association, que nous décrivons dans cette formalisation, sont indépendants mais peuvent être chaînés. Dans ce cas, chacun peut être exécuté à la suite de l’autre, dans une boucle globale itérative. L’exploration des données donne lieu au lancement d’un algorithme, ce qui va alimenter l’exploration des itemsets et des règles d’association. Cela provoque un retour vers le visualisateur des données. A partir du changement de configuration de la vue initiale, l’utilisateur peut apporter des modifications, par des filtrages ou des choix d’assignations et de sélection, pour ensuite soumettre à nouveau les données à un algorithme qui peut être différent du premier (Cf. Chapitre 1.5). Les valeurs seuil de l’algorithme peuvent également être adaptées, par modification du support et de la confiance minimum. Il oriente et pilote ainsi le processus d’exploration et de fouille des données par itérations successives et raffinement de l’étude, en jouant un rôle central et décisionnel.

Ainsi, cette formalisation s’inscrit sous l’angle du Visual Analytics, selon lequel l’utilisateur reste le décideur dans le processus exploratoire, en adaptant la visualisation des données à ses besoins, ainsi que celle des résultats algorithmiques. De plus, il décide de la mise en œuvre et des conditions d’exécution des algorithmes de Data Mining. En effet, selon la question posée dans la recherche de connaissance, les algorithmes sont plus ou moins adaptés, et c’est en fonction de son expertise, qu’il optera pour un algorithme plutôt qu’un autre. Enfin, ce choix peut être modifié d’une itération à l’autre, si cela s’avère plus adapté aux besoins de l’utilisateur.

Dans la partie suivante du document, nous allons maintenant nous intéresser aux outils que nous avons élaborés, qui permettent d’explorer les résultats algorithmiques, et qui assurent le retour vers la visualisation des données initiales.

Cinquième partie

Visualisation des résultats de la

fouille de données

Introduction

L

a partie précédente a permis d’établir un processus allant des données initiales jusqu’aurésultat des algorithmes, en passant par leur exploration visuelle. De plus, il est itératif, ce qui permet à l’utilisateur d’explorer successivement les données et les résultats, puis de poursuivre, à nouveau à partir des données, pour affiner l’étude ou l’orienter différemment, ou alors recommencer à partir d’une nouvelle visualisation. Pour cela, il est nécessaire de pouvoir explorer les données, les itemsets et les règles d’association. L’exploration des données que nous avons entreprise reprend globalement le concept de l’outil FromDaDy [Hurter 09] (Cf. Chapitre 3.1.4), sachant que des fonctionnalités ont été ajoutées. Cet outil sera présenté

dans le chapitre 12.3.

Nous présentons, dans cette partie, la visualisation et l’exploration du résultat des algo- rithmes. D’une part, la visualisation des itemsets fréquents (Cf. Chapitre 1.5.1) est réalisée sous une forme innovante basée sur un graphe circulaire concentrique, dans lequel les nœuds correspondent aux itemsets, et les arêtes entre ceux-ci correspondent aux liens entre les itemsets, plus précisément entre les supersets et les sous-sets (Cf. Chapitre 7). Ce graphe a fait l’objet d’une optimisation algorithmique du placement des nœuds, dont l’intérêt a été validé dans le cadre d’une expérimentation (Cf. Chapitre 8). Grâce à cette optimisation, un processus d’amélioration de son exploration, selon plusieurs techniques empruntées à la sémiologie graphique (Cf. Chapitre 2.2) et à l’InfoVis (Cf. Chapitre 3.1), permet de repérer l’implication des données dans la base, ainsi que la qualité des liens entre elles (Cf. Chapitre 9). D’autre part, la visualisation et l’exploration des règles est réalisée par l’association des mesures de qualités et des variables visuelles (Cf. Chapitre 10). D’après la partie 5, l’exploration de cet espace d’itemsets et de règles est ensuite exploitée par un retour vers la visualisation et l’exploration des données initiales.

La représentation circulaire des itemsets, l’amélioration de sa visualisation par l’assignation de résultats algorithmiques aux variables visuelles, et la mise en œuvre d’opérateurs de sélection, ont fait l’objet d’une publication à la conférence ISVC 2013 [Bothorel 13c].

Chapitre 7

Représentation circulaire des

itemsets

7.1 Introduction

Un des problèmes récurrents des visualiseurs d’itemsets fréquents, sous forme de graphes, est la diminution de la lisibilité au fur et à mesure que le nombre de nœuds et d’arêtes augmente [Vijender Singh 11] (Cf. Chapitre 3.2.1). Dans une représentation linéaire, pour montrer un graphe dans son intégralité, il doit être étendu horizontalement. Une solution est de dupliquer les nœuds afin d’étirer l’espace de représentation, comme avec les coordonnées parallèles (Cf. Chapitre 3.1.1). Cependant cela pose rapidement un problème d’encombrement et de vision globale du graphe, car chaque nœud apparaît ainsi plusieurs fois. L’implication du nœud dans le graphe en fonction du nombre de connexions est immédiate quand il est unique, car elle ressort visuellement par le nombre de liens. Mais si celui-ci augmente, alors le graphe devient de plus en plus encombré. Pour permettre de garder l’unicité du nœud et pour avoir une élongation horizontale et verticale de l’espace de visualisation, nous proposons alors une représentation du graphe, sous la forme de cercles concentriques.

Ce chapitre présente cette structure circulaire, ainsi que son optimisation qui est double, tout d’abord en ajustant la taille des cercles, puis la position des nœuds.