L’apport de la sémiologie graphique - Intérêt de la représentation optimisée des itemsets fréqu

9.5 Intérêt de la représentation optimisée des itemsets fréquents sur un graphe

9.5.4 L’apport de la sémiologie graphique

Nous renforçons, par un processus de rendu graphique, les caractéristiques du graphe ayant fait l’objet d’un algorithme de bundling, comme le poids des arcs, ainsi que les avantages issus de l’optimisation, comme sa simplification et une meilleure lecture de sa structure. Pour

Chapitre 9 : Optimisation du graphe circulaire et illustration sur des benchmarks

cela, nous nous appuyons, de différentes manières, sur les apports de la sémiologie graphique [Bertin 67]. En assignant le support aux variables visuelles que sont la couleur et l’alpha, cela permet de faire ressortir son évolution le long des arcs. Nous utilisons un gradient de couleur, pour que cette variable visuelle devienne ordonnée au sens de la sémiologie graphique. Il est lié à une interpolation entre les valeurs des supports des itemsets qui sont aux extrémités de l’arc. En effet, seuls les itemsets, donc les nœuds, "supportent" la mesure issue de l’algorithme de Data Mining, mais, pour des raisons de fluidité de la visualisation, nous gardons une continuité dans l’affectation des variables visuelles. Cela permet de mieux voir leur évolution, donc l’évolution du support. Ainsi, comme le support correspond à l’implication des itemsets dans la base de données, le codage graphique met en valeur les zones du graphe où elles sont les plus impliquées. La largeur de la ligne étant une variable visuelle ordonnée, elle est également efficace pour montrer l’évolution du support. Il a été vu au chapitre 1.5.1 que le support est la mesure principale dans la recherche d’itemsets fréquents. En allant plus loin dans la fouille de données, les mesures associées aux règles d’association [Guillet 07] peuvent également être assignées aux variables visuelles. Ainsi, nous pouvons visualiser plusieurs informations associées aux itemsets grâce à ces affectations, dans le but d’améliorer l’exploration du graphe.

Dans [Holten 09,Selassie 11], dans le but de percevoir les poids des arcs issus de l’algorithme de bundling, plus le nombre d’arcs impliqués dans une ligne agrégée est élevé, plus le tracé de l’arc est large. [Holten 09] utilise également la couleur pour exprimer le nombre d’arcs agrégés, alors que [Selassie 11] utilise un code couleur pour indiquer la direction de l’arc. La direction de l’arc n’est pas intéressante pour nous, étant donnée la construction du graphe, qui présente les itemsets du plus grand cercle vers le plus petit. Mais représenter le poids des arcs apporte une information sur l’implication des itemsets dans ceux-ci. Dans notre étude, la largeur de la ligne et les autres variables visuelles sont utilisées, non pas pour exprimer le poids, mais pour exprimer les mesures interpolées des itemsets. Pour exprimer le poids des arcs, nous utilisons le blending.

Le blending d’un graphe a été étudié par Holten et al. [Holten 06,Holten 09]. Leur but est de mettre en valeur les petites arcs en atténuant les longs arcs auxquels ils peuvent être confondus. Cela s’avère utile pour détecter des arcs individuels ou des sous-arcs ayant un effet de bundling plus atténué. D’autres études, comme [Lambert 10a,Telea 10, Lambert 10b, Hurter 12], utilisent le blending ou le shading pour particulariser des informations du graphe. Le blending de couleur et d’alpha aide à mettre en valeur l’effet d’accumulation dû à l’algorithme de bundling. En effet, tous les arcs initiaux sont gardés par l’algorithme que nous avons utilisé, mais sont courbés pour obtenir des chemins qui les agrègent. Le blending aide alors à renforcer l’accumulation de ces arcs, et, par voie de conséquence, à réduire les arcs où se produit peu d’accumulation, et donc où se trouvent peu d’arcs agrégés. Ainsi, l’accumulation est liée au support, parce que plus celui-ci est élevé, plus la probabilité d’avoir un partage d’information est élevée. Ainsi, grâce à l’optimisation de placement des itemsets, le partage d’informations est plus probable. Cela aboutit donc à une nouvelle manière de mettre en valeur des zones du graphe où le support est le plus élevé.

9.5.5 Sélection

La dernière fonctionnalité du processus d’amélioration du graphe circulaire est la sélection d’itemsets et d’arcs. Elle permet de particulariser les arcs ascendants et descendants, à partir d’un ou plusieurs itemsets ou arcs, selon un mécanisme de propagation. A partir de la sélection, tous les supersets et les sous-sets associés à celle-ci sont particularisés par les arcs, tandis que les autres sont cachés. Le but est de pouvoir se focaliser sur les itemsets concernés par cette sélection, ainsi que sur ceux qui leur sont liés. La propagation aide à montrer quels sont les itemsets qui partagent la même information que ceux de la sélection. En la prolongeant jusqu’aux 1-itemsets, cela revient à montrer les attributs des données concernés par la sélection, et ainsi quels sont ceux qui sont mis en œuvre pour construire les itemsets communs à ceux de cette sélection. Ainsi, le partage d’information est particularisé. L’opérateur de sélection est un moyen de montrer l’efficacité du processus d’optimisation. En effet, il met en valeur la proximité des itemsets, en valorisant les parties du graphe qui sont dans la même zone. Cela permet alors de faire ressortir la structure du graphe et, par conséquent, la structure hiérarchique des itemsets.

Chapitre 10

Représentation des règles

Cette partie, qui a fait l’objet d’une publication à la conférence IHM 2011 [Bothorel 11], présente l’exploration de règles d’association, dans un contexte de Visual Analytics, selon lequel l’utilisateur joue un rôle central et décisionnel dans le processus. Pour cela, il doit être à même de configurer la visualisation d’un grand nombre de règles, en fonction de sa problématique, et de pouvoir les explorer. Le type de représentation que nous proposons, basé sur deux outils interconnectés, permet de les appréhender de manière globale, et de manière détaillée, sachant qu’elles peuvent être très nombreuses. Des outils de filtrage et de sélection invitent à une exploration par raffinement successif, en reprenant le principe du Rules focusing [Blanchard 07] (Cf. Chapitre 3.2.2). De plus, le nombre de mesures de qualité, proposées à l’utilisateur, étant éventuellement également conséquent, il peut choisir celles qui lui sont le plus adaptées.

10.1 Visualisation des règles

Dans le document Algorithmes automatiques pour la fouille visuelle de données et la visualisation de règles d’association : application aux données aéronautiques (Page 168-171)