• Aucun résultat trouvé

9.5 Intérêt de la représentation optimisée des itemsets fréquents sur un graphe

9.5.1 Le graphe circulaire

Nous proposons une représentation innovante des itemsets fréquents sous forme de cercles concentriques. Généralement, les études proposent des visualisations horizontales [Yang 03, Leung 08a,Leung 08b,Leung 09], à l’exception, par exemple, de Keim et al. [Keim 05] avec le visualiseur hiérarchique radial FP-Viz, ou de la représentation de l’hypergraphe de Glatz et al. [Glatz 12]. Notre graphe n’est pas une vue compressée des données, comme c’est le cas pour FpViz [Leung 09] et WiFIsViz [Leung 08b], mais il présente la totalité des itemsets fréquents, représentés par des nœuds. Ceux-ci sont reliés entre eux par des arcs qui illustrent les relations entre eux. Ces connexions permettent d’avoir une connaissance de la manière dont les itemsets sont construits à partir de sous-sets, et de la manière dont ils interviennent dans la construction des supersets. Un avantage de la représentation circulaire est qu’elle est

(a) (b)

(c)

Figure 9.8 – Quelques exemples de sélections avec la base de données Mushroom de l’U.C.I. (a) : alors qu’un 1-itemset est sélectionné, la propagation montre quels itemsets proviennent

de celui-ci. (b) : la sélection d’un 1-itemset est disséminée vers les supersets, puis des 2-itemsets vers leurs 1-itemsets associés. Cela montre ainsi quels attributs partagent les mêmes itemsets qu’un attribut donné. (c) : un opérateur de type brushing sélectionne des

Chapitre 9 : Optimisation du graphe circulaire et illustration sur des benchmarks

obligatoirement étalée dans la vue, parce qu’elle s’étend à partir du cercle extérieur qui est proche des limites de celle-ci. De plus, la distance maximale entre deux itemsets de même ordre est le diamètre de leur cercle associé. Dans WiFIsViz et FpViz, les itemsets sont des lignes horizontales et parallèles contenant les nœuds correspondant aux attributs. Dans FIsViz [Leung 08a] et dans les travaux de Yang [Yang 03], les itemsets sont représentés par des lignes brisées. Comme pour FP-Viz [Keim 05], nous proposons une vue hiérarchique des itemsets basée sur des cercles. FP-Viz dispose les 1-itemsets sur le plus petit cercle et les plus grands itemsets sur le cercle extérieur. Dans notre approche, nous faisons l’inverse, en ce sens que les 1-itemsets sont sur le cercle extérieur et les plus grands itemsets sont sur le cercle intérieur. Ainsi, nous disposons de plus d’espace pour visualiser des données relatives aux 1-itemsets qui correspondent aux attributs des données. Ces informations sont ainsi plus lisibles que si les 1-itemsets avaient été disposés sur le cercle intérieur.

9.5.2 Optimisation du graphe

Pour améliorer la visualisation du graphe et donner un sens à la position des itemsets, qui sont par défaut disposés dans leur ordre d’apparition dans la base de données, nous les arrangeons à l’aide d’un processus d’optimisation. Celui-ci doit prendre en compte la distance entre les itemsets d’un même cercle et entre les itemsets de cercles consécutifs, en rapprochant ceux qui partagent de l’information commune et en les éloignant quand ce n’est pas le cas. Ce partage d’information a lieu quand deux itemsets sont sous-sets ou supersets d’un même itemset. Il s’agit donc de créer et d’arranger des groupes sur les cercles, relativement aux groupes des autres cercles. Rapprocher et éloigner des itemsets correspond à un phénomène d’attraction et de répulsion entre eux. Pour cela, nous faisons appel à un modèle d’énergie mettant en œuvre ce phénomène, pour positionner les itemsets sur un même cercle, en prenant en compte leurs connexions ascendantes et descendantes. De plus, ce modèle doit pouvoir gérer des petits groupes d’itemsets pouvant intervenir dans les cercles les plus petits. Pour cela, nous avons choisi le modèle LinLog [Noack 03]. Comme nous devons arranger également les groupes d’itemsets des différents cercles, les uns par rapport aux autres selon un principe d’attraction et de répulsion, nous considérons une distance angulaire entre les itemsets de cercles différents, nécessaire parce que les nœuds sont sur des cercles. Elle est nulle entre deux nœuds si leurs angles sont les mêmes. En effet, cela correspond à la plus petite distance qu’il peut y avoir entre deux nœuds, étant donnés deux cercles consécutifs. A partir de l’énergie du modèle LinLog que nous voulons minimiser et de la somme des distances angulaires que nous voulons également minimiser, nous calculons une distance résultante qui est la somme des distances intra-cercles et extra-cercles. Nous utilisons le même poids pour les deux distances parce qu’elles sont d’égale importance. En effet, pondérer de manière plus forte la distance intra-cercles risquerait de donner des groupes inter-cercles plus éloignés, et pondérer plus la distance extra-cercles étalerait les groupes au sein des cercles.

Pour minimiser la distance résultante, en cherchant un minimum global, nous utilisons l’algorithme du recuit simulé [Kirkpatrick 83,Cerny 85], qui est plus rapide que l’algorithme génétique [Ingber 92]. Ainsi, la proximité des itemsets devient pertinente, car elle est liée à un

partage d’informations entre eux. Cela signifie qu’ils sont associés pour créer des supersets, ou qu’ils ont des sous-sets en commun. Grâce au processus d’optimisation, les itemsets partageant de l’information sont donc rapprochés, et éloignés si ce n’est pas le cas. Cette pertinence dans leur positionnement a un impact direct sur les arêtes qui les relient, dont la proximité ou l’éloignement devient également lié à un partage d’information des itemsets qui leur sont associés.

L’expérimentation montre que la performance en termes de qualité et de temps de réponse est meilleure sur les graphes optimisés. En considérant la signification de la proximité des itemsets, que nous venons d’évoquer, l’optimisation du graphe facilite la détection d’un lien entre deux itemsets, et, dans le cas d’un éloignement, cela indique plus probablement une absence de lien. En d’autres termes, le positionnement relatif des itemsets et de leurs connexions permet d’avoir une connaissance des liens qui existent entre les attributs de la base de données, et c’est justement ce que nous cherchons à savoir dans une activité de fouille de données, lors de la recherche de motifs fréquents ou de règles d’association. Ainsi, l’optimisation permet, en regroupant et éloignant les itemsets et leurs groupes, d’explorer le graphe plus aisément. Cependant, malgré l’instauration d’une distance minimale entre deux itemsets et entre deux cercles, le graphe devient de plus en plus encombré quand le nombre d’itemsets et de connexions augmente, mais cet encombrement est retardé grâce à l’optimisation. Cependant, afin d’essayer de le limiter, nous faisons appel à une technique de bundling.