Tracé de Graphes - Recommendation And Visualization Techniques For large Scale Data

Le tracé de graphes (graph drawing) est l’une des branches de visualisation de l’information avec des applications dans de nombreux domaines, y compris le militaire, la cartographie, les transports, la bioinformatique et l’analyse des réseaux sociaux. Le tracé d’un graphe appelé layout est la repré- sentation graphique de ses sommets et de ses arêtes dans un espace Euclidien à 2 ou 3 dimensions. Nous nous concentrons sur le straight-line graph drawing où le problème de dessin est réduit à calculer les coordonnées des sommets. Une fois ces coordonnées trouvées, les arêtes sont repré- sentées par les lignes droites entre les sommets correspondants. Deux approches importantes pour straight-line graph drawing sont les approches de force [40, 25, 68, 101, 36, 81] et les approches spectrales [74, 19, 80]. Les approches de force associent le layout avec une valeur scalaire appelée l’énergie du layout. Les coordonnées des sommets dans le layout optimal sont trouvées en minimi- sant la fonction d’énergie. Les approches spectrales définient une fonction de l’énergie quadratique pour le layout. Le problème de minimisation de cette fonction peut être reformulé comme un pro- blème d’optimisation linéaire standard. Les solutions seront les vecteurs propres (généralisés) d’une matrice liée à la structure du graphe.

Les modèles de tracé de graphes révélent la structure du graphe sous-jacent en plaçant les sommets connectés l’un plus près de l’autre que les sommets non-connectés. En général, le niveau d’abstraction de la structure est fixé, c’est à dire, le rapport entre la longueur totale des arêtes et la distance totale entre tous les pairs de sommets est la même valeur pour toutes les exécutions d’un modèle sur le même graphe. Dans le chapitre 3, nous suggérons des approches de force ainsi que des approches spectrales pour le tracé de graphes en faisant varier le degré d’abstraction de la structure. Notamment, l’utilisateur peut contrôler par le biais d’un paramètre de combien les arêtes devraient être plus courts que les non-arêtes.

Nous proposons d’abord FlexGD, un algorithme flexible de force pour tracé de graphes. FlexGD dessine des graphes en fonction des deux critères de répartition uniforme des sommets et de l’abstraction de la structure. Le modèle est flexible, en ce qu’il est paramétré pour être biaisé vers l’un des deux critères du tracé, selon les préférences de l’utilisateur. En général, les équations de force ou d’énergie des modèles de force sont définies de telle sorte que les layouts résultants répondent à certains critères esthétiques de dessin comme la longueur uniforme des arêtes et la traversée mi- nimale des arêtes. Pourtant, il a été démontré dans [101] que les critères dont on a parlé évitent les modèles classiques de la visualisation des clusters. Visualiser des clusters est important dans les applications telles que la détection de communauté dans les réseaux sociaux. Un nouveau modèle appelé LinLog est ensuite proposé par l’auteur qui est plus approprié pour atteindre à cet objectif. La fonction de l’énergie de FlexGD est étroitement liée à celle de LinLog, mais elle est subtile- ment modifiée afin d’améliorer ses caractéristiques. Plus précisément, nous remplaçons l’énergie de répulsion logarithmique du modèle LinLog par une énergie linéaire-logarithmique, tout en préser-

(a) k = 600 (b) k = 300 (c) k = 1800

FIGURE5.3: Les layouts FlexGD du graphe jagmesh1 dans 3 niveaux d’abstraction.

vant l’attraction linéaire des arêtes intactes. Pour le layout X d’un graphe G = (V, E), la fonction d’énergie de FlexGD est défini comme :

FlexGD(X, k) = X {i,j}∈E kkxi− xjk + X {i,j}∈V(2) kxi− xjk − ln kxi− xjk.

Le premier terme capture la structure du graphe en raccourcissant les arêtes, tandis que le second terme distribue les sommets de façon uniforme sur la zone de dessin.

Les layouts de FlexGD ont les propriétés suivantes. La zone de dessin est rempli de manière optimale, et le layout est agréable dans les frontières. Deuxièmement, il améliore la propriété de la visualisation des clusters de LinLog à visualisation réglable des clusters, c’est-à-dire que l’utilisateur peut décider quelle densité les clusters doivent avoir et dans quelle mesure ils sont mis à part. Grace à cette propriété, la structure du graphe peut aussi être plus ou moins abstraite. Figure 5.3 montre les layouts du graphe jagmesh1 dans 3 niveaux d’abstraction. Enfin, le modèle est capable de dessiner les graphes déconnectés, à savoir que la plupart des modèles précédents ont des difficultés pour leur manipulation.

Nous dérivons formellement certaines propriétés de FlexGD, et les comparons avec celles de LinLog. La fonction d’énergie de FlexGD est minimisée par le biais d’une approche multi-niveaux. Dans les algorithmes multi-niveaux, le graphe est durci à une série de graphes plus petits. Chaque graphe durci doit refléter la structure du graphe plus fin. En outre, le calcul de son layout doit être beaucoup moins cher que le calcul du graphe plus fin. Le layout du graphe le plus durci est peu cher à calculer, car il est très petit en taille. Les coordonnées calculées des graphes durcis sont ensuite prolongés aux graphes plus fins. Le graphe plus fin a généralement besoin de moins de modifi- cations, car il est déjà dans une forme approximativement bonne. Les algorithmes multi-niveaux conventionels fonctionnent bien si la distribution de la longueur d’arête est uniforme. Cependant, leur performance sur FlexGD n’est pas convaincante, parce que cette dernière crée une distribution non uniforme de la longueur de l’arête. L’algorithme multi-niveaux proposé pour FlexGD peut sur- monter la distribution non-uniforme de la longueur d’arête. Les layouts FlexGD de certains grands ensembles de données réelles sont présentés pour illustrer le fait que l’algorithme peut générer des layouts de bonne qualité dans un large éventail d’abstractions, répondant aux préférences des diffé- rents utilisateurs.

Bien qu’aucun modèle unique ne puisse se vanter d’avoir de meilleures performances sur tous les graphes, l’aptitude d’un modèle de visualisation dépend de la topologie du graphe sous-jacent et des exigences de visualisation, il semble que dans de nombreux cas les layouts de FlexGD soient agréables autant que, parfois même plus que, les layouts des modèles précédents. En outre, l’utilisateur a plus de contrôle sur le layout avec FlexGD que les autres modèles grâce à son paramètre d’abstraction.

Nous montrons également comment l’approche spectrale peut être reformulée pour générer les layouts flexibles. Cette approche spectrale n’a pas les propriétés de clustering de FlexGD, mais son niveau d’abstraction est réglable. A la fin, la généralisation des approches de force et spectrale aux graphes signés est discutée. Dans les graphes signés les arêtes sont étiquetées comme positives ou négatives, là où les arêtes positives dénotent une force d’attraction et les arêtes négatives dénotent une force de répulsion entre les sommets connectés. Les graphes signés apparaissent dans les applications où les interactions au sein des données peuvent être négatives ou positives. Un exemple est les réseaux sociaux où les gens peuvent être amis ou ennemis.

Dans le document Recommendation And Visualization Techniques For large Scale Data (Page 130-132)