Repr´esentation et interaction - The DART-Europe E-theses Portal

1.4 Conclusion

2.1.3 Repr´esentation et interaction

Dans la section précédente, nous avons proposé une méthode permettant d’identifier des communautés de mots-clés apparaissant souvent ensemble dans les pages web et des ponts entre ces communautés. Nous avons maintenant besoin de produire un système per-mettant de visualiser ces résultats afin d’orienter l’utilisateur vers les pages qu’il recherche.

Ce système doit être muni d’une technique de navigation efficace non seulement pour don-ner la possibilité à l’utilisateur de passer aisément du graphe quotient aux mots-clés que des communautés choisies contiennent, mais aussi pour lui permettre d’accéder aux pages internet contenant ces mots-clés. La solution que nous proposons est décrite dans les sous-sections qui suivent. Nous étudierons d’abord les méthodes que nous utilisons afin de placer les objets sur la visualisation, puis nous décrirons les moyens d’interaction et de navigation.

2.1.3.1 Pr´e-traitements

Avant de commencer à placer concrètement les objets sur la carte, certaines opérations sont nécessaires.

9. Il n’est pas évident que l’utilisateur sache à l’avance le degré de précision nécessaire à ces recherches et il est encore moins évident qu’un éventuel degré de précision lui permette de déterminer le nombre de ponts à extraire. C’est pourquoi l’interface du système doit être réalisée de fa¸con à ce que l’utilisateur puisse faire varier le nombre de ponts jusqu’à qu’il ait obtenu un résultat satisfaisant en fonction des taches qu’il doit accomplir.

Calcul des plus courts chemins Afin de refléter la topologie du graphe, nous souhaitons placer les sommets de fa¸con à ce que ladistance euclidienneentre chaque paire de som-mets corresponde à la distance entre ces mêmes somsom-mets dans le graphe, i.e.la longueur du plus court chemin les reliant. Cettedistance cibleest donc égale à la distancedijentre un sommeti et un sommetj telle que nous l’avons définie précédemment. Idéalement, les positions des sommetsp(1) = (x(1), y(1)),. . .,p(n) = (x(n), y(n))∈R² doivent être trou-vées telles que les distances euclidiennes kp(i)−p(j)k=^p(x(j)−x(j))²+ (y(i)−y(j))² correspondent aux distances cibles.

Nous commen¸cons donc notre m´ethode en construisant la matriceD = (dij)1≤i≤n,1≤j≤n

contenant les distances cibles entre chaque paire d’´el´ements de Q(G). Pour cela, nous utilisons un classique parcours en largeur ( voir [24] par exemple pour la description d’un tel algorithme).

Suppression des ponts Avant le placement des communautés (ensemble C), nous supprimons temporairement les ponts (ensemble B). Le but de cette opération est de placer ces ponts après les communautés afin qu’ils apparaissent entre celles auxquelles ils sont reliés. Ceci rend la compréhension des relations entre les éléments plus simple pour l’utilisateur.

2.1.3.2 Positionnement des ´el´ements du graphe

Dans la section précédente, nous avons construit une matriceDcontenant des distances cibles. Idéalement, nous voudrions donc avoir :

kp(i)−p(j)k ≈dij

pour toutes les paires (i, j) avec i, j ∈ C. Ce problème peut être résolu grâce à un algorithme de Multidimensional Scaling (MDS) [34] (voir [141] pour obtenir plus d’infor-mations sur l’adaptation de ces méthodes au dessin de graphe). Une approche efficace de MDS consiste à introduire une pénalité quadratique lorsque l’on s’éloigne de l’équation ci-dessus. Pour cela, on utilise une fonction de stress que l’algorithme de placement devra minimiser :

σ(p) =^X

i<j

wij dij− kp(i)−p(j)k²

Celle-ci mesure l’éloignement entre laconfigurationcourantep=p(1), . . . , p(n)et les distances cibles{dij}. Ici, on utilise la fonction standard pour calculer le poidswij =d⁻²_ij [107] qui permet de donner plus d’influence à la représentation des distances courtes et améliore ainsi le placement des structures locales.

Malheureusement, il n’existe pas de m´ethodes connues permettant la minimisation de la fonction stress. Il existe cependant des techniques permettant d’obtenir des r´esultats satisfaisants comme celle connue sous le nom de stress majorization.

Stress majorization Cette technique consiste à itérer une fonction calculant des con-figurations successives telles que la fonction stress n’augmente pas. Elle a été introduite par de Leeuw [52] et est devenue très populaire pour le dessin de graphe [107, 79, 141].

Plus concrètement, à partir d’une configuration p^[t] à un temps t, elle permet de trouver une configuration p^[t+1] en améliorant localement les positions des éléments. En voici la formule pour un sommet i :

En utilisant cette fonction sur tous les sommets, on obtient donc une nouvelle con-figuration. Cette opération est ensuite itérée jusqu’à ce qu’une configuration stable soit trouvée,i.e.jusqu’à ce que la fonctionstress ne puisse plus être réduite significativement :

σ(p^[t])−σ(p^[t+1]) σ(p^[t]) <

avec >0,e.g.= 10⁻⁴.

Les fonctionsstress des configurations successives n’augmentent pas, i.e.

σ(p^[0])≥σ(p^[1])≥σ(p^[2])≥ · · · ≥σ(p^[t])

et elles convergent vers un minimum local [53]. L’avantage de l’utilisation d’une méth-ode destress majorization réside dans sa faible complexité en temps :O(n) (nous l’avons déjà expérimentée pour le placement des centres deSequencesViewer section 1.3.2.2). Cet algorithme est plus rapide qu’un algorithme de force tel que [72] qui est en O(n³) (voir [28] pour une vue d’ensemble de ce type de méthodes basées sur l’analogie avec des forces physiques et [91] pour une comparaison de leurs résultats).

En revanche, un problème de cette méthode est dû au fait que le résultat final dépend fortement de la configuration initiale choisie (p^[0]). Nous allons maintenant décrire la solution à ce problème.

Placement initial Comme le montrent Pich et Brandes [33], la méthode présentée ci-dessus a la fâcheuse tendance de faire tomber la fonctionstress dans des minima locaux.

Pour ´eviter cela, il faut trouver une configuration initiale globale respectant la topologie du graphe et utiliser ensuite le processus de stress majorization pour affiner localement le positionnement.

Une méthode efficace de placement global initial est connue sous le nom de Classical MDS [176]. Basée sur de l’algèbre linéaire, elle permet elle aussi de trouver une configura-tion dont la la valeur de la foncconfigura-tionstress est peu élevée. Elle utilise une matriceB = (bij) définie ainsi :

bij =−1 vecteurs propres correspondants (ce sont des réels car la matrice est symétrique). Ces valeurs peuvent être calculées, par exemple, grâce à un algorithme nommépower iteration (voir [83]). Deux vecteurs de coordonnées x ety peuvent être ensuite déduits :

x=^pλ1u1, y=^pλ2u2

La configuration initiale correspond aux valeurs de ces vecteurs :

p(i) = (x(i), y(i))

2.1.3.3 Post-traitements

Après avoir trouvé un positionnement des communautés grâce aux méthodes de Mul-tidimensional scaling il faut maintenant réintroduire les ponts.

Ré-insertion des ponts Nous considérons ici que la manière la plus intuitive et la plus efficace visuellement consiste à placer les ponts (ensembleB) au niveau du barycentre des communautés deC auxquelles ils sont reliés dans le graphe bipartiQ(G) = (B, C, EQ(G)).

Soit un pont b∈B relié à un ensemble de communautésN(b) ={c∈C: (b, c)∈E_Q(G)}, la position de best donné par la formule :

p(b) = 1

|N(b)|

c∈N(b)

p(c)

La figure 2.9.a montre le résultat d’un tel positionnement. Nous aurions pu aussi placer les ponts en même temps que les communautés en utilisant les algorithmes de Multidimensional scaling. Après avoir testé cette approche, nous avons préféré utiliser la méthode des barycentres afin que les ponts soient positionnés entre les communautés qu’ils relient. Cette solution permet en effet d’introduire visuellement la notion de betweenness qui a été utilisée pour trouver les ponts¹⁰.

Comme nous pouvons le constater sur la figure 2.9.a, les sommets ainsi plac´es se chevauchent beaucoup ce qui rend la carte illisible. C’est pourquoi nous allons maintenant voir quelle technique peut ˆetre mise en place afin de supprimer ces chevauchements.

10. Dans ce cas, la syntaxe est basée sur des propriétés cognitives qui nous feront attribuer un sens au signe /pont placé entre les communautés auxquelles il est relié/. Dans le première partie, nous avons mis le cartographe en garde contre l’utilisation de tels procédés. Dans les faits, nous pensons qu’une telle approche peut être utilisée si une légende ou une explication quelconque vient confirmer l’intuition cognitive.

(a) (b)

Figure 2.9: Graphe quotient bipartiQ(G) = (B, C, E_Q(G)) : (a) après ré-insertion des ponts, (b) après suppression des chevauchements.

Suppression des chevauchements La méthode utilisée afin de supprimer les chevauche-ments des sommets est présentée dans [76]. C’est une adaptation originale du processus de strees majorization décrit ci-dessus au problème qui nous concerne ici. Selon cette approche, les chevauchements sont éliminés graduellement en dépla¸cant petit à petit les sommets qui se chevauchent de fa¸con à modifier le moins possible la configuration issue de l’étape de placement.

L’algorithme repose sur la création d’un graphe de voisinage dérivé de la configu-ration courante des éléments. Plus concrètement, nous calculons une triangulation de Delaunay sur les éléments de Q(G) ce qui nous permet d’obtenir un graphe planaire DT(Q) = (VDT(Q)=B∪C, EDT(Q)). Dans ce graphe, la paire de sommets(i, j)appartient

a E_DT_(Q)) si et seulement si les régions du diagramme de Vorono¨ı¹¹ correspondantes sont adjacentes. Il est important de noter ici que DT(Q)est seulement construit à partir du positionnement sur le plan des sommets de Q(G), il ne tient donc pas compte des arêtes de E ou de EQ(G).

La suppression de chevauchements est effectuée en itérant le processus suivant : 1. Tout d’abord, le grapheDT(Q)est construit grâce à une triangulation de Delaunay

des sommets deQ(G) pr´ealablement positionn´es.

2. Ensuite, pour chaque arˆete de la triangulation (i, j) ∈ EDT(Q) un facteur de chevauchement

tij = max

ai+aj

kp(i)−p(j)k,1

est calculé, où ai etaj représentent les rayons des sommets i et j. Il correspond à la valeur minimale par laquelle la distance euclidienne doit être multipliée afin de

11. Par définition, la région du diagramme de Vorono¨ı correspondant à un sommetiest la région formée par les points du plan plus proches deique de n’importe quel autre sommet.

supprimer le chevauchement (il est donc égal à 1 si les sommets ne se chevauchent pas). La nouvelle distance cible doit être

d^DT_ij =s^DT_ij kp(i)⁰−p(j)⁰k

où, s^DT_ij est un facteur d’amortissement défini par s^DT_ij = min{smax, tij}. smax est une constante d’amortissement, elle doit être supérieure à 1 et représente la quantité maximale de chevauchement devant être éliminée en une itération. Elle permet de ne pas trop s’éloigner de la configuration initiale.

3. Enfin, grˆace aux nouvelles distances cibles, on obtient une nouvelle fonctionstress σ^DT(p) = ^X

(i,j)∈EDT(Q)

wij

d^DT_ij − kp(i)−p(j)k²

que nous allons pouvoir minimiser en utilisant la méthode de stress majorization définie dans la sous-section 2.1.3.2. On substitue pour cela d^DT_ij et s^DT_ij àdij etsij. Ces trois opérations sont répétées jusqu’à ce que les chevauchements soient supprimés, i.e. jusqu’à ce que tij = 1 pour tout (i, j) ∈ EDT(Q). Le figure 2.9.b représente le même graphe que celui de la figure 2.9.a après avoir utilisé cet algorithme de suppression des chevauchements.

Interaction et navigation La visualisation créée lors des étapes précédentes (figure 2.9.b) permet à l’utilisateur d’avoir une vue d’ensemble des mots-clés des pages internet correspondant à sa recherche. Afin qu’il puisse comprendre la signification des commu-nautés et explorer les pages correspondantes, nous avons mis en place plusieurs types d’interaction.

Tout d’abord, lorsque l’utilisateur survole une communauté, une infobulle contenant la liste des mots-clés appartenant à cette communauté est affichée, comme on peut le voir sur la figure 2.11.a. Ceci lui permet de sélectionner rapidement les communautés qui l’intéressent. De plus, les ponts sont étiquetés par leur mot-clé ce qui est nécessaire

a la compréhension des relations entre les communautés. Lorsque l’on clique sur une communauté, le cercle jaune la représentant disparaˆıt et les sommets qu’elle contient viennent se placer sur un cercle dont le rayon dépend de leur nombre¹² (voir figure 2.10 dans laquelle deux communautés sont ainsiouvertes). L’utilisateur peut ainsi avoir une information plus précise sur cette communauté et les liens qui existent entre les mots-clés qui la composent. Il peut aussi la refermer en cliquant au centre du cercle. Enfin, un clic droit sur une communauté permet d’afficher une liste de liens hypertextes menant aux pages internet contenant les mots-clés de cette communauté (un exemple est montré sur la figure 2.10). L’utilisateur peut donc naviguer dans les pages retournées par un moteur de recherche grâce à notre système.

Mises à part les différentes interactions disponibles sur les communautés, nous en avons aussi développé d’autres sur les sommets représentant des mots-clés. Lorsque la souris

12. Compte tenu de la densité des arêtes présentes à l’intérieur des communautés, une alternative in-téressante mais que nous n’avons pas testée consisterait à utiliser des matrices pour les représenter, comme Henryet al.le proposent dans l’article [93].

Figure 2.10: Même graphe que celui représenté sur la figure 2.9 avec deux com-munautés ouvertes et la liste des pages internet affichée pour l’une des autres communautés.

survole l’un de ces sommets, une infobulle indique quelle est le mot-cl´e correspondant.

Les sommets dupliqu´es apparaissent en bleu alors que les autres sont dessin´es en vert.

Lorsque l’on clique sur un des sommets dupliqués (voir section 2.1.2.1), celui-ci, ainsi que toutes les autres instances du même clé, sont affichés en rose, étiquetés avec ce mot-clé et leurs tailles sont augmentées (voir figure 2.10). L’utilisateur peut ainsi identifier rapidement les communautés dans lesquelles ils apparaissent.

L’expansion d’une communauté afin d’afficher les sommets qu’elle contient peut en-traˆıner de nouveaux problèmes de chevauchement. En effet, le diamètre du cercle le long duquel ces sommets viennent se placer est déterminé en fonction de leur nombre. Si ce nombre est supérieur à un certain seuil, le cercle est plus grand que le disque jaune qui représentait précédemment la communauté. Nous sommes donc obligés de dérouler de nouveau l’étape de suppression des chevauchements décrite ci-dessus en modifiant les rayons ai des sommetsouverts de C. L’ordre des sommets positionnés le long du cer-cle a aussi son importance. En effet, comme ceux-ci ont des arêtes partant vers les autres communautés, il est important que ceux reliés aux même communautés soient placés consécutivement. Ceci permet de limiter les croisements d’arêtes et de les regrouper plus facilement. Pour cela, nous utilisons l’heuristique du barycentre qui consiste à ordonner les sommets en fonction de l’angle des coordonnées polaires de leur barycentre [10]. Lorsque toutes les communautés sontouvertes, cela revient à calculer un positionnement connu sous le nom de micro/macro graph layout [16].

Dans le document The DART-Europe E-theses Portal (Page 80-87)