Etat de l’art sur les mesures de proximit´e

Les mesures de proximité que nous considérons ici sont des fonctions prenant en entrée un graphe et deux nœuds et retournant une quantité permettant d’évaluer combien ces deux nœuds sont proches l’un de l’autre. Étonnamment le lien entre mesure de proximité et communauté que nous venons de mettre en évidence n’est pas (ou très peu) exploité dans la littérature. Les mesures de proximité ont pourtant de nombreuses autres applications, bien plus répandues, pour l’étude des réseaux, notamment en ce qui concerne la prédiction de liens : intuitivement deux nœuds non-connectés, mais qui sont évalués comme très proches l’un de l’autre par une mesure de proximité ad hoc ont plus de chance de se connecter dans le futur que s’ils étaient évalués comme éloignés l’un de l’autre. La prédiction de liens est si importante qu’elle constitue un domaine à part entière de l’analyse des réseaux. L’une de ses applications les plus populaires est la recommandation, par exemple la suggestion d’amis sur un réseau social ou de produits dans les boutiques en ligne. Il existe ainsi plusieurs articles d’état de l’art sur les mesures de proximité, dont certains sont généraux [44] et d’autres appliqués à la prédiction de liens [161, 94].

Nous reprenons et étendons ici ces états de l’art en détaillant les mesures de proximité qui nous semblent être les plus pertinentes pour la détection de communautés. Les deux mesures de proximités les plus immédiates sont sans doute :

— la distance entre les deux nœuds, c’est-`a-dire le nombre minimal de sauts pour aller de l’un `a l’autre et

— le nombre de voisins partagés par les deux nœuds, ou bien des variantes prenant en compte seulement le voisinage des deux nœuds (comme la similarité de Jaccard entre deux ensembles de voisins2 ou la similarité d’Adamic-Adar [8] qui donne souvent 2. Pour deux nœuds a et b elle est donnée par : J(a, b) = ^|Na∩Nb|

|Na∪Nb| o`u Na (resp. Nb) est l’ensemble des voisins de a (resp. b).

(a) �� (b) (c) �� (d) (e) 100 101 102 Scor e de p roxi mité

classement du n ud en fonction du score

(f)

Figure 3.4 – Proximité décroissante (nous avons utilisé ici l’opinion propagée [52] que nous détaillerons plus tard dans ce chapitre) des nœuds d’un graphe jouet à un nœud d’intérêt. Sur la représentation du graphe (avec un layout graphviz [57]), le nœud d’intérêt est au centre et l’intensité de la couleur des nœuds est proportionnelle à leur proximité au nœud d’intérêt.

les meilleurs r´esultats dans le cadre de la pr´ediction de liens).

Ces deux mesures de proximité sont intéressantes, mais néanmoins trop simples. En effet (comme nous l’avons vu précédemment) la première donne des valeurs entières qui sont en général très faibles et identiques pour tous les nœuds. De plus, elle ne prend pas en compte la redondance des liens : deux nœuds à distance 2 partageant un seul voisin auront la même proximité que deux nœuds à distance 2 partageant un grand nombre de voisins. Avec le deuxième type de mesure de proximité, l’effet inverse se produit. En effet, en utilisant le même exemple, deux nœuds à distance 2 partageant un grand nombre de voisins auront une plus grande proximité que deux nœuds à distance 2 n’en partageant qu’un seul, ainsi la redondance est bien prise en compte. Par contre, toute paire de nœuds à distance supérieure à 2 aura une proximité nulle, ce qui n’est pas satisfaisant.

La construction de mesures de proximité plus élaborées prenant en compte la distance et la redondance s’impose donc. Voici les mesures de proximité que nous avons jugées les plus pertinentes : — l’indice de Katz [79] : Katz(i, j) = ∞ � l=0 βlN SP_l (i, j)

où N SP_l est le nombre de chemins (simples, c’est-à-dire sans boucle) de longueur l entre les deux nœuds i et j. N SP_l est cependant souvent trop long à calculer sur de grands graphes pour l ≥ 4. Nous verrons qu’utiliser les NBP (Non-Bactracking Paths), c’est-à-dire le nombre de chemins sans boucle de longueur 2, mais pouvant avoir des boucles plus grandes permet de raisonnablement pallier ce problème. Il existe également une variante, le Local Path Index, ne prenant en compte que les chemins de longueur inférieure à un paramètre λ [101].

— Le pagerank enraciné [119] déjà cité précédemment : soit un marcheur aléatoire qui commence à marcher depuis un nœud d’intérêt en allant à chaque fois aléatoirement vers un voisin et en se téléportant au nœud de départ avec la probabilité α. La pro-babilité de trouver le marcheur au temps infini situé sur un nœud donné correspond à la proximité de ce nœud au nœud d’intérêt. On remarque que cette mesure de proximité n’est pas symétrique. De plus, cette mesure de proximité entre un nœud d’intérêt et tous les nœuds du graphe peut être obtenue avec l’algorithme de point fixe suivant :

X_t+1= (1− α)T Xt+ αX₀

où Xt est le vecteur de scores après n itérations (Xt[i] correspond à la probabilité d’avoir un marcheur au nœud i après t pas), X₀ est initialisé avec le vecteur nul sauf pour le nœud d’intérêt qui est initialisé à 1. T est la matrice de transition : Tkl = ^lkl

d_l, où lkl est le poids du lien entre les nœuds k et l, et dl est le degré du nœud l. α ∈]0, 1[ est un paramètre qui contrôle la profondeur de l’exploration du réseau. Le temps de calcul nécessaire est essentiellement linéaire en O(t(n + m)) où n et m sont respectivement le nombre de nœuds et de liens dans le graphe et t le

nombre d’itérations nécessaires à la convergence (en général de l’ordre du diamètre du graphe, c’est-à-dire en O(log(n))). Bien que cette méthode soit déjà rapide, il est possible de la rendre encore plus rapide dans certains cas. En particulier, lorsque le coefficient α est grand, on peut en général obtenir, pour un graphe creux, une approximation en un temps constant ne dépendant pas de la taille du graphe [18, 150]. Pour cette raison, nous utiliserons cette mesure de proximité dans le chapitre 6 lorsque le temps de calcul sera le principal facteur limitant.

— Le hitting time (resp. commuting time). Pour un nœud source et un nœud cible donnés, c’est le nombre moyen de pas nécessaires à un marcheur pour aller (resp. pour aller et revenir) de la source à la cible. Pour un nœud cible donné, le hitting time pour chaque autre nœud du graphe vu tour à tour comme source peut être calculé en résolvant le système linéaire suivant, comme détaillé dans [104] :

Hi(j) = � 0 si j = i 1 + � k∈V (j) Hi(k) sinon.

Hi(j) correspond au hitting time pour le nœud source j et le nœud cible i et V (j) dénote l’ensemble des voisins du nœud j. Le temps de convergence de l’algorithme du point fixe utilisé pour calculer le rooted pagerank étant trop long pour la résolution de cet autre système linéaire, nous avons implémenté un algorithme qui permet de le résoudre en un temps essentiellement linéaire à l’aide de la méthode du gra-dient conjugué [73] vue comme une méthode itérative et pré-conditionnée astucieu-sement3.

— Une autre mesure de proximité paramétrée est le pagerank enraciné biaisé par le degré de [24] ou par des attributs des liens ou des nœuds. Dans ce cas le poids des liens du réseau utilisé pour calculer le pagerank enraciné dépend des attributs et cette dépendance peut être apprise de fa¸con supervisée.

Toutes ces mesures de proximité peuvent permettre de mettre en évidence le lien entre communautés et proximité comme nous l’avons fait précédemment. Cependant le rooted pagerank et l’indice de Katz sont paramétrés et dans certains cas il est souhaitable de pouvoir s’affranchir de ces paramètres ou bien de savoir comment les fixer. De plus, nous verrons plus loin dans ce chapitre, que ces paramètres ne sont pas toujours bien adaptés. Le calcul du hitting time, quant à lui, est plutôt compliqué bien que rapide grâce à notre algorithme à base de descente par gradient conjugué.

Pour pallier ces problèmes (temps de calcul et pertinence des paramètres le cas échéant) nous proposons deux nouvelles mesures de proximité.

— La première sans paramètre est intuitive, simple à calculer et permet dans la plupart des cas d’arriver à des résultats très satisfaisants. Elle est basée sur la dynamique d’opinion, nous l’appelons l’opinion propagée.

— La deuxième mesure que nous proposons incorpore principalement deux paramètres qui permettent de faire indépendamment et simultanément un compromis entre 3. le code est disponible à l’url donné en introduction : http://bit.ly/maxdan94

“distance et redondance” d’une part et un compromis entre “popularité et intimité” d’autre part. Compromis qui, comme nous allons le voir, nous semblent nécessaires et ne semblent pas pouvoir être gérés par les mesures de proximité de l’état de l’art comportant un seul paramètre. Notre deuxième mesure de proximité peut être vue comme une variante de l’indice de Katz. Notre mesure, que nous appelons Katz+, permet, contrairement à la mesure de Katz, de traiter de grands graphes et de gérer les deux compromis.

Ce sont ces deux mesures de proximité que nous allons privilégier dans le reste du ma-nuscrit bien que d’autres soient utilisables et donnent des résultats également pertinents (moyennant souvent un temps de calcul accru).

3.3 L’opinion propag´ee : une mesure de proximit´e

Dans le document Mesures de proximité appliquées à la détection de communautés dans les grands graphes de terrain (Page 45-49)