La th´eorie de graphe et l’analyse du r´eseau

2.5.1 Les mesures topologiques des graphes

L’analyse d’un réseau complexe est basée sur un noyau de mesures topologiques qui décrivent les principales propriétés structurelles du graphe [132, 104]. Dans ce qui suit, nous examinons certains d’entre eux.

Degr´e et la force :

Le nombre d’arêtes adjacents au nœud est le degré du nœud. Il est généralement désigné par la lettre k. Dans le cas des réseaux dirigés, nous pouvons distin- guer le degré entrant kin et le degré sortant kout, par le nombre d’arêtes dont le nœud est un successeur ou prédécesseur. Pour les réseaux pondérés, la somme des poids des arêtes adjacentes sur un nœud est la force du nœud. La force entrante et la force sortante sont définies pour les réseaux pondérés.

D = _{|V |(|V |−1)}2|E|

Dans les réseaux dirigés, la densité est divisée par le facteur 2 vu que le nombre possible de connexions est le double que le nombre connexion dans les graphes non orientés. Notons que la densité est une mesure qui est stric- tement dépendante de la taille du réseau. Dans le cas du monde réel, le plus grand correspond au réseau, alors que la plus faible est la densité. Il n’existe pas un moyen standard pour évaluer si un graphe est dense ou épar. Un réseau est considéré comme épar lorsque son degré moyen est beaucoup plus petit que le nombre de nœuds. hki << |V |, ou quand les ordres de grandeur du nombre de nœuds et d’arêtes sont approximativement équivalent |V | ≈ |E|. Le Diamètre :

La distance l(i, j) entre deux nœuds i, j dans un graphe est donnée par le plus court chemin entre eux. La distance maximale entre toutes les paires possibles de nœuds est le diamètre du graphe. Ce Diamètre est utilisé pour évaluer la largeur du réseau, mais il est très sensible aux valeurs aberrantes. En effet, seulement le plus long des courts chemins peut déterminer un diamètre élevé. Afin d’éviter ce problème, la mesure effective du diamètre d’un graphe est la distance minimale qui inclut les 90% des paires de nœuds [109].

Coefficient de classification :

La structure du voisinage d’un nœud dépend de la nature de la classification des nœuds locaux. La classification, ou transitivité dans les sciences sociales, mesure la tendance des voisins d’un nœud à être relié à l’autre, formant ainsi un réseau de triangles dense. Dans des réseaux sociaux humains, la tendance à la classification importante peut être résumée par la phrase populaire sui- vante :”tous les amis de mes amis sont mes amis aussi”. Quantitativement, la classification d’un nœud i est mesurée par un coefficient C(i) [133] calculé par le rapport entre le nombre de connexions entre i et ses voisins, et le nombre maximal de tels liens. Soit ki le degré du nœud i et ei le nombre d’arêtes entre ses voisins. Le coefficient de classification est alors définie comme suit :

C(i) = ei

ki(ki−1)/2

Cette mesure n’est valable que pour ki > 1. Si ki = 1, on peut considérer que C(i) = 0. Le coefficient de classification du réseau, qui mesure le degré global de regroupement du graphe, est défini simplement par la moyenne de classification : hC(i)i = 1 N P i C(i) Centralité et la centralisation :

graphe est l’une des principales réflexions pour caractériser le réseau. L’im- portance d’un nœud ou une arête est évaluée par des mesures de centralité [54]. Ces derniers peuvent être définies sur plusieurs caractéristiques structurelles du graphe, comme sa connectivité ou sa position par rapport aux autres nœuds. La mesure de la position centrale la plus couramment utilisée est la position centrale de mesure, qui co¨ıncide avec le degré du nœud.

CD(i) = ki

La centralité de proximité se concentre plutôt sur la distance du nœud cible à tous les autres sommets. La centralité d’un nœud i est définie comme suit :

CC(i) = P 1

j6=i

l(i,j)

La centralité de l’intermédiarité est utilisée, pour tenir compte de l’impor- tance des nœuds qui peuvent ne pas être bien relié au reste du réseau, mais agir comme des ponts entre deux ou plusieurs composants qui sont vaguement reliés les uns aux autres. :

CB(i) = P h6=j6=i

σhj(i)

σhj

Où σhj est le nombre total des chemins les plus courts du nœud h au nœud j et σhj(i) est le nombre de ces plus courts chemins passant par i. La variation de la valeur des mesures de la centralité sur l’ensemble des nœuds du réseau (et avec des facteurs de normalisation appropriés) est appelée centralisation. Elle permet de mesurer la quantité de l’ensemble du réseau centralisée. Par exemple, la centralisation de degré sera maximale dans un graphe en étoile, où tous les nœuds sont reliés à des arêtes d’un nœud central (et donc la variation relative sur le degré sortant est maximale), et au moins dans un graphe en anneau, où chaque nœud est relié à deux voisins dans un cercle. Le degré de centralisations, la proximité, et l’intermédiarité sont définis respectivement comme : CD = Pi[CmaxD −CD(i)] (|V |−1)(|V |−2) CC = Pi[CCmax−CC(i)] [(|V |−2)(|V |−1)]/(2|V |−3) CB = 2Pi[CBmax−CB(i)] (|N |−1)2_{(|N |−2)}

2.5.2 Les outils d’analyse et de virtualisation

La visualisation des réseaux est une phase importante dans l’analyse des systèmes complexes. Une bonne représentation illustrée d’un graphe, peut

mettre en évidence : ses composants structurels les plus importants, diviser logiquement ses régions différentes et indiquer les nœuds les plus centraux et les arêtes sur lequel les flux d’information sont plus fréquent.

Les valeurs de la plupart de la métrique que nous avons définie précédemment peuvent être d’une fa¸con ou d’une autre représentées utilisant des nœuds, des couleurs d’arêtes, des tailles et des dispositions différentes.

Beaucoup d’outils gratuits pour la visualisation de graphe ont été développés au cours de la dernière décennie. Citons par exemple :

1. Pajek [36] (pajek.imfm.si) : Un des premiers outils exploratoires visuels pour la visualisation et l’analyse de petit graphes.

2. Networkbench (nwb.cns.iu.edu) : Un outil pour poser et visualiser des ensembles de données en réseau de domaines différents, à l’appui de la re- cherche interdisciplinaire.

3. Walrus [99] (www.caida.org/tools/visualization/walrus) : Il permet de visualiser des graphes en se basant sur leur repr´esentation d’arbre.

4. Gephi [14] : Sponsoris´e comme ”photoshop for graphs” (gephi.org). Il fournit une interface d’utilisateur avanc´ee pour la manipulation visuelle et une API utile pour la visualisation en continu de graphes dynamiques.

5. GUESS [4] (graphexploration.cond.org) :Un outil d’analyse basé sur Gython, un langage spécifique à un domaine qui supporte les opérateurs qui peuvent avoir affaire directement avec des structures de graphe d’une fa¸con efficace et intuitive.

6. GleamViz (www.gleamviz.org) : Sp´ecifiquement con¸cu pour simuler et visualiser la diffusion de maladies infectieuses `a travers le monde.

Plusieurs paquets d’analyse de graphe comme iGraph (igraph.sourceforge.net), networkx networkx.lanl.gov), et R (www.r-project.org) fournissent des outils de visualisation de r´eseau ou des plug-ins.

2.6 La classification dans les r´eseaux sociaux

Dans le document Gestion de la collaboration et compétition dans le crowdsourcing : une approche avec prise en compte de fuites de données via les réseaux sociaux (Page 48-52)