• Aucun résultat trouvé

2.1 Modélisation structurelle des graphes et ses

enjeux

Les graphes ou réseaux sont des objets mathématiques très souvent utilisés pour représenter des relations qu’elles soient entre des individus, des molécules, des astres ou

tout autre agent interagissant avec d’autres agents [10]. C’est de ce fait une représentation

abstraite très flexible qui s’adapte à de nombreux objets du monde réel. Depuis quelques années, l’étude structurelle de réseaux a fait l’objet de nombreux travaux de recherche notamment dans le domaine de la bio-informatique, de la cosmologie ou encore des sciences

sociales et de la théorie du management [3].

Nous nous intéressons plus ici aux réseaux représentant des structures sociales que l’on nomme également réseaux sociaux (à ne pas confondre avec les applications comme Facebook) et considérons ainsi un ensemble d’individus potentiellement reliés les uns aux autres par des liens relationnels.

Nous pouvons prendre comme exemple des réseaux sociaux représentant des collaborations entre des individus. Collaborer et mettre en commun ses connaissances et ses forces s’avère être très souvent une nécessité pour répondre à des enjeux majeurs.

Que ce soit pour résoudre des problématiques environnementales [12, 20, 39, 38] ou

économiques [62] les parties impliquées s’allient, se structurent et s’interconnectent pour

à terme mettre en œuvre des solutions. L’étude des collaborations permet entre autres choses de mieux comprendre les mécanismes favorisant les échanges entre les parties, mais aussi d’identifier les faiblesses et les dépendances qui pourraient mettre en péril de telles entreprises. Étendre la compréhension de ces réseaux de collaboration, c’est se donner la possibilité de les améliorer et de les rendre plus efficaces et résilients [77, 79].

Pour étudier ces réseaux, nous faisons appel à la théorie des graphes [103]. Nous

considérons ici que les graphes constituent une représentation formelle des réseaux au sens général du terme. Les nœuds du graphe symbolisent les individus ou des groupes d’individus, et les arêtes sont des relations binaires, représentant les liens sociaux sociaux tissés entre ces derniers.

On désigne généralement un graphe G par la notation : G(V, E),

où V et E sont respectivement l’ensemble des nœuds et l’ensemble des arêtes. La taille du graphe correspond au nombre de nœuds qui le composent soit N = |V|, de la même manière, nous définissons le nombre d’arêtes par E = |E|.

En complément de cette notation, la matrice d’adjacence est très souvent utilisée pour représenter plus en détail la structure relationnelle décrite par le graphe. La matrice d’adjacence est une matrice carrée, binaire, de taille N × N :

y =  yi,j ∈ {0, 1}  0≤i,j<N ,

où yi,j désigne l’arête entre les nœuds i et j de telle sorte que :

yi,j = 1, désigne l’existence de l’arête entre les nœuds i et j.

Cela revient à considérer pour un graphe dirigé, l’ensemble des arêtes activées dans la matrice d’adjacence : E = {(i, j), yi,j = 1}0≤i,j<N. Notons par ailleurs que pour un graphe non-dirigé la matrice d’adjacence est symétrique telle que : yi,j = yj,i. Que ce soit pour des graphes dirigés ou non dirigés, nous faisons l’hypothèse que les extrémités d’une arête sont deux nœuds distincts, nous considérons donc que la diagonale de la matrice d’adjacence est nulle : y = 0 y1,2 · · · y1,N −1 y2,1 0 · · · y2,N −1 .. . ... . .. ... yN −1,1 yN −1,2 · · · 0 ·

Les graphes illustrant des comportements sociaux réels peuvent être des sources d’in-formations riches pour mieux comprendre les tendances comportementales individuelles ou collectives qui sous-tendent la création des liens. Des approches descriptives consistant à mesurer certaines métriques comme les mesures de centralité, la densité, le rayon, le de-gré moyen etc. permettent de quantifier certains phénomènes sociaux [18,103]. Elles sont cependant limitées lorsqu’il s’agit d’identifier des processus complexes à l’origine même de la formation du graphe social. La création d’un lien n’est généralement pas due au pur hasard, mais reflète des tendances comportementales complexes liées notamment à la présence d’autres liens sociaux dans le graphe. De plus, les tendances comportementales ne sont pas invariantes. Si nous observons par exemple chez un grand nombre de sujets une propension à tisser des liens réciproques avec autrui, cette tendance ne se vérifiera pas pour tous les sujets. Cette composante “chaotique” dans le processus de formation des

liens [105] motive l’adoption d’une autre approche considérant le graphe observé comme

une réalisation d’un processus stochastique. Le graphe observé est un graphe aléatoire qui représente donc une configuration particulière d’arêtes parmi l’ensemble des graphes

possibles. Chaque arête possible du graphe est une variable aléatoire binaire, notée Yi,j

dont la réalisation Yi,j = yi,j résulte d’un processus stochastique.

Les processus conduisant à la formation de liens dans le graphe peuvent être caractérisés par des structures locales. Prenons par exemple le cas illustré par la Figure 2.1. Deux individus, Alice et Charlie entretiennent tous les deux un lien d’amitié (matérialisé par les deux traits pleins) avec Bob. C’est une configuration particulière qui du fait que Alice et Charlie partagent tous les deux une connaissance commune (Bob), peut favoriser la création d’un lien d’amitié entre ces deux individus (matérialisé par un trait en pointillé). Cette tendance illustre en d’autres termes l’adage : “les amis de mes amis

sont mes amis” [92]. L’apparition d’un lien entre Alice et Bob fait alors émerger une

structure en “triangle”. La prépondérance de structures en triangle dans un graphe social pourrait alors renseigner sur la généralisation de cette tendance comportementale à une population donnée.

Bien que dans les faits ce type de comportement puisse faire émerger des structures triangulaires, l’approche adoptée reste toutefois peu réaliste pour l’étude globale d’un graphe. D’une part, parce que la présence de triangles peut être due à d’autres facteurs comme une simple inclination à créer un grand nombre de liens avec d’autres individus. D’autre part parce que les processus sociaux influençant l’émergence des liens, sont très souvent couplés entre eux et imbriqués. Il n’est donc pas réaliste de les

étudier indépendamment. La modélisation structurelle des graphes apparaît donc comme complexe.

Bob

Alice Charlie

Figure 2.1 – Graphe représentant des liens d’amitié entre Alice, Bob et Charlie. (Les traits pleins représentent les liens existants, là où les pointillés symbolisent les liens hypothétiques)

2.2 Les Exponential Random Graph Models

2.2.1 Forme générale du modèle

Les Exponential Random Graph Models sont une famille de modèles très souvent utilisés pour la modélisation structurelle des graphes. C’est une classe de modèles pertinente au regard des remarques précédemment énoncées. Les ERGMs s’inscrivent en effet dans le cadre conceptuel selon lequel le graphe observé est le produit de l’émergence de structures locales comme les triangles vus précédemment. Comme souligné

par Wasserman et Pattison [104], cette famille peut inclure une variété importante

de structures locales et permet ainsi de tester un grand nombre d’hypothèses sur les processus sociaux sous-jacents. De plus, autour de cette famille de modèles s’est développé

un ensemble d’outils [43, 50, 64] popularisant les ERGMs au-delà des communautés de

mathématiques appliquées et de statistiques spatiales.

La forme générale de ce type de modèle s’exprime sous la forme d’une probabilité d’existence d’une réalisation d’un graphe aléatoire y conditionnellement à l’ensemble des paramètres θ régissant ce modèle :

p(Y = y|θ) = exp(U (y|θ))

κ(θ) = exp(hθ, t(y)i) κ(θ) = exp(P θiti(y)) κ(θ) , (2.1)

où la fonction U se nomme la fonction d’énergie et h·, ·i est le produit scalaire. Le graphe observé est décrit au travers du vecteur des statistiques suffisantes t(y). À chaque

configuration (ou structure locale) considérée est associée une statistique ti(y) qui donne

le nombre de fois où elle apparaît dans le graphe. Chaque statistique est pondérée par

un paramètre θi ∈ θ. L’interprétation des résultats peut s’apparenter à celle d’une

régression linéaire. Les statistiques peuvent être vues comme des variables explicatives et les paramètres qui les pondèrent renseignent sur leur présence dans le graphe observé.

Si le paramètre θi est positif, cela implique que la structure locale comptabilisée par

la statistique ti(y) a plus de chance de se réaliser que par pur hasard. À l’inverse, un

d’exister que par pur hasard. En substance, le modèle (et ses paramètres) renseigne donc sur la présence de structures locales dans un graphe et donc de l’impact des processus sociaux sous-jacents qui ont engendré ce graphe. Il reste à présent à définir quelles sont les structures locales que nous pouvons prendre en compte dans le modèle et ce qu’elles représentent du point de vue la modélisation des interactions. Ces points sont développés dans la Section 2.2.2.

Une constante de normalisation κ(θ) est placée au dénominateur (2.1) pour garantir que la valeur de la probabilité P (Y = y|θ) est inférieure à 1. Cette constante de normalisation représente toutes les configurations possibles du graphe pour une taille fixée et peut s’exprimer ainsi :

κ(θ) = X y∈Y

exp(U (y|θ)), (2.2)

où Y décrit l’espace des configurations. Pour un graphe y de taille définie, l’espace des configurations Y comprend tous les graphes de même taille, qu’il est possible d’engendrer : du graphe sans aucune arête au graphe complet et toutes les configurations intermédiaires possibles. La constante κ(θ) est numériquement difficile voire impossible à calculer du fait de la taille de Y, et ce, même pour des graphes de taille raisonnable. Le nombre de

configurations d’arêtes pour un graphe non dirigé de taille n est 2(n2) ce qui représente

pour un graphe de 10 nœuds (un graphe de taille très modeste) plus de 1013configurations

possibles, un ordre de grandeur comparable au nombre de galaxies recensées dans l’univers (entre 1000 et 3000 milliards [19]).

2.2.2 Des hypothèses de dépendance à la configuration du

modèle

Comme nous l’avons souligné précédemment, la création d’un lien entre deux individus n’est généralement pas due au hasard et peut dépendre de la présence d’autres liens dans le graphe. Ces dépendances reflètent les tendances comportementales que nous souhaitons modéliser. Une fois les hypothèses de dépendances formulées, nous pouvons définir les structures locales qui composent notre modèle. Les structures locales sont en effet les configurations d’arêtes qui sont interdépendantes au regard des hypothèses considérées.

En termes généraux, l’apparition d’un lien dans un graphe est par conséquent conditionnée par toutes les arêtes du reste du graphe. D’une manière plus formelle nous pouvons exprimer cette probabilité de réalisation d’une arête (i, j) ainsi :

P (Yi,j = yi,j|Y−i,j = y−i,j, θ), (2.3)

où y−i,j représente l’ensemble des autres arêtes observées. Il n’est bien sûr pas réaliste

de conditionner l’apparition d’une arête au reste du graphe, cela reviendrait à prendre en compte un trop grand nombre de structures locales. Nous ferions face aux mêmes limites combinatoires que celles observées pour le calcul de la constante de normalisation. Nous devons donc formuler des hypothèses de dépendances cohérentes et réalistes au regard des processus sociaux étudiés, mais aussi assez raisonnables pour que le nombre de configurations à considérer ne soit pas trop important.

Plus il y a de dépendances entre les liens, plus la probabilité de réalisation d’un graphe sera difficile à calculer. Cela se vérifie même pour deux arêtes. Si deux arêtes distinctes sont indépendantes, cela signifie que l’apparition de l’une ne dépend aucunement de l’état de l’autre arête. En d’autres termes, la probabilité que ces deux arêtes existent (probabilité jointe) se réduit au produit des deux probabilités d’existence. Dans l’autre cas, la probabilité jointe et plus difficile à calculer et dépend des hypothèses de dépendances formulées.

Le choix des hypothèses de dépendances est une étape préliminaire cruciale puisqu’elle permet de faire le lien entre le réel, les comportements et phénomènes sociaux étudiés et la modélisation, les structures locales comptabilisées par les statistiques suffisantes (2.1). Nous présentons ici les hypothèses de dépendance les plus connues et les configurations de modèles associées.

Hypothèse de Bernoulli

Chronologiquement la première hypothèse de dépendance est l’hypothèse de Bernoulli. C’est en réalité une hypothèse d’indépendance, puisque cette hypothèse considère les arêtes comme des variables aléatoires indépendantes et identiquement distribuées dans le graphe aléatoire. À la manière d’un lancé de pièce, l’existence d’une arête dépend

uniquement d’une probabilité p(Yi,j = 1|θ). Les modèles adoptant cette hypothèse se

rapprochent d’ailleurs du modèle de Erdős–Rényi [25] qui, de manière identique, construit

le graphe en sélectionnant uniformément et avec une probabilité p définie l’ensemble des arêtes existantes.

La forme générale du modèle de Bernoulli revient à considérer uniquement comme structure locale les arêtes elles-mêmes et peut s’écrire de cette manière :

p(Y = y|θ) = exp(θLL(y))

κ(θ) . (2.4)

L’unique statistique suffisante L(y) donne le nombre d’arêtes dans le graphe et s’exprime pour un graphe non dirigé comme :

L(y) = X

i<j∈V

yi,j. (2.5)

Dans le cas d’un graphe dirigé cela revient à considérer toutes les variables aléatoires

yi,j, sans la condition i < j. Le paramètre associé θL pondère la présence d’arête dans le

graphe de telle sorte que la probabilité d’existence d’une arête respecte la relation :

P (Yi,j = 1|Y−i,j = y−i,j, θl) = P (Yi,j = 1|θL) = e θL

eθL+ 1·

Il est à noter que la probabilité conditionnelle d’émergence d’une arête (i, j) décrite par (2.3) est simplifiée de manière conséquente puisqu’elle ne dépend aucunement des autres arêtes du graphe. Ce qui fait que le modèle de Bernoulli est la configuration la plus simple des ERGMs, bien que peu réaliste du fait de l’absence de dépendance.

Hypothèse “Dyad-independent”

L’hypothèse “Dyad-independent” est une extension de l’hypothèse de Bernoulli et considère pour des graphes dirigés que l’émergence d’une arrête (i, j) est dépendante de l’arête (j, i). Ce type d’interactions que l’on nomme aussi dyade (ou interaction dyadique) représente des relations réciproques entre deux individus (i et j en l’occurrence). La dépendance se limite en revanche à la dyade, deux dyades distinctes (i, j) et (k, l) sont donc indépendantes l’une de l’autre.

Le modèle “Dyad-independent” proposé par Holland et Leinhardt [46] est le

premier qui repose réellement sur une hypothèse de dépendance. Il s’écrit sous la forme :

p(Y = y|θ) = exp(θLL(y) + θMM (y))

κ(θ) . (2.6)

S’ajoute alors à (2.4) la statistique suffisante M (y) qui compte le nombre de dyades présentes dans le graphe de telle sorte que :

M (y) =X i<j

yi,jyj,i.

Ce modèle que l’on nomme également modèle p1 permet à la fois de quantifier la propension pour un individu d’être émetteur ou récepteur, mais aussi la tendance pour deux individus à tisser des liens réciproques. En outre, d’autres modèles reposent sur

cette hypothèse d’indépendance entre les dyades, comme le modèle p2 [24] qui considère

de surcroît les attributs des nœuds comme des covariables. Cela permet ainsi d’introduire des facteurs exogènes (comme l’âge des individus, leur genre ...) dans le processus de création des liens.

Hypothèse de Markov

Jusqu’à présent, les hypothèses de dépendances présentées sont limitées et ne permettent pas de modéliser des comportements comme celui présenté par la figure 2.1. Pour rappel, cet exemple illustre une tendance comportementale selon laquelle le fait de partager une connaissance commune (Bob) peut favoriser la création d’un lien entre deux personnes (Alice et Charlie). C’est un motif comportemental assez récurrent qui nécessite cependant des hypothèses de dépendance plus fortes.

Dans ce cas de figure, la réalisation de l’arête (Alice, Charlie) dépend des arêtes (Alice, Bob) et (Bob, Charlie). Nous entrevoyons ici une relation de dépendance selon laquelle les arêtes qui sont “reliées” par un même nœud sont dépendantes les unes des autres. Toutes les arêtes qui sont connectées par un même nœud sont définies comme voisines les unes

des autres. Frank et Strauss [28] proposent l’hypothèse de dépendance de Markov qui

étend la dépendance des réalisations des arêtes à leur voisinage.

Les notions de voisinage et de dépendance dans ce voisinage peuvent être généralisées de la manière suivante. La réalisation de deux arêtes (i, j) et (i, k), qui partagent un nœud commun i sont dépendantes l’une de l’autre. Inversement, deux arêtes (i, j) et (k, l) telles que i, j, k et l sont des nœuds distincts, sont toutes les deux indépendantes. Nous définissons le voisinage tel que deux arêtes sont dites voisines l’une de l’autre si elles partagent un nœud commun.

1

3

2

4

(a) Graphe aléatoire original G

13

12

14

34

23 24

(b) Graphe de dépendance D

Figure 2.2 – Graphe original et son graphe de dépendance tels qu’illustrés dans [28]

On remarque ici que la probabilité conditionnelle de réalisation d’une arête (2.3) se réduit donc au voisinage de cette dernière :

P (Yi,j = yi,j|Y−i,j = y−i,j, θ) = P (Yi,j = yi,j|YVi,j = yVi,j, θ), où Vi,j dénote ici le voisinage de l’arête (i, j).

Ces interdépendances entre les arêtes ne sont pas facilement identifiables dans un

graphe. Frank et Strauss [28] proposent une vue alternative du graphe, que l’on

nomme ici graphe de dépendances et qui représente les interactions entre les arêtes du graphe. Ainsi, chaque nœud du graphe de dépendances correspond à une arrête du graphe observé. Les nœuds du graphe de dépendances sont connectés en fonction des hypothèses de dépendances formulées. Nous considérons pour les dépendances de Markov que deux arêtes sont connectées si l’une appartient au voisinage de l’autre. Prenons comme exemple la Figure Fig. 2.2 qui représente à gauche un graphe aléatoire, notre graphe observé (Figure 2.2(a)) et à droite le graphe de dépendance associé (Figure 2.2(b)). Le graphe G est un graphe non dirigé qui comprend quatre nœuds et dont l’ensemble des arêtes possibles sont représentées en pointillé. À droite, chaque nœud du graphe de dépendance D représente une variable aléatoire associée à une arête du graphe G. Il y a autant de nœuds dans le graphe de dépendances qu’il y a d’arêtes possibles dans le graphe G, soit n2 nœuds pour un graphe non dirigé de taille n (et n(n − 1) nœuds pour un graphe dirigé). Le nœud 12 du graphe de dépendance est donc associé à l’arête (1, 2) du graphe aléatoire observé. D’après la définition du voisinage que nous avons donnée, deux arêtes sont connectées si elles partagent un nœud commun. Remarquons par exemple dans le graphe de dépendance que les nœuds 12 et 24 sont connectés puisque les arêtes correspondantes dans le graphe aléatoire partagent toutes les deux le nœud 2. Inversement, les nœuds 12 et 34 du graphe de dépendance D ne sont pas connectés puisque les arêtes (1, 2) et (3, 4) ne partagent aucun nœud commun dans le graphe G. Nous constatons ainsi que le graphe de dépendance n’est pas un graphe complet, même si toutes les arêtes du graphe aléatoires sont considérées. Sans cette propriété importante, il n’y aurait aucun intérêt à nous reposer sur les hypothèses de Markov puisque cela impliquerait que la réalisation d’une arête est conditionnellement dépendante à toutes les autres.

1

3

2

4

(a) Graphe aléatoire original G

12

13 14

34

23 24

(b) Graphe de dépendance de Bernoulli D

Figure 2.3 – Graphe de dépendance de Bernoulli

Il est intéressant de remarquer que toutes les arêtes conditionnellement dépendantes les unes des autres dans le graphe G, sont toutes interconnectées dans le graphe de dépendances D. Elles font apparaître des sous-ensembles complets que l’on nomme cliques. Autrement dit, ces arêtes interdépendantes dans le graphe G forment des cliques dans le graphe de dépendances. Par ailleurs, les structures locales comptabilisées par les statistiques suffisantes sont composées uniquement d’arêtes dépendantes les unes des autres. C’est ce que nous avons observé dans une moindre mesure avec les hypothèses de Bernoulli et “Dyad independent”. De ces deux constats, nous esquissons un lien entre les cliques présentes dans le graphe de dépendances et les formes des structures locales du modèles : les cliques définissent les structures locales considérées par le modèle. Prenons un exemple simple, de l’hypothèse de Bernoulli et le modèle associé. Dans le cadre des hypothèses de Bernoulli il n’y a aucune dépendance entre les arêtes, ce qui implique que le graphe de dépendance est uniquement composé de nœuds sans aucune connexion, comme le montre la Figure 2.3. Du fait de l’absence de liens dans le graphe D, les seules cliques présentes sont les nœuds eux-même, c’est-à-dire, les arêtes dans le graphe G. Pour illustrer nos propos, nous avons entouré une des cliques (le nœud 12) et l’arête correspondante dans le graphe G. Nous retrouvons ainsi la seule structure locale considérée par le modèle de Bernoulli, l’arête elle-même. Ce raisonnement peut-être étendu à l’hypothèse “Dyad-dependent” (et au modèle p1), il faudra alors considérer les arêtes et leurs réciproques (par exemple l’arête 12 et l’arrête 21). Les arêtes et leurs réciproques sont connectés dans le graphe de dépendances et forment donc des cliques qui correspondent au interactions dyadiques dans le graphe G.

Nous venons ici de mettre en exergue d’une manière intuitive le lien direct entre les hypothèses de dépendances et les structures locales par le biais du graphe de dépendances. Qu’en est-il pour les hypothèses de Markov et son modèle ? Cette intuition se généralise