• Aucun résultat trouvé

Modélisations statistiques des interactions sociales : enjeux et solutions

La coordination d’acteurs par les dispositifs institutionnels en question

Section 2. Modélisations statistiques des interactions sociales : enjeux et solutions

Un premier défi pour l’analyse des interactions sociales dans le domaine de l’économie a été de pouvoir développer et stabiliser les techniques qui permettent de mettre en évidence l’influence de l’environnement social d’un individu sur ses actions, un fait social longuement traité du point de vue conceptuel en sociologie. La formalisation de ces interactions sociales et l’exploration de leur influence sur les situations individuelles au sein de modèles économétriques, sont un domaine de recherche récent. On peut synthétiser les développements autour d’une telle recherche en deux catégories de travaux. La première catégorie renvoie à la caractérisation des interactions sociales et à l’analyse de leur influence sur le comportement individuel. Plus précisément, il s’agit ici de mettre en place des approches empiriques des interactions entre individus pour en évaluer l’influence sur la réalisation individuelle avec modèle empirique qui relie l’utilité individuelle et les caractéristiques du groupe d’appartenance des individus. La seconde

catégorie renvoie à la nécessité de considérer que le réseau est endogène, et à l’analyse par régression statistique des facteurs qui contribuent à la formation des réseaux.

2.1 L’influence du réseau de relations sur les comportements individuels

2.1.1. Identification des effets dans les modèles linéaires avec des données en coupe (une seule période d’observation)

Le développement des modèles linéaires (Burt et Deroian, 1982 ; Bertrand et al., 2000 ; Ballester et al., 2006 ; Lin, 2010) s’appuie sur l’hypothèse selon laquelle l’environnement de l’individu est entièrement défini par les caractéristiques du groupe social auquel il appartient. Le choix de chaque individu est ainsi supposé être dépendant d’une combinaison de facteurs spécifiques à l’individu et de facteurs spécifiques au groupe de référence.

L’évaluation des effets des interactions sociales nécessite de distinguer particulièrement trois effets :

• les effets endogènes qui désignent le fait que le comportement de l’individu évolue de la même façon que le comportement du groupe ;

• les effets contextuels qui désignent le fait que l’évolution du comportement de l’individu peut être associée à l’évolution de certaines caractéristiques (exogènes) des autres membres du groupe ;

• les effets corrélés qui désignent le fait que les individus d’un même groupe tendent à se comporter de la même façon lorsqu’ils présentent des caractéristiques similaires.

Or, très tôt, Manski (1993) a montré les difficultés à distinguer ces effets lorsqu’on autorise le comportement individuel à interagir de manière linéaire avec le comportement moyen du groupe (effets endogènes), les valeurs moyennes des caractéristiques des membres du groupe (effets contextuels) et les caractéristiques individuelles, qui peuvent être similaires entre les membres.

Une première difficulté renvoie au « reflection problem » (Manski, 1993, 2000). L’impossibilité de distinguer les effets endogènes (ou effets comportementaux) et les effets exogènes (ou effets contextuels) en raison de leur simultanéité, découle du fait que le comportement moyen dans le groupe est lui-même déterminé par le comportement des membres du groupe. En d’autres termes, les données qui expriment l’utilité individuelle ne permettent pas

Chapitre 5. Analyse en termes de réseaux de coordinations interindividuelles : éléments de méthodologie _________________________________________________________________________________

de statuer de manière claire sur deux processus complètement différents (qui aboutirait aux mêmes résultats observables) : à savoir si la part explicative des effets des interactions sociales résulte de l’influence du comportement du groupe sur le comportement individuel, ou tout simplement le fait que le comportement du groupe correspond à l’agrégation des comportements individuels.

Une seconde difficulté relève des variables inobservées (e.g., des attributs des individus au sein des groupes) qui peuvent être corrélées entre les paires et qui anéantit l’hypothèse d’exogénéité du groupe de référence. Il est difficile en effet de considérer que la formation des groupes s’opère de façon aléatoire. La similarité dans les résultats (réalisations, utilités) obtenus par chaque membre du groupe peut ainsi être attribuée à des variables qui restent inobservables pour le chercheur, et qui seraient communes à l’ensemble des membres du groupe eux-mêmes. Dans ce cas de figure, on assiste alors à des effets de corrélation statistique plus qu’à la révélation d’existence d’interactions sociales (Manski, 1993).

Aussi, la première source d’explication aux problèmes d’identification des différents effets impliqués par les interactions sociales sur les individus est à relier à l’absence d’informations plus détaillées sur les groupes de référence. Sans des indications plus précises sur la relation entre les caractéristiques propres à l’individu et les caractéristiques (moyennes) du groupe, il est impossible

Encadré : le problème de l’identification des effets des interactions sociales illustré à travers l’analyse des déterminants des résultats scolaires (Durlauf, 2005)

La conceptualisation des problèmes liés à l’identification des effets des interactions sociales sur l’individu part du principe que l’on ne dispose que des données relatives au choix des individus, les caractéristiques qui leur sont propres et les caractéristiques des groupes dont ils sont membres. Pour donner un contenu illustratif du décalage entre le modèle supposé et les informations disponibles, on s’appuie sur Durlauf (2005) et sa modélisation des déterminants des résultats scolaires de jeunes élèves. Un premier ensemble de facteurs explicatifs reprend les caractéristiques propres aux élèves, via notamment le niveau de revenuet de l’instruction de leurs parents. La catégorie des facteurs explicatifs ou contextuels ayant une influence sur les résultats des élèves pourrait être la distribution des revenus entre les familles d’un même voisinage ou encore les fonctions exercées qui ont une influence sur le niveau de dépenses que ces familles consacrent à l’éducation. Enfin un dernier ensemble de facteurs explicatifs est endogène et n’est pas observable au travers de données brutes, puisqu’il a trait aux interactions entre les élèves eux-mêmes : la performance des élèves peut être expliquée par la concurrence qu’ils se livrent.

d’isoler les rôles respectifs des effets endogènes et des effets contextuels, dans la mesure où ils opèrent de manière simultanée. En d’autres termes, un groupe peut se former en raison de préférences ou de pratiques similaires entre individus. Lorsqu’on dispose de données sur plusieurs périodes (données de panel), il est possible de contrôler les problèmes d’indentification induits par l’endogénéité de la formation du groupe, par l’introduction des effets fixes individuels ou en spécifiant une plus grande hétérogénéité (Nair et al., 2010).

On présente d’abord le modèle linéaire (linear- in- means model) (en s’appuyant sur les notation de Bellemare et al., 2012) :

ri r r ri r ri x y x y =α +λ +β +δ +ε (5.1)

yri est une mesure du niveau y de réalisation par un individu i appartenant à un groupe

r. Dans ce modèle les paramètres : λ traite des effets des caractéristiques individuellesxri , β

traite de l’importance des effets endogènesyr, et δ l’importance des effets contextuels xr. Dans

cette équation, les effets fixes αr (pour des données en panel) intègrent les caractéristiques non observables du groupe r. Dans une analyse en coupe, en revanche, ces effets induiraient qu’on estime un modèle qui est propre aux caractéristiques de la période à laquelle se réfèrent les données. Or, enlever ces effets enlèverait les effets spécifiques au groupe (endogènes et contextuels).

La solution est différente pour les données en coupe (une seule période). Pour le cas des modèles linéaires, Brock et Durlauf (2001) proposent une solution pour relâcher l’hypothèse d’une égalité entre les caractéristiques du groupe et les caractéristiques de l’individu à la condition qu’au moins un des régresseurs associé au groupe n’apparaisse dans les caractéristiques de l’individu (méthode des moments généralisés). Cette condition requiert pour cela des caractéristiques spécifiques à l’individu. D’autres auteurs proposent de recourir à des hypothèses plus fortes sur les mécanismes d’influence du groupe en privilégiant soit l’existence d’effets endogène yr ou soit l’existence d’effets exogènes xr (Case et Katz, 1991 ; Gaviria et Raphael,

2001). Enfin d’autres auteurs proposent de travailler sur la formation du groupe au sein d’un processus aléatoire et propose des spécifications qui permettent de calculer yr et xr de manière

aléatoire (en référence au groupe d’appartenance de i) (Sacerdote, 2001 ; Zimmerman, 2003).

Pour Bramoullé et al. (2009), le problème du groupe de référence peut être résolu lorsqu’on dispose de données qui permettent de refléter la complexité de la structure sociale (des données relationnelles). Dans cette perspective, les relations interindividuelles sont précisément prises en compte. Plus récemment, la disponibilité de données d’enquêtes détaillées et précises issues de

Chapitre 5. Analyse en termes de réseaux de coordinations interindividuelles : éléments de méthodologie _________________________________________________________________________________

processus de génération de données voisinages où il est demandé à l’enquêté de fournir précisément les noms de son entourage pour des questions spécifiques (e.g., l’enquête Add Health aux Etats-Unis utilisée notamment par Fowler et Christakis, 2008 ; Calvo-Armengol et al., 2009 ; Bramoullé et al., op.cit.). La structure de corrélations qui en résulte peut-être modélisée soit en construisant des variables explicatives ad hoc, soit en modélisant la covariance entre les erreurs, ce qui justifie l’intérêt particulier des certains travaux sur les réseaux pour les techniques économétriques inspirées de l’économétrie spatiale.

2.2. Les avancées méthodologiques fournies par l’économétrie spatiale

Les outils de l’économétrie spatiale permettent de traiter le problème de l’équation (5.1) en s’appuyant sur un modèle linéaire spatial autorégressif, dont la formalisation proposée par Lee (2007) est la plus réputée :

ri r rj ri r rj ri ri r ri m x M j m y M j x y α λ β δ +ε − ∈ + − ∈ + + =

1 1 (5.2)

Avec mr correspondant à la taille du groupe,

1 − ∈ =

r rj ri r m y M j y et 1 − ∈ =

r rj ri r m x M j

x une formalisation qui nécessite d’exclure respectivement yi et xi du calcul de yr

et xr pour éviter l’endogénéité dans le premier cas, et un problème d’identification dans le second.

La taille du groupe d’appartenance de i est définie de façon exogène au processus à partir de plusieurs critères choisis par le chercheur. Par ailleurs l’identification des effets au sein du groupe se cantonne aux effets directs.

Une application récente de ce modèle peut être trouvée chez Bramoullé et al. (2009), ou encore Boucher al., (2010). A partir du modèle autorégressif spatial qui permet des effets exogènes, les auteurs montrent que les différents effets (exogène, contextuels et endogènes) sont identifiés avec une restriction sur le moment E[ε | x] = 0 et sur la matrice d’interactions On suppose en effet que la matrice qui recouvre les interactions ne contient par de relations transitives. En d’autres termes pour des relations entre i et j, et j et k, on exclut une relation entre i et k. Les effets pris en compte sont donc uniquement directs. Cette spécification permet de conserver une indépendance entre les attributs moyens pour tous les acteurs du réseau (si on considère des relations amicales, cela revient à considérer que l’intransitivité garantit l’indépendance du vecteur des caractéristiques moyennes « des amis des amis » de i avec d’autres variables exogènes). En face de l’influence des groupes sur l’output des actions, il s’agit également

de comprendre comment à l’échelle individuelle s’élabore la décision de former un lien (et indirectement joindre un groupe). La sous-section suivante développe les approches proposées par la littérature.

2.3. Modélisation empirique de la formation des réseaux

2.3.1. Adaptation des modèles économétriques usuels

La formation des liens au sein d’un réseau de relation est en large partie considérée sous l’angle de la régression des formations des paires. La décision de former des liens serait ici à expliquer par un ensemble de facteurs. L’approche économétrique la plus accessible serait alors la procédure d’estimation des modèles de probabilités pour les variables dépendantes binaires. En effet, on pose

ij ij

ij X

Y =χ +ε (5.3)

Yij est la propension à former un lien entre i et j, Xij est un vecteur de caractéristiques

du lien formé entre i et j, et ε est terme d’erreur spécifique au lien. Ainsi le lien entre i et j est ij formé dans le réseau g 1 si Yij≥0, et il n’est pas formé si Yij< 0.

Le soubassement théorique de ce modèle économétrique basé sur les relations dyadiques est à puiser dans les propositions de l’économie des réseaux (Jackson, 2008) présenté dans la section 1.1. Tout individu retire une utilité du réseau qui dépend de sa structure. La littérature empirique qui s’est penchée sur l’estimation des modèles de réseau à travers les données dyadiques, se heurte à des difficultés qui nécessitent des hypothèses importantes.

La première difficulté repose sur l’imbrication des utilités respectives des agents lors de la formation du lien. L’estimation du modèle n’est possible que sous les conditions de séparation et de symétrie des utilités (Bramoullé, 2010). L’utilité dérivée du réseau est égale à la somme des utilités retirées de chaque lien et ces utilités spécifiques ne sont pas affectées par le réseau (problème de séparabilité) : le modèle ne vaut que pour les liens dirigés. Lorsque le réseau n’est pas dirigé, il est nécessaire de poser la symétrie des hypothèses : l’utilité retirée de la formation du lien est identique pour chaque membre de la paire. Par ailleurs une autre difficulté réside dans l’introduction des caractéristiques individuelles. Si les caractéristiques spécifiques à chaque individu ne posent pas de problème particulier pour une régression de liens dirigés (le choix

Chapitre 5. Analyse en termes de réseaux de coordinations interindividuelles : éléments de méthodologie _________________________________________________________________________________

effets individuels est plus problématique. Les variables inobservées sont une extension du problème et pose la question de l’autocorrélation des erreurs (Udry et Conley, 2004). Conley (1999) utilisé par ailleurs dans le chapitre 4 propose notamment une solution pour une spécification robuste des matrices de covariance.

Les travaux qui se réfèrent au plus près d’un modèle de formation stratégique de liens dans un cadre unilatéral est celui de Comola et Fafchamps (2009) dans une analyse des déterminants du partage de risque dans un village africain. Les auteurs prennent comme entrée la notion de stabilité des paires introduite par Jackson et Wolinski (1996) (abordée plus haut). La formation du lien est associée à un consentement à établir ce lien, qui est formalisé comme précédemment, c’est-à-dire que l’utilité de l’individu i pour la formation d’un lien avec j est supérieure à celle où ce lien n’existerait pas. Le consentement de j n’est pas nécessaire, et le lien ne peut exister si les deux individus refusent de le créer (Goyal, 2007). L’originalité méthodologique du travail tient dans la formulation du modèle : la formation d’un lien unilatéral requiert que les deux parties ne consentent pas à créer un lien pour que ce lien n’existe pas. Cette démarche similaire à la formation d’un lien bilatéral ouvre la voie à un test du modèle à l’aide d’un probit bivarié avec observabilité partielle (Maddala, 1983). Il permet de considérer que la modalité prise par la variable analysée (dichotomique) ne représente pas le choix d’un seul individu, mais le choix conjoint de deux individus. La réalisation de la modalité n’est pas à interpréter vis-à-vis d’une seule alternative, mais parmi quatre possibles [(1,0), (0,1), (1,1), (0,0)]. Les auteurs soulèvent cependant une difficulté liée aux données recueillies, et plus particulièrement au processus qui sous-tend les déclarations des répondants. On ne peut en effet distinguer si le réseau (de partage de risque qu’ils étudient) résulte d’un mécanisme volontaire, où s’il résulte de normes sociales qui impose une contrainte morale ou sociale. Le recours à la notion de consentement est par ailleurs ambigu puisqu’il ne permet pas d’abonder dans le sens d’un lien existant ou d’un lien souhaité. En effectuant un test d’emboîtement des modèles, les auteurs montrent que le modèle de liens bilatéraux à une meilleure qualité de représentation des données que le modèle de formation de liens unilatéraux.

Dans ses objectifs cette approche de la formation du réseau est la plus proche de l’analyse statistique des réseaux proprement dit. Le modèle économique montre l’utilité dérivée des réseaux lors de la formation des liens par l’intégration de la structure sociale dans laquelle l’individu est encastré, pour mieux identifier l’influence d’autres variables explicatives. Les

modèles statistiques de réseaux62 peuvent sembler similaires dans la mesure où leur objectif est de pouvoir analyser les principaux facteurs qui président à la formation du lien, mais en se concentrant cette fois-ci sur l’influence même des caractéristiques structurelles des liens et du réseau. Les motivations qui conduisent à la formation des liens résultent de la position des individus dans le réseau, de leurs caractéristiques, des caractéristiques de paires, etc… Dans ce qui suit on rend compte de cette spécificité en abordant deux modèles particuliers : les modèles log- linéaires p2 et p* ou ERGM (Exponential Random Graph Model).

2.4 Caractéristiques des liens et formations des réseaux

L’historique du développement des modèles statistiques des réseaux peut être résumé par la poursuite de l’objectif suivant : mettre en évidence les déterminants de la formation et l’évolution d’un lien entre deux individus, eux-mêmes imbriqués dans une structure plus globale, faisant intervenir d’autres acteurs et dont les propriétés évoluent avec les liens entre ceux-ci. Chaque individu membre du réseau constitue l’unité d’observation de l’existence ou non des liens avec les autres membres. La formation des liens observés peut relever d’un processus entièrement stochastique ou être en partie influencée par un ensemble de variables exogènes comme les attributs des paires (e.g., les variables « sexe » et « âge » dans les réseaux d’amitié). Les modèles statistiques s’appuient par conséquent sur une formalisation probabiliste de la formation des liens pour caractériser les propriétés structurales3 des réseaux (centralité, densité, ensemble cohésifs…).

La difficulté pour la modélisation est qu’on ne peut faire l’hypothèse que ce lien est observé indépendamment des autres liens4. Du fait de cette dépendance statistique, les modèles doivent rendre compte de l’émergence de la structure du réseau notamment (mais pas seulement) à partir d’effets se produisant à des niveaux différents de l’architecture des liens. La classe des modèles ERGM (Exponential Random Graph Models, voir Robins et al., 1999 ; Wasserman et Patisson, 1996) considère alors que l’ensemble des liens traités sont corrélés entre eux. A partir des liens observés, il s’agit de partir d’une décomposition du réseau en la plus petite sous-composition, la triade, et ses 16 configurations possibles, selon la nomenclature de classes isomorphiques fournies par Holland et Leinhardt (1976) : trois acteurs avec des relations ou non, réciproques ou non. Les modèles ERGM permettent par la suite de simuler à partir des distributions empiriques

62 La littérature sur les modèle statistiques de réseau est vaste et concerne plusieurs disciplines notamment la physique, les mathématiques, la biologie et les sciences sociales (Goldenberg et al., 2009 ; Kolacyzk, 2009, pour une revue de la littérature récente). On se focalise ici sur une classe de modèle élaborée en statistiques de réseaux dont l’utilisation est répandue pour l’analyse des réseaux économiques et sociaux, les modèles de régressions des données relationnelles (Snijders et al., 2007).

Chapitre 5. Analyse en termes de réseaux de coordinations interindividuelles : éléments de méthodologie _________________________________________________________________________________

de ces sous-structures particulières la probabilité d’émergence de la structure globale du réseau en référence à des propriétés structurales de configuration théorique. De cette manière, en passant par l’analyse de configurations élémentaires, l’estimation paramétrique du modèle de configuration locale des liens permet d’observer quels effets structuraux (la réciprocité à un niveau dyadique, la transitivité à un niveau triadique, la densité à un niveau global) renforcent la probabilité d’occurrence du réseau dans son ensemble. Le modèle n’exclut pas bien évidemment les effets de variables exogènes comme les caractéristiques des acteurs - les attributs d’ego et d’alter- et les caractéristiques de la relation en elle-même - fréquence, similitude - . Ce traitement statistique concerne essentiellement les bases de données en coupe (une seule observation à travers une seule enquête). La question de la dynamique du réseau n’est pas traitée directement.

Développées essentiellement pour les études sociologiques, les méthodologies présentées ci-dessous s’affranchissent d’une hypothèse sur la motivation des individus pour établir ou détruire les liens, pour interpréter les résultats observés. Les liens observés sont associés à des processus sociaux génériques (affinité, solidarité, réciprocité, sympathie). L’inscription de cette formalisation de la formation des liens dans une démarche stratégique envisagée du point de vue de chaque ego (l’individu comme unité d’observation des liens) a débouché sur le modèle acteur- orienté, SIENA (Simulation Investigation for Empirical Network Analysis (voir Snijders et al. (2009) pour un aperçu exhaustif récent), que nous présenterons dans une dernière sous-section.

2.4.1. Les modèles p1 et p2