Un banc d'essai pour la validation des modèles de rationalité sociale

Chapitre V -Le comportement des acteurs sociaux

3.2 Un banc d'essai pour la validation des modèles de rationalité sociale

Nous considérons ici un banc d'essai permettant de tester les propriétés de base de l'acteur stratégique. Chaque acteur doit tendre à augmenter ou stabiliser sa position au sein du système, car comme le précise Friedberg il est intéressé, mais il est également poussé à satisfaire ses partenaires / adversaires dans une certaine mesure, au risque que ceux-ci rompent les relations dans lesquelles ils sont engagés. En d’autres termes le maintien de la coopération est indispensable à celui de la structure du SAC.

Nous considérons alors un SAC minimaliste composé de deux Acteurs et de deux Relations dans lequel les acteurs doivent être capable de développer intérêt individualiste et coopération. Les propriétés du SAC sont différentes suivant la distribution des enjeux de chaque Acteur. Dans cette sous-section, nous mettons en avant les caractéristiques du SAC qui permettent de créer les conditions favorables à l'émergence de la coopération. Le SAC minimaliste permet alors de décrire plusieurs structures de coopération, dont le fameux dilemme du prisonnier, ainsi que d'autres variantes, plus représentatives du monde social en ce qu'elles présentent une asymétrie de gain à l'issu de la coopération.

3.2.1 Version standard du dilemme du prisonnier

Le Dilemme du Prisonnier (DP) est un jeu initialement proposé dans les années 50 par les mathématiciens Merill Flood et Melvin Dresher. Il se présente comme un jeu symétrique à deux joueurs, ici des prisonniers, ayant chacun la possibilité de jouer soit la coopération (C) soit la Défection, ou trahison, (D). Comme montré en table 2, chaque joueur reçoit une rétribution qui dépend du choix de chacun des deux joueurs. Si les deux joueurs coopèrent , ils recevront la récompense pour avoir coopéré (R) ; si les deux jouent la trahison, ils en seront punis (P) ; et si l’un coopère tandis que l’autre trahit, il est le stupide (S) tandis que l’autre recevra la rétribution de sa tentation (T).

Le DP est tel lorsque la tentation est plus profitable que la coopération mutuelle, qui rapporte plus que la punition, qui est plus avantageux que d’être le joueur stupide – T > R > P >

S –, et que de plus la somme des gains pour la coopération mutuelle (C, C) est plus importante que celle pour la trahison/coopération (D, C) – R + R > S + T. Ainsi, le dilemme est que la stratégie individuellement rationnelle (celle qui minimise les pertes) est de jouer la trahison, ce qui conduit les deux joueurs à l’équilibre de Nash (D, D), alors que la meilleure stratégie collective (celle qui maximise le total des gains) est de jouer la coopération mutuelle (C, C), qui conduit à l'optimum de Pareto.

C D

C R, R S, T D T, S P, P

Table 24 - La matrice des rétributions pour le jeu du dilemme du prisonnier.

Le DP classique est d’un intérêt mineur comparé à sa version itérée dans laquelle chaque joueur peut appliquer des choix différents dans les confrontations successives et où les rétributions sont sommées. La version itérée du DP a été largement explorée et exposée ([Hoffman, 2000], [Delahaye, 1992], [Dugatkin, 1997], [Macy & Flache, 2002]) depuis le fameux tournoi proposé par Axelrod [Axelrod, 1992].

3.2.2 Le dilemme du prisonnier social

Considérons à présent un SAC comportant deux acteurs, a1 et a2, et deux relations r1 et r2 tels que :

– a1 contrôle r1, – a2 contrôle r2,

– dans les espaces de choix des relations r1 et r2, - 1 correspond à la Défection, qui consiste à garder pour soi la totalité de la relation que l’on contrôle, et + 1 à la Coopération qui consiste à donner à l’autre la totalité de cette relation;

– les fonctions d’effet des relations sont à valeur dans [-1, +1] et elles sont à somme nulle, c’est à dire :

– Effet(r1, a1)(D) = 1 = - Effet(r1, a2)(D) – Effet(r1, a1)(C) = - 1 = - Effet(r1, a2)(C) – Effet(r2, a2)(D) = 1 = - Effet(r2, a1)(D) – Effet(r2, a2)(C) = - 1 = - Effet(r2, a1)(C) – a1 place davantage d’enjeux sur r2 que sur r1, – a2 place davantage d’enjeux sur r1 que sur r2.

Ce jeu peut aussi s’interpréter comme la situation de deux personnes qui prennent l’apéritif ensemble, l’une détenant la bouteille du Pastis et l’autre le bocal d’Olives. La satisfaction que a1 et a2 obtiennent respectivement selon qu’ils jouent C (donner) ou D (garder pour soi) peut être représentée sous la forme de la matrice des payements donnée en table 2, où sr2, a1 dénote l’enjeu que l’acteur a1 place sur la relation r2, etc.

La répartition de leurs enjeux par les acteurs transforme ce jeu en un DP dans le cas où les quatre inégalités suivantes sont vérifiées :

T1 > R1 > P1 > S1 ; T2 > R2 > P2 > S2 ; R1 + R2 > T1 + S2 ; R1 + R2 > T2 + S1.

Compte tenu de la normalisation de la somme des enjeux de chacun des acteurs, c’est-à-dire sr1,a1 + sr2,a1 = sr2,a2+ sr1,a2 = 10, ces inégalités sont vérifiées dès que l’on a :

0 ≤ sr1,a1 < 5 < sr2,a1 ≤ 10 et 0 ≤ sr2,a2 < 5 < sr1,a2≤ 10,

c’est à dire dès que chaque acteur place davantage d’enjeux sur la relation dont il dépend (i.e. la relation qui est contrôlée par l’autre acteur) que sur celle qu’il contrôle : celui qui détient la bouteille de pastis préfère les olives et celui qui détient les olives préfère le pastis ! Pour une répartition symétrique des enjeux entre les deux acteurs telle que sr1,a1 = sr2,a2 = 4 et sr2,a1 = sr1,a2

= 6, on obtient la matrice de la table 3, dans laquelle T = sr1,a1 + sr2,a = 10, S = - T = - 10, R = sr2,a1 - sr1,a1 = 2 et P = - R = - 2. D’une façon générale, si le jeu est symétrique les valeurs des enjeux sont toutes liées et chacun des sri, aj détermine la valeur des trois autres enjeux. On peut aussi remarquer que plus l’écart entre sr1,a1 et sr2,a1 est grand, plus l’équilibre de Nash (D, D) est insatisfaisant ; par exemple, pour sr1,a1 = 2 (et donc sr2,a1 = 8) on a R = 6 = - P.

C D

C R1 = sr2,a1 - sr1,a1 T1 = sr1,a1 + sr2,a1

R2 = sr1,a2 - sr2,a2 S1 = - sr1,a2 - sr2,a2 D S1 = -sr1,a1 - sr2,a1 P1 = sr1,a1 - sr2,a1

T2 = sr2,a2+ sr1,a2 P2 = sr2,a2 - sr1,a2

Tableau 25 - Matrice des rétributions, pour les situations extrêmes du DP « sociale »,

C D

C 2, 2 10, -10 D -10, 10 -2, -2

Tableau 26 - La matrice de payement pour sr1,a1 = sr2,a2 = 4 et sr2,a1 = sr1,a2 = 6

Comme nous l’avons vu précédemment, les actions d’un acteur consistent à modifier la valeur des termes de l’échange des relations qu’il contrôle - en la déplaçant d’un certain quantum, positif, nul ou négatif, tout en restant à l’intérieur de l’espace de choix -, et non pas à choisir arbitrairement une nouvelle valeur indépendamment de la valeur courante. La valeur de ce quanta caractérise l’intensité de l’action. La version que nous qualifierons de « sociale » du DP permet aux acteurs d’adopter des comportements beaucoup plus nuancés que le tout ou rien, puisque toutes les valeurs intermédiaires de l’espace de choix entre le –1 de la Défection totale et le +1 de la Coopération intégrale leur sont autorisées. Il suffit pour cela de donner aux fonctions d’effet de r1 et r2 la forme plus générale suivante:

Effet(r1, a1)(te) = - te = - Effet(r1, a2)(te), ∀ te ∈ [-1, +1] Effet(r2, a2)(te) = - te = - Effet(r2, a1)(te), ∀ te ∈ [-1, +1] ce qui donne, en notant tei les termes de l’échange de la relation ri :

Satis(a1) = te2 * sr2,a1 – te1 * sr1,a1 et Satis(a2) = te1* sr1,a2 – te2 * sr2,a2

dans la version standard du dilemme du prisonnier.

3.2.3 Situations d'interaction permises par le banc d'essai

Le SAC minimaliste postulant au statut de banc d'essai permet de définir d'autre situation d'interaction que celle de dépendance mutuelle qu'implique le dilemme prisonnier classique et le dilemme du prisonnier étendu. La Figure V.1 caractérise ainsi les différentes situations possibles en fonction de la part d'enjeux que chaque acteur accorde à la relation contrôlée par l'autre. Il est ainsi également possible d'étudier le comportement des acteurs dans leurs transactions quand :

– Un acteur est relativement dépendant et l'autre est indifférent à la situation du jeu : c'est une situation de dépendance / équilibre (assez peu probable dans un SAC).

– Un acteur est relativement dépendant, tandis que l'autre est relativement autonome : situation de dépendance / autonomie.

– Un acteur est relativement autonome et l'autre est indifférent à l'issue du jeu. – Les deux acteurs sont relativement autonomes.

– Les cas de totale autonomie, de totale dépendance et d'indifférence généralisée sont écartés car non seulement ils sont triviaux, mais en plus ils ne correspondent à aucune réalité sociologique.

Figure V.2 - Les différentes situations d'interaction en permises par le SAC minimaliste du banc d'essai.

4 Un modèle de l’acteur « utilitariste » fondé sur la satisfaction

L'objectif est donc ici de proposer un modèle de la rationalité limitée de l'acteur social lui permettant d'adapter son jeu en fonction de celui des autres agents. L'agent adapte son comportement par l'apprentissage, non supervisée et en cours d'expérience27, de règles comportementales dont il affine l'évaluation de leur opportunité en fonction des situations découvertes en cours de simulation. Le critère de révision de cette évaluation porte essentiellement sur la capacité de la règle à conduire l'agent dans une situation améliorant sa satisfaction. L'agent est ainsi motivé par un méta-objectif qui est la maximisation de sa satisfaction. En ce sens c'est bien un modèle de rationalité utilitariste de l'agent que nous 27 On peut classifier les méthodes d'apprentissage en distinguant l'apprentissage supervisé de l'apprentissage guidé

par un tuteur, et l'apprentissage en cours d'expérience (à chaud ou online) de l'apprentissage à la suite d'expérience(s) (à froid ou offline).

proposons. L'agent cherchera donc à maximiser sa capacité d'action afin d'être en mesure d'atteindre ses objectifs.

Dans le document Formalisation Multi-Agents de la Sociologie de l'Action Organisée (Page 97-101)