L’algorithme d’apprentissage - analyse et simulation de la r´ egulation

analyse et simulation de la r´ egulation

5.3 L’algorithme d’apprentissage

Pour décider de l’action à entreprendre, nous avions muni les acteurs d’un dispositif d’apprentissage par renforcement. Nous décrivons dans cette section le principe général de l’algorithme correspondant et l’influence de ses paramètres. Pour une description et une analyse plus fine de ses propriétés, on pourra se référer à [El Gemayel et al., 2011] et [El Gemayel et al., 2009].

Au cours de la simulation, un acteur maintient une base de règles qui lui indiquent l’action à entreprendre en fonction de sa situation courante. Il met à jour cette base en fonction des différentes situations auxquelles il est confronté et des conséquences plus ou moins heureuses des actions qu’il a entreprises. Une règle est un triplet (situation, action, force) où :

– la situation d’une r`egle est le vecteur des effets re¸cus par l’acteur pour chacune des relations dont il d´epend,

– l’action est le vecteur des modifications des états des relations que l’acteur contrôle, – la force est l’évaluation de l’efficacité de l’action vis-à-vis de la satisfaction de l’acteur.

Lorsque l’acteur rencontre une situation qui n’est pas référencée dans sa base de règles, il crée une nouvelle règle dont la situation est la situation courante, les modifications de l’action sont tirées aléatoirement, et la force initialisée à 0. Au début d’une régulation, sa base de règles étant vide, un acteur va donc créer des règles ; il s’agit de la phase d’exploration de l’espace des configurations. Au fur et à mesure que sa base de règles se constitue, l’acteur sera peu à peu confronté à des situations similaires à celles déjà rencontrées ; il peut alors exploiter la connaissance acquise et appliquer l’action d’une ”bonne” règle correspondant à sa situation courante. Il s’agit alors de la phase d’exploitation.

5.3.1 L’ambition et le dilemme exploration/exploitation

Comme dans tout problème d’apprentissage non-supervisé, se pose le dilemme de l’exploration/-exploitation : comment déterminer la longueur de la phase d’exploration, pendant laquelle l’acteur acquiert de la connaissance, et celle de la phase d’exploitation pendant laquelle il utilise la connais-sance acquise pour décider comment agir ? Comment déterminer si l’acteur à ”suffisamment appris”

pour agir avec efficacit´e ?

Une sur-exploration présente le risque d’empêcher la régulation de converger, les acteurs s’entêtant

a rechercher toujours ailleurs une situation optimale, tandis que la sur-exploitation aura pour cons´equence

4. Il sera très intéressant de vérifier si ces zones de convergences appartiennent aux ˆılots de même niveau dans les paysages de satisfaction des acteurs, abordés dans le chapitre sept.

de converger dans la premi`ere situation correcte venue, et d’ignorer de meilleures alternatives.

Dans notre cas, le taux d’exploration/exploitation de chaque acteur est réglé par l’écart entre sa satisfaction et son ambition. Plus la satisfaction est en dessous de son ambition, plus l’acteur va explorer et à l’inverse, si sa satisfaction est proche ou supérieure à son ambition, il privilégiera l’exploitation. L’ambition d’un acteur est initialisée à la valeur maximale de sa satisfaction, et elle

évolue au cours de la régulation en fonction des deux premiers paramètres psycho-cognitifs que nous présentons ci-dessous.

5.3.2 Les param`etres psycho-cognitifs d’un acteur

L’utilisation de sa base de règles par chaque acteur dépend de paramètres psycho-cognitifs qui permettent d’individualiser la fa¸con dont chacun délibère. Les valeurs de ces paramètres sont fixées par le modélisateur selon les hypothèses qu’il veut tester.

La t´enacit´e d’un acteur

La ténacité d’un acteur représente sa tendance à privilégier l’exploration ou l’exploitation. La ténacité est un entier compris entre 1 et 9. Un acteur tenace (9) aura tendance à explorer longtemps et intensément (cf l’intensité d’une action ci-dessous), tandis qu’un acteur peu tenace (1) aura tendance

a exploiter rapidement.

La r´eactivit´e d’un acteur

La réactivité d’un acteur définit la prépondérance de l’expérience dans son apprentissage. C’est un réel défini sur l’intervalle [0.1,1]. Une grande valeur (1) correspond à un acteur sans mémoire qui mettra à jour son taux d’exploration et son ambition à partir de sa seule situation courante. Une valeur faible dénote au contraire d’un acteur qui attachera plus d’importance à son passé, et pour lequel la situation courante n’intervient que peu dans la mise à jour de son ambition et de son taux d’exploration.

Le discernement d’un acteur

Le discernement d’un acteur rend compte de sa capacit´e `a discriminer les situations qu’il per¸coit.

Il détermine un seuil pour la distance euclidienne entre sa situation courante et celles enregistrées dans les règles de sa base, en dessous duquel deux situations seront considérées comme suffisamment proches pour qu’une règle puisse être appliquées. A chaque étape de la régulation, un acteur évalue la distance entre sa situation courante et la situation des règles de sa base. Si la distance est inférieure à ce seuil, ces règles sont considérées comme applicables, et l’acteur choisit aléatoirement l’une de celles dont la force est la plus élevée.

Le discernement est un entier compris entre 1 et 5 ; La valeur 5 correspond à un acteur perspicace, capable de classer les situations en cinq catégories : très mauvaise, mauvaise, neutre, bonne, très bonne.

Un discernement de 1 correspond `a un acteur pour lequel toutes les situations sont ´equivalentes.

La r´epartition de la r´etribution

L’apprentissage par renforcement consiste à attribuer une récompense aux couples (état-action) qui conduisent l’agent dans une ”bonne” situation. Lorsque les conséquences d’une action ne sont pas immédiates, il faut différer cette rétribution ; c’est dans ce but qu’est introduit le paramètre de répartition. Dans un jeu social, où les actions se déroulent de fa¸con synchrone, la situation d’un acteur dépend largement des actions des acteurs qui contrôlent les relations dont il dépend. Ainsi, quand un acteuraentreprend une action à l’étape t, la conséquence de cette action sera per¸cue à l’étape t+ 1.

Si les autres acteurs décident de réagir à cette action, ils le font à l’étapet+ 1, etane percevra l’effet de ces réactions qu’à la prochaine étape, àt+ 2.

Le paramètre répartition d’un acteur indique le pourcentage de rétribution de la règle appliquée

a l’étape t qui sera attribué aux étapes t+1 et t+2. Ce paramètre permet de définir des acteurs qui

ne prennent en compte que l’impact direct (i.e. rétribution majoritairement àt+ 1, donc en fonction de l’impact sur eux-mêmes) de leur action, ou au contraire, des acteurs qui raisonnent en fonction de l’effet de leurs actions sur les acteurs dont ils dépendent (i.e. rétribution majoritairement àt+ 2)⁵. 5.3.3 Les variables de l’algorithme

Le taux d’exploration

Le taux d’exploration d’un acteur d´etermine : – la mise `a jour de son ambition,

– la mise à jour de la force des règles appliquées,

– l’intensité de l’action d’une règle créée lorsqu’aucune n’est applicable.

Il varie en fonction de :

– l’écart entre la satisfaction courante de l’acteur et son ambition à l’étape précédente,.

– la r´eactivit´e de l’acteur.

– la t´enacit´e de l’acteur.

L’écart d’un acteur à l’étape t est la différence normalisée entre sa satisfaction et son ambition :

ecart_t= ambition_t−1−satisf action ambition_t−1−satisf action_min

Plus l’écart de l’acteur est faible, plus son taux d’exploration est faible : un acteur satisfait de sa situation ne cherchera pas à explorer. A l’inverse, plus l’écart est important, plus l’acteur aura tendance à explorer afin de réduire cet écart.

La réactivité de l’acteur fixe l’hystérésis de l’évolution du taux d’exploration à la variation de son

écart : plus l’acteur est réactif, plus la variation de son taux d’exploration suivra de près celle de son

´ecart.

Le taux d’exploration d’un acteur varie également en fonction de l’écart, selon un sigmo¨ıde dont les paramètres dépendent de la ténacité de l’acteur, comme montré sur la figure ??: plus un acteur est tenace, plus il a tendance à explorer.

L’ambition d’un acteur

L’ambition d’un acteur est initialisée à la valeur maximale de sa satisfaction, et sa variation dépend de la réactivité et de l’écart. Si la satisfaction de l’acteur est inférieure à son ambition, celle-ci diminue proportionnellement à son écart et son taux d’exploitation. Si la satisfaction de l’acteur est supérieure

a son ambition, plus l’´ecart est important, plus l’ambition augmente.

La force d’un r`egle

La force d’une règle est une note qui évalue l’efficacité de l’action de la règle pour la poursuite de l’objectif de l’acteur. Initialisée à 0, elle est mise à jour tout au long de l’existence de la règle, et tient donc compte du passé de l’acteur. Sa mise à jour dépend :

– de sa valeur à l’étape précédente, – du taux d’exploration,

– de la variation de capacité qu’a induit l’utilisation de la règle, – de la répartition.

5.3.4 L’algorithme de d´elib´eration d’un acteur

Les paramètres et variables étant explicités, nous donnons ci-dessous la fa¸con dont chaque acteur agit, au cours de la régulation :

5. Ces effets sont bien entendus bruités par les actions des acteurs dont ne dépend pasa, qui affectent les acteurs dont il dépend.

Figure5.1 – Variation du taux d’exploration d’un acteur, en fonction de son écart et de la valeur de sa ténacité

Algorithm 2 Algorithme de délibération d’un acteur au cours d’une régulation. Tiré de [El Gemayel et al., 2011]

1: Il per¸coit sa satisfaction, calcule son ´ecart et met `a jour son ambition.

2: Il met à jour son taux d’exploration en fonction de son écart, de sa ténacité, et de sa réactivité.

3: Il met `a jour l’intensit´e des actions en fonction de son taux d’exploration.

4: Il met à jour la force de la dernière et de l’avant-dernière règles appliquées en fonction du taux d’exploration, de la variation de sa capacité et de la répartition. Les règles de force négative sont oubliées.

5: Il s´electionne les r`egles applicables, celles dont la composante situation est proche de sa situation courante en fonction de son discernement.

6: Si l’ensemble des règles applicables est vide (notamment au début de la simulation), il crée une nouvelle règle, avec une force initialisée à 0, la situation est la situation courante et l’action est choisie au hasard dans l’intervalle [−intensité ; +intensité].

7: Il choisit la règle nouvellement créée ou, parmi celles applicables, l’une dont la force est la plus grande. Lorsque que tous les acteurs ont choisi une règle, leurs actions sont appliquées.

Cet algorithme, tout en respectant l’hypothèse de rationalité limitée, produit des résultats proches des optima de Pareto, et présente la propriété de converger rapidement lorsque la structure du jeu valorise la coopération, et de ne pas converger lorsque les jeux sont à somme nulle. Cette propriété est particulièrement utile, car elle permet de mettre un modèle d’organisation à l’épreuve de la régulation, et de déterminer si une organisation con¸cue a priori pour favoriser la coopération, la valorise effec-tivement.

D’autre part, cet algorithme ne nécessite, pour chaque acteur, que très peu d’information : les acteurs fixent eux-mêmes leurs objectifs (leur ambition), sans connaˆıtre la structure de l’organisation, ni même leurs fonctions d’effets.

Il nous faut nuancer ce point : l’ambition d’un acteur est initialisée avec le maximum de sa sat-isfaction, ce qui suppose qu’il est capable d’évaluer ce à quoi il peut prétendre (sa capacité d’action maximale)⁶. La présence de solidarités suppose aussi que l’acteur est capable d’évaluer la capacité d’action courante des acteurs dont il est solidaire.

Dans le document Modélisation et analyse des organisations sociales : propriétés structurelles, régulation des comportements et évolution (Page 105-109)