• Aucun résultat trouvé

analyse et simulation de la r´ egulation

5.3 L’algorithme d’apprentissage

Pour d´ecider de l’action `a entreprendre, nous avions muni les acteurs d’un dispositif d’apprentissage par renforcement. Nous d´ecrivons dans cette section le principe g´en´eral de l’algorithme correspondant et l’influence de ses param`etres. Pour une description et une analyse plus fine de ses propri´et´es, on pourra se r´ef´erer `a [El Gemayel et al., 2011] et [El Gemayel et al., 2009].

Au cours de la simulation, un acteur maintient une base de r`egles qui lui indiquent l’action `a entreprendre en fonction de sa situation courante. Il met `a jour cette base en fonction des diff´erentes situations auxquelles il est confront´e et des cons´equences plus ou moins heureuses des actions qu’il a entreprises. Une r`egle est un triplet (situation, action, force) o`u :

– la situation d’une r`egle est le vecteur des effets re¸cus par l’acteur pour chacune des relations dont il d´epend,

– l’action est le vecteur des modifications des ´etats des relations que l’acteur contrˆole, – la force est l’´evaluation de l’efficacit´e de l’action vis-`a-vis de la satisfaction de l’acteur.

Lorsque l’acteur rencontre une situation qui n’est pas r´ef´erenc´ee dans sa base de r`egles, il cr´ee une nouvelle r`egle dont la situation est la situation courante, les modifications de l’action sont tir´ees al´eatoirement, et la force initialis´ee `a 0. Au d´ebut d’une r´egulation, sa base de r`egles ´etant vide, un acteur va donc cr´eer des r`egles ; il s’agit de la phase d’exploration de l’espace des configurations. Au fur et `a mesure que sa base de r`egles se constitue, l’acteur sera peu `a peu confront´e `a des situations similaires `a celles d´ej`a rencontr´ees ; il peut alors exploiter la connaissance acquise et appliquer l’action d’une ”bonne” r`egle correspondant `a sa situation courante. Il s’agit alors de la phase d’exploitation.

5.3.1 L’ambition et le dilemme exploration/exploitation

Comme dans tout probl`eme d’apprentissage non-supervis´e, se pose le dilemme de l’exploration/-exploitation : comment d´eterminer la longueur de la phase d’exploration, pendant laquelle l’acteur acquiert de la connaissance, et celle de la phase d’exploitation pendant laquelle il utilise la connais-sance acquise pour d´ecider comment agir ? Comment d´eterminer si l’acteur `a ”suffisamment appris”

pour agir avec efficacit´e ?

Une sur-exploration pr´esente le risque d’empˆecher la r´egulation de converger, les acteurs s’entˆetant

`

a rechercher toujours ailleurs une situation optimale, tandis que la sur-exploitation aura pour cons´equence

4. Il sera tr`es int´eressant de v´erifier si ces zones de convergences appartiennent aux ˆılots de mˆeme niveau dans les paysages de satisfaction des acteurs, abord´es dans le chapitre sept.

de converger dans la premi`ere situation correcte venue, et d’ignorer de meilleures alternatives.

Dans notre cas, le taux d’exploration/exploitation de chaque acteur est r´egl´e par l’´ecart entre sa satisfaction et son ambition. Plus la satisfaction est en dessous de son ambition, plus l’acteur va explorer et `a l’inverse, si sa satisfaction est proche ou sup´erieure `a son ambition, il privil´egiera l’exploitation. L’ambition d’un acteur est initialis´ee `a la valeur maximale de sa satisfaction, et elle

´evolue au cours de la r´egulation en fonction des deux premiers param`etres psycho-cognitifs que nous pr´esentons ci-dessous.

5.3.2 Les param`etres psycho-cognitifs d’un acteur

L’utilisation de sa base de r`egles par chaque acteur d´epend de param`etres psycho-cognitifs qui permettent d’individualiser la fa¸con dont chacun d´elib`ere. Les valeurs de ces param`etres sont fix´ees par le mod´elisateur selon les hypoth`eses qu’il veut tester.

La t´enacit´e d’un acteur

La t´enacit´e d’un acteur repr´esente sa tendance `a privil´egier l’exploration ou l’exploitation. La t´enacit´e est un entier compris entre 1 et 9. Un acteur tenace (9) aura tendance `a explorer longtemps et intens´ement (cf l’intensit´e d’une action ci-dessous), tandis qu’un acteur peu tenace (1) aura tendance

`

a exploiter rapidement.

La r´eactivit´e d’un acteur

La r´eactivit´e d’un acteur d´efinit la pr´epond´erance de l’exp´erience dans son apprentissage. C’est un r´eel d´efini sur l’intervalle [0.1,1]. Une grande valeur (1) correspond `a un acteur sans m´emoire qui mettra `a jour son taux d’exploration et son ambition `a partir de sa seule situation courante. Une valeur faible d´enote au contraire d’un acteur qui attachera plus d’importance `a son pass´e, et pour lequel la situation courante n’intervient que peu dans la mise `a jour de son ambition et de son taux d’exploration.

Le discernement d’un acteur

Le discernement d’un acteur rend compte de sa capacit´e `a discriminer les situations qu’il per¸coit.

Il d´etermine un seuil pour la distance euclidienne entre sa situation courante et celles enregistr´ees dans les r`egles de sa base, en dessous duquel deux situations seront consid´er´ees comme suffisamment proches pour qu’une r`egle puisse ˆetre appliqu´ees. A chaque ´etape de la r´egulation, un acteur ´evalue la distance entre sa situation courante et la situation des r`egles de sa base. Si la distance est inf´erieure `a ce seuil, ces r`egles sont consid´er´ees comme applicables, et l’acteur choisit al´eatoirement l’une de celles dont la force est la plus ´elev´ee.

Le discernement est un entier compris entre 1 et 5 ; La valeur 5 correspond `a un acteur perspicace, capable de classer les situations en cinq cat´egories : tr`es mauvaise, mauvaise, neutre, bonne, tr`es bonne.

Un discernement de 1 correspond `a un acteur pour lequel toutes les situations sont ´equivalentes.

La r´epartition de la r´etribution

L’apprentissage par renforcement consiste `a attribuer une r´ecompense aux couples (´etat-action) qui conduisent l’agent dans une ”bonne” situation. Lorsque les cons´equences d’une action ne sont pas imm´ediates, il faut diff´erer cette r´etribution ; c’est dans ce but qu’est introduit le param`etre de r´epartition. Dans un jeu social, o`u les actions se d´eroulent de fa¸con synchrone, la situation d’un acteur d´epend largement des actions des acteurs qui contrˆolent les relations dont il d´epend. Ainsi, quand un acteuraentreprend une action `a l’´etape t, la cons´equence de cette action sera per¸cue `a l’´etape t+ 1.

Si les autres acteurs d´ecident de r´eagir `a cette action, ils le font `a l’´etapet+ 1, etane percevra l’effet de ces r´eactions qu’`a la prochaine ´etape, `at+ 2.

Le param`etre r´epartition d’un acteur indique le pourcentage de r´etribution de la r`egle appliqu´ee

`

a l’´etape t qui sera attribu´e aux ´etapes t+1 et t+2. Ce param`etre permet de d´efinir des acteurs qui

ne prennent en compte que l’impact direct (i.e. r´etribution majoritairement `at+ 1, donc en fonction de l’impact sur eux-mˆemes) de leur action, ou au contraire, des acteurs qui raisonnent en fonction de l’effet de leurs actions sur les acteurs dont ils d´ependent (i.e. r´etribution majoritairement `at+ 2)5. 5.3.3 Les variables de l’algorithme

Le taux d’exploration

Le taux d’exploration d’un acteur d´etermine : – la mise `a jour de son ambition,

– la mise `a jour de la force des r`egles appliqu´ees,

– l’intensit´e de l’action d’une r`egle cr´e´ee lorsqu’aucune n’est applicable.

Il varie en fonction de :

– l’´ecart entre la satisfaction courante de l’acteur et son ambition `a l’´etape pr´ec´edente,.

– la r´eactivit´e de l’acteur.

– la t´enacit´e de l’acteur.

L’´ecart d’un acteur `a l’´etape t est la diff´erence normalis´ee entre sa satisfaction et son ambition :

´

ecartt= ambitiont−1−satisf action ambitiont−1−satisf actionmin

Plus l’´ecart de l’acteur est faible, plus son taux d’exploration est faible : un acteur satisfait de sa situation ne cherchera pas `a explorer. A l’inverse, plus l’´ecart est important, plus l’acteur aura tendance `a explorer afin de r´eduire cet ´ecart.

La r´eactivit´e de l’acteur fixe l’hyst´er´esis de l’´evolution du taux d’exploration `a la variation de son

´ecart : plus l’acteur est r´eactif, plus la variation de son taux d’exploration suivra de pr`es celle de son

´ecart.

Le taux d’exploration d’un acteur varie ´egalement en fonction de l’´ecart, selon un sigmo¨ıde dont les param`etres d´ependent de la t´enacit´e de l’acteur, comme montr´e sur la figure ??: plus un acteur est tenace, plus il a tendance `a explorer.

L’ambition d’un acteur

L’ambition d’un acteur est initialis´ee `a la valeur maximale de sa satisfaction, et sa variation d´epend de la r´eactivit´e et de l’´ecart. Si la satisfaction de l’acteur est inf´erieure `a son ambition, celle-ci diminue proportionnellement `a son ´ecart et son taux d’exploitation. Si la satisfaction de l’acteur est sup´erieure

`

a son ambition, plus l’´ecart est important, plus l’ambition augmente.

La force d’un r`egle

La force d’une r`egle est une note qui ´evalue l’efficacit´e de l’action de la r`egle pour la poursuite de l’objectif de l’acteur. Initialis´ee `a 0, elle est mise `a jour tout au long de l’existence de la r`egle, et tient donc compte du pass´e de l’acteur. Sa mise `a jour d´epend :

– de sa valeur `a l’´etape pr´ec´edente, – du taux d’exploration,

– de la variation de capacit´e qu’a induit l’utilisation de la r`egle, – de la r´epartition.

5.3.4 L’algorithme de d´elib´eration d’un acteur

Les param`etres et variables ´etant explicit´es, nous donnons ci-dessous la fa¸con dont chaque acteur agit, au cours de la r´egulation :

5. Ces effets sont bien entendus bruit´es par les actions des acteurs dont ne d´epend pasa, qui affectent les acteurs dont il d´epend.

Figure5.1 – Variation du taux d’exploration d’un acteur, en fonction de son ´ecart et de la valeur de sa t´enacit´e

Algorithm 2 Algorithme de d´elib´eration d’un acteur au cours d’une r´egulation. Tir´e de [El Gemayel et al., 2011]

1: Il per¸coit sa satisfaction, calcule son ´ecart et met `a jour son ambition.

2: Il met `a jour son taux d’exploration en fonction de son ´ecart, de sa t´enacit´e, et de sa r´eactivit´e.

3: Il met `a jour l’intensit´e des actions en fonction de son taux d’exploration.

4: Il met `a jour la force de la derni`ere et de l’avant-derni`ere r`egles appliqu´ees en fonction du taux d’exploration, de la variation de sa capacit´e et de la r´epartition. Les r`egles de force n´egative sont oubli´ees.

5: Il s´electionne les r`egles applicables, celles dont la composante situation est proche de sa situation courante en fonction de son discernement.

6: Si l’ensemble des r`egles applicables est vide (notamment au d´ebut de la simulation), il cr´ee une nouvelle r`egle, avec une force initialis´ee `a 0, la situation est la situation courante et l’action est choisie au hasard dans l’intervalle [−intensit´e ; +intensit´e].

7: Il choisit la r`egle nouvellement cr´e´ee ou, parmi celles applicables, l’une dont la force est la plus grande. Lorsque que tous les acteurs ont choisi une r`egle, leurs actions sont appliqu´ees.

Cet algorithme, tout en respectant l’hypoth`ese de rationalit´e limit´ee, produit des r´esultats proches des optima de Pareto, et pr´esente la propri´et´e de converger rapidement lorsque la structure du jeu valorise la coop´eration, et de ne pas converger lorsque les jeux sont `a somme nulle. Cette propri´et´e est particuli`erement utile, car elle permet de mettre un mod`ele d’organisation `a l’´epreuve de la r´egulation, et de d´eterminer si une organisation con¸cue a priori pour favoriser la coop´eration, la valorise effec-tivement.

D’autre part, cet algorithme ne n´ecessite, pour chaque acteur, que tr`es peu d’information : les acteurs fixent eux-mˆemes leurs objectifs (leur ambition), sans connaˆıtre la structure de l’organisation, ni mˆeme leurs fonctions d’effets.

Il nous faut nuancer ce point : l’ambition d’un acteur est initialis´ee avec le maximum de sa sat-isfaction, ce qui suppose qu’il est capable d’´evaluer ce `a quoi il peut pr´etendre (sa capacit´e d’action maximale)6. La pr´esence de solidarit´es suppose aussi que l’acteur est capable d’´evaluer la capacit´e d’action courante des acteurs dont il est solidaire.

Documents relatifs