• Aucun résultat trouvé

Modèle du Radical Interactionism (RI)

4.2 Évolution de la formalisation du Radical Interactionism

Dénition 5. Groupe alternatif : le groupe alternatif Ai d'une interaction i est l'ensemble des

interactions alternatives de i.

Le groupe alternatif peut se formaliser par :

Ai={jk}/∀k, i = jk,{∃t ∈ N/(i = it)∧ (jk= et)} (4.1)

Par dénition, le groupe alternatif d'une interaction est appris et complété par l'agent à chaque fois que l'énaction de cette interaction échoue. Notons que le succès d'une interaction i implique l'échec de ses interactions alternatives, puisque celles-ci n'ont pas été énactées à la place de i. Il est également possible que deux interactions soient mutuellement alternatives. Dans ce cas, on parlera d'interactions opposées :

Dénition 6. Interactions opposées : deux interactions i1et i2sont dites opposées si et seulement

si i1∈ Ai2 et i2 ∈ Ai2.

Cette modélisation basée sur les interactions présente trois diérences principales par rapport aux modèles Markoviens traditionnels :

- le système se base sur un ensemble d'interactions primitives plutôt que sur des actions et des interactions séparées. En eet, conformément aux théories de Piaget, la séparation entre l'agent et l'environnement, et entre l'action et la perception n'est pas dénie a priori, mais apprise au travers de l'énaction des interactions.

- le cycle de décision commence par l'interaction intention plutôt qu'avec la perception de l'environnement. Ainsi, la perception est une conséquence de l'action, et non une perception de l'état du monde avant l'action de l'agent [103]. L'agent "perçoit" son environnement de façon active, en l'expérimentant par le biais de ses interactions.

- la motivation interactionnelle de l'agent se base sur la valeur de satisfaction des interactions, que l'agent expérimente lorsqu'il énacte une interaction, et non sur les états de l'environnement. Elle se distingue ainsi de la notion de récompense intrinsèque (e.g. [115]), issue de l'apprentissage par renforcement. Le mécanisme de sélection ne dépend ainsi que des interactions possibles avec l'environnement, et non de l'environnement.

4.2 Évolution de la formalisation du Radical Interactionism

La formalisation du modèle RI s'est ranée tout au long de ma thèse. Je présente ici les principales étapes qui ont conduit de nos premières formalisations (Georgeon et al. [47]) jusqu'au modèle RI tel que formalisé précédemment.

4.2.1 Agnostic Agent Decision Process (AADP)

Cette formalisation s'inspire des Partially Observable Markov Decision Process (POMDP) [7] [68], et considère les actions et les perceptions séparément. Cependant, les caractéristiques du modèle RI sont déjà présentes : l'agent sélectionne, au début d'un cycle de décision, un couple

Chapitre 4. Modèle du Radical Interactionism (RI)

(action, perception), bien que seule l'action se répercute dans l'environnement. La perception est utilisée pour construire le couple (action, perception) réellement observé. La valeur de satisfaction est déterminée par l'action eectuée et par la perception qui en résulte. On peut cependant noter que dans ce modèle, l'agent ne débute pas avec un ensemble d'interactions, mais avec un ensemble d'actions. Lorsque l'agent eectue une action, la perception qui en résulte lui permet d'apprendre une interaction. L'utilisation des interactions remplace peu à peu l'utilisation des actions, quand les schemes appris par l'agent lui permettent d'organiser des comportements lui permettant de satisfaire sa motivation interactionnelle. Cette formalisation est illustrée par la Figure 4.2.

         









 











        

 



 









Figure 4.2  Formalisation du Agnostic Agent Decision Process (AADP). Au début d'un cycle

de décision t, l'agent sélectionne une interaction primitive intention it = (ut, yt), avec u et y

respectivement l'action et la perception qui composent i. Si l'agent ne connaît pas d'interactions,

il peut sélectionner une action ut seule pour apprendre les perceptions qui peuvent en résulter.

L'interaction énactée est et = (ut, y

t) où ut est l'action réalisée, issue de l'action intention it=

(ut, yt), et y

tla perception eectivement observée. Le cycle de décision est un succès si it=et, et

un échec sinon. À la n du cycle, l'agent reçoit la valeur de satisfaction associée à l'interaction énactée (ut, yt).

Pour mettre en évidence les interactions, nous avons modélisé une interface an d'isoler le mécanisme de décision de l'agent, basé sur des interactions, du système actionneurs/capteurs de l'agent, qui utilise des actions et des perceptions (Figure 4.3). Cette interface permet la séparation de l'action constituant l'interaction intention et reconstitue l'interaction énactée avec la perception qui en résulte. L'interface constitue ainsi le "corps" de l'agent (réel ou simulé), qui agit et perçoit l'environnement, indépendamment du système de décision. Cette formalisation a l'avantage de reéter une implémentation complète du AADP dans un système "réel" en associant de manière séparée le mécanisme de décision et le système physique servant d'interface

avec l'environnement. La valeur de satisfaction est désormais portée par l'interaction énactée et.

4.2.2 Enactive Markov Decision Process

Le corps de l'agent peut être considéré comme une partie du système agent-environnement. Il est donc possible d'intégrer l'interface du AADP dans l'environnement. La formalisation obtenue

4.2. Évolution de la formalisation du Radical Interactionism         







        

 



 









 









Figure 4.3  Seconde formalisation du AADP. Une interface connecte le système décisionnel de l'agent, basé sur les interactions, et le système "physique" (le corps de l'agent situé dans l'environnement), constitué d'actionneurs et de capteurs. Au début du cycle de décision t, l'agent

sélectionne une interaction intention it = (ut, yt). L'interface transmet l'action ut constituant

it pour commander les actionneurs. Elle construit, à la n du cycle de décision, l'interaction

énactée et = (ut, y

t) en tenant compte de l'observation y

t. Notons la disparition de la valeur de

satisfaction, celle-ci étant portée par et.

(Figure 4.4) fait disparaître toute référence aux actions et aux perceptions de la formalisation. Le modèle ainsi déni a été appelé Interactional Motivation Decision Process (IMDP), en raison de sa motivation interactionnelle, puis Enactive Markov Decision Process (EMDP) [48].

        







        

 



 









Figure 4.4  Formalisation du Enactive Markov Decision Process (EMDP).

Cependant, comme le modèle ainsi formalisé ne se base pas sur les états de l 'environnement, il n'est plus pertinent de mentionner le modèle MDP pour décrire l'environnement. Le système de décision de l'agent est en eet indépendant de l'environnement, puisqu'il n'a pas accès aux états de l'environnement. En marquant cette indépendance vis-à-vis de l'environnement, le modèle

Chapitre 4. Modèle du Radical Interactionism (RI)

respecte le principe d'agnosticisme environnemental. L'agent interagit avec l'environnement de façon transparente par le biais des interactions énactées. La formalisation ainsi épurée du EMDP dénit le modèle du Radical Interactionism tel que décrit précédemment (Figure 4.1).

Le modèle Radical Interactionism a été testé avec succès dans des environnements orant des régularités séquentielles (cf. chapitre 1). Cependant, dans un environnement ouvert orant des régularités spatiales, un agent doté d'un système de décision basé sur le modèle RI ne parvient pas à organiser ecacement ses comportements en tenant compte de ces régularités. Il ne peut pas, par exemple, se rendre compte que deux séquences d'interactions diérentes, comme tourner trois fois à gauche de 90, et tourner une fois à droite de 90, peuvent conduire au même état spatial du système agent-environnement. Il ne peut également pas suivre dans l'espace un élément qui échappe à son système sensoriel [42]. Ces limitations nous ont emmené à proposer des variations du modèle RI.