• Aucun résultat trouvé

Travaux connexes

Dans le document The DART-Europe E-theses Portal (Page 133-137)

Prise en compte de contraintes de faisabilit´e d’actions dans le cadre POMDP

5.2.1 Travaux connexes

Des travaux r´ecents dans le domaine de la planification non-d´eterministe sous observabi-lit´e partielle ont propos´e de traiter de mani`ere explicite des relations de faisabilit´e, dans le contexte de programmation sous contraintes [Praletet al., 2010b]. Ces relations repr´esentent la faisabilit´e ´etat-action par des contraintes, c’est-`a-dire toutes les combinaisons implicites de paires ´etat-action o`u l’action est consid´er´ee r´ealisable. Cette approche est limit´ee `a des domaines non-d´eterministes et non-probabilistes, et donc ne s’applique pas `a des mod`ele

probabilistes comme les POMDP. De plus, l’algorithme propos´e ne suppose pas un ensemble d’observation structur´e en observations standard et de faisabilit´e, de cette fa¸con il ne tire pas profit de cette structure sp´ecifique pour acc´el´erer le calcul.

En robotique, des chercheurs ont ´etudi´e une classe particuli`ere de POMDP, app´el´ee Mixed Observability MDP - MOMDP (pr´esent´e dans le chapitre 2), dans laquelle un sous-ensemble de variables d’´etat est consid´er´e comme compl`etement observable [Ong et al., 2009, L´opez et al., 2010]. Le mod`ele MOMDP divise l’espace d’´etatsSet l’espace d’observation Ω en deux parties, l’une observable, et l’autre partiellement observable : (x, y) sp´ecifie l’espace d’´etat complet,xla variable observable ety celle partiellement observable, avec|S|=|X | × |Y|, o`u X repr´esente l’espace avec toutes les valeurs possibles de la variable x (resp. Y pour y), et

|Ω|=|Ox| × |Oy|, avecX=Ox. Cette approche propose d’explorer cette structure sp´ecifique des observations et des ´etats de fa¸con `a r´eduire la dimension de l’espace de l’´etat de croyance (sous-espaceY), ce qui conduit `a des gains significatifs au niveau du temps de calcul de la politique.

Cependant, dans notre approche, la s´emantique des variables d’observation est compl` ete-ment diff´erente : nous supposons Ω = O ×Θ, avec Θ⊆2A repr´esentant les sous-ensembles d’actions r´ealisables d’un ensemble d’actions A. De plus, notre approche ne suppose pas d’associer une observation par ´etat observable (mapping 1→1) tel queX=Ox. La fonction d’observation de l’ensemble Θ est une fonction surjective, c’est `a dire, qu’une observation θ∈Θ peut ˆetre la mˆeme pour diff´erents ´etats, par exemple, un ensemble d’actions r´ealisables dans un certain ´etat s1 peut ˆetre aussi l’ensemble d’actions r´ealisables d’un certain ´etat s2. Pour illustrer cette diff´erence fondamentale, nous montrons sur la figure 5.2 la diff´erence s´emantique entre les deux mod`eles. Ainsi, nous pouvons affirmer que le mod`ele AC-POMDP se situe entre le mod`ele POMDP et le mod`ele MOMDP. D’ailleurs nous pensons que ces deux mod`eles peuvent ˆetre coupl´es afin d’explorer les structures sp´ecifiques de chaque probl`eme ; nous discuterons de cette piste de recherche dans les perspectives de cette th`ese.

s1

s2

s3

θ1

θ2

(a) AC-POMDP

x1

x2

x3

ox1

ox2

ox3

(b) MOMDP

Figure 5.2 – Diff´erence entre les fonctions d’observation des mod`eles AC-POMDP et MOMDP.

D’autre part, dans notre approche, nous cherchons `a maximiser le crit`ere d’optimisa-tion seulement sur l’ensemble d’acd’optimisa-tions applicables Θ (voir la secd’optimisa-tion 5.3.2), contrairement au MOMDP qui maximisent sur toutes les actions du mod`ele. Le mod`ele et les ´equations des MOMDP et des AC-POMDP sont totalement diff´erents. Toutefois, les deux approches exploitent la structure sp´ecifique de l’espace d’observation pour acc´el´erer les calculs.

Dans la suite, nous pr´esentons des d´efinitions qui nous seront utiles.

5.2. Pr´eliminaires 5.2.2 Contrainte de faisabilit ´e d’une action

Une pr´econdition est une formule `a valeur bool´eenne qui est vraie (sˆurement) si et seule-ment si une action est applicable dans un ´etat donn´e. Nous notonsAsl’ensemble des actions r´ealisables dans un ´etat s, tel que As⊆A.

D´efinition 5.2.1 (Relation de faisabilit´e pour une action) Une pr´econdition bas´ee sur un ´etat est d´efinie par une relation de faisabilit´eF qui indique si pour un ´etats, une action aest applicable ou non :F(a, s) =1a∈As, o`u1cond est la fonction indicatrice telle que :1cond vaut1 sicondest vrai, ou 0 sinon.F(a, s) peut aussi ˆetre vue comme la probabilit´e1ou 0de l’applicabilit´e d’une actiona sachant l’´etat s, c’est-`a-dire, F(a, s) =P r(at=a∈ As|st=s).

Le mod`ele POMDP doit ˆetre ´etendu de mani`ere `a prendre en compte des contraintes de sˆuret´e dans l’optimisation et dans l’ex´ecution de la politique. Comme nous ne connaissons pas `a l’avance l’ensemble des actions r´ealisables qui sera re¸cu par l’agent en tant qu’obser-vationθ∈Θ, nous devons tenir compte detous les ensembles coh´erents d’actions r´ealisables possibles {θ1,· · · , θn}, ind´ependamment de l’´etat de croyance de l’agent, avec dans le pire cas :n= 2|A|−1 combinaisons d’actions diff´erentes, o`u|A|est le nombre total d’actions du mod`ele. La propri´et´e de coh´erence vient du fait que, certains ensembles d’actions pouvant ˆetre g´en´er´es par combinaisons ne seront coh´erents avec aucun As; pour cette raison on ne s’int´eressera donc qu’aux ensembles d’actions coh´erents par rapport aux ´etats. Formellement, nous d´efinissons un sous-ensembleSk⊆S, tel que :

Sk:={∀si, sj ∈S2,Asi =Asj}

Ceci veut dire que le sous-ensembleSkrepr´esente l’ensemble d’´etats qui ont le mˆeme ensemble d’actions r´ealisables. Ainsi, on peut d´efinir un ensemble d’actions θk ∈Θ, tel que :

θk={As|∀s∈Sk},

qui est l’ensemble d’actions applicables coh´erent avec le sous-ensembleSk. Pour notre exemple du robot garde-cˆotes (Fig.5.1(a)), les combinaisons coh´erentes d’actions possibles, qui for-meront Θ, sont : {est},{est, ouest},{est, ouest, sud},{nord}, et{ouest}.

D´efinition 5.2.2 (Relation sur la faisabilit´e d’un ensemble d’actions.) Nous d´ efinis-sons la fonction indicatrice jointe d’un ensemble d’actions θ∈Θtel que θ⊆A pour un ´etat s, qui vaut 1 si et seulement si toutes les actions de l’ensemble θ sont r´ealisables en s:

I(θ, s) =Q

ai∈θF(ai, s)Q

aj∈θ/ (1−F(aj, s)) (5.1) Nous avons directementI(As, s) = 1. De plus, il est int´eressant de remarquer que I(θ, s) = P r(As=θ|s) est la probabilit´e 1 ou 0 que l’ensemble des actions coh´erent avecs, et condi-tionn´e sur l’´etat s, soit ´egal `a l’ensemble des actions r´ealisablesAs.

Par suite, nous formalisons le mod`ele ´etendu POMDP que nous proposons.

5.3 AC-POMDP

Formellement, un AC-POMDP (Action Constrained POMDP) est d´efini par un n-uplet hS,(As)s∈S,Ω, T, O,F,I, R, b00i, o`u :

– S est l’ensemble des ´etats ;

– (As)s∈S est l’ensemble des ensembles d’actions applicables pour chaque ´etat, avecAs l’ensemble d’actions applicables pour un ´etat donn´es;

– Ω =O ×Θ est l’ensemble d’observations, tel que Θ⊆2A; les observations dansO et dans Θ sont ind´ependantes sachant chaque paire ´etat-action ;

– T :S ×A×S →[0,1] est la fonction de transition, telle que : T(s, a, s0) =p(st+1 =s0|st=s, at=a);

– F:A×S → {0,1}est la relation de faisabilit´e d’une action : F(a, s) =

1 sia∈ As 0 autrement

– O:O ×A×S→[0,1] est la fonction d’observation, telle que : O(o, a, s0) =p(ot+1=o|st+1 =s0, at=a);

– I: Θ×S → {0,1}est la relation de faisabilit´e d’un ensemble d’actions : I(θ, s0) =p(θt+1=θ|st+1 =s0) =

1 si θ=As0 0 autrement

– R:S×A→R est la fonction de r´ecompenser(s, a) associ´ee `a la paire ´etat-action ; – b0 est l’´etat de croyance initial ;

– Θ0 est l’ensemble initial d’actions applicables, observ´e lors de l’ex´ecution avant l’ap-plication de la premi`ere action.

Il y a quatre diff´erences par rapport au mod`ele POMDP.

1. la relation de faisabilit´e d’uneaction dans un ´etat est explicitement d´ecrite ; 2. l’ensemble d’observations est un produit cart´esien ;

3. la fonction d’observation est d´efinie pour seulement la partie gauche du produit cart´esien ; 4. il y a une observation initiale qui renseigne sur l’ensemble d’actions r´ealisables, similaire

`

a une approche existante dans le domaine non-d´eterministe [Pralet et al., 2010b], qui est requise pour appliquer la premi`ere action de mani`ere sˆure.

Dans la figure 5.3 nous illustrons l’AC-POMDP comme un processus stochastique contrˆol´e.

L’action at ex´ecut´ee `a l’instant t est forc´ee d’appartenir `a l’ensemble d’actions r´ealisables observ´ees θt. L’observation suivante θt+1 est ´egale `a l’ensemble d’actions r´ealisables Ast+1

applicable sur l’´etat cach´e st+1, qui est le r´esultat stochastique de l’application deatsur st.

st st+1

p(st+1|st, at)

ω t

ot

θt

ω t+1

ot+1

θt+1

p(ot+1

|st+1 ,at

)

a

t

r(st, at)

at∈ θt

θt+1

= As

t+1

Figure 5.3 – Diagramme d’influence dynamique pour un AC-POMDP

5.3. AC-POMDP

Dans le document The DART-Europe E-theses Portal (Page 133-137)

Outline

Documents relatifs