• Aucun résultat trouvé

Crit `eres de performance li ´es `a l’incertitude

Dans le document The DART-Europe E-theses Portal (Page 29-33)

Planification, perception et formalismes de d´ecision

1.2 Perception active

1.2.2 Crit `eres de performance li ´es `a l’incertitude

La d´ecision autonome associ´ee `a la perception active se base tr`es fortement sur une mesure de l’incertitude de la croyance courante, souvent d´efinie par une distribution de probabilit´e sur les ´etats du syst`eme dans le cadre bay´esien. Dans la perception active pour la reconnaissance d’une sc`ene ou d’un objet, l’utilit´e d’une observation est d´etermin´ee par le gain d’information. Plusieurs travaux utilisent l’entropie de Shannon pour quantifier l’information associ´ee `a l’´etat de croyance [Burgard et al., 1997, Deinzer et al., 2003, Eidenberger et al., 2009, Eidenberger et Scharinger, 2010]. D’autres utilisent la mesure d’information mutuelle entre deux points de vue diff´erents [Deguchi et Ohtsu, 2006, Yu et al., 2009], ou encore, la divergence de Kullback–Leibler [Candido et Hutchinson, 2011]. Ces fonctions sont pr´esent´ees dans la suite, en nous basant sur l’ouvrage [Cover et Thomas, 2006].

13

D´efinition 1.2.1 L’entropie de Shannon d’une variable al´eatoire discr`ete X sur un en-sembleX est d´efinie par :

H(X) =−X

x∈X

p(x) log(p(x)) (1.4)

o`up(x) est la fonction de masse de probabilit´e, c’est-`a-dire, la fonction qui donne la probabi-lit´e d’un r´esultat ´el´ementaire d’une exp´erience telle que p(x) =P r(X =x), x∈ X. Notons que, 0 ≤ H(X) ≤log(|X |), o`u |X | repr´esente le nombre total d’´el´ements de l’ensemble X, et que H(X) est maximale quand X est une distribution ´equiprobable sur tous les ´el´ements x∈ X, ce qui repr´esente, dans le cadre bay´esien, l’absence totale d’information.

L’entropie jointe de deux variables al´eatoiresXetY avec une fonction de masse conjointe p(x, y) peut ˆetre ´etablie ´egalement :H(X, Y) =−X

x∈X

X

y∈Y

p(x, y) log(p(x, y)).

D´efinition 1.2.2 L’entropie d’une variable al´eatoire Y conditionn´ee `a la variable al´eatoire X, H(Y|X) est d´efinie par :

H(Y|X) = X

x∈X

p(x)H(Y|X=x) (1.5)

= −X

x∈X

p(x)X

y∈Y

p(y|x) log(p(y|x)) (1.6)

= X

x∈X

X

y∈Y

p(x, y) log(p(y|x)) (1.7)

D´efinition 1.2.3 On consid`ere deux variables al´eatoiresX etY avec une fonction de masse jointep(x, y) et avec des fonctions de masse marginales p(x) et p(y). La mesure d’informa-tion mutuelle I(X, Y) est l’entropie relative entre la distribution jointe et le produit des distributions marginales :

I(X, Y) =X

x∈X

X

y∈Y

p(x, y) log p(x, y)

p(x)p(y) (1.8)

L’information mutuelle permet de mesurer le gain d’information d’une variable al´eatoire par rapport `a une autre, et peut ˆetre ´ecrite en fonction de l’entropie conditionnelle :

I(X, Y) = H(X) +H(Y)−H(X, Y) (1.9)

= H(X)−H(X|Y) (1.10)

= H(Y)−H(Y|X) (1.11)

D ´ecision `a court terme :

Dans [Burgardet al., 1997], la localisation active est pr´esent´ee avec l’objectif d’estimer la localisation du robot `a partir de donn´ees extraites de capteurs. Ceci en supposant que durant le proc´ed´e de localisation, l’agent dispose d’un acc`es total ou partiel aux commandes de ses capteurs et de ses actionneurs. L’id´ee cl´e de cette approche est que l’efficacit´e de la localisation est am´elior´ee par les commandes actives de la direction des d´eplacements du robot et de ses capteurs. Le principe est de contrˆoler les actionneurs du robot afin de minimiser l’esp´erance de l’incertitude de la distribution de probabilit´e b sur les positions possibles, soit l’´etat de croyance ou l’hypoth`ese courante. Ce crit`ere est mod´elis´e par l’esp´erance de l’entropie de Shannon sur l’´etat de croyanceEa(H(b)), et le coˆut du d´eplacement en jeu c(a).

a = arg min

a

(Ea(H(b)) +σc(a)),avecσ >0 (1.12) 14

1.2. Perception active La localisation active, pr´esent´ee dans [Burgardet al., 1997], calcule une distribution de probabilit´e bsur toutes les localisations possibles dans l’environnement. Donc, pour r´eduire l’incertitude sur l’estimation de l’´etat, le robot doit choisir l’action qui peut l’aider `a mieux distinguer les diff´erentes positions. Autrement dit, il doit diminuer l’entropie de sa distri-bution de probabilit´e sur ses positions possibles apr`es chaque action. L’avantage de cette approche est que les coˆuts de d´eplacement sont pris en compte, mais, par contre, contrai-rement `a ce que nous souhaitons, il n’y a pas de projection `a long terme. Le crit`ere de performance ici peut ˆetre vu comme un crit`ere local. Le robot choisit l’action qui lui rap-porteimm´ediatement une mesure plus certaine sur sa position avec un coˆut minimum.

Le mˆeme crit`ere de performance est utilis´e dans [Eidenbergeret al., 2008] pour la s´election des points de vue ; par contre ce travail ne tient pas compte des coˆuts associ´es aux actions.

De plus, une fois qu’un point de vue est choisi par l’agent, il est ensuite p´enalis´e, afin d’´eviter que l’agent r´ealise des prises de vue avec le mˆeme jeu de param`etres. Grˆace au crit`ere de minimisation local, l’estimation de l’´etat va ˆetre am´elior´ee `a chaque instant de d´ecision, par contre l’optimalit´e vis-`a-vis d’un crit`ere global (projection `a long terme) ne peut pas ˆetre garantie.

Dans [Deguchi et Ohtsu, 2006] le crit`ere est d´efini en termes de r´eduction d’incertitude et d’ambigu¨ıt´e de l’observation. L’objectif est de r´eduire le nombre d’´etapes pour la d´ecision finale de reconnaissance d’un objet parmi d’autres enregistr´es dans la base de donn´ees. Les autheurs se sonnent comme objectif de r´eduire le nombre d’´etapes pour la reconnaissance, mais il d´efinissent toutefois un crit`ere local de d´ecision, c’est-`a-dire `a court terme. Le crit`ere cherche `a s´electionner `a l’´etapet le point de vue imm´ediat de l’´etape t+ 1 qui maximise le gain d’information entrebt etbt+1, qui est quantifi´e par la mesure d’information mutuelle :

Ia(bt, bt+1) = H(bt)−H(bt+1) (1.13)

= H(bt)−H(bt|a, ot), (1.14) o`u l’estimation de l’´etat bt est un vecteur dont chaque composante bit = P r(Obj = obji) repr´esente la probabilit´e `a l’instant tqueisoit l’objet observ´e,ot repr´esente l’image per¸cue apr`es r´ealisation de l’actiona. Ensuite, l’action optimale est ´evalu´ee non seulement en termes de gain d’information, mais aussi en termes de coˆut pour obtenir cette nouvelle image. Les auteurs consid`erent le temps d´epens´e Ta comme coˆut pour amener la cam´era jusqu’`a la nouvelle position. L’action choisie `a l’instant t sera donc celle qui maximise l’information mutuelle avec un temps minimal :

a = arg max

a

Ia(bt, bt+1)

Ta . (1.15)

Une fois de plus nous tenons `a remarquer que, contrairement `a ce que nous souhaitons, il n’y a pas de projection `a long terme. Le crit`ere de performance peut ˆetre aussi vu comme un crit`ere local. Grˆace au crit`ere de minimisation local, l’estimation de l’´etat pour la reconnaissance va ˆetre am´elior´ee `a chaque instant de d´ecision, par contre l’optimalit´e vis-`a-vis d’un crit`ere global avec une projection `a long terme ne peut pas ˆetre garantie.

[Eidenberger et al., 2009] et [Eidenberger et Scharinger, 2010] mod´elisent le probl`eme de perception active en tant que Processus D´ecisionnel Markovien Partiellement Observable (POMDP). La r`egle de d´ecision optimale est d´efinie par une fonction de valeur (programma-tion dynamique) telle que :

Vt(bt) = max

at

r(bt, at) +γ Z

p(ot+1|at, bt)Vt−1(boat+1t )dot+1

, avec (1.16) r(bt, at) = −ρEo[H(boat+1t )] +

Z

c(s, at)bt(s)ds (1.17)

15

o`u, bt repr´esente l’´etat de croyance (distribution de probabilit´e sur les ´etats s) `a l’instant t, boat+1t repr´esente l’´etat de croyance imm´ediat apr`es ex´ecution de at et observations de ot+1,Eo[H(boat+1t )] repr´esente l’esp´erance de l’entropie sur les observations possibles apr`es la r´ealisation de l’action at,c(s, at) le coˆut associ´e `a l’action at et aux ´etatss,ρ une constante qui permet d’´equilibrer les deux crit`eres etγ le facteur d’actualisation. Toutefois, le POMDP en question n’est pas r´esolu pour l’obtention d’une politique. La d´ecision, pour l’obtention de l’action optimaleπt(bt) =at, est calcul´ee en ligne par un choix glouton d’action, tel que :

πt(bt) = arg max

at

[r(bt, at)], (1.18)

Dans [Filliat et Meyer, 2000], la contribution consiste en des d´ecisions de moyen terme par rapport `a des d´eplacements et `a la construction incr´ementale des ´etats `a partir d’un mod`ele POMDP d´egrad´e. Le robot cherche `a construire la carte de son environnement `a partir du choix d’actions qui lui permettront de d´ecouvrir et d’acqu´erir plus d’information sur son environnement, ou du choix d’actions de d´eplacement vers des directions pour lesquelles il n’a encore aucune donn´ee. Malheureusement, dans ce travail aucun crit`ere de d´ecision n’est explicitement formalis´e.

D ´ecision `a long terme :

Dans [Deinzer et al., 2003], l’agent doit choisir des points de prise de vue pour faciliter la classification, en ´evitant des prises de vue ambigu¨es, ou en excluant certaines hypoth`eses d’identification. L’agent dispose d’une cam´era contrˆolable. La mod´elisation du probl`eme attribue une r´ecompense plus importante au choix du point de vue qui augmente la quantit´e d’information acquise en diminuant l’incertitude de l’´etat de croyance b sur les ´etats du syst`eme. La mesure de l’incertitude de l’´etat de croyance est exprim´ee par l’entropie. A l’instantt, le processus de d´ecision, c’est-`a-dire le choix du point de vue (par une politique π), aura pour but la maximisation de l’esp´erance accumul´ee et pond´er´ee des r´ecompenses futures. La r´ecompense, ici, ne d´epend pas des coˆuts li´es aux mouvements de la cam´era, mais seulement de la quantit´e d’information acquise :

πt(b) = arg max

π

E[Rt|bt=b, π], avec (1.19) Rt = −

X

n=0

γnHπ(bt+n+1). (1.20)

L’avantage de ce travail est la projection sur le long terme repr´esent´ee par l’esp´erance de la somme pond´er´ee des r´ecompenses futures. Comme exprim´e dans les ´equations 1.19 et 1.20, la r´ecompense `a l’instantt se rapporte seulement sur la somme des mesures de l’incertitude futures de l’´etat de croyance. Ceci est contraire `a ce que nous souhaitons faire, o`u les coˆut associ´es aux d´eplacement de la cam´era devront ˆetre pris en compte dans le crit`ere, ´etant donn´e que notre agent h´elicopt`ere d´epense du carburant pour ses d´eplacements.

Dans [Deutsch et al., 2004], le mˆeme genre de crit`ere de performance est utilis´e pour d´eterminer une s´equence d’actions optimale affectant des niveaux de zoom de la cam´era dans une tˆache de suivi d’objet pour un horizon de d´ecisionkdonn´e. L’action est s´electionn´ee afin de minimiser l’esp´erance de l’entropie de l’estimation d’´etat conditionnelle aux actions et observations pass´ees. Le mod`ele utilis´e pour l’estimation d’´etat est un filtre de Kalman

´etendu. Pour d´eterminer les actions optimales avant d’obtenir des observations, les auteurs utilisent l’entropie conditionnelle de l’estimation d’´etat courante par rapport `a une s´equence d’actionshaik et observationshoik donn´ees. En moyennant sur toutes les s´equences d’obser-vationshoikpossibles, il est possible de retrouver la s´equence optimale d’actions (cf. [Deutsch

16

1.3. D´ecision s´equentielle en environnement PO et al., 2004]), telle que :

haik = arg min

haik

H(bt+k|hoik,haik), o`u (1.21) H(bt+k|hoik,haik) =

Z

p(hoik|haik)H(b+t+k)dhoik, avec (1.22) H(b+t+k) = −

Z

p(bt+k| hoik,haik) log(p(bt+k| hoik,haik))dbt+k (1.23) Le crit`ere pr´esent´e ici s’appuie sur la projection `a long terme, en consid´erant les actions et les observations pass´ees, par contre comme dans [Deinzeret al., 2003], les coˆuts associ´es aux changements de niveaux de zoom ne sont pas pris en compte. On pourrait admettre que ces coˆuts sont n´egligeables en pratique. En revanche, pour notre application, un changement de zoom se traduit par un changement d’altitude de vol, ce qui entraˆıne une d´epense de carburant. Nous ne pouvons pas raisonnablement n´egliger ces coˆuts si l’on veut obtenir un mod`ele r´ealiste.

D’autre travaux mod´elisent leur crit`ere de performance pour des d´ecisions `a long terme : on peut citer [Spaan, 2008, Sridharan et al., 2008] o`u les probl´ematiques sont repr´esent´ees par des mod`eles POMDP factoris´es ou hi´erarchiques. Le crit`ere utilis´e est le crit`ere clas-sique des POMDP. Le crit`ere ainsi que le mod`ele POMDP seront pr´esent´es dans le chapitre 2. Le crit`ere classique des POMDP permet d’´elaborer des strat´egies plus robustes pour le traitement d’images et le suivi des objets d’int´erˆet que d’autres proc´ed´es plus r´eactifs de traitement d’images ou de pistage [Sridharan et al., 2008]. Mais avant de discuter ces tra-vaux plus en d´etail (section 1.4), nous pr´esentons la d´ecision s´equentielle en environnement partiellement observable, car, pour notre application de d´etection et reconnaissance de cibles il est pr´ef´erable d’optimiser des d´ecisions `a long terme. Apr`es chaque action, nous pou-vons/devons observer l’´etat du syst`eme, pour mettre `a jour une croyance courante, afin de choisir la meilleure action pour la suite. De plus, l’observation obtenue n’est pas pr´ecise, puisque elle se rapporte `a la sortie du traitement d’information. Ceci nous place dans un cadre de d´ecision s´equentielle en environnement partiellement observable.

Dans la suite, une revue sur la d´ecision s´equentielle en environnement partiellement observable, ainsi que sur les diff´erents formalismes de d´ecision s´equentielle, sera pr´esent´ee.

Nous cherchons ici `a justifier notre choix du mod`ele POMDP comme formalisme de d´ecision s´equentielle en environnement partiellement observable.

Dans le document The DART-Europe E-theses Portal (Page 29-33)

Outline

Documents relatifs