Crit ères de performance li és à l’incertitude

Planification, perception et formalismes de d´ecision

1.2 Perception active

1.2.2 Crit ères de performance li és à l’incertitude

La décision autonome associée à la perception active se base très fortement sur une mesure de l’incertitude de la croyance courante, souvent définie par une distribution de probabilité sur les états du système dans le cadre bayésien. Dans la perception active pour la reconnaissance d’une scène ou d’un objet, l’utilité d’une observation est déterminée par le gain d’information. Plusieurs travaux utilisent l’entropie de Shannon pour quantifier l’information associée à l’état de croyance [Burgard et al., 1997, Deinzer et al., 2003, Eidenberger et al., 2009, Eidenberger et Scharinger, 2010]. D’autres utilisent la mesure d’information mutuelle entre deux points de vue différents [Deguchi et Ohtsu, 2006, Yu et al., 2009], ou encore, la divergence de Kullback–Leibler [Candido et Hutchinson, 2011]. Ces fonctions sont présentées dans la suite, en nous basant sur l’ouvrage [Cover et Thomas, 2006].

Définition 1.2.1 L’entropie de Shannon d’une variable aléatoire discrète X sur un en-sembleX est définie par :

H(X) =−X

x∈X

p(x) log(p(x)) (1.4)

oùp(x) est la fonction de masse de probabilité, c’est-à-dire, la fonction qui donne la probabi-lité d’un résultat élémentaire d’une expérience telle que p(x) =P r(X =x), x∈ X. Notons que, 0 ≤ H(X) ≤log(|X |), où |X | représente le nombre total d’éléments de l’ensemble X, et que H(X) est maximale quand X est une distribution équiprobable sur tous les éléments x∈ X, ce qui représente, dans le cadre bayésien, l’absence totale d’information.

L’entropie jointe de deux variables aléatoiresXetY avec une fonction de masse conjointe p(x, y) peut être établie également :H(X, Y) =−X

x∈X

y∈Y

p(x, y) log(p(x, y)).

Définition 1.2.2 L’entropie d’une variable aléatoire Y conditionnée à la variable aléatoire X, H(Y|X) est définie par :

H(Y|X) = X

x∈X

p(x)H(Y|X=x) (1.5)

= −X

x∈X

p(x)X

y∈Y

p(y|x) log(p(y|x)) (1.6)

= X

x∈X

y∈Y

p(x, y) log(p(y|x)) (1.7)

Définition 1.2.3 On considère deux variables aléatoiresX etY avec une fonction de masse jointep(x, y) et avec des fonctions de masse marginales p(x) et p(y). La mesure d’informa-tion mutuelle I(X, Y) est l’entropie relative entre la distribution jointe et le produit des distributions marginales :

I(X, Y) =X

x∈X

y∈Y

p(x, y) log p(x, y)

p(x)p(y) (1.8)

L’information mutuelle permet de mesurer le gain d’information d’une variable aléatoire par rapport à une autre, et peut être écrite en fonction de l’entropie conditionnelle :

I(X, Y) = H(X) +H(Y)−H(X, Y) (1.9)

= H(X)−H(X|Y) (1.10)

= H(Y)−H(Y|X) (1.11)

D ´ecision `a court terme :

Dans [Burgardet al., 1997], la localisation active est présentée avec l’objectif d’estimer la localisation du robot à partir de données extraites de capteurs. Ceci en supposant que durant le procédé de localisation, l’agent dispose d’un accès total ou partiel aux commandes de ses capteurs et de ses actionneurs. L’idée clé de cette approche est que l’efficacité de la localisation est améliorée par les commandes actives de la direction des déplacements du robot et de ses capteurs. Le principe est de contrôler les actionneurs du robot afin de minimiser l’espérance de l’incertitude de la distribution de probabilité b sur les positions possibles, soit l’état de croyance ou l’hypothèse courante. Ce critère est modélisé par l’espérance de l’entropie de Shannon sur l’état de croyanceE_a(H(b)), et le coût du déplacement en jeu c(a).

a^∗ = arg min

(Ea(H(b)) +σc(a)),avecσ >0 (1.12) 14

1.2. Perception active La localisation active, présentée dans [Burgardet al., 1997], calcule une distribution de probabilité bsur toutes les localisations possibles dans l’environnement. Donc, pour réduire l’incertitude sur l’estimation de l’état, le robot doit choisir l’action qui peut l’aider à mieux distinguer les différentes positions. Autrement dit, il doit diminuer l’entropie de sa distri-bution de probabilité sur ses positions possibles après chaque action. L’avantage de cette approche est que les coûts de déplacement sont pris en compte, mais, par contre, contrai-rement à ce que nous souhaitons, il n’y a pas de projection à long terme. Le critère de performance ici peut être vu comme un critère local. Le robot choisit l’action qui lui rap-porteimmédiatement une mesure plus certaine sur sa position avec un coût minimum.

Le même critère de performance est utilisé dans [Eidenbergeret al., 2008] pour la sélection des points de vue ; par contre ce travail ne tient pas compte des coûts associés aux actions.

De plus, une fois qu’un point de vue est choisi par l’agent, il est ensuite pénalisé, afin d’éviter que l’agent réalise des prises de vue avec le même jeu de paramètres. Grâce au critère de minimisation local, l’estimation de l’état va être améliorée à chaque instant de décision, par contre l’optimalité vis-à-vis d’un critère global (projection à long terme) ne peut pas être garantie.

Dans [Deguchi et Ohtsu, 2006] le critère est défini en termes de réduction d’incertitude et d’ambigu¨ıté de l’observation. L’objectif est de réduire le nombre d’étapes pour la décision finale de reconnaissance d’un objet parmi d’autres enregistrés dans la base de données. Les autheurs se sonnent comme objectif de réduire le nombre d’étapes pour la reconnaissance, mais il définissent toutefois un critère local de décision, c’est-à-dire à court terme. Le critère cherche à sélectionner à l’étapet le point de vue immédiat de l’étape t+ 1 qui maximise le gain d’information entreb_t etb_t+1, qui est quantifié par la mesure d’information mutuelle :

I_a(b_t, b_t+1) = H(b_t)−H(b_t+1) (1.13)

= H(bt)−H(bt|a, o_t), (1.14) où l’estimation de l’état bt est un vecteur dont chaque composante bⁱ_t = P r(Obj = obji) représente la probabilité à l’instant tqueisoit l’objet observé,o_t représente l’image per¸cue après réalisation de l’actiona. Ensuite, l’action optimale est évaluée non seulement en termes de gain d’information, mais aussi en termes de coût pour obtenir cette nouvelle image. Les auteurs considèrent le temps dépensé T_a comme coût pour amener la caméra jusqu’à la nouvelle position. L’action choisie à l’instant t sera donc celle qui maximise l’information mutuelle avec un temps minimal :

a^∗ = arg max

I_a(b_t, b_t+1)

T_a . (1.15)

Une fois de plus nous tenons à remarquer que, contrairement à ce que nous souhaitons, il n’y a pas de projection à long terme. Le critère de performance peut être aussi vu comme un critère local. Grâce au critère de minimisation local, l’estimation de l’état pour la reconnaissance va être améliorée à chaque instant de décision, par contre l’optimalité vis-à-vis d’un critère global avec une projection à long terme ne peut pas être garantie.

[Eidenberger et al., 2009] et [Eidenberger et Scharinger, 2010] modélisent le problème de perception active en tant que Processus Décisionnel Markovien Partiellement Observable (POMDP). La règle de décision optimale est définie par une fonction de valeur (programma-tion dynamique) telle que :

V_t(b_t) = max

r(b_t, a_t) +γ Z

p(o_t+1|a_t, b_t)Vt−1(b^o_a^t+1_t )do_t+1

, avec (1.16) r(b_t, a_t) = −ρE_o[H(b^o_a^t+1_t )] +

c(s, a_t)b_t(s)ds (1.17)

où, b_t représente l’état de croyance (distribution de probabilité sur les états s) à l’instant t, bôa^t+1t représente l’état de croyance immédiat après exécution de at et observations de ot+1,Eo[H(bôa^t+1t )] représente l’espérance de l’entropie sur les observations possibles après la réalisation de l’action a_t,c(s, a_t) le coût associé à l’action a_t et aux étatss,ρ une constante qui permet d’équilibrer les deux critères etγ le facteur d’actualisation. Toutefois, le POMDP en question n’est pas résolu pour l’obtention d’une politique. La décision, pour l’obtention de l’action optimaleπ_t(b_t) =a^∗_t, est calculée en ligne par un choix glouton d’action, tel que :

πt(bt) = arg max

[r(bt, at)], (1.18)

Dans [Filliat et Meyer, 2000], la contribution consiste en des décisions de moyen terme par rapport à des déplacements et à la construction incrémentale des états à partir d’un modèle POMDP dégradé. Le robot cherche à construire la carte de son environnement à partir du choix d’actions qui lui permettront de découvrir et d’acquérir plus d’information sur son environnement, ou du choix d’actions de déplacement vers des directions pour lesquelles il n’a encore aucune donnée. Malheureusement, dans ce travail aucun critère de décision n’est explicitement formalisé.

D ´ecision `a long terme :

Dans [Deinzer et al., 2003], l’agent doit choisir des points de prise de vue pour faciliter la classification, en évitant des prises de vue ambiguës, ou en excluant certaines hypothèses d’identification. L’agent dispose d’une caméra contrôlable. La modélisation du problème attribue une récompense plus importante au choix du point de vue qui augmente la quantité d’information acquise en diminuant l’incertitude de l’état de croyance b sur les états du système. La mesure de l’incertitude de l’état de croyance est exprimée par l’entropie. A l’instantt, le processus de décision, c’est-à-dire le choix du point de vue (par une politique π), aura pour but la maximisation de l’espérance accumulée et pondérée des récompenses futures. La récompense, ici, ne dépend pas des coûts liés aux mouvements de la caméra, mais seulement de la quantité d’information acquise :

π_t^∗(b) = arg max

E[Rt|bt=b, π], avec (1.19) Rt = −

∞

n=0

γⁿH^π(bt+n+1). (1.20)

L’avantage de ce travail est la projection sur le long terme représentée par l’espérance de la somme pondérée des récompenses futures. Comme exprimé dans les équations 1.19 et 1.20, la récompense à l’instantt se rapporte seulement sur la somme des mesures de l’incertitude futures de l’état de croyance. Ceci est contraire à ce que nous souhaitons faire, où les coût associés aux déplacement de la caméra devront être pris en compte dans le critère, étant donné que notre agent hélicoptère dépense du carburant pour ses déplacements.

Dans [Deutsch et al., 2004], le même genre de critère de performance est utilisé pour déterminer une séquence d’actions optimale affectant des niveaux de zoom de la caméra dans une tâche de suivi d’objet pour un horizon de décisionkdonné. L’action est sélectionnée afin de minimiser l’espérance de l’entropie de l’estimation d’état conditionnelle aux actions et observations passées. Le modèle utilisé pour l’estimation d’état est un filtre de Kalman

étendu. Pour déterminer les actions optimales avant d’obtenir des observations, les auteurs utilisent l’entropie conditionnelle de l’estimation d’état courante par rapport à une séquence d’actionshai^k et observationshoi^k données. En moyennant sur toutes les séquences d’obser-vationshoi^kpossibles, il est possible de retrouver la séquence optimale d’actions (cf. [Deutsch

1.3. D´ecision s´equentielle en environnement PO et al., 2004]), telle que :

hai^k^∗ = arg min

hai^k

H(b_t+k|hoi^k,hai^k), o`u (1.21) H(bt+k|hoi^k,hai^k) =

p(hoi^k|hai^k)H(b⁺_t+k)dhoi^k, avec (1.22) H(b⁺_t+k) = −

p(b_t+k| hoi^k,hai^k) log(p(b_t+k| hoi^k,hai^k))db_t+k (1.23) Le critère présenté ici s’appuie sur la projection à long terme, en considérant les actions et les observations passées, par contre comme dans [Deinzeret al., 2003], les coûts associés aux changements de niveaux de zoom ne sont pas pris en compte. On pourrait admettre que ces coûts sont négligeables en pratique. En revanche, pour notre application, un changement de zoom se traduit par un changement d’altitude de vol, ce qui entraˆıne une dépense de carburant. Nous ne pouvons pas raisonnablement négliger ces coûts si l’on veut obtenir un modèle réaliste.

D’autre travaux modélisent leur critère de performance pour des décisions à long terme : on peut citer [Spaan, 2008, Sridharan et al., 2008] où les problématiques sont représentées par des modèles POMDP factorisés ou hiérarchiques. Le critère utilisé est le critère clas-sique des POMDP. Le critère ainsi que le modèle POMDP seront présentés dans le chapitre 2. Le critère classique des POMDP permet d’élaborer des stratégies plus robustes pour le traitement d’images et le suivi des objets d’intérêt que d’autres procédés plus réactifs de traitement d’images ou de pistage [Sridharan et al., 2008]. Mais avant de discuter ces tra-vaux plus en détail (section 1.4), nous présentons la décision séquentielle en environnement partiellement observable, car, pour notre application de détection et reconnaissance de cibles il est préférable d’optimiser des décisions à long terme. Après chaque action, nous pou-vons/devons observer l’état du système, pour mettre à jour une croyance courante, afin de choisir la meilleure action pour la suite. De plus, l’observation obtenue n’est pas précise, puisque elle se rapporte à la sortie du traitement d’information. Ceci nous place dans un cadre de décision séquentielle en environnement partiellement observable.

Dans la suite, une revue sur la décision séquentielle en environnement partiellement observable, ainsi que sur les différents formalismes de décision séquentielle, sera présentée.

Nous cherchons ici à justifier notre choix du modèle POMDP comme formalisme de décision séquentielle en environnement partiellement observable.

Dans le document The DART-Europe E-theses Portal (Page 29-33)