Crit` eres de performance li´ es ` a l’incertitude

1.2 Perception active

1.2.2 Crit` eres de performance li´ es ` a l’incertitude

  n X j=1 ρjUj+ n X l=1 βlCl    (1.3)

Ce critère est composé par la somme pondérée de deux composantes :

– Les termes en j représentent l’espérance des mesures des incertitudes par rapport à l’état réel du système ; ou encore, par rapport à la précision nécessaire pour atteindre le but. Dans le cadre bayésien, l’estimation de l’incertitude est basée sur une distribution de probabilité sur les états atteignables du système ;

– Les termes en l représentent l’espérance des coûts, par exemple, ceux associés aux déplacements du robot : énergie, temps, distances aux obstacles, distance au but. Uj et Cl, sont fonctions de la séquence a1, ..., an. Les pondérations ρj et βl attribuent un poids différent aux deux termes, et sont des paramètres réglés arbitrairement par le concepteur.

Dans la suite nous présentons quelques critères de performance liés à l’incertitude gén´ erale-ment utilisés dans la littérature de la perception active. Ces critères de performance peuvent être séparés selon la prise en compte dans les décisions du court ou long terme. Nous rappe-lons que, en ce qui concerne notre application de détection et reconnaissance de cibles, nous souhaitons mettre en place des décisions séquentielles à long terme, parce que la perception n’est pas seulement une fin en soi, mais aussi un moyen, indispensable au bon accomplisse-ment de la mission tout en tenant compte des coûts liés aux actions de déplacement ou de changement d’angle de vue.

1.2.2 Crit ères de performance li és à l’incertitude

La décision autonome associée à la perception active se base très fortement sur une mesure de l’incertitude de la croyance courante, souvent définie par une distribution de probabilité sur les états du système dans le cadre bayésien. Dans la perception active pour la reconnaissance d’une scène ou d’un objet, l’utilité d’une observation est déterminée par le gain d’information. Plusieurs travaux utilisent l’entropie de Shannon pour quantifier l’information associée à l’état de croyance [Burgard et al., 1997, Deinzer et al., 2003, Eidenberger et al., 2009, Eidenberger et Scharinger, 2010]. D’autres utilisent la mesure d’information mutuelle entre deux points de vue différents [Deguchi et Ohtsu, 2006, Yu et al., 2009], ou encore, la divergence de Kullback–Leibler [Candido et Hutchinson, 2011]. Ces fonctions sont présentées dans la suite, en nous basant sur l’ouvrage [Cover et Thomas, 2006].

Définition 1.2.1 L’entropie de Shannon d’une variable aléatoire discrète X sur un en-semble X est définie par :

H(X) = −^X

x∈X

p(x) log(p(x)) (1.4)

où p(x) est la fonction de masse de probabilité, c’est-à-dire, la fonction qui donne la probabi-lité d’un résultat élémentaire d’une expérience telle que p(x) = P r(X = x), x ∈ X . Notons que, 0 ≤ H(X) ≤ log(|X |), où |X | représente le nombre total d’éléments de l’ensemble X , et que H(X) est maximale quand X est une distribution équiprobable sur tous les éléments x ∈ X , ce qui représente, dans le cadre bayésien, l’absence totale d’information.

L’entropie jointe de deux variables aléatoires X et Y avec une fonction de masse conjointe p(x, y) peut être établie également : H(X, Y ) = −^X

x∈X

y∈Y

p(x, y) log(p(x, y)).

Définition 1.2.2 L’entropie d’une variable aléatoire Y conditionnée à la variable aléatoire X, H(Y |X) est définie par :

Définition 1.2.3 On considère deux variables aléatoires X et Y avec une fonction de masse jointe p(x, y) et avec des fonctions de masse marginales p(x) et p(y). La mesure d’informa-tion mutuelle I(X, Y ) est l’entropie relative entre la distribud’informa-tion jointe et le produit des distributions marginales : I(X, Y ) = ^X x∈X X y∈Y p(x, y) log ^{p(x, y)} p(x)p(y) ^(1.8)

L’information mutuelle permet de mesurer le gain d’information d’une variable aléatoire par rapport à une autre, et peut être écrite en fonction de l’entropie conditionnelle :

I(X, Y ) = H(X) + H(Y ) − H(X, Y ) (1.9)

= H(X) − H(X|Y ) (1.10)

= H(Y ) − H(Y |X) (1.11)

D ´ecision `a court terme :

Dans [Burgard et al., 1997], la localisation active est présentée avec l’objectif d’estimer la localisation du robot à partir de données extraites de capteurs. Ceci en supposant que durant le procédé de localisation, l’agent dispose d’un accès total ou partiel aux commandes de ses capteurs et de ses actionneurs. L’idée clé de cette approche est que l’efficacité de la localisation est améliorée par les commandes actives de la direction des déplacements du robot et de ses capteurs. Le principe est de contrôler les actionneurs du robot afin de minimiser l’espérance de l’incertitude de la distribution de probabilité b sur les positions possibles, soit l’état de croyance ou l’hypothèse courante. Ce critère est modélisé par l’espérance de l’entropie de Shannon sur l’état de croyance E_a(H(b)), et le coût du déplacement en jeu c(a).

a^∗ = arg min

(Ea(H(b)) + σc(a)), avec σ > 0 (1.12)

1.2. Perception active

La localisation active, présentée dans [Burgard et al., 1997], calcule une distribution de probabilité b sur toutes les localisations possibles dans l’environnement. Donc, pour réduire l’incertitude sur l’estimation de l’état, le robot doit choisir l’action qui peut l’aider à mieux distinguer les différentes positions. Autrement dit, il doit diminuer l’entropie de sa distri-bution de probabilité sur ses positions possibles après chaque action. L’avantage de cette approche est que les coûts de déplacement sont pris en compte, mais, par contre, contrai-rement à ce que nous souhaitons, il n’y a pas de projection à long terme. Le critère de performance ici peut être vu comme un critère local. Le robot choisit l’action qui lui rap-porte immédiatement une mesure plus certaine sur sa position avec un coût minimum.

Le même critère de performance est utilisé dans [Eidenberger et al., 2008] pour la sélection des points de vue ; par contre ce travail ne tient pas compte des coûts associés aux actions. De plus, une fois qu’un point de vue est choisi par l’agent, il est ensuite pénalisé, afin d’éviter que l’agent réalise des prises de vue avec le même jeu de paramètres. Grâce au critère de minimisation local, l’estimation de l’état va être améliorée à chaque instant de décision, par contre l’optimalité vis-à-vis d’un critère global (projection à long terme) ne peut pas être garantie.

Dans [Deguchi et Ohtsu, 2006] le critère est défini en termes de réduction d’incertitude et d’ambigu¨ıté de l’observation. L’objectif est de réduire le nombre d’étapes pour la décision finale de reconnaissance d’un objet parmi d’autres enregistrés dans la base de données. Les autheurs se sonnent comme objectif de réduire le nombre d’étapes pour la reconnaissance, mais il définissent toutefois un critère local de décision, c’est-à-dire à court terme. Le critère cherche à sélectionner à l’étape t le point de vue immédiat de l’étape t + 1 qui maximise le gain d’information entre b_t et b_t+1, qui est quantifié par la mesure d’information mutuelle :

I_a(b_t, b_t+1) = H(b_t) − H(b_t+1) (1.13)

= H(bt) − H(bt|a, o_t), (1.14)

où l’estimation de l’état bt est un vecteur dont chaque composante bⁱ_t = P r(Obj = obji) représente la probabilité à l’instant t que i soit l’objet observé, o_t représente l’image per¸cue après réalisation de l’action a. Ensuite, l’action optimale est évaluée non seulement en termes de gain d’information, mais aussi en termes de coût pour obtenir cette nouvelle image. Les auteurs considèrent le temps dépensé T_a comme coût pour amener la caméra jusqu’à la nouvelle position. L’action choisie à l’instant t sera donc celle qui maximise l’information mutuelle avec un temps minimal :

a^∗ = arg max

I_a(b_t, b_t+1)

T_a ^. ^(1.15)

Une fois de plus nous tenons à remarquer que, contrairement à ce que nous souhaitons, il n’y a pas de projection à long terme. Le critère de performance peut être aussi vu comme un critère local. Grâce au critère de minimisation local, l’estimation de l’état pour la reconnaissance va être améliorée à chaque instant de décision, par contre l’optimalité vis-à-vis d’un critère global avec une projection à long terme ne peut pas être garantie.

[Eidenberger et al., 2009] et [Eidenberger et Scharinger, 2010] modélisent le problème de perception active en tant que Processus Décisionnel Markovien Partiellement Observable (POMDP). La règle de décision optimale est définie par une fonction de valeur (programma-tion dynamique) telle que :

V_t(b_t) = max at r(b_t, a_t) + γ Z p(o_t+1|a_t, b_t)V_t−1(b^ot+1 at )do_t+1 , avec (1.16) r(b_t, a_t) = −ρE_o[H(b^ot+1 at )] + Z c(s, a_t)b_t(s)ds (1.17) 15

où, b_t représente l’état de croyance (distribution de probabilité sur les états s) à l’instant t, bôt+1

at représente l’état de croyance immédiat après exécution de at et observations de ot+1, Eo[H(bôt+1

at )] représente l’espérance de l’entropie sur les observations possibles après la réalisation de l’action a_t, c(s, a_t) le coût associé à l’action a_t et aux états s, ρ une constante qui permet d’équilibrer les deux critères et γ le facteur d’actualisation. Toutefois, le POMDP en question n’est pas résolu pour l’obtention d’une politique. La décision, pour l’obtention de l’action optimale π_t(b_t) = a^∗_t, est calculée en ligne par un choix glouton d’action, tel que :

πt(bt) = arg max

[r(bt, at)] , (1.18)

Dans [Filliat et Meyer, 2000], la contribution consiste en des décisions de moyen terme par rapport à des déplacements et à la construction incrémentale des états à partir d’un modèle POMDP dégradé. Le robot cherche à construire la carte de son environnement à partir du choix d’actions qui lui permettront de découvrir et d’acquérir plus d’information sur son environnement, ou du choix d’actions de déplacement vers des directions pour lesquelles il n’a encore aucune donnée. Malheureusement, dans ce travail aucun critère de décision n’est explicitement formalisé.

D ´ecision `a long terme :

Dans [Deinzer et al., 2003], l’agent doit choisir des points de prise de vue pour faciliter la classification, en évitant des prises de vue ambiguës, ou en excluant certaines hypothèses d’identification. L’agent dispose d’une caméra contrôlable. La modélisation du problème attribue une récompense plus importante au choix du point de vue qui augmente la quantité d’information acquise en diminuant l’incertitude de l’état de croyance b sur les états du système. La mesure de l’incertitude de l’état de croyance est exprimée par l’entropie. A l’instant t, le processus de décision, c’est-à-dire le choix du point de vue (par une politique π), aura pour but la maximisation de l’espérance accumulée et pondérée des récompenses futures. La récompense, ici, ne dépend pas des coûts liés aux mouvements de la caméra, mais seulement de la quantité d’information acquise :

π_t^∗(b) = arg max π E [Rt| b_t= b, π] , avec (1.19) Rt = − ∞ X n=0 γⁿH^π(bt+n+1). (1.20)

L’avantage de ce travail est la projection sur le long terme représentée par l’espérance de la somme pondérée des récompenses futures. Comme exprimé dans les équations 1.19 et 1.20, la récompense à l’instant t se rapporte seulement sur la somme des mesures de l’incertitude futures de l’état de croyance. Ceci est contraire à ce que nous souhaitons faire, où les coût associés aux déplacement de la caméra devront être pris en compte dans le critère, étant donné que notre agent hélicoptère dépense du carburant pour ses déplacements.

Dans [Deutsch et al., 2004], le même genre de critère de performance est utilisé pour déterminer une séquence d’actions optimale affectant des niveaux de zoom de la caméra dans une tâche de suivi d’objet pour un horizon de décision k donné. L’action est sélectionnée afin de minimiser l’espérance de l’entropie de l’estimation d’état conditionnelle aux actions et observations passées. Le modèle utilisé pour l’estimation d’état est un filtre de Kalman étendu. Pour déterminer les actions optimales avant d’obtenir des observations, les auteurs utilisent l’entropie conditionnelle de l’estimation d’état courante par rapport à une séquence d’actions hai^k et observations hoi^k données. En moyennant sur toutes les séquences d’obser-vations hoi^kpossibles, il est possible de retrouver la séquence optimale d’actions (cf. [Deutsch

Dans le document Planification de perception et de mission en environnement incertain : Application à la détection et à la reconnaissance de cibles par un hélicoptère autonome (Page 29-33)