• Aucun résultat trouvé

3.4 Bilan

4.1.4 Comparaison entre les approches par ajout d’action et de r´ esolution

´

Etant donn´e que le crit`ere mixte que nous avons propos´e a ´et´e impl´ement´e en modifiant l’algorithme PBVI, nous d´esirons comparer les strat´egies obtenues sur la base de cet algo-rithme. Cette comparaison repose sur, d’une part, la strat´egie obtenue `a partir du crit`ere mixte pour diff´erentes valeurs de la pond´eration λ et la strat´egie obtenue pour le mod`ele modifi´e qui int`egre des actions de type report, d’autre part. Du fait des sp´ecificit´es et des

diff´erences importantes entre les deux approches, le recours `a l’algorithme de r´esolution PBVI uniquement permet de mener une comparaison objective des politiques obtenues. Pour les deux approches nous avons fix´e la taille l’ensemble d’´etats de croyance `a 5000.

D’autre part, comme cela a d´ej`a ´et´e d´emontr´e dans la section 4.1.3, la performance de l’algorithme PBVI est relativement pauvre compar´ee `a celle des autres algorithmes. Afin de contourner cette limitation, nous avons moyenn´e nous r´esultats sur l’ensemble des trajectoires pour lesquelles la politique a rapport´e un ´etat dans le temps de mission imparti, fix´e `a 15 ´etapes de d´ecision.

Pour le crit`ere mixte, le moment de prise de d´ecision finale, c’est-`a-dire l’instant auquel le rapport de l’´etat cach´e du syst`eme est effectu´e, revient au concepteur du syst`eme robo-tique lorsque celui-ci met en œuvre la polirobo-tique. Nous savons que ce choix est arbitraire, nous rappelons ici, que le choix de la valeur de Rr et Cr est ´egalement arbitraire. Ainsi, nous comparons par ailleurs diff´erents seuils de prise de d´ecision finale. Cette d´ecision finale s’appuie sur l’´etat de croyance de l’agent. Nous supposons qu’une fois que l’´etat de croyance de l’agent `a atteint certain niveau (c’est-`a-dire, que la probabilit´e b(s) a d´epass´e une va-leur pr´e-d´efinie) l’agent d´ecidera de rapporter l’´etat s concern´e et recevra en cons´equence une r´ecompense qui sera soit associ´ee `a une bonne, soit `a une mauvaise d´ecision, stoppant ainsi l’application la politique. La r´ecompense attribu´ee est la mˆeme qui a ´et´e fix´ee pour le mod`ele de la sous-section 4.1.3 (ajout d’actions). On obtient ainsi une moyenne de la somme pond´er´ee de r´ecompenses qui peut ˆetre compar´ee `a celle du mod`ele par ajout d’actions. Il est `

a noter que nous avons ainsi une comparaison qui nous semble juste entre deux mani`eres re-lativement arbitraires de mod´eliser le comportement de l’agent, qui est obtenu par r´esolution d’un mod`ele classique (ajout d’action) ou modifi´e (crit`ere mixte) de POMDP.

´

El ´ements de comparaison

Pour comparer les approches, nous avons ´evalu´e quatre crit`eres de performance :

1. le pourcentage de classifications bonnes, c’est-`a-dire le nombre relatif de fois que l’agent a correctement class´e l’´etat cach´e du syst`eme ;

2. le pourcentage de mauvaises classifications, c’est-`a-dire le le nombre relatif de fois que l’agent a class´e l’´etat cach´e du syst`eme de mani`ere incorrecte ;

3. l’´evolution de la moyenne de l’entropie de l’´etat de croyance et l’esp´erance de la somme pond´er´ee des entropies, afin de v´erifier la vitesse de convergence de la croyance de l’agent ;

4. l’´evolution de la moyenne des r´ecompenses et l’esp´erance de la somme pond´er´ee ce celle-ci, afin de v´erifier le coˆut engendr´e globalement par la politique ;

Le r´esultats moyens ont ´et´e calcul´es pour 1000 simulations de la politique `a partir d’un ´etat de croyance initial qui correspond `a une distribution de probabilit´e uniforme sur les 64 ´etats possibles. Cette croyance uniforme est indicative de la connaissance subjective de l’agent au d´ebut de mission. Autrement dit, elle permet de mod´eliser le fait que l’agent ne connait pas l’´etat initial, et qu’il n’a aucune pr´ef´erence a priori. Nous avons simul´e le syst`eme `a partir d’une distribution initial uniforme pour rester dans un domaine connu de comparaison. Nous tenons `a remarquer qu’en situation r´eelle il n’y a aucune raison pour que l’´etat de croyance initial r´epartit corresponde `a l’´etat initiaux (ou `a la fr´equence d’occurrence des ´etats initiaux) de l’agent et son environnement : au contraire l’´etat r´eel en exp´erimentation robotique est souvent un seul. De plus, pour cette comparaison nous avons choisi trois valeurs du facteur de pond´eration λ, λ = {0.5, 0.7, 0.9}, et trois seuils de prise de d´ecision finale, b(s) > 0.7, b(s) > 0.8, b(s) > 0.9.

4.1. POMDP et mission d’exploration

R ´esultats

Tout d’abord nous pr´esentons dans la figure 4.12 les pourcentages de bonne et de mauvaise classifications. Les diff´erentes colonnes sont associ´ees aux seuils utilis´es pour la classification pendant la simulation de la politique obtenue pour le crit`ere mixte et au mot clef classique qui se r´ef`ere au mod`ele modifi´e pas ajouts d’actions qui optimise le crit`ere classique des POMDP. 0 20 40 60 80 100 120 b(s)>0.7 b(s)>0.8 b(s)>0.9 classique pourcentage mode de classification bonne classification mauvaise classification

(a) Pourcentage de bonne et de mauvaise classification pour λ = 0.5. 0 20 40 60 80 100 120 b(s)>0.7 b(s)>0.8 b(s)>0.9 classique pourcentage mode de classification bonne classification mauvaise classification (b) Pourcentage de bonne et de mauvaise classification pour λ = 0.7. 0 20 40 60 80 100 120 b(s)>0.7 b(s)>0.8 b(s)>0.9 classique pourcentage mode de classification bonne classification mauvaise classification (c) Pourcentage de bonne et de mauvaise classification pour λ = 0.9.

Figure 4.12 – Pourcentage de bonnes et de mauvaises classifications selon la valeur de λ. Ces r´esultats montrent que selon le seuil sp´ecifi´e par l’utilisateur les deux approches – crit`ere mixte et ajout d’actions – peuvent ˆetre consid´er´ees comme ´equivalentes, en particu-lier pour un seuil b(s) > 0.8. De plus, pour le seuil b(s) > 0.9, le pourcentage de bonnes classifications est l´eg`erement sup´erieur `a celui obtenu `a partir du crit`ere classique relatif au mod`ele modifi´e. Il est `a relever que ce r´esultat n’est pas nouveau. Il est connu de la com-munaut´e scientifique qui travaille dans le domaine de la perception active. Le recours `a un crit`ere mixte, comme celui d´efini par [Mihaylova et al., 2002] (montr´e dans l’´equation 1.3 du chapitre 1), permet en effet d’obtenir ce genre de performances. Toutefois, notre analyse comparative entre les deux approches est nouvelle `a notre connaissance et n’a fait l’objet de publications.

Il est aussi `a noter que le pourcentage de bonnes classifications est toujours sup´erieur au seuil d’arrˆet choisit. De plus ces r´esultats permettent de confirmer que la mod´elisation sous forme de POMDP classique (ajout d’actions) rend compl`etement implicite de “r´eglage” du seuil de d´ecision au travers du choix du rapport entre Rr et Cr. Pour un utilisateur il est plus naturel de fixer un taux de bonnes/mauvaises classifications que l’on souhaite, que de d´efinir le rapport de r´ecompense (Rr et Cr).

Ainsi, nous pensons que cette comparaison est un outil tr`es constructif : l’analyse du comportement d’une politique obtenue par moyen d’un crit`ere mixte avec un seuil de d´ecision nous aide `a d´efinir le bon rapport entre Rr et Cr afin de respecter un niveau de bonnes classifications. Nous avons fix´e cette r´ecompense `a 50 et le coˆut associ´e `a une mauvaise classification `a 100. Nous pensons que plus la r´ecompense sera petite plus l’agent autonome sera exigent sur son niveau de croyance pour la prise de d´ecision finale de classification. De cette fa¸con, nous pensons que ces approches en plus d’ˆetre consid´er´ees comme ´equivalentes peuvent ˆetre consid´er´ees comme compl´ementaires au regard d’un expert.

La figure 4.13 regroupe les r´esultats concernant l’´evolution de la moyenne de l’entropie de l’´etat de croyance et des r´ecompenses. Cette comparaison est encore plus d´elicate `a r´ealiser que la pr´ec´edente, ´etant donn´e que dans l’approche par ajout d’actions, les coˆuts et les r´ecompenses donn´e `a l’agent sont pris en compte directement dans le calcul de la politique, et dans le cas du crit`ere mixte les r´ecompenses associ´ees `a la classification ne sont pas prises en compte lors de l’optimisation. Les r´ecompenses artificielles concernant les bonnes et les mauvaises classifications ont ´et´e ajout´ees lors de la simulation de la politique.

-6 -5 -4 -3 -2 -1 0 1 0 2 4 6 8 10 12 14

Evolution de la moyenne de l’entropie

t

classique b(s)>0.7 b(s)>0.8 b(s)>0.9

(a) Moyenne de l’entropie de l’´etat de croyance `a chaque instant t pour λ = 0.5.

-8 -6 -4 -2 0 2 4 6 8 10 0 2 4 6 8 10 12 14

Evolution de la moyenne de recompenses

t

classique b(s)>0.7 b(s)>0.8 b(s)>0.9

(b) Moyenne de r´ecompenses `a chaque instant t pour λ = 0.5. -6 -5 -4 -3 -2 -1 0 1 0 2 4 6 8 10 12 14

Evolution de la moyenne de l’entropie

t

classique b(s)>0.7 b(s)>0.8 b(s)>0.9

(c) Moyenne de l’entropie de l’´etat de croyance `a chaque instant t pour λ = 0.7.

-8 -6 -4 -2 0 2 4 6 8 0 2 4 6 8 10 12 14

Evolution de la moyenne de recompenses

t

classique b(s)>0.7 b(s)>0.8 b(s)>0.9

(d) Moyenne de r´ecompenses `a chaque instant t pour λ = 0.7. -6 -5 -4 -3 -2 -1 0 1 0 2 4 6 8 10 12 14

Evolution de la moyenne de l’entropie

t

classique b(s)>0.7 b(s)>0.8 b(s)>0.9

(e) Moyenne de l’entropie de l’´etat de croyance `a chaque instant t pour λ = 0.9.

-8 -6 -4 -2 0 2 4 6 8 0 2 4 6 8 10 12 14

Evolution de la moyenne de recompenses

t

classique b(s)>0.7 b(s)>0.8 b(s)>0.9

(f) Moyenne de r´ecompenses `a chaque instant t pour λ = 0.9.

Figure 4.13 – ´Evolution moyenne de l’entropie de l’´etat de croyance et de r´ecompenses selon la valeur de λ.

L’´evolution de la moyenne de l’entropie de l’´etat de croyance suit quasiment les mˆemes variations quelque soit la valeur de la pond´eration λ. Ceci n’est pas surprenant ´etant donn´e que pour des valeurs de λ sup´erieures `a 0.5 (figure 4.7(a)), la vitesse de convergence de l’entropie reste la mˆeme. Ceci tend `a d´emontrer une fois de plus que les deux approches – crit`ere mixte et ajout d’actions – sont ´equivalentes.

La diff´erence entre ces deux approches est illustr´ee sur les courbes qui repr´esentent la moyenne des r´ecompenses `a chaque instant t (figures 4.14(b), 4.14(d) et 4.14(f)). Sur ces figures nous pouvons observer que l’instant de prise de d´ecision finale change selon le seuil fix´e (pic des fonctions). Plus l’on est exigeant vis-`a-vis de la probabilit´e b(s) associ´ee `a l’´etat

4.1. POMDP et mission d’exploration -22 -20 -18 -16 -14 -12 -10 -8 -6 0 2 4 6 8 10 12 14

Esperance de la somme ponderee d’entropies

t

classique b(s)>0.7 b(s)>0.8 b(s)>0.9

(a) Esp´erance de la somme pond´er´ee d’entropies de l’´etat de croyance pour chaque instant t pour λ = 0.5. -20 -15 -10 -5 0 5 10 0 2 4 6 8 10 12 14

Esperance de la somme ponderee de recompenses

t

classique b(s)>0.7 b(s)>0.8 b(s)>0.9

(b) Esp´erance de la somme pond´er´ee de r´ecompenses pour chaque instant t pour λ = 0.5.

-22 -20 -18 -16 -14 -12 -10 -8 -6 0 2 4 6 8 10 12 14

Esperance de la somme ponderee d’entropies

t

classique b(s)>0.7 b(s)>0.8 b(s)>0.9

(c) Esp´erance de la somme pond´er´ee d’entropies de l’´etat de croyance pour chaque instant t pour λ = 0.7. -20 -18 -16 -14 -12 -10 -8 -6 -4 -2 0 2 0 2 4 6 8 10 12 14

Esperance de la somme ponderee de recompenses

t

classique b(s)>0.7 b(s)>0.8 b(s)>0.9

(d) Esp´erance de la somme pond´er´ee de r´ecompenses pour chaque instant t pour λ = 0.7.

-22 -20 -18 -16 -14 -12 -10 -8 -6 0 2 4 6 8 10 12 14

Esperance de la somme ponderee d’entropies

t

classique b(s)>0.7 b(s)>0.8 b(s)>0.9

(e) Esp´erance de la somme pond´er´ee d’entropies de l’´etat de croyance pour chaque instant t pour λ = 0.9. -22 -20 -18 -16 -14 -12 -10 -8 -6 -4 -2 0 0 2 4 6 8 10 12 14

Esperance de la somme ponderee de recompenses

t

classique b(s)>0.7 b(s)>0.8 b(s)>0.9

(f) Esp´erance de la somme pond´er´ee de r´ecompenses pour chaque instant t pour λ = 0.9.

Figure 4.14 – Esp´erance de la somme pond´er´ee d’entropies et de r´ecompenses selon la valeur de λ.

cach´e, plus tard l’agent d´eclenchera sa d´ecision finale.

Sur la figure 4.14, est trac´ee l’esp´erance de la somme pond´er´ee des entropies et des r´ecompenses pour les diff´erentes valeurs de la pond´eration λ (selon ´equations 4.41 et 4.42). L’esp´erance de la somme pond´er´ee des r´ecompenses atteint une valeur sup´erieure pour le crit`ere mixte pour les valeurs de λ = 0.5 et λ = 0.7 avec le seuil de d´ecision sup´erieur `a 0.7. Ceci peut ˆetre expliqu´e par le fait que les coˆuts associ´es aux d´eplacements de l’agent p`esent plus lors du calcul de la politique. Ainsi, l’agent cherchera de l’information de mani`ere moins

coˆuteuse que dans le cas o`u λ = 0.9 par exemple.

Bilan partiel de la mission d’exploration

Nous pouvons aussi conclure que l’utilisation d’un crit`ere mixte, non-lin´eaire, peut trouver une utilit´e dans la r´ealisation de missions exploratoires ou dans le traitement de probl`emes de diagnostic. Dans le cas de ces missions, le but de l’agent est de r´eduire l’incertitude de son ´etat de croyance. L’utilisation d’un crit`ere non-lin´eaire que l’on optimise `a partir des algorithmes issus de l’´etat-de-l’art de POMDP est possible, mais l’utilisateur de la m´ethode devra, soit utiliser des approximations lin´eaires du premier ordre bas´ees sur un grand nombre d’´etat de croyance afin d’estimer au mieux le gradient de la fonction de valeur, soit mettre en place un algorithme de r´esolution d´edi´e, pour lequel la fonction de valeur ne serait plus param´etr´ee par des α-vecteurs.

Nous pensons qu’un algorithme capable d’approcher une fonction de valeur non lin´eaire serait une bonne alternative, ´etant donn´e ce qui a ´et´e d´emontr´e tout au long de cette par-tie : l’op´erateur de Bellman est une application contractante dans l’espace des fonctions de valeur. [Araya-L´opez et al., 2010] d´emontre qu’un algorithme capable d’approcher une telle fonction en utilisant un ensemble d’´etats de croyance, pourrait permettre de d´eterminer une politique -optimale, o`u l’erreur d’approximation  peut ˆetre born´e par (Rmax−Rmin+Cδα

B)δB

1−γ ,

avec Rmax et Rmin les valeurs extrˆemes des r´ecompenses, CδBα la borne sup´erieure de l’er-reur de l’approximation lin´eaire des α-vecteurs et δB la densit´e de couverture (points) de l’espace de croyance [Pineau et al., 2003]. Nous avons vu que dˆu `a la difficult´e de l’utili-sation d’une approximation lin´eaire du premier ordre, la valeur peut osciller pour certains ´etats de croyance pour un  ´eventuellement petit. De plus, le nombre d’´etats de croyance n´ecessaire pour approcher correctement la fonction de valeur peut s’av´erer tr`es grand : nous avons calcul´e des politiques pour des tailles d’ensemble ´egales `a : 1000, 2000 et 5000. Nous avons observ´e que plus le nombre d’´etats de croyance est ´elev´e, plus l’´evolution moyenne de l’entropie tend vers une valeur proche de z´ero (plus de points d’approximation). A moyen de calcul ´egaux par ailleurs notre algorithme n’a pas ´et´e capable de calculer une politique pour un ensemble d’´etats de croyance sup´erieur `a 5000.

De plus, nous avons approfondi la r´eflexion sur la mod´elisation de la mission d’exploration de mani`ere `a ce que le crit`ere optimis´e soit le crit`ere classique du POMDP. Notre r´eflexion nous a amen´e `a ´etudier un mod`ele pour lequel on ajoute des buts fictifs au moyen d’actions dites report s pour chaque ´etat s du syst`eme. Autrement dit l’agent d´ecideur sera r´ecompens´e si et seulement si, il r´ealise l’action report s quand l’´etat s est l’´etat v´eritable du syst`eme. Il est `a noter que l’optimisation de ces actions (buts) ne d´epend plus de mani`ere directe d’une mesure de l’incertitude de l’´etat de croyance puisque la r´ecompense associ´ee peut ˆetre mod´elis´ee pour les paires ´etat-action. La politique appliquant ces actions r´eduira de mani`ere implicite l’incertitude de l’´etat de croyance. L’ajout d’actions (buts) peut paraˆıtre un facteur limitant de l’approche, mais le retour vers une mod´elisation classique nous permet d’utiliser des algorithmes efficaces bas´es sur la recherche heuristique, qui focalisent l’optimisation vers les actions les plus prometteuses. Ceci permet d’´eviter une ´evaluation exhaustive de toutes les actions du mod`ele. De plus, grˆace `a la comparaison des deux approches on peut proposer une structure des r´ecompenses et des coˆuts du mod`ele POMDP classique tel que la politique obtenue corresponde `a un taux de bonne classification comparable `a celui obtenue `a partir du crit`ere mixte.

Ainsi, le crit`ere mixte permet d’impl´ementer et d’optimiser une strat´egie ρPOMDP qui respecte un taux de bonnes et mauvaises classifications d´efini comme le seuil de d´ecision d’ex´ecution d’une action report s, ´etant donn´e une pond´eration λ fix´ee dans le crit`ere mixte. Il est `a noter que la d´etermination de la pond´eration λ reste arbitraire. D’autre part le rapport