6.2.1 Cadre
Nous considérons dans ce chapitre un agent évoluant dans un environnement mal connu
et incertain, comme par exemple un robot mobile autonome. Pour interagir d’une façon
efficace avec cet environnement et pour accomplir ses tâches, le robot doit prendre en
compte l’incomplétude et l’incertitude de sa représentation. Bessière et al. (LBDM03) ont
montré que dans ce contexte, l’utilisation de probabilités subjectives comme représentation
de la connaissance présentait de nombreux intérêts. L’inférence bayésienne est bien adaptée
à cette problématique (DBM05 ; TBF05).
Dans ce cadre, c’est habituellement le roboticien qui définit un modèle probabiliste de
159
l’environnement, des capacités sensorimotrices du robot et de sa tâche. Pour définir ce
modèle, le premier travail du roboticien consiste à choisir des variables de la densité de
probabilité jointe.
Cet ensemble de variables devra d’abord contenir les variables sensorimotrices : une
variable pour chaque capteur utile et une variable pour chaque commande motrice. Les
variables capteurs seront observées et le résultat de l’inférence, c’est-à-dire du raisonnement
du robot, sera una posteriori sur les variables motrices. Le robot utilisera ceta posteriori,
en combinaison avec une fonction de coût, pour prendre des décisions et exécuter certaines
actions, comme par exemple se déplacer à une certaine vitesse dans une certaine direction.
En plus de ces variables sensorimotrices, le roboticien ajoute souvent des variables non
observées permettant de modéliser l’environnement. Un exemple de telles variables peut
être une grille d’occupation de l’espace comme dans le filtre d’occupation bayésien (B.O.F.
(CPL
+06; TMC
+07)).
Ainsi le roboticien transcrit une partie de ses a priori, de sa propre connaissance du
monde en un ensemble de variables avec leur structure de dépendance. Dans un cadre
d’apprentissage plus général, il serait intéressant que ce soit le robot et non le roboticien,
qui trouve de lui même ces variables cachées avec leur structure. Ce chapitre propose un
premier pas dans cette direction.
Pour cela, nous nous plaçons dans le cadre suivant. Un robot est présent dans un
environnement dynamique et enregistre les valeurs mesurées par ses capteurs {X
t}
t∈[1,T]à chaque instant t. Nous supposons que ces capteurs mesurent certaines caractéristiques
d’un phénomène Φ ayant lieu dans l’environnement. Supposer l’existence d’un phénomène
φ revient à dire que le monde n’est pas complètement aléatoire et incohérent : il
pré-sente certaines régularités. En d’autres termes, les mesures x
t= {x
ti
}
i∈[1,I]ne sont pas
indépendantes : elles sont liées par l’existence même de Φ. Nous supposons de plus que,
contrairement à l’exemple de la pièce où Φ était immuable dans le temps (le biais θ ne
changeait pas), désormais le phénomène Φ a sa dynamique propre. Ainsi il y a une relation
entre Φ au temps t et Φ au tempst+ 1. Cette relation implique une dépendance entre X
tetX
t+1.
Nous ajoutons une hypothèse importante : la fréquence de variation de Φ est plus faible
que celle des lectures des capteurs. Ainsi pour chaque état successif de Φ, nous avons
plusieurs relevés de capteurs consécutifs. Nous pensons que cette hypothèse de stabilité
temporelle du phénomène est nécessaire pour que le robot puisse découvrir des régularités
dans les données récoltées. Il pourra alors se construire un modèle pertinent de Φ et de ses
propres capacités sensorimotrices.
6.2.2 Problème étudié
Pour concrétiser notre approche, nous considérons un problème simple de vision
syn-thétique. Notre robot n’est constitué que par deux rétines, gauche et droite (L at R) et
est plongé dans un environnement 2D. La position de chaque rétine est commandée par un
angle (A
Let A
R). Le phénomène Φ que nous étudions est la position d’un objet ponctuel
dans le champ visuel du robot. L’objet se projette sur les rétines et les coordonnées de
6.2 Le problème de la création de variables 161
(a) Représentation du monde simulé.
(b) Les 4 variables en fonction det, avec une couleur pour chacune des variables.
Fig. 6.1 – La figure 6.1(a) présente un robot constitué de deux rétines dont les positions
angulaires sont notées A
Let A
R. L’image d’un objet mobile se projette orthogonalement
enX
LetX
Rsur les rétines. La figure 6.1(b)montre les données brutes au cours du temps,
pour cinq positions différentes. Tous les 100 pas de temps, la vraie position est modifiée et
nous constatons bien que l’allure des densités des quatre variables change.
ses deux projections sontX
LetX
R. Les projections sont orthogonales. Nous avons ainsi 4
variables sensorimotrices, lues à chaque instant X
t= {A
tL
, A
tR, X
Lt, X
Rt}. La figure 6.1(a)
représente le robot avec ses variables.
La position de l’objet (x, y)
test inconnue du robot. En fait, le robot ne sait même pas
qu’il existe un objet, il ne connaît pas la sémantique des variables qu’il observe. Comme
nous l’avons précisé, le déplacement de l’objet est lent devant la vitesse d’acquisition des
capteurs. Nous supposons que l’objet peut se trouver dans N positions différentes et qu’il
reste suffisamment longtemps dans chacune de ces positions. Lorsque l’objet est dans l’une
de ces positions, le robot réalise plusieurs lectures de ses variables, pour différents angles
de ses rétines. Par une analogie biologique, nous pouvons dire que le robot effectue des
saccades oculaires, il regarde dans différentes directions et enregistre les images reçues. Les
données brutes sont présentées par la figure6.1(b): à chaque instant t, le robot positionne
aléatoirement ses rétines (A
tL
, A
tR
) et lit les projections correspondantes (X
tL
, X
tR
). Ces
quatre valeurs sont représentées sur la figure6.1(b)par quatre points de couleurs différentes.
Tous les cent pas de temps, l’objet change de position et nous constatons que les données
se présentent différemment. Nous voulons que le robot retrouve la sémantique de la figure
6.1(a) à partir uniquement des données brutes de la figure 6.1(b) et de l’hypothèse de
variation lente.
Pour une position donnée de l’objet, il y aura une relation directe entre A
tL
et X
tL
d’une part et entre A
tRet X
Rtd’autre part. Pour une autre position, il y aura toujours
des relations entre ces couples, mais elles seront différentes. L’existence de telles relations
est devinable sur la figure 6.1(b), il y a un changement de régime pour chaque nouvelle
position.
Nous voyons ainsi qu’il existe en réalité une structure de dépendance entre les quatre
va-riables. Sachant la position,A
tL
etX
tL
sont liées et sont indépendantes du couple (A
tR
, X
tR
).
C’est ce genre de dépendance que nous voulons découvrir. Pour cela il faudra que le robot
crée une variable supplémentaire représentant la position de l’objet, car sans elle, les quatre
variables ne présentent pas de structure de dépendance simple. Le but est donc de créer
une variableC
treprésentant la position de l’objet et conjointement, de découvrir la bonne
structure de dépendance conditionnellement à C
t. Les différentes valeurs de C
tdevront
être à l’image des différentes positions de l’objet, qui ne sont pas connues à l’avance.
Nous présentons maintenant le cadre probabiliste dans lequel cet apprentissage sera
réalisé.
Dans le document
Fondations, méthode et applications de l'apprentissage bayésien.
(Page 170-173)