Le problème de la création de variables

6.2.1 Cadre

Nous considérons dans ce chapitre un agent évoluant dans un environnement mal connu

et incertain, comme par exemple un robot mobile autonome. Pour interagir d’une façon

efficace avec cet environnement et pour accomplir ses tâches, le robot doit prendre en

compte l’incomplétude et l’incertitude de sa représentation. Bessière et al. (LBDM03) ont

montré que dans ce contexte, l’utilisation de probabilités subjectives comme représentation

de la connaissance présentait de nombreux intérêts. L’inférence bayésienne est bien adaptée

à cette problématique (DBM05 ; TBF05).

Dans ce cadre, c’est habituellement le roboticien qui définit un modèle probabiliste de

159 l’environnement, des capacités sensorimotrices du robot et de sa tâche. Pour définir ce

modèle, le premier travail du roboticien consiste à choisir des variables de la densité de

probabilité jointe.

Cet ensemble de variables devra d’abord contenir les variables sensorimotrices : une

variable pour chaque capteur utile et une variable pour chaque commande motrice. Les

variables capteurs seront observées et le résultat de l’inférence, c’est-à-dire du raisonnement

du robot, sera una posteriori sur les variables motrices. Le robot utilisera ceta posteriori,

en combinaison avec une fonction de coût, pour prendre des décisions et exécuter certaines

actions, comme par exemple se déplacer à une certaine vitesse dans une certaine direction.

En plus de ces variables sensorimotrices, le roboticien ajoute souvent des variables non

observées permettant de modéliser l’environnement. Un exemple de telles variables peut

être une grille d’occupation de l’espace comme dans le filtre d’occupation bayésien (B.O.F.

(CPL

06; TMC

07)).

Ainsi le roboticien transcrit une partie de ses a priori, de sa propre connaissance du

monde en un ensemble de variables avec leur structure de dépendance. Dans un cadre

d’apprentissage plus général, il serait intéressant que ce soit le robot et non le roboticien,

qui trouve de lui même ces variables cachées avec leur structure. Ce chapitre propose un

premier pas dans cette direction.

Pour cela, nous nous plaçons dans le cadre suivant. Un robot est présent dans un

environnement dynamique et enregistre les valeurs mesurées par ses capteurs {X

}

_t∈[1,T]

à chaque instant t. Nous supposons que ces capteurs mesurent certaines caractéristiques

d’un phénomène Φ ayant lieu dans l’environnement. Supposer l’existence d’un phénomène

φ revient à dire que le monde n’est pas complètement aléatoire et incohérent : il

pré-sente certaines régularités. En d’autres termes, les mesures x

= {x

}

_i∈[1,I]

ne sont pas

indépendantes : elles sont liées par l’existence même de Φ. Nous supposons de plus que,

contrairement à l’exemple de la pièce où Φ était immuable dans le temps (le biais θ ne

changeait pas), désormais le phénomène Φ a sa dynamique propre. Ainsi il y a une relation

entre Φ au temps t et Φ au tempst+ 1. Cette relation implique une dépendance entre X

etX

t+1

.

Nous ajoutons une hypothèse importante : la fréquence de variation de Φ est plus faible

que celle des lectures des capteurs. Ainsi pour chaque état successif de Φ, nous avons

plusieurs relevés de capteurs consécutifs. Nous pensons que cette hypothèse de stabilité

temporelle du phénomène est nécessaire pour que le robot puisse découvrir des régularités

dans les données récoltées. Il pourra alors se construire un modèle pertinent de Φ et de ses

propres capacités sensorimotrices.

6.2.2 Problème étudié

Pour concrétiser notre approche, nous considérons un problème simple de vision

syn-thétique. Notre robot n’est constitué que par deux rétines, gauche et droite (L at R) et

est plongé dans un environnement 2D. La position de chaque rétine est commandée par un

angle (A

et A

). Le phénomène Φ que nous étudions est la position d’un objet ponctuel

dans le champ visuel du robot. L’objet se projette sur les rétines et les coordonnées de

6.2 Le problème de la création de variables 161

(a) Représentation du monde simulé.

(b) Les 4 variables en fonction det, avec une couleur pour chacune des variables.

Fig. ^{6.1 – La figure} ^6.1(a) ^{présente un robot constitué de deux rétines dont les positions}

angulaires sont notées A

et A

. L’image d’un objet mobile se projette orthogonalement

enX

etX

sur les rétines. La figure 6.1(b)montre les données brutes au cours du temps,

pour cinq positions différentes. Tous les 100 pas de temps, la vraie position est modifiée et

nous constatons bien que l’allure des densités des quatre variables change.

ses deux projections sontX

etX

. Les projections sont orthogonales. Nous avons ainsi 4

variables sensorimotrices, lues à chaque instant X

= {A

, A

^t_R

, X

_L^t

, X

_R^t

}. La figure 6.1(a)

représente le robot avec ses variables.

La position de l’objet (x, y)

est inconnue du robot. En fait, le robot ne sait même pas

qu’il existe un objet, il ne connaît pas la sémantique des variables qu’il observe. Comme

nous l’avons précisé, le déplacement de l’objet est lent devant la vitesse d’acquisition des

capteurs. Nous supposons que l’objet peut se trouver dans N positions différentes et qu’il

reste suffisamment longtemps dans chacune de ces positions. Lorsque l’objet est dans l’une

de ces positions, le robot réalise plusieurs lectures de ses variables, pour différents angles

de ses rétines. Par une analogie biologique, nous pouvons dire que le robot effectue des

saccades oculaires, il regarde dans différentes directions et enregistre les images reçues. Les

données brutes sont présentées par la figure6.1(b): à chaque instant t, le robot positionne

aléatoirement ses rétines (A

, A

) et lit les projections correspondantes (X

, X

). Ces

quatre valeurs sont représentées sur la figure6.1(b)par quatre points de couleurs différentes.

Tous les cent pas de temps, l’objet change de position et nous constatons que les données

se présentent différemment. Nous voulons que le robot retrouve la sémantique de la figure

6.1(a) à partir uniquement des données brutes de la figure 6.1(b) et de l’hypothèse de

variation lente.

Pour une position donnée de l’objet, il y aura une relation directe entre A

et X

d’une part et entre A

^t_R

et X

_R^t

d’autre part. Pour une autre position, il y aura toujours

des relations entre ces couples, mais elles seront différentes. L’existence de telles relations

est devinable sur la figure 6.1(b), il y a un changement de régime pour chaque nouvelle

position.

Nous voyons ainsi qu’il existe en réalité une structure de dépendance entre les quatre

va-riables. Sachant la position,A

etX

sont liées et sont indépendantes du couple (A

, X

).

C’est ce genre de dépendance que nous voulons découvrir. Pour cela il faudra que le robot

crée une variable supplémentaire représentant la position de l’objet, car sans elle, les quatre

variables ne présentent pas de structure de dépendance simple. Le but est donc de créer

une variableC

représentant la position de l’objet et conjointement, de découvrir la bonne

structure de dépendance conditionnellement à C

. Les différentes valeurs de C

devront

être à l’image des différentes positions de l’objet, qui ne sont pas connues à l’avance.

Nous présentons maintenant le cadre probabiliste dans lequel cet apprentissage sera

réalisé.

Dans le document Fondations, méthode et applications de l'apprentissage bayésien. (Page 170-173)

6.2.1 Cadre

Nous considérons dans ce chapitre un agent évoluant dans un environnement mal connu

et incertain, comme par exemple un robot mobile autonome. Pour interagir d’une façon

efficace avec cet environnement et pour accomplir ses tâches, le robot doit prendre en

compte l’incomplétude et l’incertitude de sa représentation. Bessière et al. (LBDM03) ont

montré que dans ce contexte, l’utilisation de probabilités subjectives comme représentation

de la connaissance présentait de nombreux intérêts. L’inférence bayésienne est bien adaptée

à cette problématique (DBM05 ; TBF05).

Dans ce cadre, c’est habituellement le roboticien qui définit un modèle probabiliste de

159

l’environnement, des capacités sensorimotrices du robot et de sa tâche. Pour définir ce

modèle, le premier travail du roboticien consiste à choisir des variables de la densité de

probabilité jointe.

Cet ensemble de variables devra d’abord contenir les variables sensorimotrices : une

variable pour chaque capteur utile et une variable pour chaque commande motrice. Les

variables capteurs seront observées et le résultat de l’inférence, c’est-à-dire du raisonnement

du robot, sera una posteriori sur les variables motrices. Le robot utilisera ceta posteriori,

en combinaison avec une fonction de coût, pour prendre des décisions et exécuter certaines

actions, comme par exemple se déplacer à une certaine vitesse dans une certaine direction.

En plus de ces variables sensorimotrices, le roboticien ajoute souvent des variables non

observées permettant de modéliser l’environnement. Un exemple de telles variables peut

être une grille d’occupation de l’espace comme dans le filtre d’occupation bayésien (B.O.F.

(CPL

06; TMC

07)).

Ainsi le roboticien transcrit une partie de ses a priori, de sa propre connaissance du

monde en un ensemble de variables avec leur structure de dépendance. Dans un cadre

d’apprentissage plus général, il serait intéressant que ce soit le robot et non le roboticien,

qui trouve de lui même ces variables cachées avec leur structure. Ce chapitre propose un

premier pas dans cette direction.

Pour cela, nous nous plaçons dans le cadre suivant. Un robot est présent dans un

environnement dynamique et enregistre les valeurs mesurées par ses capteurs {X

}

à chaque instant t. Nous supposons que ces capteurs mesurent certaines caractéristiques

d’un phénomène Φ ayant lieu dans l’environnement. Supposer l’existence d’un phénomène

φ revient à dire que le monde n’est pas complètement aléatoire et incohérent : il

pré-sente certaines régularités. En d’autres termes, les mesures x

= {x

}

ne sont pas

indépendantes : elles sont liées par l’existence même de Φ. Nous supposons de plus que,

contrairement à l’exemple de la pièce où Φ était immuable dans le temps (le biais θ ne

changeait pas), désormais le phénomène Φ a sa dynamique propre. Ainsi il y a une relation

entre Φ au temps t et Φ au tempst+ 1. Cette relation implique une dépendance entre X

etX

.

Nous ajoutons une hypothèse importante : la fréquence de variation de Φ est plus faible

que celle des lectures des capteurs. Ainsi pour chaque état successif de Φ, nous avons

plusieurs relevés de capteurs consécutifs. Nous pensons que cette hypothèse de stabilité

temporelle du phénomène est nécessaire pour que le robot puisse découvrir des régularités

dans les données récoltées. Il pourra alors se construire un modèle pertinent de Φ et de ses

propres capacités sensorimotrices.

6.2.2 Problème étudié

Pour concrétiser notre approche, nous considérons un problème simple de vision

syn-thétique. Notre robot n’est constitué que par deux rétines, gauche et droite (L at R) et

est plongé dans un environnement 2D. La position de chaque rétine est commandée par un

angle (A

et A

). Le phénomène Φ que nous étudions est la position d’un objet ponctuel

dans le champ visuel du robot. L’objet se projette sur les rétines et les coordonnées de

6.2 Le problème de la création de variables 161

(a) Représentation du monde simulé.

(b) Les 4 variables en fonction det, avec une couleur pour chacune des variables.

Fig. 6.1 – La figure 6.1(a) présente un robot constitué de deux rétines dont les positions

angulaires sont notées A

et A

. L’image d’un objet mobile se projette orthogonalement

enX

etX

sur les rétines. La figure 6.1(b)montre les données brutes au cours du temps,

pour cinq positions différentes. Tous les 100 pas de temps, la vraie position est modifiée et

nous constatons bien que l’allure des densités des quatre variables change.

ses deux projections sontX

etX

. Les projections sont orthogonales. Nous avons ainsi 4

variables sensorimotrices, lues à chaque instant X

= {A

, A

, X

Fig. ^{6.1 – La figure} ^6.1(a) ^{présente un robot constitué de deux rétines dont les positions}