L'apprentissage 39 - La représentation contingente : vers une réconciliation des approches fonc

Chapitre 2. PROBLÉMATIQUE 23

D.1. L'apprentissage 39

Dans la quasi totalité des cas les informations sensorielles disponibles sont d'une autre nature que les paramètres à identifier ; ces derniers doivent alors être inférés à partir de celles-là. Dans un modèle polyédrique les positions cartésiennes des sommets ne sont pas directement mesurables, il faut par exemple les inférer à partir d'images de caméra. Ou encore, si on veut connaître la distance d'un obstacle en ne disposant que de capteurs infrarouges (proximètres) ou à ultrasons (sonars), il faut inférer la distance à partir de ces données.

Il reste alors deux méthodes pour aborder cette identification par inférence :

• Les données expérimentales peuvent être toutes considérées en bloc, et l'identification se fait seulement ensuite, “off-line”, sur une grosse masse de données déjà accumulées. Les techniques d'analyse de données se rangent généralement dans ce cadre (Bouroche & Saporta 1980).

• Les données expérimentales sont intégrées itérativement, “on-line”, au fur et à mesure du comportement du robot. Les nouvelles données modifient un peu les paramètres via des calculs locaux. C'est le cas pour la plupart des techniques neuronales, par exemple la backprop sur les perceptrons multicouches (Khanna 1990).

C'est la seconde approche (identification itérative on-line) que nous appellerons “apprentissage”. Les réseaux de neurones constituent l'implémentation la plus populaire des techniques d'apprentissage. Les architectures utilisées peuvent être de plusieurs types (perceptrons multicouches, cartes topographiques, réseaux de prototypes) et les algorithmes qui s'y adaptent aussi (descente de gradient, apprentissage par renforcement, algorithme de Kohonen ; cf Khanna (1990) pour une revue). Cependant, dans notre optique, des techniques moins populaires en IA, telles que le filtre de Kalman ou les méthodes de gradient stochastique, sont aussi des techniques d'apprentissage, même si elles ne sont pas exprimées en termes de réseaux.

Si pour un robot industriel on peut concevoir que l'identification d'un modèle (réglage des paramètres) puisse être traitée hors du fonctionnement normal du robot, pour un robot autonome il est souhaitable que les paramètres puissent évoluer pendant son fonctionnement normal. C'est donc l'apprentissage qui nous intéresse le plus dans cette optique, et nous nous y restreindrons (par choix). L'identification off-line reste néanmoins une voie potentiellement intéressante, qui se déroulerait à une échelle de temps plus grande ; mais nous n'en parlerons pas ici.

L'identification automatique de paramètres par apprentissage présente des avantages certains par rapport à leur détermination analytique par le concepteur. • Avantage technique : la mise en oeuvre d'une technique d'apprentissage pour

résoudre un problème est souvent plus aisée que l'analyse exacte ce problème. Typiquement, pour contrôler en termes de repères cartésiens la pince d'un bras de robot dont la géométrie est connue, il est plus facile d'apprendre empiriquement la correspondance entre coordonnées articulaires et coordonnées cartésiennes que de résoudre les équations géométriques définissant analytiquement ce changement de coordonnées.

• Avantage conceptuel : il semble plus juste et plus fiable d'identifier des paramètres à partir de données réelles, mesurées expérimentalement, plutôt que de leur imposer des valeurs déterminée “par ailleurs” par le concepteur. Nous appellerons cela “l'aspect expérimental” de la notion d'apprentissage.

L'avantage technique est indiscutable, et nous en préciserons quelques raisons plus loin. L'avantage conceptuel que constitue l'aspect expérimental ci dessus, en revanche, ne suffit pas à résoudre le problèmes des conditions de validité, et c'est ce que nous allons montrer maintenant. Il ne faut pas voir cette critique comme une condamnation de la notion d'apprentissage : nous verrons dans la section suivante que cette notion revêt un autre aspect, selon nous plus important que l'aspect expérimental bien que beaucoup moins abordé dans la littérature sur l'apprentissage, à savoir la possibilité de gérer explicitement l'incertitude. Les paragraphes ci-dessous, eux, ne concernent que l'aspect expérimental, leur but étant de montrer que le seul fait d'utiliser des données expérimentales ne suffit pas à résoudre nos problèmes.

D.2. A-t-on résolu le problème des conditions de validité ?

Reprenons l'exemple des modèles polyédriques de la géométrie algorithmique. Être capable de reconstruire une scène polyédrique à partir d'images, par exemple, ne permettra jamais de tenir compte des aspects purement dynamiques de la scène ou des aspects liés à la courbure des objets (comme le fait qu'une balle puisse rouler), car ces aspects ne sont pas liés aux paramètres du modèle, mais à sa structure même, au choix que ce modèle dénote de ne considérer que certains aspects de la situation. Si alors le robot se trouve dans une situation pour laquelle le modèle est inadéquat, le fait que les paramètres du modèle aient été identifiés expérimentalement et non a-priori n'aide en rien à résoudre le problème des conditions de validité.

On pourrait objecter que cela provient de l'utilisation intermédiaire d'un modèle interne de l'environnement (le modèle polyédrique). Cherchons alors à apprendre un comportement du robot (quel qu'il soit) directement en termes de réflexes : les commandes motrices M sont calculées comme une fonction ƒ de l'ensemble des capteurs C du robot, M=ƒ(C). La fonction ƒ peut être approximée par des techniques d'apprentissage, par exemple un algorithme de rétropropagation du gradient sur une architecture de perceptron multicouche (qui constitue un “approximateur universel” de fonction, Hornik & al. 1989).

Pour qu'une telle démarche soit satisfaisante, toutefois, il faut que la relation entre C et M soit effectivement de nature fonctionnelle, c'est-à-dire que pour une valeur de

C fixée corresponde en gros une valeur de M fixée. Si les données ne vérifient pas cela, l'apprentissage ne donnera pas de résultats valables (i.e. prédictifs). Dans un environnement naturel, les phénomènes liés par des relations fonctionnelles sont rares, et une telle hypothèse constitue un acte de modélisation important. Le problème des conditions de validité apparaît dès que l'on veut assurer automatiquement que cette hypothèse de dépendance fonctionnelle restera vérifiée en pratique.

Devant ces difficultés, on raisonne parfois ainsi : il ne faut pas chercher à imposer a-priori les relations pertinentes, mais les laisser “émerger” d'une structure sous-jacente suffisament riche et complexe pour cela. Cet appel à la notion d'émergence nous semble toutefois un leurre, pour les raisons suivantes.

La notion d'émergence existe en gros sous deux formes (voir Bonabeau 1992 pour une revue détaillée) :

• La première est la plus générale : un comportement émergent est un comportement qui peut être observé sans être explicitement présent dans la programmation du robot. L'évitement d'obstacle dans l'histoire du KitBorg est un

exemple de comportement émergent. Chez les animaux, la dérive clinocinétique12

est un comportement émergent (Bovet & Benhamou 1985).

• La seconde est liée à la dynamique des systèmes complexes et à l'opposition entre phénomènes microscopiques et macroscopiques (Dumouchel & Dupuy 1981). Nous l'appellerons plutôt “auto-organisation” ; c'est pour nous un cas particulier d'émergence (“structures” émergentes, cas particulier de “comportements” émergents). Par exemple, l'établissement de chemins stables chez les fourmis (Deneubourg & Goss 1990) ou la réorganisation périodique de certaines ruches (Hogeweg & Hesper 1985) sont des comportements émergents par auto-organisation.

On retrouve ici la notion de niveaux de description, mais présentée “à l'envers” : un niveau donné n'est plus décrit en soi, a-priori, mais par référence aux mécanismes qui ont permis de le faire émerger. Une fois qu'il a effectivement émergé, on peut a-posteriori le décrire à un niveau fonctionnel faisant abstraction du mécanisme qui le réalise.

Cette position renversée nous semble saine, et a l'avantage de bien amener et formuler les problèmes. Mais pour le roboticien, elle n'est guère constructive. Pour concevoir la réalisation d'un comportement émergent, il n'y a pas de magie, deux attitude sont possibles :

• Partir d'une fonctionnalité souhaitée a-priori, et se demander comment trouver, explorer, évaluer, exploiter un mécanisme l'implémentant par émergence ;

• Partir de techniques connues avec lesquelles on sait réaliser telle ou telle fonctionnalité émergente, et trouver un problème permettant d'exploiter ces techniques.

12 _{La clinocinèse est un mécanisme d'orientation basé sur des stimuli non directionnels. La sinuosité de la}

trajectoire varie selon le gradient spatial du stimulus (modèle décrit par Bovet, 1988), et cela résulte en une trajectoire qui semble dirigée vers un but avec une exploration stochastique optimale de l'espace (diffusion). Ces deux propriétés, qui peuvent être décrites comme des fonctions que remplit ce mode de locomotion, ne sont nulle part explicites dans le mécanisme lui-même, qui n'est en rien de nature directionnelle.

Les difficultés de la conception restent donc posées de façon tout à fait classique. La connotation de “surprise” ou d'imprévu, qui souvent accompagne la notion d'émergence, n'est pour la conception pas une aide mais un problème à aborder.

Néanmoins, l'émergence semble souvent apparaître comme une solution en elle-même, et non comme une problématique. Il suffirait de rendre une situation suffisamment complexe pour que finissent par émerger certains phénomènes qui seront justement, par un heureux hasard, la solution à nos problèmes — mais on se refuse à décrire comment et pourquoi ce seront ces phénomènes particuliers qui

apparaîtront.13

Faire appel à la notion d'émergence comme une alternative à celle de modéle, c'est éluder la question de la conception. Pour nous, cette notion ouvre des possibilités et pose des questions, mais ne fournit pas d'indication sur la façon d'exprimer un problème, de trouver les termes permettant de le résoudre.

En conclusion de ce paragraphe, le problème des conditions de validité est lié à la structure du modèle plus qu'à la valeur de ses paramètres, et ce n'est donc pas l'apprentissage de ces paramètres qui peut aider à le résoudre. Ce n'est que lorsque le modèle est adéquat, et que donc le problème qui reste n'est que d'identifier les paramètres, que l'apprentissage peut aboutir.

E.

NOTRE RÉPONSE AUX PROBLÈMES SOULEVÉS JUSQU

'

ICI

À ce point de notre réflexion, nous avons soulevé un certain nombre de problèmes particuliers à la robotique autonome, et dont la clef semble résider dans la nature du rôle de l'humain dans la construction d'un robot. C'est ce rôle que l'on cherche à minimiser en robotique autonome, alors que selon nous il est loin d'être bien compris et bien cerné. Dans cette section et la suivante, nous avançons plusieurs idées pour remédier à cela, passant donc, après des sections essentiellement critiques, à deux propositions plus “positives”.

La première idée, qui fait l'objet du §E.1, concerne le cycle d'adaptation (d'apprentissage, plus précisément). Nous venons d'affirmer que les problèmes des conditions de validité et de la modularité n'étaient pas résolus par l'apprentissage. En fait, pour être précis, nous avons montré que l'aspect expérimental de l'apprentissage ne nous aidait guère pour cela. Nous voulons dans cette section présenter un autre aspect de la notion d'apprentissage qui, lui, nous semble ouvrir des voies intéressantes pour résoudre le problème des conditions de validité : la possibilité d'une gestion explicite de l'incertitude. La plupart des techniques d'apprentissage n'exploitent pas cette possibilité, qui sera plus amplement développée aux chapitres 3 et 4.

La seconde idée, exposée au §E.2, est que le développement d'un robot en deux cycles, conception et adaptation, n'est pas adéquate. Il manque entre les deux un troisième cycle, que nous appelons “incrémentalité”. Nous détaillons alors la façon dont nous concevons l'incrémentalité, et nous montrons que si la gestion de l'incertitude est une réponse au problème des conditions de validité, l'incrémentalité quant à elle peut être vue comme une réponse au “problème de l'imprévu”.

13 _{Citons la conclusion de Pierre Marchal à l'issue des journées NSI (dont le but est de rassembler ingénieurs et}

biologistes pour jeter des ponts entre les disciplines) en mai 1994, qui disait en substance : “Le conseil principal des biologistes aux ingénieurs, c'est de cesser d'attendre de la notion d'émergence qu'elle résolve les problèmes à votre place”…

Dans le document La représentation contingente : vers une réconciliation des approches fonctionnelles et structurelles de la robotique autonome (Page 40-44)