IDA et LIDA - Modèles Sommaire - Coordination implicite d'interactions sensorimotrices comme fo

Modèles Sommaire

2.1.1 IDA et LIDA

Le projet IDA (Intelligent Distribution Agent) a été dirigé depuis son origine par Stan Frank-lin et développé à l’université de Memphis [Franklin et al., 1998]. La théorie sur laquelle repose l’architecture et celle du "Global Workspace" introduite par Bernard J. Baars [Baars, 1988]. Celle-ci intègre la conscience au cœur de la cognition, tel un spot qui éclairerait la scène de la mémoire de travail. Cette mémoire est quant à elle remplie par quantité de processus

incons-10. On peut lire à ce sujet les nombreuses discussions scientifiques qui ont suivies la publication de "Society of Mind" [Minsky, 1986]

cients relatifs au contexte (dont les interactions directe avec l’environnement). Cette théorie traite de phénomènes complexes ayant tous un lien fort avec le conscient et l’inconscient, tels que l’activation subliminale, l’attention ou l’acquisition d’automatismes par la pratique.

IDA est définie selon ses créateurs comme une théorie complète de la cognition, émulant par exemple tous les aspects de la mémoire (sensorimotrice, procédurale, épisodique, court-terme et long-terme...). La boucle principale de mise à jour du modèle est classique dans le sens où s’en-chaînent perception (bottom-up), cognition et action (top-down)¹¹, mais cette décomposition peut être raffinée :

– Perception bas niveau : Chaque cycle cognitif procède à une phase d’acquisition de données depuis l’environnement et à son interprétation. Tout d’abord, les principales ca-ractéristiques du flux sensitif sont extraites (telles les textures, formes ou mouvements pour la vision).

– Perception haut niveau : Les objets sont ensuite reconnus et les personnes identifiées. Ceux-ci sont catégorisés et on leur associe des sentiments, des actions ou encore des re-lations... Cette étape combine les modules de mémoire sensorielle et mémoire associative perceptive pour modifier la mémoire de travail.

– Accès en mémoire épisodique (memory retrieval) : Le "où", le "quand" et le "quoi" de la situation sont extraits des mémoires épisodiques à court et long terme. A partir des indices contextuels présents dans la mémoire de travail, de nouveaux éléments y sont amenés, tel un nom associé à un visage.

– Diffusion consciente (conscious broadcast) : Des micros processus (codelets) rentre alors en compétition pour l’accès à la conscience, chacun utilisant des éléments différents pré-sents en mémoire de travail. Une fois la victoire emportée, l’information est largement diffusée à d’autres modules du modèle.

– Action : La mémoire procédurale sous l’influence de la conscience permet alors de sé-lectionner un schéma procédural, à son tour transféré à un module gérant les différents comportements possibles. Des automatismes sensorimoteurs (à la Piaget) permettent alors d’interagir avec l’environnement à un rythme bien supérieur à celui du cycle cognitif com-plet.

Bien que cette architecture n’inclue pas non plus d’apprentissage, celui-ci a été rajouté dans une extension nommée LIDA (Learning-IDA). Comme dans la majorité des modèles, l’appren-tissage apparaît comme une surcouche permettant de rendre le système plus autonome et d’amé-liorer ses performances.

2.1.2 NCE

Le Novamente Cognition Engine (NCE) proposé par la société Novamente est un système cognitif complet récemment développé aux États-Unis [Looks et al., 2004]. Bien que ses créa-teurs prônent une forme de représentation unifiée, ce système est testé dans un monde virtuel tridimensionnel nommé AGISim qui distingue d’office des interactions textuelles et sensorielles. Le principal avantage d’une telle approche est la possibilité d’interagir avec quantité d’utilisa-teurs humains de l’environnement de simulation, et ainsi intégrer toutes les interactions dans un

11. De nombreuses influences mutuelles entre les modules existent pour rendre compte de processus plus com-plexes, mais ne sont pas détaillées ici.

Figure 2.4 – Architecture de IDA Figure 2.5 – Architecture proposée par Nova-mente

unique esprit qui généralise et apprend plus vite¹². L’architecture est donc fondamentalement conçue pour être distribuée sur un large réseau autorisant le passage à l’échelle. L’hypothèse théorique sous-jacente est que la cognition (humaine) n’est possible que dans un système apte à se comprendre lui même. La réflexivité est nécessaire à l’auto-amélioration des performances et il doit donc être capable de raisonnements complexes et d’apprentissage. Les directeurs du projet annoncent que le moteur cognitif a passé les stades sensori-moteurs piagétiens, mais les abstractions typiquement humaines d’ordre supérieur n’ont pas encore émergé.

La structure est principalement inspirée des travaux de Ben Goertzel, mais l’architecture intègre quantité d’algorithmes de pointe en intelligence artificielle, calcul distribué ou même économie. Ainsi sont utilisés des réseaux logiques probabilistes, le moteur d’apprentissage évo-lutionniste et probabiliste MOSES, un algorithme d’allocation de l’attention "économe", des hypergraphes décorés ou encore un langage fonctionnel nommé Combo codant les programmes en mémoire procédurale. De la coordination de tous les modules associés devrait à terme émerger une cognition abstraite.

2.1.3 ACT-R

Le modèle théorique et l’environnement de programmation ACT-R (Adaptive Control of Thought - Rational) supposent que la cognition est réalisée par un système à temps discret à base de règles de production. Celui-ci se fonde sur des recherches en psychologie cognitive et en imagerie cérébrale, en particulier sur celles d’Allen Newell. Développé principalement par John Robert Anderson à l’université de Carnegie Mellon [Anderson, 1976; Anderson and Lebiere, 1998], l’architecture d’ACT-R a pour but de modéliser le flot d’information et ses transforma-tions dans le cerveau, du cortex aux ganglions de la base et inversement. Celui-ci a d’ailleurs connu de récents développements permettant de prédire quantitativement les séquences tempo-relles d’activation des aires cérébrales.

12. De nombreuses équipes de recherche utilisent d’ailleurs l’environnement de Second Life c pour interagir avec des personnes réelles ou étudier leurs comportements via Internet

Pour chaque tâche cognitive, un programme ACT-R doit être spécifiquement conçu et il n’y a donc pas d’apprentissage à proprement parler dans la version originale. L’exécution consiste en une série de cycles, chacun réalisant une opération atomique, tels un accès à la mémoire ou une transformation du flux optique. Chaque cycle dans le programme comprend une étape de filtrage par motif (pattern matching) afin de sélectionner les modules les plus adaptés à la situation (et permettant de s’approcher d’un but défini à priori) ainsi que l’exécution des règles de production associées. Chaque module communique avec ses voisins ou l’environnement par l’intermédiaire de tampons (buffers) qui sont modifiés par l’application des règles, à la manière d’une architecture à tableau noir où les tampons représenteraient les connaissances communes. L’architecture distingue différents types de modules :

– Perceptivo-moteurs : ils interagissent avec l’environnement. Même si l’environnement d’ACT-R autorise le développement d’autres modules, seuls la vision et le toucher sont générale-ment représentés et traités séparégénérale-ment.

– Mnésiques déclaratifs : ils contiennent les connaissances de l’agent sur l’environnement. – Mnésiques procéduraux : ils modifient les tampons des autres modules et font ainsi évoluer

la situation. Ils sont le cœur de la dynamique d’ACT-R.

Tous les modules sont actifs à tout instant et leur mise à jour parallèle est simulée par l’environnement. ACT-R n’est pas à proprement parler symbolique même s’il exploite des re-présentations internes (les tampons). Ceux-ci sont en effet constamment modifiés à la manière de l’activité dans les réseaux de neurones.

Figure 2.6 – Architecture de ACT-R Figure 2.7 – Architecture de MicroPsi

2.1.4 MicroPsi

Cette architecture se fonde sur la théorie Psi de Dietrich Dörner. Un Psi est un agent qui régule ces actions et comportements en fonction de ses besoins et émotions. Le projet MicroPsi, dirigé par Joscha Bach, permet de tester ces principes par la synthèse et l’observation d’un agent dans un environnement virtuel [Bach, 2003]. Il s’agit en cela d’une formalisation et abstraction de la théorie psychologique originale, utilisant des graphes hiérarchiques pour modéliser la ma-jorité des phénomènes cognitifs, de la mémoire aux boucles sensori-motrices.

Les nœuds sont les constituants fondamentaux de toute connaissance. Ils peuvent aussi bien représenter des éléments sensoriels basiques (tel qu’un segment orienté) que permettre la construction de concepts plus abstraits (une forme géométrique). La combinaison des nœuds est réalisée via des relations logiques, spatiales ou temporelles, autorisant par exemple la gé-nération dynamique de nouvelles représentations internes, de souvenirs ou de plan à exécuter. Bien que les représentations soient relativement unifiées, la nature des briques de base et de leurs relations varie. De plus, l’architecture distingue la mémoire à long-terme et la mémoire de travail, isole les entrées émotionnelles non sensorielles de même que les besoins vitaux, et fait agir ces différents éléments à différents niveaux de l’architecture. Elle dispose enfin de phases de planification, de sélection de comportement adéquats ou d’une gestion d’événements critiques (comme un besoin urgent à assouvir). Elle semble par conséquent pouvoir être classée dans les approches intégratives.

2.2 Approches réparties et hybrides

La spécificité des modules qui composent toutes les approches hybrides hérite de l’argument de modularité introduit par Jerry Fofor [Fodor, 1983] : l’intellect doit être composé de mo-dules hautement spécialisés qui fonctionnent en temps réel et communiquent par l’intermédiaire d’entrées/sorties¹³. Qu’ils soient désignés par les termes d’agents, d’experts, de spécialistes, de codelets, les composants doivent disposer d’interfaces similaires mais peuvent être de natures foncièrement différentes. La communication peut être directe et explicite via des protocoles parfois complexes ou bien implicite via l’environnement ou la diffusion de signaux non ciblés. 2.2.1 Architecture de subsomption

L’architecture de subsomption, développée par Rodney Allen Brooks au Massachusetts Ins-titute of Technology, suppose un lien direct entre perception et action quel que soit le com-portement envisagé [Brooks, 1991b; Brooks, 1991a]. Cette hypothèse a longuement été testée à travers des séries de robots interagissant avec des environnements réels. La force principale du modèle est en effet la réalisation de robots au fonctionnement robuste malgré les imperfec-tions et aléas du monde réel, Brooks étant d’ailleurs un fervent défenseur de la cognition incarnée. L’intelligence que l’humain prête aux robots créés repose sur un ensemble de modules fonc-tionnant en temps réels, réalisant chacun une fonction bien spécifique (figure 2.8b). Rien de bien nouveau si ce n’est que les modules sont interconnectés de manière hiérarchique afin de contourner la nécessité d’une boîte décisionnelle centrale (une "computational box" fournissant un contrôle centralisé) (figure2.8a). La hiérarchie provient de la capacité de chaque module d’in-hiber des fonctions inférieures, tout en étant lui aussi sujet à une inhibition similaire de la part de modules supérieurs. Brooks a donc opté pour un développement incrémental de ses robots, dans une optique constructiviste d’ajout de comportements et non de capacités abstraites. Le comportement global émergent est donc facilement déterminé : seules les actions correspondant

13. Dans la majorité des théories cognitivistes, les fonctions cognitives élevées étaient considérées comme modu-laires et inférentielles alors que les aspects bas-niveau étaient interprétés en termes behavioristes. Fodor souligna néanmoins que des illusions perceptives telles que celles de Müller Lyer étaient stables dans le temps et non in-fluençables par des croyances conscientes. La conception modulaire et l’encapsulation devaient donc toucher tous les niveaux de la cognition.

aux comportements les plus prioritaires dans le contexte actuel s’exécutent.

Malgré une simplicité déconcertante force est de constater l’efficacité de la technique. Cette simplicité est en réalité trompeuse, car c’est dans la recherche et l’étude de la hiérarchie que re-pose l’intelligence qui permet la coordination complexe de comportements. Cela rend la concep-tion bien plus ardue lorsque l’on souhaite modéliser des tâches complexes, comme dans les développements plus récents de l’équipe du MIT [Brooks et al., 1999;Brooks, 2001].

(b) (c) (a) Reset 10 1 3 Inhibitor Outputs Suppressor Inputs s 15^s level 2 level 3 Sensors ^Actuators level 1 level 0 robot collide map sonar robot motor command force feelforce runaway avoid heading wander halt

Figure 2.8 – (a) Aperçu de la hiérarchisation initiale de l’architecture de subsomption. Chaque niveau interagit directement avec l’environnement et "subsume" la couche inférieure. (b) Module de l’architecture potentiellement inhibé et influençant d’autres modules. (c) Exemple d’orga-nisation pour un robot explorant un environnement inconnu mais devant en priorité éviter les obstacles.

Dans le document Coordination implicite d'interactions sensorimotrices comme fondement de la cognition (Page 43-48)