• Aucun résultat trouvé

Cangelosi et al (Cangelosi et Riga 2006 ; Stramandinoli, Marocco et Cange- losi 2017 ; Tikhanoff, Cangelosi et Metta 2011) ont développé des simulations et des expériences robotiques qui montrent comment le sens des mots peut être ancré dans la perception pour simuler l’apprentissage du langage. Leurs travaux les plus récents se sont concentrés sur l’étude des structures gramma- ticales dans le cas des couples verbe-nom pour la réalisation d’actions orien- tées vers un but (Stramandinoli, Marocco et Cangelosi 2017). L’apprentissage de constructions grammaticales a été envisagé aussi bien du point de vue de l’évolution du langage (Steels 2005) que d’une perspective développementale ou d’apprentissage (Dominey et Boucher 2005a ; Bergen, Chang et Narayan 2004 ; Dominey et Boucher 2005b).

Les premières expérimentations menées par Dominey et Boucher dans (Do- miney et Boucher 2005a) ont été de créer un système perceptuel qui apprend à cartographier des représentations d’événements perçus tels que push(moon,

cylinder) sur des phrases telles que« The moon pushed the cylinder », ou « The

cylinder was pushed by the moon». Ils ont ensuite étendu cette approche pour

inclure à la fois la description des événements perçus et l’exécution des com- mandes vocales dans le système Cooperative Human Robot Interaction System (Chris).

L’architecture Chris est une architecture cognitive indépendante du robot développée sur la base d’une analyse du développement cognitif humain. Ses caractéristiques principales consistent en la capacité d’extraire le sens de la perception, d’apprendre à composer de nouvelles actions à partir d’actions

4.3. Application en robotique

Figure4.2 – Interaction Homme – Robot. A. Un utilisateur humain interagit avec des cubes, narre des événements et écoute le robot retranscrire une nar- ration d’événements. B. Prise de vue d’une scène tel que perçue par la caméra CCD. C. Architecture de la plateforme : 3 modules distincts pour le traitement de la vision, de la parole et du dialogue. Les constructions grammaticales sont apprises et utilisées pour la compréhension et la production de phrases.

Scene Perception Spatial

Reasoning (Spark)

Action

Recognition Detection Primitive EgoSphere

Supervision & Planning Motor Command Knowledge Base EgoSphere Motor Bridge Robot Motor Command Action Definitions Object Properties Database Open Robots Ontology Interaction Management (Rad) Generic motor commands executed on specific platform Platform specific data in Egosphere format Human interaction

Figure 4.3 – L’architecture Chris : Les données sensorielles fournissant des coordonnées 3D en temps réel sont encodées dans le module EgoSphere. Les primitives qui incluent par exemple« contact » et « motion » sont détectées et utilisées pour reconnaître des actions comme « A gave B to C ». Ces actions peuvent être utilisées comme une entrée du module Motor Command pour l’imitation d’actions. Le module Knowledge Base encode les propriétés des objets et apprend les définitions des actions et des plans partagés. L’interaction avec l’humain est accompli par le module Supervision and Planning.

Chapitre 4. Approche cognitive du langage et mise en œuvre en robotique

primitives et apprises, et d’apprendre et d’exécuter en coopération des plans ou des procédures partagées avec un être humain par le biais d’une interaction en langage parlé (Stephane Lallée et al. 2012). Une architecture simplifiée est montrée dans Figure 4.3. L’extraction du sens de la perception est réalisée à l’aide d’un ensemble de primitives incluant le« mouvement » et le « contact », qui permettent la reconnaissance d’actions comme « prendre » et « donner » dans le module Scene Perception.

De même, les primitives motrices telles que saisir, déplacer et relâcher sont définies et utilisées pour construire des actions plus complexes dans le mo- dule Motor Command. Ensuite, dans l’ancrage d’une phrase comme « put the

block1 on the block2 » dans le sens, il y a une transition de la phrase dans une

représentation schématisée du sens, put(block1, block2). Cette représentation de l’action est ensuite décomposée en commandes motrices primitives comme

grasp, grave, release et en primitives perceptuelles comme object1, object2 qui

sont codées dans la base de connaissances. Les capacités de traitement du lan- gage et d’apprentissage de la planification sont fournies par le module Planning

and Supervision et permettent à un humain, soit par des descriptions en lan-

gage naturel, soit par des démonstrations physiques, de spécifier à l’exécution comment lier une unité linguistique telle que block1 à un élément perceptuel tel que object1 ainsi que la décomposition de put(object, location) dans la séquence

grasp(object), move(location), release(object).

Pour les nouvelles actions (qui ne sont pas encore définies dans la Know-

ledge Base) le système utilise l’ensemble des observations primitives à partir

d’une segmentation temporelle pour créer un schéma générique d’actions pri- mitives. Ainsi, un nouveau prédicat cover(x,y) est appris comme un schéma de primitives :« moving(x), contact(x, y), !visible(y), !moving(x) » qui est généré par le système perceptuel. C’est ensuite ce schéma sur lequel la phrase« Cover

y with x » peut être associée (Stéphane Lallée et al. 2010). Ces actions sont

également associées avec des états. En conséquence, après l’exécution de l’ac- tion cover(x,y), l’état résultant est« contact(x,y), visible(x), on(x,y) ». Par le même mécanisme, Lallée et al (Stéphane Lallée et al. 2010) ont démontré l’uti- lisation de 4 autres prédicats, incluant uncover, take, give, et put. Ces actions peuvent ensuite être assemblées dans des constructions de plus haut niveau qui sont appelées plan partagé, permettant ainsi à l’humain et au robot d’at- teindre l’état désiré. Ce travail fournit un framework pour démontrer comment des structures prédicats-arguments comme give, put, etc peuvent émerger.