• Aucun résultat trouvé

Nous avons présenté dans ce chapitre l’architecture générale du cortex à différents niveaux d’abstrac-tion. Bien que nous n’ayons pas abordé tous les détails biologiques connus à ce jour, il apparaît que la structure corticale est, à un niveau microscopique, d’une incroyable diversité. L’observation à un niveau mésoscopique fait pourtant apparaître des régularités dans l’organisation neuronale : une structure lami-naire mais également une connectivité verticale. Cette structuration est à l’origine de l’hypothèse d’un cortex organisé comme une juxtaposition de modules élémentaires : les colonnes corticales. Une étude à un niveau macroscopique fait de nouveau apparaître une diversité dans la fonctionnalité des aires corti-cales. Cependant, c’est encore une fois la généricité du traitement de l’information qui apparaît comme la structuration la plus importante. Chaque aire est en effet différenciée par sa fonction mais cette différence est créée par la connectivité entrante et non par un traitement spécifique de l’information. Aux échelles micro et mésoscopique, le cortex apparaît comme un système connexionniste. Il est composé d’unités fonctionnelles simples, respectivement le neurone et la colonne corticale, dont le traitement de l’informa-tion émerge de leurs interacl’informa-tions. Nous nous situons dans cette thèse à une échelle mésoscopique car elle

1.5. Conclusion 27 combine la propriété de généricité du traitement de l’information à un paradigme connexionniste. Elle permet en outre d’utiliser des fonctions plus complexes qu’une simple intégration des activités pour les unités de traitement.

Les colonnes corticales sont connectées entre elles pour former des aires corticales fonctionnelles. Les connexions entre ces aires apparaissent généralement topographiques. Deux colonnes proches ont alors des champs récepteurs proches. Ce type de connectivité présente deux avantages d’un point de vue du traitement de l’information.

Premièrement, cette connectivité permet une robustesse du traitement de l’information à une défaillance du substrat. En effet, comme chaque colonne ne reçoit qu’une partie de l’information dont une grand partie est commune avec les colonnes voisines, la représentation de l’information est distribuée.

Deuxièmement, combinée à l’auto-organisation des données au sein de chaque colonne, la connectivité topographique permet de conserver la relation spatiale entre les éléments. Dans les aires sensorielles, cette spatialité permettrait de prendre en compte la continuité de l’environnement. Dans les aires de plus haut niveau, les données seraient organisées suivant une proximité de concepts abstraits et la conservation de la topologie permettrait d’effectuer des raisonnements par analogie ainsi qu’une généralisation des connais-sances (pour plus de détails se reporter aux chapitres 4 et 7). Comme les connectivités topographiques sont largement répandues dans le cortex, et qu’elles semblent avoir un rôle important dans le traitement de l’information, nous utilisons de telles connexions pour structurer les informations apprises dans notre modèle (voir les chapitres 2 et 7 pour plus de détails).

Le fonctionnement cortical se caractérise par son adaptabilité face aux modifications environnemen-tales mais également face à la défection d’une partie du système. Ceci est particulièrement remarquable dans le cortex des handicapés, dans lequel les aires habituellement dédiées à la sensation manquante sont utilisées par les autres perceptions. Cette adaptabilité est permise non seulement par la généricité des calculs mais également par les propriétés des mécanismes de plasticité à l’œuvre dans le cerveau. Ces derniers sont en effet locaux et décentralisés, offrant de la même manière que pour les calculs, une robus-tesse vis-à-vis d’un dysfonctionnement du substrat, chaque unité étant autonome vis-à-vis de l’ensemble. De plus, cette plasticité est non supervisée, permettant ainsi de s’adapter à un environnement inconnu. Cette plasticité présente enfin des propriétés homéostatiques permettant de réguler l’activité neuronale. Ces mécanismes apparaissent essentiels pour une transmission de l’information efficace mais également pour l’utilisation d’unités de calculs dans un réseau fortement récurrent. La généricité du calcul ainsi que les propriétés des règles d’apprentissage à l’œuvre dans le cortex (localité, décentralisation et non super-visation) lui fournisse son extrême adaptabilité et robustesse. Nous faisons du respect de ces paradigmes de calculs et d’apprentissages un principe conducteur de la construction de notre modèle afin d’obtenir les mêmes propriétés d’adaptabilité et de robustesse.

Chapitre 2

La multimodalité au cœur de notre

perception du monde

Nous avons décrit dans le chapitre précédent certains points de l’architecture générale du cortex à dif-férentes échelles ainsi que les mécanismes principaux d’apprentissage qui s’y déroulent. Nous avons ainsi vu que, à un niveau macroscopique, le cortex est constitué d’un ensemble d’aires corticales fonctionnelles. Comme l’environnement est capté par un ensemble de sens complémentaires, on peut observer des aires corticales dédiées au traitement d’un flux sensoriel particulier. Cependant, un unique événement dans l’environnement peut produire des effets qui sont captés par plusieurs sens et qui sont donc traités dans différentes aires du cortex. Le traitement de l’information effectué par le cortex sur ces différents flux mo-daux doit permettre l’émergence d’une perception reflétant l’état de l’environnement et, en particulier, la cohérence des différentes informations sensorielles. Nous nous intéressons dans ce chapitre à l’importance de la multimodalité dans le traitement de l’information effectué par le cortex.

Dans une première section, nous présentons les approches sensorimotrices de la perception qui dé-fendent l’importance théorique de la détection et l’apprentissage des invariants sensori-moteurs dans la capacité d’un individu à interagir avec son environnement. En pratique, ces théories amènent à considérer les différents flux modaux (sensations et actions) dans leur ensemble. Nous décrivons, dans une deuxième partie, les manifestations à un niveau psychologique de la perception multimodale chez l’homme qui tendent à confirmer la création d’une perception unifiée fondée sur la recherche d’invariants multimodaux dans l’environnement. Dans une troisième section, nous décrivons les mécanismes généraux impliqués dans la mise en relation des flux monomodaux dans le cortex aux niveaux microscopique et macroscopique. Nous montrons notamment que, malgré l’existence d’aires sensorielles, le traitement de l’information sensorielle semble être générique à un niveau macroscopique.

2.1 Approches sensorimotrices et intégration multimodale

Dans les théories classiques de la perception, les différents flux d’informations sont traités de manière séparée. Ainsi, en informatique, plusieurs disciplines dédiées au traitement d’un sens en particulier ont été créés. Par cette approche, certains modèles sont capables d’égaler, voire de dépasser les performances humaines. Les résultats les plus probants sont sans doute obtenus dans le domaine de la vision par ordinateur et en particulier de la reconnaissance d’objets (voir par exemple les résultats de la compé-tition organisée lors de IJCNN 20111). Nous pouvons également citer le domaine de la reconnaissance de la parole où les taux de reconnaissance peuvent largement dépasser les 90% en présence de bruit faible [Hirsch and Pearce, 2000]. Cependant, ces modèles sont spécifiques à une tâche donnée et peuvent, par exemple dans le cas de la reconnaissance de la parole, avoir des performances qui décroissent très rapidement avec l’augmentation du bruit. En comparaison, un être humain est, par exemple, capable de comprendre clairement une personne au cours d’une soirée bruyante, ce que l’on nomme le cocktail party

1. http://benchmark.ini.rub.de/?section=gtsrb&subsection=results&subsubsection=official

effect. Cette capacité humaine est permise, entre autres, par une observation visuelle de l’interlocuteur et en particulier du mouvement de ses lèvres. Ainsi, la prise en compte d’informations redondantes par plu-sieurs modalités permet une amélioration de la performance dans une tâche apparemment monomodale. Par ailleurs, lorsqu’un humain cherche à reconnaître un objet, il peut se déplacer ou manipuler l’objet afin de l’observer sous tous les angles. Notre perception du monde semble ainsi considérer deux aspects ignorés par les modèles informatiques de la perception : l’interaction avec l’environnement et la prise en compte de l’ensemble des perceptions. Ces deux aspects nous paraissent indispensables à la perception de l’environnement en permettant la désambiguïsation de certaines situations. Prenons l’exemple d’une personne assise dans un train regardant un autre train par la fenêtre et percevant un mouvement visuel. Une simple considération de l’aspect visuel ne permet pas de conclure sur l’identité du train en mouve-ment. Au contraire, une prise en compte de la perception fournie par l’oreille interne, renseignant sur un mouvement ressenti, ou le fait de regarder par la fenêtre opposée permet d’obtenir une perception plus précise de la situation. Nous présentons dans cette section les cadres théoriques traitant de la prise en compte de l’action et de la multimodalité dans la perception.

2.1.1 Notion d’affordance

Lorsque nous voyons un verre, quels mécanismes sous-jacents permettent la reconnaissance de cet objet, même si nous ne l’avons jamais vu auparavant ? Il est difficile de croire que la reconnaissance d’un verre soit un phénomène purement visuel à la considération de l’ensemble des formes, des matières et des couleurs existantes. Gibson a proposé la notion d’affordance pour qualifier l’interaction possible entre un individu et son environnement. Chaque objet serait ainsi défini par un ensemble d’affordances, c’est-à-dire un ensemble de relations d’interaction entre l’individu et cet objet. Dans ce cadre, un verre pour un être humain serait ainsi défini comme ayant les affordances “boire”, “remplir avec un liquide”, ... La définition d’un objet ne serait alors pas fixe mais dépendrait de l’utilisation qu’en fait un individu. Ainsi, si quelqu’un met une fleur dans son verre, son affordance change et le verre est alors considéré comme un vase.

La notion d’affordance de Gibson, à la base de la théorie écologique, place ainsi la notion d’action au cœur de la perception. L’affordance est alors une des sources d’informations permettant la perception. La théorie gibsonienne est certes intéressante mais elle se place à un niveau de réflexion psychologique. Ainsi, elle ne résout pas la question de son implémentation sur un substrat physique pour l’obtention d’un être capable d’interagir avec son environnement. Dans ce but, nous présentons dans la prochaine section le cadre de la perception active qui propose des théories d’émergence d’une perception à partir de flux sensoriels.

2.1.2 Perception active

Les théories fondées sur la perception active ont été développées en réponse à la prédominance de l’intelligence artificielle symbolique, qui prévalait dans les années 50. Ces théories visent à la création d’entités capables d’interagir de manière autonome dans l’environnement sans nécessiter de représentation abstraite interne de l’agent et de cet environnement. Elles sont encore aujourd’hui au centre d’études dans les domaines de la psychologie, de la perception artificielle et des neurosciences [Berthoz, 2000, Findlay and Gilchrist, 2003, Hurley, 2002, Port and Van Gelder, 1995, Thelen et al., 1994]. Elles se fondent sur l’importance, dans la perception, de la notion d’invariants sensori-moteurs qui sont des motifs stables et récurrents contenus dans un flux d’entrée considérant non seulement des sensations mais également des actions (voir [Cohen, 1977]). Les objets sont alors définis comme un ensemble stable d’invariants sensori-moteurs. Par exemple, dans le cas d’un problème de catégorisation de couleurs, qui semble pourtant être une tâche purement visuelle, la prise en compte de l’action dans la perception a permis de retrouver des résultats psychologiques observés chez l’humain [Philipona et al., 2006].

Parmi les théories s’appuyant sur la notion de perception active, on distingue plusieurs courants dont nous allons présenter les vues extrêmes (pour plus de détails sur les différences entre les courants, se reporter à [Mossio and Taraborelli, 2008]). D’un côté, les théories motrices prônent la capacité des systèmes perceptuels à distinguer la réafférence, c’est-à-dire la réentrance d’une information motrice par

2.2. Manifestations multimodales chez l’homme à un niveau psychologique 31