• Aucun résultat trouvé

2.4 Les mécanismes corticaux multimodaux au niveau du cortex

2.4.2 Au niveau du cortex

Un traitement hiérarchique de l’information ...

Nous avons vu dans la section 2.4 que les aires multimodales reçoivent des connexions montantes provenant d’aires monomodales et d’aires multimodales. Ces connexions sont souvent réciproques et l’on observe, par exemple, des connexions descendantes du STS vers le cortex visuel primaire [Falchier et al., 2002, Lyon and Kaas, 2002a, Lyon and Kaas, 2002b] ou des aires multimodales vers les cortices auditif [Smiley et al., 2007], visuel [Falchier et al., 2002] ou somatosensoriel [Cappe and Barone, 2005]. Ces connexions descendantes des aires associatives vers les aires perceptives auraient d’ailleurs une grande importance pour la formation de la perception [Rolls and Deco, 2002].

Cette organisation des connexions, ainsi que l’absence d’observation de connexions entre les aires monomodales [Jones and Powell, 1970] (voir figure 2.6), ont donné naissance dans les années 60 à la modélisation du cortex comme un système de traitement hiérarchique séquentiel de l’information. Les différents flux monomodaux seraient ainsi traités par des aires corticales dédiées et indépendantes. Leur mise en relation aurait lieu dans les aires multimodales qui créeraient une perception multimodale co-hérente et s’occuperaient des tâches haut niveau. Un tel traitement de l’information permet d’expliquer l’effet ventriloque [Bonath et al., 2007] (voir section 2.2.2). Lors de cet effet, une activité apparaît dans les cortices visuel et auditif pour les neurones sensibles à l’emplacement exact de la source des stimuli dans chacune des modalités. Après quelques millisecondes, correspondant au temps de trajet de l’aire visuelle à l’aire auditive via les aires associatives, on observe une activité auditive pour les neurones sensibles à l’emplacement spatial de la source du stimulus visuel.

... ou un cortex multimodal ?

Cette vision hiérarchique du traitement cortical de l’information a été remise en question par de ré-centes observations biologiques. Il a été détecté par IRM une corrélation entre les activités des cortices pri-maires auditifs et visuels chez le singe [Eckert et al., 2008]. Anatomiquement, de nombreuses connexions, dites bas niveau, entre les aires corticales monomodales ont été mises en évidence chez différentes es-pèces et pour des aires à différents niveaux de la hiérarchie (voir [Calvert and Thesen, 2004b, Cappe et al., 2009, Cappe and Barone, 2005, Foxe and Schroeder, 2005, Kayser and Logothetis, 2007, Macaluso, 2006, Schroeder et al., 2003, Schroeder and Foxe, 2005]). L’intérêt de ces connexions reste à établir car elles ne représentent qu’un faible pourcentage des connexions reçues au sein d’une aire monomodale. Ce-pendant, il a été montré que l’ensemble de ces connectivités bas niveau dans V1 était aussi importante, en nombre, que la connectivité descendante provenant de MT dont il a été prouvé l’influence sur l’activité de V1 [Cappe et al., 2009]. La structuration de cette connectivité bas niveau est encore mal comprise, des connexions bas niveau de types montant et descendant mais pas forcément réciproques, ayant été observées. Il semblerait cependant que ces connexions bas niveau présentent également des propriétés topographiques [Batardiere et al., 1998, Hall and Lomber, 2008] similaires à celles observées pour les connexions entre aires de différents niveaux de hiérarchie (voir section 1.3).

Des neurones multimodaux ont été trouvés dans des aires supposées exclusivement monomodales comme, par exemple, dans le cortex visuel chez le rat [Barth et al., 1995] ou dans le cortex auditif chez le singe [Cappe et al., 2007, Kayser et al., 2008, Schroeder et al., 2001, Watanabe and Iwai, 1991] et chez le furet [Bizley and King, 2008, Bizley et al., 2007]. Les neurones multimodaux, au sein des aires monomodales, semble être localisés à la frontière entre les aires monomodales [Wallace et al., 2004]. Une telle organisation est semblable à celle observée dans les aires multimodales (voir section 2.4.1).

Ces nouvelles découvertes tendraient à prouver que la structure corticale est générique. Chaque aire, peu importe son niveau dans la hiérarchie, recevrait des connexions montantes et des connexions corticales provenant d’autres aires corticales de différents niveaux de hiérarchie et de différentes modalités. Dans une telle architecture, les propriétés fonctionnelles monomodales ou multimodales de chaque aire corticale dépendraient principalement de la connectivité montante. La classification des aires comme monomodales et multimodales deviendrait alors floue car le traitement de l’information serait dès le départ multimodal.

2.5. Conclusion 41

Figure 2.6 – Représentation de l’architecture des cortices visuel, auditif et multimodal visuo auditif chez l’homme. Les aires visuelles ainsi que leurs interconnexions sont en vert, celles du cortex auditif en bleu et les aires multimodales en rouge. Les cercles concentriques montrent les différents niveaux de hiérarchie, qui sont définis par le sens des connexions entre les aires, soit montantes, soit descendantes (voir section 1.3). Abréviations utilisées : A1 (cortex auditif primaire), AIT (cortex inférotemporal antérieur), f (aire impliquée dans la reconnaissance de visages), L (composants du système limbique), P (cortex pariétal postérieur hétéromodal), Pf (cortex préfrontal latéral), s (aire encodant la localisation spatiale), PIT (cortex inférotemporal postérieur), T (cortex temporal latéral hétéromodal), TF (partie du cortex inférotemporal médian), v (aire impliquée dans la reconnaissance des caractéristiques de la voix d’un individu), V1 (aire visuelle primaire), V2, V3, V4, V5 (aires visuelles supplémentaires), W (aire de Wernicke), wr (aire encodant la forme des mots). Tiré de [Mesulam, 1998]

2.5 Conclusion

Nous avons présenté dans ce chapitre les théories sensorimotrices qui proposent un cadre psychologique de la perception. Ces théories sont fondées sur l’importance de la prise en compte de l’action pour l’émer-gence de la perception et en particulier de la détection et de l’apprentissage d’invariants sensori-moteurs. Chez les êtres vivants, l’état de l’environnement est obtenu par de multiples mesures apportant chacune une information partielle dans une modalité spécifique. En pratique, les invariants sensori-moteurs se traduisent alors par des motifs spatio-temporels présents dans le flux de données multimodales contenant les sensations et les actions.

La prise en compte de multiples modalités captées dans l’environnement permet d’obtenir des infor-mations diverses et de réduire le bruit inhérent aux capteurs. Cependant, un événement unique dans l’environnement peut générer plusieurs flux monomodaux qui sont traités dans des zones spécifiques du

cortex correspondant aux aires sensorielles et motrices. Des expériences psychologiques menées chez l’hu-main tendent à montrer que le cerveau effectue une mise en relation de ces différents flux monomodaux en cherchant à retrouver des invariants sensori-moteurs de l’environnement, afin d’obtenir une perception multimodale cohérente. Un tel traitement de l’information se rapproche ainsi des théories sensorimotrices de la perception. Nous nous inspirons de ce traitement cortical de l’information multimodale pour notre modèle que nous introduisons dans le prochain chapitre.

Au niveau neuronal, l’intégration des flux monomodaux passe par deux mécanismes principaux. Premièrement, un neurone multimodal présente un alignement de son profil de réponse pour chaque modalité. Il répond ainsi de manière privilégiée à certains stimuli multimodaux qui sont concordants spatialement et temporellement.

Deuxièmement, les neurones multimodaux sont capables d’intégrer l’information multimodale, c’est-à-dire qu’ils fournissent une activité non linéaire en la somme des réponses monomodales correspondantes, suivant un principe d’efficacité inversée.

Ces propriétés neuronales changent avec l’âge, ce qui se traduit par une modification des profils de réponses du neurone, tendant à une plus grande discrimination de la concordance spatiale, une augmentation de la tolérance au décalage temporel entre les modalités et une apparition soudaine de la non linéarité de la réponse.

Des aires multimodales, qui contiennent des neurones multimodaux mais également monomodaux, ont été trouvées dans tout le cortex. Elles semblent se positionner au sommet de la hiérarchie de traitement de l’information corticale et pourraient être le siège de la mise en relation des informations traitées par les différentes aires sensorielles. Cependant, des découvertes récentes ont révélé des activités multimodales dans des aires supposées monomodales, ainsi que des connexions bas niveau topographiques entre ces aires monomodales. De plus, les neurones multimodaux des aires monomodales semblent se situer à la bordure des aires monomodales concernées, donnant lieu à une organisation spatiale relative entre les neurones monomodaux et multimodaux semblable à celle observée au sein des aires multimodales. Ces découvertes soulèvent l’hypothèse d’un cortex multimodal avec une architecture et un traitement de l’information générique. Dans ce cadre, la différenciation entre les aires résulterait des informations contenues dans les différents flux reçus. Notre modèle, dont nous décrivons les principes généraux dans le prochain chapitre, s’inscrit dans cette idée d’un cortex multimodal en proposant un traitement multimodal de l’information fondé sur l’utilisation de modules génériques de calculs.

Chapitre 3

Modèle bio inspiré pour l’apprentissage

multimodal

Notre travail traite de la mise en relation de différents flux d’informations modaux en vue de l’obtention d’une perception cohérente de l’environnement. Nous entendons, dans ce manuscrit, le terme modalité dans un sens large qui recouvre les notions de sens (vue, ouïe, toucher, goût, odorat, proprioception), de sous modalités (couleur, forme, ...) et d’actions. De ce point de vue, notre travail peut se rapprocher d’une vision gibsonienne de l’environnement. Par ailleurs, notre travail vise, à long terme, l’apprentissage de fonctionnalités sensori-motrices en vue de l’interaction autonome d’un agent avec son environnement. Certains des aspects que nous traitons dans notre travail sont à considérer sous cet angle.

Nous avons vu, dans le chapitre 2, que certaines expériences psychologiques semblent mettre en évi-dence que le traitement cortical de l’information multimodale se fonde sur la détection et l’apprentissage des invariants sensori-moteurs, invariants correspondant aux motifs spatio-temporels se répétant dans le flux multimodal représentant l’état sensori-moteur de l’environnement. En effet, ces invariants permettent non seulement une amélioration de la perception et de l’apprentissage, mais ils sont également pris en compte lors de la formation d’une perception. Par ailleurs, les approches sensorimotrices soutiennent l’idée que l’apprentissage de ces invariants est un point clé des capacités de perception et d’interaction avec cet environnement. Cet apprentissage s’inscrit ainsi de manière cohérente dans notre perspective à long terme de construction d’un agent autonome en interaction avec son environnement.

Nos travaux se situent dans le domaine des neurosciences computationnelles. Nous cherchons plus particulièrement à nous inspirer des principes généraux d’architecture et de traitement de l’information du cortex qu’à en effectuer une modélisation fine. Pour cela, nous utilisons une approche connexionniste, à savoir une architecture distribuée avec des unités génériques ayant des fonctionnalités calculatoires simples. Une telle approche nous oblige à penser le traitement de l’information de manière différente de celle utilisée généralement en informatique. En l’utilisant, nous souhaitons apporter certaines propriétés corticales du traitement de l’information telles que la plasticité et la robustesse qui sont généralement absentes des modèles utilisant une approche traditionnelle de l’intelligence artificielle. De plus, notre architecture s’appuie sur l’hypothèse d’un traitement générique multimodal de l’information (voir le chapitre 2). Chaque unité traite ainsi des stimuli de l’ensemble des modalités, tout en étant sensible de manière privilégiée à l’une des modalités. La réception de stimuli multimodaux provenant d’un même motif spatial appris augmente l’activité de l’unité, même si cette dernière ne réalise pas d’intégration multimodale similaire à celle observée pour les neurones. Par ailleurs, l’apprentissage progressif qui a lieu dans le modèle amène, pour les unités, à un rétrécissement de leurs champs récepteurs dans chaque modalité.

Dans cette thèse, nous nous intéressons à la détection et à l’apprentissage de motifs spatiaux réguliè-rement présents dans un flux multimodal, en utilisant une architecture connexionniste afin d’obtenir des propriétés de plasticité et de robustesse du traitement de l’information. Bien que cet objectif serve à struc-turer la présentation de notre travail dans la suite du manuscrit, ce dernier a également d’autres visées. Nous espérons, d’une part, fournir un éclairage sur les relations qui pourraient exister entre l’architecture

du cortex et le traitement de l’information qui y est effectué. D’autre part, nous apportons une réflexion sur certaines thématiques rencontrées en neurosciences comme les cartes auto-organisatrices, la mise en relation de différents paradigmes ou encore le dilemme stabilité/plasticité. Nous introduisons, dans une première section, le cadre général dans lequel s’inscrit notre travail ainsi que les modèles existants qui traitent de l’apprentissage multimodal. Dans une seconde section, nous présentons plus précisément la problématique abordée par notre modèle et les principes généraux de ce dernier. Cette présentation a pour but de fournir une vision globale de l’architecture qui sera décrite plus en détail dans les chapitres 6 et 9 traitant respectivement de l’apprentissage de motifs spatiaux monomodaux et multimodaux.

3.1 Cadre général et modèles existants

Dans une première section, nous introduisons certaines notions importantes par rapport à notre étude. Elle n’a pas pour but de rentrer dans des considérations théoriques hors du cadre de cette thèse mais vise à poser un certain nombre de considérations générales par rapport aux comportements souhaités pour notre modèle. La problématique traitée dans notre manuscrit est détaillée dans la section 3.2. Dans les deuxième et troisième sections, nous présentons et discutons, au regard des comportements souhaités, des modèles relevant respectivement des théories sensori-motrices et du domaine des neurosciences.