• Aucun résultat trouvé

Discussion générale

Dans le document en fr (Page 184-190)

Apprentissage de sélectivités inspirées de la voie ventrale

4. Discussion générale

L’aire visuelle corticale primaire est dite de bas niveau car elle se situe au bas de l’organisation hiérarchique du système visuel (Felleman & Van Essen, 1991). De plus, ses neurones y sont sélectifs à des indices de forme simples, comme des lignes orientées à différents angles (Hubel & Wiesel, 1962). En haut de la voie ventrale, responsable de la reconnaissance des formes, le cortex inférotemporal possède des représentations de haut niveau, car ses neurones vont répondre sélectivement à des visages ou des objets (Perrett, Rolls & Caan, 1982 ; Fujita, Tanaka, Ito & Cheng, 1992 ; Brincat & Connor, 2004). Entre les deux se trouvent des aires relativement moins bien connues, où seraient stockées des représentations intermédiaires (Pasupathy & Connor, 1999, 2002). Une modélisation des performances du système visuel dans les tâches de catégorisation rapide des objets, si elle veut rester biologiquement plausible, devra donc montrer des sélectivités en concordance avec celles qui sont observées dans la voie ventrale. Nous avons démontré ici qu’une règle d’apprentissage simple et inspirée de la biologie, la STDP, permettrait de développer des représentations de plus en plus complexes dans une architecture où l’information est représentée dans la latence des décharges : à chaque étape, de nouvelles sélectivités se construisent sur celles du niveau inférieur, en fonction des motifs récurrents les plus présents dans les scènes naturelles. Quoique ce résultat n’ait été obtenu que pour les deux premières aires visuelles corticales (V1 et V2), l’apparition systématique d’une reproductibilité des réponses dans la couche d’apprentissage arrivée à maturation permet de réutiliser celle-ci comme couche de propagation, pour développer des détecteurs de formes encore plus complexes et ainsi de suite, séquentiellement, jusqu’au niveau voulu.

(page précédente) Figure IV.8. Différentes classes de représentations intermédiaires. Champs récepteurs des neurones matures (indice > 90%), classés - arbitrairement - selon la forme de leur sélectivité.

De plus, la théorie du traitement visuel rapide stipule qu’une vague de décharges reproductibles encoderait avec ses toutes premières décharges les éléments de l’image les plus saillants, définis selon les sélectivités locales (VanRullen & Thorpe, 2002; VanRullen, 2003). Si la théorie est correcte, et si la STDP définie ici est présente in vivo dans chaque aire de la voie ventrale, alors nous aurons montré que la STDP pourrait être, au moins en partie, impliquée dans le développement de ces sélectivités locales. Maintenant, ces deux prémisses demandent à être vérifiées au niveau expérimental pour que cette implication soit plus forte et plus prédictive5. Nous rappellerons simplement que la reproductibilité des impulsions, si elle n’implique pas nécessairement le codage par latence, est compatible avec l’observation expérimentale (revue dans VanRullen, Guyonneau & Thorpe, 2005) ; et que la STDP a été rapportée pour des neurones en tranches issus du cortex visuel (Feldman, 2000). Et dans l’attente de confirmation expérimentale, nous nous concentrerons sur l’aspect computationnel, et technologique, de nos résultats.

Dans SpikeNet, la modélisation du traitement rapide de l’information dans le système visuel se limite à une propagation ascendante de vagues d’activité évoquées par la présentation de stimuli (Thorpe, Guyonneau, Guilbaud, Allegraud & VanRullen, 2004). Mais si le codage de l’information y est biologiquement plausible, l’apprentissage de sélectivités ne l’est pas car elles y sont spécifiées de manière supervisée. Revenons par exemple sur l’apprentissage utilisé dans le cas du traitement de visages (VanRullen, Gautrais, Delorme & Thorpe, 1998) : alors que les premières et deuxièmes couches reprennent les sélectivités de, respectivement, la rétine et V1, dans la troisième couche chaque unité codant pour un élément spécifique du visage – œil droit, gauche ou bouche – reprend explicitement la séquence d’activation typique de l’élément correspondant. S’il est donc biologiquement justifiable de spécifier des champs récepteurs sensibles aux orientations pour modéliser V1, il n’en va pas de même pour ce qui est de simuler V2 ou V4, où les sélectivités des neurones sont relativement moins bien connues (Pasupathy &

5 Il va ainsi aussi d’une troisième hypothèse concernant la présence du circuit récurrent d’inhibition, permettant de réaliser un « winner-take-all » de type temporel. Toutefois, ce mécanisme temporel de computation découle du codage par latence - l’inhibition est déclenchée dès que la première cellule en apprentissage décharge - et dépend donc de la vérification de la théorie du traitement visuel rapide.

Connor, 1999, 2002). D’où la nécessité pour SpikeNet de disposer d’un mécanisme d’apprentissage non seulement biologiquement plausible, mais compatible avec le codage par rang de l’information.

Nous avons pu établir dans ce chapitre que la STDP remplissait ces critères. Pour cela, nous avons simulé l’exposition à des scènes naturelles d’un système de traitement de l’information reprenant l’architecture classique de SpikeNet, en y ajoutant un algorithme d’apprentissage inspiré de la STDP. Nous avons présenté ici les résultats les plus nets qui sont, bien entendu, dépendant des paramètres utilisés. Nous avons ainsi pu vérifier ce qui avait été établi dans le Chapitre III consacré à la caractérisation précise de la dynamique de l’apprentissage temporel :

i. l’influence de la taille de la couche d’apprentissage : en l’absence d’un nombre suffisant de neurones vierges (seulement une centaine par exemple), la population ne peut tout simplement pas s’auto-organiser. Mais nous avions aussi vu qu’au-delà un certain nombre, dépendant de la richesse de la base à encoder, la convergence était atteinte de manière invariante à la taille de population (cf. Chapitre III). Si nous n’avons pas cherché à déterminer de manière systématique cette taille minimale dans les deux types d’apprentissage présentés ici, il est néanmoins raisonnable de postuler que ces résultats représentent ceux qui seraient obtenus pour une large gamme de taille de population.

ii. l’influence du seuil : la quantité d’influx synaptique dont un neurone a besoin pour décharger va déterminer la qualité des représentations développées. Cela se traduit, dans le cas de l’apprentissage de V1 par exemple, par la production de barres orientées plus longues pour des seuils plus hauts, mais aussi de formes de moins en moins fidèles à leurs homologues biologiques (non montré ici). Mais d’un autre côté, la convergence sera toujours atteinte pour des valeurs de seuil raisonnables au vu de l’espace d’entrée à représenter (cf. Chapitre III) et donc des détecteurs de forme plus ou moins spécifiques développés, selon que le seuil est augmenté ou diminué.

En définitive, si l’influence de ces paramètres peut diminuer la portée explicative de nos résultats, le caractère convergent des apprentissages réalisés est manifestement solide. Cet algorithme de STDP, inspiré de la biologie, va donc fournir à SpikeNet, un système de traitement de l’information visuelle tout autant inspiré du fonctionnement du système visuel, un moyen par lequel développer ses propres représentations, inspirées des sélectivités de la voie ventrale. Plus précisément, SpikeNet va maintenant pouvoir déterminer, avec un minimum de connaissances préalables, des détecteurs de formes de plus en plus complexes, qui seront basés sur les sélectivités de la couche précédente, et modulés selon l’environnement auquel il sera exposé.

- – Conclusion –

-

- Des stratégies temporelles

-

- pour expliquer

-

Dans le document en fr (Page 184-190)