• Aucun résultat trouvé

Les images naturelles

Dans le document en fr (Page 172-177)

Apprentissage de sélectivités inspirées de la voie ventrale

2. Émergence de champs récepteurs simples de

2.2. Les images naturelles

La base d’images utilisées en entrée va tâcher cette fois de rendre compte de conditions de stimulations plus naturelles que celles induites par l’utilisation d’une base fermée de visages détourés. Pour satisfaire cette condition, nous sommes partis d’un ensemble de 1673 images naturelles représentant des scènes naturelles en noir et blanc. En sont extraits des bouts de 15 pixels par 15, c’est-à-dire de la taille des champs récepteurs des unités en apprentissage (Figure

IV.2).

Maintenant comment choisir ces bouts d’image ? Les images naturelles présentent de grandes zones uniformes en termes de luminance (voir pour exemple l’arrière-plan sombre sur la photo de l’aigle, Figure IV.2). Laisser le hasard déterminer l’emplacement de ces bouts dans l’image amènerait donc la présentation massive de bouts d’images peu susceptibles d’exciter une rétine sensible au contraste dans l’image. Nous allons donc procéder à une présélection de zones dans l’image présentant les plus grandes variabilités de luminance. Cette heuristique repose sur la préférence du regard à se poser sur des zones informatives (Liversedge & Findlay, 2000), telles que des zones à haut contraste par exemple (Mannan, Ruddock & Wooding, 1997). Concrètement, les variabilités de luminance sont calculées sur tous les bouts possibles issus de 400 images choisies aléatoirement dans la base. Un seuil de variabilité est déterminé pour correspondre au 5% de bouts dont les luminances sont les plus variables. Un maximum de 64 bouts par image est ensuite sélectionné pour constituer une base finale de 57.190 éléments (soit moins que le maximum théorique de 1673 * 64 = 107.072, étant donne que certaines images avaient moins de 64 bouts dont la luminance dépassait le seuil de variabilité). Ainsi, un de ces

bouts d’image, tous représentatifs de la structure des scènes naturelles, va être choisi aléatoirement à chaque étape dans la base pour être présenté au modèle de rétine.

Figure IV.2 Bouts d’images naturelles. Exemples de bouts (à droite et gauche de la photo correspondante) extraits de 4 images de la base initiale, composées de scènes naturelles avec ou sans animaux (1.673 au total). Ces morceaux d’images font 15 par 15 pixels et sont centrés sur les zones exhibant la plus grande variabilité de luminance. Un maximum de 64 peuvent être extrait de chaque image (ici, seul un sous-ensemble est montré).

2.3. Résultats

À chaque présentation d’images, une rétine évoque une vague asynchrone d’impulsions plongées dans des conditions de bruit biologiquement réalistes. Cette activité est reçue par un ensemble de neurones à STDP mis en compétition par un circuit récurrent d’inhibition. La première unité à produire une réponse apprend le motif d’activité et déclenche un processus de STDP consistant à renforcer les entrées reçues avant que l’unité ne décharge et à déprimer celles qui sont reçues après. Les stimulations sont répétées ainsi 3.000.000 de fois, avant d’être arrêtées pour cause de temps de calcul. À ce stade en effet, la simulation a déjà pris plusieurs jours, mais a produit 274 neurones au stade de maturité supérieur à 90%, qui produisent plus de 90% des réponses ; chercher à atteindre les 1000 réponses consécutives par des neurones matures aurait demandé un temps astronomique (Figure IV.3 A-B).

Figure IV.3 Résultats (apprentissage de ‘V1’). (A) Etat de maturation. Distribution des indices de maturité des 1.024 neurones de la simulation, après 3.000.000 de présentations. En diadèmes, des sélectivités représentatives des neurones à l’indice de croissance correspondant. La simulation a été arrêtée principalement pour des raisons de temps de calcul. Si la plupart des neurones n’ont pas atteint le niveau de maturation attendu de 90%, 274 y ont stabilisé leur sélectivité. (B) Pourcentage des décharges produites par des neurones matures, calculé sur les 1000 dernières réponses, en fonction du nombre de présentations. (C) Réduction de latence. La latence postsynaptique moyenne (calculée ici sur une fenêtre coulissante de 1.000 présentations) diminue pour atteindre un niveau relativement stable de réponse. Aprés 3.000.000 de présentations, le gain de latence postsynaptique est relativement faible (de 22,3 ms à 21,6 ms ; Figure IV.3 C). La cause en est que le seuil est ici très faible, pour rendre compte du faible nombre d’afférences (450) induit par la taille des champs récepteurs et les 2 types de filtre présents dans la couche de propagation (« ON- » et « OFF-center »). Cela contribue à produire des premières réponses courtes. Mais au final, les latences postsynaptiques ont atteint un caractère très stable ; les décharges des neurones en apprentissage ont donc appris à produire des réponses reproductibles.

Quelles formes vont adopter les champs récepteurs des unités ayant atteint le stade de maturité et produisant plus de 90% des réponses? Celles-ci ont très clairement appris à être sélectives à des barres orientées placées en différents endroits du champ récepteur (Figure IV.4A). Nous pouvons remarquer la présence d’une cellule dont la sélectivité ne ressemble pas à une orientation, mais plutôt à un angle (cellule entourée dans la Figure IV.4A). Cependant, sa rareté (moins de 0,5% des neurones matures) peut refléter le fait que dans V1, tous les neurones ne traitent pas que des orientations, mais qu’exceptionnellement, des sélectivités plus atypiques pourraient apparaître. Car de fait, la population en apprentissage a développé des sélectivités typiquement associées au cortex visuel primaire.

2.4. Conclusion

Il a déjà été montré que la STDP pouvait être impliquée dans le développement de champs récepteurs du type cellules simples de V1, où les entrées géniculées les plus corrélées sont renforcées alors que les moins corrélées sont déprimées (Miller, 1994). Nous avons pu montrer ici que des détecteurs d’orientation pouvaient aussi être développés par STDP en utilisant un type de codage différent, basé sur la latence d’une seule décharge par afférence, et donc compatible avec les contraintes biologiques pesant sur le traitement visuel rapide (Thorpe & Imbert, 1989).

La STDP regroupe les stimulations les plus proches, sur la base des toutes premières décharges que ces stimulations émettent. Pour cela, la STDP va renforcer les entrées tendant à arriver en premier et déprimer les suivantes. Or ces entrées sont déterminées par la présentation de bouts d’images naturelles, choisies pour avoir les distributions de luminance les plus variables, et donc les plus susceptibles d’attirer le regard. Cette heuristique ne favorise donc pas a priori la présence d’orientations dans ces bouts d’image et cependant ce type de sélectivité émergent au niveau de V1. Pourquoi ? La raison en est que des lignes saillantes diversement orientées sont des motifs très répandus dans la nature, à même de fournir le code le plus efficace pour décrire des images naturelles à petite échelle et à bas niveau, celui de V1 (Olshausen & Field, 1996). Ces lignes saillantes présentes dans les images naturelles vont exciter des cellules « ON-» et « OFF-center » alignées. Celles-ci vont donc constituer les décharges les plus précoces, ainsi que les plus fréquentes, des vagues d’impulsions évoquées par les présentations d’image. Ces décharges

alignées seront donc renforcées par STDP, pour constituer in fine des sélectivités aux barres orientées, selon la définition de Hubel & Wiesel (1962).

Figure IV.4 Emergence de sélectivités de cellules simples (V1). Champs récepteurs exhibant des barres orientées localisées (hormis pour la cellule entourée), (A) des 274 neurones matures (classés de haut en bas et de gauche à droite par ordre décroissant de maturité) (B) comparés à ceux qui sont obtenus par Olshausen & Field (1996).

D’autres mécanismes peuvent, bien entendu, étendre, voire expliquer, les sélectivités de V1 (revue dans Ferster & Miller, 2000), qui semblent par ailleurs déjà bien en place à la naissance pour que l’expérience visuelle ne joue qu’un rôle d’affinage (Movshon & Van Sluyters, 1981 ; Frégnac & Imbert, 1984). Mais dans notre modèle, la sélectivité à l’orientation n’est en rien

spécifiée à l’avance dans la configuration des poids synaptiques et émergent néanmoins de l’exposition à des scènes naturelles, de par le codage par latence de l’information visuelle, la STDP et le circuit d’inhibition locale. Donc, si un faible, ou a fortiori un fort, degré de sélectivité à l’orientation était déjà présent dans nos cellules de V1, un résultat identique serait d’autant plus rapidement atteint.

Maintenant, au fur et à mesure que l’on remonte la voie ventrale, de V1 à IT via V2 et V4, les sélectivités des aires considérées ne sont-elles pas de plus en plus spécifiées par l’expérience ? Après tout, on trouve dans les aires les plus hautes de la voie ventrale des neurones répondant sélectivement à des bâtiments célèbres ou, plus remarquablement, à des acteurs de cinéma (Quiroga, Reddy, Kreiman, Koch & Fried, 2005). De telles sélectivités doivent nécessairement être le résultat de l’expérience, et leur apparition liée à une forme ou une autre de processus Hebbien. Comme nous essaierons de le montrer par la suite, la STDP pourrait justement remplir ce rôle, pourvu que le traitement visuel s’appuie, au moins en partie, sur un codage par latence de l’information présente dans l’environnement.

Mais revenons d’abord sur une autre conséquence de nos résultats : les réponses postsynaptiques acquièrent un caractère stable, et donc reproductible. Il est alors intéressant de rappeler que selon la théorie du traitement visuel rapide une vague asynchrone de décharges, initiée dans la rétine et régénérée à chaque étape de traitement, encode avec ses toutes premières décharges les éléments de l’image les plus saillants définis selon les sélectivités locales (VanRullen & Thorpe, 2002; VanRullen, 2003). Or la STDP développe, après la rétine, une couche de neurones reproduisant et les propriétés de sélectivité à l’orientation des cellules simples de V1 et la production de réponses stables. Dans SpikeNet, la STDP permettrait donc de reproduire, au terme de l’apprentissage, la proposition théorique de reproductibilité des réponses, dans une couche recevant l’activité de la rétine et conforme aux sélectivités observées dans le cortex visuel primaire.

En conséquence la couche d’apprentissage arrivée à maturation peut alors servir de couche de propagation, puisqu’elle intègre le principe de codage par latence. L’apprentissage par STDP peut donc être réitéré mais cette fois à un niveau supérieur, pour développer ce qui pourrait être des représentations intermédiaires situées plus haut dans le système visuel.

Dans le document en fr (Page 172-177)