• Aucun résultat trouvé

Présentation des couches corticales de V1 permettant l’analogie Les flèches fines sont les prédictions du

modèle ; les flèches épaisses les connexions établies.

prédictions du modèle

L’auteur dérive plusieurs prédictions sur la connectivité des neurones de l’aire V1 : il prévoit l’existence de projections des couches 1 et 3 vers la couche 4B, de la couche 4Cα vers la couche 6 magnocellulaire, et l’existence de projections de la couche 4Cβ vers la couche 6 parvocellulaire. Physiologiquement, le modèle prévoit un effet réciproque d’amorçage entre les neurones des voies ascendante et descendantes dans la même aire, réalisé sur deux populations différentes de neurones. D’autre part, le modèle prévoit dans son principe des traitements descendants spécifiques aux classes d’objets mémorisées (compenser les effets d’illumination, de distorsion spécifique à la classe, comme dans le modèle de Vetter, Hurlbert et Poggio 1995) et de traitements ascendants de discrimination, filtrage et segmentation. Contrairement au réseau de régularisation, ces traitements descendants sont nécessaires au processus de reconnaissance.

spécificité du modèle de flux

Les voies descendantes jouent un rôle crucial dans ce schéma de reconnaissance en manipulant les objets mémorisés et en préparant la voie aux processus ascendants. Dans d’autres modèles ces voies sont plutôt employées dans des rôles d’attention sélective, de groupement et de ségrégation figure-fond, apprentissage, ou synchronisation neuronale. L’appariement entre entrée et modèle mémorisé peut se faire ici à tous les niveaux, et ne nécessite pas que des parties d’objets, si le modèle en inclut, soient précisément définies comme dans le modèle de Biederman.

b) le principe d’alignement

combinaison de vues

L’auteur propose que l’encodage d’objets réels se réalise par un encodage de quelques vues de l’objet sous différents angles. Mais contrairement à l’approche de Vetter, Hurlbert et Poggio, pour lesquels un très petit nombre de neurones réalise l’encodage d’une vue, Ullman suggère des représentations plus distribuées, des neurones pouvant être sélectifs à des parties spécifiques (composantes) ou des formes plus simples qui sont partagées par des représentations différentes. Par « vue mémorisée », Ullman entend donc un pattern d’activation d’un nombre important de neurones, pattern spécifique à une vue de l’objet, mais qui partage avec les autre vues de cet objet des activations communes.

alignement

Dans l’hypothèse d’alignement, reconnaître un objet équivaut à manipuler le pattern d’entrée pour qu’il « colle » à un pattern mémorisé, en extrayant des clés d’alignement comme les angles ou axes d’élongation ; si le pattern d’entrée est un pattern proche de celui mémorisé, il sera reconnu sans traitement supplémentaire : il est déjà « aligné » avec

lui. Mais si l’objet est vu sous un autre angle, sous des conditions d’éclairage, de taille différentes, le pattern d’entrée nécessitera des manipulations compensatrices qui généreront autant de patterns à comparer avec les vues mémorisées.

spécificité

Le processus est donc très différent d’une élaboration progressive d’une description de l’objet. Sans pour autant être une classification de vues par un réseau entièrement connecté, cette reconnaissance est comparable à l’approche de Poggio quant aux vues virtuelles considérées comme autant d’hypothèses à tester, comme le prévoit le schéma de Kosslyn. Ces représentations sont picturales et peuvent inclure des composantes comme dans l’approche structurale ; mais ces parties sont associées à un lieu sans le secours d’une catégorie de position (à côté de).

plausibilité

Schiller 1995 a montré que des lésions en V4 ou PIT affectent la capacité à reconnaître des images modifiées en taille, orientation ou illumination, alors que les images originales continuent à être facilement reconnues : en ce sens, les neurones des aires touchées peuvent être considérés comme effectuant la transformation compensatrice permettant d’apparier pattern d’entrée et vue mémorisée. De ce point de vue, les modifications de sélectivité des neurones au cours du temps (Richmond et Optican 1990 ; Oram et Perrett 1992; Heller et al. 1995 ) peuvent refléter le résultat de ce type de transformations : après les premières décharges (immédiatement sélectives, Celebrini et al. 1993), un raffinement du codage 80 ms après pourrait être la conjonction de boucles en retour d’informations issues de la voie magnocellulaire rapide avec l’activité ascendante des voies parvo- ou konio-cellulaires, beaucoup plus importante quantitativement que la première vague et en précision spatiale (proposé par Nowak et Bullier 1997).

Ces trois premiers modèles proposent des mécanismes de reconnaissance très différents, et en présentent des solutions globales : reconnaissance par composants, par classification et par alignement. L’approche des trois modèles suivants est plus proche des neurosciences, dans le sens où ils proposent des mécanismes d’encodage qui tentent d’éviter par construction les hypothèses problématiques des modèles généraux - processus descendants et traitements de classe.

2.4 routage dynamique

principe

Pour pouvoir reconnaître des objets dans n’importe quelle partie du champ visuel, van Essen, Anderson et Olshausen (Olshausen et al. 1993) proposent un mécanisme de déplacement attentionnel. Ce principe est analogue à celui discuté à propos du modèle de Kosslyn, postulé pour éviter la multiplication de représentations redondantes dans le système visuel. Le but du modèle de est de fournir un mécanisme biologiquement plausible de déplacement et de changement d’échelle des zones saillantes de l’entrée visuelle (Figure 6). Ce mécanisme est supposé faire partie intégrante de l’attention, elle-même nécessaire à la reconnaissance des objets.

Les auteurs considèrent que « la capacité à reconnaître un grand nombre de patterns complexes est computationnellement trop lourde pour utiliser un mécanisme neuronal répliqué séparément pour chaque lieu dans le champ visuel. (…) L’attention visuelle est un mécanisme qui régule le flux d’information pour extraire l’information du champ visuel approprié, dans un format approprié, vers un centre de reconnaissance de haut niveau approprié ».

Ayant postulé que l’attention doit « formater » la représentation de l’objet avant toute reconnaissance, les auteurs extraient les caractéristiques de la fenêtre attentionnelle :

• L’attention doit pouvoir être dirigée à différents lieux et à différentes échelles spatiales du champ visuel. Ces déplacements peuvent être initiés par des traits saillants ou des influences descendantes. Lors de l’émergence de traits saillants, les déplacements s’effectuent en un délai de 50-100 ms. L’attention est alors focalisée sur un voisinage du trait ayant déclenché le déplacement (et non lui seul) - mécanisme de gain.

• L’attention visuelle agit comme un goulot qui réduit à un niveau gérable la quantité de données atteignant les centres de reconnaissance (d’après les auteurs, 0.1% de l’information transmise par le nerf optique dépasse ce goulot).

• Les relations spatiales doivent être préservées dans la fenêtre attentionnelle ; cependant sa résolution spatiale est limitée à une résolution équivalente à 30x30 pixels.

Le principe est donc de postuler la très grande précision d’un seul traitement de reconnaissance, prenant généralement ses informations de la zone fovéale ; lorsqu’une zone de saillance est détectée à un autre endroit du champ visuel, l’attention focalisée sur ce lieu permet un recentrage des informations provenant de ce lieu par rapport au traitement.

architecture

Le mécanisme proposé est le suivant :

1. Une aire de saillance est définie à partir des traits de bas niveaux et/ou de la luminance ; cette aire est le résultat d’un mécanisme de pop-out.

2. Une de ces aires est sélectionnée (sur la base de sa taille ou de sa luminance), et la fenêtre attentionnelle est dimensionnée à sa taille et orientée sur sa position. Cet ajustement provient d’influences ascendantes.

3. Le contenu de la fenêtre (à haute résolution) est soumis à un module de reconnaissance (mémoire associative).

4. L’objet contenu dans la fenêtre est analogue à une vue mémorisée, donc reconnu. Sinon, la fenêtre est réajustée en taille et position pour coïncider avec la taille de la meilleure vue sélectionnée ; ce second ajustement provient donc d’influences descendantes.

5. Cette partie de la scène est inhibée, et le mécanisme attentionnel dirige la fenêtre vers l’aire de saillance suivante.

Ce modèle fait explicitement appel à deux modules de contrôle : le premier, chargé d’ajuster une première fois la fenêtre à l’aire de saillance ; le second ajuste la fenêtre au contenu de la mémoire associative. Ces deux modules sont le cœur du mécanisme de routage.

capacités et prédictions

Ce modèle accorde à l’attention visuelle un rôle de premier plan pour la reconnaissance. Les traits saillants sont détectés pré-attentivement et définissent une aire de saillance, sur laquelle se focalise l’attention, afin de formater l’entrée visuelle pour qu’une vue mémorisée y corresponde. Ce formatage a l’avantage de réduire le problème combinatoire de la reconnaissance – nombre d’entrées possibles pour nombre de vues mémorisées. Il a l’avantage de préserver de façon implicite les relations spatiales à l’intérieur de la fenêtre attentionnelle. Pour reconnaître les objets de la fenêtre, les neurones des aires de haut niveau (V4 et IT) doivent pouvoir moduler dynamiquement leurs champs récepteurs.

Figure 6 : Modèle de Olshausen, van Essen et Anderson (1993).