• Aucun résultat trouvé

C. Règle d’apprentissage L’activité d’un neurone se prolonge dans le temps, permettant aux neurones

3 les solutions proposées

3.1 construction des représentations

Pouvoir reconnaître un objet, c’est en avoir une forme de représentation invariante : si un consensus s’est dégagé ces dernières années en faveur de représentations analogues à des vues plutôt que des représentations en trois dimensions, il reste à déterminer comment et de quoi sont constituées ces vues. L’utilisation des vues ne semble poser de problèmes à aucun modèle : celui qui en est le plus éloigné par sa conception, celui de Hummel et Biederman, peut s’accommoder très bien d’un encodage dépendant de la vue dans ses couches hautes, à partir du « vocabulaire » descriptif réalisé dans ses couches 3 et 5. Quant au problème de la variabilité entre les vues d’un même objet, il peut être résolu par un mécanisme d’encodage distribué (à grande sélectivité grâce aux propriétés de dépression synaptique, Abbott et al. 1997), comme dans le modèle de Wallis et Rolls qui réalise aussi par feature matching une sorte d’interpolation des vues déjà encodées de manière analogue à l’interpolation prévue par les modèles du template matching. L’alternative se situe plutôt à propos de ce vocabulaire descriptif de vues : la construction des représentations visuelles se fait-elle à partir d’une description structurale, d’une construction progressive de traits réguliers, ou de transformations qui maintiennent la structure d’image ?

Contrairement aux évidences qui montrent que le mécanisme d’amorçage (priming) est davantage sensible aux composantes que partagent les images plutôt qu’aux traits d’angles et de contours (expériences de Biederman et Cooper 1991), les modèles du template matching conçoivent de transformer ou d’aligner des vues complètes au moyen de ces indices : modifier progressivement des distances ou des conditions d’éclairage pour accéder à une vue caractéristique de l’objet est considéré par leurs auteurs comme plus proche de ce qu’on connaît des neurones de la voie ventrale. On peut aussi émettre des doutes quant à l’utilisation de dessins dans les expériences de Biederman : la reconnaissance d’objets dessinés n’est-elle pas plus proche de l’acte du dessin plutôt que de l’identification de ces objets dans leurs milieux naturels ? Si c’était le cas, la catégorisation des relations spatiales décrite dans la RPC serait un mécanisme propre à la voie dorsale, mécanisme impliqué dans le phénomène de reconnaissance pour le cas particulier du dessin. Il est possible qu’il existe des neurones sélectifs aux catégories de position, mais l’utilisation de ces catégories pour reconnaître des images naturelles nous semble superflue.

La reconnaissance illusoire est le principal problème rencontré par les modèles de feature matching : si l’encodage d’objet est seulement caractérisé par une collection de traits ou composantes, sans posséder de repères spatiaux explicites (RPC) ou implicites (vues complètes), un même ensemble de traits peut correspondre à plusieurs objets ou même provoquer l’illusion d’un objet qui n’est pas dans l’image. Les modèles qui

problème de « reconnaître » aussi les objets aux traits mélangés (modèle de Mel, Mel 1997). Certains auteurs insistent sur le rôle des processus descendants (top-down) pour pallier cet inconvénient et sur le rôle du contexte ; la place des processus descendants sera discutée dans un paragraphe ultérieur. Cependant, se pose de manière beaucoup plus cruciale pour ces modèles le problème du binding, de l’association de traits pour former une représentation cohérente.

3.2 liage et invariance à la position

Le problème du binding est de reconnaître individuellement des traits particuliers dont l’arrangement spatial doit être conservé à n’importe quel endroit du champ visuel. Poggio et Ullman résolvent ce problème en mettant en œuvre des normalisations sur la position par des traitements de haut niveau ; Kosslyn l’évite, en postulant un déplacement de la fenêtre attentionnelle pour chaque objet à reconnaître : l’objet est donc toujours centré, cette fois-ci par rapport au « spot » de l’attention. Des solutions plus plausibles sont avancées par von der Malsburg qui propose un liage dynamique par synchronisation des réponses neuronales, comme celui implanté dans le modèle de Biederman.

Comme il a été relevé plus haut, le problème est d’autant plus crucial pour les modèles du feature matching : ils doivent mettre en œuvre un liage qui à la fois associe les traits entre eux (de quoi est composé l’objet) et rende compte de leur configuration spatiale. Or réaliser le premier assure d’une reconnaissance invariante (par translation, rotation, taille), mais réaliser le second pénalise cette invariance (rend la représentation rigide). Le modèle de Thorpe et Gautrais contourne ce problème et réalise l’invariance en postulant des représentations multiples parallèles et rétinotopiques, mais le modèle n’a pas prétention de plausibilité sur ce plan. C’est à cet égard que la solution proposée par Wallis et Rolls est décisive pour ces modèles : en plus du parallélisme massif, l’invariance par translation est achevée progressivement dans la structure du réseau où les derniers neurones ont un champ récepteur de la taille de la couche d’entrée. La rétinotopie complète des premières couches se transmet partiellement à la couche suivante, dans un réseau convergent vers des représentations de plus en plus élaborées. La structure résout le problème du binding puisque ces représentations élaborées sont construites à l’aide de cette convergence. C’est somme toute ce qui est observé dans le système visuel, si l’on admet le parallélisme à tous les niveaux de traitements ; la solution proposée par Rolls d’un mécanisme de potentiation synaptique permettant de saisir les régularités de l’entrée par redondance dans le temps est particulièrement élégante.

3.3 accès aux catégories

Les modèles actuels de la reconnaissance des objets ne réalisent correctement la reconnaissance qu’au niveau des catégories de base, à moins qu’ils ne se spécialisent dans la reconnaissance de membres d’une catégorie particulière, la plus rencontrée étant la

classe des visages. L’absence de modèles plus complets capables de reconnaître aussi bien individus que classes n’est pas seulement un choix de simplicité pour les modèles, dont on pourrait penser qu’ils puissent réaliser un modèle complet par la multiplication des modules ou des neurones constituant les réseaux. L’illustration du problème est particulièrement claire pour les modèles de la reconnaissance par vues complètes (template matching), qui proposent que l’accès à la catégorie de base soit un préalable à la reconnaissance de l’objet individualisé : tous ces modèles suggèrent que l’accès à la catégorie permette de définir des transformations nécessaires pour individualiser l’objet (l’instancier). Le problème n’est pas ici dans le codage, puisque nous voyons le modèle de Poggio-Edelman (possédant des neurones répondant à la vue complète) et le modèle de Ullman (proposant un codage distribué) se heurtant à cette nécessité. Cette nécessité vient de l’idée que l’accès à la catégorie est réalisable par une reconnaissance grossière, ou la reconnaissance d’une vue « floue » de l’objet (Poggio), et que l’accès direct au niveau sous-ordonné est un cas particulier, restreint au cas rare où un indice particulièrement saillant ou le contexte permette un raccourci dans le processus de reconnaissance (voir le problème de la sélection initiale du modèle de Ullman) : l’inspiration de cette idée vient évidemment de l’expérience citée au début de ce chapitre, dans laquelle une moyenne des objets membres est perçue elle aussi comme membre de la classe.

Or les modèles psychologiques de formation des catégories (perceptives ou abstraites) et de classification reconnaissent depuis les travaux de Rosch 1975 (cf. Rosch 1978; Kleiber 1990), que « le prototype est simplement un moyen commode pour parler de typicalité », et que « ce sont les effets prototypiques qui sont important pour l’organisation catégorielle » (Kant 1996). Ces effets sont dus à une combinaison typique de traits, plutôt qu’à un prototype défini par une instance de la catégorie, et les traits typiques, « qui correspondent à l’intersection des sous-catégories (..), sont caractérisés par des similarités locales et non plus globales entre membres de la catégorie ». Les modèles du feature matching sont donc plus à même de conjuguer identification et catégorisation.

La réponse la plus complète à ce problème est donnée par Biederman, dont le modèle est conçu précisément pour rendre compte de cette combinaison de traits. Le réseau est capable d’effectuer une tâche d’identification d’objets dessinés quelle que soit leur catégorie, et une extension simple à ce réseau serait de mettre en œuvre un accès simultané à l’instance de l’objet et à sa catégorie de base. Les traits typiques sont ici les géons, liés dynamiquement au prix d’un accès explicite aux catégories de relations spatiales.