• Aucun résultat trouvé

Il convient maintenant de déterminer explicitement les contraintes à imposer à un modèle du système visuel pour qu'il soit compatible avec la dynamique que nous avons mise à jour.

1. La première contrainte est que le système visuel doit être capable de catégoriser des images achromatiques aussi rapidement que des images en couleur. Un modèle du système visuel minimaliste doit donc être capable de catégoriser les objets en NB et pouvoir s'affranchir de la couleur.

136 II.7 - C O N S E Q U E N C E S D E L A C A T E G O R I S A T I O N U L T R A - R A P I D E

2. La seconde contrainte est que le traitement visuel doit pouvoir s'effectuer de façon

feedforward. Je pense que j'ai introduit suffisamment d'arguments en faveur d'un tel

processus. Le modèle devra donc intégrer l'organisation hiérarchique du système visuel et la propagation de l'activité neuronale devra se faire dans un seul sens, des aires de bas- niveau, vers les aires de haut-niveau. Au sein d'une couche neuronale, les neurones ne pourront pas faire appel à des processus de feedback dynamique.

3. La vitesse de propagation dans le traitement visuel impose également des contraintes sur la dynamique de réponse des neurones. Thorpe et Imbert (1989), en suivant un raisonnement limpide, montrent à la fois la nécessité d'un traitement feedforward et tentent d'expliquer la dynamique de traitement dans le système visuel pour qu'un neurone devienne sélectif à un objet complexe dans IT, seulement 100 ms après la présentation de l'image. Étant donné le nombre d'étapes neuronales à traverser pour atteindre IT (environ une dizaine), la fréquence maximale de décharge des neurones (100 décharges par seconde), et en comptant à peu près 10 ms par étape d'intégration synaptique, chaque neurone ne peut pas décharger plus d'une fois (figure 7.2). Un modèle de traitement visuel, devrait donc pouvoir être capable de rendre compte de la sélectivité des réponses dans le système visuel avec uniquement une seule décharge par neurone.

4. Dans ces conditions, il est nécessaire pour les neurones d'utiliser un autre moyen de codage de l'information visuelle que la fréquence de décharge, qui nécessite plusieurs décharges par neurone. Il est toujours possible d'utiliser un grand nombre de neurones, et d'estimer la fréquence de décharge sur cette population. Cependant, cela nécessitera un

Figure 7.2 : représentation schématique du traitement visuel et de la réponse comportementale chez le singe dans la tâche de catégorisation. Le flèches indiquent les transferts d'information entre les différentes aires corticales, visuelles (V1, V2, V4, PIT, AIT), et frontales (PFCx, PMCx, MCx) avant d'être redirigées vers la moelle épinière et les muscles de la main qui permettent au sujet de relâcher le bouton. Pour la nomenclature des aires visuelles, se reporter à la figure I.2.3. Adapté de Thorpe (2000). PFCx PMCx MCx Moelle épinière Muscles Retine LGN V1 V2 V4 AIT PIT

137 II.7 - C O N S E Q U E N C E S D E L A C A T E G O R I S A T I O N U L T R A - R A P I D E

très grand nombre de neurones pour n'encoder qu'une seule valeur (Gautrais et Thorpe, 1998). Il est peu probable que les systèmes neuronaux favorisent un tel gaspillage d'énergie. Thorpe (1990) a imaginé un codage par population bien plus simple, dans lequel la latence relative de décharge des neurones encode le stimulus. La latence de décharge des neurones dépendant du contraste du stimulus présenté, il est possible de reconstruire l'image initiale à partir des latences de décharges des neurones de l'ensemble de la population (figure 7.3). Ce type de comportement correspond, dans une certaine mesure, à celui des neurones dans la rétine suite à un stimulus flashé. De cette façon, avec uniquement une seule décharge par neurone, il est possible d'encoder un stimulus complexe. Il est couramment admis que c'est la fréquence de décharge des neurones qui permet aux neurones de communiquer et cette hypothèse est donc novatrice. Elle ne signifie pas que la fréquence de décharge des neurones n'intervienne pas : simplement, les contraintes de la sélectivité rapide des neurones dans le système visuel font qu'elle n'est pas adaptée pour effectuer des traitements rapides suite à la présentation d'un stimulus. Les processus de codage de population que nous allons voir dans la partie suivante interviennent très probablement pour des stimuli apparaissant subitement, variant très rapidement ou suite à une saccade. Le modèle du traitement visuel que nous allons construire prendra en compte cette hypothèse de codage neuronal. Comme nous le verrons, un codage de population permet aux neurones de répondre très rapidement et de façon très sélective.

Figure 7.3 : à gauche, exemple de conversion d’une activation analogique en latence de décharge des neurones. La latence de décharge du neurone rend compte de l'intensité du stimulus, précoce pour les stimuli de forte intensité et tardive pour les stimuli de faible intensité. A droite, le délai d’activation de 6 neurones en fonction de l’intensité d'un stimulus à une dimension est représenté. La latence relative de décharge des neurones représente l'intensité du stimulus en chaque point. Un processus similaire a lieu dans la rétine quand une image est présentée : en chaque point de l'image, la latence de décharge des neurones dépend du contraste local dans l'image. Ce type d'information peut ensuite être intégré par des neurones cibles (non représentés). Adapté de Thorpe et Gautrais (1998).

A B C D E F

Act ivat ion

-80 -60 -40 -20 0 20 40 60 0 20 40 60 80 Temps Faible Intermédiaire Intense mV

138 II.7 - C O N S E Q U E N C E S D E L A C A T E G O R I S A T I O N U L T R A - R A P I D E

Dans la seconde partie, je vais tenter de construire des modèles de propagation des décharges neuronales dans le système visuel compatibles avec ces contraintes. Je m'attacherai à la fois à réaliser des modèles biologiquement plausibles mais également computationnellement efficaces. Même si beaucoup de modèles du système visuel existent, très peu semblent pouvoir approcher les performances de celui-ci en terme de traitement d'images. Les 4 contraintes que j'ai indiquées sont excessivement restrictives et on voit mal comment on pourrait construire un modèle du système visuel efficace quand on sait quelles difficultés rencontrent les algorithmes de traitement d'images mathématiques et symboliques en intelligence artificielle. Cependant nous verrons que, malgré ces contraintes, l'efficacité des modèles que je vais présenter est redoutable, notamment en ce qui concerne la reconnaissance d'objets. Nous verrons comment, en implémentant des règles simples issues de la biologie, il est possible de développer un modèle artificiel du système visuel capable d'effectuer des tâches très complexes qui rivalisent avec les meilleurs systèmes experts de traitement d'image. Il semble que des milliers d'années d'évolution ont permis de contraindre et d'optimiser la rapidité et la précision de notre système visuel.

III

Modèles computationnels