• Aucun résultat trouvé

La perception visuelle est l’un des mécanismes les plus complexes du corps humain. Notre

cerveau est capable d’analyser des scènes complexes en une fraction de seconde. De nombreux

scientifiques travaillent sur la perception visuelle. L’étude complète des mécanismes mis en

œuvre lors de l’interprétation d’une scène nécessite un large champ de compétences. La physique

(l’optique) donne les lois qui régissent la lumière (et les couleurs) reçue par l’œil, la biologie

per-met d’étudier l’œil en tant que récepteur de lumière, la médecine (neurobiologie) s’intéresse à

la transmission et au décodage de la lumière perçue par la rétine au niveau du cerveau. Enfin la

psychologie de la vision étudie le comportement et les réactions de notre système visuel.

L’œil est un récepteur photo-sensible qui est capable de transmettre au cerveau des

infor-mations à travers le nerf optique. Schématiquement, l’œil fonctionne comme une lentille

conver-gente qui dirige le faisceau de lumière observé vers la rétine. La figure 4.3 présente la structure

interne de l’œil. La rétine transmet l’information lumineuse au cerveau pour son décodage et

son interprétation.

FIG. 2.10 – Structure interne de l’œil.

La médecine permet de connaître avec précision le fonctionnement de l’œil. La

transmis-sion de l’information entre l’œil et le cerveau est un processus connu. La rétine est composée de

plusieurs couches successives, elle possède des cellules neuronales photo-réceptrices. Ces

neu-rones, dont le rôle est la transformation de l’image perçue en image neuronale, sont reliés au

nerf optique. La rétine effectue donc un pré-traitement de l’image reçue avant d’envoyer des

informations au cerveau [Wan95]. L’interprétation des informations reçues par le cerveau est un

problème complexe. Comment interprète-t-on une image ?

Les études menées en psychologie de la vision sont nombreuses [TB98]. Une théorie

an-cienne (années 1920) effectue son retour au premier plan, c’est la théorie desgestalt[RYM99].

Dans cette théorie, le regroupement est le processus principal de la perception visuelle.

Quand des points (ou des objets précédemment définis) possèdent une ou plusieurs

ca-ractéristiques communes, ils sont regroupés pour former un objet visuel plus grand, ungestalt.

Ce regroupement est effectué selon plusieurs lois de regroupement. Les lois utilisées par le

cer-veau pour les regroupements sont des lois géométriques et perceptuelles simples : proximité,

voisinage, continuité de direction, fermeture, parallélisme, couleur, expérience. . . La figure 2.11

donne des exemples de lois de regroupement utilisées par le cerveau pour l’association de

primi-tives visuelles engestalts. Cette figure est issue d’un article qui illustre l’utilisation des propriétés

de la théorie desgestaltsen vision artificielle [DMM04].

FIG. 2.11 – Exemples de lois de regroupement : proximité, similarité de forme et de

tex-ture, continuité de direction, fermetex-ture, convexité, parallélisme, complétion amodale, couleur

constante, continuité, fermeture par continuité, complétion de forme (d’après Desolneux et al.).

Ces primitives définissent des lois gestalt utilisées dans notre système de vision. Notre vision

fonctionne donc sur le principe du regroupement de primitives visuelles (gestalt) entre elles,

partant d’objets fins pour arriver à des objets de plus en plus gros. C’est une approche fine

à grossière (fine-to-coarse) qui part des atomes de vision pour arriver à des objets graphiques

complexes. L’analyse en ondelettes est donc sans doute un excellent outil pour approcher ce

mode de fonctionnement grâce à une décomposition multi-échelle des images traitées.

Ce parallèle entre le fonctionnement de la vision chez les mammifères et l’analyse en

on-delettes a déjà été formulée par Stéphane Mallat [Mal96]. Les imagettes d’approximation et les

trois imagettes de détails donnent respectivement une approximation de l’image de départ (vue

plus éloignée de l’image de départ) et les détails horizontaux, diagonaux et verticaux perdus

lors du passage de l’image de départ à l’image transformée. Les trois imagettes de détails offrent

la possibilité de détecter des primitives visuelles (gestalts) en raison de leur séparation en trois

directions principales : horizontale, verticale et diagonale.

Il y a deux niveaux de traitement dans l’interprétation visuelle des images [AB91] : un

bas niveau (early vision) utilise le regroupement de gestaltset un haut-niveau d’interprétation

(high-level vision) de la scène. Le principe fondamental de l’interprétation haut-niveau est

d’in-terpréter des scènes de la façon la plus simple possible. La figure 2.12 montre quelques exemples

d’illusions d’optique qui mettent en défaut notre interprétation haut-niveau en raison de

regrou-pements erronés de primitives bas-niveau.

FIG. 2.12 – Illusions d’optique. Dans les deux premiers dessins, notre perception détecte un

triangle alors qu’il n’y en a pas. Dans les deux dessins suivants, on voit des images bimodales qui

peuvent être interprétées de deux façon différentes.

Si on demande à quelqu’un de dessiner une clé ou une tête de bonhomme, on obtiendra

toujours une clé vue de côté et une tête vue de face car nous possédons des prototypes d’objets

dans notre mémoire. Nous utilisons notre connaissance pour dessiner comme pour interpréter

des scènes.

Il existe deux modèles principaux de la perception visuelle haut-niveau [TB98]. Le premier

modèle considère que le cerveau reconstruit les scènes 3D à partir de la vue 2D imprimée sur la

rétine, c’est ladescription structurelle(structural description). Le second modèle estl’approche

basée image(image-based) qui considère que la reconnaissance de scène est effectuée non pas

par reconstruction 3D, mais par repérage de caractéristiques locales dans l’image envoyée par la

rétine.

Les résultats récents en neurophysiologie et en vision artificielle tendent à unifier ces deux

modèles en considérant que l’approche basée image possède des lacunes qui sont palliées par

l’introduction de données structurelles. La vision fonctionne donc par reconnaissance de

carac-téristiques locales puis par regroupement de ces informations en structures globales.

Les ondelettes permettent la décomposition des images en plusieurs niveaux de résolution,

avec une échelle qui va d’une image grossière à une image très détaillée. Le cerveau humain

utilise également cette approche pour décomposer une scène. Le système de recherche d’images

développé possède la propriété de travailler tout comme le cerveau par raffinements

succes-sifs en partant d’une approximation de la scène observée pour arriver à son interprétation en

ajoutant des détails.