La perception visuelle est l’un des mécanismes les plus complexes du corps humain. Notre cerveau est capable d’analyser des scènes complexes en une fraction de seconde. De nombreux scientifiques travaillent sur la perception visuelle. L’étude complète des mécanismes mis en œuvre lors de l’interprétation d’une scène nécessite un large champ de compétences. La physique (l’optique) donne les lois qui régissent la lumière (et les couleurs) reçue par l’œil, la biologie per-met d’étudier l’œil en tant que récepteur de lumière, la médecine (neurobiologie) s’intéresse à la transmission et au décodage de la lumière perçue par la rétine au niveau du cerveau. Enfin la psychologie de la vision étudie le comportement et les réactions de notre système visuel. L’œil est un récepteur photo-sensible qui est capable de transmettre au cerveau des infor-mations à travers le nerf optique. Schématiquement, l’œil fonctionne comme une lentille conver-gente qui dirige le faisceau de lumière observé vers la rétine. La figure 4.3 présente la structure interne de l’œil. La rétine transmet l’information lumineuse au cerveau pour son décodage et son interprétation. FIG. 2.10 – Structure interne de l’œil. La médecine permet de connaître avec précision le fonctionnement de l’œil. La transmis-sion de l’information entre l’œil et le cerveau est un processus connu. La rétine est composée de plusieurs couches successives, elle possède des cellules neuronales photo-réceptrices. Ces neu-rones, dont le rôle est la transformation de l’image perçue en image neuronale, sont reliés au nerf optique. La rétine effectue donc un pré-traitement de l’image reçue avant d’envoyer des informations au cerveau [Wan95]. L’interprétation des informations reçues par le cerveau est un problème complexe. Comment interprète-t-on une image ? Les études menées en psychologie de la vision sont nombreuses [TB98]. Une théorie an-cienne (années 1920) effectue son retour au premier plan, c’est la théorie desgestalt[RYM99]. Dans cette théorie, le regroupement est le processus principal de la perception visuelle. Quand des points (ou des objets précédemment définis) possèdent une ou plusieurs ca-ractéristiques communes, ils sont regroupés pour former un objet visuel plus grand, ungestalt. Ce regroupement est effectué selon plusieurs lois de regroupement. Les lois utilisées par le cer-veau pour les regroupements sont des lois géométriques et perceptuelles simples : proximité, voisinage, continuité de direction, fermeture, parallélisme, couleur, expérience. . . La figure 2.11 donne des exemples de lois de regroupement utilisées par le cerveau pour l’association de primi-tives visuelles engestalts. Cette figure est issue d’un article qui illustre l’utilisation des propriétés de la théorie desgestaltsen vision artificielle [DMM04]. FIG. 2.11 – Exemples de lois de regroupement : proximité, similarité de forme et de tex-ture, continuité de direction, fermetex-ture, convexité, parallélisme, complétion amodale, couleur constante, continuité, fermeture par continuité, complétion de forme (d’après Desolneux et al.). Ces primitives définissent des lois gestalt utilisées dans notre système de vision. Notre vision fonctionne donc sur le principe du regroupement de primitives visuelles (gestalt) entre elles, partant d’objets fins pour arriver à des objets de plus en plus gros. C’est une approche fine à grossière (fine-to-coarse) qui part des atomes de vision pour arriver à des objets graphiques complexes. L’analyse en ondelettes est donc sans doute un excellent outil pour approcher ce mode de fonctionnement grâce à une décomposition multi-échelle des images traitées. Ce parallèle entre le fonctionnement de la vision chez les mammifères et l’analyse en on-delettes a déjà été formulée par Stéphane Mallat [Mal96]. Les imagettes d’approximation et les trois imagettes de détails donnent respectivement une approximation de l’image de départ (vue plus éloignée de l’image de départ) et les détails horizontaux, diagonaux et verticaux perdus lors du passage de l’image de départ à l’image transformée. Les trois imagettes de détails offrent la possibilité de détecter des primitives visuelles (gestalts) en raison de leur séparation en trois directions principales : horizontale, verticale et diagonale. Il y a deux niveaux de traitement dans l’interprétation visuelle des images [AB91] : un bas niveau (early vision) utilise le regroupement de gestaltset un haut-niveau d’interprétation (high-level vision) de la scène. Le principe fondamental de l’interprétation haut-niveau est d’in-terpréter des scènes de la façon la plus simple possible. La figure 2.12 montre quelques exemples d’illusions d’optique qui mettent en défaut notre interprétation haut-niveau en raison de regrou-pements erronés de primitives bas-niveau. FIG. 2.12 – Illusions d’optique. Dans les deux premiers dessins, notre perception détecte un triangle alors qu’il n’y en a pas. Dans les deux dessins suivants, on voit des images bimodales qui peuvent être interprétées de deux façon différentes. Si on demande à quelqu’un de dessiner une clé ou une tête de bonhomme, on obtiendra toujours une clé vue de côté et une tête vue de face car nous possédons des prototypes d’objets dans notre mémoire. Nous utilisons notre connaissance pour dessiner comme pour interpréter des scènes. Il existe deux modèles principaux de la perception visuelle haut-niveau [TB98]. Le premier modèle considère que le cerveau reconstruit les scènes 3D à partir de la vue 2D imprimée sur la rétine, c’est ladescription structurelle(structural description). Le second modèle estl’approche basée image(image-based) qui considère que la reconnaissance de scène est effectuée non pas par reconstruction 3D, mais par repérage de caractéristiques locales dans l’image envoyée par la rétine. Les résultats récents en neurophysiologie et en vision artificielle tendent à unifier ces deux modèles en considérant que l’approche basée image possède des lacunes qui sont palliées par l’introduction de données structurelles. La vision fonctionne donc par reconnaissance de carac-téristiques locales puis par regroupement de ces informations en structures globales. Les ondelettes permettent la décomposition des images en plusieurs niveaux de résolution, avec une échelle qui va d’une image grossière à une image très détaillée. Le cerveau humain utilise également cette approche pour décomposer une scène. Le système de recherche d’images développé possède la propriété de travailler tout comme le cerveau par raffinements succes-sifs en partant d’une approximation de la scène observée pour arriver à son interprétation en ajoutant des détails. Dans le document Analyse multirésolution pour la recherche et l'indexation d'images par le contenu dans les bases de données images - Application à la base d'images paléontologique Trans'Tyfipal (Page 40-43)