• Aucun résultat trouvé

Une représentation perceptuelle rapidement disponible : Le gist perceptuel

5. La reconnaissance d’une scène naturelle d’un seul regard…

5.2. Une représentation perceptuelle rapidement disponible : Le gist perceptuel

Les études décrites précédemment visaient à mieux comprendre l’intégration d’informations sémantiques au sein de scènes visuelles plutôt que l’extraction d’un percept physique proprement dit. Ainsi, la première notion de gist et la plus généralement utilisée correspond à l’essentiel sémantique d’une scène, dont la représentation dépendrait majoritairement des aires visuelles de haut-niveau. Plus récemment, Oliva proposa de préciser la nature du gist en suggérant l’idée d’un gist perceptif et d’un gist conceptuel, chacun dépendant d’étapes de traitements hiérarchiques différentes lors de la perception de scènes (Oliva, 2005). Dans le cadre de la recherche sur les scènes naturelles, les notions de gist et de layout sont utilisées de manière croissante. Si chacun de ces termes ont pour origine des études différentes, ils sont néanmoins très complémentaires et désormais communément utilisés. Il est de ce fait important de définir à quoi se réfère chacun d’entre eux pour éviter de possibles confusions, d’autant que certaines différences peuvent apparaitre subtiles. Au sein d’une scène naturelle, les informations visuelles n’ont pas la même valeur et leurs traitements sont soumis à des décours temporels différents. Dans tous les cas, l’information initiale correspond à un percept physique dont découle progressivement la construction d’une représentation sémantique indispensable à la compréhension du monde. Ce percept physique ou gist perceptuel est sous-tendu par la structure spatiale de la scène (ou spatial layout)

Le gist percepuel vs. gist conceptuel

Le gist perceptuel reposerait sur l’extraction précoce puis l’intégration d’informations physiques globales diagnostiques de la scène. Le gist perceptuel ainsi construit serait suffisant pour construire une représentation globale de la scène ne correspondant pas obligatoirement à l’essentiel sémantique de cette même scène. Tandis que le gist conceptuel de la photographie Figure 18.A

Ces scène

intégrée différemment selon les modèles et auteurs.

caractéristiques globales feraient partie intégrante de la structure spatiale de la

Figu e n°18 : Tandis que le gist conceptuel de la scène A pourrait correspondre à une scène de carnaval, son gist perc tuel activerait la représentation scène de rue. La structure spatiale en partie porteuse du gist perceptuel pou t dépendre des fréquences spatiales et des textures des images C et D tirées de (Oliva, 2005).

La structure spatiale d’une scène

r ep rrai

Au sein d’une scène naturelle, les informations physiques globales organisées spatialement sur l’ensemble de la scène, vont constituer la structure spatiale de la scène, en anglais « spatial layout ». Cette structure spatiale s’appuie sur les caractéristiques physiques de l’ensemble de la scène, aussi bien les objets que le contexte. Evidemment, ce sont les entités de surface importante qui vont majoritairement participer à la structure spatiale. La nature de l’information participant à la structure spatiale est cependant encore incertaine. Certaines études suggèrent la contribution de volumes en 3 dimensions organisés, les géons (Biederman, 1995), d’autres proposent un arrangement de formes de couleurs et contrastes spécifiques (Oliva & Schyns, 2000, Schyns & Oliva, 1994) pouvant dépendre des

chyns & Oliva, 1994 , Torralba & Oliva, 002).

Cette structure spatiale constituerait un cadre de référence suffisant pour se repérer dans la scène et pour faciliter des tâches visuelles purement physiques telle qu’une estimation de la profondeur des objets (Sanocki & Epstein, 1997). En effet, utilisant un protocole d’amorçage (« priming »), Sanocki & Epstein ont présenté à des sujets des scènes comportant à chaque fois deux objets identiques côte à côte mais décalés en profondeur, la tâche des sujets étant de déterminer le plus rapidement possible quel objet (celui de gauche ou celui de droite) était le plus proche. La structure spatiale de l’amorce visuelle pouvait être soit identique, soit différente de celle de la cible, ou encore être absente. De plus, les scènes d’amorçage étaient plus ou moins complexes (dessin à la main ou photographie), certaines contenant une information sémantique et d’autres non. Les auteurs ont ainsi montré que les sujets répondaient plus rapidement à la tâche lorsque amorce et cible avaient la même structure spatiale indépendamment de la présence d’informations sémantiques. Ils démontrent ainsi que la structure spatiale a une utilité propre, au moins dans des tâches de décision purement perceptives. Il a également été démontré que mélanger les portions d’images constitutives d’une scène entraînait une baisse de performance dans le choix forcé du label de cette scène (Biederman, Rabinowitz, Glass & Stacy, 1974). Cependant, un tel réarrangement porte

ans le cadre des modèles suggérant une analyse globale de la scène précédant les atiale des scènes pourrait constituer la première information physique intégrée exploitable par notre système perceptif. Selon l’hypothèse des schémas de scè

informations physiques globales bas-niveau telles que les fréquences spatiales et les textures (Figure 18 B, Oliva, 2005, Oliva & Torralba, 2001, S

2

atteinte aussi bien à la structure spatiale qu’au gist conceptuel, il est donc peu évident de faire la part des choses en ce qui concerne la participation de chacun dans une telle tâche.

D

analyses locales, cette structure sp

nes (« scene schema hypothesis » ; Antes, Penland & Metzger, 1981, Biederman, 1981, De Graef, De Troy & D'Ydewalle, 1992, Henderson, 1992), le gist perceptuel rapidement intégré pourrait être comparé avec les représentations de scènes stockées en mémoire afin de guider les traitements visuels descendants vers les informations visuelles à affiner. Le prochain chapitre décrivant différents modèles de reconnaissance de scènes naturelles, précisera comment le gist perceptuel d’une image est différemment construit selon les défenseurs d’une reconnaissance des scènes naturelles basée principalement sur une analyse globale préalable à l’analyse locale.

reconnaissance d’une scène en tant qu’ensemble d’objets

emps un obj

age entre objets de la scène. La présence d’un chien dans la scène pourrait ainsi faciliter la détection d’un chat dans la même scène (Henderson, Pollatsek & Rayner,