• Aucun résultat trouvé

3. Le rôle des régularités contextuelles dans la perception visuelle

3.2. La construction du contexte

Les travaux portant sur les effets de contexte montrent que le contexte influence la perception des objets présents dans la scène. Comment le contexte exerce-t-il une influence sur la reconnaissance et l’identification des objets ? La facilitation contextuelle résulte-t-elle de l’information locale relative aux objets présents au sein de la scène ou résulte-t-elle d’un traitement global des « traits émergents de la scène » ? Quelle est la hiérarchie des traitements relatifs aux différentes entités d’une scène, à savoir le sens général de la scène (i.e. le « gist »)

et les objets qui la composent ? La reconnaissance de certains objets précède-t-elle la reconnaissance de la scène ou à l’inverse, l’identification d’une scène précède-t-elle la reconnaissance des objets ? En d’autres termes, comment le contexte est-il construit ? Est-ce l’identification du « gist » qui active un schéma de scène ou est-ce l’activation d’un schéma de scène qui permet l’identification du « gist » ?

La construction du contexte pourrait en effet reposer sur l’identification d’un ou plusieurs objets clés (cf. le modèle de l’amorçage, Friedman, 1979), ou encore sur leurs relations spatiales (e.g. De Graef et al., 1990). Mais le contexte pourrait aussi être inféré à partir de traitements de bas niveau uniquement, sans nécessiter l’identification des objets individuels (Biederman, 1988 ; Schyns & Oliva, 1994).

Selon Friedman (1979) les effets de contexte reposent sur les relations entre les objets présents dans la scène. L’identification d’un objet amorcerait la reconnaissance et la catégorisation des objets qui lui ont été associés dans le passé. Dans cette perspective, la facilitation contextuelle nécessiterait l’identification d’un ou plusieurs objets au sein de la scène (e.g. l’identification d’un lit amorcerait la reconnaissance d’un oreiller). Dans le même sens, les travaux d’Henderson, Pollatsek et Rayner (1987) ont montré que l’identification d’un objet cible est facilitée si les yeux se sont au préalable fixés sur un objet relié sémantiquement, et ce, même si les objets sont dépourvus de contexte (i.e. sans arrière-plan). Selon Henderson et al., la reconnaissance d’un objet amorcerait l’identification des objets. Ce résultat n’exclut néanmoins pas l’influence d’autres facteurs dans les effets contextuels.

Pour de nombreux auteurs, les effets de contexte reposent davantage sur l’extraction précoce d’une information globale dans l’image (e.g. Antes, Penland, & Metzger, 1981 ; Boyce et al., 1989). Boyce et al (1989) ont exploré au moyen d’un paradigme de détection d’objets indicés, si le bénéfice observé dans les contextes consistants tient à la signification globale de la scène ou à la présence des autres objets sémantiquement pertinents au sein de la scène. Les auteurs ont manipulé la consistance d’un objet indicé par rapport à la scène globale et/ou par rapport aux autres objets apparaissant dans la scène. Les temps de détection étaient alors plus courts lorsque l’objet indicé était sémantiquement consistant avec la scène dans laquelle il apparaissait, que lorsqu’il était inconsistant. Par contre, les auteurs n’ont pas observé d’effet de la consistance entre l’objet cible et les autres objets lorsque l’arrière-plan était absent. De plus, même lorsque les objets adjacents à l’objet cible ne lui étaient pas reliés

sémantiquement, l’arrière-plan à lui seul facilitait la détection de l’objet cible. Boyce et al. en ont conclu que la signification globale de la scène et les traits globaux, davantage que les objets spécifiques, ont un rôle fonctionnel dans l’identification des objets qui la composent (voir aussi Antes et al., 1981, pour un résultat concordant dans une tâche d’identification).

De manière convergente, la plupart des recherches actuelles soutiennent l’hypothèse selon laquelle la construction du contexte s’appuierait sur une information globale plutôt que sur des informations locales relatives aux objets individuels. D’une part, de nombreuses recherches ont montré que de très courtes durées de présentation sont suffisantes pour permettre à l’individu d’identifier et de dénommer une scène visuelle, c’est-à-dire d’en extraire le « gist ». Potter et collaborateurs (Potter, 1976 ; Potter & Levy, 1969), ont ainsi montré qu’une scène peut être identifiée en une centaine de millisecondes. Les travaux de Thorpe, Gegenfurtner, Fabre-Thorpe et Bürltoff (2001) ont révélé que les sujets sont capables d’indiquer si une scène contient ou non un animal dans des scènes présentées 28ms, et ce même lorsque la scène est excentrée par rapport au point de fixation. Mais surtout, il semblerait que les scènes visuelles soient reconnues aussi rapidement que les objets isolés (Biederman et al., 1982 ; Friedman, 1979 ; Intraub, 1997), parfois à partir d’informations extraites en une seule fixation (Henderson & Hollingworth, 2003). Enfin, les scènes visuelles peuvent être identifiées à partir d’images dans lesquelles sont préservées les relations spatiales entre les structures grossières de la scène mais dans lesquelles il manque le détail visuel nécessaire pour identifier les objets individuels (Schyns & Oliva, 1994).

Si la reconnaissance d’une scène ne nécessite pas la reconnaissance des objets, comment les représentations sur les scènes sont-elles construites ? De plus en plus d’auteurs s’accordent à penser que le contexte pourrait être construit de manière holistique, sans nécessiter la reconnaissance des objets individuels, et sans même nécessiter d’étapes de segmentation ou de groupement entre les traits. De plus, il semblerait que la mise en œuvre de ces traitements holistiques dans l’identification d’une scène (Oliva & Torralba, 2001) ou d’un objet (Thoma, Hummel, & Davidoff, 2004) ne requière pas l’intervention d’une attention visuelle sélective. La catégorisation de la plupart des scènes du monde réel pourrait être inférée à partir de l’agencement spatial uniquement ou à partir des traits globaux. Des études montrent que les traits basiques, comme la distribution spatiale des régions colorées (Oliva & Schnys, 2000 ; Rousselet, Joubert, & Fabre-Thorpe, 2005) ou encore la distribution des orientations (McCotter, Grosselin, Sowden, & Schyns, 2005) sont corrélés avec certaines catégories

sémantiques de scènes du monde réel. Schyns et Oliva (1994) ont émis l’hypothèse que les régularités relatives à l’organisation spatiale correspondant à une catégorie de scène particulière pourraient être suffisantes pour extraire l’essentiel de la scène et permettre son identification. Les variations chromatiques pourraient également participer à l’identification de la scène et à l’extraction rapide du « gist ». Le rôle des indices colorés dans la reconnaissance des scènes et des objets demeure cependant assez controversé (Oliva & Schyns, 2000 ; Rousselet, Joubert & Fabre-Thorpe, 2005). L’ensemble des recherches sur l’extraction rapide du « gist » suggère ainsi l’influence prédominante d’un traitement holistique sur un traitement analytique. Dans ce sens, Biederman (1988) a proposé que l’analyse des scènes puisse mettre en jeu le même mode représentationnel que celle relative aux objets individuels mais sur une plus large échelle spatiale. Cependant, certains travaux empiriques visant à explorer cette hypothèse laissent penser que les scènes ne sont pas représentées comme de « grands objets ». Des études d’imagerie cérébrale (Epstein & Kanwisher, 1998) suggèrent par exemple que des aires corticales distinctes peuvent être impliquées dans l’identification des objets et des scènes. Mais surtout, alors que les objets tendent à être fortement contraints par un ensemble de parties composantes et par les relations entre ces parties, une scène serait beaucoup moins contrainte par les objets et les relations spatiales entre ces objets (Hollingworth & Henderson, 1998). On peut néanmoins envisager qu’à une même étiquette de scène peuvent correspondre plusieurs prototypes très différents en termes de traits visuels.

Toutefois, les travaux de Davenport et Potter (2004) ont montré que les objets et la scène sont traités de manière interactive, et que les connaissances sur les co-occurrences objets/contexte influencent la perception. Les objets et l’arrière-plan pourraient mutuellement se contraindre. Par ailleurs, leurs travaux révèlent que l’objet en premier plan présente un statut privilégié dans le traitement. Aussi la reconnaissance d’une scène du monde réel pourrait-elle faire intervenir les deux processus. Si le traitement holistique n’est pas suffisant pour extraire le « gist », des traitements analytiques pourraient être parallèlement mis en œuvre pour accéder au sens de la scène. La facilitation contextuelle dans la reconnaissance d’un objet pourrait à la fois tenir à l’identification de la scène et à celle des objets individuels.