Le contexte facilite la reconnaissance et l’identification des objets

3. Le rôle des régularités contextuelles dans la perception visuelle

3.1. Le contexte facilite la reconnaissance et l’identification des objets

La reconnaissance d’un objet est-elle facilitée par le contexte dans lequel il apparaît ? Dans une série de travaux, Biederman et collaborateurs (e.g. Biederman, 1972 ; Biederman, Glass, & Stacy, 1973) ont montré que la détection d’un objet particulier est plus rapide lorsque ce dernier est présenté dans un contexte cohérent que dans un contexte déstructuré. Le matériel utilisé par ces auteurs comportait une série de photographies d’environnements courants (e.g. une rue). A partir de ces photographies, une version déstructurée (« jumbled ») était créée en coupant la version originale en 6 pièces et en arrangeant ces 6 pièces de manière aléatoire (Cf. Figure 4). Les participants étaient exposés brièvement aux scènes cohérentes et déstructurées dans lesquelles un indice spatial indiquait la position d’un objet cible. La tâche des participants était d’identifier le plus rapidement possible l’objet présent à la position indicée dans la scène. Les temps d’identification étaient alors bien plus courts dans les scènes normales que dans les scènes déstructurées. Des résultats similaires ont été observés à l’aide d’un paradigme de recherche de cible (Biederman et al., 1973) : les participants étaient plus rapides pour trouver la cible lorsqu’elle apparaissait dans des scènes normales que déstructurées. Néanmoins, la déstructuration des scènes originales introduisant de nouveaux contours, il est difficile de déterminer si les effets reposent effectivement sur une facilitation contextuelle et pas simplement sur une plus grande complexité des scènes déstructurées par rapport aux scènes normales (pour une critique de ces travaux, cf. Henderson & Hollinworth, 1999).

Figure 4. Exemples de scènes utilisées dans les travaux de Biederman et collaborateurs. A gauche : scène normale. A droite : scène destructurée. Adapté de Biederman, Rabinowitz, Glass et Stacy (1974)

Les effets de consistance du contexte ont été par la suite étudiés en manipulant la consistance sémantique d’un objet dans une scène particulière. Par exemple, dans une étude de Palmer (1975), des dessins représentant des scènes du monde réel étaient présentés pendant 2 secondes (e.g. une cuisine), suivis d’une présentation rapide d’un objet cible isolé qui pouvait être sémantiquement consistant ou inconsistant avec la scène (i.e. susceptible ou non d’apparaître dans la scène). Les objets cibles inconsistants sémantiquement pouvaient être similaires ou différents d’un point de vue perceptif avec un objet consistant potentiel (pour un exemple d’objets similaires ou différents perceptivement, cf. Figure 5). Palmer a observé que les objets consistants étaient nommés plus précisément que les objets présentés sans contexte, qui eux étaient nommés plus précisément que les objets inconsistants. Et enfin, les objets inconsistants partageant de fortes similitudes visuelles avec un objet consistant potentiel conduisaient aux plus mauvaises performances. De tels effets facilitateurs d’un contexte consistant sur l’identification d’un objet cible (se traduisant par des temps de détection ou de dénomination plus courts pour des objets apparaissant dans un contexte congruent qu’incongru) ont été observés dans de nombreuses études (Biederman, Mezzanotte, & Rabinowitz, 1982 ; Biederman, Teitelbaum, & Mezzanotte, 1983 ; Boyce & Pollatsek, 1992 ; Boyce, Pollatsek, & Rayner, 1989 ; Davenport & Potter, 2004 ; cependant, voir Hollingworth & Henderson, 1998).

Figure 5. Exemple de stimulus utilisé par Palmer (1975). A droite : un objet consistant (une brioche), un objet inconsistant mais ressemblant visuellement à un objet consistant potentiel (une boîte aux lettres) et

A quel niveau du traitement le contexte est-il susceptible d’exercer une influence sur l’identification d’un objet ? Différents modèles ont été proposés selon l’étape du traitement d’identification sur laquelle le contexte exercerait son influence. On présuppose classiquement que l’identification d’un objet implique trois niveaux de traitement. En premier lieu, l’image projetée sur la rétine est traduite en une série de primitives. En second lieu, ces primitives sont assemblées pour construire des descriptions structurales relatives aux objets présents dans la scène. Et enfin, ces descriptions sont mises en relation avec des descriptions élaborées, déjà stockées en MLT. Quand une correspondance est établie, l’objet est reconnu et son identification est rendue possible grâce à la disponibilité en mémoire de l’information sémantique sur ce type d’objet.

Le modèle du schéma perceptif propose que les attentes, dérivées des connaissances préalables sur la composition d’une scène, affectent de manière précoce le traitement perceptif des objets présents dans la scène (Biederman et al., 1982, 1983 ; Palmer, 1975). L’activation précoce d’un schéma de scène faciliterait la construction d’une description structurale des objets consistants avec la scène, et peut-être inhiberait la construction des descriptions relatives aux objets inconsistants avec le schéma de scène. Le modèle de l’amorçage propose quant à lui que le contexte influence l’identification des objets à un niveau plus tardif du traitement, à savoir lorsque la description structurale de l’objet est mise en relation avec une/des description(s) déjà en mémoire (Friedman, 1979 ; Palmer, 1975). Selon le modèle de l’amorçage, l’activation d’un schéma de scène amorcerait les représentations en mémoire des objets types consistants avec le schéma. Cet amorçage faciliterait l’identification d’un objet congruent en diminuant la quantité d’information nécessaire pour sélectionner en mémoire la représentation correspondant à l’objet visuel (Friedman, 1979). Comme le modèle du schéma perceptif, le modèle de l’amorçage prédit que l’identification des objets consistants avec la scène sera facilitée par rapport à l’identification des objets inconsistants. Ces deux modèles diffèrent en ce que le modèle de l’amorçage présuppose que les connaissances relatives à la scène influencent uniquement le critère d’analyse requis pour déterminer si un objet particulier est présent, sans influencer directement l’analyse perceptive de l’objet en question, alors que le modèle du schéma perceptif postule une influence précoce du contexte sur le traitement perceptif. Ces deux conceptions ont été unifiées au sein du modèle d’activation interactive, dans lequel les deux niveaux d’analyse pourraient être influencés par le contexte (Boyce et al., 1989 ; Metzger & Antes, 1983).

Le paradigme de détection d’objet introduit par Biederman et collaborateurs a certainement été l’outil le plus utilisé pour discriminer l’influence du contexte à un niveau précoce ou tardif du traitement d’identification (e.g. Biederman et al., 1982,1983 ; Boyce et al., 1989 ; Hollingworth & Henderson, 1998). La procédure utilisée par Biederman et al. (1982) était la suivante. Au début de chaque essai, une étiquette désignant un objet cible était présentée aux participants. Puis apparaissait un dessin représentant une scène pendant 150ms, suivi d’un masque comportant un indice désignant une localisation. La tâche des participants était d’indiquer si l’objet cible était apparu dans la scène à la position indicée. L’objet qui était apparu dans la localisation indicée pouvait être consistant avec la scène ou violer les attentes établies par la scène selon une ou plusieurs dimensions. Ces violations pouvaient concerner, des probabilités épisodiques de co-occurrences (consistance sémantique), des dimensions relatives à la position ou à la taille de l’objet dans la scène, à la présence ou l’absence de support, ou encore des interpositions entre les objets (si l’objet chevauchait un des objets ou était transparent), (pour des exemples, cf. Figure 6). Biederman et al. ont observé que la sensibilité de détection (d’) était meilleure quand l’objet indicé ne violait aucune contrainte imposée par la signification de la scène. Les performances (TR et réponses correctes) étaient dégradées quelle que soit la dimension de violation, mais elles l’étaient davantage lorsque la scène présentait des violations multiples (e.g. inconsistance sémantique et interposition). Puisque les violations structurales (i.e. support et interposition) n’avaient pas plus d’effet que les violations sémantiques (i.e. probabilité, position, taille), les auteurs en ont conclu que les influences contextuelles de nature sémantique devaient opérer durant l’analyse perceptive des objets. Ces résultats allaient donc en faveur du modèle du schéma perceptif de scène, suggérant une influence du contexte sur les étapes précoces du traitement perceptif d’identification (pour un résultat similaire, voir aussi Biederman et al., 1983).

Figure 6. Exemples de violations de « support » et d’ « interposition » dans l’étude Biederman et al., 1982. Adapté de Biederman et al. (1982)

Les travaux de Biederman et collaborateurs ne sont toutefois pas exempts de critiques. Hollingworth et Henderson (1998) ont ainsi rapporté un ensemble de biais dans le paradigme original de détection d’objet introduit par Biederman et al. (1982). En contrôlant alors les biais de réponses et en éliminant les autres sources de biais potentiels (contrôle du taux de fausses alarmes et de l’avantage « object consistant-localisation probable »), les auteurs ne sont pas parvenus à observer un bénéfice dans la détection des objets consistants sémantiquement avec la scène par rapport aux objets inconsistants. Hollingworth et Henderson (1998) ont proposé une explication alternative aux effets de contexte : l’identification pourrait être fonctionnellement isolée de l’information contextuelle et des attentes relatives à la scène. Leur modèle d’isolation fonctionnelle stipule que le contexte n’influence pas la perception des objets, mais qu’il biaise le traitement postérieur à l’identification, tel que la génération de la réponse ou encore les stratégies de « guessing ». Par contre, une fois que la représentation d’un objet serait formée, le statut sémantique de l’objet pourrait influencer l’allocation attentionnelle visuelle et spatiale. Une étude récente de Davenport et Potter (2004) va cependant à l’encontre du modèle d’isolation fonctionnelle et montre, à partir de photographies cette fois-ci, que l’information relative à la consistance sémantique est non seulement disponible à partir d’images présentées brièvement (80ms), mais qu’en plus elle affecte la perception du contexte et l’identification des objets présents au premier plan.

Malgré les nombreux biais méthodologiques présents dans certains de ces travaux, les études portant sur l’influence du contexte dans l’identification des objets convergent vers un consensus accordant aux contextes congruents un rôle facilitateur dans l’identification des objets.

Dans le document Apprentissage implicite de régularités contextuelles au cours de l'analyse de scènes visuelles (Page 36-40)