• Aucun résultat trouvé

La perception subjective d’un stimulus en vision périphérique n’est pas seulement contrainte par la baisse de résolution spatiale avec l’excentricité rétinienne. Un autre facteur qui détermine fortement la qualité perceptive (l’apparence) du stimulus en vi-sion périphérique est le phénomène d’encombrement visuel, ou crowding, dans lequel la perception d’un objet donné en périphérie est détériorée en présence d’éléments adja-cents. Un objet identifiable en isolation peut ainsi devenir totalement méconnaissable lorsqu’il est entouré d’autres objets (Figure 1.18). Le crowding suit la loi de Bouma, selon laquelle les éléments adjacents interfèrent avec la reconnaissance d’un objet en vision périphérique dès lors qu’ils sont situés à une distance égale ou inférieure à e/2 de l’objet, e étant la valeur d’excentricité de l’objet par rapport à la fixation centrale (Bouma 1970). La distance critique est donc proportionnelle à l’excentricité (i.e. plus l’objet cible est excentré, et plus il subira les influences d’éléments qui lui sont éloignés).

Lecrowding se manifeste non seulement pour des stimuli simples comme des lettres

(Grainger, Tydgat, & Isselé 2010) ou des patchs de Gabor (Levi, Hariharan, & Klein 2002), mais aussi pour des stimuli plus complexes tels que des visages. Par exemple, il est plus difficile de reconnaître un visage dans la vision périphérique lorsque celui-ci est entouré d’autres visages que lorsqu’il est isolé (Farzin, Rivera, & Whitney 2009;

Louie, Bressler, & Whitney 2007). Des résultats similaires ont aussi été observés pour la perception de mouvements biologiques (en utilisant des point light displays; Ikeda, Watanabe, & Cavanagh 2013) ou pour la reconnaissance d’objets (Kimchi & Pirkner 2015, pour une synthèse sur le phénomène decrowding en fonction des différents niveaux de complexité des stimuli, nous renvoyons à la récente revue de Manassi & Whitney 2018).

G G 9

1 T O D F U Z

+ +

A.

B.

Figure 1.18:Deux exemples decrowding. Lorsqu’on fixe les croix rouges, il est facile de percevoir les formes situées dans le champ visuel gauche comme étant une barre orientée à 45 (A) ou comme étant la lettre G (B). Par contre, lorsque ces mêmes formes sont ‘encombrées’

comme c’est le cas dans le champ visuel droit, il devient difficile de juger de l’orientation de la barre enAou d’identifier la lettre G enB.

Il est intéressant de noter que le crowding est en fait étroitement lié aux summary statistics. Par exemple, Parkes et al. (2001) ont montré que bien que le jugement de l’orientation d’un patch de Gabor est entravé lorsque celui-ci est entouré d’autres patchs de Gabor (i.e.crowding), il est possible de juger avec une bonne précision de l’orientation moyenne de l’ensemble de patchs, i.e. de former un percept d’ensemble. Un autre exemple concerne la perception d’ensembles de visages que nous avons déjà évoquée. Bien que la reconnaissance d’un visage donné soit rendue très difficile lorsqu’il est perçu au sein d’un ensemble de visages en périphérie (Farzin et al. 2009;Louie et al. 2007), il est possible d’extraire des informations moyennes d’un ensemble de visages, comme l’identité ou l’émotion (de Fockert & Wolfenstein 2009; Haberman & Whitney 2009). Une étude très récente (To, Carvey, Carvey, & Liu 2019) montre d’ailleurs que le phénomène de moyennage des expressions faciales est plus efficace lorsque les visages sont perçus en vision périphérique qu’en vision fovéale, soulignant les liens étroits qui existeraient entre

consciemment accessible (puisque encombrée). Immédiatement après, les participants devaient juger du caractère agréable ou désagréable d’un pictogramme chinois (ces par-ticipants ne connaissant pas le chinois, les pictogrammes étaient donc considérés comme des stimuli neutres). Les résultats ont montré que les pictogrammes étaient jugés plus agréables lorsqu’ils étaient amorcés par un visage exprimant la joie plutôt que par un visage exprimant la colère, indiquant que l’émotion exprimée par le visage, bien que non consciemment perçue à cause du crowding, influençait la valence perçue d’un stimulus neutre. Dans la même idée, une étude de Yeh, He, et Cavanagh (2012) a montré que l’effet d’amorçage d’un mot présenté en condition decrowding sur une tâche de décision lexicale est aussi fort que l’effet d’amorçage d’un mot présenté en isolation. Ainsi, le crowding pourrait permettre de condenser l’information dans des percepts d’ensemble cohérents et pertinents, au sein desquels l’information n’est pas totalement perdue mais peut être au contraire traitée inconsciemment sous forme de summary statistics des diverses propriétés visuelles de l’environnement.

Plus haut dans ce chapitre, nous avons proposé l’idée que les BFs et les summary statisticspeuvent conjointement constituer une bonne description du contenu perceptuel disponible lors de la perception du gist. Dans cette sous-partie, nous avons vu (i) que la majorité du signal en BFs provient de la vision périphérique et (ii)que lessummary statisticsseraient un mécanisme plutôt lié à la vision périphérique qu’à la vision centrale, notamment parce que lessummary statistics reposeraient sur le phénomène decrowding. Ces deux points nous permettent de défendre ici l’idée d’une correspondance étroite entre la vision périphérique et la perception dugist. Nous pensons ainsi que la perception du gist serait plus efficace si elle s’appuie sur la vision périphérique que sur la vision centrale (Larson & Loschky 2009) parce que la perception d’une scène en vision centrale limiterait la possibilité(i)d’extraire l’information en BFs et(ii)d’utiliser dessummary statistics. Si les BFs et plus généralement legist sont extraits majoritairement en vision péri-phérique, alors un modèle FP prédit une influence des BFs périphériques sur le traitement des HFs en vision centrale. Cette hypothèse est la base du travail empirique qui a été réalisé au cours de cette thèse. Dans la partie suivante, nous présenterons des résultats de recherche qui, sans avoir été directement motivés par cette hypothèse, corroborent cette idée.

3.2. Arguments en faveur de l’hypothèse d’une influence de la vision périphérique sur la vision centrale

Une façon d’envisager les différences qualitatives qui existent entre la vision centrale et la vision périphérique est de considérer le type d’informations sémantiques auxquelles elles sont généralement associées. Ces différences peuvent être modélisées par une dis-tinction objet/contexte. En effet, les objets d’une scène visuelle sont rarement perçus en isolation, et sont le plus souvent rencontrés au sein d’un contexte spatial typique (e.g., une casserole a plus de chances d’être rencontrée dans le contexte de la cuisine que dans un autre contexte). Le système pourrait donc extraire des régularités statistiques permettant d’estimer les probabilités d’observer des objets dans un contexte donné (Bar

& Ullman 1996). Ainsi, la reconnaissance d’une partie de la scène pourrait permettre de faciliter la reconnaissance d’objets adjacents. Cette idée a en fait été l’objet de nom-breuses études qui se sont intéressées aux interactions visuelles entre objets et contexte (voir, entre autres, Bar & Ullman 1996;Biederman 1972;Boucart et al. 2013;Brandman

& Peelen 2017;Davenport 2007;Davenport & Potter 2004;Joubert, Fize, Rousselet, &

Fabre-Thorpe 2008;Joubert et al. 2007;Katti, Peelen, & Arun 2017;Mudrik, Lamy, &

Deouell 2010;Mudrik, Shalgi, Lamy, & Deouell 2014;Palmer 1975;Rémy et al. 2013;Sun et al. 2016;Truman & Mudrik 2018). Par exemple, Palmer (1975) a étudié la manière dont un contexte pertinent pouvait influencer l’identification d’un objet. Les partici-pants de cette étude devaient identifier des dessins d’objets qui étaient précédés par un contexte (e.g., une cuisine) présentés de manière rapide. L’objet était soit congruent avec le contexte (e.g., une miche de pain), soit incongruent (e.g., une boîte aux lettres).

La probabilité d’identifier correctement l’objet était plus forte lorsque le contexte était congruent. Des études plus récentes ont étudié les effets de congruence entre un ob-jet et son contexte à l’aide de photographies de scènes (Davenport 2007;Davenport &

Potter 2004; Joubert et al. 2008, voir Figure 1.19). Dans ces études, les participants devaient catégoriser une image d’un objet (e.g., un tracteur), alors que celui-ci apparais-sait sur une large photographie d’une scène représentant un contexte congruent (e.g., une ferme) ou incongruent (e.g., une banquise). De nouveau, les résultats montrent un effet de facilitation de la catégorisation de l’objet lorsque le contexte est congruent. Cet effet facilitateur du contexte congruent a également été observée avec le même type de paradigme chez des patients atteints de dégénérescence maculaire liée à l’âge (DMLA), une maladie rétinienne qui touche particulièrement la macula et se traduit donc par une perte progressive de la vision centrale (Boucart et al. 2013). Dans cette étude, les patients atteints de DMLA, tout comme des sujets contrôles appariés en âge, avaient de meilleures performances pour catégoriser des objets (meubles vs animaux) lorsqu’ils étaient insérés sur une scène représentant un contexte congruent (e.g., un salon pour une table) qu’incongruent (e.g., un champ pour une table). Ce résultat suggère ainsi que la perturbation de la reconnaissance d’objet liée à un déficit du champ visuel central des patients DMLA pourrait être partiellement compensée par une information contextuelle pertinente. Les auteurs ont d’ailleurs proposé que le contexte de la scène avait été traité

B.

C.

Figure 1.19:Exemples de stimuli utilisés dans les études de l’effet du contexte sur la reconnaissance d’objets.A.Davenport et Potter(2004).

B.Boucart et al.(2013).C.Joubert et al.(2008). L’effet de contexte ou de congruence se manifeste par de meilleures performances pour catégoriser les objets lorsque le contexte visuel est congruent (stimuli de gauche) que lorsqu’il est incongruent (stimuli de droite).

Mais les mécanismes qui régissent ces effets de contexte sont assez peu connus. Se-lon Henderson et Hollingworth (1999), on peut différencier au moins deux hypothèses qui permettent d’expliquer les mécanismes d’identification des objets au sein d’une scène/d’un contexte selon le niveau de traitement auquel la scène exercerait une influence sur le traitement de l’objet. La première suppose que le contexte influence le traitement de l’objet à un niveau perceptifvia des mécanismes de rétroaction (descendants). Cette vue est compatible avec le modèle FP. Dans ce cadre, l’information contextuelle serait captée rapidement grâce au traitement de l’information en BFs et pourrait avoir une influence prédictive,via des influences descendantes, sur la construction de la représen-tation perceptive de l’objet. La seconde hypothèse suppose au contraire que le contexte et l’objet interagissent à un niveau sémantique. Ils seraient alors traités de manière prin-cipalement indépendante, en parallèle, et leur intégration aurait lieu seulement après leur traitement perceptif, à un niveau sémantique. Les auteurs suggèrent même que se-lon cette hypothèse, le contexte de la scène pourrait influencer non pas l’identification de l’objet mais les processus de décision qui mènent à la réponse comportementale. Il existe

des arguments empiriques pouvant défendre cette perspective. Par exemple, nous avons déjà évoqué le fait qu’il existe des régions fonctionnelles dans le cortex occipito-temporal qui sont préférentiellement impliquées dans le traitement visuel des objets d’une part (lateral occipital complex, LOC) et des scènes d’autre part (parahippocampal place area, PPA). Les représentations visuelles des scènes et des objets pourraient ainsi exister de manière indépendante au niveau cortical.

L’approche adoptée parBrandman et Peelen(2017) dans une étude combinant me-sures d’IRMf et de MEG pour dissocier les deux hypothèses (influence descendante du contexte sur l’objet vs traitement parallèle) était de pixeliser l’objet, rendant sa re-connaissance quasiment impossible hors contexte. Les résultats comportementaux ont tout d’abord montré que la reconnaissance de ces objets pixellisés était bien meilleure lorsqu’ils étaient intégrés dans des scènes congruentes que lorsqu’ils étaient isolés (i.e.

présentés sur un fond gris). Des analyses multivariées du signal BOLD dans le LOC ont ensuite montré que les représentations de l’objet dans cette région sont plus facilement décodables par un classifieur lorsqu’un contexte congruent est présent. Les résultats MEG indiquent que l’effet facilitateur du contexte émerge à partir de 320 ms après l’on-set du stimulus, soit environ 100 ms plus tard que le temps habituellement nécessaire pour reconnaître des objets intacts (Carlson, Tovar, Alink, & Kriegeskorte 2013). Selon les auteurs, il est peu probable qu’un tel délai reflète un traitement purement ascendant.

Ce temps de traitement supplémentaire refléterait selon eux les processus nécessaires au traitement du contexte et à la rétroinjection de ces informations sur le cortex visuel extrastrié (comme le LOC) pour faciliter le traitement perceptuel de l’objet pixellisé.

Ces résultats suggèrent alors que les mécanismes de traitement du contexte et de l’objet ne sont pas indépendants, et que l’information contextuelle aide la catégorisa-tion de l’objet en modulant sa représentacatégorisa-tion perceptive. Ainsi, la reconnaissance d’un objet dont la qualité perceptive est très mauvaise pourrait bénéficier d’influences issues du traitement du contexte. En revanche, de notre point de vue, il est possible que ces interactions entre objet et contexte puissent se produire de manière parallèle, sans néces-sairement recourir à des mécanismes de rétroaction. Par exemple, le temps de traitement supplémentaire pour traiter un objet pixelisé dans un contexte congruent pourrait sim-plement traduire les mécanismes de reconstruction du percept (initialement dégradé) de l’objet grâce à des interactions horizontales avec l’information contextuelle. Dans le Cha-pitre 2, nous proposons de nouvelles approches pour tester l’hypothèse d’une influence prédictive d’une scène présentée en vision périphérique sur la reconnaissance d’objet en vision centrale (Expériences 4 et 5).

Enfin, un dernier argument en faveur de l’hypothèse d’une influence de la vision périphérique sur la vision centrale provient d’une expérience en IRMf deWilliams et al.

(2008), où les auteurs ont observé de façon totalement inattendue que des aires visuelles rétinotopiques dédiées à la vision centrale pourraient coder l’information visuelle périphé-rique. Leur expérience était initialement programmée pour étudier si les représentations d’objets dans le cortex visuel sont invariantes à la position. Les participants fixaient le

l’activité dans le cortex rétinotopique fovéal pouvait permettre de retrouver la catégorie des objets présentés en vision périphérique, alors même qu’aucun stimulus n’était pré-senté en vision centrale. De plus, cette information codée dans le cortex rétinotopique fovéal était indépendante de la position de l’objet dans le champ visuel périphérique, indiquant qu’elle contenait une information de relativement ‘haut niveau’ (non rétino-topique). Ce phénomène remet singulièrement en question ce qui est attendu et connu du cortex rétinotopique.

L’expérience n’ayant pas été initialement prévue pour mettre en évidence ce genre d’effet, les auteurs ont réalisé cinq réplications indépendantes. Par ailleurs, à l’aide de différents contrôles, ils ont montré que ce résultat n’est ni imputable aux mouvements oculaires, ni à des activations liées à la croix de fixation présentée fovéalement, ni non plus à des activations rétinotopiques périphériques qui déborderaient sur le cortex réti-notopique fovéal. Comme dit plus haut, ces résultats sont importants à considérer dans le cadre de nos recherches puisqu’ils suggèrent que des stimuli périphériques peuvent modifier l’activité du cortex rétinotopique fovéal. Par ailleurs, l’information d’origine périphérique codée dans le cortex rétinotopique fovéal pourrait être une information de relativement haut niveau (i.e. invariante à la position). Or, et c’est un point important, un modèle de reconnaissance visuelle qui suppose que l’information visuelle périphérique est prédictive de l’information visuelle centrale requiert l’existence de mécanismes qui permettent la rétro-injection de prédictions non rétinotopiques .

4. Objectif des travaux de thèse et

méthodologie générale

Documents relatifs