• Aucun résultat trouvé

1.2 Fréquences spatiales et traitement de l’information visuelle Comme nous l’avons vu précédemment dans la section 1.1, les champs récepteurs des

1.2.1 Fréquences spatiales et perception

1.2.1.1 Définition des fréquences spatiales

La fréquence spatiale peut être définie comme une caractéristique d’une structure périodique dans l’espace, permettant de quantifier la répétition de l’ondulation de luminance par unité de distance. Un exemple simple permettant d’illustrer la notion de fréquence spatiale est donné par le réseau sinusoïdal (Figure 1.4). Un réseau sinusoïdal est caractérisé par l’alternance de bandes claires et sombres dont les valeurs de luminance suivent une fonction sinusoïdale. Le nombre de paires de bandes sombres et claires (une paire = un cycle) par degré d’angle visuel définit la valeur de la fréquence spatiale d’un réseau sinusoïdal et permet d’exprimer la taille de l’image sur la rétine en cycles par degré (cpd). Ainsi, plus l’observateur s’éloigne du stimulus, plus le nombre de cycles par degré d’angle visuel augmente et donc plus la fréquence spatiale augmente. Cette relation entre distance et fréquences spatiales est donnée par la formule mathématique :

où L exprime la largeur d’un cycle et d la distance entre l’œil et le stimulus. La taille angulaire d’un cycle est exprimée par la formule

2

Figure 1.4 : Réseaux sinusoïdaux à différentes fréquences spatiales.

1.2.1.2 Représentation d’une scène visuelle dans le domaine fréquentiel et filtrage

Une image en niveau de gris peut être considérée dans le domaine spatial comme une matrice de pixels possédant différentes valeurs de luminance. Une image peut également être représentée dans le domaine fréquentiel par la transformée de Fourier (TF). Cette opération mathématique permet de décomposer un signal complexe en une somme de sinusoïdes pouvant être caractérisées par leur amplitude (contraste), leur fréquence, leur phase et leur orientation. Ainsi, dans le domaine fréquentiel, les caractéristiques d’une image peuvent être résumées par son spectre d’amplitude et son spectre de phase. Le spectre d’amplitude correspond à la distribution du contraste de luminance en fonction des fréquences spatiales et des orientations alors que le spectre de phase d’une image caractérise la position relative des fréquences spatiales dans l’espace. Dans le domaine de Fourier, les BFS contenues dans l’image sont représentées dans la partie centrale du spectre d’amplitude de l’image alors que les HFS sont représentées en périphérie. Il est ainsi possible de manipuler et filtrer une image dans le domaine fréquentiel afin d’obtenir dans le domaine spatial des images, via une transformée de Fourier inverse (TF-inv), une image dont le contenu en fréquences spatiales est contrôlé (Figure 1.5). Par exemple, si l’on applique un filtre passe-bas au spectre d’amplitude, seul le contenu fréquentiel de l’image en BFS sera conservé alors que le signal en HFS supérieur à une fréquence spatiale donnée (fréquence de coupure) sera supprimé. A l’inverse, un filtre passe-haut conservera seulement l’information en HFS et supprimera le signal en BFS inférieur à la fréquence de coupure. Puis, via une transformée de Fourier inverse, on obtient dans le domaine spatial des images en BFS et HFS (Figure 1.5).

Enfin, il faut préciser que lors de ces manipulations sur le spectre d’amplitude d’une image, le spectre de phase n’est pas altéré afin de préserver l’organisation relative des fréquences spatiales dans l’image. Les scènes visuelles en BFS contiennent alors une information grossière et floue permettant d’avoir accès à la structure globale de la scène. En revanche, les scènes en HFS contiennent une information fine, permettant de détecter les contours des objets et les détails de la scène.

Figure 1.5 : Description des étapes de filtrage d’une scène visuelle. Le spectre d’amplitude d’une image intégrale est obtenu par la transformée de Fourier (TF). On effectue ensuite sur le spectre de l’amplitude de l’image un filtrage passe-bas ou passe-haut afin d’obtenir dans le domaine spatial, via la transformée de Fourier inverse (TF-inv), une scène en BFS contenant une information globale ou en HFS contenant une information fine.

1.2.1.3 Précédence temporelle du traitement des basses fréquences spatiales Comme nous l’avons vu précédemment, les BFS porteraient une information grossière donnant accès à la structure globale d’une scène visuelle alors que les HFS porteraient une information fine donnant accès aux détails. Sur la base des propriétés temporelles de la voie magnocellulaire (qui véhicule majoritairement l’information en BFS) et de la voie parvocellulaire (qui véhicule majoritairement l’information en HFS), l’information en BFS devrait être traitée plus rapidement que l’information en HFS. Plusieurs études psychophysiques ont été menées chez l’homme afin d’étudier le décours temporel du traitement des fréquences spatiales. (Blakemore & Campbell, 1969; Breitmeyer, 1975). Par exemple, Breitmeyer (1975) mesurait les temps de réaction pour détecter des réseaux sinusoïdaux à différentes fréquences spatiales. Les résultats montraient une précédence temporelle de la détection des réseaux en BFS (0,5 cpd) de 80 ms par rapport aux réseaux en

HFS (11 cpd). Ces résultats ont été interprétés à la lumière des nombreux travaux en neurophysiologie sur le système visuel (Curcio & Allen, 1990; Hubel & Wiesel, 1968, 1977 ; Livingstone & Hubel, 1988). Breitmeyer (1975), proposait alors l’existence de deux canaux aux propriétés physiologiques différentes (les canaux phasiques et toniques) proches des propriétés des voies M et P du système visuel. Ainsi, les canaux phasiques, véhiculant rapidement l’information en BFS correspondraient à la voie M, alors que les canaux toniques, véhiculant plus lentement l’information en HFS, correspondraient à la voie P. Ainsi, ces travaux psychophysiques utilisant des réseaux sinusoïdaux fournissent des données de référence pour la compréhension des mécanismes impliqués lors du traitement des fréquences spatiales par le système visuel.

1.2.1.4 Effet du contraste sur le traitement des fréquences spatiales

Outre sa fréquence spatiale, un réseau sinusoïdal est également caractérisé par son amplitude. Cette amplitude correspond à la variation de luminance entre les bandes sombres (Lmin) et les bandes claires (Lmax) composant le réseau sinusoïdal, et fournit une estimation de son contraste. La capacité de détection des variations de luminance (contraste) entre une bande sombre et une bande claire est indispensable pour la perception des fréquences spatiales (Figure 1.6.A). En effet, si le contraste entre les bandes d’un réseau sinusoïdal est très faible, alors le réseau sera perçu comme une surface uniforme et non comme une alternance de bandes sombres et claires. La différence de luminance minimale permettant de percevoir l’alternance entre barres sombres et claires correspond au seuil de sensibilité au contraste. En d’autres termes, il s’agit de la valeur de contraste minimale pour percevoir des réseaux sinusoïdaux de fréquences spatiales différentes. La relation entre sensibilité au contraste et les fréquences spatiales donne ainsi la courbe de sensibilité au contraste (Figure 1.6.B) représentant une variation curvilinéaire du contraste avec les fréquences spatiales pour la perception. Chez l’adulte sain, la sensibilité au contraste est maximale pour des fréquences spatiales moyennes, entre 2 et 6 cpd avant de chuter drastiquement au-delà. Le contraste de luminance d’un réseau influence donc la visibilité de celui-ci à différentes fréquences spatiales, mais également la rapidité de détection des fréquences spatiales.

Figure 1.6 : A : Illustration de la relation entre fréquences spatiales et contraste pour la perception de réseaux sinusoïdaux. Pour un même nombre de cycles par degré, la détection des alternances entre barres claires et barres sombres est possible lorsque le contraste est élevé (jaune) alors que pour un contraste faible on perçoit une surface uniforme. B : Courbe de sensibilité au contraste chez l’adulte pour un réseau statique à différentes fréquences spatiales présenté en vision centrale. La surface sous la courbe correspond à la perception d’une alternance entre les bandes sombres et claires alors que la surface au-dessus de la courbe correspond à la perception d’une surface uniforme (adaptée de De Valois & De Valois, 1988).

En effet, plusieurs travaux ont montré une influence du contraste sur le traitement des fréquences spatiales (Blakemore & Campbell, 1969; Harwerth & Levi, 1978; Lupp, Hauske, & Wolf, 1976; Parker, 1980; Parker & Dutch, 1987; Vassilev & Mitov, 1976). Ces études montrent une diminution du temps de réaction nécessaire à la détection d’un réseau sinusoïdal, quelle que soit sa fréquence spatiale, lorsque le contraste augmente. De plus, Vassilev et Mitov (1976) ont directement étudié le rôle du contraste dans la précédence temporelle du traitement des BFS par rapport aux HFS en testant si cet effet pouvait être expliqué par une valeur de sensibilité au contraste plus faible pour les HFS (plus la fréquence spatiale est haute et moins le réseau est visible – Figure 1.6.A). Les auteurs utilisaient ici des réseaux sinusoïdaux en BFS (2 à 4 cpd) et en HFS (plus de 6 cpd) dont le niveau de contraste était soit faible, soit élevé. Les résultats montraient une réduction de la précédence temporelle des BFS par rapport aux HFS lorsque le contraste était élevé. Plus précisément, l’augmentation du contraste augmentait significativement la capacité de détection des réseaux en HFS. Ainsi, la détection et la vitesse de traitement des fréquences spatiales seraient directement liées au niveau de contraste. Par ailleurs, au niveau cérébral, il a été montré que plus le contraste augmente et plus le signal BOLD au niveau du cortex occipital est fort (Belliveau et al., 1992; Boynton, Engel, Glover, & Heeger, 1996). Dans l’ensemble, ces

résultats nous ont amenés à considérer dans ce travail de thèse l’influence du contraste sur le traitement des fréquences spatiales.

Classiquement, pour les réseaux sinusoïdaux le contraste est estimé selon la formule C de Michelson :

Avec Lmax correspondant au niveau de luminance maximum et Lmin correspondant au niveau de luminance minimum.

Plusieurs autres méthodes d’estimation du contraste existent, comme le contraste de Weber correspondant à la différence entre Lmax et Lmin , divisée par l’intensité lumineuse du fond, ou encore le contraste « root-mean-square » (RMS) qui correspond à l’écart type des valeurs de luminance, divisé par la luminance moyenne. Au sein de la littérature, on observe une utilisation différentielle du type de méthode d’estimation du contraste en fonction du type de stimuli utilisés (Bex & Makous, 2002). Ainsi, le contraste de Michelson est préférentiellement utilisé pour les réseaux sinusoïdaux, tandis que le contraste de Weber est plus utilisé pour des stimuli tels que les lettres présentées sur un fond uniforme. De manière importante pour la suite de ce travail, le contraste RMS serait le meilleur indicateur de la visibilité de stimuli complexes tels que les scènes visuelles. En effet, cette méthode d’estimation du contraste a l’avantage de ne pas dépendre du contenu en fréquences spatiales ou de la distribution spatiale du contraste dans l’image (Bex, Solomon, & Dakin, 2009). Le RMS contraste semble donc présenter un fort intérêt pour toute étude souhaitant étudier le traitement des fréquences spatiales indépendamment du contraste de luminance. Nous verrons, dans les travaux réalisés dans cette thèse, les conséquences de l’utilisation du contraste RMS en tant que contrôle expérimental pour l’étude des bases cérébrales du traitement des fréquences spatiales.

1.2.1.5 Fréquences spatiales et perception visuelle de scènes

Depuis une vingtaine d’années, on assiste à un réel engouement pour l’étude de la reconnaissance des scènes visuelles. Sur la base des propriétés neurophysiologiques des voies visuelles et des données de la psychophysique, Schyns et Oliva (Schyns & Oliva, 1994, Oliva & Schyns, 1997 ; voir aussi Parker, Lishman, & Hughes, 1992) ont proposé que la reconnaissance de scènes débuterait par une extraction en parallèle des différentes

caractéristiques visuelles élémentaires à différentes fréquences spatiales selon un principe de traitement par défaut « coarse-to-fine ». Selon ce principe, l’analyse rapide de l’information globale et grossière portée par les BFS de la scène, fournirait un aperçu global de la structure de la scène et permettrait une première catégorisation perceptive qui serait ensuite affinée, validée ou infirmée par l’analyse, plus tardive, de l’information plus locale, plus fine et plus détaillée portée par les HFS de la scène. Afin de tester cette hypothèse, les auteurs ont mené une étude comportementale (Schyns & Oliva, 1994) dans laquelle les participants devaient décider si une scène « test » non-filtrée était présente ou non dans une image hybride (i.e., composée de la superposition de deux scènes, l’une en BFS, l’autre en HFS) présentée antérieurement (tâche d’appariement). Après une présentation de 30 ms de l’image hybride, la scène cible non filtrée était mieux reconnue si elle avait été auparavant perçue en BFS dans l’image hybride amorcée. A l’inverse, avec un temps de présentation de 150 ms, la scène cible appariée sur les HFS de l’image hybride était la mieux reconnue. Ce pattern de résultats est cohérent avec le principe « coarse-to-fine ». L’information grossière véhiculée par les BFS serait privilégiée pour un traitement rapide de la scène tandis que l’information fine, véhiculée par les HFS, serait préférentiellement utilisée lorsqu’un temps supérieur est disponible pour analyser la scène. A noter cependant que, si la majorité des participants se comportaient de la sorte, le pattern inverse était observé pour une minorité, suggérant une certaine flexibilité dans la stratégie d’analyse visuelle.

Plus récemment, Musel et al. (2012) et Kauffmann et al. (2015a) ont testé la stratégie d’analyse « coarse-to-fine » en manipulant directement l’ordre de présentation de scènes filtrées en fréquences spatiales (Kauffmann, Chauvin, Guyader, & Peyrin, 2015a ; Musel, Chauvin, Guyader, Chokron, & Peyrin, 2012). Les stimuli étaient de courts films de 150 ms composés de six versions filtrées d’une même scène (filtrage passe-bande) assemblées soit des BFS aux HFS soit des HFS aux BFS. Ainsi, ces séquences imitaient et permettaient d’imposer respectivement au système visuel une analyse « coarse-to-fine » (CtF) ou « fine-to-coarse » (FtC) des scènes. Les participants avaient pour tâche de catégoriser les séquences comme étant des scènes d’intérieur ou d’extérieur. Les résultats obtenus chez les participants jeunes ont montré que les séquences CtF étaient catégorisées plus rapidement que les séquences FtC, suggérant qu’une stratégie d’analyse « coarse-to-fine » est plus avantageuse pour la catégorisation de scènes chez le jeune adulte.

De plus, plusieurs travaux, réalisés dans le cadre de la simulation computationnelle des processus corticaux, suggèrent que l'information en BFS suffirait pour catégoriser efficacement des scènes visuelles (Guérin-Dugué & Oliva, 1999, 2000; Hérault, Oliva, &

Guérin-Dugué, 1997). A partir d'un système visuel artificiel simulant le traitement des cellules complexes du cortex visuel primaire (i.e. des cellules qui se comportent comme des filtres de type passe-bande orientés qui échantillonnent le spectre d'énergie de l'image rétinienne), Hérault et al. (1997) ont établi l’aptitude d’un tel système à classer des scènes naturelles en catégories sémantiques distinctes de manière identique aux participants humains et ce, lorsque le système exploitait uniquement les informations en basses et moyennes fréquences spatiales. Des résultats analogues ont été obtenus par Guérin-Dugué et Oliva (1999, 2000) qui, en analysant la statistique globale de la distribution des orientations locales dans des images de scènes naturelles, ont observé que l'information relative à la catégorie de scènes naturelles était disponible dans la distribution des orientations locales de scènes en BFS.

L’ensemble de ces résultats, ainsi que les données issues d’études neurophysiologiques (Curcio & Allen, 1990; Hubel & Wiesel, 1968, 1977 ; Livingstone & Hubel, 1988) suggèrent que lors de la perception d’une scène visuelle, la rétine agirait comme une sorte d’analyseur de Fourier au niveau local, réalisant l’extraction en parallèle des variations de luminance présentes à différentes fréquences spatiales avec une précédence temporelle de l’analyse des BFS. Les cellules ganglionnaires de type M, majoritaires en périphérie de la rétine et à l’origine de la voie magnocellulaire, permettraient de véhiculer rapidement l’information en BFS jusqu’au cortex visuel, alors que les cellules P, plus nombreuses en zone fovéale et à l’origine de la voie parvocellulaire, véhiculeraient plus lentement l’information en HFS. Ainsi, l’analyse rapide d’une information grossière issue des BFS, fournirait un aperçu global de la structure de la scène et permettrait une première catégorisation. Ce premier percept serait ensuite affiné, validé ou infirmé par l’analyse plus tardive d’une information fine portée par les HFS.

Cependant, si le traitement des fréquences spatiales a été très étudié au niveau comportemental, les bases cérébrales du traitement des fréquences spatiales sont encore très peu connues.