• Aucun résultat trouvé

7. La méthode des Images de Classification

7.3. CIs visuelles

En principe, une telle méthode permettant d’analyser les portions d’un spectrogramme influant sur une catégorisation auditive dans le bruit pourrait s’avérer extrêmement utile pour la recherche des primitives auditives de la parole. Cependant, sa très faible résolution spectro-temporelle (5 x 5 pixels) proscrit toute application directe { des tâches plus complexes qu’une détection de ton pur. Les développements ultérieurs apportés à la technique des CIs dans le domaine visuel permirent d’augmenter le nombre de composantes prises en compte dans le modèle.

7.3.1. CIs par corrélation inversée

Après avoir laissé de côté son idée pendant quelques années, Ahumada trouva dans la question de l’Acuité de Vernier (Vernier Acuity) une nouvelle application possible de la psychophysique moléculaire (Ahumada, 1996; Beard & Ahumada, 1998). Dans cette expérience, deux configurations différentes étaient présentées aux participants.

Tous les signaux contenaient un segment identique à gauche de l’image. La partie droite était quant à elle occupée par un autre segment, soit aligné avec le premier, soit légèrement décalé d’un pixel vers le haut (Figure 21). Comme précédemment ces images étaient présentées dans un bruit blanc visuel, et il était demandé { l’observateur de catégoriser les images alignée ( ) et non alignée ( ). En l’absence de bruit, le système visuel humain est remarquablement performant pour cette tâche, puisqu’il est capable de détecter des décalages inférieurs à sa résolution minimale imposée par le diamètre des photorécepteurs de la rétine, ce qui amena les chercheurs à utiliser le terme

92

d’ hyperacuité (Li et al., 2006). Cette expérience visait à identifier les indices visuels utilisés dans la perception de l’alignement.

La partie gauche étant identique pour les deux signaux, elle ne permet pas de les discriminer, et un processus effectuant cette catégorisation de manière optimale doit donc se concentrer uniquement sur la partie droite de l’image, ainsi qu’on le constate en calculant la différence entre les deux signaux (Gabarit Idéal Figure 21).

Figure 21 – Diagramme schématique du paradigme expérimental employé pour le calcul des CIs. Les exemples de cibles, stimuli, gabarit idéal et la CI correspondante sont tirés de la tâche d’acuité de Vernier (Ahumada, 1996).

Pour examiner les traitements effectivement mis en jeu par un observateur réel durant cette tâche, Ahumada proposa de réutiliser l’approche issue de la psychophysique moléculaire, { laquelle il donna pour la première fois le nom d’ « Image de Classification ». Abandonnant la régression linéaire multiple, il choisit ici, plus simplement, de dériver une matrice (de dimensions 64 x 64) présentant la corrélation entre la luminance du bruit { chaque pixel et la réponse de l’observateur. Comme pour les études précédentes, les pixels possédant des valeurs positives ou négatives

93

importantes marquent les régions influant sur la catégorisation, tandis que les régions non impliquées dans le traitement du stimulus sont associées à des valeurs proches de zéro. Pour chaque pixel , la corrélation entre la luminance du bruit, , et la réponse binaire de l’observateur correspondante, , est donnée par :

( ) ,( , -)( , pour lesquels l’observateur a donné la réponse 1 (« les deux segments sont alignés ») et la moyenne des bruits correspondant aux essais pour lesquels il a donné la réponse 0 (« les deux segments ne sont pas alignés »), puis à calculer la différence entre ces deux images. Cette approche, qui est aussi celle utilisée dans l’étude de (Gold et al., 2000) mentionnée plus haut, est appelée Image de Classification par corrélation inversée.

En appliquant cette méthode de calcul { la tâche d’acuité de Vernier (voir Figure 21), Ahumada constata tout d’abord que la moitié droite de la CI reproduisait bien la configuration attendue de la pondération, donnée par la différence entre les deux cibles (gabarit idéal), à savoir des poids négatifs sur le segment non aligné à droite et des poids positifs sur le segment aligné à droite. Cependant, le traitement effectué par l’observateur réel se révélait clairement différent de celui attendu d’un observateur

94

idéal. En effet, la partie gauche du stimulus, identique dans les signaux et , apparaissait clairement jouer un rôle dans la décision puisqu’elle était affectée de poids non nuls. La stratégie adoptée par le participant pour réaliser cette tâche de détection de l’alignement est donc suboptimale puisqu’elle s’appuie en partie sur des régions de l’image ne contenant aucune information permettant de différencier les deux cibles. Les auteurs expliquèrent ce résultat par l’incertitude spatiale de l’observateur : celui-ci ne considère pas la position absolue du segment situé à droite pour prendre sa décision mais plutôt de sa position relative par rapport au segment de gauche. Dès lors, la présence de bruit masquant n’importe lequel des deux segments perturbe la catégorisation, expliquant la présence de poids non nuls sur les deux moitiés de la CI.

7.3.2. Exemples d’applications des CIs dans le domaine visuel

Le succès de l’application des CIs { la tâche d’acuité de Vernier provoqua un vif engouement de la communauté scientifique pour cette nouvelle technique (Eckstein &

Ahumada, 2002). Dans le domaine de la psychophysique visuelle de nombreuses questions furent abordées par la suite au moyen de la méthode de corrélation inversée ou de ses dérivées que nous présenterons plus loin :

- l’acuité de Vernier (Ahumada, 1996; Ahumada & Beard, 1998; Barth et al., 1999;

Beard & Ahumada, 1998; Li et al., 2006)

- la perception de la forme, avec les contours illusoire (Gold et al., 2000; Nagai et al., 2008) et l’intégration de contour (Kurki et al., 2014)

- la perception de motifs simples : profils gaussiens (Abbey & Eckstein, 2002, 2006;

Mineault et al., 2009; Solomon, 2002), ondelettes de Gabor (Ahumada, 2002;

Beard & Ahumada, 1999; Solomon, 2002) et damiers (Beard & Ahumada, 1999) - le traitement de stimuli possédant un décours temporel, comme les modulations

temporelles chromatiques (Bouet & Knoblauch, 2004) ou de luminance (Thomas

& Knoblauch, 2005), la détection d’une cible immobile dans un bruit spatiotemporel (Neri & Heeger, 2002) et la détection d’une cible en mouvement dans un espace tridimensionnel (Neri & Levi, 2008), ou encore la reconnaissance des mouvements biologiques (van Boxtel & Lu, 2015)

- l’identification de lettres (Liu et al., 2014; Morin Duchesne et al., 2014; Nandy &

Tjan, 2007; Rieth et al., 2011; Watson & Rosenholtz, 1997)

- la perception de la luminosité (Kurki et al., 2009; Thomas & Knoblauch, 2005) ou de la couleur (Bouet & Knoblauch, 2004; Thorsten Hansen, 2005)

- le traitement des visages et la reconnaissance des émotions faciales (Gold et al., 2004; Kontsevich & Tyler, 2004; Liu et al., 2014; Mangini & Biederman, 2003;

95

Martin-Malivel et al., 2006; Nagai et al., 2013; Rieth et al., 2011; Sekuler et al., 2004; Wichmann et al., 2005)

- l’apprentissage perceptuel, sur des motifs abstraits ou des visages (Gold et al., 2004), sur une tâche de discrimination d’orientation (Kurki & Eckstein, 2014), ou d’acuité de Vernier (Li et al., 2004)

- l’identification d’objets (Olman & Kersten, 2004; Vondrick et al., 2014) - la perception multimodale (Pascucci et al., 2011)

- la vision stéréoscopique (Neri & Levi, 2008; Neri et al., 1999)