• Aucun résultat trouvé

1. La perception visuelle de scènes complexes

1.3. La recherche visuelle

Un des paradigmes les plus utilisés dans la littérature pour étudier l’attention visuelle est la recherche visuelle d’un objet connu à l’avance parmi d’autres objets (voir Eckstein, 2011 pour une revue). En effet, ce paradigme reflète une tâche courante dans la vie quotidienne, mais également

dans l’utilisation d’applications informatiques (Fleetwood & Byrne, 2006 ; Léger, Tijus, & Baccino, 2005 ; Ojanpää, Näsänen, & Kojo, 2002 ; Pearson & van Schaik, 2003) et d’environnements virtuels

de type jeu vidéo (Castel, Pratt, & Drummond, 2005 ; Hubert-Wallander, Green, Sugarman, &

Bavelier, 2011). Les principes de la recherche visuelle peuvent être appliqués aux environnements multimodaux tels que les jeux vidéo.

1.3.1. Principes

Dans les paradigmes classiques de recherche visuelle, les participants doivent dire le plus rapidement possible si une cible particulière est présente ou non parmi un ensemble d’objets distracteurs plus ou moins similaires à la cible (Thornton & Gilden, 2007 ; Wolfe, 1998). La performance des participants est habituellement évaluée par le taux d’erreur ou le temps de réaction, qui diminuent au fur et à

mesure que la performance augmente. Une des caractéristiques particulières de la recherche visuelle est de faire rechercher la cible dans des ensembles de taille variable. De nombreux travaux ont montré que la cible pouvait être identifiée de deux manières différentes en fonction des

caractéristiques visuelles de base des différents distracteurs, comme la couleur, la taille, la luminance ou le mouvement. Selon la théorie de Wolfe (1994), la cible peut être détectée très rapidement, sans attention volontaire, si elle diffère de tous les autres objets présents par au moins une de ses caractéristiques visuelles de base (e.g., une barre rouge parmi des barres vertes). Avec cet effet de

« pop-out », la cible est repérée instantanément et sans effort, quel que soit le nombre de distracteurs présents. Si la cible n’est pas immédiatement détectable, notamment parce que toutes ses caractéristiques visuelles sont partagées avec au moins une partie des distracteurs (e.g., une

barre rouge horizontale parmi des barres rouges verticales et des barres vertes horizontales), un deuxième processus, sériel, est engagé (Gilden, Thornton, & Marusich, 2010). Dans ce cas, l’attention visuelle du participant se déplace d’objet en objet ou de groupe d’objets en groupe d’objets de manière séquentielle jusqu’à la découverte de la cible. Ainsi, plus le nombre d’objets présents dans la

scène est grand, plus le temps de recherche s’allonge.

Plusieurs auteurs ont étudié le comportement du regard pendant des tâches de recherche visuelle (voir Rayner, 2009 pour une revue). Le suivi des mouvements oculaires est particulièrement

pertinent lorsqu’un processus de recherche sérielle est engagé, puisque le déplacement du regard

est principalement calqué sur le déplacement de l’attention. Par exemple, Najemnik et Geisler (2005) ont modélisé la stratégie optimale d’exploration oculaire en recherche visuelle. Le modèle prend en compte les deux phases importantes qui alternent pendant la recherche sérielle, la phase

d’intégration des informations (fixation) et celle de sélection des points de fixation suivants (programmation des saccades). Ce modèle intègre également un principe d’inhibition de retour qui empêche le regard de balayer plusieurs fois les mêmes zones de la scène. Les auteurs ont montré que ce modèle est représentatif de l’observateur humain, sauf pour l’inhibition de retour qui n’est

pas appliquée de manière vraiment performante par l’humain.

1.3.2. Recherche visuelle et multimodalité

La recherche visuelle n’est pas toujours purement visuelle. Certains auteurs ont montré qu’une

intégration des informations visuelles avec des informations auditives, verbales ou non, modifie le comportement de l’individu.

Plusieurs études ont abordé la recherche visuelle d’objets accompagnée d’instructions sonores verbales (Dahan & Tanenhaus, 2005 ; Gibson, Eberhard, & Bryant, 2005 ; Koelewijn, Bronkhorst, &

Theeuwes, 2009 ; Mosimann, Felblinger, Colloby, & Müri, 2004 ; Olds & Fockler, 2004 ; Reali, Spivey, Tyler, & Terranova, 2006 ; Spivey, Tyler, Eberhard, & Tanenhaus, 2001). Leurs auteurs cherchaient notamment à comprendre comment le langage pouvait gêner ou améliorer la perception visuelle

d’une scène. Par exemple, Spivey et al. ont présenté verbalement les caractéristiques de la cible dans le cadre d’une recherche visuelle. Les participants devaient trouver une cible (une barre) en entendant une voix indiquer sa couleur (rouge ou verte) et son orientation (verticale ou horizontale). Les auteurs ont manipulé le moment de présentation de l’indication et le nombre d’objets présents

dans la scène. L’indication pouvait être donnée avant que le champ de recherche n’apparaisse, ou au même moment. Les résultats ont montré que les temps de réaction étaient plus longs lorsque l’indication était présentée en même temps plutôt qu’avant les objets, mais étaient en revanche

moins dégradés par l’augmentation du nombre de distracteurs. Ces données suggèrent que les

systèmes perceptifs spécialisés dans le langage et la vision interagissent efficacement. De manière concrète, quand l’indication était présentée en même temps que le champ de recherche, dès que la première caractéristique (couleur ou orientation) était énoncée, les objets correspondants

devenaient plus saillants pour l’observateur. Une partie des distracteurs pouvait alors être directement ignorée. La recherche était ensuite facilitée dès que la deuxième caractéristique était donnée. Ces résultats ont été répliqués avec des recherches impliquant une triple conjonction de caractéristiques (couleur, orientation et taille) (Reali et al., 2006). Gibson et al. (2005) ont tempéré

ces résultats en montrant que lorsque l’indication verbale était énoncée à une vitesse d’élocution plus proche de celle utilisée dans la vie courante, l’atténuation de la dégradation en fonction de la taille du champ de recherche était plus faible.

D’autres auteurs se sont intéressés à l’interaction entre informations visuelles et auditives dans la recherche visuelle, mais en utilisant des sons plutôt que des indications verbales (Iordanescu, Grabowecky, Franconeri, Theeuwes, & Suzuki, 2010 ; Iordanescu, Guzman-Martinez, Grabowecky, & Suzuki, 2008 ; Pierno et al., 2005). Par exemple, Iordanescu et al. (2008) ont montré que lorsqu’un

son habituellement associé à la cible à trouver est présenté en même temps que les objets, la cible est détectée plus rapidement que lorsque le son n’est pas congruent. D’après ces auteurs, ces résultats suggèrent que le traitement sensoriel des informations est fondamentalement multimodal.

La perception de scènes visuelles statiques a été très étudiée. Toutefois, les études classiques du domaine n’insistent pas sur le caractère dynamique et complexe de certaines scènes visuelles. Ce sont donc les influences de deux caractéristiques spécifiques des scènes visuelles des jeux vidéo, la

complexité et le mouvement des arrière-plans, qui sont plus précisément mises en avant dans la section suivante. L’accent est mis sur la compréhension de l’influence de ces caractéristiques sur l’interaction avec les systèmes, notamment en termes de performance des individus.

2. Perception et interaction personne-système dans des