• Aucun résultat trouvé

Chapitre 4 Les visages, des objets audiovisuels particuliers 89

4.1.2 Perception audiovisuelle de la parole

Imaginez-vous à un pot de thèse en train d’essayer de suivre les commentaires de votre collègue, au milieu de dizaines d’autres conversations et du bruit de la

construction du tramway s’infiltrant par la fenêtre. En premier lieu, on peut

pen-ser que nous discriminons du bruit ambiant le discours sur lequel nous portons notre attention sur la base d’une analyse de la scène auditive seule, en séparant les nombreux signaux en objets sonores distincts [Bregman 1990]. Mais de nombreuses études ont montré que nous nous aidons aussi d’indices appartenant à d’autres

4.1. Etat de l’art sur la perception et l’exploration des visages 93

Ventriloquie

Le ventriloquisme est une ancienne pratique religieuse des oracles grecs. Appelée gastromancie, les sons produits par l’estomac étaient interprétés comme des voix d’outre-tombe produites par des morts ayant élu domicile dans le ventre du ventriloque. Cette illusion a été reprise par de nombreux co-médiens (ci-contre : Terry Bennett), ou simplement lorsque nous regardons un film : les voix semblent provenir de la bouche des protagonistes plutôt que des véritables haut-parleurs [Altman 1980].

Mais comment quantifier l’interaction audiovisuelle dans la perception de la parole ?

Cette dernière a été étudiée selon deux principaux paradigmes. Le premier évalue l’importance de l’interaction audiovisuelle en comparant le comportement

ou l’activité cérébrale de personnes face à un stimulus bimodal, versus unimodal,

ou dont une des modalités est altérée (bruitée, floutée). Le second paradigme rend

compte de la compétition existant entre les deux modalités en utilisant des stimuli bimodaux congruents ou incongruents (l’image correspond ou non au signal sonore perçu). Ces paradigmes ont fourni un cadre expérimental à de nombreuses études abordant de manières très diverses la perception audiovisuelle de la parole, et dont nous allons évoquer les principaux axes.

4.1.2.1 Intégration

Nous sommes capable d’intégrer un signal de parole avec l’information visuelle portée par le visage associé : voir notre locuteur parler améliore considérable-ment la perception de son discours. Mais quelles sont les conditions nécessaires à cette intégration audiovisuelle ? Comme il a été rappelé dans l’état de l’art (section 1.4), l’intégration multimodale est souvent théorisée dans le cadre de l’"hypothèse d’unité". Cette hypothèse stipule que plus les caractéristiques (par

exemple spatio-temporelles) de stimuli issus de différentes modalités sont liées,

plus il est probable que le cerveau les interprète comme provenant d’une source

commune [Welch & Warren 1980, Bertelson & de Gelder 2004, Calvert et al. 2004].

Les illusions audiovisuelles telles que l’effet McGurk1 ou la ventriloquie2 sont

souvent utilisées comme "marqueurs" de l’intégration. Pour la première, un /ga/ visuel (prononcé par un locuteur) est doublé par un /ba/ acoustique. Le mélange de

1. https://www.youtube.com/watch?v=aFPtc8BVdJk

Figure 4.1 – Montage expérimental de l’expérience de Senkowskiet al.. Trois locuteurs sont présentés sur un écran. Dans la condition "interference" les trois prononcent une syllabe simultanément. Dans la condition "no-interference", seul le locuteur central parle. La tâche est de détecter la syllabe /ba/ lorsqu’elle est prononcée par le locuteur central. Ce dernier est présenté à 25 Hz, les deux autres à 19 Hz. Extrait de [Senkowskiet al.2008].

ce stimulus bimodal incongruent est alors perçu par les participants comme étant un /da/ [McGurk & MacDonald 1976]. Pour la seconde, la localisation (temporelle ou spatiale) apparente d’un événement dans une modalité donnée est déplacée vers un événement concurrent appartenant à autre modalité [Thurlow & Jack 1973]. Dans un cas comme dans l’autre, plus l’intégration fonctionne, plus le biais est fort. La robustesse de l’intégration audiovisuelle est modulée entre autres par la

nature des stimuli présentés. Elle est particulièrement efficace lorsqu’il s’agit de

locuteurs et de sons de parole (voir discussion section 3.4). Cette robustesse est telle que l’intégration semble opérer de manière automatique, pourvu que les

carac-téristiques bas niveau des stimuli bimodaux soient suffisamment corrélées [Green

et al. 1991, Munhall et al. 1996]. Mais si tel était le cas, comment ferions-nous pour discriminer les "bonnes" co-occurences intermodales (celles bien liées au même événement) des simples coïncidences (issues de sources indépendantes) ? De nombreuses expériences ont mis en évidence le rôle décisif de l’attention dans ce

processus ( [Driver & Spence 1998,Bertelson & de Gelder 2004,Tiippanaet al.2004],

voir [Navarra et al. 2010] pour un état de l’art). Par exemple, il a été montré que

si l’on distrait visuellement des sujets durant une expérience type McGurk, la

prévalence de l’effet est de 30% moindre par rapport à des sujets non distraits

[Tiip-pana et al. 2004]. L’importance des distracteurs - et donc de l’attention - dans la perception audiovisuelle de la parole a également été très joliment mise en lumière

par Senkowski et al. Dans leurs études, ces auteurs ont présenté à leurs sujets trois

locuteurs. La tâche était de détecter la syllabe /ba/ prononcée par le locuteur central (cible) alors que les locuteurs périphériques (distracteurs) se taisaient (condition sans intérférence) ou prononçaient en même temps une autre syllabe

4.1. Etat de l’art sur la perception et l’exploration des visages 95

le même temps, les auteurs ont manipulé la présentation des visages en les faisant

clignoter à différentes fréquences : le locuteur cible était présenté à 25 Hz alors

que les distracteurs étaient à 19 Hz. La méthode des Steady-State Visual Evoked

Potentials (SSVEP) a été utilisée pour mesurer en temps réel vers quel locuteur

se portait l’attention visuelle (overt ou covert) des sujets à partir de leurs signaux

EEG. Les résultats montrent que l’amplitude des potentiels évoqués par les dis-tracteurs est corrélée négativement avec la performance des sujets : le déploiement de l’attention visuelle vers les locuteurs distracteurs interfère avec la perception audiovisuelle du discours du locuteur cible. Dans cette étude, l’attention visuelle module l’intégration. Mais qu’en est-il de l’attention auditive ? Pour tenter de répondre à cette question, Alsius & Soto-Faraco ont mené deux expériences [Alsius & Soto-Faraco 2011]. Lors de la première, les sujets devaient détecter quelle face, parmi un ensemble de visages distracteurs, était à l’origine du discours prononcé (Figure 4.2a). Dans la seconde, au contraire, les participants devaient détecter quel signal de parole, parmi un ensemble de discours distracteurs, coïncidait avec le visage qui leur était présenté (Figure 4.2b). Les résultats montrent que dans la première expérience, les temps de réaction augmentent avec le nombre de visages à discriminer : l’"appariement" audiovisuelle est ici une tâche sérielle nécessitant le déploiement de l’attention spatiale visuelle. A l’inverse, dans la seconde expérience,

les temps de réaction sont indépendants du nombre de flux sonore à discriminer :

l’extraction de correspondances audiovisuelles dans les signaux de parole est eff

ec-tuée en parallèle, sans déploiement de l’attention spatiale. Les auteurs soulignent

que ces résultats révèlent une différence fondamentale entre perception visuelle et

auditive. Alors qu’il est nécessaire d’encoder la position spatiale d’un objet visuel pour avoir accès à ses caractéristiques (couleurs, forme...), ce n’est pas le cas pour un objet sonore : on peut percevoir l’intensité ou la fréquence d’un son en ignorant tout de la localisation de sa source.

Ces études indiquent que l’attention joue un rôle fondamental pour l’intégra-tion audiovisuelle de la parole. En cela, elles sont en contradicl’intégra-tion avec d’autres

recherches menées à partir de stimuli artificiels. Par exemple, le pip and pop

pheno-menon, dont nous avons déjà parlé, a mis en évidence une intégration automatique,

en parallèle d’une cible visuelle avec un pip sonore (voir section 1.4.2.2 [Van der

Burget al.2008]). Afin de rendre compatibles ces résultats a priori contradictoires,

Talsma et al. ont proposé un modèle dans lequel la complexité du stimulus joue

un rôle clef dans la nature de l’intégration audiovisuelle [Talsma et al. 2010].

Dans leur modèle, l’intégration multimodale s’effectue de manière pré-attentive, en

parallèle, dans une scène où la compétition entre les stimuli est faible. Dans le pip

and pop phenomenon, le très saillant pip sonore générerait un signal suffisamment fort pour être automatiquement associé au stimulus concomitant dans la modalité visuelle. A l’inverse, lorsque dans chaque modalité de multiples stimuli sont en compétition et qu’aucun ne ressort particulièrement de la scène (comme c’est le cas pour la perception audiovisuelle de la parole dans les expériences d’Alsius &

sti-Figure4.2 –Montages expérimentaux des expériences d’Alsius & Soto-Faraco.(a)Point defixation central, suivi d’un indice spatial, puis du stimulus constitué d’un point defixation central et de quatre visages, chacun prononçant un discours différent, ainsi que d’un unique signal de parole. Les participants devaient détecter la tête correspondant au son diffusé.(b) Les signaux de parole étaient diffusés par des haut-parleurs placés aux positions indiquées. Les sujets regardaient le centre de l’écran où était présentée une tête parlante, et devaient détecter le haut-parleur lui correspondant. Adapté de [Alsius & Soto-Faraco 2011].

4.1. Etat de l’art sur la perception et l’exploration des visages 97

muli pertinents (voir aussi la théorie de la charge perceptuelle de Lavie [Lavie 2005]). Si la corrélation entre les attributs bas niveau est depuis toujours invoquée comme condition nécessaire à l’intégration audiovisuelle, l’attention semble aussi être une variable décisive lors de la perception audiovisuelle de la parole. Et pour étudier les processus attentionnels, quoi de mieux que les mouvements oculaires ?