• Aucun résultat trouvé

La parole : un exemple parfait de l’intégration multisensorielle

2.6 Intégration des informations multisensorielles

2.6.2 La parole : un exemple parfait de l’intégration multisensorielle

Il est un phénomène connu qui permet d’illustrer ce principe d’intégration mul- tisensorielle et d’interactions entre voix et visages : il s’agit de l’effet McGurk [233]. L’illusion consiste à présenter une vidéo d’une personne dans laquelle les informations visuelles et auditives discordent (par exemple la syllabe "ga" en visuel et en auditif de façon incongruente, le son "ba"). La discordance entre les deux modalités sera traitée au niveau cérébral comme un amalgame des deux, conduisant à la perception d’un "da" (illustration Figure2.25). L’effet McGurk peut également arriver avec une présentation visuelle "aka", une stimulation auditive "apa" et un percept final "ata".

Cet effet McGurk est une démonstration très puissante de l’intégration audiovisuelle dans le cadre de la parole. La stimulation visuelle change fondamentalement la percep- tion de la stimulation auditive, et cet effet est quasiment automatique. Il corrobore en quelque sorte le fait que la parole est un percept unifié, qui est difficilement traité de

Figure 2.25 –Illustration de l’effet McGurk. La perception visuelle est un "ga", alors que la perception auditive est un "ba". Notre cerveau traite cette discordance des modalités en faisant "une moyenne" des deux perceptions, conduisant au percept final de "da". Issu de l’étude de King et al [198].

façon dissocié, le visuel étant intégré à l’auditif.

De par son aspect multimodale, incluant mouvements des lèvres et production audi- tive, la parole représente, par nature, un phénomène intrinsèquement multisensorielle. Ainsi, la parole serait perçue comme une représentation unique, qui a fait l’objet d’une théorie, celle de l’effet d’unité ou unity effect [349]. Cet effet est défini comme inter- venant à chaque fois que deux entrées sensorielles ou plus, sont hautement cohérentes dans une ou plusieurs dimensions (telles que le temps, l’espace, la structuration tem- porelle ou le nombre et le contenu sémantique). Les individus vont alors les traiter comme appartenant au même système d’évènements multisensoriels plutôt que comme une mosaïque d’événements unimodaux distincts [351]. Par conséquent, les individus seront plus susceptibles de supposer que les entrées sensorielles ont une origine spatio- temporelle commune et seront donc, plus susceptibles de les lier en un seul percept unifié [350].

Afin de tester cet effet sur la perception de la parole, Vatakis et al ont développé une expérience qui consistait en la variation de l’asynchronie entre la présentation visuelle et auditive. Les participants devaient indiquer qui de la voix ou du visage, était présenté en premier. Ces auteurs sont partis de l’hypothèse selon laquelle, la parole est par na- ture multisensorielle et il doit être particulièrement complexe de définir quelle modalité sensorielle devance l’autre [351]. Ils ont alors pu mettre en évidence, que la différence minimale perceptible (ou JND pour just noticeable difference), est plus élevée dans le cadre de la parole (pour des informations congruentes qu’incongruentes), ce qui entraîne que la différence temporelle entre l’information visuelle et auditive doit être élevée afin d’être perçue [351]. Lorsque que cette différence est faible, les participants rencontraient des difficultés à indiquer la modalité sensorielle qui était présenté en premier, synonyme

d’une intégration des informations en un percept unifié difficilement sécable [350]. Par ailleurs, la séparation temporelle du son et de l’image aura tendance à être perçue plus facilement pour des stimuli basiques (par exemple les notes au piano, ou le bruit d’un marteau) [351]. Pour la parole, ce délai devra être sensiblement plus important, puisque l’effet d’unité entraînera une combinaison des informations auditives et visuelles à de plus fortes latences temporelles.

2.6.3

Intégration et facilitation

L’intégration multisensorielle est une capacité qui s’observe aussi d’un point de vue comportemental. Outre l’effet d’interférence comme dans le cas de l’effet McGurk, nous bénéficions d’une facilitation de l’intelligibilité du langage quand le locuteur est visible [57]. De ce fait, la redondance des informations audiovisuelles augmente la per- ception du langage et diminue la recrutement des ressources cognitives allouées à la compréhension de la parole [4]. Dans une tâche de perception de la parole dans le bruit, Ross et al ont montré que le gain audiovisuel est maximal pour des SNR4 élevés (de

l’ordre de -20dB) avec un pic à -12dB (Figure 2.26). Ceci s’explique par le fait que les performances pour des conditions auditives ou visuelles extrêmement dégradées, sont très faibles. Ainsi, lorsque l’on calcule le gain d’une présentation audiovisuelle par rap- port à une présentation unimodale, les pourcentages d’amélioration s’envolent (alors que les performances brutes ne sont pas sensiblement augmentées). Néanmoins, lorsque la perception des mots en auditif commence à augmenter, alors l’ajout d’informations visuelles entraînera une forte hausse des performances des sujets et donc des scores d’intégration multisensorielles (gains) moins élevés (effet plafond, Figure 2.26) [287]. Il s’agit également d’une expérience comportementale qui démontre le principe d’efficacité inverse qui sera abordé dans le paragraphe suivant.

Le canal auditif peut être également influencé par la stimulation visuelle en séparant les indices sensoriels. L’exemple que chacun a déjà pu apprécier est celui de la ventrilo- quie. Le ventriloque, en jouant avec sa marionnette, nous donne l’impression que c’est elle qui parle. En bougeant les lèvres de la marionnette, nous avons alors la sensation que la source sonore provient de celle-ci, conduisant à une discordance spatiale de l’in- formation sonore.

Autre exemple qui illustre la facilitation multimodale, lors d’une tâche de jugement de familiarité, la présentation de la voix de la personne à reconnaître juste avant la présentation de son visage, entraine un effet de priming, qui raccourcit les temps de réaction pour juger de la familiarité de cette personne [57].

La facilitation engendrée par la perception multimodale d’un stimulus se traduit sou- vent par des temps de réaction plus courts ainsi qu’à des taux de bonnes réponses

Figure 2.26 – Graphique qui illustre le gain multisensoriel (AV-A) des performances de re- connaissance vocale en fonction du niveau de SNR (ligne noire continue). La ligne en pointillée représente les performances de reconnaissance en lecture labiale (V). Au niveau de l’encadré rouge, pour un SNR de -12dB, le gain en performances est le plus élevé. SNR : signal to noise ratio. Issu des travaux de Ross et al [287].

augmentés (nous l’avons vu avec l’exemple de l’étude de Ross et al). Cet effet facili- tateur s’observe aussi bien, avec des stimuli simples ou complexes, que lors de tâches basiques. Par exemple, lors d’une simple tâche de détection de stimuli, les présentations étaient visuelles, auditives, ou audiovisuelles (congruentes et incongruentes) et le sujet devait appuyer le plus rapidement possible, dès la présentation d’un stimulus (A, V ou AV) [189]. Les auteurs ont rapporté que la stimulation audiovisuelle, induisait des temps de réaction significativement plus courts que ceux d’une présentation unimodale (comme illustrée dans la Figure 2.27, panel de droite). Il semblerait, donc que la conver- gence des informations sensorielles, permet d’améliorer notre perception de l’ensemble des stimuli qui nous parviennent et plus rapidement. De ce fait, nous pouvons supposer que cette faculté est primordiale dans nos interactions sociales nécessitant le traitement simultané de quantités d’informations. Il faudra unifier afin d’obtenir une représenta- tion adéquate du monde.