Partie I - De la parole audiovisuelle à la question du liage : un état de l’art pour une stratégie Chapitre 3. Un mécanisme de liage audiovisuel préalable à la fusion ? 3.2 Analyse des scènes perceptives 3.2.2 Bregman et l’analyse des scènes auditives La vision des gestaltistes est que les lois formulées sont les propriétés fondamentales d’un système perceptif, qui sont à la base d’une capacité humaine à donner un sens aux entrées sensorielles. Ces propriétés d’organisation des scènes perceptives seraient innées. La vision de Bregman (Bregman, 1990) est plus complexe, de nature heuristique et évolutive. Il suppose que ces lois sont dérivées des caractéristiques générales du monde externe et basées sur l’expérience. L’environnement impose le problème tandis que le cerveau humain essaie de décrire l’état de son environnement. Par rapport aux gestaltistes, Bregman contraste deux séries de mécanismes impliqués dans l’analyse de scène auditive : le groupement auditif bottom-up par des primitives et l’appel à des processus top-down par des schémas appris. L’organisation par les primitives est un processus pré-attentif, qui permet de grouper spontanément les différentes composantes. Au contraire, le groupement dirigé par les schémas est guidé par les processus attentionnels. L’apport principal de Bregman porte sur les mécanismes de groupement primitifs, s’appuyant sur des analyses variées du flux d’entrée, exploitant des paramètres et des sous-processus tels que hauteur, intensité, fluctuations d’enveloppe, cohérences de fréquence, localisation, etc., à partir desquels le système tente de résoudre le problème du groupement pour s’assurer que toutes ces propriétés concernent un même événement ou un même objet. Au cœur du mécanisme de groupement par primitives, Bregman considère le mécanisme de détermination du « destin commun ». Ce mécanisme considère que si on observe des variations cohérentes dans les parties différentes d’une scène donnée, il y a une forte chance que ces parties appartiennent au même objet. Par exemple quand un son harmoniquement structuré change dans le temps, tous ses harmoniques sont modulés en fréquence et en amplitude de manière à maintenir la relation harmonique. Ces régularités peuvent être utilisées dans le sens inverse pour déduire la structure sous-jacente. Quand les relations entre composantes fréquentielles maintiennent une relation harmonique malgré des changements de fréquence, d’amplitude ou de localisation de chaque composante individuelle, il est probable que toutes ces composantes soient associées à un événement physique cohérent. Pour Bregman, les systèmes perceptifs animaux ont évolué pour répondre à certains facteurs constants dans leur environnement, notamment ceux associés à ce principe de « destin commun ». Contrairement aux travaux des gestaltistes qui sont principalement centrés sur la perception visuelle, Bregman s’est attaché à montrer que certains principes gestaltistes peuvent être appliqués aussi à l’audition (Bregman, 1990). Ainsi, pour illustrer la loi de continuité, qui prédit que nous avons une tendance à associer les éléments qui sont en continuité dans l’espace, si on fait alterner un son doux et un son fort puis à nouveau un son doux, plutôt que de percevoir une modulation d’intensité, on perçoit un son doux stable, sur lequel se superpose temporairement un second son doux : le son fort est ainsi décomposé en une base, qui assure la continuité du son doux, et un second son superposé. La loi de similarité permet d’assurer l’appartenance à une même source. En vision le groupement peut passer par une association perceptive de stimuli de même couleur, et l’analogue auditif est fourni par le groupement par le timbre. La loi de proximité peut-être réalisée par la proximité temporelle ou la proximité fréquentielle, comme le montre la fameuse expérience de Van Noorden (Van Noorden, 1975), alternant sons graves (A) et aigus (B) dans une séquence de type (ABA_ABA_ABA…) où « _ » est un silence de même durée que les sons A et B. Cette séquence conduit soit à la perception d’un « galop » de séquences « ABA », tous les sons étant alors groupés dans un seul flux, soit à la perception de deux flux indépendants de « A » et de « B ». Le groupement en un ou deux flux est géré par la proximité temporelle et spectrale : des sons qui sont très proches sur l’axe temporel ou fréquentiel ont plus de chance d’appartenir à la même source. Un autre exemple est le principe d’allocation exclusive (conduisant au phénomène de multistabilité), qui est illustré dans la vision du vase de Rubin, que nous avons déjà présenté (Figure 26). La multistabilité provient de ce que notre système perceptif attribue la ligne de contour soit au vase soit aux deux visages. Cette propriété d’allocation exclusive peut se retrouver dans l’audition avec par exemple une séquence de tons telle que celle de la Figure 28 (Bregman & Rudnicky, 1975). Dans cette expérience, la tâche des sujets est de décider l’ordre des tons cibles (A et B) intégrés dans la séquence. Quand ils sont présentés isolés la décision est facile. Mais quand ils sont environnés par des tons F (FABF), il devient difficile d’entendre l’ordre au sein de cet objet FABF complexe. La question que se sont alors posée les auteurs est de savoir comment séparer les tons cibles A et B et les tons perturbateurs F dans des flux différents (FF et AB) pour que l’ordre des tons A et B redevienne clairement audible. Pour cela ils ont introduit des séquences de tons C avec une fréquence spécifique. Quand la fréquence des tons C était beaucoup plus basse que celle des tons F, les tons F étaient groupés avec les tons A et B (FABF), donc l’ordre des tons A et B n’était pas clair pour les auditeurs. Mais quand la fréquence des tons C était plus proche de celle des tons F, ils étaient groupés ensemble dans un flux CCCFFCC qui « éliminait » les tons perturbateurs F et rendait l’ordre des tons AB facile à déterminer, car ils étaient extraits dans un flux séparé. Dans cet exemple le principe d’allocation exclusive a permis de rendre inopérant un ensemble de composantes en les allouant à un flux « parallèle » au flux cible A-B. Figure 28– Illustration du principe d’allocation exclusive en audition. Figure tirée de (Bregman & Rudnicky, 1975). Cependant, il n’existe pas de principe général qui garantisse en tout circonstance le succès du groupement par des primitives, car les conditions de décomposition des scènes peuvent être extrêmement variables, et les primitives peuvent conduire à des décisions parfois contradictoires. Dans ce contexte, Bregman propose que le groupement fasse intervenir des mécanismes de type votes, avec des effets de compétition ou au contraire de renforcement. Cette approche peut expliquer l’instabilité du résultat dans des situations ambigües. Dans des cas non ambigus, le système perceptif pourra attribuer une composante donnée à un flux plutôt qu’un autre. En cas de concurrence forte entre deux organisations, elles peuvent être « viables » l’une et l’autre. Ainsi, dans l’expérience de Bregman et Pinker (Bregman & Pinker, 1978) groupement temporel et spectral sont mis en concurrence (Figure 29) : les tons A et B peuvent être regroupés en un flux A-B par un mécanisme de proximité fréquentielle (primitive 1), dans ce cas le sujet va percevoir les deux flux AB et C. Au contraire les tons B et C peuvent être regroupés en un objet BC par un mécanisme de cohérence temporelle (primitive 2), donc la séquence sera perçue comme deux flux A et BC. La concurrence entre les décisions prises par chaque primitive implique un système de « gestion des conflits » qui pour Bregman peut être de type « vote » (et que l’on dénommerait actuellement « fusion de décision ». Dans le document Analyse de scènes de parole multisensorielle : Mise en évidence et caractérisation d’un processus de liage audiovisuel préalable à la fusion. (Page 39-42)