• Aucun résultat trouvé

Partie I - De la parole audiovisuelle à la question du liage : un état de l’art pour une stratégie

Chapitre 3. Un mécanisme de liage audiovisuel préalable à la fusion ?

3.2 Analyse des scènes perceptives

3.2.2 Bregman et l’analyse des scènes auditives

La vision des gestaltistes est que les lois formulées sont les propriétés fondamentales

d’un système perceptif, qui sont à la base d’une capacité humaine à donner un sens aux entrées

sensorielles. Ces propriétés d’organisation des scènes perceptives seraient innées. La vision de

Bregman (Bregman, 1990) est plus complexe, de nature heuristique et évolutive. Il suppose que

ces lois sont dérivées des caractéristiques générales du monde externe et basées sur

l’expérience. L’environnement impose le problème tandis que le cerveau humain essaie de

décrire l’état de son environnement.

Par rapport aux gestaltistes, Bregman contraste deux séries de mécanismes impliqués

dans l’analyse de scène auditive : le groupement auditif bottom-up par des primitives et l’appel

à des processus top-down par des schémas appris. L’organisation par les primitives est un

processus pré-attentif, qui permet de grouper spontanément les différentes composantes. Au

contraire, le groupement dirigé par les schémas est guidé par les processus attentionnels.

L’apport principal de Bregman porte sur les mécanismes de groupement primitifs, s’appuyant

sur des analyses variées du flux d’entrée, exploitant des paramètres et des sous-processus tels

que hauteur, intensité, fluctuations d’enveloppe, cohérences de fréquence, localisation, etc., à

partir desquels le système tente de résoudre le problème du groupement pour s’assurer que

toutes ces propriétés concernent un même événement ou un même objet.

Au cœur du mécanisme de groupement par primitives, Bregman considère le

mécanisme de détermination du « destin commun ». Ce mécanisme considère que si on

observe des variations cohérentes dans les parties différentes d’une scène donnée, il y a une

forte chance que ces parties appartiennent au même objet. Par exemple quand un son

harmoniquement structuré change dans le temps, tous ses harmoniques sont modulés en

fréquence et en amplitude de manière à maintenir la relation harmonique. Ces régularités

peuvent être utilisées dans le sens inverse pour déduire la structure sous-jacente. Quand les

relations entre composantes fréquentielles maintiennent une relation harmonique malgré des

changements de fréquence, d’amplitude ou de localisation de chaque composante individuelle,

il est probable que toutes ces composantes soient associées à un événement physique

cohérent. Pour Bregman, les systèmes perceptifs animaux ont évolué pour répondre à certains

facteurs constants dans leur environnement, notamment ceux associés à ce principe de

« destin commun ».

Contrairement aux travaux des gestaltistes qui sont principalement centrés sur la

perception visuelle, Bregman s’est attaché à montrer que certains principes gestaltistes

peuvent être appliqués aussi à l’audition (Bregman, 1990).

Ainsi, pour illustrer la loi de continuité, qui prédit que nous avons une tendance à

associer les éléments qui sont en continuité dans l’espace, si on fait alterner un son doux et un

son fort puis à nouveau un son doux, plutôt que de percevoir une modulation d’intensité, on

perçoit un son doux stable, sur lequel se superpose temporairement un second son doux : le

son fort est ainsi décomposé en une base, qui assure la continuité du son doux, et un second

son superposé.

La loi de similarité permet d’assurer l’appartenance à une même source. En vision le

groupement peut passer par une association perceptive de stimuli de même couleur, et

l’analogue auditif est fourni par le groupement par le timbre.

La loi de proximité peut-être réalisée par la proximité temporelle ou la proximité

fréquentielle, comme le montre la fameuse expérience de Van Noorden (Van Noorden, 1975),

alternant sons graves (A) et aigus (B) dans une séquence de type (ABA_ABA_ABA…) où « _ »

est un silence de même durée que les sons A et B. Cette séquence conduit soit à la perception

d’un « galop » de séquences « ABA », tous les sons étant alors groupés dans un seul flux, soit à

la perception de deux flux indépendants de « A » et de « B ». Le groupement en un ou deux

flux est géré par la proximité temporelle et spectrale : des sons qui sont très proches sur l’axe

temporel ou fréquentiel ont plus de chance d’appartenir à la même source.

Un autre exemple est le principe d’allocation exclusive (conduisant au phénomène de

multistabilité), qui est illustré dans la vision du vase de Rubin, que nous avons déjà présenté

(Figure 26). La multistabilité provient de ce que notre système perceptif attribue la ligne de

contour soit au vase soit aux deux visages. Cette propriété d’allocation exclusive peut se

retrouver dans l’audition avec par exemple une séquence de tons telle que celle de la Figure 28

(Bregman & Rudnicky, 1975). Dans cette expérience, la tâche des sujets est de décider l’ordre

des tons cibles (A et B) intégrés dans la séquence. Quand ils sont présentés isolés la décision

est facile. Mais quand ils sont environnés par des tons F (FABF), il devient difficile d’entendre

l’ordre au sein de cet objet FABF complexe. La question que se sont alors posée les auteurs est

de savoir comment séparer les tons cibles A et B et les tons perturbateurs F dans des flux

différents (FF et AB) pour que l’ordre des tons A et B redevienne clairement audible. Pour cela

ils ont introduit des séquences de tons C avec une fréquence spécifique. Quand la fréquence

des tons C était beaucoup plus basse que celle des tons F, les tons F étaient groupés avec les

tons A et B (FABF), donc l’ordre des tons A et B n’était pas clair pour les auditeurs. Mais quand

la fréquence des tons C était plus proche de celle des tons F, ils étaient groupés ensemble dans

un flux CCCFFCC qui « éliminait » les tons perturbateurs F et rendait l’ordre des tons AB facile

à déterminer, car ils étaient extraits dans un flux séparé. Dans cet exemple le principe

d’allocation exclusive a permis de rendre inopérant un ensemble de composantes en les

allouant à un flux « parallèle » au flux cible A-B.

Figure 28– Illustration du principe d’allocation exclusive en audition. Figure tirée de (Bregman &

Rudnicky, 1975).

Cependant, il n’existe pas de principe général qui garantisse en tout circonstance le

succès du groupement par des primitives, car les conditions de décomposition des scènes

peuvent être extrêmement variables, et les primitives peuvent conduire à des décisions parfois

contradictoires. Dans ce contexte, Bregman propose que le groupement fasse intervenir des

mécanismes de type votes, avec des effets de compétition ou au contraire de renforcement.

Cette approche peut expliquer l’instabilité du résultat dans des situations ambigües. Dans des

cas non ambigus, le système perceptif pourra attribuer une composante donnée à un flux

plutôt qu’un autre. En cas de concurrence forte entre deux organisations, elles peuvent être

« viables » l’une et l’autre. Ainsi, dans l’expérience de Bregman et Pinker (Bregman & Pinker,

1978) groupement temporel et spectral sont mis en concurrence (Figure 29) : les tons A et B

peuvent être regroupés en un flux A-B par un mécanisme de proximité fréquentielle (primitive

1), dans ce cas le sujet va percevoir les deux flux AB et C. Au contraire les tons B et C peuvent

être regroupés en un objet BC par un mécanisme de cohérence temporelle (primitive 2), donc

la séquence sera perçue comme deux flux A et BC. La concurrence entre les décisions prises par

chaque primitive implique un système de « gestion des conflits » qui pour Bregman peut être

de type « vote » (et que l’on dénommerait actuellement « fusion de décision ».

Documents relatifs