Le bruit cocktail party - La parole dégradée

CHAPITRE I. Introduction théorique

D. La parole dégradée

D.4. Le bruit cocktail party

La compréhension de la parole dans le bruit pose problème à la majorité des locuteurs.

Bien souvent, une personne possédant une parfaite audition dans le silence, sera fortement gênée par la présence de bruit pour suivre une conversation. La gêne occasionnée par la présence de bruit pour comprendre un message parlé est la source de motivation la plus fréquente pour la première consultation d’un spécialiste de l’audition. Cette situation devient extrêmement problématique pour l’oreille vieillissante, et chez les personnes victimes de troubles de l’audition, la tâche devient quasiment insurmontable. Il parait donc crucial, d’un point de vue thérapeutique, de parvenir à comprendre les mécanismes de compréhension de la parole dans le bruit pour savoir comment y suppléer.

D.4.1. La parole dans la parole

Contrairement à la majorité des formes de dégradation présentées précédemment, pour lesquelles une distorsion acoustique est appliquée directement au signal, il est également possible de dégrader le message parlé en lui superposant un signal concurrent qui va perturber sa compréhension. C’est le cas de la parole dans le bruit que nous avons décrit plus haut. Il existe bien entendu une multitude de bruits que l’on peut superposer au signal : bruit à large bande spectrale, bruit blanc (densité spectrale identique pour toutes les fréquences), ou bruit de parole. Le bruit cocktail party consiste précisément à adjoindre au signal de parole cible,

un ou plusieurs autres signaux de parole qui vont masquer le message cible. Cette situation, créée artificiellement, correspond à une situation de parole que nous expérimentons au quotidien.

D.4.2. L’effet cocktail party

Le phénomène de « cocktail party » a été décrit par Cherry en 1953. Il s’agit de la capacité à séparer et à comprendre un signal de parole, parmi d’autres bruits concurrents simultanés, paroliers ou non. La description de ce phénomène a donné lieu à une multitude de travaux de recherche sur la séparation de flux sonores et l’analyse de scènes auditives (voir Bronkorst, 2000 ; pour une revue). L’intelligibilité de la parole présentée parmi d’autres signaux de parole dépend notamment de deux facteurs : le nombre de voix concurrentes et l’enveloppe spectrale globale du stimulus. Lorsque les différents flux concurrents proviennent de localisations différentes, le système est capable de faire une séparation spatiale de ces différents flux pour isoler la voix cible (Bronkorst, 2000). Cependant, lorsque le mélange sonore est diffusé avec un casque aux deux oreilles simultanément, le système n’a aucun repère spatial et doit donc utiliser d’autres indices comme des différences d’accents, ou de fréquence fondamentale (F0) entre les voix concurrentes (Brungart, Simpson, Ericsson &

Scott, 2001).

D.4.3. Notions de masquage

Lors de la perception de la parole dans la parole, les voix appartenant au bruit de fond vont venir se superposer à la voix cible et gêner la compréhension du message qu’elle délivre.

On parle alors d’effet de « masquage ». Le bruit de fond, dénué d’intérêt, va cacher le signal cible et gêner sa perception. On distingue deux effets de masquage occasionnés par ce bruit de fond : le masquage énergétique et le masquage informationnel.

D.4.3.1. Le masquage énergétique

Le masquage énergétique est constamment présent dans une situation de perception dans du bruit (parolier ou non). Il est attribué à la composition spectrotemporelle du bruit qui recouvre le signal cible. Le masquage énergétique est présent dès que la parole est perçue dans une situation ou un bruit extérieur vient s’additionner au signal de parole et recouvre en temps et en fréquence une partie des informations qu’il contient.

D.4.3.2. Le masquage informationnel

Il s’agit du masquage occasionné par les informations langagières présentes dans le bruit concurrent. Lorsque le bruit concurrent est un bruit de parole, celui-ci contient des informations linguistiques qui vont pouvoir interférer avec les informations du signal de parole cible. Ces informations « parasites », sur lesquelles l’attention n’est pourtant pas focalisée, vont être irrépressiblement traitées par le système de compréhension de la parole et gêner le traitement des informations pertinentes.

D.4.4. Travaux récents

La plupart des travaux s’intéressant à la question de la compréhension de la parole dans la parole, ont étudié le phénomène cocktail party en se focalisant d’emblée sur les indices de séparation spatiale des flux concurrents (Ericsson & McKinley, 1997 ; Drullman &

Bronkorst, 2000). Ces deux études ont utilisé une condition à trois voix ou plus provenant de la même source (écoute diotique) comme condition contrôle. D’autres utilisent l’écoute diotique ou monaurale comme condition contrôle dans une tâche d’écoute dichotique (Carhart, Tillman & Greetis, 1969). Peu d’études antérieures se sont intéressées spécifiquement à la ségrégation de flux de parole lorsque la voix cible et les voix concurrentes proviennent d’une même source. Les premiers travaux (Miller, 1947) ont étudié les effets de la variation du Rapport Signal sur Bruit (RS/B) et du nombre de locuteurs concurrents sur la perception d’un stimulus de parole multilocuteurs diotique (le même signal aux deux oreilles).

Les résultats montrent que l’intelligibilité du locuteur cible diminue lorsque des locuteurs compétiteurs interviennent et lorsque le niveau sonore de la cible est réduit par rapport au niveau sonore des bruits de parole concurrents.

En 2001, une étude de Brungart s’est penchée sur la perception diotique de deux signaux de parole concurrents et a montré qu’une différence dans les caractéristiques vocales des voix concurrentes, comme par exemple une différence de genre ou de niveau sonore entre les deux locuteurs, peut améliorer l’intelligibilité de la voix cible. Cette condition à deux voix concurrentes est résolue grâce aux indices de surface. Les indices de surface sont nombreux : F0 (fréquence fondamentale), timbre des voix, style discursif, etc. Les données de cette étude à deux locuteurs montrent un fort effet de masquage informationnel : les locuteurs sont capables d’entendre les deux messages concurrents, mais rencontrent quelques difficultés à différencier le contenu de la phrase cible de celui de la phrase concurrente (Brungart, 2001a, 2001b).

L’étude de référence pour nos travaux est celle de Brungart, et al. (2001). Ils ont étudié les effets du nombre de locuteurs, du genre des locuteurs, et du RS/B dans des cocktails party à une voix cible et deux ou trois voix concurrentes. Les auteurs ont utilisé pour leur matériel cible et concurrent les phrases du corpus de Bolia, Nelson, Ericson & Simpson (2000) qui comporte des phrases de la forme « Ready (call sign) go to (color) (number) now ». Avec huit indicatifs possible (exemples : Arrow, Baron, Charlie…) ; quatre couleurs (blue, green, red, white) et huit chiffres (de 1 à 8), le corpus propose toutes les combinaisons, soit 256 phrases possibles de la forme « Ready Charlie go to green seven now ». Chaque phrase est disponible en huit voix différentes (quatre voix d’hommes et quatre voix de femmes). Dans cette étude, chaque stimulus correspondait à trois ou quatre phrases du corpus diffusées simultanément.

La phrase cible commençait toujours par l’indicatif « Baron » et les deux ou trois phrases

« masquantes » par un autre indicatif sélectionné aléatoirement. Dans chaque stimulus, les phrases « masquantes » et la phrase cible contenaient obligatoirement des couleurs et des nombres différents les uns des autres. Le niveau sonore (RMS power) des phrases de bruit de fond a été fixé entre 60 et 70 dB SPL et le niveau sonore de la phrase cible a été ajusté de façon à obtenir 10 Ratios Cible/Masques (RCM)⁴ allant de -12 dB à +15 dB par pas de 3 dB.

Les stimuli étaient présentés diotiquement au casque. Les participants étaient placés devant un écran comportant toutes les combinaisons couleur/nombre possibles et devaient cliquer sur celle correspondant à la phrase du stimulus commençant par « Ready Baron ».

Les résultats montrent qu’à partir de trois voix en compétition, une diminution linéaire des performances est observée lorsque le RCM diminue. Les auteurs observent un fort effet de genre, les performances sont moins bonnes lorsque le locuteur cible et les locuteurs concurrents sont de même genre, particulièrement pour les RCM positifs (niveau sonore de la cible plus élevé que le niveau sonore des compétiteurs). Cet effet de genre tend à disparaître lorsque le nombre de voix dans le stimulus augmente. Pour résoudre le problème de l’effet cocktail party, les indices de surface n’interviennent plus à partir de trois voix de genre identique, ou de quatre voix de genre mixte. Par ailleurs, les performances augmentent pour un ratio positif donné lorsque le nombre de voix augmente. Lorsque le ratio est négatif, c’est l’inverse, les performances sont meilleures pour la condition à deux locuteurs que celles à trois ou quatre locuteurs. En résumé ; l’ensemble des études de Brungart montre que lorsque le mélange de parole est composé d’un faible nombre de locuteurs (deux à quatre), les

4 Il est à noter que ce ratio entre le niveau sonore de la phrase cible et celui d’une des phrases « masquantes » est différent du rapport Signal/Bruit que nous utiliserons pour nos expériences et qui correspond au rapport entre le niveau sonore de la phrase cible et le niveau sonore global du signal.

auditeurs s’appuient sur des indices propres aux voix, comme le genre ou l’intensité sonore de chaque voix, pour compenser les effets de masquages.

Il faut remarquer que l’étude de Brungart, et al. (2001) se prête tout particulièrement à un effet de masquage informationnel du fait de la ressemblance entre phrases cibles et phrases concurrentes et de la redondance des items utilisés. L’analyse des erreurs a d’ailleurs montré qu’il était très rare de trouver des réponses qui n’étaient pas réellement présentes dans les stimuli. Ce point constitue une limite de l’étude de Brungart, et al. (2001) : les participants avaient des connaissances sur le contenu des phrases « masquantes » et des phrases cibles, du fait du nombre réduit d’items de chaque catégorie (huit indicatifs, quatre couleurs, huit chiffres possibles). D’autre part, la tâche correspondait à une tâche de compréhension de parole dans la parole, cependant elle était particulièrement facile puisque il suffisait d’identifier les trois éléments principaux (trouver la voix prononçant «Baron », la couleur et le chiffre associé) pour choisir la réponse correcte. De plus, le nombre réduit d’items possibles dans chaque catégorie permettait de deviner le mot prononcé. Par exemple, pour les quatre couleurs utilisées (blue, green, red, white) le fait de percevoir uniquement la voyelle cible suffisait à identifier correctement la couleur. Ces choix méthodologiques, très pratiques à contrôler, ne pouvaient conduire au recueil de performances d’intelligibilité dans le bruit représentatives d’une situation de perception réelle.

Nos travaux de recherche se sont largement inspirés de l’étude de Brungart, et al. (2001), cependant, nous avons mis en place une tâche de transcription (au lieu de la tâche non verbale demandée par Brungart, et al., 2001), et nous avons respecté un certain nombre de critères psycholinguistiques pour la création du matériel expérimental. Nous avons enregistré un corpus de parole naturelle et variée qui nous a servi de base pour créer les bruits paroliers. Nous avons également testé un nombre plus important de voix concurrentes pour étudier les effets de masquage informationnel et énergétique comme nous le verrons au Chapitre III.

Dans le document L A RECONSTRUCTION COGNITIVE DE LA PAROLE DÉGRADÉE : (Page 55-61)