• Aucun résultat trouvé

C HAPITRE 3 : P ROBLÉMATIQUE DU

3.2/ Résistance de la parole au bruit

3.2.4/ Capacités humaines

3.2.4.1/ Robustesse de la perception humaine

Comme il a été dit précédemment, les capacités de reconnaissance de la parole en milieu bruité ont été assez peu étudiées. Il est cependant assez évident que l’homme a de très bonnes capacités dans ce domaine. L’environnement humain actuel est très souvent urbain et, par conséquent, très

3.2/ Résistance de la parole au bruit

souvent bruité. À tel point que l’amélioration de ce cadre de vie passe également, aujourd’hui, par une limitation du niveau des nuisances sonores. Mais quel que soit son environnement, l’homme a été capable de s’adapter à des contraintes très différentes et c’est justement cette capacité d’adaptation qui rend les systèmes de RAP si difficiles à mettre en œuvre à grande échelle et dans de nombreux champs d’application.

L’être humain peut cependant se retrouver confronté à des difficultés. Certains phénomènes sonores peuvent ainsi être dangereux pour les organes auditifs. Ce risque et la limite qui lui est associée sont de bons indicateurs de ce à quoi l’homme ne peut pas s’adapter. Mais ces difficultés peuvent être considérées comme naturelles car elles ne sont que le résultat d’évènements plus ou moins courants. Ces limites humaines pourraient donc être considérées, temporairement peut-être, comme les limites effectives de fonctionnement pour les systèmes de RAP. Pourquoi en effet bâtir des systèmes de dialogue capables d’évoluer dans des environnements trop agressifs pour qu’un homme y évolue ? Cette limite reste cependant floue car certains environnements à risque, tels que certains ateliers mécaniques ou même les boites de nuit (!), restent fréquentés par des gens qui peuvent éprouver le besoin de communiquer entre eux par la parole...

D’autres difficultés peuvent apparaître, celles-ci étant liées à des recherches scientifiques. Des études ont confronté l’homme à des tâches qui sont également effectuées par la machine dans la chaîne des traitements de la reconnaissance automatique de la parole. L’homme a en effet quelques difficultés à résoudre les problèmes posés lorsqu’on le met devant des tâches telles que la reconnaissance des voyelles ou des occlusives dans des contextes totalement artificiels [steenek92b]. Ainsi, bien que l’homme puisse communiquer en plusieurs langues, il est prouvé que des auditeurs de parole bruitée auront de meilleurs résultats si la langue utilisée est leur langue natale que si cette langue leur est étrangère bien que le résultat des deux types d’auditeurs (langue natale VS langue étrangère) soient les mêmes pour de la parole non bruitée [gat78]. Ceci tend à montrer l’importance des connaissances de haut niveau sur la langue et également l’importance de l’intégration de ces règles de haut niveau à un stade non verbal.

Une autre étude intéressante [miller55] tente de mesurer la capacité de l’être humain pour une tâche de discrimination de différentes consonnes de l’anglais. Le graphe de la figure 3.3 montre les résultats d’auditeurs sur un test de rime effectué en condition de bruit blanc. Ce graphe présente les confusions progressives entre les différentes consonnes de l’anglais, deux lignes accolées signifiant qu’aucune distinction entre deux consonnes ne peut être effectuée en deçà du seuil de RSSB qui vient d’être franchi. Cette étude tend à prouver les faibles capacités de l’homme sur des tâches de reconnaissance de la parole hors de tout contexte et de tout ancrage lexical et/ou syntaxique, ce type de reconnaissance étant pourtant à la base des systèmes de RAP.

Chapitre 3 : Problématique du bruit en RAP

Figure 3.3 :Graphe des confusions progressives entre les consonnes de l’anglais

américain en fonction des rapports signal sur bruit en condition de bruit blanc (consonne placée devant la voyelle /a/, d’après [miller55]).

La perception de différents types de parole dans le bruit, faite par [pickett56] (figure 3.4), tend à prouver la bonne résistance d’une parole non déformée dans du bruit pour la communication homme-homme. La parole non déformée doit être entendue comme étant de la parole normale (entre 50 et 80 dB) qui n’est donc ni murmurée, ni trop amplifiée. Cette étude va à l’encontre d’autres ([dreher57], [summers88]) et montre toute la difficulté qu’il y a à traiter de la parole subissant l’effet Lombard.

Figure 3.4 :Relation entre l’intelligibilité et la puissance de la voix. La puissance est

mesurée à un mètre de l’orateur. Le bruit original a un spectre plat à une puissance de 70 dB. La parole préenregistrée est modifiée en puissance lorsqu’elle est ajoutée au

bruit pour obtenir le RSSB donné sur chaque courbe (d’après [pickett56]).

L’homme possède, en outre, de très bonnes capacités discriminatoires lors de tâches des plus complexes telles que peuvent l’être les suivis de conversation au milieu de nombreux locuteurs (bruit connu sous le patronyme cocktail party en RAP). La figure 3.5 montre la capacité moyenne des auditeurs de l’expérience menée dans [miller47]. Un auditeur est en moyenne capable de reconnaître 80 pour cent des mots prononcés par son interlocuteur alors qu’un troisième interlocuteur parle aussi

18 12 6 0 -6 -12 -18

Rapport Signal sur Bruit, en dB

Phonèmes M N D G B V Z T K P F TH S CH DH JH 40 50 60 70 80 90 0 20 40 60 80 100 puissance de la voix - dB

pourcentage de mots corrects

RSSB +6dB RSSB 0dB RSSB -6dB

faible force cri force

3.2/ Résistance de la parole au bruit

fort que l’auditeur cible, ces 80% de mots étant compris en dehors de tout contexte sémantique.

Figure 3.5 :Intelligibilité de la parole en fonction du nombre de voix masquant la voix

cible. La voix cible a été maintenue à un niveau constant de 94 dB (d’après [miller47]).

Enfin, l’homme ne perçoit pas le bruit de la même manière en fonction de son activité quotidienne. Ses critères subjectifs de qualité ainsi que ses capacités de discrimination pourraient être grandement liés à sa profession. Dans une étude, [spieth56] a demandé à des auditeurs de juger le niveau de gêne provoqué par des bruits produits dans six plages de fréquences différentes. Les auditeurs ont ainsi, pour chaque plage, défini le seuil inférieur de puissance du bruit à partir duquel commençait la gêne. Spieth a ensuite divisé l’ensemble des auditeurs en deux groupes : il a donc calculé pour chaque plage de fréquences la moyenne du niveau de gêne pour les auditeurs travaillant en atelier ou en usine (milieu industriel) d’une part ainsi que la moyenne du niveau de gêne pour les auditeurs travaillant en milieu tertiaire. La différence entre ces deux moyennes n’est pas négligeable puisqu’elle varie approximativement entre 15 et 20 dB (figure 3.6).

Figure 3.6 :Gène provoquée par des bruits de chacune des plages de fréquences listées

en fonction de leur puissance (Sound Pressure Level). Le trait fort correspond à la moyenne obtenue sur un groupe de test travaillant dans un atelier alors que le trait fin

correspond à la moyenne obtenue sur un groupe de test travaillant en bureau. Les barres verticales donnent une indication de l’intervalle de confiance à 95% (d’après

[spieth56]).

Cette différence peut être vue comme le résultat d’une accoutumance qui pourrait elle-même être vue comme un apprentissage.

0 20 40 60 80 100

puissance du bruit additif - dB

pourcentage de mots corrects

77 83 89 95 101 107 113 1 voix 2 voix 4 voix 6 voix 150-394 670-1000 1420-1900 2450-3120 4000-5100 6600-9000 50 60 70 80 90 100 Plages de fréquences - Hz Équivalent SPL

Chapitre 3 : Problématique du bruit en RAP

3.2.4.2/ Limites des capacités auditives humaines

L’oreille humaine est un organe très fragile. Elle peut être d’une très grande sensibilité. Ainsi certaines personnes ont l’«oreille absolue» et bien que ce phénomène soit rare, il prouve jusqu’à quel point l’oreille peut devenir efficace.

Mais l’oreille peut également se dégrader dans le temps lorsqu’elle est soumise à des environnements sonores trop agressifs. Il en résulte une surdité totale ou partielle, la surdité partielle pouvant être effective pour tout le spectre des fréquences ou pour une simple plage de fréquences.

Pour contrôler la qualité des environnements sonores, plusieurs types de mesures ont été définis. Ces mesures sont majoritairement définies et utilisées par des organismes à vocation industrielle ou militaire.

Dans le domaine militaire, la très grande majorité de ces systèmes de mesure s’intéressent aux dégâts provoqués par des bruits impulsionnels tels que les fusils d’assaut, les obusiers lourds ou les armes antichars [dtat83], [nato87], [mil1474b], [dancer95b]. Certaines limites ont ainsi été définies concernant le taux de bruit supportable tout au long d’une journée et d’autres pour le taux supportable pendant 8 heures d’exposition continue [dancer92].

Certaines des mesures dernièrement développées [dancer95a] se fondent sur un calcul de l’énergie acoustique exprimée en décibels suivant une loi A supportée par un sujet pendant 8 heures. Ceci se note LAeq8, la loi LAeqN s’exprimant sous la forme [cammarata95] :

(Éq. 3.3)

où est le temps d’exposition en secondes et est le niveau du son, en décibels, suivant la loi A mesurée sur une période de 1 seconde

Ce type de loi est équivalente aux standards définis pour l’industrie [iso1999]. Certains de ces types de mesures ont d’ailleurs eu une naissance difficile ([iso3741], [iso3742] et [iso3745]) ce qui montre toute la difficulté de leur élaboration.