• Aucun résultat trouvé

Résumé du problème de classification

4.5 Proposition d’une méthode de protection audio

4.5.1 Résumé du problème de classification

4.5.3 Comportement des descripteurs . . . 50 4.6 Évaluations . . . . 52 4.6.1 Bases de données audio . . . 52 4.6.2 Protocole . . . 52 4.6.3 Résultats . . . 53 4.7 Conclusions . . . . 57

4.1

Introduction

Dans le chapitre précédent, nous avons mis en évidence deux manières de mettre en œuvre la classifica- tion audio : la classification appelée à la trame, dans laquelle la prise de décision est opérée en exploitant que les descripteurs calculés sur une trame, et la classification appelée sur segment, faisant intervenir les informations issues des trames consécutives et exploitant alors l’évolution temporelle des descripteurs.

Dans le cadre d’une classification sous contraintes temporelles, le paradigme de classification à la trame semble le plus approprié puisqu’on reste en phase entre les données observées et la prise de décision. Dans ce chapitre, on met en application ce paradigme pour la tâche de classification dédiée à la protection acoustique. L’objectif ici est de détecter puis supprimer des signaux pouvant être perçus comme gênants pour la personne qui en fait l’expérience. Comme on le verra par la suite, la nature de ces signaux fait qu’il est nécessaire de mettre en place un algorithme permettant de détecter très rapidement ces signaux, sous peine de mettre en danger l’audition de l’utilisateur. C’est pour cette raison qu’une classification à la trame semble le plus adapté : dès qu’un signal gênant survient dans une trame, on tentera de le détecter. Cette tâche de classification s’apparente donc à du temps réel strict du fait de la dangerosité des signaux à détecter.

4.2

Protection acoustique : positionnement du problème

Ce projet est apparu suite à l’augmentation du nombre de cas où des personnes étaient exposées à des signaux dangereux lors de conversations téléphoniques. Ce phénomène touche principalement les personnes travaillant pour des services de relation client, alors équipées de casque audio pendant toute leur journée de travail. L’apparition soudaine de ces signaux, appelés aussi chocs acoustiques, peut avoir des conséquences graves sur l’audition et c’est pourquoi il est important de mettre en œuvre des outils pour protéger les utilisateurs de ce phénomène. Cette protection peut se décomposer en deux phases : une phase de détection, destinée à mettre en évidence les caractéristiques des signaux gênants, et une phase de suppression destinée à traiter le signal gênant de manière à le rendre inoffensif. Dans ces travaux on s’intéressera essentiellement à la phase de détection qui est la plus critique. L’étape de détection doit être efficace et précise dans le sens où il est nécessaire d’identifier tous les signaux dangereux sans pour autant faire de fausses détections qui pourraient alors dégrader la qualité du signal original.

Pour aborder ce problème, on commence tout d’abord par décrire les caractéristiques des signaux auxquels on a affaire. Ensuite, pour apporter une justification théorique de la dangerosité liée à une exposition aux chocs acoustiques, on présentera quelques principes du fonctionnement du système auditif de l’être humain ainsi que les conséquences psychoacoustiques recensées sur ce sujet. On rapportera éga- lement les techniques pouvant être éventuellement exploitées pour cette tâche de classification et enfin nous présenterons une méthode originale qui sera évaluée dans différentes conditions d’utilisation et en comparaison avec un algorithme de l’état de l’art.

4.2.1

Description des signaux

Afin de comprendre plus précisément la nature du problème, une campagne d’étude a été réalisée au cours de l’année 2010 dans le but d’enregistrer ce à quoi les utilisateurs pouvaient être exposés. Ces enregistrements devant servir par la suite à identifier les caractéristiques des signaux à détecter et supprimer. Les spectrogrammes des cas les plus représentatifs sont illustrés figure 4.2.

Caractéristiques spectrales

D’un point de vue spectral, parmi tous les signaux enregistrés, on peut distinguer trois empreintes spectrales caractéristiques :

1 Les signaux peuvent être composés d’une seule fréquence (cas d et e), pouvant varier entre 600

Hz et 4 kHz.

2 Les signaux peuvent être composés de plusieurs fréquences en relation harmonique (cas a, b, c

4.2 Protection acoustique : positionnement du problème

harmonique peut être simple comme dans les cas b ou s’apparenter à des signaux carrés comme dans le cas f.

3 Les signaux gênants correspondent à des bruits large bande.

Parmi tous les cas enregistrés, on constate que les signaux de type bruit large bande sont minoritaires. De plus, étant donné qu’ils corrompent la totalité du signal, il est plus délicat de préserver le signal utile, à l’inverse des signaux composés d’une ou plusieurs fréquences dont chacune de leurs composantes fréquentielles peuvent être supprimée individuellement. La solution pour limiter l’impact lié à l’exposition de bruits large bande est d’opérer une réduction de niveau global.

Par la suite on se focalisera sur les signaux de type 1 et 2 composés d’une ou de plusieurs fréquences.

Caractéristiques énergétiques

D’un point de vue énergétique, les chocs acoustiques peuvent apparaître à des niveaux très forts comme à des niveaux modérés. Sur la figure 4.2, associé à chaque spectrogramme on retrouve la forme d’onde du signal avec en bleu la partie correspondant au signal de parole et en orange la partie lorsque le choc acoustique survient. Ceci permet d’avoir visuellement une idée du niveau d’un choc acoustique comparé à celui d’une conversation normale. L’exemple e représente un cas de figure où l’énergie du signal gênant se révèle très supérieure à celle du signal de parole. À l’inverse, l’exemple d illustre une situation où l’énergie liée à la perturbation se trouve dans les mêmes ordres de grandeur que le signal de parole.

Il est également intéressant de poursuivre cette observation dans le domaine spectral. Dans le cas e, toute l’énergie du signal gênant est concentrée sur une seule fréquence. Par conséquent, cette composante fréquentielle va très clairement se démarquer du reste du spectre, ce qui peut alors sembler très simple à détecter. Cependant, ce constat n’est pas généralisable à toutes les situations. On représente figure 4.1, deux spectres tirés de l’exemple a, avec, à gauche un spectre provenant du début de l’exemple et donc correspondant à un signal de parole et à droite, un spectre provenant de la fin de l’exemple, une fois que le signal gênant est établi. Il devient alors plus délicat de faire la distinction entre ces deux spectres dès lors que les amplitudes des composantes spectrales sont du même ordre de grandeur et que les répartitions harmoniques se confondent. 1 kHz 2 kHz 3 kHz 4 kHz −30 −20 −10 0 10 Fréquence (Hz) Amplitude (dB) Parole 1 kHz 2 kHz 3 kHz 4 kHz −30 −20 −10 0 10 Fréquence (Hz) Amplitude (dB) Choc acoustique

Figure 4.1 – Comparaison d’un spectre de parole et d’un spectre d’un signal gênant.

Caractéristiques temporelles

Parmi tous les cas observés, on remarque que les chocs acoustiques sont constants dans le temps. On note très peu de variation de leurs propriétés au cours du temps, que ce soit d’un point de vue énergétique ou spectral. De plus, leur apparition se fait de manière abrupte. Il n’y a pas de temps de montée ni de temps de descente. Cette dernière propriété est importante puisqu’elle illustre la nécessité d’intervenir dès que le signal gênant s’établit. S’il existait un temps de montée, il aurait été possible d’observer ce signal avant qu’il ne soit dangereux, ce qui offre un délai supplémentaire entre le moment de son apparition et le moment où il est nécessaire de le supprimer.

(a) Temps (s) Fréquence (Hz) 2 4 6 8 0 1 k 2 k 3 k 0 1 k 2 k 3 k 0 2 4 6 8 −1 −0.5 0 0.5 1 Temps (s) (b) Temps (s) Fréquence (Hz) 1 2 3 4 5 6 0 1 k 2 k 3 k 0 1 k 2 k 3 k 0 1 2 3 4 5 6 −1 −0.5 0 0.5 1 Temps (s) (c) Temps (s) Fréquence (Hz) 2 4 6 8 10 0 1 k 2 k 3 k 0 1 k 2 k 3 k 0 2 4 6 8 10 −1 −0.5 0 0.5 1 Temps (s) (d) Temps (s) Fréquence (Hz) 0.5 1 1.5 2 2.5 0 1 k 2 k 3 k 0 1 k 2 k 3 k 0 0.5 1 1.5 2 2.5 −1 −0.5 0 0.5 1 Temps (s) (e) Temps (s) Fréquence (Hz) 1 2 3 4 0 1 k 2 k 3 k 0 1 k 2 k 3 k 0 1 2 3 4 −1 −0.5 0 0.5 1 Temps (s) (f) Temps (s) Fréquence (Hz) 1 2 3 4 0 1 k 2 k 3 k 0 1 k 2 k 3 k 0 1 2 3 4 −1 −0.5 0 0.5 1 Temps (s)

Figure 4.2 – Exemples de chocs acoustiques enregistrés en situation réelle. Chaque exemple est représenté par un spectrogramme et la forme d’onde associée. Sur celle-ci on distingue en bleu le signal de parole et en orange la partie lorsque le choc acoustique apparaît. Ces signaux présentent des caratéristiques variées : fréquence fondamentale, nombre d’harmoniques, intensité.

4.3 Sur la perception des sons

4.2.2

Origine des perturbations

Les causes des chocs acoustiques sont très mal connues. Plusieurs pistes ont été avancées pour expliquer l’origine de ces artefacts : paquets audio corrompus (Lim & Chi 2015), défaillance d’un appareil réseau

etc. Cependant, tous ces éléments n’ont jamais été confirmés pour toutes les situations. Il semblerait d’ailleurs que les causes soient multiples et non imputables à la défaillance d’un seul appareil ou d’un seul logiciel. Ce qui est certain c’est que les centres d’appel sont beaucoup plus touchés que d’autres endroits car c’est dans ces lieux qu’on observe un très grand nombre d’appareil interconnectés.

Le fait que les origines des chocs acoustiques soient difficilement identifiables renforce d’autant plus la nécessité d’un algorithme de traitement qui puisse intervenir en bout de chaîne audio, soit juste avant le casque de l’utilisateur.

4.3

Sur la perception des sons

Bien que le simple fait d’écouter quelques exemples de ces chocs acoustiques soit suffisant pour se rendre compte de la gêne qu’ils peuvent occasionner, on rappelle ici quelques éléments de psychoacoustique pour mettre en évidence le caractère nocif que représente une exposition à ce genre de signaux.

4.3.1

Échelle de bruits

Dans l’air, le son se propage sous la forme d’une variation de pression créée par la source sonore. Un son est défini par :

• sa fréquence qui peut être plus ou moins élevée, et correspondant à un son plus ou moins aiguë. L’être humain est capable de percevoir des sons allant de 16 Hz à 20 kHz.

• son intensité, plus ou moins forte, exprimée en décibels (dB), • sa durée.

Les ondes sonores pénètrent dans le conduit auditif externe et font vibrer le tympan. Cette vibration est ensuite transmise à l’oreille interne où se trouve la cochlée. Ses cellules transforment les vibrations en flux nerveux que le nerf auditif achemine jusqu’au cerveau.

Figure 4.3 – Échelle de bruit pour quelques situations courantes. Le potentiel de risque dépend de la durée d’exposition.

La dynamique du champ audible est d’environ 100 à 120 dB, comme le montre l’échelle de bruit pour quelques situations courantes (figure 4.3). Ainsi, une conversation à voix normale est d’environ 55 dB alors que certains appareils du quotidien peuvent émettre un bruit allant jusqu’à 80 dB. Le son devient nocif lorsqu’il dépasse les capacités de réception de l’oreille. En cas d’écoute prolongée, les sons entre 85 dB et 105 dB deviennent dangereux pour le système auditif. Au-delà, ils peuvent rapidement provoquer des traumatismes sérieux. On remarque donc qu’en plus de son intensité, la gêne occasionnée est fonction de la durée d’exposition.

Figure 4.4 – Mesure de la gêne occasionnée par un bruit blanc et un son pur. En haut, le cas où le niveau du bruit blanc est de 60 dB, en bas, 80 dB. Source : (Meunier et al. 2004).

4.3.2

Perception tonale

L’échelle de bruit présentée se base sur une mesure physique de la pression acoustique des sons. Cependant, si on s’intéresse au niveau sonore réellement perçu par l’être humain, alors cette mesure ne suffit plus.

La sonie est un paramètre psychoacoustique qui permet d’exprimer l’intensité sonore perçue par l’être humain. Sans entrer dans les détails psychoacoustiques qui dépassent le cadre de cette thèse, il faut surtout noter que la sonie dépend essentiellement du niveau de pression acoustique d’un son, mais également de sa fréquence et de sa durée.

D’un point de vue de l’évaluation de la gêne, plusieurs études ont montré que le niveau absolu n’est pas le seul élément à prendre en compte pour juger de la sensation que peut procurer un son (Hellman 1985). Plus précisément, on peut s’appuyer sur l’expérience réalisée dans (Meunier et al. 2004), où

les auteurs évaluent la gêne occasionnée par un mélange de bruit blanc et un son pur aux fréquences 100 Hz, 500 Hz, 1800 Hz et 4000 Hz. Deux cas de figure ont été testés : un cas où le bruit blanc est à 60 dB SPL et un cas avec un bruit blanc à 80 dB SPL. Les sons purs ont été fixés aux niveaux au dessus du seuil de perception/masquage : -2, 0, 5, 10, 15, 20 et 25 dB SL1. Les résultats de ces expériences sont donnés figure 4.4.

On peut constater que la gêne produite par le mélange bruit blanc et son pur augmente en fonction du niveau de ce dernier. Aussi, la gêne est plus importante pour les sons de hautes fréquences (1800 et 4000 Hz) que pour les sons de basse fréquence (100 et 500 Hz).

Les auteurs précisent également que dans cette expérience, le niveau global des différents stimuli (bruit blanc plus son pur) ne varie que très peu, beaucoup moins que la gêne perçue. Ainsi, on peut conclure que la gêne produite n’est pas corrélée avec le niveau global du son perçu. Il semblerait que l’être humain soit plus sensible au contenu tonal.

Dans le cas des chocs acoustiques, on se trouve directement concerné par cette particularité de l’au- dition puisque les signaux gênants rencontrés sont composés d’une forte composante tonale.

1. L’unité dB SL désigne Decibel Sensation Level. 0 dB SL correspond au niveau minimal pour qu’un sujet entende un stimuli. 40 dB SL indique donc qu’un son est 40 dB au dessus du seuil de perception.

4.3 Sur la perception des sons

Figure 4.5 – Évolution de la sonie en fonction de la durée d’un stimulus.

4.3.3

Temps de réaction

La sonie augmente régulièrement lorsque la durée du son augmente, de quelques millisecondes jusqu’à une valeur critique, appelée durée critique, qui varie de 50 à 400 ms selon les auteurs. L’oreille opère donc comme un intégrateur d’énergie. Au-delà de cette durée critique et jusqu’à des durées de plusieurs secondes, la sonie reste constante. Au-delà de plusieurs secondes, on pourra observer, dans certains cas, une diminution de la sonie avec la durée pour des sons d’amplitude constante.

En dessous de la durée critique et selon certains auteurs, la relation entre la sonie et la durée peut être décrite par une fonction exponentielle (Pedersen et al. 1977), (Plomp & Bouman 1959), comme le

montre la figure 4.5.

À noter que la durée d’intégration, au bout de laquelle la sonie maximale est atteinte, varie également avec la fréquence du stimulus : elle est ainsi d’environ 375 ms à 250 Hz, mais descend lorsque la fréquence s’élève, jusqu’à valoir 150 ms à 8000 Hz.

On peut donc exploiter cette propriété de l’audition en développant un algorithme qui détecte et supprime le choc acoustique avant qu’il ne soit perçu à son niveau final par l’utilisateur. Une des difficultés réside dans cette réactivité.

4.3.4

Conséquences sur l’audition

Les conséquences d’une exposition à un choc acoustique sont les mêmes que l’exposition à n’importe quel son d’une trop forte intensité. Dans (Westcott 2006) l’auteure rapporte les symptômes les plus

fréquents après l’exposition à un choc acoustique. En premier lieu, une sensation de douleur dans l’oreille, acouphènes et hyperacousie sont les conséquences les plus communes. À cela s’ajoute d’autres symptômes comme les migraines, la fatigue ou du stress.

Toutefois, dans (Westcott 2006) on fait état des cas les plus critiques, c’est-à-dire ceux où un chocs

survient avec un très forte intensité sonore. Or, comme nous l’avons constaté par les enregistrements audio, et en expliquant le fonctionnement de l’oreille, il existe des cas où un choc peut ne pas être très fort mais peut tout de même être perçu comme très gênant. Ces situations ne vont pas conduire à un risque pour l’audition mais vont tout de même participer à l’augmentation de l’inconfort de l’utilisateur par de la fatigue, des migraines et du stress.

On peut également remarquer qu’en plus de ces effets directement observables après l’exposition l’un de ces signaux gênants, les auditeurs font parfois état d’une certaine appréhension de peur de subir à nouveau ce genre d’expérience (Milhinch 2002), (McFerran & Baguley 2007).

4.3.5

Conclusions sur le problème

Dans certains cas de figure, notamment celui des centres d’appels, il arrive que des perturbations sur le chemin audio conduisent à l’apparition de signaux gênants pour l’utilisateur final. Ces signaux, décrits en section 4.2.1, peuvent être regroupés en trois catégories : les signaux composés d’une seule fréquence, les signaux composés de plusieurs fréquences en relation harmonique et les bruits large bande. Le cas des bruits large bande ne sera pas étudié ici, d’une part parce qu’ils sont minoritaires par rapport aux autres signaux et d’autre part, parce qu’étant donné qu’ils corrompent la totalité du spectre, la seule manière de limiter leur impact est d’opérer une réduction du niveau global. À l’inverse, les signaux composés d’une ou de plusieurs fréquences peuvent être supprimés plus efficacement.

L’observation des caractéristiques des signaux gênants montrent qu’ils sont de nature variable, c’est- à-dire qu’ils peuvent survenir à différentes fréquences et avec des énergies variables. En revanche, une fois qu’ils apparaissent, on note qu’ils sont constants dans le temps.

Par la suite, nous avons décrit les propriétés de l’audition pour montrer d’un point de vue psychoa- coustique pourquoi ces signaux pouvaient être dangereux pour l’audition ou à minima représenter une gêne pour les personnes qui y sont exposées. Il est donc important de souligner que dans cette étude, on ne se limitera pas qu’au cas où un choc acoustique survient avec une très forte énergie. Bien que ce cas de figure soit le plus dangereux, on souhaite pouvoir traiter les situations où l’énergie d’un choc est modérée car il peut tout de même occasionner une désagrément.

Le fait qu’il n’y ait pas de temps de montée sur l’apparition des chocs acoustiques rend la détection plus critique. Si on veut que l’utilisateur soit protégé, il faut donc détecter puis supprimer le signal gênant avant que celui-ci ne soit perçu comme nocif. En respectant les mécanismes de l’audition liés au temps de montée, on impose un délai de 50 ms entre l’apparition et la détection du choc acoustique. Ce cas d’étude représente bien une situation de classification sous contrainte de faible latence.

4.4

État de l’art sur les méthodes de protection acoustique

4.4.1

Réglementations et normes en vigueur

Le premier pas effectué vers une protection acoustique se trouve dans les mesures législatives. En effet, il existe des réglementations et normes en vigueur permettant de définir un cadre juridique pour la protection des employés contre l’exposition des bruits. Par exemple, la directive européenne 2003/10/EC

(Parliament & the Council of the European Union 2003) prévoit un niveau d’exposition par jour

(soit 8h) maximal de 87 dB(A).

Dans le cadre de la diffusion sur casque, cas de figure qui nous concerne ici, les standards (ITU-T P360 (ITU-T-P.360 2006) et ETS ES 203 038 (ETSI-ES 2009) préconisent des niveaux de sortie des

appareils à 118 dB(A) pour des sons continus et 130 dB(A) pour les niveaux crêtes.

Au regard de ce qui a été présenté dans les sections précédentes sur la perception, ces recommandations s’avèrent inadaptées pour fournir une protection efficace. Dès lors il est nécessaire d’avoir recours à des algorithmes de traitement dédiés.

4.4.2

Méthodes dédiées

On retrouve des méthodes pour la protection acoustique dans le domaine des télécommunications, comme c’est le cas ici, mais également dans d’autres domaines comme en acoustique pour le contrôle d’écho acoustique ainsi que pour les appareillages auditifs. En effet, dans ces deux derniers cas il est courant qu’une boucle de rétroaction acoustique se forme entre un émetteur amplifié (haut-parleur) et un récepteur (microphone). Ce phénomène conduit à l’émergence d’une fréquence quelconque créant ainsi un sifflement ou larsen, en hommage au physicien danois Søren Larsen, qui a été l’un des premiers à décrire ce phénomène.

À noter que, bien que le résultat d’un larsen soit bien l’apparition d’un son pur, et donc pouvant être apparenté à l’un des cas rencontrés dans le problème des chocs acoustiques, dans notre cas on ne peut