• Aucun résultat trouvé

4.6 Évaluations

4.6.3 Résultats

Évaluation générale

Les résultats des différentes évaluations sont représentés figure 4.8. Pour chaque corpus audio, on donne le taux de bonne détection et le taux de fausse alarme pour la méthode proposée ici et l’algorithme de référence présenté dans (Faure et al. 2012).

Pour le corpus PurSurParole, contenant des chocs acoustiques constitués d’une seule fréquence et apparaissant seulement sur des signaux de parole, les deux propositions présentent un taux élevé de bonne détection. La méthode proposée ici surpasse légèrement l’algorithme donné comme référence mais on remarque surtout qu’elle préserve mieux le signal comme le montre le taux de fausse détection. On arrive en effet à un taux de 2.60% de fausse alarme pour l’algorithme de référence contre 0.50% pour notre proposition, ce qui représente plus d’un facteur 5 entre ces deux ratios.

Sur l’ensemble d’évaluation PurSurMix, contenant des signaux gênants composés d’une seule fréquence et survenant sur des signaux mixtes (parole seule, musique seule et mélange de parole sur musique), le taux de bonne détection pour les deux méthodes chutent sensiblement, ce qui révèle une plus grande difficulté à détecter les chocs acoustiques en présence de signaux plus complexes. L’écart se creuse entre notre proposition et l’algorithme de référence pour le taux de bonne détection (92.90% conte 89%) mais le résultat important concerne le taux de fausse alarme. Alors qu’en passant de la base d’évaluation

PurSurParole à la base PurSurMix, le taux de fausse détection de notre algorithme est passé de 0.50% à

1.60%, on constate que la référence est passée de 2.60% à 17.60%. Ce constat indique que la présence de signaux complexes, notamment des signaux de musique, perturbent la détection. On conclut cependant que notre proposition permet de conserver un taux de fausse alarme relativement bas ce qui indique que les descripteurs utilisés captent efficacement les caractéristiques des chocs acoustiques et n’identifie

PurSurParole PurSurMix MultiSurMix 60 70 80 90 100 Taux de bonne détection (%)

PurSurParole PurSurMix MultiSurMix

0 10 20 30 Fausse alarme (%) Méthode proposée Référence Méthode proposée Référence 97.83 96.30 92.36 93.10 90.00 62.60 17.60 1.20 1.20 17.00 2.20 0.50

Figure 4.8 – Résultats de l’évaluation de la méthode de protection acoustique. Pour les trois ensembles d’évaluation, on donne le taux de bonne détection et le taux de fausse alarme, et ce, pour la méthode proposée ici et l’algorithme de (Faure et al. 2012), servant de point de comparaison.

que rarement des composantes fréquentielles appartenant à des signaux de musique comme des signaux gênants.

Pour le dernier ensemble de test MultiSurMix, comprenant des chocs acoustiques constitués d’une ou plusieurs fréquences pouvant s’établir sur des signaux mixtes, on note que notre algorithme conserve des performances de détection élevées, ce qui indique que notre méthode permet de détecter correctement les chocs acoustiques multifréquences, alors que la méthode de référence chute considérablement. Ces trois évaluations montrent la capacité de notre proposition à couvrir de nombreuses situations d’utilisation, là où la technique utilisée comme point de comparaison est surtout viable dans le cas d’une détection de signaux constituée d’une seule fréquence et apparaissant sur des signaux de parole uniquement.

Enfin, on présente figure 4.9 le taux de bonne détection pour le corpus PurSurMix selon différents rapports Signal à Chocs. Ce ratio est calculé pour chaque trame en utilisant l’énergie d’une trame du signal original (le signal mixte sans signal gênant) et l’énergie d’une trame du signal gênant seul. Ce gra- phique permet alors de rendre compte de performances de détection selon le niveau du choc acoustique et celui du signal sur lequel il apparaît. On remarque alors que notre proposition permet une meilleure détection lorsque le signal gênant est présent avec un niveau modéré. Encore une fois, cela montre la capacité de l’algorithme à caractériser uniquement les signaux des chocs acoustiques.

Évaluation détaillée des descripteurs

Afin d’apporter un éclairage sur l’efficacité des descripteurs proposés, on regroupe dans le tableau 4.2 les performances de la méthode selon différentes combinaisons de descripteurs utilisés.

Ces évaluations permettent notamment d’illustrer la pertinence du descripteur de stabilité fréquen- tielle puisqu’on constate qu’individuellement, c’est celui qui offre les meilleures performances, tout en conservant un taux de fausse détection bas. En effet, sur les corpora PureSurMix et MultiSurMix, l’uti- lisation seule de la stabilité fréquentielle permet d’atteindre des performances proches de la combinaison des trois descripteurs (facteur de crête local, global et stabilité fréquentielle).

On remarque qu’il est également possible d’ajuster le compromis entre le taux de bonne détection et le taux de fausse alarme. Par exemple, sur les ensembles d’évaluation PureSurMix et MultiSurMix, la

4.6 Évaluations [15;10] [10;5] [5;0] 50 60 70 80 90 100

Rapport signal à choc (dB) − PurSurMix

Taux de bonne détection (%)

72.06 80.56 89.36 55.88 72.68 85.11 Méthod proposée Référence

Figure 4.9 – Comparaison des taux de détection pour différents rapports signal à choc pour le corpus

PurSurMix.

PureSurParole PureSurMix MultiSurMix D (%) Fa (%) D (%) Fa (%) D (%) Fa (%) Référence 96.13 2.20 92.36 17.00 62.60 17.60 G 94.32 0.62 88.00 1.07 67.38 0.98 L 95.71 0.65 86.25 1.65 72.64 1.58 S 95.91 0.80 92.51 0.68 89.09 0.63 G, L 96.35 0.52 90.92 1.91 77.91 1.78 L, S 97.49 0.58 92.71 0.71 84.54 0.75 G, S 97.51 0.57 92.92 0.97 89.71 0.94 G, L, S 97.83 0.50 93.10 1.20 90.00 1.20

Table 4.2 – Détails des performances selon différentes combinaisons de descripteurs.

combinaison du facteur de crête global et de la stabilité fréquentielle offrent un taux de bonne détection légèrement inférieur qu’avec la combinaison facteur de crête local, global et stabilité fréquentielle, mais présente un taux de fausse alarme moindre.

Temps de réaction

La contrainte essentielle pour cette tâche de classification est la rapidité de la prise de décision. Pour que les conséquences liées à l’exposition d’un signal gênant soient minimes, il est nécessaire de détecter puis de supprimer ce signal le plus rapidement après son apparition. Bien que les mesures du taux de bonne détection et de fausse alarme permettent de se rendre compte de l’efficacité de l’algorithme, il est intéressant de rendre compte de sa réactivité.

La figure 4.10 représente le taux de détection moyen des chocs acoustiques à différents instants après leurs apparitions. L’instant t = 0 correspond à la première trame dans laquelle apparaît un choc acous- tique. Étant donné qu’on travaille sur des trames de 20 ms, la graduation se fait par pas de 20 ms. Le score affiché pour t = 0 correspond donc au taux moyen de détection de tous les chocs acoustiques en ne considérant que la première trame de leur apparition. Le score pour t = 20 ms indique le taux moyen de détection des chocs acoustiques constaté en ne regardant que la première trame après leurs apparitions et ainsi de suite. On observe ce temps de réaction pour les trois conditions d’utilisation PurSurParole,

PurSurMix et MultiSurMix.

On constate que pour les ensembles d’évaluation PurSurParole et PurSurMix, le taux de détection atteint un plateau une trame après l’apparition d’un choc acoustique (t = 20 ms). Pour le corpus Multi-

0 20 40 60 80 100 120 140 160 180 10 20 30 40 50 60 70 80 90 100 Temps (ms) MultiSurMix 0 20 40 60 80 100 120 140 160 180 10 20 30 40 50 60 70 80 90 100 Temps (ms) PurSurMix 0 20 40 60 80 100 120 140 160 180 10 20 30 40 50 60 70 80 90 100 Temps (ms) PurSurParole

Figure 4.10 – Performances de détection en fonction du temps passé. Pour chaque corpus, on mesure le taux de détection moyen à chaque trame suivant l’apparition d’un signal gênant, T étant la première trame dans laquelle il survient.

SurMix, un taux de détection satisfaisant est obtenu deux trames après l’apparition d’un choc acoustique.

On peut faire l’hypothèse que ce temps de réaction d’une trame est lié à la mesure de stabilité fréquentielle. En effet, même si on se place dans un paradigme de classification à la trame, où la décision est prise en n’utilisant que les descripteurs issus de la trame courante, le descripteur de stabilité fréquentielle nécessite deux trames consécutives pour fonctionner. L’indication d’un choc acoustique par ce descripteur ne peut alors se faire qu’à la trame t + 1.

On constate également une nette différence entre le taux de détection à la première trame (t = 0) entre le corpus PurSurParole et les bases PurSurMix et MultiSurMix. Outre le possible délai d’une trame lié à la mesure de stabilité fréquentielle, on peut envisager que la différence de contenu sur lequel les signaux gênants surviennent pose problème pour la détection. En effet, dans le corpus PurSurParole, les chocs acoustiques n’apparaissent que sur des signaux de parole alors que pour les corpora PurSurMix et MultiSurMix, ils peuvent survenir sur des signaux de parole et de musique. Les signaux de parole et de musique se distinguent généralement par leur différence de contenu en hautes fréquences : la musique est généralement plus riche dans la partie haute du spectre que la parole. Dans ces conditions, il est possible que les mesures crêtes, locales et globales, soient moins efficaces. Cette hypothèse est d’ailleurs dans le sens des résultats présentés dans le tableau 4.2 où l’on constate que les facteurs de crêtes locales et globales chutent lors du passage sur des signaux de parole et de musique, alors que la mesure de stabilité fréquentielle, elle, reste relativement stable.

4.7 Conclusions

4.7

Conclusions

Dans ce chapitre nous nous sommes intéressés à la reconnaissance de signaux gênants pour des équipe- ments de protection acoustique. Tout d’abord, la présentation des caractéristiques des signaux à détecter, ainsi que les éléments sur la perception, permettent d’apporter une justification théorique sur la dangero- sité d’une exposition liée à ces signaux. Le chocs acoustiques rencontrés ici sont soit composés d’une seule composante fréquentielle, soit de plusieurs composantes en relation harmonique et peuvent apparaître avec des énergies variables. De par leur nature, on peut montrer que, même en survenant avec un niveau modéré, ils pourront tout de même être perçus comme gênants. Il est donc nécessaire de trouver une méthode permettant de détecter ces signaux en quelques dizaines de millisecondes.

Une recherche des travaux antérieurs montre qu’il n’existe pas de solution correspondant exactement à la détection des signaux rencontrés ici. La littérature couvrant une partie de notre sujet concernerait la détection de sifflement dans le cadre du contrôle d’écho acoustique. Cependant, le type de signal qu’il convient de supprimer ici est seulement composé d’une unique composante fréquentielle. Le cas de la détection de signaux harmoniques n’est pas traité. De plus, les descripteurs utilisés dans ce cadre font toujours référence à un seuil d’énergie absolu pouvant varier en fonction de l’application finale (applica- tion pour la parole ou la musique). Ce constat nous pousse donc à mettre au point notre propre système de classification répondant exactement aux types de signaux à détecter et aux contraintes d’utilisation.

La méthode proposée repose sur trois descripteurs traduisant chacun une caractéristique des signaux gênants à détecter. Ces descripteurs sont le facteur de crête global, rendant compte de l’émergence d’une composante fréquentielle par rapport au signal global, le facteur de crête local, mettant en évidence l’émergence locale d’une composante fréquentielle, et enfin la mesure de stabilité fréquentielle traduisant le fait qu’un choc acoustique est stationnaire au cours du temps.

Ces descripteurs, modélisés par un modèle SVM, offrent de bonnes performances, et ce, quelles que soient les conditions d’utilisation. On note en effet qu’en comparaison avec une méthode choisie comme référence, notre proposition obtient un meilleur taux de détection pour la détection de signaux constitués d’une seule fréquence ou de plusieurs. Surtout, cette méthode préserve mieux le signal en conservant un taux de fausse alarme très bas, même en présence de signaux complexes comme des extraits musicaux. Une évaluation détaillée des performances des descripteurs montre également la pertinence du nouveau descripteur de stabilité fréquentielle. Enfin, outre les bonnes performances globales, cette méthode montre un temps de réaction suffisant pour protéger les utilisateurs.

Ces travaux ont fait l’objet d’une publication (Flocon-Cholet et al. 2014b) :

• Flocon-Cholet, J., Faure, J., Guérin, A., & Scalart, P. (2014). A robust howling detection algorithm based on a statistical approach. In International Workshop on Acoustic Signal Enhancement 2014

Chapitre 5

Intermède

Sommaire

5.1 Introduction . . . . 59