• Aucun résultat trouvé

Chapitre IV. Modélisation de la bruyance

IV.5. Etude de la bruyance en bande élargie

L'étude détaillée dans ce chapitre a permis de développer le modèle de bruyance à partir de stimuli transmis en bande étroite (f < 4 kHz). De nouvelles technologies de transmission de la parole ont été développées en bande élargie (f < 8 kHz), notamment sur les réseaux utilisant la VoIP, et aussi sur les transmissions mobiles. La télécommunication en bande élargie per-met de transper-mettre pratiquement tout le contenu spectral utilisé par la production de la parole (50 Hz < f < 8 kHz). Cela permet de communiquer avec une voix plus naturelle et plus réa-liste, et ainsi d'améliorer la qualité des services proposés.

Le bruit de fond d'environnement présent sur le signal de parole est aussi transmis avec plus de réalisme et plus de naturel en condition de bande élargie.

Nous pouvons donc faire l'hypothèse que dans le cas d'une transmission en bande élar-gie, il existe une influence du bruit de fond sur l'évaluation de la qualité vocale dont l'effet est encore plus important que dans le cas d'une transmission en bande étroite.

Les expériences réalisées précédemment ont donc été refaites afin d'étudier l'influence du niveau sonore et surtout l'influence du type de bruit de fond, pour des conditions de dégra-dation présentées en bande élargie.

IV.5.1. Tests subjectifs

Les mêmes tests subjectifs que ceux présentés dans la partie IV.1 (test préliminaire d'égalisation de la sonie par la méthode d'ajustement et test d'évaluation de la qualité vocale par la méthode ACR) ont été réalisés une fois en condition de bande étroite par 24 sujets, et une fois en condition de bande élargie par 24 autres sujets.

Il y a trois différences entre le test réalisé précédemment et les tests présentés dans cette partie :

La largeur de bande passante des stimuli est de 4 kHz dans le cas de la bande étroite, et de 8 kHz dans le cas de la bande élargie. Le filtrage SRI P.48 [84], et le filtrage P.341 [89] ont été appliqués respectivement pour les conditions en bande étroite et élargie, afin de simuler le terminal émetteur.

La base sonore est constituée de conditions bruitées par huit bruits de fond différents. Un bruit de fond est de classe intelligible (musique), quatre bruits de fond appartiennent à la classe d’environnement (cantine, sport, ville, piscine), deux bruits sont de souffle (rose, mer) et un bruit est de la classe grésillement (bruit électrique). Ces huit bruits de fond sont chacun mixés à huit double-phrases prononcées par quatre locuteurs pour trois niveaux d'isosonie. Les huit phrases sont aussi diffusées aux sujets sans bruit de fond. Au total, 200 stimuli en bande étroite et 200 stimuli en bande élargie sont diffusés aux sujets lors des deux tests d’évaluation de la qualité vocale.

Le moyen de restitution est diotique14.

IV.5.2. Résultats des tests subjectifs

Les résultats de l'évaluation de la qualité vocale des deux tests réalisés (bande étroite et élargie) sont moyennés suivant les 24 sujets et les 8 phrases en faisant la distinction entre les

quatre classes déterminées au §.IV.2.3 (bruits intelligibles, d'environnement, de souffle et de grésillement) (cf. Fig. IV.16).

Fig. IV.16 Notes MOS-LQSN moyennées sur les phrases suivant le niveau sonore des BDF en faisant la distinction entre les 4 classes de bruits, avec l’intervalle de confiance à 95%

La classification des bruits de fond est bien appropriée aux résultats du test en bande étroite (cf. Fig. IV.16 de gauche).

Dans le cas de la bande élargie, ce résultat n'est pas aussi net. Les classes de bruits intel-ligibles, d'environnement et de souffle commencent à se distinguer à partir du niveau d'isoso-nie de 70 phone. Les niveaux sonores des bruits diffusés en bande élargie sont trop faibles par rapport aux niveaux des bruits diffusés en bande étroite. Nous faisons l'hypothèse que les bruits en bande élargie n'ont pas été diffusés à des niveaux assez forts, afin de quantifier entiè-rement l'influence du type de bruit de fond.

A partir d’un niveau de bruit de fond de 70 phone, les conditions bruitées appartenant à la classe intelligible sont moins gênantes que celles appartenant à la classe d'environnement, qui sont elles mêmes moins gênantes que les conditions de la classe de souffle. Le bruit de fond électrique appartenant à la classe grésillement provoque une gêne importante sur la qua-lité vocale. Le bruit électrique est très mal perçu à cause de ses caractéristiques rugueuses. Il est encore plus dérangeant que le bruit électrique généré lors du premier test (cf. §.IV.2.3).

Les résultats des deux tests d'évaluation de la qualité vocale permettent de conclure que le type de bruit de fond joue un rôle important lors de l'évaluation de la qualité vocale. Par ailleurs, l’influence du type de bruit de fond n’est pas plus élevée dans le cas d’une transmis-sion en bande élargie que lors d’une transmistransmis-sion en bande étroite. Elle semble similaire, bien que de nouvelles analyses doivent être réalisées pour des niveaux sonores de bruit de fond plus élevés. Les quatre classes de bruits déterminées précédemment sont adaptées aux trans-missions en bande étroite et en bande élargie. Le modèle de bruyance est donc appliqué aux deux bases sonores afin de vérifier ses performances dans le cas des transmissions en bande étroite et en bande élargie.

IV.5.3. Application du modèle de bruyance aux deux bases

sonores (bandes étroite et élargie)

Le modèle de bruyance développé pour un contexte de transmission en bande étroite (cf. §.IV.3) a été appliqué aux deux bases sonores contenant 200 stimuli chacun (cf. §.IV.5.1).

Quelques adaptations ont été réalisées aux modèles dans le cas de la base sonore en bande élargie :

Afin de calculer les indicateurs pour les signaux présentés en bande élargie, la durée des trames analysées doit être équivalente à celles analysées en bande étroite (64 ms). Les fréquences d’échantillonnage sont de 16 kHz en bande élargie contre 8 kHz en bande étroite. Le nombre d'échantillons analysés par trame est donc doublé (1024 échantillons par trame en bande élargie au lieu de 512 en bande étroite). Pour les mêmes raisons, la longueur de recouvrement des trames successives est doublée (512 échantillons au lieu de 256).

Certains indicateurs utilisés par le modèle deviennent incohérents lorsque la puissance acoustique est trop élevée dans les fréquences inférieures à 100 Hz. Un filtrage passe-haut de fréquence f = 100 Hz a donc été appliqué à tous les stimuli de la base sonore de la bande élargie.

Pour ces deux bases sonores, nous avons comparé les performances de la prédiction de la qualité vocale lorsque la classification automatique des bruits de fond est appliquée ou non (cf. Fig. IV.17 dans le cas de la base sonore en bande étroite).

La classification automatique du bruit de fond est performante pour les conditions pré-sentées dans les deux bandes passantes. Nous remarquons cependant quelques erreurs lorsque la détection d’activité vocale n'est pas bien déterminée car il subsiste parfois un résidu de si-gnal de parole dans le bruit.

Fig. IV.17 Application du modèle de bruyance à la base sonore du test en bande étroite, avec la classifica-tion automatique à gauche et sans classificaclassifica-tion à droite (BDF de souffle uniquement). Les notes MOS

sont moyennées suivant les 8 phrases.

On relève des corrélations de r = 0,70 avec la classification et r = 0,47 lorsque tous les bruits sont placés dans la classe des bruits de souffle, ce qui montre que la classification du type de bruit de fond améliore la prédiction de la qualité vocale. Les trois conditions présen-tant des MOS-LQSN comprises entre 1 et 2 correspondent aux stimuli avec du bruit élec-trique, diffusé pour les trois niveaux sonores. Ces trois conditions sont surestimées par le mo-dèle DESQHI. Quel que soit le niveau sonore de ce bruit, l’évaluation de la qualité vocale correspondante est mauvaise.

Dans le cas de la base sonore en bande élargie, nous observons le même effet, avec une corrélation de r = 0,61 lors de l'utilisation de la classification automatique des bruits de fond et r = 0,43 lorsque les bruits sont placés dans la classe souffle. La différence de corrélation est moins flagrante que dans le cas des stimuli en bande étroite, mais cela montre que le phéno-mène est similaire pour les transmissions en bande étroite et en bande élargie. Cependant, le modèle de bruyance pourrait être amélioré pour les conditions transmises en bande élargie.

Le modèle de bruyance a été construit à partir de résultats subjectifs obtenus lors d'une restitution monaurale du signal de parole. Les tests subjectifs décrits dans cette partie ont été réalisés en diotique. Il a été remarqué qu’il existe une influence du système de restitution lors de l’évaluation de la qualité vocale (Nagle et al. [94]). D’autres expériences devraient être réalisées pour analyser l’influence du système de restitution, lors de l’évaluation de la qualité vocale de conditions bruitées.

Le modèle P.563 [2] a été testé sur la base sonore en bande étroite, mais il n'est pas adapté aux conditions bruitées de notre base sonore (r = 0,02). Le modèle paramétrique G.107 [95] ne dispose pas des informations relatives aux bruits de fond à partir des statis-tiques du réseau. Il ne permet pas de prédire la qualité vocale de ces conditions bruitées.