• Aucun résultat trouvé

Chapitre IV. Modélisation de la bruyance

IV.1. Tests subjectifs d'évaluation de la qualité vocale bruitée

IV.1.1. Choix de la méthode

Les modèles existants d’évaluation de la qualité vocale ont généralement été construits à partir de notes MOS issues de tests ACR (UIT P.800 [11]). Le test ACR "Absolute Category Rating" (cf. §.I.2.1) a donc été utilisé pour évaluer la qualité vocale des échantillons de parole bruités afin de pouvoir comparer nos résultats (subjectifs et objectifs) aux modèles existants.

IV.1.2. Stimuli

Les stimuli ont été restitués en écoute monaurale pour plus de réalisme, en utilisant le casque "Sennheiser HD 25" dont l’une des deux oreillettes est rétractable. Il a aussi été envi-sagé d'utiliser un combiné, mais le casque a été retenu pour deux principales raisons.

La première est que le sujet peut être gêné si on lui demande de tenir le combiné pen-dant une heure, contrairement au casque. Il sera moins fatigué et sera moins gêné lors de la période de réponse.

La deuxième raison concerne le positionnement du combiné qui diffuse le signal diffé-remment suivant la prise en main de l'appareil (p. ex. la position du haut-parleur, la pression exercée sur l'oreille). L'utilisation du combiné provoquerait un biais dans les résultats.

IV.1.2.1. Description des échantillons de parole

Les échantillons de parole sont issus d'une base sonore phonétiquement équilibrée, en-registrée à France Telecom. Huit doubles-phrases prononcées par quatre locuteurs (deux hommes et deux femmes) ont été retenues. Les deux phrases sont espacées d’un silence de deux secondes, afin d'entendre le bruit de fond. Chaque stimulus a une durée de huit secondes. Les échantillons de parole ont été rééchantillonnés à 8 kHz, avec une quantification de 16 bits. Le filtre SRI (UIT P.48 [84]) a ensuite été appliqué aux signaux afin de simuler la réponse en fréquence d'un terminal.

Ces signaux ont enfin été égalisés à un niveau de -26 dBov (UIT P.56 [80]). Ces huit échantillons de parole sont alors dégradés par différents signaux de bruits de fond présentés par la suite.

IV.1.2.2. Description des bruits de fond

A. Bruits issus du réseau

La transmission du signal vocal par le réseau RTC peut provoquer l'apparition de bruits de circuit (cf. §.I.1.2.1). Il est aussi possible que des bruits électriques soient générés par les phénomènes d'interférences entre le signal électrique contenant le signal de la parole et la por-teuse électrique. Ce bruit est généralement constitué d'un signal harmonique de fréquence fondamentale de 50 Hz.

Les codecs génèrent des bruits de quantification. Ce type de bruit apparaît lorsque le si-gnal analogique est converti en sisi-gnal numérique, et réciproquement. Ils peuvent être soit sta-tionnaires sur la totalité du signal transmis (zones actives et non-actives), soit modulés en am-plitude, c'est-à-dire uniquement présents sur les zones actives du signal de parole. Ces derniers sont généralement appelés bruits sur la parole et sont souvent représentés par les conditions MNRU (Modulated Noise Reference Unit) (cf. §.I.4.2).

B. Bruits issus de sources acoustiques environnant les utilisateurs

Avec l'apparition de la télécommunication mobile, les utilisateurs peuvent être con-traints de téléphoner dans n'importe quel environnement bruyant (gare, voiture, ville, restau-rant…).

Les bruits d’environnement peuvent être brefs (événements isolés tels qu’un klaxon, aboiement, cri...). On ne tiendra pas compte de ce type de bruit pour simplifier l’étude réali-sée. De plus, on suppose qu’ils sont moins gênants lors de la communication comparative-ment à des bruits présents sur l’ensemble du signal vocal.

La plupart des bruits d’environnement ne sont pas stationnaires. On peut cependant les distinguer en deux classes suivant leurs niveaux de fluctuation temporelle :

les bruits faiblement fluctuants tels que le bruit intérieur d’une automobile, le bruit inté-rieur d’un train, le bruit de vent, le bruit de ville, le brouhaha d’un restaurant, le bruit de nature, le bruit de cocktail party...

les bruits fortement fluctuants tels que la musique, la parole...

Le bruit présent dans l’environnement de l'auditeur n’est pas pris en compte lors de l'évaluation de la qualité vocale par ce même auditeur pour les raisons expliquées au para-graphe I.4.1. Le bruit de fond provenant du côté du locuteur va, quant à lui, être capté par le microphone du terminal d'entrée, et sera donc soumis aux mêmes dégradations que le signal vocal (codecs, pertes de paquets).

C. Choix des bruits de fond

Les trois signaux choisis pour simuler les bruits de fond issus du réseau sont décrits ci-dessous :

Le bruit rose présente toutes les fréquences de la bande téléphonique avec une diminu-tion de 3 dB/oct.

Le Bruit de Parole Stationnaire appelé "BPS" est construit de manière à représenter le spectre moyen de la parole, mais avec une enveloppe temporelle constante. Ce bruit res-semble au "bruit marron" (bruit aléatoire avec une diminution de 6 dB/oct).

Le bruit électrique est simulé par un signal harmonique de forme rectangulaire et de fréquence fondamentale 50 Hz.

Les trois signaux retenus pour représenter les bruits d'environnement sont :

Le bruit de restaurant qui comporte un mélange de conversation incompréhensible appelé aussi "cocktail party", des bruits de vaisselle et de chaise.

Le bruit de ville qui comporte des bruits d'accélération de voitures et des bruits de klaxon.

Le bruit de parole qui comporte une voix intelligible d'homme enregistrée à partir d'une émission de télévision.

Ces six bruits ont une durée égale à huit secondes et sont filtrés par le système de réfé-rence intermédiaire (SRI) [84], pour simuler la réponse en fréquence d'un terminal émetteur en bande étroite (300 Hz – 3,4 kHz). Les spectres de ces six bruits sont représentés sur la Fig. IV.1.

Fig. IV.1 Spectres fréquentiels des 3 bruits issus du réseau à gauche et des 3 bruits d'environnement à droite, utilisés pour les tests subjectifs

D. Choix des niveaux sonores des bruits de fond

Les niveaux sonores du bruit de fond représentatifs des communications actuelles cor-respondent à des rapports signal sur bruit (RSB) allant de 15 à 40 dB. Sachant que le niveau de la parole est défini par la norme à 79 dB SPL (UIT "Handbook on Telephonometry" [65]), cela suppose d'avoir des niveaux de bruit entre 64 et 39 dB SPL. Ces niveaux sonores sont faibles par rapport à ceux de la parole et n’influencent pas l’intelligibilité.

Notre étude privilégie la diversité des bruits de fond plutôt que les niveaux sonores de restitution, en sélectionnant trois niveaux de bruit de fond :

RSB = 32 dB  N1 = 47 dB SPL

RSB = 24 dB  N2 = 55 dB SPL

RSB = 16 dB  N3 = 63 dB SPL

Le bruit de fond choisi comme référence est le bruit rose stationnaire soumis au filtrage du système de référence intermédiaire (UIT P.48 [84]) et égalisé au niveau de -26 dBov afin de correspondre au niveau sonore des zones actives du signal de la parole. Les trois rapports signal sur bruit ont alors été appliqués à ce bruit rose. Les six bruits de fond sélectionnés ont des caractéristiques spectro-temporelles bien différentes, comme le montre la Fig. IV.1. Une égalisation des niveaux physiques de ces six bruits ne fournirait pas des niveaux sonores équivalents du point de vue subjectif. Les six bruits de fond doivent donc être égalisés en ni-veau d’isosonie à l’aide d’un test perceptif que nous décrivons dans la partie suivante.

IV.1.2.3. Test préliminaire d'égalisation de la sonie des bruits de fond

Les modèles d’estimation de la sonie proposés par Zwicker [38] ou Moore [49] sont ef-ficaces dans le cas de sons stationnaires. C’est le cas de nos trois bruits issus du réseau (rose, BPS, et électrique), mais pas des trois bruits d’environnement qui sont non stationnaires. D'après les conclusions de Boullet [85], "en ce qui concerne les sons non stationnaires et

im-pulsionnels, […] les modèles ne permettent pas d'estimer correctement la sonie globale".

Il est donc difficile d’égaliser en sonie nos six bruits de fond avec de tels modèles. Le test subjectif reste le moyen le plus efficace afin de réaliser cette égalisation.

Les recherches effectuées par Boullet [85] traitent entre autres de la comparaison de plusieurs méthodologies de tests pour trouver le meilleur moyen d'estimer la sonie de sons non-stationnaires : "L'ensemble des résultats a permis de conclure que la méthode

d'ajuste-ment présente ce meilleur compromis avec une précision de 4,7 phones et une fiabilité de l'ordre de 2 phones. Notons aussi qu'elle dure quatre fois moins longtemps (20 minutes pour 10 sons) que les autres méthodes ayant des écarts- types équivalents."

La méthode d'ajustement a donc été choisie pour le test préliminaire d'égalisation de la sonie. Elle consiste à présenter en alternance un son de comparaison et le son dont on cherche à mesurer la sonie. Il est demandé aux auditeurs d’ajuster le niveau du son de comparaison, à l'aide d'un curseur.

Pour chacun des trois rapports signal sur bruit, le bruit rose est utilisé comme la réfé-rence lors de l'égalisation de la sonie des cinq autres bruits.

Les résultats de ce test préliminaire, détaillés dans l’Annexe G, ont permis de fixer pour chacun des trois niveaux, les cinq gains à appliquer aux cinq bruits pour que les six bruits soient restitués à un niveau d'isosonie équivalent lors du test d'évaluation de la qualité vocale (cf. Fig. IV.2).

Fig. IV.2 Résultats du test d'égalisation des 3 niveaux d'isosonie et les intervalles de confiance à 95% des 6 bruits de fond selon 20 sujets experts

Les valeurs des trois niveaux d'isosonie sont calculées à partir du bruit rose grâce au modèle de Zwicker [38] qui est performant pour ce type de son. Les trois niveaux d’isosonie sont de 62 phone, 70,5 phone et 78 phone, ou encore de 4,6 sone, 8,2 sone et 14 sone.

Remarque :

Il a été constaté par Ellermeier and al. [46] que l’identification de la source d'un son pouvait dans certains cas influencer l'égalisation de la sonie (cas du son d'alarme d’une hor-loge, d’un bruit de grésillement, et d’une cloche). Dans le cas du son de cloche, il apparaît que la version dépourvue de signification est perçue plus forte que le son original. L’effet inverse est relevé pour les deux autres. Une étude similaire a aussi été menée par Hellbrück et al. [86]. Dans le cas de notre expérience, les sujets nous ont souvent rapporté que le bruit élec-trique est particulièrement gênant. Nous pouvons faire l’hypothèse que ce bruit a été égalisé à des niveaux inférieurs aux autres à cause de ses caractéristiques.

IV.1.2.4. Construction de la base sonore

La base sonore a été construite à partir des signaux de parole composés de huit phrases, prononcées par quatre locuteurs (2 hommes et 2 femmes) (cf. §.IV.1.2.1), et des six bruits de fond introduits dans le paragraphe IV.1.2.2. La Fig. IV.3 résume les différentes étapes de la construction de la base sonore.

Signal vocal Fe=8 kHz, q=16 bits BDF Fe=8 kHz, q=16 bits Stimulus dégradé Filtrage IRS8 (UIT-T P.48) Signal vocal BDF Egalisation à -26 dBov (UIT-T P.56) Signal vocal BDF Signal vocal + BDF Mixage Codage G.711 Signal global Test d'égalisation de la sonie à S=4,6 / 8,2/ 14 sone

Fig. IV.3 Schéma de construction de la base sonore

Lors de la construction des stimuli, on ne fait pas la distinction entre les bruits issus du réseau et les bruits de l’environnement. On considère qu’ils proviennent tous de l’environnement du locuteur, et qu’ils sont soumis aux mêmes dégradations que le signal de parole. Les signaux de bruit de fond ont donc été soumis au même traitement que le signal vocal (cf. Fig. IV.3). Les signaux de bruit de fond et de parole ont été soumis au filtrage simu-lant l’utilisation d’un terminal émetteur (UIT P.48 [84]), puis ils ont été égalisés à -26 dBov (UIT P.56 [80]). Le test préliminaire permet d’égaliser les bruits de fond aux trois niveaux d’isosonie. Les signaux globaux ont été obtenus en mixant les six bruits de fond aux huit échantillons de parole pour les trois niveaux d’isosonie. Les signaux globaux ont ensuite été codés et décodés en G.711. Il a été vérifié que le rapport signal à bruit des stimuli n’a pas été influencé lors de cette dernière étape, et que les trois niveaux d’isosonie des bruits de fond correspondent bien à 4,6 sone, 8,2 sone et 14 sone.

La base sonore a aussi été complétée de huit stimuli sans bruit de fond. Pour que ces derniers soient réalistes d'une télécommunication, il a été ajouté un faible niveau de bruit rési-duel simulé par un bruit rose de rapport signal sur bruit RSB = 44 dB.