• Aucun résultat trouvé

III.2 Résultats

IV.1.1 Sujets et conditions d’écoute

Dix-huit testeurs experts ont pris part à ce test.

Les écoutes se sont déroulées dans une cabine insonorisée construite spécifiquement pour la réalisation des tests d’écoute subjectifs. Les séquences sont restituées sur un casque STAX Signature SR-404 (ouvert) et son amplificateur SRM-006t.

IV.1.2 Séquences sonores

Sept extraits sonores sont choisis pour ce test et couvrent une large diversité de sons, de la musique, des extraits de films, des scènes du quotidien... Trois d’entre eux sont issus d’enregistrements binauraux natifs (micros binauraux sur tête artificielle). Pour générer les quatre autres séquences, un algorithme de synthèse binaurale est appliqué à des séquences 5.1. Ce module, nommé “VLEncoder”, a été développé à Orange Labs. L’intérêt de ce procédé est de simuler un système 5.1 en positionnant les sources dans l’espace virtuel. Le but est de recréer le rendu 5.1 afin que l’auditeur ait l’impression d’être placé au centre (sweet spot) des cinq enceintes virtuelles. L’encodage binaural est réalisé à l’aide de HRTF moyennes implémentées dans le module (base de HRTF de Jean-Marie Pernaux,Pernaux (2003)). La figure IV.1 présente un exemple d’utilisation du module “VLEncoder”.

Fig. IV.1 – Exemple d’utilisation du module de synthèse binaurale “VLEncoder”.

Les sept extraits sélectionnés sont décrits dans le tableau IV.1.

Tab. IV.1 – Description des extraits sonores.

Nom Nature Description Durée (s)

Barber Natif Une coupe de cheveux virtuelle, des coups de ciseaux, l’utilisation de la 18.8 tondeuse près des oreilles, un joueur de guitare en arrière-plan

Bombarde Natif Répétition de spectacle : un joueur de bombarde qui s’éloigne vers la 22.5 gauche et des personnes qui préparent l’évènement en arrière plan sonore Escalier Natif Deux personnes qui descendent un escalier en discutant puis qui vont 17.3

dans des directions opposées

Marimba Synthèse Musique jouée au marimba avec effets de rotation 20.4 Milanof Synthèse Sons divers, enfants, tonnerre et une voix tournante 20.1 Starwars Synthèse Extrait de film, bataille entre vaisseaux spatiaux, tirs 18.2 Tango Synthèse Musique : percussion, accordéons, trompettes 18.4

Pour chacun de ces sept extraits, huit versions sont soumises à évaluation : l’original en tant que référence cachée, un ancrage spécifique à chaque attribut et quatre codages audio (tableau IV.2).

IV.1. Protocole expérimental 65

Tab. IV.2 – Description des versions évaluées.

Nom Description

Original La référence : le fichier original ancreT Filtrage à 3.5 kHz (ancrage timbral) ancreD Ajout de bruit rose et clics (ancrage défauts)

ancreS Inversion des canaux R et L par portion + passages mono (ancrage spatial)

HEAACv2 HE-AACv2 à 40 kbits/s

AMR AMR WB+ à 48 kbits/s

MP3 MP3 à 64 kbits/s

AAC AAC à 32 kbits/s

Quatre codages, deux de plus que le test précédent (chapitre III), sont choisis de façon à couvrir plusieurs degrés de qualité tout en conservant le postulat d’une méthode adaptée à l’évaluation de contenus présentant des dégradations moyennes et fortes. Les codages MP3 et AAC sont conservés cependant leurs débits ont été réduits.

Le codage AMR-WB (Adaptive Multi-Rate Wideband) est un format de compression audio souvent utilisé en téléphonie mobile notamment pour le codage de la parole. Il se base sur une modélisation du système de production de la parole, la technologie ACELP (Algebraic Code Excited Linear Prediction) et utilise un détecteur d’activité vocale qui permet de transmettre uniquement les signaux montrant une activité vocale (ITU-T G.722-2, 2002). L’AMR-WB+ est une extension de l’AMR-WB (Makinenet al., 2005).

HEAACv2 (High Efficiency Advanced Audio Coding) est un profil du codage AAC, complété des outils de reconstruction de bande spectrale (SBR : Spectral Band Replica-tion) et de stéréo paramétrique (PS : Parametric Stereo) (Meltzer et Moser, 2006). Il est utilisé pour l’audio sur mobile et de plus en plus pour la radio sur internet.

Une des difficultés du montage du test réside dans le choix des ancrages spécifiques à chaque attribut. Dans l’idéal, les dégradations appliquées pour générer un ancrage doivent affecter uniquement l’attribut qui lui est associé. Par exemple, l’ancrage timbral doit en-traîner la perception d’une dégradation de l’attribut Timbre sans altérer l’Espace ni les

Défauts.

Comme dans le chapitre III, l’ancrage timbral choisi est un filtrage de la version origi-nale avec un filtre passe-bas butterworth d’ordre 8 avec une fréquence de coupure à 3.5 kHz. L’ancrage Défauts consiste à ajouter un bruit rose sur la version originale. Étant des artefacts courants, des clics sont également ajoutés. Le rapport signal sur bruit (RSB) est d’environ 30 dB. La figure IV.2 illustre la séquence de clics et le bruit rose ajoutés à la version originale pour créer l’ancrageDéfauts.

Fig. IV.2 – Séquence de clics et bruit rose ajoutés à la version originale pour créer l’ancrage

Défauts.

Dans le test précédent, réalisé sur un système 5.1, il a été observé que l’ancrage spatial ne jouait pas son rôle. Il a obtenu une moyenne de 0.6 sur 1 lors de l’évaluation de l’attributEspace. La dégradation appliquée était une inversion du canal R et Ls durant l’intégralité de l’extrait. Elle n’apportait pas suffisamment d’incohérence spatiale pour que l’ancrage soit évalué dans la partie inférieure de l’échelle de qualité proposée (échelle sans label intermédiaire avec les termes “basse” et “haute qualité” aux extrémités). D’autant plus, le test ne présente pas de référence explicite. Il est donc difficile de déceler cette altération. Pour l’ancrage spatial inclus dans ce chapitre, le choix s’est porté sur une version dynamique d’inversion des canaux. En effet, sur une courte période, le canal droit R et le canal gauche L sont échangés dans le but de créer une instabilité dans la cohérence spatiale. De plus, des passages de quelques secondes en mono sont insérés afin de générer des dégradations différentes comme une modification de localisation et d’enveloppement. La figure IV.3 décrit l’ancrage spatial.

Fig. IV.3 – Description de l’ancrage spatial.

La figure IV.4 résume les dégradations appliquées aux fichiers stéréo originaux pour générer les signaux d’ancrages.

IV.2. Résultats 67

IV.1.3 Déroulement du test

Le déroulement du test est similaire à celui mis en place dans le chapitre III. Le principe du test se base sur la méthode MUSHRA en s’appuyant sur une comparaison multiple simultanée des extraits sonores. Le test n’inclut pas de référence explicite pour une évaluation de qualité et non de fidélité. La consigne principale donnée aux auditeurs est de noter obligatoirement au maximum de l’échelle, l’extrait qu’ils perçoivent comme étant de plus haute qualité. Les consignes de test données aux participants sont détaillées en annexe A.3 et A.4. Le test se déroule en deux sessions conformément au chapitre III. La première consiste à évaluer la qualité globale du son, la seconde permet d’évaluer simultanément les trois attributs : Timbre, Espace et Défauts. Les interfaces de test ont été réutilisées (figures III.1 et III.3).

IV.2 Résultats

Le but de ce test est de vérifier le comportement de la méthode appliquée à un autre mode de restitution et de valider le choix des ancrages. Le test a duré en moyenne 1 heure et 51 minutes : 41 minutes pour l’évaluation de la qualité globale et 55 minutes pour l’évaluation des trois attributs. Les auditeurs étaient libres de faire des pauses. Un battement de 15 minutes était imposé entre les deux sessions.

Documents relatifs