Procédures expérimentales de mesure de la qualité sonore

2.3 Évaluation de la qualité sonore

2.3.1 Procédures expérimentales de mesure de la qualité sonore

L’hypothèse de départ pour la caractérisation hédonique est que la qualité sonore peut être vue comme un attribut complexe de la perception, au même titre que les attributs du timbre (section 2.1), mais diffère toutefois de ces derniers par le caractère complexe et subjectif de sa perception. La qua- lité sonore est donc considérée ici comme une échelle unidimensionnelle continue, que l’on note Ui pour le son i , et qu’il convient de déterminer expérimentalement.

Il est également important de noter que les procédures expérimentales de mesure perceptive font intervenir des évaluations effectuées par un certain nombre d’auditeurs. Chaque auditeur est ici considéré comme un instrument de mesure fluctuant. L’intérêt de faire intervenir un certain nombre d’entre eux est d’obtenir une estimation statistique des fluctuations (c’est-à-dire des variations entre auditeurs), et donc une mesure perceptive plus précise. Il convient alors de vérifier que ces fluctuations ne sont pas trop grandes par rapport à la gamme de variation de l’échelle perceptive mesu- rée. Dans un cadre statistique plus rigoureux, cela consiste à évaluer le coefficient de concordance de Kendall et le coefficient de corrélation de rang de Spearman (voir annexe C.1) qui permettront de conclure sur la validité statistique de la mesure effectuée. Cette méthode peut s’appliquer à l’en-

semble des procédures expérimentales évoquées dans cette partie.

Ordonnancement : La manière la plus simple d’aborder expérimentalement la problématique de la

quantification de la qualité sonore est de demander à des auditeurs d’ordonner un ensemble de sons en fonction de la sensation de qualité qu’ils procurent. Cette méthode est celle employée par Fastl pour l’étude de la qualité sonore de rasoirs électriques [55], et par Patsouras et al. pour l’évaluation de la qualité de sons de moteurs automobiles [119]. L’échelle globale peut alors s’établir en observant la répartition des classements de chaque son sur l’ensemble des auditeurs, voire se calculer comme le classement moyen des sons. Mais la précision de l’échelle obtenue par une telle méthode n’est pas assurée.

Estimation de grandeur : Une autre méthode très simple est de demander à des auditeurs d’estimer

directement la qualité des sons sur une échelle numérique, allant par exemple de 0 à 10. Les valeurs de l’échelle de qualité Uisont alors simplement ces estimations moyennées sur l’ensemble des auditeurs. À l’origine, cette méthode a surtout été utilisée pour l’estimation de la sonie (voir section 2.3.3). Son principe est donc de donner une valeur numérique proportionnelle à une sensation particulière que procure le son (intensité ou, en l’occurrence, qualité, entre autres). Dans certains cas, on choisit de fournir aux auditeurs un son de référence, auquel on attribue arbitrairement la valeur centrale de l’échelle. Ainsi, si un son procure une sensation deux fois plus forte que le son de référence, l’auditeur lui attribue la valeur double de la valeur de référence. Une échelle de rapport de sensation est ainsi obtenue. Si elle paraît très simple à mettre en œuvre, elle présente tout de même un fort inconvé- nient : le choix du son de référence peut apporter un biais aux résultats du test. En effet, il se peut, dans le cas où l’on s’intéresse à des attributs abstraits du son, comme la qualité, que le choix du son de référence focalise l’attention des auditeurs sur des caractéristiques propres à ce son. Cette mé- thode a toutefois été largement utilisée pour des études perceptives fondamentales (avec des sons de laboratoires parfaitement contrôlés) mais plus rarement adoptée lorsque l’on s’intéresse à des sons réels.

Évaluation absolue : Une variante de la méthode d’estimation de grandeur est l’évaluation abso-

lue, dont la principale différence est que l’échelle proposée aux auditeurs n’est plus numérique mais identifié grâce aux labels (souvent un couple d’adjectifs ou expressions sémantiquement opposés) placés aux extrémités de l’échelle. Dans le cas du caractère hédonique du son, on peut par exemple placer aux extrémités « pas du tout agréable » et « extrêmement agréable ». L’échelle peut également être discrète et présenter ainsi plusieurs paliers associés chacun à un label. L’échelle ainsi obtenue est donc absolue, contrairement à celle de l’estimation de grandeur de nature relative. Cela peut ne pas convenir pour certains ensembles de sons. Par exemple, si l’on s’intéresse à des sons correspondant au même type de source physique, suffisamment proches pour qu’il soit possible d’en établir un espace de timbre (voir section 2.1), il y a de fortes chances que tout ou partie des évaluations soient concentrées sur une faible portion de l’échelle, rendant les différences de jugements moyens entre sons non-significatives d’un point de vue statistique. Afin de pouvoir apprécier le caractère significa- tif des résultats, on utilise souvent un outil statistique dit d’analyse de variance, permettant de discri- miner les cas où les différences porteuses de signification et où elles sont plus probablement dues à la chance, et donc simplement à des fluctuations aléatoires de leur perception par les auditeurs.

Comparaison par paire : Le principe de cette méthode est fondé sur l’idée qu’il est plus facile de comparer deux sons et de choisir celui que l’on préfère que d’évaluer séparément les sons sur une

échelle, numérique ou non, plus ou moins arbitraire, et qu’il est parfois difficile de définir précisé- ment. On considère donc ici l’échelle unidimensionnelle de qualité comme une échelle de préférence qu’il convient d’établir pour le corpus de sons étudié. En pratique, on fait écouter aux auditeurs toutes les paires de sons différents qu’il est possible de constituer à partir du corpus de sons étudié. Pour tester une paire de sons, on présente à l’auditeur les deux sons diffusés successivement, et l’auditeur doit simplement choisir celui qu’il préfère. Dans le cas où l’on souhaite ne tester qu’une seule fois chaque paire de sons, on va donc tester n(n − 1)/2 paires, pour un ensemble de n sons. Il arrive également que l’on teste chaque paire de sons dans les deux sens de présentation (son i puis son j , et son j puis son i ), afin de vérifier que l’ordre de présentation des sons n’a pas d’influence. Dans ce cas, on doit présenter n(n − 1) sons. Quelques précautions doivent toutefois être prises. Bien entendu, l’ordre de présentation des paires de sons doit être en principe aléatoire. On prend toutefois garde à ce que les apparitions successives d’un même son ne soient pas trop rapprochées l’une de l’autre. En effet, si un même son étaient successivement confronté à plusieurs autres, il est possible que des caractéris- tiques propres à celui-ci prennent le pas sur d’autres, plus générales, et biaisent les jugements des auditeurs. Enfin, on veille également à ce que l’ordre de présentation des paires ne soit pas le même d’un auditeur à l’autre.

L’inconvénient majeur de cette méthode est d’ordre pratique. En effet, le nombre de jugements à effectuer par l’auditeur est proportionnel au carré du nombre de sons. Par conséquent, lorsque le corpus sonore devient d’une taille importante, la longueur de l’expérience peut devenir excessive. Ceci peut avoir pour conséquence de rapidement lasser, voire fatiguer, les auditeurs, dont les réponses peuvent devenir ainsi peu précises et peu cohérentes. En pratique, il est difficile d’appliquer cette méthode pour des ensembles de plus d’une quinzaine de sons (bien que cette limite dépende aussi de la longueur des sons et de l’ergonomie de l’interface de test).

Lors du traitement des résultats, les résultats de chaque auditeur sont placés dans une matrice NxN dans laquelle la case (i , j ) indique la préférence de l’auditeur entre les sons i et j (0 pour le son

i ou 1 pour le son j ). Bien entendu, on affecte également la valeur complémentaire dans la case ( j , i )

(respectivement 1 ou 0), afin de compléter la matrice. Il suffit alors de moyenner cette matrice sur l’ensemble des auditeurs pour obtenir un jeu de probabilité de préférence Pi j pour chaque paire de sons. Étant donné le jeu de probabilité de préférence Pi j entre les sons, il s’agit maintenant d’en dé- duire une valeur reflétant le potentiel de chaque son à être préféré aux autres. En conséquence, il est indispensable de poser l’hypothèse qu’il existe un continuum de sensation selon lequel on peut af- fecter à chaque son une valeur Uireprésentant le degré de préférence. Les probabilités de préférence

Pi j sont reliées à ces valeurs par une fonction f inconnue :

Pi j= f (Ui,Uj) (2.1)

La fonction f doit bien entendue être définie. Plusieurs modèles existent. Parmi ceux-ci, 3 sont parti- culièrement utilisés dans ce type d’étude expérimentale : le modèle linéaire (somme des préférences pour chaque son), le modèle Thurstone V [99], utilisé notamment par Susini et McAdams pour étu- dier les jugements de préférence de sons d’habitacle automobile [104, 141] ou de sons d’unités de climatisations [143] et le modèle BTL (Bradley-Terry-Luce [38, 100]), utilisé par exemple par Zimmer et al. [158] pour établir une échelle de désagrément de divers sons de l’environnement.

Évaluation comparée : Cette méthode [44] associe évaluation directe et comparaison, et est inspi-

rée des méthodes introduites indépendamment par Bodden et al. [26] et Maunder [102]. La tâche à effectuer par l’auditeur consiste toujours à évaluer les sons, mais l’auditeur à la possibilité de réécou- ter et réévaluer l’ensemble des sons tout au long de l’expérience, tout en visualisant en permanence l’ensemble des réglages effectués. En pratique les échelles d’évaluation correspondant aux différents sons sont présentées simultanément à l’écran, tel que sur la figure 2.4 par exemple. Il a été démon- tré [116] que cette méthode offre un bon compromis entre précision de l’échelle obtenue et durée de l’expérience. En effet, il apparaît que cette procédure nécessite une durée d’expérience plus courte qu’avec la méthode de comparaison par paire tout en donnant des résultats plus précis qu’avec l’éva- luation absolue ou l’estimation de grandeur. Ceci est dû au fait qu’il est donné aux auditeurs la pos- sibilité de corriger leurs évaluations initiales à la suite de l’écoute et de l’évaluation de l’ensemble du corpus sonore. En revanche, cette méthode peut parfois inciter les auditeurs à se contenter d’un ordonnancement des sons plutôt qu’à une évaluation précise. De plus, si le nombre de sons est élevé, l’interface peut s’en trouver d’autant plus surchargée. Elle laisse en revanche la possibilité d’opter pour une échelle absolue ou relative, en fonction des labels utilisés et des consignes fournies aux auditeurs. Le traitement se fait comme pour l’évaluation absolue ou l’estimation de grandeur, et s’avère donc moins « lourd » que pour la comparaison par paire.

FIGURE2.4 – Exemple d’interface pour un test d’évaluation comparée (provenant de Chevret et Pari-

zet [44]).

Dans le document Perception et confort acoustiques des Systèmes de Traitement d'Air (Page 37-40)