Procédures expérimentales de mesure de la qualité sonore

2.3 Évaluation de la qualité sonore

2.3.1 Procédures expérimentales de mesure de la qualité sonore

L’hypothèse de départ pour la caractérisation hédonique est que la qualité sonore peut être vue comme un attribut de la perception, au même titre que les attributs du timbre (section 2.1), mais dif-fère toutefois de ces derniers par son caractère complexe et subjectif. D’un point de vue théorique, il semble naturel à priori de considérer la qualité sonore comme une échelle unidimensionnelle conti-nue, que l’on noteUipour le soni, et qu’il convient de déterminer expérimentalement.

Il est également important de noter que les procédures expérimentales de mesure perceptive font intervenir des évaluations effectuées par un certain nombre d’auditeurs. Selon l’hypothèse d’une échelle de qualité sonore unique, chaque auditeur est considéré comme un instrument de mesure fluctuant. L’intérêt de faire intervenir un certain nombre d’entre eux est d’obtenir une estimation sta-tistique des fluctuations (c’est-à-dire des variations entre auditeurs), et donc une mesure perceptive plus précise. Il convient alors de vérifier que ces fluctuations ne sont pas trop grandes par rapport

à la gamme de variation de l’échelle perceptive mesurée. Dans un cadre statistique plus rigoureux, cela consiste à évaluer le coefficient de concordance de Kendall et le coefficient de corrélation de rang de Spearman (voir section C.1 en annexe) qui permettront de conclure sur la validité statistique de la mesure effectuée. Cette méthode peut s’appliquer à l’ensemble des procédures expérimentales évoquées dans cette partie.

En pratique toutefois, il s’avère souvent que le caractère fortement subjectif de la qualité sonore empêche de faire émerger une échelle unique de description. En effet, les jugements de qualité so-nore des auditeurs ne sont pas toujours influencés au même degré par les différents attributs auditifs associés au type de son étudié. Le cas échéant, ces différentes sensibilités pénalisent notablement les coefficients mentionnés ci-dessus, rejetant ainsi la validité statistique d’une échelle moyenne. Il convient alors d’analyser plus précisément la distribution des jugements des auditeurs, afin d’iden-tifier les principales tendances parmi le panel de participants (un exemple de méthode d’analyse utilisée dans cette optique est présentée en section C.2 en annexe). Au lieu d’une échelle de qualité sonore unique, on tente alors d’obtenir autant d’échelles que l’on identifie de subdivisions du panel. Il est alors en principe possible de valider les échelles obtenues en évaluant de nouveau les coefficients de concordance de Kendall et de corrélation de rang de Spearman sur chacune des subdivisions du panel. La littérature montre ainsi plusieurs exemples où l’étude de la qualité sonore associée à un objet donné a abouti à une telle segmentation du panel d’auditeurs participant aux expériences (voir notamment Susini et al. [147] et Parizet et al. [119]).

Ordonnancement : La manière la plus simple d’aborder expérimentalement la problématique de la quantification de la qualité sonore est de demander à des auditeurs d’ordonner un ensemble de sons en fonction de la sensation de qualité qu’ils procurent. Cette méthode est celle employée par Fastl pour l’étude de la qualité sonore de rasoirs électriques [59], et par Patsouras et al. pour l’évaluation de la qualité de sons de moteurs automobiles [122]. L’échelle globale peut alors s’établir en observant la répartition des classements de chaque son sur l’ensemble des auditeurs, voire se calculer comme le classement moyen des sons. Mais la précision de l’échelle obtenue par une telle méthode n’est pas assurée.

Estimation de grandeur : Une autre méthode très simple est de demander à des auditeurs d’affec-ter à chaque son une valeur sur une échelle numérique, proportionnellement à leur sensation. Les valeurs de l’échelle de qualitéUi sont alors simplement ces estimations moyennées sur l’ensemble des auditeurs. À l’origine, cette méthode a surtout été utilisée pour l’estimation de la sonie (voir sec-tion 2.3.3). Dans certains cas, on choisit de fournir aux auditeurs un son de référence, auquel on attribue une valeur arbitraire. Ainsi, si un son procure une sensation deux fois plus forte que le son de référence, l’auditeur lui attribue la valeur double de la valeur de référence. Une échelle de rapport de sensation est ainsi obtenue. Si elle paraît très simple à mettre en œuvre, elle présente tout de même un fort inconvénient : le choix du son de référence peut apporter un biais aux résultats du test. En ef-fet, il se peut, dans le cas où l’on s’intéresse à des attributs abstraits du son, comme la qualité, que le choix du son de référence focalise l’attention des auditeurs sur des caractéristiques propres à ce son.

Cette méthode a toutefois été largement utilisée pour des études perceptives fondamentales (avec des sons de laboratoires parfaitement contrôlés) mais plus rarement adoptée lorsque l’on s’intéresse à des sons réels.

Évaluation absolue : Une variante de la méthode d’estimation de grandeur est l’évaluation abso-lue, dont la principale différence est que l’échelle proposée aux auditeurs n’est plus numérique mais

identifié grâce aux labels (souvent un couple d’adjectifs ou expressions sémantiquement opposés) placés aux extrémités de l’échelle. Dans le cas du caractère hédonique du son, on peut par exemple placer aux extrémités « pas du tout agréable » et « extrêmement agréable ». L’échelle peut également être discrète et présenter ainsi plusieurs paliers associés chacun à un label. L’échelle ainsi obtenue est donc absolue, contrairement à celle de l’estimation de grandeur de nature relative. Cela peut ne pas convenir pour certains ensembles de sons. Par exemple, si l’on s’intéresse à des sons correspon-dant au même type de source physique, suffisamment proches pour qu’il soit possible d’en établir un espace de timbre (voir section 2.1), on peut s’attendre à ce que tout ou partie des évaluations soient concentrées sur une faible portion de l’échelle, rendant les différences de jugements moyens entre sons non-significatives d’un point de vue statistique. Afin de pouvoir apprécier le caractère si-gnificatif des résultats, on utilise souvent un outil statistique dit d’analyse de variance, permettant de discriminer les cas où les différences sont porteuses de signification et ceux où elles sont plus proba-blement dues à la chance, et donc simplement à des fluctuations aléatoires de leur perception par les auditeurs.

Comparaison par paire : Le principe de cette méthode est fondé sur l’idée qu’il est plus facile de comparer deux sons et de choisir celui que l’on préfère que d’évaluer séparément les sons sur une échelle, numérique ou non, plus ou moins arbitraire, et qu’il est parfois difficile de définir précisé-ment. On considère donc ici l’échelle unidimensionnelle de qualité comme uneéchelle de préférence qu’il convient d’établir pour le corpus de sons étudié. En pratique, on fait écouter aux auditeurs toutes les paires de sons différents qu’il est possible de constituer à partir du corpus de sons étudié. Pour tester une paire de sons, on présente à l’auditeur les deux sons diffusés successivement, et l’audi-teur doit simplement choisir celui qu’il préfère. Il est également possible de ne pas limiter le nombre de réponses possibles à deux, et d’offrir des choix intermédiaires (par exemple, « les deux sons sont équivalents »). Dans le cas où l’on souhaite ne tester qu’une seule fois chaque paire de sons, on va donc testern(n−1)/2 paires, pour un ensemble densons. Il arrive également que l’on teste chaque paire de sons dans les deux sens de présentation (sonipuis sonj, et sonjpuis soni), afin de vérifier que l’ordre de présentation des sons n’a pas d’influence. Dans ce cas, on doit présentern(n−1) sons.

Quelques précautions doivent toutefois être prises. Bien entendu, l’ordre de présentation des paires de sons doit être en principe aléatoire. On prend toutefois garde à ce que les apparitions successives d’un même son ne soient pas trop rapprochées l’une de l’autre. En effet, si un même son était suc-cessivement confronté à plusieurs autres, il est possible que des caractéristiques propres à celui-ci prennent le pas sur d’autres, plus générales, et biaisent les jugements des auditeurs. Enfin, on veille également à ce que l’ordre de présentation des paires ne soit pas le même d’un auditeur à l’autre.

L’inconvénient majeur de cette méthode est d’ordre pratique. En effet, le nombre de jugements à effectuer par l’auditeur est proportionnel au carré du nombre de sons. Par conséquent, lorsque le cor-pus sonore devient d’une taille importante, la longueur de l’expérience peut devenir excessive. Ceci peut avoir pour conséquence de rapidement lasser, voire fatiguer, les auditeurs, dont les réponses peuvent devenir ainsi peu précises et peu cohérentes. En pratique, il est difficile d’appliquer cette méthode pour des ensembles de plus d’une quinzaine de sons (bien que cette limite dépende aussi de la longueur des sons et de l’ergonomie de l’interface de test).

Lors du traitement des résultats, les résultats de chaque auditeur sont placés dans une matrice NxN dans laquelle la case (i,j) indique la préférence de l’auditeur entre les sonsi et j (0 si le soni est préféré, 1 si le sonjest préféré, ou valeur intermédiaire si plus de deux réponses sont possibles).

Bien entendu, on affecte également la valeur complémentaire dans la case (j,i), afin de compléter

la matrice. Il suffit alors de moyenner cette matrice sur l’ensemble des auditeurs pour obtenir un jeu de probabilité de préférencePi j pour chaque paire de sons. Étant donné le jeu de probabilité de préférenceP_{i j} entre les sons, il s’agit maintenant d’en déduire une valeur reflétant le potentiel de chaque son à être préféré aux autres. En conséquence, il est indispensable de poser l’hypothèse qu’il existe un continuum de sensation selon lequel on peut affecter à chaque son une valeurUi

représentant le degré de préférence. Les probabilités de préférencePi j sont reliées à ces valeurs par une fonctionf inconnue :

Pi j=f(Ui,Uj) (2.1)

La fonctionf doit bien entendue être définie. Plusieurs modèles existent. Parmi ceux-ci, 3 sont parti-culièrement utilisés dans ce type d’étude expérimentale : le modèle linéaire (somme des préférences pour chaque son), le modèle Thurstone V [150], utilisé notamment par Susini et McAdams pour étu-dier les jugements de préférence de sons d’habitacle automobile [107, 145] ou de sons d’unités de climatisations [147] et le modèle BTL (Bradley-Terry-Luce [40, 103]), utilisé par exemple par Zimmer et al. [163] pour établir une échelle de désagrément de divers sons de l’environnement.

Évaluation comparée : Cette méthode [46] associe évaluation directe et comparaison, et est inspi-rée des méthodes introduites indépendamment par Bodden et al. [28] et Maunder [105]. La tâche à effectuer par l’auditeur consiste toujours à évaluer les sons, mais l’auditeur a la possibilité de réécou-ter et réévaluer l’ensemble des sons tout au long de l’expérience, tout en visualisant en permanence l’ensemble des réglages effectués. En pratique les échelles d’évaluation correspondant aux différents sons sont présentées simultanément à l’écran, tel que sur la figure 2.4 par exemple. Il a été démon-tré [119] que cette méthode offre un bon compromis entre précision de l’échelle obtenue et durée de l’expérience. En effet, il apparaît que cette procédure nécessite une durée d’expérience plus courte qu’avec la méthode de comparaison par paire tout en donnant des résultats plus précis qu’avec l’éva-luation absolue ou l’estimation de grandeur. Ceci est dû au fait qu’il est donné aux auditeurs la pos-sibilité de corriger leurs évaluations initiales à la suite de l’écoute et de l’évaluation de l’ensemble du corpus sonore. En revanche, cette méthode peut parfois inciter les auditeurs à se contenter d’un or-donnancement des sons plutôt qu’à une évaluation précise. De plus, si le nombre de sons est élevé, l’interface peut s’en trouver d’autant plus surchargée. Elle laisse en revanche la possibilité d’opter pour une échelle absolue ou relative, en fonction des labels utilisés et des consignes fournies aux au-diteurs. Le traitement se fait comme pour l’évaluation absolue ou l’estimation de grandeur, et s’avère donc moins « lourd » que pour la comparaison par paire.

Dans le document The DART-Europe E-theses Portal (Page 40-43)