• Aucun résultat trouvé

Chapitre III. Cœur du modèle : Analyse multidimensionnelle de la qualité vocale

III.3. Détermination de l'espace perceptif

III.3.3. Identification des dimensions perceptives

Les jugements de dissimilarité entre les stimuli ont permis, grâce à la méthode d’échelonnement multidimensionnel, de distinguer trois principales dimensions perceptives. L’identification des axes n’est pas une étape obligatoire pour relier l’espace perceptif à l’évaluation de la qualité vocale, mais elle constitue une information très utile lors de la mo-délisation qui est réalisée dans les deux chapitres suivants. Les trois dimensions sont identi-fiées dans cette partie par des attributs perceptifs (cf. §.I.4), à partir de l'écoute des conditions suivant chaque dimension. Ces trois dimensions correspondent respectivement aux attributs

"Bruyance", "Codage de la parole", et "Continuité".

III.3.3.1. Bruyance

La première dimension semble être représentative de la présence de bruit de fond (cf. Fig. III.16 et §.I.4.1).

Fig. III.16 Identification de la dimension 1 : Bruyance pour la voix de femme (♦) et la voix d'homme (+) Deux groupes de stimuli apparaissent clairement, correspondant à la présence ou non de bruit de fond sur le signal de parole. Le groupe de stimuli situé sur la droite (0 < dim 1 < 1 ; cf. Fig. III.16) est constitué des 32 conditions ne comportant pas de bruit ajouté, tandis que le groupe de gauche (-2 < dim 1 < -1,5 ; cf. Fig. III.16) est composé des 14 conditions présentant du bruit de fond ajouté.

Il se pose alors un problème concernant l’échelle catégorielle ou continue de cette pre-mière dimension. La détermination du cœur du modèle en est directement affectée.

Cette allure catégorielle est justifiée par la construction des conditions bruitées de la base sonore. Le choix des niveaux sonores appliqués aux conditions bruitées est limité à 7 rapports signal sur bruit qui correspondent à des rapports régulièrement espacés, compris entre 27 dB < RSB < 36 dB (RSB réel calculé sur les signaux (cf. Tab. III.1 et Fig. III.17)). Les conditions non bruitées présentent aussi des niveaux de bruit de fond correspondant à des RSB calculés sur les signaux allant d’environ 43 dB < RSB < 50 dB (cf. Tab. III.1 et Fig. III.17). Ces bruits proviennent du codec et du bruit résiduel et leurs niveaux sonores sont es-pacés de manière régulière les uns par rapport aux autres.

Il existe un manque de données dans la base sonore pour les conditions bruitées présen-tant des niveaux sonores compris entre 36 dB < RSB < 43 dB. Ce manque de données peut être à l’origine de l’allure catégorielle de cette première dimension. Nous avons calculé un coefficient de corrélation de r = 0,97 (p < 0.01) entre les coordonnées des points suivant la première dimension et les valeurs de niveau sonore des bruits de fond exprimées par le rap-port signal sur bruit (cf. Fig. IV.18). Cependant, cette corrélation doit être considérée avec prudence à cause de la répartition bimodale des conditions suivant le premier axe. Dans ce cas, il est préférable de déterminer les coefficients de corrélation, d’une part suivant les condi-tions bruitées (r = 0.77), et d’autre part suivant les condicondi-tions non bruitées (r = 0.77) (cf. Fig. III.17).

Fig. III.17 Représentation de la première dimension par le rapport signal sur bruit pour les conditions bruitées à gauche et non bruitées à droite

Ces résultats montrent que la dimension bruyance peut être considérée comme continue pour les deux types de conditions (avec et sans bruits ajoutés). Nous remarquons aussi que les équations des droites reliant la dimension et le rapport signal sur bruit sont pratiquement iden-tiques pour les stimuli avec et sans bruit ajoutés (cf. Fig. III.17). Cela permet d’avancer l’hypothèse que des stimuli constitués de rapport signal sur bruit compris entre 36 et 43 dB peuvent être représentés par la même équation pour correspondre à la dimension bruyance.

Ces constatations permettent de vérifier que la dimension relative à la bruyance est bien représentée sur une échelle continue et qu’elle est principalement influencée par le niveau sonore du bruit de fond. Plus les stimuli sont situés vers la partie négative de cette première dimension, plus le niveau sonore du bruit est important.

Le faible niveau de bruit de fond présent sur les stimuli ne contenant pas de bruit ajouté provient du codage de la parole qui génère dans certains cas du bruit de quantification (cf. §.I.4.1). Par exemple, le codage G.711 (stimuli placés dans la partie extrême positive de la dimension 2) génère du bruit de fond de quantification plus important que le codage G.729 (stimuli placés dans la partie extrême négative de la dimension 2) (cf. Fig. III.16 et Fig. III.18).

III.3.3.2. Codage de la parole

L'écoute des stimuli le long de la deuxième dimension a permis d'identifier les attributs relatifs au codage de la parole (cf. Fig. III.18). Les coordonnées des points entre les deux lo-cuteurs sont pratiquement identiques pour cette dimension (cf. Fig. III.14 ). La Fig. III.18 pré-sente uniquement les conditions prononcées par le locuteur femme pour des raisons de lisibili-té.

Fig. III.18 Identification de la dimension 2 : Codage de la parole pour la voix de femme (♦)

La répartition des codecs le long de la deuxième dimension peut être représentée de manière simplifiée (cf. Fig. III.19).

Fig. III.19 Echelle de correspondance entre la dimension 2 et les codages et transcodages

Cette deuxième dimension peut représenter plusieurs attributs. On remarque tout d'abord que cette dimension est étroitement liée à la dégradation de la qualité vocale suivant le codage employé. En effet, il est admis que le codage G.711 obtient le meilleur score de qualité vocale, et le transcodage G.729-G.729 la moins bonne note dans ce panel de codage utilisé.

Le naturel de la voix est étroitement lié à l'évaluation de la qualité vocale, comme le montre Hall [17] (cf. §.I.4.6). Notre deuxième dimension pourrait donc être reliée à cet attri-but perceptif.

L'écoute des stimuli selon cette dimension permet aussi d'identifier l'attribut coloration de la parole (cf. §.I.4.9). L'utilisation du codage G.729 provoque une sensation sourde de la parole, par rapport au codage G.711 qui ne compresse pas le signal vocal et qui reconstitue le signal de manière plus claire. La partie positive de cette deuxième dimension comprend les voix claires, brillantes ou encore colorées, contrairement à la partie négative où la voix est plus sourde, sombre. Nous ne remarquons cependant aucune différence entre les deux locu-teurs homme et femme suivant cette dimension, comme le montre la Fig. III.14, malgré la différence de timbre entre ces deux voix.

D'autres attributs ont aussi été identifiés tels que la distorsion et le grésillement, générés par la compression du signal de la parole.

III.3.3.3. Continuité

L'écoute des stimuli suivant la troisième dimension a permis d’identifier les attributs continuité et discontinuité de la parole. Les discontinuités sont principalement générées par les pertes de paquets et par les erreurs de bits. Ces deux dégradations physiques sont représen-tées par le même axe, malgré la différence de sonorité entre ces deux types de pertes. Les pertes de paquets sont perçues comme des trous dans le signal lorsque la PLC "Packet Loss Concealment" n'est pas utilisée par le codage. Les erreurs de bits, quant à elles, génèrent des dégradations ressemblantes à un effet bulleux, avec l'apparition de pics d'intensité. Les pour-centages d'erreurs de bits sont compris entre 0,2 et 0,6 %, tandis que les pourpour-centages de pertes de paquets correspondent à des valeurs allant de 2 à 12 %.

La Fig. III.20 représente les conditions de dégradations contenant des pertes de paquets ou des erreurs de bits. Plus les conditions de dégradation sont situées dans la partie positive de cette dimension, plus la perception de discontinuité est importante, comme par exemple dans le cas de la condition nommée "PL6no" correspondant à 6 % de pertes de paquets sans l'utili-sation de l'outil PLC.

Fig. III.20 Identification de la dimension 3 : Continuité pour la voix de femme (♦) et la voix d'homme (+); "PL" correspond aux pertes de paquets avec PLC, "PLno" correspond aux pertes de paquets sans PLC,

tandis que "PB" correspond aux erreurs de bits exprimées en dixième (0,2 / 0,4 / 0,6 %)

La perception de discontinuité est nettement plus prononcée lorsque la PLC n'est pas utilisée.

Les conditions positionnées en dessous de 0 sur l’axe des ordonnées sont constituées d'un mélange entre des conditions soumises ou non à des discontinuités (cf. Fig. III.20). Les stimuli placés dans cette partie correspondent à des signaux perçus continus ou présentant de faibles discontinuités provoquées par l'algorithme de PLC. Il est probable que d'autres dégra-dations physiques, provenant par exemple du codage de la parole, influencent la continuité du signal de la parole.

Nous observons pour certaines conditions de dégradation une différence entre les deux locuteurs homme et femme. Par exemple la condition constituée de 12% de pertes de paquets (PL12) présente une meilleure continuité pour la voix de femme que pour la voix d'homme. Inversement, la condition constituée de 2% de pertes de paquets sans utilisation de

l'algo-rithme de PLC (PL2no) présente une meilleure continuité pour la voix d'homme que pour la voix de femme (cf. Fig. III.20). Cela montre l'importance de la localisation de la perte de pa-quet sur le signal de parole, déjà remarquée dans les parties III.2.1 et III.2.2.

Deux hypothèses sont posées sur l’influence de la localisation des discontinuités.

La première hypothèse est que les discontinuités présentes sur les zones non-actives de la parole peuvent être entendues s'il y a du bruit de fond, ou ne pas être détectées dans le cas où il n'y a pas de bruit de fond. Dans ce cas la perception de discontinuité du signal serait plus importante dans le cas d'un signal bruité qu'un signal ne contenant pas de bruit de fond.

La deuxième hypothèse est que les pertes présentes sur les zones actives du signal sont nettement plus dérangeantes que sur les zones inactives. La localisation des pertes sur le signal vocal influencerait donc la perception de discontinuité. Il se pourrait même que la localisation des pertes sur les zones de parole (consonne ou voyelle par exemple) puisse influencer cette dimension, et dans certains cas influencer l'intelligibilité de la parole. Ces deux hypothèses ont été testées lors de la modélisation de la dimension continuité (cf. §.V.2.2).

III.3.3.4. Comparaison avec les espaces perceptifs existants

Les espaces proposés par Wältermann et Mattila (cf. Tab. I.6) sont réalisés dans un do-maine d’application similaire au notre (VoIP, GSM, RTC). Les dimensions bruyance et conti-nuité ont été identifiées dans notre espace tridimensionnel, ainsi que dans les espaces déter-minés par Mattila [51] et Wältermann [14]. Par ailleurs, la dimension bruyance est déterminée sur une échelle continue dans le cas de ces deux études, ce qui conforte le choix d’une échelle de bruyance continue et non catégorielle.

Ces auteurs ont aussi déterminé au moins la dimension coloration, mais aussi les dimen-sions sifflement et naturel de la voix (Mattila cf. Tab. I.6).

Les recherches réalisées par Etame [34] concernent uniquement les dégradations liées au codage de la parole. Dans ce cas, l’analyse révèle un espace à quatre dimensions, corres-pondant respectivement aux attributs coloration, bruit de fond, bruit sur la parole, et siffle-ment. La dimension bruit de fond (ou bruyance) est déjà prise en compte dans le cas des études citées ici. Nous remarquerons dans la suite de ce manuscrit que la dimension bruit sur la parole (correspondant aux conditions MNRU) est prise en compte dans notre modèle DESQHI, par la dimension codage de la parole (cf. §.V.1).

Notre deuxième dimension semble faire intervenir un grand nombre d’attributs relatifs au codage de la parole comme coloration, distorsion, distance, naturel de la voix, compres-sion... (cf. §.III.3.3.2). Elle a été identifiée comme le codage de la parole puisqu’elle est bien représentée par le type de codage, cependant il est clair que les différents attributs relevés mettent en évidence un lien avec les dimensions déterminées par les auteurs.

III.4. Prédiction de la qualité vocale par les dimensions