• Aucun résultat trouvé

Chapitre VI. Performances du modèle DESQHI

VI.2. Performance du modèle DESQHI sur des bases sonores inconnues

VI.2.1. Bases sonores du supplément 23

Il existe trois expériences associées à trois bases sonores dans le supplément 23 [96]. La deuxième base sonore aurait été intéressante à utiliser car elle est constituée de diverses con-ditions bruitées, cependant les notes subjectives correspondantes sont données uniquement par la CMOS à partir d’un test CCR (cf. §.I.2.3). L’échelle de mesure de la qualité vocale ne correspond pas à celle utilisée par DESQHI. De plus, chacun des signaux de référence corres-pondant aux signaux dégradés sont aussi bruités. Les notes CMOS ne contiennent pas les in-formations relatives à la présence de bruits de fond. Cette base sonore n’est donc pas utilisée pour valider les performances de notre modèle.

Les bases 1 et 3 sont associées à des notes MOS-LQSN obtenues par des tests ACR (cf. §.I.2.1). Ces deux bases sont utilisées pour analyser les performances de DESQHI.

VI.2.1.1. Expérience 1 du supplément 23

La première expérience du supplément 23 est constituée de 44 conditions de dégrada-tion, présentant différents codages et transcodages (G.729, G.726, G.728, G.711, GSM-FR, IS-54 (North American VSELP), JD-HR (half-rate Japanese digital cellular), MNRU). Ces 44 conditions sont prononcées par deux locuteurs femmes et deux locuteurs hommes. Ce test a été réalisé trois fois pour trois langues différentes (français, anglais américain, japonais), pour un total de 528 stimuli. Les notes subjectives d’évaluation de la qualité vocale de ces 528 sti-muli ont été obtenues à partir du test subjectif ACR décrit dans le paragraphe I.2.1.

Cette base sonore a été utilisée pour construire l’indicateur basé sur le signal de la di-mension du codage de la parole (cf. §.V.1.2). Elle n’est donc pas totalement inconnue pour les versions utilisant cet indicateur. Par contre elle reste une base sonore inconnue lorsque la di-mension du codage de la parole est représentée par l’indicateur paramétrique.

Quatre versions du modèle DESQHI sont utilisées afin de prédire la qualité vocale de ces 528 stimuli. Les performances globales du modèle DESQHI sont présentées dans le Tab. VI.4. Codage Continuité Paramétrique Signal r EAM r EAM Paramétrique 0,49 0,57 0,71 0,45 Signal 0,20 0,64 0,27 0,62

Tab. VI.4 Performances des différentes versions du modèle DESQHI sur l’exp. 1 du supl. 23, à partir des coefficients de corrélation r et des erreurs absolues moyennes EAM entre les LQSN et les

MOS-LQON. La dimension bruyance est représentée par des indicateurs basés sur le signal.

Au sujet de la dimension du codage de la parole, nous constatons que les performances du modèle DESQHI utilisant l’indicateur paramétrique sont beaucoup moins bonnes que lors de l’utilisation de l’indicateur basé sur le signal (cf. Tab. VI.4). Cette baisse de performance est due à l’indicateur paramétrique qui ne prend pas en compte le transcodage. Lorsque l’indicateur paramétrique est renseigné par la somme des Ie suivant les différents codages successifs (transcodage), le modèle DESQHI obtient des performances similaires par rapport aux versions utilisant l’indicateur basé sur le signal. Dans ce cas de transcodage, le modèle DESQHI hybride (respectivement signal, paramétrique et paramétrique) obtient une perfor-mance de r = 0,70 / EAM = 0,46, tandis que le modèle DESQHI hybride (respectivement si-gnal, paramétrique et signal) obtient une performance de r = 0,32 / EAM = 0,62.

Cette observation confirme la conclusion démontrée dans le paragraphe VI.1.1 précé-dent : lorsque les informations sur le codage et le transcodage de la parole sont disponibles, il est judicieux d’utiliser l’indicateur paramétrique. Dans le cas où l’information sur le transco-dage n’est pas disponible mais seulement le dernier cotransco-dage, il vaut mieux utiliser l’indicateur basé sur le signal, si les ressources en temps CPU le permettent.

L’indicateur basé sur le signal de la dimension continuité n’est pas adapté à cette base sonore, comme le montre la diminution des performances du modèle DESQHI lors de l’utilisation de cet indicateur (r = 0,20 et r = 0,27).

Le modèle P.563 (basé sur le signal) est appliqué à cette base sonore. Il obtient une per-formance de r = 0,72 / EAM = 0,45 (cf. Fig. VI.4). Ce modèle nécessite cependant de plus grandes ressources en temps de calcul CPU comparativement au modèle DESQHI, car il né-cessite de calculer un grand nombre d’indicateurs.

Le modèle E (paramétrique) obtient une performance de r = 0,49 / EAM = 0,57. Lors-que nous appliquons ce modèle en prenant en compte le transcodage, sa performance devient alors de r = 0,71 / EAM = 0,46. Le modèle DESQHI hybride (respectivement signal, signal, paramétrique) obtient une performance similaire au modèle P.563 (r = 0,71 cf. Fig. VI.4 ) et obtient une meilleure performance que le modèle E.

Fig. VI.4 Comparaison des performances de la prédiction de la qualité vocale entre le modèle DESQHI hybride (signal, signal, paramétrique) (à gauche) et le modèle P.563 (à droite)

Une analyse par la méthode bootstrap a aussi été réalisée afin de confirmer que les mo-dèles DESQHI et P.563 sont bien fiables sur cette base sonore. L’analyse bootstrap a consisté à évaluer un grand nombre de fois les performances de ces modèles, à partir d’une sélection aléatoire avec remise d’un nombre défini de stimuli de la base sonore. Les modèles peuvent être considérés comme fiables si les différentes performances obtenues sont cohérentes entre elles. Nous avons choisi de sélectionner 60 échantillons aléatoirement avec remise afin d’évaluer les performances pour 30 combinaisons différentes.

Les résultats sont présentés à partir des moyennes et des écarts types des performances obtenues suivant les 30 combinaisons différentes (cf. Tab. VI.5). Les moyennes des perfor-mances montrent que les deux modèles sont fiables puisqu’ils obtiennent des valeurs simi-laires aux performances mesurées sur la totalité de la base sonore (r ≈ 0,7). Les écarts types

ect montrent que les modèles sont stables d’une combinaison à l’autre.

Moyenne des performances Ecart type

DESQHI rmoy = 0,69 ect = 0,057

P.563 rmoy = 0,71 ect = 0,076

Tab. VI.5 Performances des modèle DESQHI et P.563 à partir d'une analyse bootstrap réalisée 30 fois à partir de 60 stimuli choisis de manière aléatoire avec remise, à partir de la base sonore de l’expérience 1

du supplément 23

Le modèle hybride DESQHI est aussi capable de préciser que les dégradations sont liées au codage de la parole, et non à la continuité du signal grâce au diagnostic de la télécommuni-cation. Le bruit de fond généré par le codage est identifié par la classification automatique comme étant du bruit de souffle, ce qui permet d’orienter l’expérimentateur sur le type de codage utilisé. Par exemple, s’il y a un certain niveau de bruit de fond, il est plus probable que le codec utilisé soit le G.711 plutôt que le G.729 (cf. §.III.3.3.2). Ce point pourrait améliorer les performances du diagnostic avancé du codage de la parole.

VI.2.1.2. Expérience 3 du supplément 23

La base sonore de l’exp. 3 du supplément 23 [96] est constituée de 50 conditions de dé-gradation :

codec G.729 proposé seul ou en combinaison,

trois types de bruits de fond,

erreurs de bits de type BER.

Les trois bruits de fond correspondent à un bruit de véhicule, à un bruit de rue et à un bruit gaussien aléatoire de spectre fréquentiel similaire à celui de la parole ("hoth noise").

Les pertes de paquets sont présentées à des taux allant de 0 à 13 %, de manière aléatoire ou bien par rafales.

Les erreurs de bits de type BER correspondent à des erreurs de codage sur des transmis-sions IP. Ce type de dégradation n’est pas pris en compte par DESQHI. Les huit conditions de dégradations correspondantes sont donc exclues de notre analyse.

Les 42 conditions de dégradations sont appliquées à deux locuteurs femmes et deux lo-cuteurs hommes. Quatre tests ACR ont été réalisés pour quatre langues différentes (français, anglais, japonais, allemand). Cette base sonore est constituée de 672 stimuli. Quatre versions de DESQHI sont appliquées à cette base sonore. Les performances sont présentées dans le Tab. VI.6. Codage Continuité Paramétrique Signal r EAM r EAM Paramétrique 0,70 0,50 0,72 0,49 Signal 0,49 0,60 0,45 0,62

Tab. VI.6 Performances des différentes versions du modèle DESQHI sur l’exp. 3 du supl. 23, à partir des coefficients de corrélation r et des erreurs absolues moyennes EAM entre les LQSN et les

MOS-LQON. La dimension bruyance est représentée par des indicateurs basés sur le signal.

Au sujet de la modélisation du codage de la parole, nous observons sur le Tab. VI.6 que les performances du modèle DESQHI obtenues par l’utilisation des deux types d’indicateurs (paramétrique et basé sur le signal) sont similaires. Lorsque le transcodage est pris en compte par l’indicateur paramétrique, les performances du modèle DESQHI sont meilleures : Par exemple, la performance de la version DESQHI (respectivement signal, paramétrique, para-métrique) augmente à r = 0,77 / EAM = 0,44. L’indicateur paramétrique Ie obtient de bonnes performances pour représenter les dégradations relatives au codage de la parole lorsque les différents codecs successifs sont connus. Sinon, il est préférable d’opter pour l’indicateur basé sur le signal.

La représentation de la continuité de la parole par l’indicateur basé sur le signal fait chu-ter considérablement les performances du modèle DESQHI (r = 0,49 et r = 0,45), ce qui porte à croire que cet indicateur n’est pas adapté pour des bases sonores différentes de celle utilisée lors de la construction du modèle. Il vaut mieux, dans ce cas utiliser l’indicateur paramétrique (r = 0,70 et r = 0,72).

Les performances de DESQHI obtenues sur ces deux bases sonores (expériences 1 et 3 du supplément 23) montrent qu’il est préférable d’utiliser les indicateurs basés sur le signal pour représenter les dimensions de la bruyance et du codage de la parole, et l’indicateur paramé-trique pour la dimension de la continuité.

Le modèle P.563 (basé sur le signal) est appliqué à cette base sonore. Il obtient une per-formance de r = 0,72 / EAM = 0,48 (cf. Fig. VI.5). Le modèle E (paramétrique) obtient une performance de r =0,44 / EAM = 0,64. Lorsque le transcodage est pris en compte, la perfor-mance du modèle E augmente à r = 0,47/ EAM = 0,64.

Le modèle E est moins performant car il ne tient pas compte du bruit de fond, ni du transcodage.

Fig. VI.5 Comparaison des performances de la prédiction de la qualité vocale entre le modèle DESQHI hybride (signal, signal, paramétrique) (à gauche) et le modèle P.563 (à droite)

Une analyse par la méthode bootstrap identique à celle réalisée avec la base sonore de l’expérience 1 est proposée afin de vérifier la fiabilité des modèles DESQHI et P.563. Soixante échantillons ont été sélectionnés aléatoirement avec remise afin d’évaluer les per-formances de 30 combinaisons différentes.

Les résultats sont présentés à partir des moyennes et des écarts types des performances obtenues suivant les 30 combinaisons différentes (cf. Tab. VI.7). Les moyennes des perfor-mances montrent que les deux modèles sont fiables puisqu’ils obtiennent des valeurs simi-laires aux performances mesurées sur la totalité de la base sonore (r ≈ 0,72). Les écarts types

ect montrent que les modèles sont stables d’une combinaison à l’autre.

Moyenne des performances Ecart type

DESQHI rmoy = 0,71 ect = 0,062

P.563 rmoy = 0,72 ect = 0,064

Tab. VI.7 Performances du modèle DESQHI et du modèle P.563 à partir d'une analyse bootstrap réalisée 30 fois à partir de 60 stimuli choisis de manière aléatoire avec remise, à partir de la base sonore de

l’expérience 3 du supplément 23

Le modèle DESQHI hybride (signal, signal, paramétrique) obtient des performances similaires à P.563 (r = 0,71 pour l’exp.1 et r = 0,72 pour l’exp.3) mais avec un temps de cal-cul CPU nettement inférieur. Le modèle DESQHI permet aussi de diagnostiquer la qualité vocale en indiquant si les dégradations proviennent d’un problème de bruyance, de codage de la parole ou bien s’il s’agit de la présence de discontinuité sur le signal.