• Aucun résultat trouvé

Chapitre VI. Performances du modèle DESQHI

VI.1. Performances globales du modèle DESQHI

VI.1.2. Diagnostics de la qualité vocale

Les modèles actuels permettent de prédire des notes globales de qualité vocale. Dans une situation où l’estimation de la qualité vocale est similaire entre deux stimuli, il est pos-sible que les dégradations perçues soient complètement différentes. La note globale MOS-LQO ne permet pas d’identifier la cause de la dégradation et ne permet pas d’orienter l’expérimentateur afin de proposer des solutions d’amélioration de la qualité vocale.

Le modèle DESQHI propose, en plus de l’évaluation de la qualité globale, deux types de diagnostics de la qualité vocale, dans le but de cibler la cause de la diminution de la qualité vocale et de pouvoir proposer des solutions, dans un contexte de contrôle en temps réel :

Le premier consiste à exprimer les trois notes MOS relatives à chacune des trois dimen-sions.

Le deuxième appelé diagnostic avancé consiste à identifier les causes physiques de la dégradation de la qualité vocale, comme par exemple, le type de bruit de fond présent sur le signal vocal ou le type de codage employé ou encore le type de discontinuité. Le diagnostic est réalisé grâce à la structure multidimensionnelle du modèle en déter-minant une note relative de qualité vocale pour chacune des trois dimensions perceptives. Ces notes relatives seront appelées par la suite RMOS (score moyen d’opinion relatif). Ces trois notes sont déterminées à partir de la relation linéaire qui relie les trois dimensions à la note globale de qualité vocale. La note relative à chacune des trois dimensions est calculée en fixant les deux dimensions non considérées à leurs valeurs par défaut (sans dégradation) (cf. Eq. VI.2).

RMOS_DIM_1=2.81+0.297*DIM_1+(0.254*2-0.548*(-1.5)); RMOS_DIM_2=2.81+0.254*DIM_2+(0.297*1.2-0.548*(-1.5)); RMOS_DIM_3=2.81-0.548*DIM_3+(0.297*1.2+0.254*2);

Eq. VI.2

Autrement dit, ces trois notes relatives correspondent à la qualité vocale perçue d’un échantillon sonore, en considérant uniquement les dégradations causées par la dimension per-ceptive analysée.

Un exemple de diagnostic est présenté pour trois conditions de dégradation ayant des notes globales de qualité vocale similaires entre elles (MOS-LQSN ≈ 2,2 cf. Fig. III.6), mais avec des conditions de dégradations différentes. Les conditions de dégradation retenues sont les conditions 5, 7 et 16 prononcées par la voix de femme (cf. Tab. III.2). Elles correspondent respectivement à des dégradations de bruit de fond, d’erreurs de bits et d'une combinaison entre le codage et les pertes de paquets.

Fig. VI.3 Diagnostic de la qualité vocale représenté par les notes MOS-LQON relatives à la bruyance, au codage de la parole et à la continuité, pour les conditions 5, 7 et 16. La note de qualité globale prédite par

DESQHI est représentée par l’étoile (*)

Dans le cas des trois conditions de dégradation 5, 7 et 16, les notes globales de qualité vocale obtenues par DESQHI sont similaires (MOS-LQON ≈ 2,6). Le diagnostic permet alors d’observer les différences entre ces trois conditions de dégradation. La condition de

dégrada-tion 5 obtient une note relative à la bruyance de RMOS = 3,55 et d’environ RMOS = 4 pour les dimensions codage de la parole et continuité. Le principal problème pour ce stimulus est la présence d’un bruit de fond sur le signal de la parole.

Dans le cas de la condition 7, les notes relatives à la bruyance et au codage sont accep-tables, par contre, il apparaît clairement un problème de discontinuité sur le signal.

La condition 16 montre un problème lié à la fois au codage de la parole ainsi qu’à la présence de certaines discontinuités. Il n’y a aucun problème de bruyance.

Le modèle DESQHI propose aussi un diagnostic avancé pour chacune des trois dimen-sions, à partir des différents indicateurs basés sur le signal.

Dans le cas de la dimension bruyance, un algorithme de classification automatique per-met d'identifier le type de bruit de fond présent sur le signal vocal parmi l’une des quatre classes de bruits de fond (intelligible, environnement, souffle et grésillement) (cf. §.IV.3.1).

Dans le cas de la dimension codage de la parole, un outil est proposé afin d’identifier le type de codec utilisé lors de la télécommunication. Cet outil ne permet pas d’identifier exactement le ou les codec(s) utilisé(s) mais permet d’orienter l’expérimentateur du type de codec utilisé selon six classes (cf. Fig. V.5).

Dans le cas de la troisième dimension, le type de discontinuité peut être identifié parmi trois classes. La première correspond aux stimuli continus ou présentant des pertes de paquets atténués par un algorithme de PLC. La deuxième classe comprend les stimuli dégradés par des pertes de paquets qui ne sont pas atténuées par un algorithme de PLC. Enfin, la troisième classe correspond aux stimuli dégradés par des erreurs de bits (cf. §.V.2.3).

Par exemple, le diagnostic avancé est présenté sur le Tab. VI.2 pour les trois conditions utilisées précédemment (5, 7 et 16 prononcées par la voix de femme (cf. Tab. III.2)).

Dimension

Condition Bruyance Codage Continuité

5 Souffle (GSMFR) Classe 2 Continu

7 Souffle (GSMFR) Classe 2 Erreur de bit

16 Souffle (G.729*2) Classe 4 Continu

Tab. VI.2 Diagnostic avancé de la qualité vocale des conditions 5, 7 et 16 prononcées par la voix de femme, selon les trois dimensions

Le diagnostic avancé de la bruyance identifie le bruit comme étant de la classe souffle, ce qui correspond bien aux trois conditions de dégradation (bruit rose et bruit résiduel).

Le diagnostic avancé du codage de la parole n’est pas bien adapté à notre base sonore car il a été réalisé sur une base sonore ne comprenant pas le codec GSM-EFR (cf. §.V.1.2). Les types de codec déterminés pour ces trois conditions sont néanmoins cohérents avec les notes MOS relatives à la deuxième dimension présentées précédemment.

Le diagnostic avancé de la continuité permet de préciser que la condition 7 présente des erreurs de bit, tandis que les conditions 5 et 16 ne comportent pas de coupures nettes du si-gnal. En combinant les résultats des deux diagnostics de cette dimension, on peut préciser que la condition 5 ne comporte pas de discontinuité (RMOS = 4 ; cf. Fig. VI.3), tandis que la con-dition 16 présente des pertes de paquets atténuées par un algorithme de PLC (RMOS = 3,6 ; cf. Fig. VI.3).