• Aucun résultat trouvé

Conclusion sur les spectres non-harmoniques

4.5 Compression des spectres non-harmoniques

4.5.4 Conclusion sur les spectres non-harmoniques

Ces dernières sections ont décrit les techniques de compression et quantification appliquées sur les spectres non-harmoniques. Comme pour les spectres de bruit mixtes de la section 4.4, le modèle utilise la quantification vectorielle gain-forme sur des parties de spectre avec des caractéristiques plus tonales.

Le modèle propose une fréquence de coupure minimum ωmin pour séparer le spectre non-

harmonique en deux parties : une première partie qui utilise une quantification vectorielle et une seconde partie qui utilise un générateur de bruit ou une quantification vectorielle selon le coefficient SFM. Le modèle vérifie le niveau de tonalité de la seconde partie, avec

le coefficient SFM, afin de déterminer si elle se modélise par un générateur ou bien par une quantification vectorielle.

Le modèle utilise deux configurations de quantification selon qu’elle s’effectue uniquement sur la première partie du spectre (cf. figure 4.23) ou sur le spectre entier (cf. figure 4.24).

4.6

Conclusion du chapitre

Ce chapitre a présenté une version quantifiée du modèle d’analyse-synthèse du chapitre précédent. Le modèle quantifié compresse les signaux de parole et fonctionne entièrement dans le domaine fréquentiel. Les tests subjectifs du chapitre 5 démontrent qu’il obtient une bonne qualité pour des débits de 24 kbit/s et de 30 kbit/s.

L’encodeur catégorise les paramètres à transmettre en trois groupes de paramètres dis- tincts : toujours transmis, pour la synthèse de la partie harmonique et pour la synthèse de la partie bruit. Le décodeur effectue une synthèse distincte avec des modules différents pour les parties harmonique et bruit. Le modèle utilise ce schéma de fonctionnement afin de rendre le codec le plus modulable possible et de simplifier les modifications futures. Pour la synthèse de la partie harmonique, le modèle propose une méthode afin de dimi- nuer le nombre de phases à transmettre au décodeur, mais sans affecter le nombre de phases dans le spectre de synthèse harmonique. Le modèle transmet uniquement les va- leurs des six premières phases et le décodeur crée des valeurs aléatoires ou extrapole les valeurs des autres phases. De plus, avec la quantification vectorielle des phases, le modèle introduit également la prédiction long-terme dans le domaine fréquentiel. Une méthode souvent utilisée pour les modèles de parole temporel, mais pas pour les modèles de codage fréquentiel.

Pour la partie bruit, le modèle utilise des configurations de quantification différentes selon que le bruit provient d’un spectre mixte ou bien d’un spectre non-harmonique. Cependant, le principe de fonctionnement reste le même. Ainsi, le modèle utilise la quantification vec- torielle sur les sous-bandes de bruit qui possèdent un certain niveau de tonalité, déterminé par le coefficient SFM (Spectral Flatness Measure). Pour les autres sous-bandes qui pos- sèdent des caractéristiques d’un signal plus uniforme, le modèle utilise un générateur de bruit avec une distribution normale et des gains d’énergie.

Le modèle quantifié dans ce chapitre fonctionne entièrement dans le domaine de la trans- formée de Fourier. Il possède un niveau de complexité peu élevé. La complexité provient principalement de la quantification vectorielle dont la dimension maximum pour un dic-

tionnaire est de 16. Le prochain chapitre présente les résultats de tests subjectifs effectués sur différents débits du modèle quantifié de ce chapitre. Les résultats des tests subjectifs démontrent que le modèle quantifié possède une bonne qualité audio autour de 24 kbit/s et de 30 kbit/s.

ÉVALUATIONS ET ANALYSES DU MODÈLE

DÉVELOPPÉ

Ce chapitre présente les détails et les analyses des tests effectués sur le modèle développé du chapitre 3 et de sa version quantifiée du chapitre 4. Ce chapitre évalue quatre éléments importants proposés par le modèle soit : la précision du générateur d’impulsions de sinu- soïdes, le modèle d’analyse-synthèse, la méthode de réduction du nombre de phases et le modèle quantifié avec différents débits.

L’évaluation de la précision du générateur de sinusoïdes représente le seul test objectif effectué dans ce chapitre. Les autres évaluations de ce chapitre utilisent des évaluations subjectives qui nécessitent beaucoup plus de ressources (temps, sujets pour l’expérience, etc.) que les tests objectifs. Un test subjectif de type MUSHRA (MUltiple Stimuli with Hidden Reference and Anchor) a été utilisé pour évaluer le modèle d’analyse-synthèse et la méthode de réduction du nombre de phases. Pour la version quantifiée du modèle, c’est un test subjectif de type MOS (Mean Opinion Score) qui a été choisi afin de com- parer le modèle avec la norme G.722.2 (AMR-WB, Adaptive Multi Rate - WideBand) [UIT-T-G.722.2, 2003] de l’institut UIT (Union Internationale des Télécommunications). Une grande particularité du modèle développé provient du fait que le signal de synthèse ne suit pas nécessairement la forme d’onde du signal original, tant dans le domaine tem- porel que dans le domaine fréquentiel. Ce manque de ressemblances empêche l’utilisa- tion d’évaluations quantitatives sur le modèle comme le calcul RSB (Rapport Signal sur Bruit) et même les algorithmes PESQ (Perceptual Evaluation of Speech Quality) et PEAQ (Perceptual Evaluation of Audio Quality). Ainsi, pour toutes les étapes de développement, la majorité des évaluations ont été effectuées avec des tests subjectifs qui demandent beau- coup plus de ressources que les tests objectifs.

De plus, lors des évaluations subjectives du modèle des difficultés sont également survenues sur le choix des tests à effectuer. Par exemple, l’évaluation du modèle quantifié a nécessité deux itérations complètes de tests différents avant d’obtenir la meilleure comparaison possible entre les différents codecs. Un premier test subjectif MUSHRA avec des sujets experts n’a pas donné une comparaison impartiale des différents codecs.

L’une des raisons importantes provient de la signature auditive différente des signaux de synthèse provenant des codecs temporels et des codecs par transformée. Les sujets experts de ce premier test possèdent une expertise en codage de parole temporel et ont ainsi acquis une familiarité d’écoute pour ces types de codecs. Ainsi, lors du test subjectif MUSHRA, ils reconnaissent immédiatement les différents codecs et cela augmente la difficulté d’une évaluation impartiale.

Afin d’obtenir une meilleure comparaison des différents codecs, un second test subjectif de type MOS a été effectué avec des sujets non-experts qui ne possèdent aucune connaissance dans le domaine du codage. Le déploiement d’un test subjectif MOS nécessite plus de ressources qu’un test subjectif MUSHRA tant au niveau du nombre de sujets, du temps de conception du test et du niveau d’analyse des résultats. Habituellement, des firmes externes effectuent la conception et l’analyse des résultats des tests MOS, toutefois pour ce projet, toutes les étapes du test MOS ont été effectuées afin de bien comprendre tout le processus d’évaluation.

Déroulement du chapitre

La prochaine section montre le peu de ressemblances qui existe entre le signal de syn- thèse et le signal original, tant dans le domaine temporel que dans le domaine fréquentiel. Cette section explique également l’impossibilité d’utiliser des tests objectifs comme les algorithmes PESQ et PEAQ qui tentent de prédire les scores des tests subjectifs MOS. Par la suite, ce chapitre présente l’analyse des résultats du test objectif effectué sur le générateur de sinusoïdes. Ensuite, ce chapitre présente les résultats et les analyses du test subjectif MUSHRA qui se décrit en deux parties. La première partie propose une description de l’analyse des résultats du modèle d’analyse-synthèse développé. La seconde partie du test MUSHRA décrit l’analyse des résultats pour la méthode de réduction du nombre de phases. Finalement, ce chapitre donne les résultats et les analyses du test MOS de différentes versions du modèle quantifié en le comparant avec la norme G.722.2 de l’institut UIT.

5.1

Raisons des tests subjectifs sur le modèle déve-

loppé

Une grande particularité du modèle développé est qu’il ne suit pas nécessairement la forme d’onde du signal original. Cette particularité empêche l’utilisation de tests objectifs

de comparaison avec le signal original tel que le calcul RSB (Rapport Signal sur Bruit) de l’équation 5.1. RSBdB = 10 · log10 A2 original A2 bruit  (5.1)

Puisque le signal de synthèse du modèle possède peu de ressemblances avec le signal original, cela implique une faible valeur RSB dans l’équation 5.1, mais qui ne correspond pas nécessairement à la qualité perceptuelle audio du signal de synthèse.

Afin de bien visualiser le manque de similitudes entre les signaux de synthèse et les si- gnaux originaux, la prochaine section montre des exemples de signaux créés par le modèle d’analyse-synthèse développé.

5.1.1

Peu de ressemblances entre les signaux original et de syn-