Mod´elisation des sons d’instrument de musique

A.10 Applications

A.10.1 Mod´elisation des sons d’instrument de musique

Le but de l’expérience en ce qui concerne l’instrument des sons musicaux est de comparer la précision de la modélisation de la SM, EDS, et eaQHM pour un large éventail de sons d’instruments de musique, y compris de percussion et nonpercussive. Dans ce travail, la précision de la modélisation est mesurée par l’es srer locale et globale, calculée en utilisant l’équation (A.92) :

SRER = 20 log10

σx(t)

σx(t)−ˆx(t)

(A.92) Le SRER locale est mesurée sur une fenêtre juste avant le début d’évaluer l’étalement de l’attaque également connu sous le nom de pré-écho, un artefact très fréquent chez les modèles qui utilisent des sinuso¨ıdes sinuso¨ıdale quasi-stationnaires. Le SRER mondiale mesure la précision globale de la modélisation, de prendre toute son compte.

La précision de la modélisation dépend du nombre de partielsK et la taille de la fenêtre L pour les algorithmes sinuso¨ıdales. Traditionnellement, les partiels ne sont pas supposés varier beaucoup à l’intérieur de la fenêtre d’analyse, et donc sont modélisés avec des sinuso¨ıdes quasi-stationnaires dont les paramètres sont en moyenne sur la fenêtre, le

changement entre les fenêtres en fonction de la taille de pas. D’autre part, en supposant que chaque sinuso¨ıde une capture partielle, il existe un nombre minimum de sinuso¨ıdes nécessaires pour représenter l’énergie d’oscillation dans un instrument de musique retentit. Ainsi, nous allons présenter une comparaison de l’es srer en fonction deK et L pour le SM, EDS, et eaQHM. Tout d’abord, nous décrivons l’instrument de musique modélisée sons et la sélection de valeurs de paramètres pour des algorithmes.

Au total, les sons d’instruments90 musicales ont été utilisées dans ce travail1_.

Configuration exp´erimentale

L’estimation des paramètres de la SM suit [MQ86] avec interpolation de phase par splines cubiques. L’estimation des paramètres pour EDS utilisée ici est décrite en détail ailleurs [DBR13], alors que l’estimation du nombre optimal de pôles (sinuso¨ıdes) [BDR04] est utilisé pour la comparaison. Dans toutes les expériences, le seuil de convergence es srer est défini sur 0.01, la taille de la FFT est N = 4096 échantillons, et la fréquence d’échantillonnage pour tous les sons estfs = 16 kHz. La taille de l’étape de la SM et eaQHM était H = 1 ms (ce qui correspond à 16 échantillons). EDS

estime les paramètres séparément pour les cadres non-chevauchement (fenêtre rectangulaire) de tailleL. Pour chaque étape d’estimation de paramètres, EDS décompose le cadre deL/2 et utilise une taille de l’échantillon hop H = 1 lors de la construction de la matrice de Hankel [DBR13]. Avant de modélisation avec le SM, EDS, et le eaQHM, la fréquence fondamentalef0de tous les sons a été estimée à l’aide SWIPE [CH08] parce que dans ce travail, la taille de la fenêtreL

et le nombre maximum de sinuso¨ıdale partiels Kmaxen supposant harmonicit´e d´ependentf0.

R´esultats

Le nombre de (sinuso¨ıdale) partiels K est un paramètre d’entrée importante qui influe directement sur la précision de la modélisation de la SM, EDS, et le eaQHM. Nous avons couru chaque algorithme avec différents numéros de partiels comme paramètre d’entrée (la taille de la fenêtre a été maintenue àL = 3T0) et enregistré les valeurs es srer locales

et globales résultant. Nous avons commencé à partir deKmaxet une diminution deK par 2 partiels. Nous nous atten-

dions à la SM de converger rapidement vers une valeur maximale et à stabiliser à cause de l’algorithme de sélection de paramètre. La littérature sur EDS [BDR04] suggère qu’il existe un nombre optimal de partiels pour l’audio, donc nous nous attendions à EDS de rendre une courbe qui devrait atteindre un maximum autour de ce point, puis diminuer. Enfin, l’adaptation permet la eaQHM pour représenter les petites variations temporelles telles que les phénomènes transitoires précisément que les modulations d’amplitude et de la fréquence des partiels (peu importe le nombre de partiels). Par conséquent, nous nous attendions à ce qui a donné le eaQHM valeurs plus élevées de es srer comme le nombre de partiels augmentée.

Table A.5 montre la différence de SRER moyenne entre eaQHM et EDS et eaQHM et SM pour les instruments de musique regroupés en familles. La rangée du bas montre la moyenne de tous les instruments marqués total. Les colonnes marquées locale et global présente la différence entreK, tandis que la colonne intitulée Kmaxmontre la différence de

SRER global que pour le nombre maximum de partiels. S’il vous plaˆıt noter que la taille de la fenêtre est constante à 3T0. La taille de la fenêtreL affecte également directement la précision de la modélisation de la SM, EDS, et la eaQHM.

Nous avons couru chaque algorithme variableL de 3T0`a8T0avec un nombre constant de partielsKmaxet mesur´e l’es

srer local et global qui en résulte. Nous nous attendions àL un impact négatif sur les trois algorithmes différemment. Nous nous attendions àL pour avoir un plus grand impact sur le SM parce que les deux l’estimation des paramètres et la résolution temporelle dépendent deL. Nous nous attendions à L pour avoir un impact plus faible sur la précision de la modélisation pour EDS en raison de l’amplitude variant dans le temps des sinuso¨ıdes localement stationnaires (en dépit de la valeur de fréquence constante à l’intérieur de la fenêtre.) Enfin, nous conjecturé que L aura un mineur effet sur la eaQHM affecte principalement parceL de la capacité de la eaQHM pour capturer des modulations d’amplitude et de fréquence à l’intérieur de la fenêtre.

Table A.6 montre la différence de es srer moyenne entre eaQHM et EDS et eaQHM et SM. Le locales et globales colonnes présentent la différence moyenne de es srer surL, tandis que la colonne 3T0montre la différence de SRER

globalpour la taille de la fenêtre qui donne la meilleure précision de la modélisation pour tous les algorithmes. Le SRER local est utilisé pour évaluer la précision de la modélisation apparition et es srer mondiale évalue la performance générale. La colonne3T0 sera utilisé comme mesure de référence par famille d’instruments de musique et la ligne total comme

référence par modèle. Enfin, le nombre d’adaptation est étudiée pour la eaQHM. On observe que les augmentations de

1_{‘Popular’ and ‘Keyboard’ musical instruments are from the RWC Music Database : Musical Instrument Soundhttp://staff.aist.go.jp/}

m.goto/RWC-MDB/. Tous les autres instruments de musique sont la base de donn´ees Vienna Symphonic Library d’´echantillons d’instruments de musiquehttp://www.vsl.co.at/en/65/71/84/1349.vsl

SRER(eaQHM-EDS) SRER(eaQHM-SM) Local Global Kmax Local Global Kmax

Brass 7.69 9.22 7.48 22.44 9.05 5.41 Woodwinds 2.95 6.90 19.60 17.21 12.18 29.93 Bowed Strings 6.32 3.45 21.52 14.46 6.06 31.21 Plucked Strings 13.26 11.96 15.75 24.69 25.63 42.99 Bowed Percus- sion -3.89 2.00 21.80 2.65 10.56 37.63 Struck Percus- sion 2.83 -1.52 11.88 7.68 2.77 21.06 Popular 1.09 -0.44 11.93 3.55 -1.21 18.09 Keyboard 6.33 4.41 3.15 16.99 11.87 24.79 Total 4.55 4.50 14.14 14.15 9.07 26.39

TABLEA.5 – Diff´erence moyenne de SRER (dB) entre eaQHM et EDS ou SM `a travers le nombre de partielsK.

SRER(eaQHM-EDS) SRER(eaQHM-SM) Local Global 3T0 Local Global 3T0

Brass -3.07 10.74 27.27 12.20 14.75 31.19 Woodwinds -2.81 6.92 18.21 11.63 13.43 30.44 Bowed Strings 3.01 7.55 28.11 10.85 12.62 38.18 Plucked Strings -12.38 -15.89 7.78 21.16 17.57 49.88 Bowed Percus- sion -4.26 6.86 21.80 10.83 15.85 37.63 Struck Percus- sion 8.13 5.85 10.82 15.24 11.73 19.25 Popular -0.91 5.57 15.25 9.00 9.02 21.91 Keyboard -4.25 -4.02 3.15 12.90 10.60 24.79 Total -2.30 2.95 16.55 12.46 12.78 31.66

TABLEA.6 – Diff´erence moyenne de SRER (dB) entre la eaQHM et EDS ou SM dans la taille de fenˆetreL.

SRER est rapidement après quelques adaptations, convergeant lentement à une valeur finale de plusieurs ordres de gran- deur plus élevé qu’avant l’adaptation.

Ce travail a proposé d’utiliser un modèle sinuso¨ıdal adaptatif surnommé eaQHM pour représenter un instrument de musique à percussion et nonpercussive sonne comme sinuso¨ıdes modulées en amplitude et en fréquence. En général, la eaQHM rend encore représentation compacte de haute qualité avec des paramètres intuitifs. Le modèle représente onsets bien nettes avec transitoires d’attaque, spectres inharmoniques, et même les bruits mécaniques.

Dans l’ensemble, les résultats ont montré que la eaQHM surpasse EDS et SM en moyenne, dans les deux variantes dans tous les cas, sauf pour l’es srer locale sous EDS variation de taille de la fenêtre. Considérant que la taille de la fenêtre et le nombre de partiels dont les algorithmes effectuent leur mieux, le eaQHM a toujours dépassé EDS de plus de 10 dB et SM de plus de 25 dB en moyenne.

Dans le document Adaptive Sinusoidal Models for Speech with Applications in Speech Modifications and Audio Analysis (Page 178-180)