Séparation de sources par masquage temps-fréquence : TFCT vs CQT

D’autres estiment en amont, ou conjointement, la trajectoire de la hauteur de la ou des sources à séparer [VMR08, DDR11, FM12].

Aujourd’hui, on sait inverser la CQT [SK10, Pra11, DHGV11], et cela permet d’ouvrir de nouveaux horizons pour les méthodes traitant la séparation de sources à travers l’estimation du contenu sémantique d’un signal et en particulier l’estimation des hauteurs de notes. En effet, on a vu qu’il était aisé de considérer la hauteur des spectres harmoniques dans une CQT grâce à l’utilisation de modèles avec invariance par translation (cf. section 2.3 page 36). Les éléments constituants un modèle de CQT, une fois estimés, peuvent alors directement être utilisés pour la création des masques, et la CQT inverse nous permet alors de retrouver les signaux temporels correspondants.

Ce chapitre est donc consacré à l’utilisation des modèles qui ont été introduits dans cette thèse pour la séparation de sources. Nous allons voir en réalité deux applications particulières : la création d’une interface graphique pour traiter la séparation de notes assistée par l’utilisa- teur, publiée dans [FBR12a], ainsi que l’extraction aveugle de la mélodie principale du reste de l’accompagnement dans un morceau, publiée dans [FLBR12]. Mais avant cela, nous menons une étude expérimentale sur la qualité de séparation par masquage temps-fréquence avec l’utilisation de la CQT.

9.2 Séparation de sources par masquage temps-fréquence : TFCT

vs. CQT

Nous commençons donc par étudier et comparer les performances de séparation par masquage temps-fréquence, selon qu’on utilise la CQT ou la STFT. Pour cela, considérons un signal temporel résultant de la somme de deux signaux sources (il est possible de généraliser à plus de deux sources) :

𝑥= 𝑥1+ 𝑥2. (9.1)

Si l’on applique une transformation linéaire T et inversible, du domaine temporel au domaine temps-fréquence (typiquement une TFCT ou une CQT complexe), on a alors :

T(𝑥) = T(𝑥1+ 𝑥2) (9.2)

soit

Le principe du masquage temps-fréquence est de trouver les meilleurs masques 𝑀1 et 𝑀2 tels

que (l’opérateur (.) est le produit terme à terme) :

∀(𝑓, 𝑡) ⎧ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎩ 𝑀1(𝑓, 𝑡) ∈[0, 1] 𝑀2(𝑓, 𝑡) ∈[0, 1] 𝑀1(𝑓, 𝑡) + 𝑀2(𝑓, 𝑡) = 1 et ^𝑥1 = T−1(𝑋.𝑀1) ≈ 𝑥1, ^𝑥2 = T−1(𝑋.𝑀2) ≈ 𝑥2.

Dans le cas où l’opérateur T est la TFCT, et selon certaines hypothèses de gaussianité, on peut prouver [BBG06] que les meilleurs masques au sens des moindres carrées sont donnés par :

𝑀1= |𝑋1|2 |𝑋1|2+ |𝑋2|2 , 𝑀2= |𝑋₂|2 |𝑋1|2+ |𝑋2|2 .

Dès lors, pour tester le filtrage temps-fréquence dans le cas où T est la CQT, on peut comparer les vraies sources avec celles estimées en utilisant ces mêmes masques idéaux. Les résultats obtenus sont alors appelées performances oracles.

L’évaluation que nous avons menée consiste à évaluer ces performances dans un cadre d’extraction de mélodie principale. Pour cela, nous disposons de douze extraits monophoniques, échantillonnés à 44.1 kHz, d’une durée allant de 11 à 45 secondes (340 s au total) et issus de la base de données QUASI Separation [Webd]. Pour chaque fichier, nous disposons des sources sépa- rées de mélodie (notée 𝑥𝑚) et d’accompagnement (notée 𝑥𝑎) ainsi que du mélange (𝑥 = 𝑥𝑚+𝑥𝑎).

Les morceaux de la base QUASI Separation appartiennent à différents genres musicaux, comme le rock, le reggae ou encore la bossa nova. Pour chacun des fichiers, on estime les sources grâce à l’utilisation des masques idéaux :

^𝑥𝑚 = T−1 (︃ |T(𝑥𝑚)|2 |T(𝑥𝑚)|2+ |T(𝑥𝑎)|2 T(𝑥𝑚+ 𝑥𝑎) )︃ , ^𝑥𝑎= T−1 (︃ |T(𝑥_𝑎)|2 |T(𝑥𝑚)|2+ |T(𝑥𝑎)|2 T(𝑥𝑚+ 𝑥𝑎) )︃ ,

où T est soit la CQT ou la STFT. Ensuite, on quantifie la qualité des estimations, en les comparant aux sources originales, grâce à la boîte à outils BSSEval [VFG06]. Cette dernière fournit trois métriques :

136 9.2. Séparation de sources par masquage temps-fréquence : TFCT vs. CQT SDR mél. SDR ac. SIR mél. SIR ac. SAR mél. SAR ac.

STFT 11.92.1 14.42.3 20.52.8 19.33.1 12.622.1 15.32.2

CQT 12.02.1 11.81.3 21.92.9 20.33.0 12.582.0 12.61.2

Table 9.1 – Moyennes et écarts types (en indice) en dB des SDR, SAR et SIR après estimation des sources de mélodie principale (mél.) et d’accompagnement (ac.) par masquage temps-fréquence (performances oracles).

mesure globale de qualité de séparation ;

( le rapport source à interférences (SIR pour Source to Interference Ratio) qui mesure la quantité d’interférences, pour chaque source estimée, provenant des autres sources ; ( le rapport source à artéfacts (SAR pour Source to Artifact Ratio) qui mesure la quantité

d’artéfacts dans les sources estimées.

Ces valeurs sont calculées en dB et sont d’autant plus élevées que la séparation est performante. La STFT est calculée avec des fenêtres de 2048 échantillons (46.4ms), se recouvrant sur un quart de leur taille (512 échantillons), et avec un nombre de points fréquentiels égal à 2048. La CQT (complexe) est calculée différemment des algorithmes de transcription (cf. section 2.3 page 36), puisqu’il faut choisir un pas temporel plus petit si l’on veut garder la propriété d’inver- sibilité. Aussi elle est calculée avec 3 points fréquentiels par demi-ton, pour des fréquences allant de 61.7 Hz à 7902.1 Hz, et avec un pas temporel de 4 ms. Si la bande de fréquences d’analyse pour la CQT est réduite, c’est pour des raisons de taille de CQT : si nous voulions considé- rer toute la bande audible (𝑓 ∈ [20Hz, 20kHz]), il faudrait un pas temporel très petit, d’où des grandes tailles pour la CQT. Pour ne pas perdre d’énergie lors de la séparation, on suppose alors que pour les bandes de fréquences 𝑓 < 61.7𝐻𝑧 et 𝑓 > 7902.1𝐻𝑧, l’énergie du signal appartient uniquement à la source d’accompagnement. Aussi, avant le processus de séparation, on filtre le signal de mélange avec un filtre coupe-bande, puis on rajoute le signal filtré à la source estimée ^𝑥𝑎 en fin de processus.

Les moyennes et les variances des résultats sont présentées dans la Table 9.1. On peut diffi- cilement déduire des propriétés générales de ces résultats, suivant que l’on utilise la CQT ou la STFT, mais la relative similarité des performances montre qu’il est tout aussi pertinent d’utiliser la CQT pour des techniques de séparation par masquage temps-fréquence. A l’écoute, on peut remarquer que les interférences sont moins (resp. plus) présentes dans les graves (resp. les aigus) quand on utilise la CQT. Il est facile de comprendre pourquoi : la CQT a une bien meilleure résolution fréquentielle dans les basses fréquences que la STFT. Inversement, la résolution fré- quentielle est plus faible dans le haut du spectre.

Puisque les résultats montrent que l’utilisation de la CQT est efficace pour la séparation par masque temps-fréquence, nous pouvons maintenant proposer deux applications de nos modèles à la séparation de sources. Dans la suite, nous notons 𝑋 une CQT complexe, de coefficients

𝑋𝑓 𝑡, et tous les algorithmes de décomposition dont nous parlerons seront appliqués à la CQT

9.3 Interface graphique pour la séparation de sources supervisée

Dans le document L'analyse probabiliste en composantes latentes et ses adaptations aux signaux musicaux : application à la transcription automatique de musique et à la séparation de sources (Page 153-156)