• Aucun résultat trouvé

Duo monocanal synthétique de clarinette et violon

6.2 Séparation

6.3.2 Duo monocanal synthétique de clarinette et violon

80 100 Nmin (%) % Taux d’erreur 0 50 100 150 −20 0 20 40 60 TRI Nmin (%) %

FIG. 6.1 – Performance d’identification d’instruments sur des duos monocanal synthétiques avec effectif instrumental inconnu (à gauche, trait plein : taux de substitution, tirets : taux d’insertion, tirets mixtes : taux de suppression).

6.3.2 Duo monocanal synthétique de clarinette et violon

Dans notre deuxième expérience, nous étudions un duo synthétique formé des extraits de clarinette (s1) et de violon (s2) utilisés dans le paragraphe 5.3.2. Le mélange est obtenu simplement par addition des formes d’onde des sources. Les sources ont un recouvrement limité en temps-fréquence, mais leurs mélodies s’entrecroisent dans la même zone de hauteur appartenant aux tessitures des deux instruments. Nous changeons l’hyper-paramètre Z à 0, 96.

La figure 6.2 présente les résultats de l’identification de notes pour les deux modèles de couche d’état. Ces résultats peuvent être comparés aux transcriptions exactes des sources dans les figures 5.11 et 5.12. Nous constatons que la plupart des notes ont leur hauteur et leur instrument bien identifiés, mais quelques erreurs subsistent.

Avec le modèle factoriel, de nombreuses notes de très courte durée sont présentes. De plus certaines notes sont reconnues comme faisant partie à la fois des deux instruments, par exemple la note h = 84 au temps t ' 3, 1 s ou la note h = 73 au temps t ' 7, 4 s, et d’autres sont essentiellement attribuées au mauvais instrument, par exemple la note h = 76 au temps t ' 4, 4 s. Des erreurs de ce type sont inévitables car la performance d’identification de notes est limitée par la performance d’identification d’instruments sur des notes isolées, qui est naturellement inférieure à celle sur des extraits solo. En reprenant l’expérience d’identification d’instruments du chapitre précédent sur les notes isolées de la base de données SOL [SOL] de hauteur MIDI comprise entre 60 et 72 et de nuance mezzo, nous avons constaté une baisse de TRI pour tous les instruments, avec un TRI moyen de 63% seulement. Cette baisse de performance est comparable à celle obtenue par Eggink et Brown [Egg03].

Avec le modèle segmental, certaines erreurs du modèle factoriel sont corrigées, mais d’autres appa-raissent. Les erreurs restantes sont une insertion et une suppression pour la clarinette, et une substitution et une suppression pour le violon (sur un total de cinquante notes). Les deux erreurs pour le violon, situés aux instants t ' 1, 7 s et t ' 9, 3 s, correspondent à des situations où les deux mélodies sont à l’unison. La note de clarinette de hauteur h = 81 supprimée au temps t ' 5 s est analysée comme la partie réver-bérée d’une note de violon de même hauteur, la durée de cette partie étant manifestement trop longue par rapport à la durée de réverbération des autres notes de violon.

La performance du modèle segmental est donc satisfaisante, mais pourrait être encore améliorée en rajoutant des contraintes, par exemple sur la durée de la réverbération des notes, sur le rythme ou sur les intervalles entre notes successives. Ces contraintes permettraient aussi de réduire la taille de l’espace d’état et donc de rendre la recherche en faisceaux plus efficace pour le même temps de calcul.

Les résultats d’extraction de sources sont décrits dans le tableau 6.2. La transcription par oracle consiste à utiliser les vrais descripteurs estimés sur les sources solo.

Nous observons que la performance est globalement satisfaisante, et plutôt limitée par la méthode de filtrage que par la qualité des modèles d’instruments. Le RSD moyen obtenu avec les vrais spectres à court terme des sources n’est que 2 dB supérieur à celui obtenu avec les spectres modèles. Cela prouve que les spectres typiques contenus dans les modèles d’instruments permettent d’obtenir des coefficients de filtrage proches des coefficients théoriques. Les deux méthodes de filtrage donnent sur cet exemple des résultats similaires. Pour augmenter encore la performance, il faudrait modifier les méthodes de filtrage et prendre en compte les relations de phase entre les sous-bandes des sources, par exemple avec un modèle sinusoïdal harmonique.

Nous remarquons aussi que la performance d’extraction est largement liée à la performance de cription. Le RSD moyen avec la transcription par oracle (20 dB) est meilleur que celui avec la trans-cription par modèle segmental (16 dB), lui-même meilleur que celui avec la transtrans-cription par modèle factoriel (9 dB). En particulier les notes de très courte durée estimées à la transcription par le modèle segmental engendrent une quantité importante d’artefacts à la séparation. Cette remarque semble contre-dire la similarité des performances d’extraction obtenues avec des modèles de sources par MG et par MMC notée par Benaroya [Ben03]. La différence pourrait être due à l’usage d’un modèle segmental au lieu d’un simple MMC, à la pondération de la loi de Bayes, et à l’augmentation du nombre d’atomes.

Le tableau 6.3 montre les résultats de modification de scène sonore. La modification choisie est la multiplication de l’amplitude de la clarinette par 2 (soit un ajout de 6 dB).

Nous notons que la performance est notablement supérieure à celle d’extraction de sources. Les zones temps-fréquence mal extraites pour cause de masquage se retrouvent pour la plupart à nouveau masquées après remixage. À l’écoute, la qualité des remixes estimés semble encore meilleure que ne le laissent en-tendre les critères numériques de RRD, en particulier avec la transcription par modèle factoriel. En effet, les erreurs réalisées sur les remixes estimés sont masquées auditivement, et donc moins dérangeantes que celles sur les sources estimées.

5 10 15 otf t (s) f (Hz) 102 103 104 0 2 4 6 8 10 Ejht (Bernoulli factoriel) t (s) h (violon) h (clarinette) 0 2 4 6 8 10 60 80 100 60 80 t (s) h (violon) h (clarinette) Ejht (modèle segmental) 0 2 4 6 8 10 60 80 100 60 80

FIG. 6.2 – Notes identifiées sur le duo monocanal synthétique. Méthode de Méthode de Performance bs1(dB) Performance bs2(dB)

transcription filtrage RSD RSI RSA RSD RSI RSA

Oracle WienerSP 2221 3934 2222 1917 3730 1919 Factoriel WienerSP 1111 2521 1314 6,26,5 2824 8,48,7

Segmental Wiener 19 39 19 14 29 16

SP 18 33 20 13 24 15

Méthode de Performance dxrmx(dB)

transcription RRD RRES RRA

Oracle 28 44 28

Factoriel 18 26 20

Segmental 25 40 27

TAB. 6.3 – Performance de modification de scène sonore sur le duo monocanal synthétique.