Évaluation et comparaison avec des algorithmes de référence

𝐻4 HALCA 4 0 0 0 − −23 0.018 𝐻4− 𝑝𝑓 HALCA 4 0.02 5 0 − −20 0.018 𝐻4− 𝑝𝑡𝑓 HALCA 4 0.02 5 104 − −19 0.018 𝐵 BHAD − 0 0 − 0 −13 0.018 𝐵 − 𝑝𝑓 BHAD − 0.3 10 − 0 −25 0.018 𝐵 − 𝑝𝑟𝑓 BHAD − 0.3 10 − 0.5 −21 0.018

Table 8.1 – Valeur des hyperparamètres et des seuils pour chacun des algorithmes de transcription.

𝐻4 𝐻4− 𝑝𝑓 𝐻4− 𝑝𝑡𝑓 𝐵 𝐵 − 𝑝𝑓 𝐵 − 𝑝𝑟𝑓 𝑃min fixé (optimal en moyenne) 50.8 54.3 54.1 36.4 51.7 53.0 𝑃minoptimal pour chaque fichier 57.3 60.4 60.4 45.0 58.7 58.7 Table 8.2 – F-mesure (%) moyenne obtenue avec un seuil fixe optimal ou des seuils optimaux pour chaque fichier de 𝐵𝐷app.

8.4 Évaluation et comparaison avec des algorithmes de référence

Dans cette section, nous évaluons les performances de nos six systèmes de transcription, définis dans la Table 8.1, et les comparons avec deux algorithmes de référence : Vincent’10 [VBB10] et Dessein’12 [DCL12]. Nous avions déjà parlé de ces deux algorithmes dans l’état de l’art (sections 1.3.3 page 22 et 1.3.4 page 22). Dessein’12 est une méthode de décomposition de RTF+ supervisée. En premier lieu un dictionnaire de spectres de notes de musique sont appris

(ici ce sont des notes de piano). Ensuite, un spectrogramme d’entrée est décomposé sur ce dictionnaire, grâce à la minimisation d’une 𝛽-divergence entre les données et le spectrogramme reconstruit. Cet algorithme a été soumis en 2010 à la compétition internationale MIREX [Webc] et a obtenu de bons classements : troisième place pour la tâche de transcription sur l’ensemble des bases de données d’évaluation par exemple. Vincent’10 est un algorithme semi-supervisé de type NMF où les spectres de base ont une contrainte d’harmonicité (à l’instar de nos modèles) et de régularité d’enveloppe spectrale. De plus le signal est supposé redondant et une seule enveloppe spectrale par note est autorisée. La divergence utilisée pour l’estimation des paramètres du modèle est la 𝛽-divergence avec 𝛽 = 0, 5. Pour ces deux algorithmes de référence, le post- traitement des données de la décomposition pour obtenir une transcription est fondé sur un unique seuil de détection. Leur implémentation nous a aimablement été fournie par leurs auteurs respectifs.

Pour évaluer nos propres algorithmes et ceux de référence, nous avons constitué trois bases de données différentes : 𝐵𝐷maps, 𝐵𝐷mirex et 𝐵𝐷quasi, toutes décrites en détails dans l’annexe C

page 171. 𝐵𝐷mapsest un ensemble de 10 pièces de piano tirées de la base MAPS [EBD10]. Cinq

Algorithme ℛ (%) 𝒫 (%) ℱ (%) Temps de calcul (× temps réel) 𝐻4 55.6 61.5 57.8 4.5 𝐻4− 𝑝𝑓 52.3 70.9 59.4 9 𝐻4− 𝑝𝑡𝑓 54.9 73.6 61.8 27 𝐵 56.1 41.9 47.5 2 𝐵 − 𝑝𝑓 52.8 71.7 60.0 3.5 𝐵 − 𝑝𝑟𝑓 51.6 76.7 60.6 13 Vincent’10 67.0 35.8 45.3 0.9 Dessein’12 43.3 48.5 45.1 0.8

Table 8.3 – Résultats moyens pour la base 𝐵𝐷maps.

Algorithme ℛ (%) 𝒫 (%) ℱ (%) Temps de calcul (× temps réel)

𝐻4 51.4 79.4 62.4 4.5 𝐻4− 𝑝𝑓 45.7 84.6 59.3 9 𝐻4− 𝑝𝑡𝑓 51.7 84.6 64.2 27 𝐵 55.5 69.0 61.5 2 𝐵 − 𝑝𝑓 51.3 83.7 63.6 3.5 𝐵 − 𝑝𝑟𝑓 47.4 88.2 61.6 13 Vincent’10 81.1 45.0 57.9 0.9 Dessein’12 48.6 55.9 52.0 0.8

Table 8.4 – Résultats moyens pour la base 𝐵𝐷mirex.

acoustique. Seules les 30 premières secondes de chaque pièce sont retenues. 𝐵𝐷mirex n’est pas

à proprement parler une base de données puisqu’elle ne contient qu’un unique morceau de 54 secondes : il s’agit d’une transcription pour quintette à vent d’un quatuor à corde de Beethoven, issue de la base de développement de MIREX [Webc]. Enfin 𝐵𝐷quasi est un sous-ensemble de

cinq fichiers de la base QUASI Transcription [Webf], une nouvelle base composée dans le cadre de cette thèse et du projet QUAERO1. Elle est constituée de morceaux de musique de différents

genres (rock, reggae, chanson,...). Les scores moyens pour chaque base de données et pour chaque système de transcription, ainsi que les temps de calculs approximatifs respectifs2, sont présentés

dans les Tables 8.3, 8.4 et 8.5.

On peut d’abord noter qu’il n’y a pas un algorithme qui soit plus performant que les autres sur toutes les bases de données considérées. Pour 𝐵𝐷maps les deux meilleurs algorithmes en

terme de F-mesure moyenne sont 𝐻4 − 𝑝𝑡𝑓 et 𝐵 − 𝑝𝑟𝑓. Ce sont les algorithmes qui sont les

1. http://www.quaero.org

2. On rappelle que les temps de calcul donnés ont été mesurés en utilisant une version 64 bits de Matlab, avec un processeur à deux cœurs de 3.1GHz.

130 8.4. Évaluation et comparaison avec des algorithmes de référence Algorithme ℛ (%) 𝒫 (%) ℱ (%) Temps de calcul (× temps réel)

𝐻4 38.1 41.9 38.8 4.5 𝐻4− 𝑝𝑓 37.9 50.3 41.5 9 𝐻4− 𝑝𝑡𝑓 36.8 49.6 40.7 27 𝐵 39.7 32.9 32.9 2 𝐵 − 𝑝𝑓 40.0 52.0 43.1 3.5 𝐵 − 𝑝𝑟𝑓 34.3 46 37.3 13 Vincent’10 63.8 12.3 20.3 0.9 Dessein’12 33.4 17.0 20.9 0.8

Table 8.5 – Résultats moyens pour la base 𝐵𝐷quasi.

plus contraints et il semble donc que pour le piano, en plus de la parcimonie et du coefficient de freinage, les aprioris de continuité temporelle ou de ressemblance permettent d’obtenir de meilleurs résultats. On comprend facilement cela puisque les signaux de 𝐵𝐷maps sont les plus

« simples » : les spectres qui composent une note donnée ne varient pas beaucoup sur l’ensemble d’un morceau puisque les signaux sont constitués d’un unique instrument et que pour le piano, les notes ont un contenu spectral assez stable au cours du temps (pas de vibrato par exemple). On remarque quand même que l’apriori de continuité temporelle apporte bien plus au modèle HALCA que l’apriori de ressemblance n’apporte au modèle BHAD.

Les résultats pour 𝐵𝐷mirex sont un peu déroutants puisque les modèles BHAD et HALCA

sans aucun module donnent des résultats comparables aux algorithmes plus sophistiqués. On remarque même que 𝐻4 est meilleur que 𝐻4 − 𝑝𝑓 en terme de F-mesure. En observant les

différences de valeurs entre rappel et précision on comprend que pour ce morceau particulier, le seuil 𝑃min est bien mieux réglé pour 𝐻4 et 𝐵 que pour nos autres systèmes. Cela confirme

le défaut d’un post-traitement basé sur un seuil de détection pré-appris : on se doute que les systèmes avec modules auraient présenté de meilleurs résultats avec un seuil mieux réglé. Pour le modèle HALCA, le système 𝐻4− 𝑝𝑡𝑓obtient les meilleurs résultats, aussi bien en rappel qu’en

précision : il semble que l’ensemble des modules a permis de bien considérer la nature du signal. L’ajout de l’apriori de ressemblance au modèle BHAD ne semble en revanche pas bénéfique : comme le fichier de 𝐵𝐷mirex contient cinq instruments différents, la supposition selon laquelle

l’enveloppe spectrale d’un spectre harmonique d’une hauteur donnée varie peu au cours du temps n’est plus forcément appropriée.

La base 𝐵𝐷quasi est constituée de signaux que l’on pourrait qualifier de plus difficiles à

analyser, puisqu’ils incluent des voix chantées, des effets sonores (distorsions, réverbération, flanger...), un plus grand nombre d’instruments, ou encore de la batterie. Les performances sont donc moins bonnes en générale pour cette base de données. Les résultats donnés par nos algorithmes permettent de dresser quelques conclusions. Il semble tout d’abord que l’apriori de parcimonie et le frein sur les coefficients d’enveloppes aient une influence bénéfique quel

que soit le modèle considéré. En revanche, aussi bien l’apriori de continuité temporelle que de ressemblance font baisser la précision et le rappel par rapport aux systèmes 𝐻4− 𝑝𝑓 et 𝐵 − 𝑝𝑓.

Il apparait qu’en raison de la richesse des fichiers à analyser, une trop forte contrainte sur la décomposition ait un effet néfaste sur les performances. Ici, c’est d’ailleurs le modèle BHAD (plus expressif que le modèle HALCA) avec son instanciation 𝐵 − 𝑝𝑓 qui obtient la meilleure F-mesure.

Analysons maintenant les résultats des algorithmes de référence. D’une manière générale, on peut remarquer qu’ils sont en deçà des résultats de nos algorithmes, quelle que soit la base de données. L’observation de la supériorité systématique de ℛ sur 𝒫 pour le système Vincent’10 conduit à penser que le seuil de détection est fixé trop bas, et qu’il pourrait avoir de bien meilleurs résultats s’il était réglé différemment. Cependant nous avons pris le parti de ne pas régler ce seuil de manière optimale pour chaque base d’évaluation. Aussi, de la même manière que nous avons fixé une valeur de 𝑃min, apprise sur une base différente, nous n’avons pas souhaité modifier

l’implémentation des auteurs. Ce qu’il est intéressant d’observer, c’est que les performances entre nos algorithmes et ceux de référence sur 𝐵𝐷mirex sont assez similaires, alors que sur les

autres bases, et surtout sur 𝐵𝐷quasi, les nôtres sont significativement meilleures. Cela souligne

la robustesse de nos modèles à la diversité des signaux musicaux que l’on peut rencontrer. Nous pensons que cela est dû au caractère assez expressif des modèles BHAD et HALCA. En particulier, du fait que les coefficients d’enveloppe sont complètement dépendants du temps, ils ne supposent pas une redondance intrinsèque aux signaux de musique. Nous pouvons quand même signaler la rapidité avec laquelle les algorithmes Vincent’10 et Dessein’12 s’exécutent.

Dans le document L'analyse probabiliste en composantes latentes et ses adaptations aux signaux musicaux : application à la transcription automatique de musique et à la séparation de sources (Page 147-150)