• Aucun résultat trouvé

IV.3 Algorithme tempéré

IV.3.3 Résultats expérimentaux : données réelles

Dans cette section, nous considérons la tâche complète de « WAV vers MIDI » telle que définie à la section I.2.3 (page 22). Plus de détails sur le système complet de transcription et les métriques d’évaluation seront donnés dans la section IX.3 (page 138).

Nous calculons les transcriptions MIDI de six pièces enregistrées sur DisKlavier, fournies avec leur annotation MIDI de référence, et d’une durée de 30 secondes [Bello et al., 2006]3

. Ces pièces appartiennent au répertoire classique du piano, mais sont toutefois relativement simples sur le plan de la virtuosité (tempo et polyphonie relativement faible). Chaque pièce est factorisée à partir de 10 initialisations au hasard différentes, et pour différents couples (βi βe). Les fichiers MIDI produits et de référence sont alors comparés pour produire des scores moyens de transcription (cf. section IX.3.3), page 139. La table IV.4 reporte les résultats obtenus pour six algorithmes avec β variable ou fixe.

βi  βe 100 20 10 00 22 11

Précision 83.4 73.6 69.7 77.2 67.8 70.5

Rappel 79.2 79.2 73.6 70.6 73.6 65.5

F-measure 81.3 76.3 71.6 73.7 70.6 67.9

TableIV.4 – Performance moyenne de transcription. (%).

Nous pouvons faire les observations suivantes. Premièrement, tous les algorithmes mettant en jeu la divergence IS, qu’ils soient tempérés ou non, atteignent de meilleures performances de transcription que KL-NMF et EUC-NMF, ce qui confirme l’intérêt de cette divergence pour la représentation de signaux audio. L’approche tempérée avec βi = 10conduit à la meilleure performance de transcription, en dépit de la non-convexité de la β-divergence pour β > 2. Une explication possible à ce fait étonnant est la propriété dβ(λx|λy) = λβdβ(x|y) ; ainsi, les premières itérations de (10  0)-NMF mettent l’accent sur la bonne représentation des composantes de forte énergie. On peut alors voir (10  0)-NMF comme un algorithme représentant en premier lieu les événements « les plus importants », puis raffinant la qualité de la description à mesure que β décroît. Les données analysées possèdent la forte dynamique typique des signaux audio, ce qui expliquerait la différence de résultats avec les données synthétiques de la question précédente ; ainsi, la représentation prioritaire des composantes de forte énergie pourrait être décisive dans le cas de signaux réels, à forte dynamique. D’autre part, les dimensions du problème

IV.4. CONCLUSION 77 le rendent plus susceptible de posséder de nombreux minima locaux (comparé au cas synthétique), ce qui motive le choix d’une température initiale élevée.

L’approche tempérée avec βi = 2 se classe deuxième dans notre test. Cependant, (0  0)-NMF atteint une valeur finale du coût DIS inférieure dans tous les cas. Comme dans la section précédente, aucune corrélation claire n’est observée entre le coût atteint et la performance de transcription.

Un autre résultat remarquable est l’existence d’échecs sévères de certaines réalisations de (0  0)- NMF, qui n’apparaissent pas dans la table IV.4 qui présente des performances moyennées, et pour lesquelles la F-mesure est inférieure à 10%. À l’inverse, nous n’avons pas observé de tels échecs pour EUC-NMF, KL-NMF et les approches tempérées. Cependant, si nous excluons ces cas pathologiques du calcul de la performance moyenne, (0  0)-NMF est aussi performante que les approches tempérées.

IV.4

Conclusion

Cette étude confirme la pertinence de la divergence IS pour des tâches de traitement du signal audio, et l’amélioration apportée par l’approche tempérée. Cependant, l’absence de corrélation nette entre la valeur du critère et la pertinence musicale de la factorisation obtenue, et la difficulté d’éviter les minima locaux avec certitude suggère l’insuffisance de la seule contrainte de non-négativité, malgré un choix adapté de la fonction de coût. Ces constatations nous amènent à examiner, dans le chapitre suivant, l’ajout de contraintes supplémentaires à la NMF, ce qui a été également récemment suggéré dans [Klingenberg et al., 2009].

79

Chapitre V

Variantes contraintes de la NMF

Résumé

Où, afin d’améliorer la forme des solutions, l’on s’intéresse à des variantes de la NMF intégrant d’autres contraintes que la non-négativité, en particulier à la contrainte d’harmonicité qui sied à l’analyse de sons musicaux ; ce qui nous amène à proposer un modèle d’harmonicité pour la NMF et un algorithme pour résoudre ce nouveau problème.

V.1

Introduction

D

ansle problème de NMF standard, la seule contrainte explicite est la non-négativité de tous les co- efficients des matrices en présence. Toute autre propriété de la décomposition, aussi satisfaisante soit-elle, est un effet secondaire incontrôlé. En un certain sens, la relative sémantique qui se dégage de la décomposition, l’efficacité de la séparation de composantes pertinentes, et l’interprétabilité de ces composantes sont simplement de « bonnes nouvelles ». L’idée d’améliorer ce potentiel, en ajoutant des contraintes explicites au problème de factorisation pour renforcer et contrôler ces propriétés, paraît donc naturelle.

Ainsi, plusieurs contraintes ont été introduites dans la littérature, afin que les solutions de la NMF remplissent au mieux certaines attentes. Parmi les contraintes proposées antérieurement, citons la parcimonie [Hoyer, 2004], la localisation spatiale [Li et al., 2001], la décorrélation maximale entre les sources [Zhang et Fang, 2007] ou encore la continuité temporelle [Virtanen, 2007, Chen et al., 2006].

Quelle que soit la contrainte considérée, ces algorithmes partagent une approche commune : l’ajout d’un terme de pénalité. Plutôt que la minimisation exclusive d’un terme Dr quantifiant l’erreur de reconstruction (EUC ou KL le plus souvent), la fonction de coût globale minimisée en pratique inclut un terme Dc quantifiant la propriété que l’on souhaite imposer. Le problème de NMF contraint s’exprime alors comme :

min

W,HDr(V|WH) + λDc(W, H)

où λ est un paramètre de pondération, dont le choix est important et peut s’avérer délicat. En effet notre objectif principal reste d’obtenir une factorisation approchée de V, or à mesure que WH s’en rapproche, les pénalisations ajoutées prennent relativement de plus en plus de poids, à moins que les termes qu’elles multiplient ne se rapprochent eux aussi suffisamment de zéro. Cela conduit certains auteurs à introduire une pondération variable, dépendant elle-même de W et/ou de H (e.g. [Virtanen, 2007]).

Dans ce chapitre, nous présentons un panorama des diverses contraintes de la littérature (sec- tion V.2), dont nous discutons l’intérêt dans le cas des signaux audio. Nous présentons ensuite dans la section V.3 un modèle et un algorithme permettant de résoudre un problème de NMF où les bases W sont contraintes à posséder une structure harmonique similaire à celle des spectres de notes de musique, et correspondant donc à la décomposition attendue.