Conclusion - Méthodes d'apprentissage automatique pour la transcription automatique de la batte

Ce chapitre présente l’algorithme de transcription de la batterie original basé sur la NMD, extension de la NMF aux motifs présentant des réponses temporelles caractéris-tiques. Cet algorithme consiste en deux étapes distinctes : l’apprentissage du dictionnaire du motif et ensuite les analyses des différents morceaux. Lors de cette analyse, le diction-naire de motifs ne présente aucune flexibilité. L’intégration d’informations a posteriori est difficilement possible.

L’utilisation de méthodes de décomposition probabilistes pourraient permettre l’in-tégration de connaissances acquises pendant l’analyse. Deux méthodes de décomposition non-négative probabilistes, la SI-PLCA et la IS-NMD/EM ont été intégrées à l’algorithme de transcription de la batterie afin d’être comparées à l’algorithme original basé sur la NMD. La représentation des éléments qui ne sont pas de la batterie se fait toujours par l’ajout de bases libres dont l’utilisation est pénalisée. L’ajout de contrainte est nécessaire aux méthodes probabilistes.

5.4. Conclusion

La SI-PLCA a obtenu des résultats proches voir meilleurs dans certains cas que la NMD. Cependant, pour la caisse-claire, les résultats sont nettement en deça de la NMD. La IS-NMD/EM, adaptée de la IS-NMF/EM a une vitesse de convergence très lente. L’analyse d’un morceau prend environ 6 fois plus de temps avec la IS-NMD/EM qu’avec la NMD. L’optimisation de cet algorithme n’a pas été envisagé. La méthode de décom-position retenue est finalement la NMD. Le cadre probabiliste n’est pas indispensable pour introduire des informations supplémentaires durant la décomposition et l’analyse peut être adapté aux signaux étudiés.

Chapitre 6

Adaptation du dictionnaire de la NMD

L’algorithme NMD va chercher à décomposer chaque événement afin de minimiser la divergence d’IS entre le spectrogramme cible et le spectrogramme estimé. Pour cela, il va choisir les bases à activer pour composer la meilleure combinaison permettant d’estimer le spectrogramme cible. De par sa construction, le dictionnaire des bases permet de décrire une multitude d’événements d’un instrument de la batterie, soit par l’utilisation d’une seule base soit par la combinaison de plusieurs d’entre elles. Ces bases restant fixes durant la décomposition du spectrogramme cible, elles gardent leur interprétabilité physique permettant un post-traitement pour en déduire la transcription de la partie correspondante à la batterie.

Cependant, le dictionnaire comporte un nombre fini de bases par instrument et bien que les combinaisons entre elles soient possibles, le caractère additif de la NMD ainsi que l’inadaptabilité des bases pendant la décomposition diminuent le nombre d’événements qu’il est possible de recréer. Ainsi, outre le problème d’interférences entre les instruments jouant simultanément, la taille réduite du dictionnaire peut ne pas permettre la descrip-tion et donc la détecdescrip-tion d’un événement de batterie ni par l’activadescrip-tion d’une base ni par la combinaison de certaines d’entre elles.

Prenons un cas simple où un événement d’un des instruments de la batterie a lieu seul. Idéalement, l’algorithme devrait activer une ou plusieurs bases du dictionnaire correspon-dantes à l’instrument responsable. Comme l’instrument du morceau étudié peut différer des exemples disponibles dans le dictionnaire, l’algorithme va chercher à compenser ce qui ne peut pas être décrit par les bases de l’instrument avec les bases de background. Si l’événement est très éloigné des bases disponibles, l’algorithme de décomposition va utiliser exclusivement les bases de background. L’événement de batterie ne sera alors pas détecté.

L’absence de flexibilité du dictionnaire réduit le nombre de possibilités pour décrire les événements qui apparaissent dans la musique mais autoriser la mise à jour des bases pendant la décomposition accroît le risque que les bases perdent leur interprétation phy-sique. Comment adapter les bases au signal étudié sans qu’elles perdent leur signification ? Est-il possible de modéliser les différences de modèle, de conditions d’enregistrement, de façons de jouer sous forme d’un filtre appliqué aux bases d’un instrument ? La mise à

Chapitre 6. Adaptation du dictionnaire de la NMD jour des bases peut-elle être suffisamment contrainte pour que ces dernières correspondent toujours aux instruments qu’elles décrivaient ?

Dans ce chapitre, nous construirons un modèle source/filtre pour atténuer les diffé-rences entre le signal étudié et le dictionnaire. Puis, nous étudierons plusieurs manières de contraindre la mise à jour du dictionnaire.

6.1 État de l’art : l’adaptation des bases

Le problème de l’adaptation des bases a déjà été abordé pour différentes tâches. K. Kashino a utilisé l’adaptation de motifs pour l’identification de sources sonores dans un morceau de musique dans (Kashino and Murase, 1997).

Pour la transcription de la musique, K. Yoshii introduit dans (Yoshii et al., 2004) une adaptation des motifs en sélectionnant les segments du morceau où il a détecté la présence du motif et met à jour le motif avec la médiane de tous ces segments après traitements. Il affine cette méthode dans (Yoshii et al., 2007).

On retrouve la notion d’adaptation appliqué à la NMF dans (Vincent et al., 2008). Il décrit le spectre d’amplitude à court terme du signal à décomposer en une somme de spectres de base représentant chacun une hauteur multipliés par une amplitude variant au cours du temps. Chaque spectre de base est décomposé en une somme pondérée de spectres à bande étroite. L’idée est de contraindre fortement la structure des spectres de base mais de laisser des degrés de liberté à l’enveloppe spectrale.

X. Jaureguiberry propose un modèle source/filtre dans (Jaureguiberry et al., 2011) pour la NMF. Il applique un filtre aux bases du dictionnaire qui restent fixes. Le filtre permet d’adapter les bases par rapport au signal étudié.

Enfin, E. Benetos aborde l’adaptation des motifs pour la transcription automatique de la musique en utilisant la PLCA dans (Benetos et al., 2014). L’idée est de procéder à une première décomposition par NMF dite conservative. On cherche à avoir un recall très bas mais une précision très haute. Pour cela, on ne retient que les pitchs les plus fiables. On laisse donc de côté un certain nombre de pitchs. Avec ces événements détectés, une collection de spectres correspondant au pitch détecté dans le signal à trancrire est construite. Grâce à cette collection, de nouveaux motifs sont créés pour chaque pitch détecté dans le prétraitement. Enfin, comme un certain nombre de pitchs a été laissé de côté, ils adaptent les motifs restant par translation des nouveaux motifs.

Dans l’algorithme de transcription automatique de la musique que nous développons, le principal problème est d’adapter les bases sans que ces dernières ne perdent les caracté-ristiques liées à l’instrument qu’elles décrivent puisque nous voulons pouvoir reconnaître les instruments a posteriori. Les méthodes utilisées dans la littérature ne prennent pas en compte la contrainte de garder l’interprétation des bases après adaptation de celles-ci. Les adaptations ne sont pas contraintes. Notre principal objectif est donc d’adapter les bases au morceau tout en les gardant interprétables pour permettre le post-traitement.

Dans ce chapitre, nous développons pour répondre à notre objectif différentes ap-proches : une approche par filtrage, une approche par mise à jour des bases du diction-64

Dans le document Méthodes d'apprentissage automatique pour la transcription automatique de la batterie (Page 79-84)