Taille des filtres de convolutions - Expériences et résultats

7.4 Expériences et résultats

7.4.2.3 Taille des filtres de convolutions

Pour évaluer l’influence de la taille des filtres sur la performance du réseau MCMS sur la détection d’onsets spécifiques, on procède à différents apprentissages des paramètres avec différentes combinaisons de filtres. On teste pour cela trois tailles pour les filtres des première et deuxième couches avec une validation croisée sur la base de données ENST-Drums. On donne dans le tableau 7.2 les résultats de chaque évaluation ainsi que la moyenne des trois expériences croisées pour chaque configuration de filtres.

Couche 1 3× 7 3× 3 7× 3

Couche 2 3× 7 3 × 3 7 × 3 3 × 7 3 × 3 7 × 3 3 × 7 3 × 3 7 × 3

App. Eval. F-mesure F-mesure F-mesure

1 & 2 3 93.7 93.6 93.6 93.8 93.8 93.1 93.9 93.5 93.4

2 & 3 1 93.3 93.4 93.3 93.5 92.9 92.6 93.3 93.3 93.2

3 & 1 2 93.9 93.8 93.9 94.1 94.1 93.9 94.0 94.0 94.0

Moyenne 93.6 93.6 93.6 93.8 93.6 93.2 93.7 93.6 93.5

Tableau7.2 – Influence de la taille des filtres de convolution dans l’expérience de vali-dation croisée de ENST-Drums.

La F-mesure moyenne la plus basse est obtenue avec la configuration 3 × 3 pour la couche 1 et 7 × 3 pour la deuxième couche. On obtient la meilleure F-mesure avec la configuration 3 × 3 pour la première couche et 3 × 7 pour la deuxième. Cependant l’écart entre les résultats est de seulement 0.6 point. La taille des filtres ne semble donc pas énormément influencer les performances du réseau pour la détection d’onsets spécifiques.

7.5 Conclusion

La position des onsets est une information essentielle pour l’algorithme de transcrip-tion de la batterie utilisé dans ce document. En plus de réduire le temps de calcul, cela permet de ne pas risquer de détecter des onsets aux endroits où il n’y en a pas. Le dé-tecteur d’onsets précédemment utilisé détectait tous les onsets qu’ils soient percussifs ou harmoniques. Certains segments étaient donc analysés alors qu’aucun instrument

per-Chapitre 7. Détection d’onsets pour la transcription de batterie cussif n’y est présent. Cependant, ne pas en détecter assez augmente le nombre de faux négatifs c’est-à-dire le nombre d’onsets qui auraient dû être détectés mais qui ne l’ont pas été. Le signal autour de ces onsets ne peut donc pas être analysé. Ces onsets sont définitivement mis de côté.

Le but de ce chapitre était d’élaborer un détecteur d’onsets donnant de meilleurs résultats que le précédent et surtout qui détecte des onsets spécifiques. Ce détecteur d’onsets ne détecte que les onsets des trois instruments principaux de la batterie (la grosse-caisse, la caisse-claire et la Charleston) mais sans donner quel instrument en est responsable. Les segments étudiés contiennent donc en théorie au moins un onset de batterie.

Plusieurs approches de configuration de réseau de neurones convolutif pour la détec-tion d’onsets afin d’améliorer la transcripdétec-tion automatique de la batterie ont été abordées. Nous avons comparé deux loss function différentes : la cross-entropy et la mean square error. Plusieurs configurations d’entrée ont été testées : plusieurs résolutions de spectro-gramme pour une entrée avec un unique spectrospectro-gramme ainsi qu’une entrée avec trois spectrogrammes de différentes résolutions. Enfin, différentes combinaisons de tailles de filtres de convolution ont permis de montrer que les résultats ne différaient pas énormé-ment suivant la taille des filtres. Le réseau convolutif avec comme entrée la représentation MCMS et la cross-entropy comme fonction de coût permet d’obtenir les meilleurs résul-tats avec plus 90% des onsets percussifs détectés.

Cet algorithme de détection d’onsets spécifiques peut remplacer l’algorithme basé sur le flux spectral qui détectait tous les onsets dans l’étape préalable à l’algorithme de transcription automatique de la batterie. De plus, nous avons montré qu’un réseau peut reconnaître des onsets particuliers. Il pourrait être possible de détecter des onsets encore plus spécifiques, par exemple tous les onsets dont un seul instrument est responsable et ainsi transcrire seulement sa partie.

Chapitre 8

CNN pour la transcription automatique de la

batterie

Les étapes de prétraitement sont importantes pour mettre en forme le signal afin de faire ressortir les caractéristiques pertinentes ou pour réduire les coups de calcul. Cepen-dant, l’utilisation de ces prétraitements ou d’algorithmes complémentaires peuvent faire apparaître des erreurs. Dans notre cas, quand l’algorithme de détection d’onsets four-nit à l’algorithme de transcription de la batterie la position d’un onset mais qu’aucun instrument de batterie n’est responsable de cet onset, un faux positif peut être détec-ter. Au contraire, si le détecteur d’onsets ne détecte pas un des onset, l’algorithme de transcription n’analysera pas le segment et ne pourra pas détecter la présence d’un des instruments de la batterie.

Au chapitre précédent, un détecteur d’onsets basé sur les CNN a été élaboré pour détecter uniquement les onsets percussifs. Ces onsets sont fournis à l’algorithme de trans-cription de la batterie. De plus, les résultats encourageants pour la détection d’onsets spécifiques avec les réseaux de neurones du chapitre précédent ainsi que les nouveaux résultats obtenus dans la littérature motivent un approfondissement de l’utilisation des réseaux de neurones pour la transcription de la batterie.

Dans un premier temps, les résultats du détecteur d’onsets sont fournis à l’algorithme de transcription de la batterie basé sur la NMD. Par ailleurs, le détecteurs d’onsets spé-cifique basé sur les CNN sont entraînés à détecter des onsets encore plus spéspé-cifiques : les onsets d’un unique instrument. Pour entraîner ces réseaux, de nombreuses données sont nécessaires mais peu sont disponibles et correctement annotées. L’utilisation de l’augmen-tation de données pourrait permettre de mieux généraliser les réseaux. Enfin, l’utilisation d’un réseau multi-sorties permettrait la transcription automatique de la batterie avec un unique réseau.

Chapitre 8. CNN pour la transcription automatique de la batterie

8.1 État de l’art : Les réseaux de neurones pour la transcription automatique de la batterie

Les RNN, utilisés pour la transcription de la parole (Sak et al., 2014), sont appliqués à la transcription de la musique pour le piano dans (Böck et al., 2012). En 2016, les RNN sont utilisés pour la première fois dans (Vogl et al., 2016b) et (Southall et al., 2016) pour la transcription de la batterie. Dans (Vogl et al., 2016b), la batterie est transcrite à partir de fichier où elle joue toute seule alors que dans (Southall et al., 2016) la tâche est complexifiée par l’ajout d’instruments harmoniques.

Dans (Southall et al., 2016), ils utilisent un réseau de neurones récurrent bidirec-tionnel, Bidirectional Recurrent Neural Network (BDRNN), pour la transcription de la batterie dans des morceaux avec d’autres instruments. Les BDRNN sont des RNN à deux sous-couches : une couche avec des connexions de récurrence dans la direction forward et l’autre dans la direction backward.

Figure 8.1 – BRNN proposé par (Southall et al., 2016). Les lignes pleines sont les connexions correpondantes au RNN et les lignes en pointillés au BDRNN.

Ce type de réseau permet de prendre en compte les informations passées ainsi que les informations futures par rapport à un temps t. De ce fait, l’utilisation de ces réseaux en temps réel n’est pas possible bien que l’utilisation de courtes séquences peut réduire le temps de traitement.

Dans (Vogl et al., 2016b), ils comparent les résultats obtenus avec des BDRNN avec des RNN traditionnels mais en utilisant un décalage temporel des annotations sur dif-férentes bases de données (IDMT-SMT-Drums et difdif-férentes combinaisons de ENST-Drums). Toutes les annotations sont décalées de +25 ms. Le réseau a alors accès aux informations qui précédent l’événement mais aussi celles qui suivent. Il est donc plus facile au RNN avec décalage des annotations d’exécuter la tâche demandée en temps réel (avec un léger délai) que les BDRNN. Il apparaît que le RNN avec décalage des annotations (tsRNN) est plus performant que le modèle BDRNN.

Des cellules de mémoire interne, les LSTM, peuvent être ajoutées aux connexions de récurrence des RNN. Cela permet au réseau d’apprendre des dépendances avec des 92

8.2. NMD combinée avec l’algorithme de détection d’onsets percussifs

Dans le document Méthodes d'apprentissage automatique pour la transcription automatique de la batterie (Page 108-112)