• Aucun résultat trouvé

Principe d’un réseau de neurones convolutif

4.3 Différentes familles de réseaux de neurones

4.3.2 Principe d’un réseau de neurones convolutif

Les réseaux de neurones convolutifs sont très similaires aux réseaux décrits dans la section 4.1.3. Leur particularité est qu’ils ont été conçus pour traiter des images en entrée. Les entrées sont donc convoluées est plus multipliées.

Dans un réseau de neurones classique, chaque neurone d’une couche dense est connecté à tous les neurones de la couche précédente et ne présente aucune connexion avec les neurones de sa propre couche. Si l’entrée est une image codée sur trois canaux de couleur, la taille d’un neurone de la première couche serait la largeur de l’image × la hauteur de l’image × les trois canaux de couleur. Plus l’image est grande, plus le nombre de paramètres augmente. De plus, le réseau est constitué de plusieurs neurones.

Un neurone d’un CNN est arrangé en 3 dimensions : la largeur, la hauteur et la profondeur. Ce neurone permet de traiter une petite aire de l’image. Ainsi, il traite plus d’information de l’image avec moins de paramètres.

Un CNN est un réseau de neurones qui contient au moins une couche convolutive. Pour former un CNN quatre types de couches sont généralement utilisés :

• Couche de convolution : La sortie de ses neurones est le produit matriciel d’une petite partie de l’image (entrée du neurone) avec leurs poids. On appelle leurs neurones des filtres de convolution et leurs sorties, les feature maps.

1. source : https://colah.github.io/posts/2015-08-Understanding-LSTMs/

4.3. Différentes familles de réseaux de neurones

• Couche d’activation : Elle applique à chaque élément une fonction d’activation, par exemple ReLU(x) = max(0, x) soit un seuillage à 0.

• Couche de pooling (optionnel) : Elle réalise un sous-échantillonnage suivant une ou plusieurs dimensions. Elle permet de réduire le risque de sur-apprentissage et réduit le nombre de paramètres à apprendre. Aucun paramètre n’est à apprendre pour cette couche.

• Couche dense (optionnel) : Elle remplit les mêmes fonctions qui sont expliquées en section 4.1.3 sur les feature maps de la dernière couche concaténée en vecteur.

Troisième partie

Applications à la transcription

automatique de la batterie

Chapitre 5

Comparaison de modèles de décomposition

non-négative pour la transcription automatique

de la batterie

Comme il a été mentionné, la transcription de la musique est complexe et nos études se concentrent sur la transcription de la batterie. L’objectif est de répondre à deux ques-tions : à quel moment un événement percussif à lieu et quel instrument en est responsable ? Dans la musique occidentale, trois instruments de la batterie sont responsables de la majorité des rythmes : la grosse-caisse, la caisse-claire et la Charleston (Bass Drum (BD), Snare Drum (SD) et Hi-Hat (HH) en anglais). Ils sont en général essentiels pour la trame rythmique de base. De plus, le problème de transcription de la batterie est de plus en plus complexe à mesure où des classes d’instrument de batterie sont ajoutées. La transcription de ces trois instruments n’est pas encore totalement opérationnelle. Ainsi, lorsqu’on parlera de transcription de la batterie dans ce document, on fera référence à la transcription des trois principaux instruments de batterie cités ci-dessus.

Dans ce chapitre, on décrit un algorithme de transcription de batterie basé sur les décompositions en matrice non-négative. L’algorithme est basé originalement sur l’uti-lisation de la NMD. Dans cette méthode les bases sont fixes et ne s’adaptent pas au signal. Or, le nombre d’exemples dans le dictionnaire est limité et ils ne peuvent pas dé-crire tous les modèles ou les façons de jouer d’un instrument. On veut pouvoir ajouter de la liberté aux bases pour qu’elle puisse s’adapter au signal étudié. Pour cela, on compare la NMD à deux méthodes probabilistes dont une que l’on a adaptée aux motifs à deux dimensions dans le Chapitre 3 : la SI-PLCA et la IS-NMD/EM. Ces dernières peuvent facilement introduire des connaissances a priori et a posteriori qui pourraient permettre cette adaptation.

Dans un premier temps, on présente l’algorithme dans le lequel on introduira les diffé-rentes méthodes de décomposition non-négative. Cet algorithme nécessite une pré-étape d’apprentissage pour composer le dictionnaire des bases. Lors de la transcription, il traite le signal pour le mettre sous la forme adéquate, puis applique la méthode de décompo-sition non-négative afin d’apprendre les vecteurs d’activations. Enfin, après des étapes

Chapitre 5. Comparaison de modèles de décomposition non-négative pour la transcription automatique de la batterie de seuillage, l’algorithme fournit les positions des événements de chaque instrument. Les résultats de la comparaison permettront de choisir quelle méthode de décomposition non-négative choisir.

5.1 État de l’art : les modèles de décomposition

non-négatifs pour la transcription de la batterie

(FitzGerald and Paulus, 2006) propose un panorama des premières approches pour la transcription de la batterie en les classant sous trois approches : une basée sur la séparation, une autre sur la segmentation et enfin une sur les modèles musicaux.

L’approche basée sur les modèles musicaux introduit un modèle statistique afin de prendre en compte les dépendances entre les séquences d’événement. Ces méthodes ont déjà fait leur preuve pour le traitement de la parole.

Celles basées sur la segmentation découpent le signal en segments puis les analysent indépendamment des autres comme dans (Miron et al., 2013b) ou (Gillet and Richard, 2008). Ces méthodes suivent à peu près toutes le même schéma :

• Segmenter le signal d’entrée soit en localisant les événements soit en appliquant une grille temporelle adéquate,

• Extraire un ensemble de caractéristiques de chaque segment, • Classifier le contenu des segments grâce à ces caractéristiques,

• Combiner les informations obtenues avec l’échelle de temps pour obtenir la trans-cription.

Enfin, les méthodes basées sur la séparation cherchent quant à elle à séparer les différentes voix présentes dans un morceau de musique en s’appuyant sur des méthodes de séparation de sources. Différents algorithmes peuvent être utilisés : l’ICA, le plus commun, la NMF et ses variantes, ...

C’est dans (Smaragdis and Brown, 2003) que la NMF est utilisée pour la première fois pour la transcription de la musique. Ils montrent que la transcription automatique de la musique peut théoriquement atteindre de bons résultats en utilisant la NMF mais n’évaluent pas leur algorithme. Par la suite, plusieurs variations de la NMF ont été proposées pour la transcription de la batterie.

Comme détaillé en sec. 3.1.1, la NMF décompose une entrée en un dictionnaire et les activations correspondantes. L’initialisation de ce dictionnaire est déjà un problème en soi. Un premier questionnement est le nombre de bases par instrument. En géné-ral, pour la transcription de la musique, chaque élément du dictionnaire correspond à un instrument en particulier ou à une note dans le cas d’une transcription harmonique. On peut trouver d’autres formes de dictionnaire comme dans (Grindlay and Ellis, 2009) où le dictionnaire représente des eigeninstruments. L’instrument est représenté par une combinaison des différents eigeninstruments. L’important est de garder l’interprétation physique des différentes bases permettant la reconnaissance des sources pour les trans-crire.

Certains auteurs comme (Battenberg, 2012) ou (Dittmar and Gärtner, 2014) initia-lisent puis fixent le dictionnaire pendant la décomposition. Le problème d’optimisation 52