• Aucun résultat trouvé

Partie IV Application à la transcription

IX.3 Description du cadre expérimental

IX.3.1 Tâche

Nous nous donnons pour objectif la tâche restreinte présentée à la section I.2.3 (page 22), c’est-à- dire la production d’une liste de notes de musique caractérisées par leur hauteur musicale (sur l’échelle chromatique, donc avec une précision d’un demi-ton) et leurs instants de début et de fin en secondes.

IX.3.2 Bases de données

Afin d’évaluer et de quantifier les performances de transcription, nous avons besoin d’un ensemble de pièces musicales accompagnées d’une annotation MIDI précise de leur contenu. Les moyens les plus simples d’acquérir de telles données sont de deux ordres : l’enregistrement d’un instrument MIDI (l’acquisition de l’audio et du MIDI étant simultanés), ou bien la synthèse de son à partir de fichiers MIDI préalablement disponibles. Pour des raisons de réalisme du timbre et de facilité d’acquisition, le piano est un instrument de choix : de nombreux synthétiseurs logiciels de très haute qualité sont disponibles dans le commerce, d’une part, et d’autre part un piano acoustique peut être équipé de systèmes mécaniques et électroniques permettant de déclencher les touches et d’enregistrer une sortie MIDI, tout en conservant le timbre d’un vrai instrument acoustique.

C’est le procédé adopté dans [Emiya, 2008, Emiya et al., 2009] pour constituer la base de données MAPS (MIDI-Aligned Piano Sounds). Cette base, librement distribuée, inclut des enregistrements de notes isolées, d’accords tonals et aléatoires et de pièces complètes issues du répertoire classique du piano. Les sons sont soit produits par des logiciels de synthèse de très bonne qualité, soit enregistrés sur un Yamaha DisKlavier (piano droit équipé). De cette base très complète, nous avons extrait deux sous- ensembles de données pour nos évaluations : un sous-ensemble synthétique (logiciel Akoustik Piano de Native Instruments, pré-réglage « Bechstein Bach », dont les échantillons sont issus d’un piano Bechstein 280, désignée par l’abréviation AkPnBcht), et un sous-ensemble issus des enregistrements de DisKlavier réalisés à Télécom ParisTech (ENSTDkAm). Chaque sous-ensemble est composé de 30 pièces de 30 secondes chacune (les morceaux originaux de MAPS ont été tronqués).

IX.3.3 Évaluation des performances

La seule observation des factorisations extraites et de leur allure sur des exemples simples, telle que nous l’avons faite jusqu’ici, ne peut suffire à établir clairement l’intérêt d’une méthode de transcription en conditions réelles. Si l’illustration des performances sur quelques exemples, comme dans [Moorer, 1975, Walmsley et al., 1999, Smaragdis et Brown, 2003, Davy et al., 2006], permet de mettre en lu- mière certaines erreurs typiques et de se faire une idée du fonctionnement du système, l’évaluation quantitative demeure un critère de poids dans l’évaluation des performances. Nous nous limiterons ici aux évaluations basées sur un dénombrement des notes détectées ou manquantes, qui sont les plus répandues. Signalons toutefois que des méthodes plus perfectionnées, et perceptivement motivées sont discutées dans [Emiya, 2008, Daniel et al., 2008].

Pour définir des critères quantitatifs d’évaluation, on détermine d’abord l’ensemble T P des notes correctement estimées (true positive), l’ensemble F P des notes ajoutées (false positive, ou fausses alarmes), et l’ensemble F N des notes oubliées (false negative). Une note est considérée comme correcte si son pitch (en numérotation MIDI) est identique à celui d’une note de la vérité-terrain, et si son onset a lieu dans un certain intervalle de temps autour de cette note (50 ms pour [Bello et al., 2006,Vincent

IX.3. DESCRIPTION DU CADRE EXPÉRIMENTAL 139 et al., 2008], 70 ms pour [Dixon, 2000],Dixon [2000], 128 ms pour [Bertin et al., 2007], 150 ms pour [Ryynänen et Klapuri, 2005]). Une fausse alarme est une note transcrite alors qu’elle est absente de la référence, tandis qu’une note est oubliée si elle est présente dans la vérité-terrain mais pas transcrite. En fonction des cardinaux de ces ensembles, on définit alors deux critères complémentaires, le rappel (recall) R et la précision (precision) P [van Rijsbergen, 1979] :

R def= #T P

#T P + #F N (IX.6)

P def= #T P

#T P + #F P (IX.7)

Le rappel reflète la proportion de notes correctes parmi les notes originales, alors que la précision reflète la proportion de notes correctes parmi les notes transcrites. Les deux critères peuvent être synthétisés en un seul pour obtenir une note globale, par exemple via la F-mesure F [van Rijsbergen, 1979] définie par :

Fdef= 2RP

R + P (IX.8)

De manière relativement équivalente, on peut également définir une note globale A, appelée score [Dixon, 2000] ou accuracy [Poliner et Ellis, 2007] par :

Adef= #T P

#T P + #F N + #F P (IX.9)

Remarquons que ces scores, utilisés notamment par [Bello et al., 2006, Ryynänen et Klapuri, 2005, Bertin et al., 2007, Vincent et al., 2008] se placent au niveau de la note. Alternativement, on peut définir des mesures similaires à l’échelle de la trame, en considérant l’absence ou la présence de fréquences fondamentales à chaque trame. Ces métriques sont adoptées par exemple dans [Plumbley et al., 2006, Poliner et Ellis, 2007]. Ce cas semble davantage conçu pour l’évaluation des algorithmes d’estimation de fréquences fondamentales que pour les algorithmes de transcription, mais peut apporter des informations complémentaires (et un score plus flatteur).

[Raphael, 2002, Poliner et Ellis, 2007, Kameoka, 2007] propose des métriques similaires mais un peu plus détaillées, en faisant la distinction entre les notes manquantes, les notes substituées (notes de début et de fin similaire mais présentant une erreur de hauteur), et les fausses alarmes, définies comme les notes incorrectes ne pouvant pas être considérées comme des notes substituées. Ces métriques sont à rapprocher des distances d’édition [Mongeau et Sankoff, 1990]. Dans ce dernier cas, la définition d’une note correctement estimée dépend d’un seuil de tolérance sur la fréquence fondamentale (le demi-ton en général, cf. correspondance entre fréquence fondamentale et notes dans l’annexe B page 187), sur l’instant d’attaque et éventuellement sur l’instant d’extinction de la note.

[Ryynänen et Klapuri, 2005] propose également un critère d’évaluation de la durée transcrite. Pour chaque note correctement transcrite, on définit le taux de recouvrement (overlap ratio) onote entre la note originale et la note transcrite comme étant le rapport entre la longueur de l’intersection des supports temporels des deux notes et celle de leur union :

onote =

min(tof f)− max(ton)

où ton et tof f sont les couples de temps d’attaque (resp. d’extinction) de la note originale et de la note transcrite correspondante. Le taux de recouvrement moyen (Mean Overlap Ratio ou MOR) est la moyenne des taux de recouvrement de toutes les notes correctement transcrites. L’annotation et l’esti- mation de tof f sont délicates, en particulier en cas d’utilisation de la pédale forte ou d’existence d’une forte réverbération. Cela impose de prendre la vérité-terrain et les scores résultants avec précaution, et explique que dans la littérature et les compétitions internationales, le MOR est pris en compte comme un score complémentaire aux scores principaux.