• Aucun résultat trouvé

S'il devient de plus en plus facile de trouver des enregistrements musicaux et des parti- tions, notamment grâce aux bibliothèques consultables sur l'Internet, les bases de données annotées, c'est-à-dire comprenant les indications de synchronisation entre la partition et l'enregistrement, sont très rares. En eet, il est extrêmement fastidieux pour un humain de réaliser l'alignement audio-sur-partition, ou même de contrôler la validité d'un alignement automatique à un niveau de précision n.

Or, pour évaluer les performances des systèmes automatiques, il est nécessaire de com- parer les alignements avec une vérité-terrain able. Nous utilisons pour nos expériences deux corpus diérents.

2.5.1 Corpus MAPS

La base de données MAPS (pour MIDI Aligned Piano Sounds), créée parEmiya et al.

[2010], est un ensemble de sons de piano dédié à la transcription automatique du piano et l'estimation de fréquences fondamentales. Cette base de données contient, entre autres choses (notes isolées, agrégats aléatoires, accords usuels), des morceaux du répertoire clas- sique enregistrés via un piano Disklavier Yamaha. Ce modèle possède un dispositif mé- canique qui actionne les marteaux et les pédales du piano, permettant de  jouer  un chier MIDI. Cela assure une synchronisation très précise entre l'enregistrement et la par- tition.

Nous utilisons 59 morceaux de cette base de données (environ 4h15 de musique), corre- spondant à deux conditions d'enregistrement diérentes du Disklavier (micros rapprochés et éloignés). Cela constitue ce que nous appelons le corpus MAPS. Les chiers MIDI joués par le dispositif comportent une piste de tempo correspondant à une interprétation expres- sive des pièces. Dans nos expériences, la vérité-terrain est fournie par ces chiers MIDI. Les partitions à aligner proviennent aussi de ces mêmes chiers. Cependant, le tempo est alors xé à une valeur constante, de telle sorte que la longueur (en secondes) du morceau à ce tempo est la même que la durée de l'enregistrement. Cela correspond à une hypothèse raisonnable, dans le cas où les informations de tempo ne sont pas indiquées, ou ne sont pas accessibles de manière able dans la partition (par exemple si cette dernière est issue d'une reconnaissance optique de partition graphique). Dans la plupart des morceaux, les variations de tempo sont occasionnées uniquement par la libre interprétation des musiciens et le tempo s'éloigne peu de sa valeur moyenne. En revanche, certaines pièces contiennent plusieurs parties, où les tempos peuvent être radicalement diérents, comme le premier mouvement de la sonate pour piano n◦8  pathétique  de Beethoven qui comporte une

introduction très lente suivie d'une seconde partie allegro. Dans de tels cas, l'utilisation du tempo moyen peut mener à des a priori de durée très imprécis.

Cependant, nous verrons au chapitre 4que parmi les trois modèles temporels proposés pour l'alignement, un seul (le modèle semi-markovien) exploite l'information de tempo de la partition, à travers la modélisation de la durée absolue de chaque agrégat. En eet, le second modèle exploite uniquement les informations de longueur en pulsations des agrégats, grâce à une modélisation d'un processus de tempo et le troisième modèle ne prend en compte

aucune indication de durée.

2.5.2 Corpus RWC-pop

Un autre corpus est utilisé, tiré de la sous-base de musique pop de la base de données RWC [Goto et al.,2002]. Dans cet ensemble, 90 chansons (environ 6h de musique) sont in- tégrées à ce que nous appelons le corpus RWC-pop. Ces morceaux sont des enregistrements polyphoniques, multi-instrumentaux qui contiennent pour la plupart des percussions. L'an- notation est constituée de chiers MIDI fournis avec les enregistrements. Ces annotations sont le résultat d'une détection automatique des pulsations, qui a ensuite été corrigée à la main. Cependant, des inexactitudes peuvent subsister, notamment à des niveaux de précision très ns.

Dans ce corpus, comme dans presque toute la musique pop, le tempo des chansons est constant. Par conséquent, des changements de tempo sont introduits dans la partition MIDI à aligner, an de simuler un tempo uctuant de l'interprétation. Chaque chier est séparé en segments de longueur égale en pulsations (environ 16 pulsations) et pour chaque segment, un unique tempo est tiré aléatoirement d'après une distribution uniforme entre 40 et 240 pulsations/s. Ces modications représentent des changements de tempos extrêmes, qui peuvent occasionner des alignements relativement imprécis pour notre modèle exploitant les informations de durées absolues. Néanmoins, elles correspondent à un cas limite, et nous considérons les scores obtenus comme une borne inférieure des performances de ce modèle.

Dans notre scénario applicatif, les partitions proviennent de l'Internet. Or, les transcrip- tions en chiers MIDI de morceaux pop que l'on peut trouver en ligne peuvent contenir des erreurs dans les parties de percussions, ou bien souvent ne contiennent pas de percussion du tout. De la même façon, les annotations des percussions du corpus RWC-pop sont de qualité variable. Nous choisissons donc de ne pas tenir compte des pistes de percussions dans les partitions à aligner.

2.5.3 Base d'apprentissage et base de test.

Nos expériences requièrent pour la plupart une estimation des paramètres des systèmes d'alignement. Pour eectuer celle-ci, nous utilisons une base d'apprentissage, constituée de 30 morceaux du corpus RWC-pop et de 20 morceaux de MAPS (environ un tiers de la base totale), choisis aléatoirement. Les évaluations des systèmes sont alors menées sur le reste des corpus.

Le tableau 2.1 récapitule un certain nombre d'informations concernant les bases de données utilisées dans cette thèse. Pour l'analyse des résultats, nous supposons que les détections des attaques et les classications des trames sont eectuées de façon indépen- dantes. Cette approximation grossière nous permet d'estimer les intervalles de conance théoriques à 95% pour les scores typiques obtenus. Cependant, les valeurs calculées pour le Cout de Classication Moyen Pondéré ne sont pas vraiment ables, puisque les annotations comportent des imprécisions.

Base de données MAPS RWC-popApprentissage MAPS RWC-poptest

Nombre de morceaux 20 30 39 60

Durée totale 1h39 2h02 2h38 4h03

Nombre moyen de trames 14808 12222 12118 12143 Écart-type par morceau 9840 2283 7979 2043

Intervalle de conance CCMP   0,14% 0,11%

Nombre d'évènements à détecter 26553 36299 48009 71905

Moyenne 1328 1210 1231 1198

Écart-type par morceau 964 373 1083 405

Intervalle de conance TAMP   0,4% 0,3%

Table 2.1  Statistiques des bases de données utilisées. Les intervalles de conance sont les intervalles théoriques à 95% pour les scores typiques. Les mesures TAMP (Taux d'Aligne- ment Moyen Pondéré) et CCMP (Cout de Classication Moyen Pondéré) sont dénies en section2.4.