Collecter des phrases musicales mono-instrumentales s’av`ere particuli`erement ardu car pour la plupart des instruments, tr`es peu d’œuvres de solo sans accompagnement existent. C’est typiquement le cas pour des instruments tels que le tuba, le basson, le trombone. Une alternative est de proc´eder `a des enregistrements en studio pour les besoins de l’´etude, ce que nous avons r´ealis´e pour trois instruments : la clarinette, le saxophone alto et la trompette, au studio de T´el´ecom Paris. Mˆeme si elle est int´eressante, cette alternative ne r´esout que partiellement le probl`eme car cela ne permet d’obtenir qu’une source par session d’enregistrement.
Nous avons donc entrepris de collecter des extraits musicaux d’œuvres ou de passages de solo (sans accompagnement) `a partir d’enregistrements du commerce en nous fixant pour objectif d’obtenir pour chaque instrument un nombre maximum de sources, tout en assurant une s´ epa-ration compl`ete entre les sources utilis´ees dans la phase d’apprentissage et celles utilis´ees dans la phase de test1.
Des extraits ont ´et´e ainsi obtenus `a partir d’enregistrements num´eriques (CD : Compact Disc) de musique classique, de jazz ou de supports sonores utilis´es pour l’enseignement de la musique.
Les rares pi`eces de solo incluses dans la base RWC2 ont ´egalement ´et´e exploit´ees. Ces extraits
1nous exigeons qu’en plus de la s´eparation entre les extraits utilis´es pour l’apprentissage et ceux qui sont test´es, il y ait une s´eparation entre les sources dont sont tir´es ces extraits.
2Il s’agit d’une base de sons musicaux assez vari´ee con¸cue par des chercheurs japonais pour servir `a des travaux sur l’indexation audio [Gotoet al., 2002].
II-2. Corpus mono-instrumental (INS) 17
ont ´et´e encod´es en mono (en moyennant les deux canaux gauche et droit) au format PCM3. Nous reviendrons sur le choix de la fr´equence d’´echantillonnage dans la section III-1-A.
Nous nous sommes efforc´es de rassembler des solos d’instruments repr´esentant les diff´erentes familles instrumentales : cordes (frapp´ees, pinc´ees et frott´ees), bois (anches simples et doubles), cuivres et percussions. Des extraits correspondant aux instruments pr´esent´es dans le tableau II.1 ont pu ˆetre obtenus, `a partir d’au moins quatre sources diff´erentes. Nous distinguons la contre-basse jou´ee con arco (Ba)4 de la contrebasse jou´ee pizzicato5 car les sons produits dans ces deux configurations sont significativement diff´erents. Nous calculerons n´eanmoins un taux de reconnaissance unique `a partir de ceux obtenus dans ces deux cas (l’instrument ´etant le mˆeme).
De plus, nous distinguons les trois saxophones : t´enor, alto et soprano. En revanche,
– la classe “clarinette” regroupe des donn´ees de la clarinette en Sib et de la clarinette en Mib; – la classe “trompette” regroupe essentiellement des extraits de trompette en Do ;
– la classe “trombone” regroupe essentiellement des extraits de trombone t´enor.
Notons que pour ces instruments l’information de registre est rarement donn´ee dans les livrets descriptifs des enregistrements.
Instrument Code Instrument Code
saxophone alto As hautbois Ob
saxophone t´enor Ts saxophone soprano Ss
basson Bo piano Pn
Tab. II.1 Instruments consid´er´es et les codes que nous leur associons.
Le tableau II.2 r´esume les caract´eristiques du corpus obtenu. On y distingue trois sous-ensembles d’extraits sonores : un ensemble d’apprentissage, utilis´e comme son nom l’indique
3Pulse Coded Modulation
4avec l’archet
5en pin¸cant les cordes avec les doigts
18 II. Bases de donn´ees pour la reconnaissance des instruments de musique
dans la phase d’apprentissage, un ensemble de d´eveloppement, utilis´e pour effectuer d’´eventuels r´eglages de param`etres durant la phase de d´eveloppement des classificateurs et unensemble de test, qui sert `a l’´evaluation des performances du syst`eme. La r´epartition des extraits dans ces ensembles a ´et´e effectu´ee pour respecter autant que possible, les contraintes suivantes :
1) disposer d’un ensemble de d´eveloppement ´equivalent `a l’ensemble d’apprentissage (qui peut ˆetre, en cas de besoin, regroup´e avec l’ensemble d’apprentissage `a la fin du d´ evelop-pement) ;
2) utiliser dans l’ensemble de tests, des sources distinctes de celles utilis´ees dans les ensembles d’apprentissage et de d´eveloppement ;
3) disposer id´ealement d’un minimum de 5 sources pour l’ensemble d’apprentissage/d´eveloppement et de 5 sources pour l’ensemble de test (au total, au mois 10 sources par instrument) ;
4) pour le test, disposer id´ealement de plus de 10 minutes (et au moins de 5 minutes) de musique par instrument afin de permettre une ´evaluation avec des intervalles de confiance suffisamment ´etroits (de l’ordre de 0.1% de largeur dans le cas le plus d´efavorable).
Ces contraintes impliquent que :
– les sources de plus longues dur´ees soient utilis´ees pour les ensembles d’apprentissage et de d´eveloppement (puisque ceux-ci peuvent contenir les mˆemes sources) ;
– la taille de l’ensemble d’apprentissage peut ˆetre inf´erieure `a celle de l’ensemble de test mais la somme des ensembles d’apprentissage et de d´eveloppement est de taille sup´erieure `a celle de l’ensemble de test.
Elles n’ont malheureusement pas toujours pu ˆetre satisfaites du fait de la raret´e des extraits pour certains instruments. Ainsi, nous avons dˆu accepter d’avoir moins de sources et/ou moins de donn´ees pour un sous-ensemble d’instruments, en particulier le tuba (Ta), le cor (Fh), le saxophone soprano et la clarinette basse. Notons que dans ce dernier cas nous avons pr´ef´er´e pr´eserver toutes les donn´ees pour l’apprentissage, si bien que la reconnaissance de la clarinette basse ne sera pas test´ee, mais cet instrument fera partie des classes possibles pour le test de tous les autres instruments.
Le corpus obtenu sera d´esign´e parINSet ses sous-ensembles d’apprentissage, de d´eveloppement et de test, respectivement par INS-A,INS-Det INS-T.
Nous n’utiliserons dans certaines exp´eriences pr´eliminaires qu’un sous-ensemble de 8 instru-ments (pour all´eger la charge de calcul), en l’occurrence : le piano, la guitare, le violoncelle, le
II-2. Corpus mono-instrumental (INS) 19
Instrument Sources app./dev. App. Dev. Sources test Test
Pn 7 22’ 16” 23’ 7 14’ 13”
Gt 5 10’ 43” 10’ 37” 5 15’ 58”
Bs 3 7’ 37” 5’ 41” 5 12’ 44”
Ba 3 6’ 44” 8’ 5” 4 6’ 45”
Co 5 15’ 47” 13’ 54” 5 12’ 7”
Va 5 16’ 37” 9’ 35” 5 15’ 57”
Vl 6 34’ 11” 26’ 0” 5 24’ 11”
Ta 2 2’ 49” 0’ 0” 2 1’ 51”
Tb 4 15’ 28” 13’ 41” 4 7’ 1”
Fh 4 3’ 43” 0’ 0” 2 3’ 24”
Tr 5 10’ 46” 11’ 18” 5 11’ 30”
Bo 4 13’ 0” 13’ 43” 4 12’ 14”
Ts 3 11’ 13” 4’ 11” 5 6’ 40”
As 3 20’ 7” 6’ 44” 4 10’ 15”
Ss 2 13’ 49” 0’ 0” 2 7’ 51”
Fl 5 16’ 31” 14’ 15” 5 15’ 56”
Ob 4 14’ 46” 10’ 19” 5 14’ 40”
Cl 5 8’ 34” 9’ 7” 5 13’ 38”
Cb 4 2’ 13” 0’ 0” 0 0’ 0”
Dr 3 3’ 1” 0 1 4’ 24”
Tab. II.2 Notre base de sons mono-instrumentaux.“Sources app./dev.”, respectivement“Sources test”, d´esigne le nombre de sources distinctes disponibles `a l’apprentissage/d´eveloppement, respectivement au test. “App.”, “Dev.” et “Test” donnent respectivement les dur´ees (en minutes et en secondes) totales des extraits disponibles pour l’apprentissage, le d´eveloppement et le test. Les instruments en gras font
partie du corpusSUB-INS.
20 II. Bases de donn´ees pour la reconnaissance des instruments de musique
violon, la trompette, le cor, le hautbois et la clarinette. Nous d´esignerons ce sous-corpus par SUB-INS et ses sous-ensembles d’apprentissage, de d´eveloppement et des test, respectivement parSUB-INS-A,SUB-INS-DetSUB-INS-T.
Les propri´et´es des bases de donn´ees utilis´ees dans d’autres ´etudes sur la reconnaissance des instruments `a partir de phrases mono-instrumentales sont r´esum´ees dans le tableau II.3. Il peut ˆetre not´e que nous obtenons un corpus plus diversifi´e et de taille plus importante que les autres ´etudes. Cela nous permet d’envisager de r´ealiser l’apprentissage des classificateurs dans de meilleures conditions mais ´egalement de tester de fa¸con plus avanc´ee les capacit´es de g´en´eralisation de nos sch´emas de classification.
Classes Sources Apprentissage Test
Brown [Brownet al., 2000] 4 ! 0’ 54”- 5’ 30” 1’ - 4’
Martin [Martin, 1999] 11 2 - 8 0’ 12” - 35’ 30” 0’ 54” - 35’ 30”
Marques [Marques et Moreno, 1999] 8 2 - 2 3’ 25” - 3’ 25” 0’ 20” - 0’ 20”
Miravet [Ventura-Miravetet al., 2003] 6 3 - 9 30’ 18” - 34’ 4” 15’ 45” - 18’ 56”
Livshin [Livshin et Rodet, 2004a] 7 ! ! - ! ! - !
Notre base 19 4-14 2’ 13”- 60’ 11” 1’ 51” - 24’ 11”
Tab. II.3 Comparaison des bases de donn´ees utilis´ees dans diff´erentes ´etudes - “Classes”est le nombre de classes d’instruments consid´er´e pour lesquelles au moins 2 sources ´etaient disponibles. “Sources” est le nombre de sources distinctes utilis´ees.“Apprentissage”et“Test”repr´esentent respectivement les tailles des ensembles d’apprentissage et de test en minutes et secondes ; les dur´ees maximales et minimales
sont donn´ees. “ !” indique une information non clairement d´etermin´ee.