• Aucun résultat trouvé

Nous donnons ici un bref ´etat de l’art des m´ethodes de s´eparation de sources, principalement destin´e `a montrer la sp´ecificit´e du probl`eme de la s´eparation de la piste de batterie : nous montrons d’abord les limites des m´ethodes classiques, et nous pr´esenterons ensuite quelques solutions qui y ont ´et´e apport´ees.

5.1.1

S ´eparation de sources

Dans le cas o`u l’enregistrement utilis´e est multicanal et contient autant de canaux qu’il existe de sources sonores, la s´eparation peut ˆetre effectu´ee par des algorithmes classiques d’analyse en composantes ind´ependantes – Independent Component Analysis (ICA). Cette situation id´eale ne correspond pas `a celle `a laquelle nous sommes confront´es, o`u les enregistrements sont au mieux st´er´eophoniques, et contiennent plus de deux sources. Quelques hypoth`eses quant `a la proc´edure de mixage et au non-recouvrement des repr´esentations temps/fr´equence des sources nous ont permis, au chapitre 3 de mettre en oeuvre une m´ethode de s´eparation op´erant sur des signaux st´er´eophoniques. Ces hypoth`eses n’´etant pas toujours v´erifi´ees, les performances obtenues sont insuffisantes, et cette m´ethode ne peut donc ˆetre vue que comme un pr´e-traitement.

Parmi les solutions propos´ees au probl`eme de la s´eparation de sources avec un seul capteur, on distinguera plusieurs m´ethodes.

M ´ethodes supervis ´ees : Mod `ele de source et refiltrage De telles m´ethodes n´ecessitent la formulation d’un mod`ele des sources `a extraire, dont les param`etres doivent ˆetre appris sur des signaux isol´es de chacune des sources. Il est ainsi possible de formuler un mod`ele du m´elange des sources, dont l’estimation des param`etres `a partir du m´elange observ´e permet de d´eduire la contri- bution de chacune des sources. Les mod`eles mis en oeuvre sont divers : mod`eles statistiques comme les HMM dans [Row01], ou des r´eseaux bay´esiens dans [VR04b], l’estimation des param`etres se faisant au maximum de vraisemblance ; ou repr´esentation d’une source comme un “sac de trames” typiques, obtenues par quantification vectorielle [EW06]. La s´eparation d’une source se fait dans tous les cas par filtrage ou masquage. Dans l’application d’extraction de la piste de batterie, nous souhaitons s´eparer deux sources : la batterie, et les autres instruments non percussifs. La diversit´e des sources `a s´eparer est probl´ematique : il semble difficile de disposer d’un mod`ele capable, `a lui seul, de d´ecrire tous les sons percussifs et tous les sons non-percussifs.

M ´ethodes non-supervis ´ees bas ´ees sur des crit `eres psychoacoustiques Ellis pr´esente dans [Ell96] un syst`eme d’analyse de signaux utilisant des r`egles de groupement issues de la psy- choacoustique (par exemple des partiels ´evoluant simultan´ement seront perc¸us comme appartenant `a la mˆeme source) pour grouper les trajectoires de partiels dans le plan temps/fr´equence, et ainsi former des objets sonores. Une reformulation de cette m´ethode comme un probl`eme de clustering des points temps-fr´equence est donn´ee par Bach et Jordan dans [BJ06]. De telles m´ethodes sont par- ticuli`erement adapt´ees aux signaux harmoniques, mais ne permettent pas la s´eparation de sources bruit´ees, comme cela est requis pour la s´eparation de signaux percussifs. Mˆeme pour les instruments `a percussion contenant une forte proportion de composantes harmoniques (toms), la d´ecroissance des partiels est trop rapide pour assurer le suivi de leur trajectoire.

M ´ethodes non-supervis ´ees d’ ´elimination de la redondance Elles visent `a obtenir une d´ecomposition du spectrogramme comme une somme de quelques sources sonores. La seule hy- poth`ese formul´ee quant `a ces sources est que leur spectrogramme puisse ˆetre ´ecrit comme le produit externe d’un profil spectral et d’une enveloppe temporelle – autrement dit que les sources peuvent ˆetre vues comme des processus al´eatoires gaussiens stationnaires, modul´es lentement en amplitude. La d´ecomposition est obtenue soit par PCA puis par ICA – la m´ethode porte alors le nom d’analyse en sous espaces ind´ependants [CW00] ; par NMF [LS01] ; ou par des techniques de codage parcimo- nieux [Vir03]. Cependant, l’hypoth`ese formul´ee quant `a la forme des spectres de ces sources n’est pas toujours valide pour les sources percussives : modulation de fr´equence pour les toms et la grosse caisse, et transitoires au voisinage de la frappe rendent ce mod`ele inad´equat. En cons´equence, l’ap- plication directe de ces m´ethodes peut se traduire par de la sur-s´eparation : le choc de la mailloche sur la grosse caisse et la composante p´eriodique qui suit ce choc, ou la section o`u la fr´equence fon- damentale d’un tom est modul´ee, et la section o`u elle se stabilise, sont extraits comme des sources distinctes.

Bref ´etat de l’art

De plus, un inconv´enient commun `a toutes les m´ethodes non-supervis´ees est la n´ecessit´e de fixer a priori le nombre de sources `a extraire, et de reconnaˆıtre a posteriori, parmi les sources s´epar´ees, celles qui correspondent `a des instruments percussifs. Une mauvaise estimation a priori du nombre de sources peut conduire `a une sur-s´eparation – le mˆeme instrument est s´epar´e en deux composantes, et devient donc difficile `a identifier, ou `a une sous-s´eparation – un instrument harmonique et un instrument percussif jouant souvent simultan´ement sont s´epar´es en une seule et mˆeme source. Deux solutions sont possibles : utiliser des connaissances a priori sur les sources `a extraire (dans ce cas, il s’agit de s´eparation supervis´ee), ou utiliser des m´ethodes d’apprentissage statistique pour classer et regrouper les sources extraites.

Applications de ces m ´ethodes `a la piste de batterie L’application directe d’une des m´ethodes que nous venons de pr´esenter a ´et´e effectu´ee par Virtanen et Hel´en dans [HV05] : des SVM sont utilis´es pour reconnaˆıtre et s´electionner les sources percussives, parmi celles extraites par NMF. La th`ese de FitzGerald [Fit04] contient ´egalement quelques exemples de s´eparation des pistes de grosse caisse, caisse claire et hi-hat1produites par ISA, mˆeme si elles ne sont donn´ees qu’`a titre illustratif (l’application de s´eparation et de remixage n’est pas envisag´ee).

5.1.2

M ´ethodes de s ´eparation sp ´ecifiques `a la batterie

Observons tout d’abord que les syst`emes de transcription suivant l’approche MatAda produisent, en plus de la transcription, des mod`eles temporels ou temps/fr´equence de chacun des instruments de la batterie d´etect´ee. De tels mod`eles permettent ainsi, en combinaison avec la partition, de re- synth´etiser une piste de batterie : pour chaque instrument, un train d’impulsions indiquant `a quels instants ont ´et´e d´etect´ees des frappes de cet instrument est convolu´e par le mod`ele temporel de cet instrument (ou par le signal reconstitu´e `a partir du mod`ele temps-fr´equence). Cette solution a ´et´e pro- pos´ee par Zils et al. dans [ZPDG02] pour des mod`eles temporels, et par Yoshii et al. dans [YGO05] pour des mod`eles temps/fr´equence. Notons que dans les deux cas, la piste de batterie reconstruite perd les variations de dynamique et de timbre contenues dans le signal original, puisque chaque frappe de la batterie sera toujours synth´etis´ee de la mˆeme fac¸on. Le signal obtenu ne peut d`es lors ˆetre ajout´e ou soustrait au signal original pour r´ealiser un remixage de la piste de batterie.

En dehors de ces syst`emes, deux m´ethodes de s´eparation exploitant des propri´et´es typiques des signaux de batterie ont ´et´e propos´ees.

Barry et al. observent dans [BFCL05] que les variations brusques du flux spectral dans les si- gnaux de musique sont principalement dues aux instruments percussifs. Ils proposent donc de mo- duler le spectrogramme par une mesure d’impulsivit´e d´eduite du SEF. Cette m´ethode, extrˆemement peu coˆuteuse en calculs, n’extrait cependant que la composante transitoire de chaque instrument percussif.

Nous avons introduit dans [GR05d] une technique de s´eparation sp´ecifique `a la batterie qui est d´ecrite et ´etendue dans la section suivante. Elle poss`ede plusieurs avantages : tout d’abord, elle ne n´ecessite pas de connaˆıtre a priori le nombre de sources `a extraire, puisqu’elle mod´elise la piste de batterie comme une seule et mˆeme source - de fait, elle ne requiert pas non plus l’identification des sources extraites. Ensuite, elle est “conservative”, au sens o`u aucune information (de phase, par exemple), n’est perdue lors de l’op´eration d’analyse et de synth`ese, permettant l’extraction d’un signal pouvant ˆetre ajout´e ou soustrait au signal original pour les applications de remixage. Enfin, elle est non-supervis´ee, et ne demande que l’apprentissage de param`etres g´en´eriques pouvant d´ecrire une large gamme de signaux.

1Notons que nous ne nous int´eressons pas ici `a l’extraction des pistes individuelles de grosse caisse, caisse claire, et

hi-hat. Nous nous int´eressons seulement `a la reconstruction de la piste de batterie du signal original, en tant qu’une seule et unique source.