• Aucun résultat trouvé

12.3.1

Nature des données

La configuration informée requiert la connaissance des sources au codeur pour pouvoir être appliquée. De la même manière, une évaluation objective nécessite elle aussi ces sources.

S’il est clair que les sources sont connues au moment de l’étape de production en studio d’un morceau de musique et qu’elles sont conservées ultérieurement, les usages font qu’elles sont ja- lousement gardées par les professionnels et les ayant-droits qui les considèrent souvent comme un trésor qu’il ne faut pas divulguer. En conséquence, il est difficile de réunir des grands cor- pus qui rassemblent des morceaux mixés accompagnés des pistes séparées qui les composent. La principale campagne internationale d’évaluation des performances de séparation aveugle de sources (SIgnal Separation Evaluation Campaign, SISEC), organisée depuis 20076

par Emma- nuel Vincent [208, 209] a l’avantage de permettre une comparaison internationale et objective

5. La technique utilisée est LOESS [36]. Elle estime localement les coefficients d’une droite aux moindres carrés pondérés. Elle fut mise au point spécialement dans le but de produire des courbes synthétiques à partir de nuages de points.

6. J’ai participé à SISEC en 2011 avec Zafar Rafii [177]. Nos performances ont été très honorables. Il est regrettable cependant qu’aucune campagne d’évaluation n’existe encore qui porte sur la séparation de morceaux entiers.

12.3. DONNÉES 153 0 1 2 3 4 5 6 −9 −8 −7 −6 −5 −4 −3 −2 −1 0

nuage de points et estimation LOESS

débit

Figure 12.1: Exemple d’un nuage de points lissé en utilisant LOESS [36].

des différents algorithmes de séparation aveugle mais elle ne fait pour l’instant intervenir que 4 extraits de trente secondes dans la tâche portant sur la séparation de musique.

La base de données QUASI que j’ai utilisée pour mon évaluation a avant tout été rendue possible par la gracieuse mise à disposition sous licence libre de leurs pistes séparées par des artistes tels que Another Dreamer, Shannon Hurley, Ultimate NZ Tour, Jim Big Ego, Phoenix, Glen Phillips, Farka Touré ou Nine Inch Nails. Qu’ils soient ici remerciés pour ce geste très appré- cié.

Il est possible de trouver sur Internet des pistes sé- parées qui circulent entre passionnés et qui proviennent souvent de jeux musicaux tels que Guitar Hero ou Rock Band. Cependant, il n’est pas possible de les uti- liser officiellement, ne serait-ce qu’à des fins de recherche, parce que leurs licences d’exploitation de le permettent pas. Fort heureusement, un nouveau type de licences se développe depuis quelques années qui permet l’exploita- tion et la diffusion du contenu musical à titre gracieux. Il existe ainsi une communauté grandissante d’artistes qui placent leurs œuvres sous une licence Creative Com- mons ou Licence Art Libre, qu’on peut comprendre pour faire court comme l’équivalent des licences GPL ou LPGL en informatique7. Ainsi, il a été possible de réunir une quinzaine de morceaux avec toutes

leurs pistes séparées, exploitables à des fins scientifiques. La base de données QUASI8est composée d’une quinzaine de morceaux complets, dont on dispose de toutes les pistes séparées, échantillon-

7. J’invite le lecteur intéressé à se renseigner sur les subtilités afférentes à ces types de licences et à l’alternative qu’elles représentent au système actuel de propriété intellectuelle des créations artistiques. Des bons pointeurs pour commencer sont les sites officiels correspondants www.creativecommons.org et http://artlibre.org. Je me suis beaucoup investi personnellement dans la promotion de ces licences au court de ces dix dernières années et je ne peux que constater leur importance dans un contexte scientifique où elles sont les seules aujourd’hui à permettre la disponibilité de données d’évaluation pour la séparation de sources audio.

nées à 44.1kHz ou 48kHz. Il s’agit à l’heure actuelle de la base de données la plus complète dans le domaine. Elle contient des morceaux de genres différents, qui vont du reggae à la bossa nova en passant par le rock, l’electro-pop et l’industriel.

12.3.2

Mélanges

Hormis les sources, ou pistes séparées, il est nécessaire de disposer des mélanges à partir des- quels se fera la séparation. À partir des pistes séparées, deux approches principales sont possibles : – On peut réaliser un mixage de laboratoire, qui consiste à produire les images des sources en appliquant des filtres de mélange connus. C’est en général la stratégie adoptée dans les études de séparation de sources audio [168, 166, 169, 170, 167, 165, 78, 101, 209]. Bien que ces mixages ne correspondent pas aux usages des professionnels de la musique, il faut noter qu’ils peuvent être de très bonne qualité. Ils se caractérisent en outre par le fait que les mélanges ne subissent pas de post-production.

– On peut réaliser un mixage réaliste des sources, au sens d’un mixage qui correspond aux usages des professionnels. Dans ce cas, les mélanges sont produits en utilisant des logiciels professionnels (DAW, Digital Audio Workstation) et sont d’une qualité perceptive supérieure. Par contre, ils ne respectent pas exactement les hypothèses faites par les méthodes de sépa- ration et leurs paramètres sont généralement inconnus voire difficiles à modéliser. La base de données QUASI contient de nombreux exemples de mixages professionnels. Rares sont pour l’instant les études qui mettent en œuvre de tels mélanges dans les évaluations [130, 137, 201]. Si la deuxième option a l’attrait du réalisme par rapport aux applications visées, elle a l’inconvénient de ne pas être prise en charge par l’ensemble des techniques existantes. J’ai moi-même considéré le cas de mixages réalistes dans plusieurs évaluations publiées [130, 137] et je renvoie le lecteur à ces publications pour plus de détails.

Les mixages considérés sont linéaires ins- tantanés et convolutifs. Je remercie Syl- vain Marchand d’avoir rendu possible cette opération de mixage de laboratoire, en four- nissant à la fois la base de données des filtres de mélange et l’implémentation en Matlab permettant de l’exploiter.

De manière à permettre une comparaison de toutes les techniques de séparation informée disponibles à l’heure actuelle, il a été nécessaire de se restreindre aux confi- gurations de mixage que toutes permettent de traiter. En conséquence, il a été choisi de se concentrer exclu- sivement sur deux types de mixages de laboratoire. Le premier est un mixage linéaire instantané, tel que décrit au chapitre 5. Le deuxième est un mixage convolutif, dé- crit au chapitre 6. Dans ce deuxième cas, les filtres de mélange sont connus et d’une réponse impulsionnelle de

longueur H = 200. Ils proviennent de la base de données CIPIC [4] de filtres de spatialisation par fonction de transfert de tête (Head Related Transfer Function).

L’évaluation a ainsi porté sur un extrait de 30 secondes de chacun des morceaux de la base de données, pour lequel deux mixages sont disponibles : le premier est linéaire instantané tandis que le deuxième est convolutif avec des filtres de mélange de longueur H = 200. Dans la suite, les filtres de mélange sont supposés connus par les techniques de séparation, puisque cette connaissance est nécessaire à certaines d’entre elles.