Synth`ese et transformation sonore par descripteurs de haut-niveau
Damien Tardieu DEA
Acoustique, traitement du signal et informatique appliqu´ es ` a la musique
Universit´ e Aix Marseille II
M´ emoire r´ ealis´ e ` a IRCAM 75004 Paris
1 place Igor Stravinsky
Responsables : Xavier Rodet, Geoffroy Peeters
Septembre 2004
Remerciements
Je tiens ` a remercier :
Xavier Rodet de m’avoir accept´ e dans son ´ equipe pour effectuer ce stage et pour toutes les conversations que nous avons pu avoir sur mon travail.
Geoffroy Peeters dont les conseils, orientations et enseignements m’ont permis de mener ` a bien mes travaux.
Steve McAdams pour avoir pris le temps d’´ ecouter et de r´ epondre ` a toutes mes questions sur la perception du timbre.
Alice Daquet, Romain Kronenberg, Matthias Demoucron et Gr´ egoire Carpentier qui m’ont aid´ e et soutenu durant mes journ´ ee et mes nuits ` a l’IRCAM.
Tous les membres de l’´ equipe Analyse-Synth` ese pour leur accueil et leur disponibilit´ e.
Table des mati` eres
1 Introduction 5
2 Etat de l’art 7
2.1 Description du son . . . . 7
2.1.1 L’approche perceptive et cognitive . . . . 7
2.1.2 L’approche signal . . . . 8
2.2 La transformation sonore de haut-niveau . . . . 9
2.2.1 Transformation bas´ ee sur le mod` ele SMS . . . . 9
2.2.2 La psychoacoustique . . . . 9
2.2.3 Transformations et synth` eses bas´ ees sur les descripteurs obtenus par des m´ ethodes statistiques . . . . 10
2.2.4 Le mod` ele de Jensen . . . . 10
2.3 Conclusion . . . . 11
3 Les descripteurs retenus pour le mod` ele de transformation 12 3.1 Description de l’enveloppe spectrale . . . . 12
3.1.1 L’enveloppe spectrale . . . . 12
3.1.2 Les partiels . . . . 14
3.2 Etude de la valeur des moments sur un ensemble de sons . . . . 14
4 Mod´ elisation de l’enveloppe spectrale par splines 18 4.1 Introduction . . . . 18
4.2 Les splines . . . . 18
4.2.1 Description g´ en´ erale et d´ efinitions . . . . 18
4.2.2 Multiplicit´ e des noeuds et continuit´ e . . . . 20
4.2.3 Approximation de fonction a l’aide de splines . . . . 21
4.2.4 Produit scalaire dans S k,t . . . . 21
4.3 Application ` a l’approximation et ` a la transformation d’enveloppe spectrale 22 4.3.1 Approximation de l’enveloppe spectrale . . . . 22
4.3.2 Transformation par changement de la valeur des moments . . . . . 22
4.4 Mod´ elisation de l’´ evolution temporelle des descripteurs . . . . 25
5 Description du syst` eme 28
5.1 L’analyse . . . . 28
5.1.1 L’analyse Additive . . . . 28
5.1.2 Estimation de l’enveloppe spectrale : Le cepstre discret . . . . 28
5.1.3 Approximation et transformation de l’enveloppe par la m´ ethode des B-splines . . . . 30
5.2 La synth` ese . . . . 30
5.2.1 Reconstruction de l’enveloppe ` a partir des nouveaux coefficients . . 30
5.2.2 La synth` ese additive . . . . 30
6 R´ esultats 32 6.1 Pr´ esentation . . . . 32
6.1.1 Analyse et synth` ese sans transformation . . . . 32
6.1.2 Changement de la valeur d’un des moments . . . . 32
6.1.3 Lissage des descripteurs au cours du temps . . . . 34
7 Conclusion 38
Chapitre 1 Introduction
De nombreuses m´ ethodes de synth` ese sonore existent, chacune fond´ ee sur un para- digme diff´ erent : superposition de sinuso¨ıdes, synth` ese par formant, synth` ese soustrac- tive, synth` ese par forme d’onde ´ el´ ementaire, synth` ese par modulation fr´ equentielle, etc.
Ces m´ ethodes permettent une mod´ elisation tr` es pr´ ecise du signal sonore. Cependant il en r´ esulte un nombre important de param` etres qu’il devient difficile de contrˆ oler lorsqu’on d´ ecide de manipuler le timbre.
En effet, le timbre est un attribut multidimensionnel du son et ses dimensions sont mal connues. La difficult´ e de le manipuler de mani` ere scientifique provient alors de la mau- vaise compr´ ehension que nous en avons. Mais inversement, nous pourrions aussi dire que la mauvaise compr´ ehension que nous en avons provient de la difficult´ e de le manipuler [HKCH97]. Les questions de la compr´ ehension et de la manipulation du timbre se posent alors en miroir. Elles sont sinon identiques, du moins intimement li´ ees. Quelles axes de recherche nous permettrait alors de sortir de cette boucle ?
Se reposer sur une d´ efinition du timbre pose le probl` eme du choix, car il n’en existe pas qui soit unanimement admise, et le timbre est en g´ en´ eral d´ efini par ce qu’il n’est pas.
Pour notre ´ etude, nous avons choisi la d´ efinition suivante : “Le timbre est l’attribut de la sensation auditive suivant lequel un auditeur peut diff´ erencier deux sons en utilisant tous crit` eres autres que la hauteur, la sonie et la dur´ ee”. Cette d´ efinition pr´ esente, en effet, l’avantage de proposer un axe de recherche exploitable : la perception, en se basant sur une sensation auditive pour qualifier le timbre. De plus, la supposition que des comparaisons de timbre peuvent ˆ etre effectu´ ees par un jugement de dissemblance perceptive entre deux sons de hauteurs diff´ erentes a r´ ecemment ´ et´ e confirm´ ee [MdCMW03]. Nous nous propo- sons donc de prendre en compte les dimensions qui sous tendent la perception du timbre comme param` etres pour optimiser son contrˆ ole. Les r´ esultats des ´ etudes de perception et cognition musicale, ´ etant exp´ erimentalement valid´ es il semble pertinent de les privil´ egier.
Cependant ces exp´ eriences fournissent un nombre limit´ e de descripteurs. Nous devons en chercher d’autres, nous nous basons pour cela sur les travaux de description du son issus du traitement du signal.
Une fois identifi´ e notre ensemble de descripteurs, il est question de les manipuler et donc
de faire des choix. En effet, suite ` a l ’ analyse d’ un son, plusieurs transformations sont
possibles, et il faut d´ ecider de quelle mani` ere passer des valeurs obtenues de nos descrip- teurs aux valeurs souhait´ ees. Pour cela, nous devons cr´ eer un mod` ele ou une m´ ethode de transformation.
Apr` es avoir pr´ esent´ e les travaux effectu´ es concernant les descripteurs du son et les mod` eles de synth` ese d´ ej` a existants dans le chapitre 2, nous d´ efinissons les descripteurs que nous avons choisis (chapitre 3).
Ensuite, dans le chapitre 4, nous proposons une mod´ elisation par splines de l’enveloppe spectrale ainsi qu’une m´ ethode permettant d’obtenir une nouvelle enveloppe ` a partir de la valeur d´ esir´ ee des descripteurs. Enfin le r´ esultat des mod´ elisations et des transformations est ´ etudi´ e et critiqu´ e dans le chapitre 6.
Les r´ esultats de ce travail ´ etant principalement des sons, nous en avons mis quelques uns sur la page web suivante :
www.ircam.fr/anasyn/dtardieu/exemples.html
Chapitre 2 Etat de l’art
2.1 Description du son
Dans ce chapitre, nous montrons l’existant en terme de description du son et de synth` ese par descripteurs de haut-niveaux.
2.1.1 L’approche perceptive et cognitive
L’approche principalement adopt´ ee dans l’´ etude du timbre en psychoacoustique consiste
`
a d´ ecrire les dimensions perceptives du timbre en terme de propri´ et´ es abstraites du son [Don97], [MWD + 95]. D’apr` es cette approche, les sons seraient per¸cus selon certains des- cripteurs acoustiques (spectraux, temporels ou spectraux-temporels) cr´ eant un “espace de timbre”.
La d´ etermination de cette espace se fait g´ en´ eralement en utilisant des m´ ethodes d’analyses multidimensionnelles sur les r´ eponses de sujets ` a des tˆ aches de jugement de (dis)similarit´ es entre diff´ erents sons. L’analyse fournit des axes expliquant au mieux les r´ eponses des su- jets. Il convient ensuite de d´ eterminer les corr´ elats acoustiques de ces axes. Les descripteurs acoustiques g´ en´ eralement mis en ´ evidence sont le centro¨ıde et l’´ etendue spectrale [PMH00], le temps d’attaque et le flux spectral. Ces ´ etudes, r´ ealis´ ees sur des sons instrumentaux ou des synth` ese crois´ ees entre intruments, nous permettent de comprendre les descripteurs principaux permettant de diff´ erencier les sons. Cependant, toutes ces exp´ eriences sont r´ ealis´ ees sur des sons de mˆ eme fr´ equence fondamentale. Mais qu’en est-il des comparaisons entre des sons de fr´ equences diff´ erentes ? [MdCMW03] d´ emontre qu’il est possible d’ef- fectuer des comparaisons de timbre pour des sons de hauteurs diff´ erentes (les intervalles
´
etudi´ es sont de 2 et 11 demi-tons). De plus ses exp´ eriences semblent montrer que les po- sitions relatives mais aussi les positions absolues des sons dans l’espace de timbre restent
`
a peu pr` es constantes malgr´ e les changements de hauteur. Ceci sugg` ere que la valeur d’un
descripteur acoustique sous-tendant un axe perceptif doit ˆ etre ind´ ependante de la hauteur
du son.
2.1.2 L’approche signal
La description du son a aussi ´ et´ e largement ´ etudi´ ee dans le domaine du traitement du signal. Deux approches diff´ erentes sont utilis´ ees. La premi` ere consiste ` a utiliser des descripteurs acoustiques d´ ej` a connus, issus de divers domaines scientifiques, la seconde utilise des m´ ethodes statistiques pour d´ eterminer automatiquement les descripteurs.
Description utilisant des descripteurs connus
Pour des applications de classification automatique, un ensemble de descripteurs issus du signal sonore est cr´ e´ es. Ces descripteurs sont emprunt´ es ` a diff´ erents domaines comme la perception (voir paragraphe 2.1.1), la physiologie, le traitement de la parole ou le traitement du signal. Ensuite, par apprentissage sur une base de donn´ ees de sons, des valeurs de descripteurs sont associ´ ees ` a des classes de sons. Ainsi [Pee03b] ` a ´ etablit un ensemble d’une cinquantaine de descripteurs dans le cadre du projet europ´ een CUIDADO. Ces descripteurs sont instantan´ es c’est ` a dire calcul´ es sur chaque trame de signal ou globaux c’est ` a dire calcul´ es pour la totalit´ e du signal, ils d´ ecrivent la forme temporelle, la forme spectrale, le contenu harmonique et, grˆ ace ` a un mod` ele simplifi´ e du processus d’audition humain, ils d´ ecrivent aussi les sons en termes perceptifs. La valeur des descripteurs instantan´ es est calcul´ ee pour chaque trame de signal, ensuite leur ´ evolution dans le temps est caract´ eris´ ee par une moyenne, une variance, une approximation polynomiale ou une modulation.
En terme de description de la forme spectrale, nous retiendrons les descripteurs suivants : le centro¨ıde spectral, l’´ etendue spectrale issus de la psychoacoustique mais aussi les moments d’ordre sup´ erieur, la skewness et la kurtosis.
Analyse en composantes principales sur des bases de donn´ ees de sons
La seconde approche consiste ` a effectuer une analyse statistique de type PCA sur une base de donn´ ee de son.
Ainsi Hourdin, Charbonneau et Moussa [HCM97a] ont cr´ e´ e un ¨espace de timbre” en
effectuant une analyse proche de l’analyse en composante principale (Factorial Analysis
of Correspondance) sur un ensemble de sons. Cet ensemble est constitu´ e de 40 sons de
diff´ erents instruments tous jou´ es ` a la mˆ eme hauteur (E4). Les sons sont analys´ es par la
m´ ethode des filtres h´ et´ erodynes qui donne l’amplitude et la fr´ equence des partiels d’un son
quasi harmonique en fonction du temps. Le nombre de partiels choisi est de 40, ainsi un
son est repr´ esent´ e par une trajectoire dans un espace ` a 80 dimensions (40 de fr´ equence et
40 d’amplitude). Le but est donc de r´ eduire le nombre de dimensions tout en conservant
les qualit´ es perceptives du son. L’analyse des r´ esultats indique que six facteurs contiennent
85 % de l’information et 3 en contiennent 68%. Une interpr´ etation physique des trois pre-
miers axes est aussi propos´ ee. Le premier axe est associ´ e ` a l’´ energie du signal, le second ` a
la largeur du spectre et le troisi` eme ` a la proportion d’´ energie concentr´ ee dans les basses
fr´ equence.
2.2 La transformation sonore de haut-niveau
Les descripteurs de haut niveau qui ont le plus fait l’objet d’´ etude sont la hauteur (transposition) et la dur´ ee des sons (dilatation/compression temporelle). Les m´ ethodes classiques d’analyse-synth` ese permettent des transformations tr` es pr´ ecises de ces deux des- cripteurs.
En revanche peu de m´ ethodes ont ´ et´ e propos´ ees pour le timbre du fait du manque de connaissance ` a son sujet, ce champ ´ etant plutˆ ot trait´ e de mani` ere empirique grˆ ace ` a des effets tels que ceux utilis´ es par les ing´ enieurs du son (flanger, chorus, equalisation ...).
Les techniques propos´ ees sont en g´ en´ eral bas´ ees sur l’analyse/synth` ese par addition de sinuso¨ıdes. Permettant une analyse tr` es fine du signal et une resynth` ese presque parfaite mais au prix d’une multiplication du nombre de param` etres (fr´ equence, amplitude et phase des partiels pour chaque trame de signal), cette m´ ethode pose le probl` eme du contrˆ ole de mani` ere ´ evidente. Ses paramˆ etres sont tout ` a fait compr´ ehensibles intuitivement mais leur manipulation individuelle est fastidieuse et les r´ esultats peu pr´ evisibles.
Parmi les m´ ethodes que nous allons pr´ esenter, nous insisterons particuli` erement sur le
¨Timbre Model” de Kristofer Jensen qui est le seul ` a notre connaissance ` a proposer un mod` ele complet bas´ e sur des descripteurs perceptifs.
2.2.1 Transformation bas´ ee sur le mod` ele SMS
Xavier Serra et Jordi Amatrian [SB98], [ABLS02] proposent un ensemble de trans- formations bas´ ees sur le mod` ele SMS (Spectral Modeling System). Ce mod` ele est une variante du mod` ele additif. Les transforamtions sont en g´ en´ eral des applications directes des possibilit´ es de SMS comme la translation ou la distorsion du spectre harmonique. Trois transformations donnent acc` es ` a des descripteurs de plus haut niveau : le vibrato, le tre- molo (o` u l’on postulent que la fr´ equence ou l’amplitude des partiels varient sinusoidaleme) et le changement du genre d’un locuteur.
Les auteurs sugg` erent la possibilit´ e d’effectuer d’autres transformations mais ne pr´ ecisent pas de m´ ethodes.
2.2.2 La psychoacoustique
Pour v´ erifier les hypoth` eses relatives aux dimensions perceptives du timbre obtenues sur des sons instrumentaux, la psychoacoustique a recours ` a des mod` eles spectraux per- mettant de contrˆ oler les param` etres physiques sous tendant les dimensions perceptives. Le mod` eles g´ en´ eralement adopt´ e est que le spectre est une droite. Le centro¨ıde spectral est alors reli´ e ` a la pente de la droite. Ensuite des ajustements sont effectu´ es sur l’amplitude des harmoniques pour contrˆ oler d’autres descripteurs comme la proportion d’harmonique pairs et impairs.
Ce mod` ele, parfaitement adapt´ e ` a son objectif (qui est de v´ erifier la possibilit´ e de pr´ edire
la position d’un son dans un espace de timbre), ne semble pas adapt´ e ` a un usage musical,
du fait de la trop grande approximation de la forme du spectre.
2.2.3 Transformations et synth` eses bas´ ees sur les descripteurs obtenus par des m´ ethodes statistiques
L’analyse d´ ecrite au paragraphe 2.1.2 a donn´ e lieu ` a une m´ ethode de transformation et de synth` ese [HCM97b].
L’espace r´ eduit obtenu permet d’effectuer des interpolations entre instruments ou des synth` eses en d´ eplacant les coordonn´ ees du sons. En effet, du fait de la m´ ethode d’ana- lyse utilis´ ee, il est possible de recr´ eer un son ` a partir d’une trajectoire dans l’espace.
2.2.4 Le mod` ele de Jensen
Kristofer Jensen propose dans [Jen99] un mod` ele de timbre que nous r´ esumons ici.
Le mod` ele d’enveloppe
Jensen d´ efinie l’enveloppe spectrale comme le maximum au cours du temps de l’ampli- tude a k (t) des partiels.
a k = max t a k (t)
Ainsi une seule enveloppe spectrale est d´ efinie pour tout le son. Celle-ci est mod´ elis´ ee par quatre descripteurs proches de la perception :
La brillance
T b = P N
k=1 ka k P N
k=1 a k (2.1)
Le tristimulus 1
T 1 = a 1 P N
k=1 a k (2.2)
Le tristimulus 2
T 2 = a 2 + a 3 + a 4
P N k=1 a k
(2.3) La proportion d’harmoniques impairs
T o = P N/2
k=2 a 2k−1
P N k=1 a k
(2.4) Bien sur, il existe une infinit´ e d’enveloppe pour une valeur de ces descripteurs. Pour limiter le nombre de possibilit´ e, Jensen impose une mod´ elisation lin´ eaire de l’enveloppe spectrale en log-amplitude pour les partiels de rang sup´ erieur ` a 4 :
a k =
( B −k , si k impair
k 0 B −k , si k pair (2.5)
o` u B et k 0 d´ ependent de la brillance T b et de la proportion d’harmoniques impairs T 0 selon les expressions suivantes :
B = T b T b − 1 k 0 = (B + B 2 − 1) T 0
1 − T 0
Ces expressions correspondent ` a une approximation o` u toutes l’enveloppe serait d´ ecrite par (2.5) et o` u le nombre de partiels serait infini. Une fois B et k 0 obtenus, les coefficients a 1 jusqu’` a a 4 peuvent ˆ etre calcul´ es grˆ ace aux ´ equations (2.1), (2.2), (2.3), (2.4).
Ce syst` eme donne parfois des r´ esultats n´ egatifs, dans ce cas une proc´ edure it´ erative permet de d´ eterminer les valeurs des harmoniques basses en ajustant B et k 0 et en tenant compte de l’irr´ egularit´ e du spectre d´ efinie comme P N
k=1 (a k − a k+1 ) 2 / P N k=1 a 2 k .
2.3 Conclusion
Parmi tous les descripteurs acoustiques d´ ecrivant la timbre nous avons choisi d’en gar- der quatre, les quatre premiers moments du spectre. Les deux premiers, le centro¨ıde et l’´ etendue spectral, sont souvent identifi´ es comme sous-tendant le deuxi` eme et le troisi` eme axe de l’espace perceptif du timbre. Le rˆ ole de la skewness et de la kurtosis n’a pas ´ et´ e r´ eellement ´ etudi´ e, cependant elles sont utilis´ ees en classification et la skewness peut ˆ etre associ´ ee aux troisi` eme axe de [HCM97a]. De plus ces deux descripteurs ont une coh´ erence math´ ematique avec le centro¨ıde et l’´ etendue spectrale ce qui facilite la mod´ elisation.
Nous allons donc mod´ eliser l’enveloppe spectrale d’un son principalement par ses quatre
premiers moments. Nous verrons dans la suite que d’autres descripteurs se sont r´ ev´ el´ es
n´ ecessaires pour obtenir un mod` ele int´ eressant.
Chapitre 3
Les descripteurs retenus pour le mod` ele de transformation
Ce chapitre pr´ esente l’ensemble des param` etres que nous utiliserons dans notre mod` ele d’enveloppe spectrale.
3.1 Description de l’enveloppe spectrale
G´ en´ eralement, les descripteurs spectraux sont calcul´ es soit sur le spectre d’une trame de son, soit sur les amplitudes des harmoniques de cette trame, soit sur un banc de filtre.
Nous avons choisi calculer ces descripteurs sur l’enveloppe spectrale. Les valeurs calcul´ ees sur l’enveloppe spectrale ne sont pas les mˆ emes que celles calcul´ ees sur les harmoniques mais elles sont proportionnelles entre elles tant que le nombre d’harmoniques est suffisam- ment ´ elev´ e. Or, dans notre contexte, se sont bien les valeurs relatives des descripteurs qui nous int´ eressent, de plus nous cherchons ` a contrˆ oler des sons qui contiennent un grand nombre d’harmoniques, puisque, si un son en contient peu, il est plus ais´ e de manipuler les harmoniques individuellement que de manipuler l’enveloppe spectrale.
3.1.1 L’enveloppe spectrale
Nous avons choisi de d´ ecrire l’enveloppe spectrale par sa forme et sa largeur (que nous appellerons bande passante). Nous travaillons sur une enveloloppe de bande passante nor- malis´ ee ` a 1. La forme de l’enveloppe est alors obtenue grˆ ace ` a ses quatre premiers moments.
Ensuite la v´ eritable enveloppe est obtenue par changement d’´ echelle de facteur ´ egal ` a la bande passante.
Tous les moments sont calcul´ es sur l’enveloppe spectrale a(ν) en fr´ equence lin´ eaire nor-
malis´ ee ν ∈ [0, 1] et amplitude logarithmique normalis´ ee. La fr´ equence normalis´ ee 0 est
associ´ ees ` a la fr´ equence du premier harmonique f 1 , tandis que la fr´ equence 1 est associ´ e ` a
la fr´ equence de coupure vois´ ee/non-vois´ ee f c , c’est ` a dire la fr´ equence au-del` a de laquelle
le spectre est mieux expliqu´ e par du bruit que par des partiels quasi-harmoniques [Pee01].
Les amplitudes logarithmiques sont calcul´ ees comme suit :
Soit e l’amplitude lin´ eaire et a l’amplitude logarithmique de l’enveloppe spectrale.
a = log10( e e 0 )
o` u e 0 est un seuil choisi arbitrairement pour que les amplitudes en logarithmes soit tou- jours positives. Dans nos exp´ eriences nous prenons e 0 = 10 − 8. Ensuite les amplitudes sont normalis´ ees :
a norm (ν) = a(ν) R 1
0 a(ν) dν Dans la suite nous appelons aν l’enveloppe normalis´ ee.
Le centro¨ıde spectral
Le centro¨ıde spectral ou centre de gravit´ e ` a ´ et´ e identifi´ e comme ´ etant l’un des pa- ram` etres les plus importants pour la description du timbre d` es les premi` eres exp´ eriences sur la perception du timbre. Plusieurs d´ efinitions existent, nous adopterons la suivante :
µ = Z 1
0
ν a(ν) dν
L’´ etendue spectrale
Nous d´ efinissons l’´ etendue spectrale comme l’´ etendue du spectre autour de sa valeur moyenne.
σ 2 = Z 1
0
(ν − µ) 2 a(ν) dν La skewness
La skewness donne une mesure de la sym´ etrie du spectre autour de sa moyenne. Elle est calcul´ ee ` a partir du moment d’ordre 3.
γ 1 = 1 σ 3
Z 1 0
(ν − µ) 3 a(ν) dν
Une skewness nulle correspond ` a une distribution sym´ etrique, une skewness n´ egative indique une plus grande ´ energie ` a droite et une skewness positive une plus grande ´ energie
`
a gauche. Le spectre d’un son ´ etant en g´ en´ eral d´ ecroissant la skewness est positive.
La kurtosis
la kurtosis donne une mesure de l’aplatissement du spectre autour de sa moyenne. Il est calcul´ e ` a partir du moment d’ordre 4.
γ 2 = 1 σ 4
Z 1 0
(ν − µ) 4 a(ν) dν
Une distribution normale a une kurtosis de 3. Plus la distribution est plate plus la kurtosis est faible, plus elle est pointue, plus la kurtosis est ´ elev´ ee.
La bande passante
Elle est d´ efinie par la diff´ erence entre la fr´ equence de coupure vois´ ee/non-vois´ ee et celle du premier partiel. Cette valeur est directement reli´ ee par la fr´ equence fondamentale au nombre d’harmonique du son.
D´ ependance des moments avec la bande passante
La kurtosis et la skewness sont ind´ ependante de l’intervalle de fr´ equence utilis´ e pour les calculer. En revanche, le centro¨ıde et l’´ etendue spectrale en d´ ependent. Ainsi si au lieu de les calculer sur des valeurs normalis´ ees comprises entre 0 et 1, nous les calculons sur des fr´ equences r´ eelles f ∈ [0, F ], ils se trouvent tous les deux multipli´ es par F .
Les ´ equations suivantes indiquent comment calculer les moments en valeurs fr´ equentielles
`
a partir des moments en valeurs normalis´ ees, de la bande passante et de la fr´ equence f 1 du premier harmonique (qui est g´ en´ eralement ´ egale ` a la fr´ equence fondamentale f 0 ).
µ f = µ B w + f 1 σ f = σ B w
γ 1f = γ 1 γ 2f = γ 2
3.1.2 Les partiels
Nous n’avons pas mod´ elis´ e les fr´ equences des partiels, elles sont donc conserv´ ees, ainsi que leur phase et leur index.
3.2 Etude de la valeur des moments sur un ensemble de sons
Pour tenter de comprendre un peu mieux nos descripteurs spectraux, nous les avons
calcul´ es pour tous les ´ el´ ements d’une base de donn´ ees d’extraits sonores (Studio En Ligne
- IRCAM). Les extraits sont des notes seules jou´ ees sur des instruments harmoniques soutenus ou non ` a diff´ erentes hauteurs. La base de donn´ ees contient 1003 sons de 16 instruments.
Les moments sont calcul´ es sur la fr´ equence et l’amplitude des partiels. L’amplitude et la fr´ equence des partiels est obtenues par analyse additive, les partiels dont la fr´ equence est sup´ erieure ` a la fr´ equence de coupure vois´ e/non-vois´ e sont supprim´ es.
La figure 3.1 montre les corr´ elations entre les moments en valeurs fr´ equentielles, la figure 3.2 montre celles des moments normalis´ es.
La l´ egende de chaque figure est la corr´ elation entre les deux moments repr´ esent´ es calcul´ ee par la m´ ethode de Pearson.
Tout d’abord, nous remarquons que le centro¨ıde et l’´ etendue spectrale sont fortement corr´ el´ es (.98) lorsqu’ils sont calcul´ es en fr´ equences r´ eelle. En effet, du fait de la forme dissym´ etrique du spectre des instruments de musique, les deux ont tendance ` a augmenter lorsque la largeur du spectre augmente. D’ailleurs, le fait de normaliser les fr´ equences (ce qui annule l’effet de la largeur du spectre) rend la corr´ elation tr` es faible. En revanche, la corr´ elation est d´ eplac´ ee ` a la skewness. En effet, dans ce cas, un son dont le centro¨ıde est
´
elev´ e aura plus d’´ energie ` a droite.
Cette ´ etude nous permet aussi d’avoir une id´ ee sur l’intervalle que couvre chaque moment (cf. tableau 3.1). Ces intervalles pourront ˆ etre compar´ es aux r´ esultats des transformations que nous allons proposer.
Moment Minimum Maximum
centro¨ıde 0.3 0.5
´ etendue 0.26 0.34
skewness 0 0.8
kurtosis 1.5 2.5
Tab. 3.1 – Intervalles de valeurs des moments normalis´ es du Studio On Line
0 5000 10000 15000 0
1000 2000 3000 4000 5000 6000 7000
harmonic centroid
harmonic spectral spread
correlation0.9856
0 5000 10000 15000
0 0.2 0.4 0.6 0.8 1
harmonic centroid
harmonic skewness
correlation−0.23771
0 5000 10000 15000
0.5 1 1.5 2 2.5 3
harmonic centroid
harmonic kurtosis
correlation−0.14274
0 0.2 0.4 0.6 0.8 1
0.5 1 1.5 2 2.5 3
harmonic skewness
harmonic kurtosis
correlation0.77648
Fig. 3.1 – Etude de la corr´ elation entre les moments des sons du Studio En Ligne
0.2 0.3 0.4 0.5 0.6 0.7 0.26
0.28 0.3 0.32 0.34 0.36 0.38
normalized centroid
normalized spread
correlation0.16468
0.2 0.3 0.4 0.5 0.6 0.7
0 0.2 0.4 0.6 0.8 1
normalized centroid
skewness
correlation−0.86026
0.2 0.3 0.4 0.5 0.6 0.7
0.5 1 1.5 2 2.5 3
normalized centroid
kurtosis
correlation−0.65223
0.25 0 0.3 0.35 0.4 0.45
0.2 0.4 0.6 0.8 1
normalized spread
skewness
correlation−0.16926
Fig. 3.2 – Etude de la corr´ elation des moments normalis´ es des sons du Studio En Ligne
Chapitre 4
Mod´ elisation de l’enveloppe spectrale par splines
4.1 Introduction
Ce chapitre propose un mod` ele d’enveloppe spectrale permettant de transformer un son en changeant la valeur des descripteurs propos´ es au chapitre 3. Ce mod` ele est bas´ e sur l’approximation en courbes splines. Ces courbes ont ´ et´ e choisies car elles permettent une approximation pr´ ecise, lisse et coh´ erente de l’enveloppe, d’autre part nous pouvons lier analytiquement la valeur des descripteurs aux coefficients de la courbe. Enfin les propri´ et´ es des splines permettent que, quelle que soit la transformation op´ er´ ee, l’enveloppe r´ esultante reste toujours continue.
Nous commen¸cons par d´ efinir ces courbes et en donnons quelques propri´ et´ es, ensuite nous montrons comment retrouver une enveloppe ` a partir de la valeur des descripteurs d´ esir´ es.
4.2 Les splines
Les d´ efinitions sont emprunt´ ees ` a [dB93] et [UAE93]
4.2.1 Description g´ en´ erale et d´ efinitions
Les splines sont des polynˆ omes par morceaux qui peuvent satisfaire certaines condi- tions de continuit´ e. Les morceaux sont tous de mˆ eme degr´ e, ainsi l’ordre d’une spline est d´ efini comme ´ etant ´ egale au degr´ e des polynˆ omes plus un. Les extr´ emit´ es de chaque mor- ceau sont appel´ ees noeuds. L’ensemble des noeuds est appel´ e s´ equence de noeuds. Cette derni` ere peut contenir plusieurs fois le mˆ eme noeuds, dans ce cas nous parlerons de noeuds multiples (double, triple ...).
Nous appelons S k,t l’ensemble des splines de degr´ e k et de s´ equence de noeuds t.
Toutes splines peut-ˆ etre d´ efinie comme une somme pond´ er´ ee de fonctions de bases appel´ ees B-splines. A chaque s´ equence de noeuds est associ´ ee un ensemble unique de B- splines dans lequel chaque B-spline est associ´ e ` a un noeud. Ainsi nous pouvons d´ efinir S k,t comme suit :
Definition 4.2.1 Une spline d’ordre k et de s´ equence de noeuds t est une combinaison lin´ eaire de B-splines B i,k associ´ es ` a la s´ equence de noeuds. L’ensemble de ces splines est d´ efini par
S k,t = { X
i
B i,k a i : a i ∈ R }
O` u les a i sont appel´ es coefficients de la spline et les fonctions de base, ou B-splines B i,k sont d´ efinies par r´ ecurrence,
Definition 4.2.2 Soit une partition ou s´ equence de noeuds, i.e., une s´ equence croissante t = (t i ). La B-spline B i,k (t) d’ordre k > 1 associ´ ee au noeud t i est d´ efini par :
B i,k (t) = ω i,k B i,k−1 + (1 − ω i+1,k )B i+1,k−1
avec
B i,1 (t) = X(t) =
( 1, si t i ≤ t < t i+1 0, sinon.
et
ω i,k (t) =
( t−t
i
t
i+k−1−t
i, si t i 6= t i+k−1
0, sinon.
0 50 100 150 200 250 300
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
0 50 100 150 200 250 300
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Fig. 4.1 – B-splines d’ordre 3 associ´ ees ` a (a) un noeud simple (b) un noeud triple
Proposition 4.2.1 Une B-spline d’ordre k associ´ e au noeud t i est nulle hors de l’inter- valle [t i , t i+k ), i.e.,
∀k ∀t 6∈ [t i , t i+k ) B i,k (t) = 0
0 50 100 150 200 250 300 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Fig. 4.2 – Ensemble des B-splines d’ordre associ´ es ` a la s´ equence {0, 0, 0, 64, 128, 256, 256, 256}
4.2.2 Multiplicit´ e des noeuds et continuit´ e
La multiplicit´ e d’un noeud permet de changer la condition de continuit´ e ` a ce noeud, i.e. plus la multiplicit´ e est ´ elev´ ee, moins la spline sera lisse.
Proposition 4.2.2 soit s ∈ S k,t une spline d’ordre k et de s´ equence de noeuds t avec t i ∈ t un noeud de multiplicit´ e m. Alors s est k − m fois d´ erivable en t i et les k − m − 1 premi` eres d´ eriv´ ees sont continues.
La figure 4.3 montre deux splines d’ordre 3 dont la position des noeuds est identique.
Les noeuds aux extr´ emit´ es de la courbe sont triples pour permettre ` a la courbe de ne pas partir de z´ ero, le troisi` eme noeud est double dans (a) et triple dans (b), tous les autres sont simples. Notons que lorsque la multiplicit´ e d’un noeud est ´ egale ` a l’ordre de la spline, alors la courbe est discontinue.
50 100 150 200 250
3.8 4 4.2 4.4 4.6 4.8 5
x 10−3
50 100 150 200 250
3.6 3.8 4 4.2 4.4 4.6 4.8 5
x 10−3
Fig. 4.3 – Splines de degr´ e 3 avec (a) un noeud double (b) un noeud triple
4.2.3 Approximation de fonction a l’aide de splines
Les splines permettent d’approximer pr´ ecis´ ement une grande vari´ et´ e de courbes. L’ap- proximation se fait en agissant sur les coefficients a i afin de minimiser l’erreur quadratique.
Deux param` etres doivent ˆ etre d´ etermin´ es ` a priori, ce sont la position des noeuds et l’ordre de la spline.
Dans notre contexte l’int´ erˆ et des splines se trouve, d’une part dans la qualit´ e des ap- proximations, d’autre part dans le contrˆ ole qu’elles permettent. En effet, chaque B-spline est non nulle sur un intervalle restreint, ainsi en intervenant sur un coefficient nous ne modifions qu’une partie du spectre tout en conservant la continuit´ e aux noeuds. Nous ob- tenons donc un nombre r´ eduit, mais coh´ erent fr´ equentiellement, de param` etres de contrˆ ole.
4.2.4 Produit scalaire dans S k,t
Nous allons voir comment calculer un produit scalaire dans S k,t . Comme S k,t n’est pas un espace orthogonal, il nous faut effectuer quelques manipulations pour simplifier le calcul.
Soit f et g deux fonctions de R . Elles peuvent se d´ ecomposer sur S k,t : f(x) = P
i k i B i (x), g(x) = P
i l i B i (x).
Nous avons,
< f, g > = Z
f(x) g(x) dx
=
Z X
i
k i B i (x) X
j
l j B j (x) dx
= X
i
X
j
k i l j Z
B i (x)B j (x) dx Posons, A ij = R
B i (x)B j (x) dx, et α i = P
j l j A ij Nous obtenons l’expression suivante :
< f, g >= X
i
l i α i (4.1)
Ceci nous sera utile lorsque nous modifierons les moments de l’enveloppe spectrale pour
d´ eterminer les coefficients de l’enveloppe transform´ ee.
4.3 Application ` a l’approximation et ` a la transforma- tion d’enveloppe spectrale
Nous allons maintenant voir comment utiliser les fonctions splines pour changer la forme de l’enveloppe spectrale en modifiant la valeur de ses quatre premiers moments.
4.3.1 Approximation de l’enveloppe spectrale
Choix des noeuds et de l’ordre
Nous avons choisi des splines d’ordre 3, ce qui correspond ` a des polynˆ omes de degr´ e 2.
Nous faisons ce choix car c’est l’ordre minimum qui donne une approximation pr´ ecise de l’enveloppe.
Comme nous avons cinq descripteurs (les moments d’ordre 0 ` a 4) ` a notre disposition, nous voulons une spline caract´ eris´ ee par cinq coefficients. D’apr` es les propri´ et´ es de ces courbes et pour obtenir les bonnes conditions de continuit´ es, cela permet de diviser l’axe des fr´ equences en trois parties. Cette partition est non uniforme pour donner un contrˆ ole plus pr´ ecis dans les basses fr´ equences. Nous avons donc choisi la s´ equence de noeuds suivante :
t = {0, 1/4, 1/2, 1}
R´ esiduel de mod´ elisation
Les splines que nous utilisons donnent la forme globale de l’enveloppe mais n’en suivent pas tous les d´ etails. Nous extrayons donc un r´ esiduel de mod´ elisation en soustrayant l’ap- proximation ` a l’enveloppe originale. Ce r´ esiduel est conserv´ e tout au long du traitement puis rajout´ e apr` es transformation. Ceci permet de conserver la ¨structure fine du spectre”.
Le calcul des descripteurs spectraux, r´ ealis´ e sur l’approximation, n’est influenc´ e par cette op´ eration que de fa¸con n´ egligeable.
La figure 4.4 repr´ esente une enveloppe spectrale de guitare. La courbe lisse repr´ esente l’ap- proximation en spline et les courbes en pointill´ es sont les B-splines. Cette figure permet aussi de voir quel sera le r´ esiduel de mod´ elisation.
4.3.2 Transformation par changement de la valeur des moments
Dans ce paragraphe, nous cherchons ` a d´ eterminer un syst` eme reliant la valeur des moments de l’enveloppe spectrale aux coefficients de son approximation en splines.
Soit e(ν) la fonction d´ ecrivant l’enveloppe spectrale et a(ν) son approximation dans S k,t ie. a(ν) = P
i k i B i (x).
La valeur d’un moment est d´ etermin´ ee par une expression de la forme m = k R
a(ν) f (ν) dν
o` u f est ´ egale ` a ν, (ν − µ) 2 , (ν − µ) 3 ...
0 50 100 150 200 250 300 0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
5x 10−3
fréquence (bin)
amplitude (dB)
Enveloppe spectrale calculée par le cepstre discret Approximation par spline
B−splines associés pondérés par les coefficients de l"approximation
Fig. 4.4 – Enveloppe spectrale d’une guitare et son approximation par spline Ceci peut-ˆ etre interpr´ et´ e comme le produit scalaire entre a et f. Ainsi, si nous approximons f par splines, ie. f (ν) = P
i l i B i (ν) et si nous posons : α i = P
j l j A ij avec A ij = R
B i (x)B j (x) dx
m peut s’´ ecrire d’apr` es 4.1 de la mani` ere suivante : m = k < f, a >= k X
i
l i α i
Ceci nous donne une ´ equation reliant les l i ` a la valeur des moments.
Cependant, les coefficients de l’´ equation α i d´ ependent des l i et donc de f. Or f est d´ ependant de µ pour les moments d’ordre sup´ erieur ` a 2, elle est donc susceptible de varier au cours du temps et pendant les transformations.
Pour des questions de simplicit´ e algorithmique nous prendrons donc f = ν, ν 2 , ν 3 ... ce qui nous permettra d’obtenir des α i ind´ ependants de µ. Pour cela il nous faut, dans un premier temps d´ eterminer la valeur du produit scalaire entre a(ν) et les ν i en fonction des moments.
Tout d’abord, les amplitudes sont normalis´ ees :
R a(ν) dν = 1 (4.2)
Puis d’apr` es la d´ efinition de la moyenne :
µ =
Z
ν a(ν) dν
= < ν, a(ν) >
Nous obtenons :
< ν, a(ν) > = µ (4.3)
De mˆ eme la variance est d´ efinie par : σ 2 =
Z
(ν − µ) 2 a(ν) dν
= Z
(ν 2 − 2µν + µ 2 ) a(ν) dν
= < ν 2 , a(ν) > −2µ < ν, a(ν) > +µ 2 < 1, a(ν) >
= < ν 2 , a(ν) > −µ 2 Donc,
< ν 2 , a(ν) > = σ 2 + µ 2 (4.4) La skewness est d´ efinie par :
γ 1 = 1 σ 3
Z
(ν − µ) 3 a(ν) dν
= 1
σ 3 Z
(ν 3 − 3µν 2 + 3µ 2 ν − µ 3 ) a(ν) dν
= 1
σ 3 (< ν 3 , a(ν) > −3µ < ν 2 , a(ν) > +3µ 2 < ν, a(ν) > −µ 3 < 1, a(ν) >)
= 1
σ 3 (< ν 3 , a(ν) > −3µ(σ 2 + µ 2 ) + 3µ 3 − µ 3 )
= 1
σ 3 (< ν 3 , a(ν) > −3µσ 2 − µ 3 ) Donc,
< ν 3 , a(ν) > = σ 3 γ 1 + 3µσ 2 + µ 3 (4.5) Enfin, la kurtosis est d´ efinie par :
γ 2 = 1 σ 4
Z
(ν − µ) 4 a(ν) dν
= 1
σ 4 Z
(ν 4 − 4µν 3 + 6ν 2 µ 2 − 4µ 2 ν + µ 4 ) a(ν) dν
= 1
σ 4 (< ν 4 , a(ν) > −4σ 3 γ 1 µ − 6µ 2 σ 2 − µ 4 )
Donc,
< ν 4 , a(ν) >= γ 2 σ 4 + 4σ 3 γ 1 µ + 6µ 2 σ 2 + µ 4 (4.6) Maintenant, ` a partir des ´ equations pr´ ec´ edentes, nous pouvons d´ eterminer les coeffi- cients de la spline associ´ ee ` a l’enveloppe dont les moments ont les valeurs d´ esir´ ees.
Posons ν n = P
i l n,i B i (x), pour n ∈ {0, 1, 2, 3, 4}
A ij = R
B i (x)B j (x) dx M n,i = P
j l n,j A ij . D’apr` es (4.1)
< ν n , a(ν) >= P
i M n,i k i
De plus En utilisant (4.2), (4.3), (4.4), (4.5), (4.6)
d =
< 1, a(ν) >
< ν, a(ν) >
< ν 2 , a(ν) >
< ν 3 , a(ν) >
< ν 4 , a(ν) >
=
1 µ σ 2 + µ 2 σ 3 γ 1 + 3µσ 2 − µ 3 γ 2 σ 4 + 4σ 3 γ 1 µ + 6µ 2 σ 2 + µ 4
Nous obtenons le syst` eme Mk = d reliant les coefficients k = (k i ) de l’approximation en spline de l’enveloppe spectrale et la valeurs des quatre premiers moments de cette enveloppe.
Pour obtenir les coefficients, il suffit d’inverser M.
4.4 Mod´ elisation de l’´ evolution temporelle des des- cripteurs
Nous avons essay´ e de mod´ eliser l’´ evolution temporelle des descripteurs pour ´ etudier l’influence d’un lissage et apport´ e un meilleur contrˆ ole au cours du temps. Le signal est divis´ e en plusieurs parties selon une simplification du mod` ele ADSR (Attack, Sustain, De- cay, Release). Ce mod` ele segmente l’enveloppe temporelle de l’´ energie en quatre partie : l’attaque, une d´ ecroissance, une partie tenue et l’extinction. Dans notre cas l’algorithme d´ ecoupe le son en deux ou trois partie selon ses caract´ eristique. Par exemple une note de guitare (voir figure 4.6) est d´ ecoup´ ee en trois (attaque, d´ ecroissance et extinction) et une note de contrebasse jou´ ee ` a l’archet (voir figure 4.5) est d´ ecoup´ ee en une attaque et une ex- tinction. Ensuite le trajet temporel des descripteurs est liss´ e par des splines d’ordre 2 pour conserver la continuit´ e aux points de coupe [Pee03a]. Ainsi chaque zone est repr´ esent´ ee par une droite dont nous pouvons contrˆ oler les coefficients.
Il est donc possible de faire varier les moments ind´ ependamment sur chaque partie en chan-
geant les coefficients du polynˆ ome correspondant ou, lors de synth` eses crois´ ees, conserver
la correspondance entre les parties des deux sons.
50 100 150
1.5 2 2.5
3 x 10
4temps (trame) somme
50 100 150
0.445 0.45 0.455 0.46 0.465
temps (trame) centroide spectrale
50 100 150
0.288 0.29 0.292 0.294 0.296
temps (trame) étendue spectrale
50 100 150
0.1 0.12 0.14 0.16 0.18 0.2 0.22
temps (trame) skewness
50 100 150 200
1.76 1.78 1.8 1.82 1.84
temps (trame) kurtosis
0 100 200 300
0 0.1 0.2 0.3 0.4 0.5
temps
energie
Fig. 4.5 – Evolution temporelle des quatre premiers moments d’une enveloppe spectrale
de contrebasse et approximation par splines d’ordre 2 des parties correspondant ` a l’attaque
et ` a la partie soutenue
20 40 60 80 100 120 1
1.1 1.2 1.3 1.4 1.5 1.6
x 10
4temps (trame) somme
20 40 60 80 100120140 0.43
0.44 0.45 0.46 0.47 0.48
temps (trame) centroide spectrale
20 40 60 80 100 120 140 0.278
0.28 0.282 0.284 0.286 0.288 0.29
temps (trame) étendue spectrale
50 100 150
0.1 0.15 0.2 0.25 0.3
temps (trame) skewness
20 40 60 80 100 120 1.8
1.85 1.9 1.95
temps (trame) kurtosis
0 100 200 300
0 0.1 0.2 0.3 0.4
temps
energie
Fig. 4.6 – Evolution temporelle des quatre premiers moments d’une enveloppe spectrale
de guitare et approximation par splines d’ordre 2 des parties correspondant ` a l’attaque, ` a
la d´ ecroissance et ` a la d´ ecoissance
Chapitre 5
Description du syst` eme
L’ensemble du syst` eme est repr´ esent´ e sur la figure 5.1. Les paragraphes suivants d´ etaillent chaque ´ el´ ement.
5.1 L’analyse
5.1.1 L’analyse Additive
La m´ ethode d’analyse du signal utilis´ e est l’analyse additive [MQ86], [SS90]. Elle permet de d´ ecomposer le signal en une partie harmonique et un r´ esiduel de mod´ elisation. A chaque instant n le signal est mod´ elis´ e de la mani` ere suivante :
s(n) =
I(k)
X
i=1
a i cos(2πf i,k n + φ i,k ) + r(n) , pour chaque trame k.
O` u I(k) repr´ esente le nombre de partiels (variable au cours du temps), a i,k , f i,k et φ i,k respectivement l’amplitude, la fr´ equence et la phase du partiel i, et r(n) le r´ esiduel de mod´ elisation.
Outre les param` etres ci-dessus, l’analyse nous permet d’obtenir une fr´ equence de voisement, c’est ` a dire une fr´ equence au-del` a de laquelle le signal est consid´ er´ e comme plus bruit´ e qu’harmonique. Ainsi, il est inutile de chercher des pics spectraux ou d’estimer l’enveloppe spectrale au-dessus de cette fr´ equence. La m´ ethode utilis´ ee est d´ ecrite dans [Pee01]. Celle-ci nous fourni une fr´ equence de voisement f v (k) pour chaque trame. Nous utilisons dans la suite une valeur unique de f v (k) pour tout le signal :
f vmax = max k (f v (k))
5.1.2 Estimation de l’enveloppe spectrale : Le cepstre discret
L’estimation de l’enveloppe spectrale se fait par la m´ ethode du cepstre discret [GR90],[OCM95].
L’enveloppe spectrale est calcul´ ee directement ` a partir de points du plan fr´ equence/amplitude
Sound
partials Additive
analysis Discrete cepstrum
transform
spectral envelope
Spline approximation
Moments calculation
coefficients
moments vector (p)
Matrix calculation
matrix M Moments
modifications
moments vector (p’)
System resolution
M x = p’
new spline coefficients (x)
New spectral envelope construction
new spectral envelope New partials
amplitude interpolation
new partials
Additive synthesis
Sound
Résidual extraction
residual (r)
ActionName
objectName
Action
Object
des partiels. Typiquement, et dans le cas pr´ esent, les points sont les pics spectraux extraits par l’analyse additive.
L’enveloppe en log-amplitude est d´ ecrite par les coefficients cepstraux r´ eel c i sous la forme : A c (f ) = c 0 + 2
p
X
i=1
c i cos(2pif i)
Avec p l’ordre du cepstre.
La m´ ethode consiste ` a d´ eterminer les c i qui minimisent l’erreur : =
L
X
k=1
w k k 20log 10 a k − A c (f k ) k 2 .
Certaines techniques sont utilis´ ees pour am´ eliorer les r´ esultats comme la “Cloud me- thod” ou l’utilisation de log-fr´ equence dans le haut du spectre [GR90].
Nous avons choisi d’utiliser le cepstre discret car il est tr` es bien adapt´ e ` a l’analyse additive.
L’amplitude des partiels est bien approch´ ee tandis que l’enveloppe reste relativement lisse dans la plupart des cas. Comme pour l’analyse additive le param´ etrage se fait en grande partie ` a la main selon les caract´ eristiques de chaque signal.
5.1.3 Approximation et transformation de l’enveloppe par la m´ ethode des B-splines
Voir chapitre 4
5.2 La synth` ese
5.2.1 Reconstruction de l’enveloppe ` a partir des nouveaux coef- ficients
Le calcul de la nouvelle enveloppe spectrale se fait ` a partir des coefficients p 0 i obtenus et du r´ esiduel (f ) :
a 0 (f) = X
i
p 0 i B i (f) + (f)
5.2.2 La synth` ese additive
Nous obtenons l’amplitude des partiels, dont la fr´ equence n’a pas chang´ e au cours des transformations, ` a partir de l’enveloppe spectrale.
La synth` ese se fait par addition de sinuso¨ıdes en tenant compte des phases du signal
d’origine.
Enfin, le r´ esiduel de mod´ elisation r(n) issu de l’analyse additive peut-ˆ etre ajout´ e au signal.
Toutefois si les transformations effectu´ ees sur le spectre harmonique sont importantes ou si de fortes modifications d’amplitudes au cours du temps ont ´ et´ e r´ ealis´ ees, la partie al´ eatoire peut avoir perdu son lien avec la partie harmonique. La superposition des deux peut amener
`
a des sons peu coh´ erents. Un travail doit donc ˆ etre effectu´ e sur la partie al´ eatoire pour la
transformer de mani` ere coh´ erente ` a la partie harmonique.
Chapitre 6 R´ esultats
6.1 Pr´ esentation
6.1.1 Analyse et synth` ese sans transformation
La mod´ elisation utilis´ ee permet de resynth´ etiser un son de mani` ere parfaite si le r´ esiduel est ajout´ e durant la reconstruction de l’enveloppe spectrale, si l’enveloppe spectrales est bien calcul´ ee par le cepstre discret et si la valeur des moments est conserv´ ee pour chaque trame. Nous entendons par parfaite que le r´ esultat est le mˆ eme que celui obtenu directement par analyse/resynth` ese.
Lorsque le r´ esiduel de mod´ elisation n’est pas ajout´ e, les r´ esultats d´ ependent de la r´ egularit´ e de l’enveloppe spectrale originale dans la zone des premiers harmoniques. En effet le mod` ele
`
a tendance ` a lisser l’enveloppe, ce qui s’entend beaucoup sur les premiers harmoniques qui sont dans des bandes critiques diff´ erentes.
La figure 6.1 montre un spectre de contrebasse et un spectre de trompette. La trompette ` a une enveloppe tr` es lisse, comme nous pouvons l’entendre (voir site ftp) les synth` eses avec et sans r´ esiduel sons quasiment indiscernables. En revanche, elles sont diff´ erentes dans le cas de la contrebasse dont les premiers harmoniques sont assez irr´ eguliers.
Range de la transformation. Diff´ erence entre les descripteurs.
6.1.2 Changement de la valeur d’un des moments
Tout d’abord, nous devons v´ erifier que les modifications d´ esir´ ees (ou les non-modifications) sont bien celles que nous obtenons. En effet, les modifications sont appliqu´ ees ` a une enve- loppe liss´ ee, le fait d’ajouter le r´ esiduel pourrait fausser les r´ esultats et surtout, les valeurs de moments calcul´ ees sur l’enveloppe spectrale pourrait ˆ etre diff´ erentes de celles calcul´ ees sur les harmoniques. Comme nous l’avions pr´ evu, les valeurs des moments de l’enveloppe respectent parfaitement les valeurs cibles malgr´ e l’ajout du r´ esiduel, de plus les valeurs relatives des moments harmoniques sont presque justes.
Les figures 6.2 et 6.3, montrent un exemple de modification de la kurtosis sur un son de
contrebasse. Nous avons chang´ e la kurtosis de -1%, -5%, -10% et +10%. Nous consta-
Fig. 6.1 – (a) Spectre de trompette (fa4) (b) Spectre de contrebasse (fa1)
tons que les autres moments harmoniques restent quasiment inchang´ es (Les courbes sont confondues).
D’autres part les intervalles possibles pour les descripteurs sont proches de ceux observ´ es dans le paragraphe 3.2.
Etudions maintenant les types de modifications qu’op` erent sur l’enveloppe les change- ments de valeurs des moments.
Les figure 6.4 et 6.5 pr´ esente le r´ esultat de la modification ind´ ependante de chaque moment.
Agir ainsi sur les moments entraˆıne de tr` es grandes variations de l’enveloppe pour des pe- tites variations de leurs valeurs. Ainsi, nous voyons sur la figure 6.4(a) qu’une modification de l’ordre de 2% de la valeur du centro¨ıde entraˆıne d´ ej` a de fortes modifications en parti- culier en basse et haute fr´ equence. Le changement perceptif est frappant (voir exemples sonores).
Nous avons fait ´ ecout´ e ` a quelques personnes de mani` ere informelle un petit ensemble de sons. Les observations recueillies sont r´ esum´ ees et comment´ ees ci-dessous. Les modifi- cations le long des axes d´ efinis par les quatre moments sont diff´ erentes perceptivement.
Tout d’abord, l’axe un est l’axe le mieux d´ efini. Cela n’a rien d’´ etonnant dans la mesure o` u il modifie le centro¨ıde spectrale, comme attendu sa modification change la brillance. En- suite l’axe 3 semble correctement d´ efinie. En effet, la brillance n’est pas modifi´ ee lorsque l’on fait varier le descripteur lui correspondant. Ce qui semble changer est alors ce que nous pourrions qualifier de “r´ esonateur”. En augmentant la valeurs de la skewness, le
“r´ esonateur”donne l’impression de se resserer. Enfin les r´ esultats des axes 2 et 4 sont plus mitig´ es.Des variations le long de ces axes ne changent pas d’ attributs perceptifs pr´ ecis.
Les d´ eplacements sur l’axe 2 donne une impression de passer d’un son de gorge ` a un son
de nez, et change aussi la brillance du son. L’axe 4 est plus complexe, et les r´ esultats
sonores varient consid´ erablement selon le son de d´ epart. Il est important de souligner que ce probl` eme est valable pour tout les axes, de mani` ere plus ou moins importante. Comme nous l’avons d´ ej` a dit, l’axe 1 est le mieux d´ efinie, c’est donc celui qui subit le moins les changements de son. Les axes 2 et 4 sont ceux sur lesquels une diff´ erence de son au d´ epart donnera les r´ esultats les moins coh´ erents, c’est ` a dire les sons dont les variations seront les plus difficiles ` a qualifier sous un mˆ eme terme, comme nous pouvons qualifier les change- ments le long de l’axe 1 de variations de brillance.
Le probl` eme d’interpr´ etations des r´ esultats qui se pose, peut s’illustrer en prenant des exemples plus pr´ ecis de sons pr´ esent´ es en exemples. On constate, en effet, que certaines modifications sont moins perceptibles pour le son de trompette que pour le son de gui- tare. Nous voyons l` a les limites de notre mod` ele. Nous ne pouvons nous contentez que de d´ ecrire empiriquement les r´ esultats des synth` eses effectu´ es et ce presque son par son. Les solutions envisageables pour rendre ce mod` ele consistant serait de d´ efinir des cat´ egories de sons qui apr` es synth` ese donne le mˆ eme type de variations perceptives. Plus pr´ ecisemment, nous pourrions regarder par exemple si les sons frott´ es donnent apr` es transformation des r´ esultats sonores coh´ erents et interpr´ etables, et diff´ erents des sons souffl´ es qui donneraient alors d’autres r´ esultats sonores coh´ erents entre eux. Pour valider ce travail scientifiquement et ne pas se contenter d’observations empiriques, il serait souhaitable de mettre en place des exp´ eriences de perception et cognition musicale. Cela permetterait de valider scien- tifiquement nos recherches et peut ˆ etre d’aider ` a la d´ efinition et ` a la compr´ ehension du timbre.
6.1.3 Lissage des descripteurs au cours du temps
Le lissage des descripteurs par splines est en g´ en´ eral peut perceptible si le son ne
contient pas de modulation (vibrato, tr´ emolo). Les microvariations observ´ ee sur les valeurs
des moments au cours du temps ne semble pas avoir de r´ eelle influence perceptive. De
plus dans le cas d’instruments non entretenus (cordes frapp´ ees ou pinc´ ees) il ne parait pas
n´ ecessaire de couper l’attaque et la d´ ecroissance en deux, une seule droite suffit.
50 100 150 6200
6300 6400 6500 6600 6700 6800 6900
trames temporelles
fréquence (Hz)
Centroïde spectrale
0 50 100 150
4040 4060 4080 4100 4120 4140
trames temporelles
fréquence (Hz)
Etendue spectrale
50 100 150
0 0.05 0.1 0.15 0.2
trames temporelles
fréquence (Hz)
Skewness
0 50 100 150 200
1.6 1.7 1.8 1.9
trames temporelles
fréquence (Hz)
Kurtosis
Fig. 6.2 – Evolution temporelle de la valeur des quatre premiers moments de l’enveloppe
de la contrebasse pour quatre valeurs de la kurtosis
50 100 150 5000
5500 6000 6500 7000
trames temporelles
fréquence (Hz)
Centroïde spectrale
50 100 150
3200 3400 3600 3800 4000 4200
trames temporelles
fréquence (Hz)
Etendue spectrale
0 50 100 150 200
−0.1 0 0.1 0.2 0.3 0.4
trames temporelles
fréquence (Hz)
Skewness
0 50 100 150 200
1.6 1.7 1.8 1.9 2
trames temporelles
fréquence (Hz)
Kurtosis
Fig. 6.3 – Evolution de la valeur des quatre premiers moments des partiels de la contrebasse
pour quatre valeurs de la kurtosis
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 x 104 10
20 30 40 50 60 70
Changement du centroïde spectral
Fréquence (hertz)
Amplitude (dB)
7524 7662 7386
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
x 104 0
10 20 30 40 50 60 70
Changement de la "variance"
Fréquence (hertz)
Amplitude (dB)
5256 5361 5151
Fig. 6.4 – B-splines de degr´ e 3 associ´ es ` a (a) un noeud simple (b) un noeud triple
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
x 104 10
20 30 40 50 60 70
80 Changement de la "skewness"
Fréquence (hertz)
Amplitude (dB)
0.559 0.615 0.503
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
x 104 0
10 20 30 40 50 60
70 Changement de la "skewness"
Fréquence (hertz)
Amplitude (dB)
2.12 2.33 1.91