• Aucun résultat trouvé

Synthèse et transformation sonore par descripteurs de haut-niveau

N/A
N/A
Protected

Academic year: 2022

Partager "Synthèse et transformation sonore par descripteurs de haut-niveau"

Copied!
41
0
0

Texte intégral

(1)

Synth`ese et transformation sonore par descripteurs de haut-niveau

Damien Tardieu DEA

Acoustique, traitement du signal et informatique appliqu´ es ` a la musique

Universit´ e Aix Marseille II

M´ emoire r´ ealis´ e ` a IRCAM 75004 Paris

1 place Igor Stravinsky

Responsables : Xavier Rodet, Geoffroy Peeters

Septembre 2004

(2)
(3)

Remerciements

Je tiens ` a remercier :

Xavier Rodet de m’avoir accept´ e dans son ´ equipe pour effectuer ce stage et pour toutes les conversations que nous avons pu avoir sur mon travail.

Geoffroy Peeters dont les conseils, orientations et enseignements m’ont permis de mener ` a bien mes travaux.

Steve McAdams pour avoir pris le temps d’´ ecouter et de r´ epondre ` a toutes mes questions sur la perception du timbre.

Alice Daquet, Romain Kronenberg, Matthias Demoucron et Gr´ egoire Carpentier qui m’ont aid´ e et soutenu durant mes journ´ ee et mes nuits ` a l’IRCAM.

Tous les membres de l’´ equipe Analyse-Synth` ese pour leur accueil et leur disponibilit´ e.

(4)

Table des mati` eres

1 Introduction 5

2 Etat de l’art 7

2.1 Description du son . . . . 7

2.1.1 L’approche perceptive et cognitive . . . . 7

2.1.2 L’approche signal . . . . 8

2.2 La transformation sonore de haut-niveau . . . . 9

2.2.1 Transformation bas´ ee sur le mod` ele SMS . . . . 9

2.2.2 La psychoacoustique . . . . 9

2.2.3 Transformations et synth` eses bas´ ees sur les descripteurs obtenus par des m´ ethodes statistiques . . . . 10

2.2.4 Le mod` ele de Jensen . . . . 10

2.3 Conclusion . . . . 11

3 Les descripteurs retenus pour le mod` ele de transformation 12 3.1 Description de l’enveloppe spectrale . . . . 12

3.1.1 L’enveloppe spectrale . . . . 12

3.1.2 Les partiels . . . . 14

3.2 Etude de la valeur des moments sur un ensemble de sons . . . . 14

4 Mod´ elisation de l’enveloppe spectrale par splines 18 4.1 Introduction . . . . 18

4.2 Les splines . . . . 18

4.2.1 Description g´ en´ erale et d´ efinitions . . . . 18

4.2.2 Multiplicit´ e des noeuds et continuit´ e . . . . 20

4.2.3 Approximation de fonction a l’aide de splines . . . . 21

4.2.4 Produit scalaire dans S k,t . . . . 21

4.3 Application ` a l’approximation et ` a la transformation d’enveloppe spectrale 22 4.3.1 Approximation de l’enveloppe spectrale . . . . 22

4.3.2 Transformation par changement de la valeur des moments . . . . . 22

4.4 Mod´ elisation de l’´ evolution temporelle des descripteurs . . . . 25

(5)

5 Description du syst` eme 28

5.1 L’analyse . . . . 28

5.1.1 L’analyse Additive . . . . 28

5.1.2 Estimation de l’enveloppe spectrale : Le cepstre discret . . . . 28

5.1.3 Approximation et transformation de l’enveloppe par la m´ ethode des B-splines . . . . 30

5.2 La synth` ese . . . . 30

5.2.1 Reconstruction de l’enveloppe ` a partir des nouveaux coefficients . . 30

5.2.2 La synth` ese additive . . . . 30

6 R´ esultats 32 6.1 Pr´ esentation . . . . 32

6.1.1 Analyse et synth` ese sans transformation . . . . 32

6.1.2 Changement de la valeur d’un des moments . . . . 32

6.1.3 Lissage des descripteurs au cours du temps . . . . 34

7 Conclusion 38

(6)

Chapitre 1 Introduction

De nombreuses m´ ethodes de synth` ese sonore existent, chacune fond´ ee sur un para- digme diff´ erent : superposition de sinuso¨ıdes, synth` ese par formant, synth` ese soustrac- tive, synth` ese par forme d’onde ´ el´ ementaire, synth` ese par modulation fr´ equentielle, etc.

Ces m´ ethodes permettent une mod´ elisation tr` es pr´ ecise du signal sonore. Cependant il en r´ esulte un nombre important de param` etres qu’il devient difficile de contrˆ oler lorsqu’on d´ ecide de manipuler le timbre.

En effet, le timbre est un attribut multidimensionnel du son et ses dimensions sont mal connues. La difficult´ e de le manipuler de mani` ere scientifique provient alors de la mau- vaise compr´ ehension que nous en avons. Mais inversement, nous pourrions aussi dire que la mauvaise compr´ ehension que nous en avons provient de la difficult´ e de le manipuler [HKCH97]. Les questions de la compr´ ehension et de la manipulation du timbre se posent alors en miroir. Elles sont sinon identiques, du moins intimement li´ ees. Quelles axes de recherche nous permettrait alors de sortir de cette boucle ?

Se reposer sur une d´ efinition du timbre pose le probl` eme du choix, car il n’en existe pas qui soit unanimement admise, et le timbre est en g´ en´ eral d´ efini par ce qu’il n’est pas.

Pour notre ´ etude, nous avons choisi la d´ efinition suivante : “Le timbre est l’attribut de la sensation auditive suivant lequel un auditeur peut diff´ erencier deux sons en utilisant tous crit` eres autres que la hauteur, la sonie et la dur´ ee”. Cette d´ efinition pr´ esente, en effet, l’avantage de proposer un axe de recherche exploitable : la perception, en se basant sur une sensation auditive pour qualifier le timbre. De plus, la supposition que des comparaisons de timbre peuvent ˆ etre effectu´ ees par un jugement de dissemblance perceptive entre deux sons de hauteurs diff´ erentes a r´ ecemment ´ et´ e confirm´ ee [MdCMW03]. Nous nous propo- sons donc de prendre en compte les dimensions qui sous tendent la perception du timbre comme param` etres pour optimiser son contrˆ ole. Les r´ esultats des ´ etudes de perception et cognition musicale, ´ etant exp´ erimentalement valid´ es il semble pertinent de les privil´ egier.

Cependant ces exp´ eriences fournissent un nombre limit´ e de descripteurs. Nous devons en chercher d’autres, nous nous basons pour cela sur les travaux de description du son issus du traitement du signal.

Une fois identifi´ e notre ensemble de descripteurs, il est question de les manipuler et donc

de faire des choix. En effet, suite ` a l ’ analyse d’ un son, plusieurs transformations sont

(7)

possibles, et il faut d´ ecider de quelle mani` ere passer des valeurs obtenues de nos descrip- teurs aux valeurs souhait´ ees. Pour cela, nous devons cr´ eer un mod` ele ou une m´ ethode de transformation.

Apr` es avoir pr´ esent´ e les travaux effectu´ es concernant les descripteurs du son et les mod` eles de synth` ese d´ ej` a existants dans le chapitre 2, nous d´ efinissons les descripteurs que nous avons choisis (chapitre 3).

Ensuite, dans le chapitre 4, nous proposons une mod´ elisation par splines de l’enveloppe spectrale ainsi qu’une m´ ethode permettant d’obtenir une nouvelle enveloppe ` a partir de la valeur d´ esir´ ee des descripteurs. Enfin le r´ esultat des mod´ elisations et des transformations est ´ etudi´ e et critiqu´ e dans le chapitre 6.

Les r´ esultats de ce travail ´ etant principalement des sons, nous en avons mis quelques uns sur la page web suivante :

www.ircam.fr/anasyn/dtardieu/exemples.html

(8)

Chapitre 2 Etat de l’art

2.1 Description du son

Dans ce chapitre, nous montrons l’existant en terme de description du son et de synth` ese par descripteurs de haut-niveaux.

2.1.1 L’approche perceptive et cognitive

L’approche principalement adopt´ ee dans l’´ etude du timbre en psychoacoustique consiste

`

a d´ ecrire les dimensions perceptives du timbre en terme de propri´ et´ es abstraites du son [Don97], [MWD + 95]. D’apr` es cette approche, les sons seraient per¸cus selon certains des- cripteurs acoustiques (spectraux, temporels ou spectraux-temporels) cr´ eant un “espace de timbre”.

La d´ etermination de cette espace se fait g´ en´ eralement en utilisant des m´ ethodes d’analyses multidimensionnelles sur les r´ eponses de sujets ` a des tˆ aches de jugement de (dis)similarit´ es entre diff´ erents sons. L’analyse fournit des axes expliquant au mieux les r´ eponses des su- jets. Il convient ensuite de d´ eterminer les corr´ elats acoustiques de ces axes. Les descripteurs acoustiques g´ en´ eralement mis en ´ evidence sont le centro¨ıde et l’´ etendue spectrale [PMH00], le temps d’attaque et le flux spectral. Ces ´ etudes, r´ ealis´ ees sur des sons instrumentaux ou des synth` ese crois´ ees entre intruments, nous permettent de comprendre les descripteurs principaux permettant de diff´ erencier les sons. Cependant, toutes ces exp´ eriences sont r´ ealis´ ees sur des sons de mˆ eme fr´ equence fondamentale. Mais qu’en est-il des comparaisons entre des sons de fr´ equences diff´ erentes ? [MdCMW03] d´ emontre qu’il est possible d’ef- fectuer des comparaisons de timbre pour des sons de hauteurs diff´ erentes (les intervalles

´

etudi´ es sont de 2 et 11 demi-tons). De plus ses exp´ eriences semblent montrer que les po- sitions relatives mais aussi les positions absolues des sons dans l’espace de timbre restent

`

a peu pr` es constantes malgr´ e les changements de hauteur. Ceci sugg` ere que la valeur d’un

descripteur acoustique sous-tendant un axe perceptif doit ˆ etre ind´ ependante de la hauteur

du son.

(9)

2.1.2 L’approche signal

La description du son a aussi ´ et´ e largement ´ etudi´ ee dans le domaine du traitement du signal. Deux approches diff´ erentes sont utilis´ ees. La premi` ere consiste ` a utiliser des descripteurs acoustiques d´ ej` a connus, issus de divers domaines scientifiques, la seconde utilise des m´ ethodes statistiques pour d´ eterminer automatiquement les descripteurs.

Description utilisant des descripteurs connus

Pour des applications de classification automatique, un ensemble de descripteurs issus du signal sonore est cr´ e´ es. Ces descripteurs sont emprunt´ es ` a diff´ erents domaines comme la perception (voir paragraphe 2.1.1), la physiologie, le traitement de la parole ou le traitement du signal. Ensuite, par apprentissage sur une base de donn´ ees de sons, des valeurs de descripteurs sont associ´ ees ` a des classes de sons. Ainsi [Pee03b] ` a ´ etablit un ensemble d’une cinquantaine de descripteurs dans le cadre du projet europ´ een CUIDADO. Ces descripteurs sont instantan´ es c’est ` a dire calcul´ es sur chaque trame de signal ou globaux c’est ` a dire calcul´ es pour la totalit´ e du signal, ils d´ ecrivent la forme temporelle, la forme spectrale, le contenu harmonique et, grˆ ace ` a un mod` ele simplifi´ e du processus d’audition humain, ils d´ ecrivent aussi les sons en termes perceptifs. La valeur des descripteurs instantan´ es est calcul´ ee pour chaque trame de signal, ensuite leur ´ evolution dans le temps est caract´ eris´ ee par une moyenne, une variance, une approximation polynomiale ou une modulation.

En terme de description de la forme spectrale, nous retiendrons les descripteurs suivants : le centro¨ıde spectral, l’´ etendue spectrale issus de la psychoacoustique mais aussi les moments d’ordre sup´ erieur, la skewness et la kurtosis.

Analyse en composantes principales sur des bases de donn´ ees de sons

La seconde approche consiste ` a effectuer une analyse statistique de type PCA sur une base de donn´ ee de son.

Ainsi Hourdin, Charbonneau et Moussa [HCM97a] ont cr´ e´ e un ¨espace de timbre” en

effectuant une analyse proche de l’analyse en composante principale (Factorial Analysis

of Correspondance) sur un ensemble de sons. Cet ensemble est constitu´ e de 40 sons de

diff´ erents instruments tous jou´ es ` a la mˆ eme hauteur (E4). Les sons sont analys´ es par la

m´ ethode des filtres h´ et´ erodynes qui donne l’amplitude et la fr´ equence des partiels d’un son

quasi harmonique en fonction du temps. Le nombre de partiels choisi est de 40, ainsi un

son est repr´ esent´ e par une trajectoire dans un espace ` a 80 dimensions (40 de fr´ equence et

40 d’amplitude). Le but est donc de r´ eduire le nombre de dimensions tout en conservant

les qualit´ es perceptives du son. L’analyse des r´ esultats indique que six facteurs contiennent

85 % de l’information et 3 en contiennent 68%. Une interpr´ etation physique des trois pre-

miers axes est aussi propos´ ee. Le premier axe est associ´ e ` a l’´ energie du signal, le second ` a

la largeur du spectre et le troisi` eme ` a la proportion d’´ energie concentr´ ee dans les basses

fr´ equence.

(10)

2.2 La transformation sonore de haut-niveau

Les descripteurs de haut niveau qui ont le plus fait l’objet d’´ etude sont la hauteur (transposition) et la dur´ ee des sons (dilatation/compression temporelle). Les m´ ethodes classiques d’analyse-synth` ese permettent des transformations tr` es pr´ ecises de ces deux des- cripteurs.

En revanche peu de m´ ethodes ont ´ et´ e propos´ ees pour le timbre du fait du manque de connaissance ` a son sujet, ce champ ´ etant plutˆ ot trait´ e de mani` ere empirique grˆ ace ` a des effets tels que ceux utilis´ es par les ing´ enieurs du son (flanger, chorus, equalisation ...).

Les techniques propos´ ees sont en g´ en´ eral bas´ ees sur l’analyse/synth` ese par addition de sinuso¨ıdes. Permettant une analyse tr` es fine du signal et une resynth` ese presque parfaite mais au prix d’une multiplication du nombre de param` etres (fr´ equence, amplitude et phase des partiels pour chaque trame de signal), cette m´ ethode pose le probl` eme du contrˆ ole de mani` ere ´ evidente. Ses paramˆ etres sont tout ` a fait compr´ ehensibles intuitivement mais leur manipulation individuelle est fastidieuse et les r´ esultats peu pr´ evisibles.

Parmi les m´ ethodes que nous allons pr´ esenter, nous insisterons particuli` erement sur le

¨Timbre Model” de Kristofer Jensen qui est le seul ` a notre connaissance ` a proposer un mod` ele complet bas´ e sur des descripteurs perceptifs.

2.2.1 Transformation bas´ ee sur le mod` ele SMS

Xavier Serra et Jordi Amatrian [SB98], [ABLS02] proposent un ensemble de trans- formations bas´ ees sur le mod` ele SMS (Spectral Modeling System). Ce mod` ele est une variante du mod` ele additif. Les transforamtions sont en g´ en´ eral des applications directes des possibilit´ es de SMS comme la translation ou la distorsion du spectre harmonique. Trois transformations donnent acc` es ` a des descripteurs de plus haut niveau : le vibrato, le tre- molo (o` u l’on postulent que la fr´ equence ou l’amplitude des partiels varient sinusoidaleme) et le changement du genre d’un locuteur.

Les auteurs sugg` erent la possibilit´ e d’effectuer d’autres transformations mais ne pr´ ecisent pas de m´ ethodes.

2.2.2 La psychoacoustique

Pour v´ erifier les hypoth` eses relatives aux dimensions perceptives du timbre obtenues sur des sons instrumentaux, la psychoacoustique a recours ` a des mod` eles spectraux per- mettant de contrˆ oler les param` etres physiques sous tendant les dimensions perceptives. Le mod` eles g´ en´ eralement adopt´ e est que le spectre est une droite. Le centro¨ıde spectral est alors reli´ e ` a la pente de la droite. Ensuite des ajustements sont effectu´ es sur l’amplitude des harmoniques pour contrˆ oler d’autres descripteurs comme la proportion d’harmonique pairs et impairs.

Ce mod` ele, parfaitement adapt´ e ` a son objectif (qui est de v´ erifier la possibilit´ e de pr´ edire

la position d’un son dans un espace de timbre), ne semble pas adapt´ e ` a un usage musical,

du fait de la trop grande approximation de la forme du spectre.

(11)

2.2.3 Transformations et synth` eses bas´ ees sur les descripteurs obtenus par des m´ ethodes statistiques

L’analyse d´ ecrite au paragraphe 2.1.2 a donn´ e lieu ` a une m´ ethode de transformation et de synth` ese [HCM97b].

L’espace r´ eduit obtenu permet d’effectuer des interpolations entre instruments ou des synth` eses en d´ eplacant les coordonn´ ees du sons. En effet, du fait de la m´ ethode d’ana- lyse utilis´ ee, il est possible de recr´ eer un son ` a partir d’une trajectoire dans l’espace.

2.2.4 Le mod` ele de Jensen

Kristofer Jensen propose dans [Jen99] un mod` ele de timbre que nous r´ esumons ici.

Le mod` ele d’enveloppe

Jensen d´ efinie l’enveloppe spectrale comme le maximum au cours du temps de l’ampli- tude a k (t) des partiels.

a k = max t a k (t)

Ainsi une seule enveloppe spectrale est d´ efinie pour tout le son. Celle-ci est mod´ elis´ ee par quatre descripteurs proches de la perception :

La brillance

T b = P N

k=1 ka k P N

k=1 a k (2.1)

Le tristimulus 1

T 1 = a 1 P N

k=1 a k (2.2)

Le tristimulus 2

T 2 = a 2 + a 3 + a 4

P N k=1 a k

(2.3) La proportion d’harmoniques impairs

T o = P N/2

k=2 a 2k−1

P N k=1 a k

(2.4) Bien sur, il existe une infinit´ e d’enveloppe pour une valeur de ces descripteurs. Pour limiter le nombre de possibilit´ e, Jensen impose une mod´ elisation lin´ eaire de l’enveloppe spectrale en log-amplitude pour les partiels de rang sup´ erieur ` a 4 :

a k =

( B −k , si k impair

k 0 B −k , si k pair (2.5)

(12)

o` u B et k 0 d´ ependent de la brillance T b et de la proportion d’harmoniques impairs T 0 selon les expressions suivantes :

B = T b T b − 1 k 0 = (B + B 2 − 1) T 0

1 − T 0

Ces expressions correspondent ` a une approximation o` u toutes l’enveloppe serait d´ ecrite par (2.5) et o` u le nombre de partiels serait infini. Une fois B et k 0 obtenus, les coefficients a 1 jusqu’` a a 4 peuvent ˆ etre calcul´ es grˆ ace aux ´ equations (2.1), (2.2), (2.3), (2.4).

Ce syst` eme donne parfois des r´ esultats n´ egatifs, dans ce cas une proc´ edure it´ erative permet de d´ eterminer les valeurs des harmoniques basses en ajustant B et k 0 et en tenant compte de l’irr´ egularit´ e du spectre d´ efinie comme P N

k=1 (a k − a k+1 ) 2 / P N k=1 a 2 k .

2.3 Conclusion

Parmi tous les descripteurs acoustiques d´ ecrivant la timbre nous avons choisi d’en gar- der quatre, les quatre premiers moments du spectre. Les deux premiers, le centro¨ıde et l’´ etendue spectral, sont souvent identifi´ es comme sous-tendant le deuxi` eme et le troisi` eme axe de l’espace perceptif du timbre. Le rˆ ole de la skewness et de la kurtosis n’a pas ´ et´ e r´ eellement ´ etudi´ e, cependant elles sont utilis´ ees en classification et la skewness peut ˆ etre associ´ ee aux troisi` eme axe de [HCM97a]. De plus ces deux descripteurs ont une coh´ erence math´ ematique avec le centro¨ıde et l’´ etendue spectrale ce qui facilite la mod´ elisation.

Nous allons donc mod´ eliser l’enveloppe spectrale d’un son principalement par ses quatre

premiers moments. Nous verrons dans la suite que d’autres descripteurs se sont r´ ev´ el´ es

n´ ecessaires pour obtenir un mod` ele int´ eressant.

(13)

Chapitre 3

Les descripteurs retenus pour le mod` ele de transformation

Ce chapitre pr´ esente l’ensemble des param` etres que nous utiliserons dans notre mod` ele d’enveloppe spectrale.

3.1 Description de l’enveloppe spectrale

G´ en´ eralement, les descripteurs spectraux sont calcul´ es soit sur le spectre d’une trame de son, soit sur les amplitudes des harmoniques de cette trame, soit sur un banc de filtre.

Nous avons choisi calculer ces descripteurs sur l’enveloppe spectrale. Les valeurs calcul´ ees sur l’enveloppe spectrale ne sont pas les mˆ emes que celles calcul´ ees sur les harmoniques mais elles sont proportionnelles entre elles tant que le nombre d’harmoniques est suffisam- ment ´ elev´ e. Or, dans notre contexte, se sont bien les valeurs relatives des descripteurs qui nous int´ eressent, de plus nous cherchons ` a contrˆ oler des sons qui contiennent un grand nombre d’harmoniques, puisque, si un son en contient peu, il est plus ais´ e de manipuler les harmoniques individuellement que de manipuler l’enveloppe spectrale.

3.1.1 L’enveloppe spectrale

Nous avons choisi de d´ ecrire l’enveloppe spectrale par sa forme et sa largeur (que nous appellerons bande passante). Nous travaillons sur une enveloloppe de bande passante nor- malis´ ee ` a 1. La forme de l’enveloppe est alors obtenue grˆ ace ` a ses quatre premiers moments.

Ensuite la v´ eritable enveloppe est obtenue par changement d’´ echelle de facteur ´ egal ` a la bande passante.

Tous les moments sont calcul´ es sur l’enveloppe spectrale a(ν) en fr´ equence lin´ eaire nor-

malis´ ee ν ∈ [0, 1] et amplitude logarithmique normalis´ ee. La fr´ equence normalis´ ee 0 est

associ´ ees ` a la fr´ equence du premier harmonique f 1 , tandis que la fr´ equence 1 est associ´ e ` a

la fr´ equence de coupure vois´ ee/non-vois´ ee f c , c’est ` a dire la fr´ equence au-del` a de laquelle

(14)

le spectre est mieux expliqu´ e par du bruit que par des partiels quasi-harmoniques [Pee01].

Les amplitudes logarithmiques sont calcul´ ees comme suit :

Soit e l’amplitude lin´ eaire et a l’amplitude logarithmique de l’enveloppe spectrale.

a = log10( e e 0 )

o` u e 0 est un seuil choisi arbitrairement pour que les amplitudes en logarithmes soit tou- jours positives. Dans nos exp´ eriences nous prenons e 0 = 10 8. Ensuite les amplitudes sont normalis´ ees :

a norm (ν) = a(ν) R 1

0 a(ν) dν Dans la suite nous appelons aν l’enveloppe normalis´ ee.

Le centro¨ıde spectral

Le centro¨ıde spectral ou centre de gravit´ e ` a ´ et´ e identifi´ e comme ´ etant l’un des pa- ram` etres les plus importants pour la description du timbre d` es les premi` eres exp´ eriences sur la perception du timbre. Plusieurs d´ efinitions existent, nous adopterons la suivante :

µ = Z 1

0

ν a(ν) dν

L’´ etendue spectrale

Nous d´ efinissons l’´ etendue spectrale comme l’´ etendue du spectre autour de sa valeur moyenne.

σ 2 = Z 1

0

(ν − µ) 2 a(ν) dν La skewness

La skewness donne une mesure de la sym´ etrie du spectre autour de sa moyenne. Elle est calcul´ ee ` a partir du moment d’ordre 3.

γ 1 = 1 σ 3

Z 1 0

(ν − µ) 3 a(ν) dν

Une skewness nulle correspond ` a une distribution sym´ etrique, une skewness n´ egative indique une plus grande ´ energie ` a droite et une skewness positive une plus grande ´ energie

`

a gauche. Le spectre d’un son ´ etant en g´ en´ eral d´ ecroissant la skewness est positive.

(15)

La kurtosis

la kurtosis donne une mesure de l’aplatissement du spectre autour de sa moyenne. Il est calcul´ e ` a partir du moment d’ordre 4.

γ 2 = 1 σ 4

Z 1 0

(ν − µ) 4 a(ν) dν

Une distribution normale a une kurtosis de 3. Plus la distribution est plate plus la kurtosis est faible, plus elle est pointue, plus la kurtosis est ´ elev´ ee.

La bande passante

Elle est d´ efinie par la diff´ erence entre la fr´ equence de coupure vois´ ee/non-vois´ ee et celle du premier partiel. Cette valeur est directement reli´ ee par la fr´ equence fondamentale au nombre d’harmonique du son.

D´ ependance des moments avec la bande passante

La kurtosis et la skewness sont ind´ ependante de l’intervalle de fr´ equence utilis´ e pour les calculer. En revanche, le centro¨ıde et l’´ etendue spectrale en d´ ependent. Ainsi si au lieu de les calculer sur des valeurs normalis´ ees comprises entre 0 et 1, nous les calculons sur des fr´ equences r´ eelles f ∈ [0, F ], ils se trouvent tous les deux multipli´ es par F .

Les ´ equations suivantes indiquent comment calculer les moments en valeurs fr´ equentielles

`

a partir des moments en valeurs normalis´ ees, de la bande passante et de la fr´ equence f 1 du premier harmonique (qui est g´ en´ eralement ´ egale ` a la fr´ equence fondamentale f 0 ).

µ f = µ B w + f 1 σ f = σ B w

γ 1f = γ 1 γ 2f = γ 2

3.1.2 Les partiels

Nous n’avons pas mod´ elis´ e les fr´ equences des partiels, elles sont donc conserv´ ees, ainsi que leur phase et leur index.

3.2 Etude de la valeur des moments sur un ensemble de sons

Pour tenter de comprendre un peu mieux nos descripteurs spectraux, nous les avons

calcul´ es pour tous les ´ el´ ements d’une base de donn´ ees d’extraits sonores (Studio En Ligne

(16)

- IRCAM). Les extraits sont des notes seules jou´ ees sur des instruments harmoniques soutenus ou non ` a diff´ erentes hauteurs. La base de donn´ ees contient 1003 sons de 16 instruments.

Les moments sont calcul´ es sur la fr´ equence et l’amplitude des partiels. L’amplitude et la fr´ equence des partiels est obtenues par analyse additive, les partiels dont la fr´ equence est sup´ erieure ` a la fr´ equence de coupure vois´ e/non-vois´ e sont supprim´ es.

La figure 3.1 montre les corr´ elations entre les moments en valeurs fr´ equentielles, la figure 3.2 montre celles des moments normalis´ es.

La l´ egende de chaque figure est la corr´ elation entre les deux moments repr´ esent´ es calcul´ ee par la m´ ethode de Pearson.

Tout d’abord, nous remarquons que le centro¨ıde et l’´ etendue spectrale sont fortement corr´ el´ es (.98) lorsqu’ils sont calcul´ es en fr´ equences r´ eelle. En effet, du fait de la forme dissym´ etrique du spectre des instruments de musique, les deux ont tendance ` a augmenter lorsque la largeur du spectre augmente. D’ailleurs, le fait de normaliser les fr´ equences (ce qui annule l’effet de la largeur du spectre) rend la corr´ elation tr` es faible. En revanche, la corr´ elation est d´ eplac´ ee ` a la skewness. En effet, dans ce cas, un son dont le centro¨ıde est

´

elev´ e aura plus d’´ energie ` a droite.

Cette ´ etude nous permet aussi d’avoir une id´ ee sur l’intervalle que couvre chaque moment (cf. tableau 3.1). Ces intervalles pourront ˆ etre compar´ es aux r´ esultats des transformations que nous allons proposer.

Moment Minimum Maximum

centro¨ıde 0.3 0.5

´ etendue 0.26 0.34

skewness 0 0.8

kurtosis 1.5 2.5

Tab. 3.1 – Intervalles de valeurs des moments normalis´ es du Studio On Line

(17)

0 5000 10000 15000 0

1000 2000 3000 4000 5000 6000 7000

harmonic centroid

harmonic spectral spread

correlation0.9856

0 5000 10000 15000

0 0.2 0.4 0.6 0.8 1

harmonic centroid

harmonic skewness

correlation−0.23771

0 5000 10000 15000

0.5 1 1.5 2 2.5 3

harmonic centroid

harmonic kurtosis

correlation−0.14274

0 0.2 0.4 0.6 0.8 1

0.5 1 1.5 2 2.5 3

harmonic skewness

harmonic kurtosis

correlation0.77648

Fig. 3.1 – Etude de la corr´ elation entre les moments des sons du Studio En Ligne

(18)

0.2 0.3 0.4 0.5 0.6 0.7 0.26

0.28 0.3 0.32 0.34 0.36 0.38

normalized centroid

normalized spread

correlation0.16468

0.2 0.3 0.4 0.5 0.6 0.7

0 0.2 0.4 0.6 0.8 1

normalized centroid

skewness

correlation−0.86026

0.2 0.3 0.4 0.5 0.6 0.7

0.5 1 1.5 2 2.5 3

normalized centroid

kurtosis

correlation−0.65223

0.25 0 0.3 0.35 0.4 0.45

0.2 0.4 0.6 0.8 1

normalized spread

skewness

correlation−0.16926

Fig. 3.2 – Etude de la corr´ elation des moments normalis´ es des sons du Studio En Ligne

(19)

Chapitre 4

Mod´ elisation de l’enveloppe spectrale par splines

4.1 Introduction

Ce chapitre propose un mod` ele d’enveloppe spectrale permettant de transformer un son en changeant la valeur des descripteurs propos´ es au chapitre 3. Ce mod` ele est bas´ e sur l’approximation en courbes splines. Ces courbes ont ´ et´ e choisies car elles permettent une approximation pr´ ecise, lisse et coh´ erente de l’enveloppe, d’autre part nous pouvons lier analytiquement la valeur des descripteurs aux coefficients de la courbe. Enfin les propri´ et´ es des splines permettent que, quelle que soit la transformation op´ er´ ee, l’enveloppe r´ esultante reste toujours continue.

Nous commen¸cons par d´ efinir ces courbes et en donnons quelques propri´ et´ es, ensuite nous montrons comment retrouver une enveloppe ` a partir de la valeur des descripteurs d´ esir´ es.

4.2 Les splines

Les d´ efinitions sont emprunt´ ees ` a [dB93] et [UAE93]

4.2.1 Description g´ en´ erale et d´ efinitions

Les splines sont des polynˆ omes par morceaux qui peuvent satisfaire certaines condi- tions de continuit´ e. Les morceaux sont tous de mˆ eme degr´ e, ainsi l’ordre d’une spline est d´ efini comme ´ etant ´ egale au degr´ e des polynˆ omes plus un. Les extr´ emit´ es de chaque mor- ceau sont appel´ ees noeuds. L’ensemble des noeuds est appel´ e s´ equence de noeuds. Cette derni` ere peut contenir plusieurs fois le mˆ eme noeuds, dans ce cas nous parlerons de noeuds multiples (double, triple ...).

Nous appelons S k,t l’ensemble des splines de degr´ e k et de s´ equence de noeuds t.

(20)

Toutes splines peut-ˆ etre d´ efinie comme une somme pond´ er´ ee de fonctions de bases appel´ ees B-splines. A chaque s´ equence de noeuds est associ´ ee un ensemble unique de B- splines dans lequel chaque B-spline est associ´ e ` a un noeud. Ainsi nous pouvons d´ efinir S k,t comme suit :

Definition 4.2.1 Une spline d’ordre k et de s´ equence de noeuds t est une combinaison lin´ eaire de B-splines B i,k associ´ es ` a la s´ equence de noeuds. L’ensemble de ces splines est d´ efini par

S k,t = { X

i

B i,k a i : a i ∈ R }

O` u les a i sont appel´ es coefficients de la spline et les fonctions de base, ou B-splines B i,k sont d´ efinies par r´ ecurrence,

Definition 4.2.2 Soit une partition ou s´ equence de noeuds, i.e., une s´ equence croissante t = (t i ). La B-spline B i,k (t) d’ordre k > 1 associ´ ee au noeud t i est d´ efini par :

B i,k (t) = ω i,k B i,k−1 + (1 − ω i+1,k )B i+1,k−1

avec

B i,1 (t) = X(t) =

( 1, si t i ≤ t < t i+1 0, sinon.

et

ω i,k (t) =

( t−t

i

t

i+k−1

−t

i

, si t i 6= t i+k−1

0, sinon.

0 50 100 150 200 250 300

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

0 50 100 150 200 250 300

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Fig. 4.1 – B-splines d’ordre 3 associ´ ees ` a (a) un noeud simple (b) un noeud triple

Proposition 4.2.1 Une B-spline d’ordre k associ´ e au noeud t i est nulle hors de l’inter- valle [t i , t i+k ), i.e.,

∀k ∀t 6∈ [t i , t i+k ) B i,k (t) = 0

(21)

0 50 100 150 200 250 300 0

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Fig. 4.2 – Ensemble des B-splines d’ordre associ´ es ` a la s´ equence {0, 0, 0, 64, 128, 256, 256, 256}

4.2.2 Multiplicit´ e des noeuds et continuit´ e

La multiplicit´ e d’un noeud permet de changer la condition de continuit´ e ` a ce noeud, i.e. plus la multiplicit´ e est ´ elev´ ee, moins la spline sera lisse.

Proposition 4.2.2 soit s ∈ S k,t une spline d’ordre k et de s´ equence de noeuds t avec t i ∈ t un noeud de multiplicit´ e m. Alors s est k − m fois d´ erivable en t i et les k − m − 1 premi` eres d´ eriv´ ees sont continues.

La figure 4.3 montre deux splines d’ordre 3 dont la position des noeuds est identique.

Les noeuds aux extr´ emit´ es de la courbe sont triples pour permettre ` a la courbe de ne pas partir de z´ ero, le troisi` eme noeud est double dans (a) et triple dans (b), tous les autres sont simples. Notons que lorsque la multiplicit´ e d’un noeud est ´ egale ` a l’ordre de la spline, alors la courbe est discontinue.

50 100 150 200 250

3.8 4 4.2 4.4 4.6 4.8 5

x 10−3

50 100 150 200 250

3.6 3.8 4 4.2 4.4 4.6 4.8 5

x 10−3

Fig. 4.3 – Splines de degr´ e 3 avec (a) un noeud double (b) un noeud triple

(22)

4.2.3 Approximation de fonction a l’aide de splines

Les splines permettent d’approximer pr´ ecis´ ement une grande vari´ et´ e de courbes. L’ap- proximation se fait en agissant sur les coefficients a i afin de minimiser l’erreur quadratique.

Deux param` etres doivent ˆ etre d´ etermin´ es ` a priori, ce sont la position des noeuds et l’ordre de la spline.

Dans notre contexte l’int´ erˆ et des splines se trouve, d’une part dans la qualit´ e des ap- proximations, d’autre part dans le contrˆ ole qu’elles permettent. En effet, chaque B-spline est non nulle sur un intervalle restreint, ainsi en intervenant sur un coefficient nous ne modifions qu’une partie du spectre tout en conservant la continuit´ e aux noeuds. Nous ob- tenons donc un nombre r´ eduit, mais coh´ erent fr´ equentiellement, de param` etres de contrˆ ole.

4.2.4 Produit scalaire dans S k,t

Nous allons voir comment calculer un produit scalaire dans S k,t . Comme S k,t n’est pas un espace orthogonal, il nous faut effectuer quelques manipulations pour simplifier le calcul.

Soit f et g deux fonctions de R . Elles peuvent se d´ ecomposer sur S k,t : f(x) = P

i k i B i (x), g(x) = P

i l i B i (x).

Nous avons,

< f, g > = Z

f(x) g(x) dx

=

Z X

i

k i B i (x) X

j

l j B j (x) dx

= X

i

X

j

k i l j Z

B i (x)B j (x) dx Posons, A ij = R

B i (x)B j (x) dx, et α i = P

j l j A ij Nous obtenons l’expression suivante :

< f, g >= X

i

l i α i (4.1)

Ceci nous sera utile lorsque nous modifierons les moments de l’enveloppe spectrale pour

d´ eterminer les coefficients de l’enveloppe transform´ ee.

(23)

4.3 Application ` a l’approximation et ` a la transforma- tion d’enveloppe spectrale

Nous allons maintenant voir comment utiliser les fonctions splines pour changer la forme de l’enveloppe spectrale en modifiant la valeur de ses quatre premiers moments.

4.3.1 Approximation de l’enveloppe spectrale

Choix des noeuds et de l’ordre

Nous avons choisi des splines d’ordre 3, ce qui correspond ` a des polynˆ omes de degr´ e 2.

Nous faisons ce choix car c’est l’ordre minimum qui donne une approximation pr´ ecise de l’enveloppe.

Comme nous avons cinq descripteurs (les moments d’ordre 0 ` a 4) ` a notre disposition, nous voulons une spline caract´ eris´ ee par cinq coefficients. D’apr` es les propri´ et´ es de ces courbes et pour obtenir les bonnes conditions de continuit´ es, cela permet de diviser l’axe des fr´ equences en trois parties. Cette partition est non uniforme pour donner un contrˆ ole plus pr´ ecis dans les basses fr´ equences. Nous avons donc choisi la s´ equence de noeuds suivante :

t = {0, 1/4, 1/2, 1}

R´ esiduel de mod´ elisation

Les splines que nous utilisons donnent la forme globale de l’enveloppe mais n’en suivent pas tous les d´ etails. Nous extrayons donc un r´ esiduel de mod´ elisation en soustrayant l’ap- proximation ` a l’enveloppe originale. Ce r´ esiduel est conserv´ e tout au long du traitement puis rajout´ e apr` es transformation. Ceci permet de conserver la ¨structure fine du spectre”.

Le calcul des descripteurs spectraux, r´ ealis´ e sur l’approximation, n’est influenc´ e par cette op´ eration que de fa¸con n´ egligeable.

La figure 4.4 repr´ esente une enveloppe spectrale de guitare. La courbe lisse repr´ esente l’ap- proximation en spline et les courbes en pointill´ es sont les B-splines. Cette figure permet aussi de voir quel sera le r´ esiduel de mod´ elisation.

4.3.2 Transformation par changement de la valeur des moments

Dans ce paragraphe, nous cherchons ` a d´ eterminer un syst` eme reliant la valeur des moments de l’enveloppe spectrale aux coefficients de son approximation en splines.

Soit e(ν) la fonction d´ ecrivant l’enveloppe spectrale et a(ν) son approximation dans S k,t ie. a(ν) = P

i k i B i (x).

La valeur d’un moment est d´ etermin´ ee par une expression de la forme m = k R

a(ν) f (ν) dν

o` u f est ´ egale ` a ν, (ν − µ) 2 , (ν − µ) 3 ...

(24)

0 50 100 150 200 250 300 0

0.5 1 1.5 2 2.5 3 3.5 4 4.5

5x 10−3

fréquence (bin)

amplitude (dB)

Enveloppe spectrale calculée par le cepstre discret Approximation par spline

B−splines associés pondérés par les coefficients de l"approximation

Fig. 4.4 – Enveloppe spectrale d’une guitare et son approximation par spline Ceci peut-ˆ etre interpr´ et´ e comme le produit scalaire entre a et f. Ainsi, si nous approximons f par splines, ie. f (ν) = P

i l i B i (ν) et si nous posons : α i = P

j l j A ij avec A ij = R

B i (x)B j (x) dx

m peut s’´ ecrire d’apr` es 4.1 de la mani` ere suivante : m = k < f, a >= k X

i

l i α i

Ceci nous donne une ´ equation reliant les l i ` a la valeur des moments.

Cependant, les coefficients de l’´ equation α i d´ ependent des l i et donc de f. Or f est d´ ependant de µ pour les moments d’ordre sup´ erieur ` a 2, elle est donc susceptible de varier au cours du temps et pendant les transformations.

Pour des questions de simplicit´ e algorithmique nous prendrons donc f = ν, ν 2 , ν 3 ... ce qui nous permettra d’obtenir des α i ind´ ependants de µ. Pour cela il nous faut, dans un premier temps d´ eterminer la valeur du produit scalaire entre a(ν) et les ν i en fonction des moments.

Tout d’abord, les amplitudes sont normalis´ ees :

R a(ν) dν = 1 (4.2)

(25)

Puis d’apr` es la d´ efinition de la moyenne :

µ =

Z

ν a(ν) dν

= < ν, a(ν) >

Nous obtenons :

< ν, a(ν) > = µ (4.3)

De mˆ eme la variance est d´ efinie par : σ 2 =

Z

(ν − µ) 2 a(ν) dν

= Z

2 − 2µν + µ 2 ) a(ν) dν

= < ν 2 , a(ν) > −2µ < ν, a(ν) > +µ 2 < 1, a(ν) >

= < ν 2 , a(ν) > −µ 2 Donc,

< ν 2 , a(ν) > = σ 2 + µ 2 (4.4) La skewness est d´ efinie par :

γ 1 = 1 σ 3

Z

(ν − µ) 3 a(ν) dν

= 1

σ 3 Z

3 − 3µν 2 + 3µ 2 ν − µ 3 ) a(ν) dν

= 1

σ 3 (< ν 3 , a(ν) > −3µ < ν 2 , a(ν) > +3µ 2 < ν, a(ν) > −µ 3 < 1, a(ν) >)

= 1

σ 3 (< ν 3 , a(ν) > −3µ(σ 2 + µ 2 ) + 3µ 3 − µ 3 )

= 1

σ 3 (< ν 3 , a(ν) > −3µσ 2 − µ 3 ) Donc,

< ν 3 , a(ν) > = σ 3 γ 1 + 3µσ 2 + µ 3 (4.5) Enfin, la kurtosis est d´ efinie par :

γ 2 = 1 σ 4

Z

(ν − µ) 4 a(ν) dν

= 1

σ 4 Z

4 − 4µν 3 + 6ν 2 µ 2 − 4µ 2 ν + µ 4 ) a(ν) dν

= 1

σ 4 (< ν 4 , a(ν) > −4σ 3 γ 1 µ − 6µ 2 σ 2 − µ 4 )

(26)

Donc,

< ν 4 , a(ν) >= γ 2 σ 4 + 4σ 3 γ 1 µ + 6µ 2 σ 2 + µ 4 (4.6) Maintenant, ` a partir des ´ equations pr´ ec´ edentes, nous pouvons d´ eterminer les coeffi- cients de la spline associ´ ee ` a l’enveloppe dont les moments ont les valeurs d´ esir´ ees.

Posons ν n = P

i l n,i B i (x), pour n ∈ {0, 1, 2, 3, 4}

A ij = R

B i (x)B j (x) dx M n,i = P

j l n,j A ij . D’apr` es (4.1)

< ν n , a(ν) >= P

i M n,i k i

De plus En utilisant (4.2), (4.3), (4.4), (4.5), (4.6)

d =

< 1, a(ν) >

< ν, a(ν) >

< ν 2 , a(ν) >

< ν 3 , a(ν) >

< ν 4 , a(ν) >

=

1 µ σ 2 + µ 2 σ 3 γ 1 + 3µσ 2 − µ 3 γ 2 σ 4 + 4σ 3 γ 1 µ + 6µ 2 σ 2 + µ 4

Nous obtenons le syst` eme Mk = d reliant les coefficients k = (k i ) de l’approximation en spline de l’enveloppe spectrale et la valeurs des quatre premiers moments de cette enveloppe.

Pour obtenir les coefficients, il suffit d’inverser M.

4.4 Mod´ elisation de l’´ evolution temporelle des des- cripteurs

Nous avons essay´ e de mod´ eliser l’´ evolution temporelle des descripteurs pour ´ etudier l’influence d’un lissage et apport´ e un meilleur contrˆ ole au cours du temps. Le signal est divis´ e en plusieurs parties selon une simplification du mod` ele ADSR (Attack, Sustain, De- cay, Release). Ce mod` ele segmente l’enveloppe temporelle de l’´ energie en quatre partie : l’attaque, une d´ ecroissance, une partie tenue et l’extinction. Dans notre cas l’algorithme d´ ecoupe le son en deux ou trois partie selon ses caract´ eristique. Par exemple une note de guitare (voir figure 4.6) est d´ ecoup´ ee en trois (attaque, d´ ecroissance et extinction) et une note de contrebasse jou´ ee ` a l’archet (voir figure 4.5) est d´ ecoup´ ee en une attaque et une ex- tinction. Ensuite le trajet temporel des descripteurs est liss´ e par des splines d’ordre 2 pour conserver la continuit´ e aux points de coupe [Pee03a]. Ainsi chaque zone est repr´ esent´ ee par une droite dont nous pouvons contrˆ oler les coefficients.

Il est donc possible de faire varier les moments ind´ ependamment sur chaque partie en chan-

geant les coefficients du polynˆ ome correspondant ou, lors de synth` eses crois´ ees, conserver

(27)

la correspondance entre les parties des deux sons.

50 100 150

1.5 2 2.5

3 x 10

4

temps (trame) somme

50 100 150

0.445 0.45 0.455 0.46 0.465

temps (trame) centroide spectrale

50 100 150

0.288 0.29 0.292 0.294 0.296

temps (trame) étendue spectrale

50 100 150

0.1 0.12 0.14 0.16 0.18 0.2 0.22

temps (trame) skewness

50 100 150 200

1.76 1.78 1.8 1.82 1.84

temps (trame) kurtosis

0 100 200 300

0 0.1 0.2 0.3 0.4 0.5

temps

energie

Fig. 4.5 – Evolution temporelle des quatre premiers moments d’une enveloppe spectrale

de contrebasse et approximation par splines d’ordre 2 des parties correspondant ` a l’attaque

et ` a la partie soutenue

(28)

20 40 60 80 100 120 1

1.1 1.2 1.3 1.4 1.5 1.6

x 10

4

temps (trame) somme

20 40 60 80 100120140 0.43

0.44 0.45 0.46 0.47 0.48

temps (trame) centroide spectrale

20 40 60 80 100 120 140 0.278

0.28 0.282 0.284 0.286 0.288 0.29

temps (trame) étendue spectrale

50 100 150

0.1 0.15 0.2 0.25 0.3

temps (trame) skewness

20 40 60 80 100 120 1.8

1.85 1.9 1.95

temps (trame) kurtosis

0 100 200 300

0 0.1 0.2 0.3 0.4

temps

energie

Fig. 4.6 – Evolution temporelle des quatre premiers moments d’une enveloppe spectrale

de guitare et approximation par splines d’ordre 2 des parties correspondant ` a l’attaque, ` a

la d´ ecroissance et ` a la d´ ecoissance

(29)

Chapitre 5

Description du syst` eme

L’ensemble du syst` eme est repr´ esent´ e sur la figure 5.1. Les paragraphes suivants d´ etaillent chaque ´ el´ ement.

5.1 L’analyse

5.1.1 L’analyse Additive

La m´ ethode d’analyse du signal utilis´ e est l’analyse additive [MQ86], [SS90]. Elle permet de d´ ecomposer le signal en une partie harmonique et un r´ esiduel de mod´ elisation. A chaque instant n le signal est mod´ elis´ e de la mani` ere suivante :

s(n) =

I(k)

X

i=1

a i cos(2πf i,k n + φ i,k ) + r(n) , pour chaque trame k.

O` u I(k) repr´ esente le nombre de partiels (variable au cours du temps), a i,k , f i,k et φ i,k respectivement l’amplitude, la fr´ equence et la phase du partiel i, et r(n) le r´ esiduel de mod´ elisation.

Outre les param` etres ci-dessus, l’analyse nous permet d’obtenir une fr´ equence de voisement, c’est ` a dire une fr´ equence au-del` a de laquelle le signal est consid´ er´ e comme plus bruit´ e qu’harmonique. Ainsi, il est inutile de chercher des pics spectraux ou d’estimer l’enveloppe spectrale au-dessus de cette fr´ equence. La m´ ethode utilis´ ee est d´ ecrite dans [Pee01]. Celle-ci nous fourni une fr´ equence de voisement f v (k) pour chaque trame. Nous utilisons dans la suite une valeur unique de f v (k) pour tout le signal :

f vmax = max k (f v (k))

5.1.2 Estimation de l’enveloppe spectrale : Le cepstre discret

L’estimation de l’enveloppe spectrale se fait par la m´ ethode du cepstre discret [GR90],[OCM95].

L’enveloppe spectrale est calcul´ ee directement ` a partir de points du plan fr´ equence/amplitude

(30)

Sound

partials Additive

analysis Discrete cepstrum

transform

spectral envelope

Spline approximation

Moments calculation

coefficients

moments vector (p)

Matrix calculation

matrix M Moments

modifications

moments vector (p’)

System resolution

M x = p’

new spline coefficients (x)

New spectral envelope construction

new spectral envelope New partials

amplitude interpolation

new partials

Additive synthesis

Sound

Résidual extraction

residual (r)

ActionName

objectName

Action

Object

(31)

des partiels. Typiquement, et dans le cas pr´ esent, les points sont les pics spectraux extraits par l’analyse additive.

L’enveloppe en log-amplitude est d´ ecrite par les coefficients cepstraux r´ eel c i sous la forme : A c (f ) = c 0 + 2

p

X

i=1

c i cos(2pif i)

Avec p l’ordre du cepstre.

La m´ ethode consiste ` a d´ eterminer les c i qui minimisent l’erreur : =

L

X

k=1

w k k 20log 10 a k − A c (f k ) k 2 .

Certaines techniques sont utilis´ ees pour am´ eliorer les r´ esultats comme la “Cloud me- thod” ou l’utilisation de log-fr´ equence dans le haut du spectre [GR90].

Nous avons choisi d’utiliser le cepstre discret car il est tr` es bien adapt´ e ` a l’analyse additive.

L’amplitude des partiels est bien approch´ ee tandis que l’enveloppe reste relativement lisse dans la plupart des cas. Comme pour l’analyse additive le param´ etrage se fait en grande partie ` a la main selon les caract´ eristiques de chaque signal.

5.1.3 Approximation et transformation de l’enveloppe par la m´ ethode des B-splines

Voir chapitre 4

5.2 La synth` ese

5.2.1 Reconstruction de l’enveloppe ` a partir des nouveaux coef- ficients

Le calcul de la nouvelle enveloppe spectrale se fait ` a partir des coefficients p 0 i obtenus et du r´ esiduel (f ) :

a 0 (f) = X

i

p 0 i B i (f) + (f)

5.2.2 La synth` ese additive

Nous obtenons l’amplitude des partiels, dont la fr´ equence n’a pas chang´ e au cours des transformations, ` a partir de l’enveloppe spectrale.

La synth` ese se fait par addition de sinuso¨ıdes en tenant compte des phases du signal

d’origine.

(32)

Enfin, le r´ esiduel de mod´ elisation r(n) issu de l’analyse additive peut-ˆ etre ajout´ e au signal.

Toutefois si les transformations effectu´ ees sur le spectre harmonique sont importantes ou si de fortes modifications d’amplitudes au cours du temps ont ´ et´ e r´ ealis´ ees, la partie al´ eatoire peut avoir perdu son lien avec la partie harmonique. La superposition des deux peut amener

`

a des sons peu coh´ erents. Un travail doit donc ˆ etre effectu´ e sur la partie al´ eatoire pour la

transformer de mani` ere coh´ erente ` a la partie harmonique.

(33)

Chapitre 6 R´ esultats

6.1 Pr´ esentation

6.1.1 Analyse et synth` ese sans transformation

La mod´ elisation utilis´ ee permet de resynth´ etiser un son de mani` ere parfaite si le r´ esiduel est ajout´ e durant la reconstruction de l’enveloppe spectrale, si l’enveloppe spectrales est bien calcul´ ee par le cepstre discret et si la valeur des moments est conserv´ ee pour chaque trame. Nous entendons par parfaite que le r´ esultat est le mˆ eme que celui obtenu directement par analyse/resynth` ese.

Lorsque le r´ esiduel de mod´ elisation n’est pas ajout´ e, les r´ esultats d´ ependent de la r´ egularit´ e de l’enveloppe spectrale originale dans la zone des premiers harmoniques. En effet le mod` ele

`

a tendance ` a lisser l’enveloppe, ce qui s’entend beaucoup sur les premiers harmoniques qui sont dans des bandes critiques diff´ erentes.

La figure 6.1 montre un spectre de contrebasse et un spectre de trompette. La trompette ` a une enveloppe tr` es lisse, comme nous pouvons l’entendre (voir site ftp) les synth` eses avec et sans r´ esiduel sons quasiment indiscernables. En revanche, elles sont diff´ erentes dans le cas de la contrebasse dont les premiers harmoniques sont assez irr´ eguliers.

Range de la transformation. Diff´ erence entre les descripteurs.

6.1.2 Changement de la valeur d’un des moments

Tout d’abord, nous devons v´ erifier que les modifications d´ esir´ ees (ou les non-modifications) sont bien celles que nous obtenons. En effet, les modifications sont appliqu´ ees ` a une enve- loppe liss´ ee, le fait d’ajouter le r´ esiduel pourrait fausser les r´ esultats et surtout, les valeurs de moments calcul´ ees sur l’enveloppe spectrale pourrait ˆ etre diff´ erentes de celles calcul´ ees sur les harmoniques. Comme nous l’avions pr´ evu, les valeurs des moments de l’enveloppe respectent parfaitement les valeurs cibles malgr´ e l’ajout du r´ esiduel, de plus les valeurs relatives des moments harmoniques sont presque justes.

Les figures 6.2 et 6.3, montrent un exemple de modification de la kurtosis sur un son de

contrebasse. Nous avons chang´ e la kurtosis de -1%, -5%, -10% et +10%. Nous consta-

(34)

Fig. 6.1 – (a) Spectre de trompette (fa4) (b) Spectre de contrebasse (fa1)

tons que les autres moments harmoniques restent quasiment inchang´ es (Les courbes sont confondues).

D’autres part les intervalles possibles pour les descripteurs sont proches de ceux observ´ es dans le paragraphe 3.2.

Etudions maintenant les types de modifications qu’op` erent sur l’enveloppe les change- ments de valeurs des moments.

Les figure 6.4 et 6.5 pr´ esente le r´ esultat de la modification ind´ ependante de chaque moment.

Agir ainsi sur les moments entraˆıne de tr` es grandes variations de l’enveloppe pour des pe- tites variations de leurs valeurs. Ainsi, nous voyons sur la figure 6.4(a) qu’une modification de l’ordre de 2% de la valeur du centro¨ıde entraˆıne d´ ej` a de fortes modifications en parti- culier en basse et haute fr´ equence. Le changement perceptif est frappant (voir exemples sonores).

Nous avons fait ´ ecout´ e ` a quelques personnes de mani` ere informelle un petit ensemble de sons. Les observations recueillies sont r´ esum´ ees et comment´ ees ci-dessous. Les modifi- cations le long des axes d´ efinis par les quatre moments sont diff´ erentes perceptivement.

Tout d’abord, l’axe un est l’axe le mieux d´ efini. Cela n’a rien d’´ etonnant dans la mesure o` u il modifie le centro¨ıde spectrale, comme attendu sa modification change la brillance. En- suite l’axe 3 semble correctement d´ efinie. En effet, la brillance n’est pas modifi´ ee lorsque l’on fait varier le descripteur lui correspondant. Ce qui semble changer est alors ce que nous pourrions qualifier de “r´ esonateur”. En augmentant la valeurs de la skewness, le

“r´ esonateur”donne l’impression de se resserer. Enfin les r´ esultats des axes 2 et 4 sont plus mitig´ es.Des variations le long de ces axes ne changent pas d’ attributs perceptifs pr´ ecis.

Les d´ eplacements sur l’axe 2 donne une impression de passer d’un son de gorge ` a un son

de nez, et change aussi la brillance du son. L’axe 4 est plus complexe, et les r´ esultats

(35)

sonores varient consid´ erablement selon le son de d´ epart. Il est important de souligner que ce probl` eme est valable pour tout les axes, de mani` ere plus ou moins importante. Comme nous l’avons d´ ej` a dit, l’axe 1 est le mieux d´ efinie, c’est donc celui qui subit le moins les changements de son. Les axes 2 et 4 sont ceux sur lesquels une diff´ erence de son au d´ epart donnera les r´ esultats les moins coh´ erents, c’est ` a dire les sons dont les variations seront les plus difficiles ` a qualifier sous un mˆ eme terme, comme nous pouvons qualifier les change- ments le long de l’axe 1 de variations de brillance.

Le probl` eme d’interpr´ etations des r´ esultats qui se pose, peut s’illustrer en prenant des exemples plus pr´ ecis de sons pr´ esent´ es en exemples. On constate, en effet, que certaines modifications sont moins perceptibles pour le son de trompette que pour le son de gui- tare. Nous voyons l` a les limites de notre mod` ele. Nous ne pouvons nous contentez que de d´ ecrire empiriquement les r´ esultats des synth` eses effectu´ es et ce presque son par son. Les solutions envisageables pour rendre ce mod` ele consistant serait de d´ efinir des cat´ egories de sons qui apr` es synth` ese donne le mˆ eme type de variations perceptives. Plus pr´ ecisemment, nous pourrions regarder par exemple si les sons frott´ es donnent apr` es transformation des r´ esultats sonores coh´ erents et interpr´ etables, et diff´ erents des sons souffl´ es qui donneraient alors d’autres r´ esultats sonores coh´ erents entre eux. Pour valider ce travail scientifiquement et ne pas se contenter d’observations empiriques, il serait souhaitable de mettre en place des exp´ eriences de perception et cognition musicale. Cela permetterait de valider scien- tifiquement nos recherches et peut ˆ etre d’aider ` a la d´ efinition et ` a la compr´ ehension du timbre.

6.1.3 Lissage des descripteurs au cours du temps

Le lissage des descripteurs par splines est en g´ en´ eral peut perceptible si le son ne

contient pas de modulation (vibrato, tr´ emolo). Les microvariations observ´ ee sur les valeurs

des moments au cours du temps ne semble pas avoir de r´ eelle influence perceptive. De

plus dans le cas d’instruments non entretenus (cordes frapp´ ees ou pinc´ ees) il ne parait pas

n´ ecessaire de couper l’attaque et la d´ ecroissance en deux, une seule droite suffit.

(36)

50 100 150 6200

6300 6400 6500 6600 6700 6800 6900

trames temporelles

fréquence (Hz)

Centroïde spectrale

0 50 100 150

4040 4060 4080 4100 4120 4140

trames temporelles

fréquence (Hz)

Etendue spectrale

50 100 150

0 0.05 0.1 0.15 0.2

trames temporelles

fréquence (Hz)

Skewness

0 50 100 150 200

1.6 1.7 1.8 1.9

trames temporelles

fréquence (Hz)

Kurtosis

Fig. 6.2 – Evolution temporelle de la valeur des quatre premiers moments de l’enveloppe

de la contrebasse pour quatre valeurs de la kurtosis

(37)

50 100 150 5000

5500 6000 6500 7000

trames temporelles

fréquence (Hz)

Centroïde spectrale

50 100 150

3200 3400 3600 3800 4000 4200

trames temporelles

fréquence (Hz)

Etendue spectrale

0 50 100 150 200

−0.1 0 0.1 0.2 0.3 0.4

trames temporelles

fréquence (Hz)

Skewness

0 50 100 150 200

1.6 1.7 1.8 1.9 2

trames temporelles

fréquence (Hz)

Kurtosis

Fig. 6.3 – Evolution de la valeur des quatre premiers moments des partiels de la contrebasse

pour quatre valeurs de la kurtosis

(38)

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 x 104 10

20 30 40 50 60 70

Changement du centroïde spectral

Fréquence (hertz)

Amplitude (dB)

7524 7662 7386

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

x 104 0

10 20 30 40 50 60 70

Changement de la "variance"

Fréquence (hertz)

Amplitude (dB)

5256 5361 5151

Fig. 6.4 – B-splines de degr´ e 3 associ´ es ` a (a) un noeud simple (b) un noeud triple

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

x 104 10

20 30 40 50 60 70

80 Changement de la "skewness"

Fréquence (hertz)

Amplitude (dB)

0.559 0.615 0.503

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

x 104 0

10 20 30 40 50 60

70 Changement de la "skewness"

Fréquence (hertz)

Amplitude (dB)

2.12 2.33 1.91

Fig. 6.5 – B-splines de degr´ e 3 associ´ es ` a (a) un noeud simple (b) un noeud triple

(39)

Chapitre 7 Conclusion

Dans cette ´ etude, nous avons propos´ e un mod` ele permettant de manipuler un son ` a l’aide de param` etres de haut-niveau. Ces param` etres sont les quatres premiers moments et la largeur de l’enveloppe spectrale. La technique propos´ ee permet une modification r´ eellement ind´ ependante de chaque param` etre. Un mod` ele simple de l’´ evolution temporelle des param` etres est aussi propos´ e.

Les transformations du son rendues possibles par ce mod` ele sont satisfaisantes. N´ eanmoins, elles sont parfois peu pr´ evisibles. Nous avons observ´ e que l’´ evolution du son le long des axes d´ efinis par les descripteurs n’est pas perceptivement constante et d´ epend du son trait´ e, les r´ esultats les plus probants ´ etant obtenus pour des sons contenant beaucoup d’harmo- niques. De plus l’´ evolution de la sonie au cours du temps peut-ˆ etre fortement modifi´ ee ce qui perturbe le jugement. Il semble donc n´ ecessaire d’ajouter une contrainte sur la sonie au mod` ele. Ce dernier pourrait aussi ˆ etre compl´ et´ e par l’ajout d’un mod` ele de comportement fr´ equentiel des harmonique ou en ´ etendant la mod´ elisation temporelles des descripteurs.

Nous n’avons r´ ealis´ e que des ´ ecoutes informelles sur un petit nombre de son. Nous ne pou-

vons alors pas apporter de validation scientifique au mod` ele propos´ e. Il serait int´ eressant

de r´ ealiser des exp´ eriences de perception et cognition musicale comme des tˆ aches de

cat´ egorisation libre ou de jugement de dissimilarit´ es sur un ensemble de sons issus de

transformations, pour s’assurer d’une qualification unanime concernant les variations ob-

serv´ es sur chaque axes.

(40)

Bibliographie

[ABLS02] X. Amatriain, J. Bonada, A. Loscos, and X. Serra, Spectral processing, DAFX : Digital Audio Effects (Udo Z¨ olzer, ed.), John Wiley and Sons, Ltd., 2002, pp. 373–438.

[dB93] Carl de Boor, B(asic)-spline basics, Fundamental Developments of Computer-Aided Geometric Modeling (Les Piegl, ed.), Academic Press, 1993.

[Don97] S. Donnadieu, Repr´ esentation mentale du timbre des sons complexes et effets de contexte, Th` ese de doctorat, Universit´ e Paris V, Paris, 1997.

[GR90] Thierry Galas and Xavier Rodet, An Improved Cepstral Method for Deconvo- lution of Source–Filter Systems with Discrete Spectra : Application to Musi- cal Sound Signals, Proceedings of the International Computer Music Confe- rence (ICMC) (Glasgow), September 1990.

[HCM97a] C. Hourdin, G. Charbonneau, and T. Moussa, A multidimensional scaling analysis of musical instruments’ time-varying spectra, Computer Music Jour- nal 21,2 (1997), 56–68.

[HCM97b] , A sound-synthesis based on multidimensional scaling of spectra, Computer Music Journal 21,2 (1997), 40–55.

[HKCH97] J. Hajda, R. Kendall, E. Carterette, and M. Harshberger, Methodological issues in timbre research, Perception and cognition of music (I. Deli` ege and John Sloboda, eds.), Psychology Press, UK, 1997, pp. 253–306.

[Jen99] K. Jensen, Timbre models of musical sounds, Ph.D. dissertation, Department of Computer Science, University of Copenhagen, 1999, Report no. 99/7.

[MdCMW03] J. Marozeau, A. de Cheveign´ e, S. McAdams, and S. Winsberg, The depen- dency of timbre on fundamental frequency, Journal of the Acoustical Society of America 114 (2003), 2946–2957.

[MQ86] R.J. McAulay and Th.F. Quatieri, Speech analysis/synthesis based on a si- nusoidal representation, IEEE Trans. on Acoust., Speech and Signal Proc.

34 (1986), 744–754.

[MWD + 95] S. McAdams, S. Winsberg, S. Donnadieu, G. De Soete, and J. Krimphoff, Perceptual scaling of synthesized musical timbres : Common dimensions, spe- cificities, and latent subject classes, Psychological Research 58 (1995), 177–

192.

(41)

[OCM95] J. Laroche O. Capp´ e and E. Moulines, Regularized estimation of cepstrum envelope from discrete frequency points, 1995.

[Pee01] Geoffroy Peeters, Mod` eles et modification du signal sonore adapt´ es ` a ses caract´ eristiques locales, Ph.D. thesis, Universit´ e Paris 6, 2001.

[Pee03a] Geoffroy Peeters, Audio feature extractions, Tech. report, Projet CUIDADO, 2003.

[Pee03b] , Automatic classification of large musical instrument databases using hierachical classifiers with inertia ratio maximization, AES 115th Convention (New-York, USA), Octobre 2003.

[PMH00] G. Peeters, S. McAdams, and P. Herrera, Instrument description in the context of mpeg-7, Proceedings of International Computer Music Conference 2000 (Berlin, Germany), 2000.

[Rod97] Xavier Rodet, Musical sound signal analysis/synthesis : Sinusoidal+residual and elementary waveform models, 1997.

[SB98] X. Serra and J. Bonada, Sound transformations based on the sms high level attributes, Proceedings of the 1st Digital Audio Effects Workshop (Barcelona, Spain), 1998.

[SS90] X. Serra and J.O. Smith, Spectral modeling synthesis : A sound analy- sis/synthesis system based on a deterministic plus stochastic decomposition., Computer Music Journal 14 (1990), no. 4, 12–24.

[UAE93] M. Unser, A. Aldroubi, and M. Eden, B-Spline signal processing : Part I—

Theory, IEEE Transactions on Signal Processing 41 (1993), no. 2, 821–833.

Références

Documents relatifs

On sait que les pieds des perpendiculaires abaissées d'un point d'un cercle sur les côtés d'un triangle inscrit sont en ligne droite, et que, si le point décrit le cercle, la

Cette cellule est prévue pour fonctionner pour une ou deux équipes, la deuxième pou- vant travailler à l'extérieur en repoussant l'ensemble vers la rampe du

Deuxi`eme algorithme : Graham Un point int´erieur... Deuxi`eme algorithme : Graham Un

K milieu de OO 0 d´ ecrit la podaire de Γ E relative ` a A, c` ad un lima¸ con de Pascal avec point double en A, et dont l’inverse est une

C’est donc ce dernier cas (corde des contacts parallèle au petit axe) qu’a envisagé l’auteur de l’énoncé et de la première solution, sans le

1) Relie le mot avec le bon dessin. 2) Ecris les mots suivants au bon endroit dans

´ Ecrire un programme qui affiche le support de la famille de droites ( D t ) t∈ R ainsi que le support de son enveloppe C , de mani`ere anim´ee afin de v´erifier visuellement

„ M3 : matériaux inflammables dont combustion se poursuit après suppression de la source de chaleur, puis cesse.. „ M4 : matériaux inflammables dont la combustion se poursuit