• Aucun résultat trouvé

4.3.1

Calcul des attributs

Il n’existe aucun consensus quant aux param`etres acoustiques `a utiliser pour la reconnaissance des diff´erentes classes d’instruments de la batterie. Dans le contexte monophonique, diff´erents at- tributs sont d´ecrits dans [GR04] ou [GHD03]. Il serait cependant hasardeux d’appliquer tels quels ces r´esultats au cas polyphonique. Une ´etude du cas polyphonique est effectu´ee par Tanghe et al. dans [TDB05], o`u sont utilis´es diff´erents attributs relativement peu coˆuteux `a calculer et suppos´es robustes `a l’ajout de bruit provenant d’autres instruments de musique (banc de filtres adapt´es), ainsi que des attributs plus communs comme les MFCC. Certains de ces attributs ont une interpr´etation perceptuelle ou acoustique directe (par exemple, les MFCC expriment la forme de l’enveloppe spec-

Rappel (%) Pr´ecision (%) Accompagnement−∞ dB maximum 94.7 87.8 minimum 94.5 87.9 somme 94.6 88.1 produit 94.4 87.9 Accompagnement−6 dB maximum 87.4 82.0 minimum 88.2 83.0 somme 88.0 83.5 produit 88.0 83.1 Accompagnement+0 dB maximum 85.8 79.5 minimum 86.5 80.3 somme 86.2 81.1 produit 86.6 80.2 Accompagnement+6 dB maximum 83.7 76.6 minimum 84.6 77.5 somme 84.4 78.5 produit 84.7 78.0

TAB. 4.2 – Performances du module de d ´etection d’onsets, pour divers op ´erateurs

de fusion

trale), qui justifient leur int´erˆet pour la tˆache de classification consid´er´ee. D’autres attributs n’offrent pas de telles interpr´etations, mais ont un fort pouvoir discriminant. Nous choisirons ici de mettre l’accent sur le pouvoir discriminant des attributs consid´er´es, plutˆot que sur leur interpr´etation per- ceptuelle ou acoustique. Ainsi, nous consid´erons un ensemble d’attributs candidats particuli`erement grand, sans nous soucier pour l’instant de leur robustesse et pertinence, et nous s´electionnons par la suite les plus efficaces d’entre eux par des techniques d’apprentissage statistique. Cette approche, qui troque l’interpr´etabilit´e des classifieurs, au profit de leur efficacit´e, a ´et´e appliqu´ee avec succ`es par Essid et al. [ERD06b] pour le probl`eme de la reconnaissance des instruments de musique.

Il n’existe pas non plus de consensus sur la taille des fenˆetres d’observation `a consid´erer pour le calcul des param`etres acoustiques. Dans [TDB05], Tanghe et al. utilisent une dur´ee fixe (180 ms pour le d´etecteur de grosse caisse, 100 ms pour le d´etecteur de caisse claire, 140 ms pour le d´etecteur de hi-hat), tandis que dans [GH01], Gouyon et al. consid`erent l’intervalle entre deux pulsations de tatum. Dans [GR04], nous utilisons comme fenˆetre d’analyse l’int´egralit´e de l’intervalle entre deux onsets successifs. Ce choix am´eliore la robustesse de l’extraction des param`etres – par exemple, l’estimation de l’enveloppe d’amplitude ou de la densit´e spectrale de puissance est effectu´ee `a partir d’un plus grand nombre d’´echantillons. Cependant, cela augmente ´egalement la variabilit´e des at- tributs extraits, puisqu’un mˆeme attribut peut ˆetre tantˆot calcul´e sur l’attaque seule d’une frappe (en cas de frappes tr`es rapproch´ees dans le temps), ou sur l’int´egralit´e de sa dur´ee (en cas de frappes tr`es espac´ees dans le temps). De mani`ere `a assurer la robustesse du processus d’extraction, tout en minimisant la variabilit´e des attributs extraits, nous avons d´ecid´e d’utiliser pour le calcul des pa- ram`etres acoustiques le plus grand nombre possible d’´echantillons dans une limite de 200 ms. Ainsi, les param`etres acoustiques associ´es `a l’onsettisont calcul´es sur la fenˆetre[ti, min{ti+ 0.2, ti+1}].

Les diff´erents attributs utilis´es sont r´epertori´es dans le tableau 4.3. L’annexe A offre une d´efinition d´etaill´ee de chacun de ces attributs.

P

aram

´etrisation

des

signaux

Cat´egorie Notation Dimension Description

D lRM St 1 Puissance totale

D lRM Sbd,lRM Ssd,lRM Shh 3 Puissance en sortie de filtres adapt´es [TDB05]

D lRM Srelbd,lRM Srelsd,lRM Srelhh 3 Puissance relative en sortie de filtres adapt´es [TDB05]

D lRM Srelbd,sd,lRM Srelsd,hh,lRM Srelhh,bd 3 Puissances compar´ees en sortie de filtres adapt´es [TDB05]

D lRM Sgband,i 8 Puissance en sortie d’un b.d.f. adapt´e `a la batterie [GR04]

D OBSIRi 7 Rapports d’´energie dans un b.d.f. en bandes d’octaves [ERD06b]

D 25 Attributs de distribution d’´energie

C µM F CCk 13 Moyenne des MFCC C σM F CCk 13 Ecart-type des MFCC´ C µ∆M F CCk 13 Moyenne des∆ MFCC C σ∆M F CCk 13 Ecart-type des´ ∆ MFCC C µ∆2M F CCk 13 Moyenne des2MFCC C σ∆2M F CCk 13 Ecart-type des´ 2MFCC C 78 Attributs cepstraux

S Scntr,Ssprd,Sskew,Skurt 4 Moments spectraux [GR04]

S Sf lat 1 Platitude spectrale [Pee04]

S Fc 1 Fr´equence de coupure

S ARi 6 Coefficients de pr´ediction lin´eaire

S 12 Attributs spectraux

T Crest 1 Facteur de crˆete

T Tcntr 1 Centro¨ıde temporel

T ZCR, ZCRr 2 Taux de passage par z´ero classique/robuste

T TA,TB 2 Param`etres d’enveloppe

T 6 Attributs temporels

P Ldri 24 Sonie sp´ecifique relative [Pee04]

P Acu 1 Acuit´e [Pee04; Zwi77]

P Et 1 Etendue [Pee04]´

P 26 Attributs psychoacoustiques

4.3.2

Transformation des attributs

4.3.2.1

Normalisation

Les attributs calcul´es pr´ec´edemment occupent des ´echelles et intervalles vari´es. De mani`ere `a disposer d’une ´echelle commune et commensurable, chaque attribut est transform´e de mani`ere `a ce que sa moyenne soit nulle et sa variance soit unitaire. Les param`etres de cette transformation affine sont calcul´es sur la base d’apprentissage, en utilisant des estimateurs empiriques de la moyenne et de la variance.

Une autre m´ethode de normalisation est fr´equemment rencontr´ee dans la litt´erature – elle est par exemple utilis´ee dans [TDB05]. Elle consiste `a appliquer une transformation lin´eaire telle que les valeurs minimales et maximales de chaque attribut sur la base d’apprentissage soient respectivement −1 et 1. Nous n’avons pas appliqu´e cette m´ethode, trop sensible `a la pr´esence de valeurs extrˆemes ou aberrantes.

4.3.2.2

Autres transformations

Nous pr´esentons ici quelques autres transformations des param`etres commun´ement rencontr´ees dans la litt´erature, et nous expliquons pourquoi nous ne les avons pas retenues.

Gaussianisation des donn ´ees Peeters utilise dans [Pee03] une transformation de Box-Cox de param`etreλ d´efinie par :

fλ(x) =

 xλ−1

λ siλ6= 0

log x sinon (4.5)

L’int´erˆet de cette transformation est de rapprocher la distribution de l’attributx d’une distribution gaussienne. `A cet effet, pour chaque attribut, un param`etreλ optimal est choisi, maximisant un crit`ere de gaussianit´e. Une telle transformation n’a que peu d’int´erˆet dans notre cas, puisque les m´ethodes de classification que nous utilisons par la suite ne font pas d’hypoth`ese de gaussianit´e des donn´ees (une telle transformation aurait plus de sens, par exemple, si la distribution des param`etres associ´es `a chaque classe avait ´et´e mod´elis´ee par une gaussienne).

D ´ecorr ´elation des attributs L’analyse en composantes principales – Principal Component Analysis(PCA) est une m´ethode courante d’analyse de donn´ees permettant de transformer les vec- teurs d’attributs, de mani`ere `a extraire de nouveaux attributs `a la fois d´ecorr´el´es, et concentrant un maximum de variance. Si l’on appelle x les vecteurs d’attributs observ´es, et Rxx leur matrice de

covariance, alors une EVD de Rxxfournit :

Rxx = UΛUT (4.6)

La diagonale de Λ contient les valeurs propres par ordre d´ecroissant de valeur absolue. Si l’on transforme un vecteur d’attributs x selon :

y= UTx (4.7)

Alors la matrice de covariance des vecteurs transform´es est :

Ryy = UTRxxU= Λ (4.8)

On en d´eduit les deux propri´et´es suivantes :

Classification des instruments de la batterie

2. Les premi`eres composantes de y concentrent la variance. En particulier, il est courant de tronquer y `a ses premi`eres composantes (par exemple, celles comportant 95 % de la variance totale), dites composantes principales.

En d´epit de sa popularit´e, nous n’employons pas cette m´ethode pour diff´erentes raisons. Tout d’abord, les attributs transform´es sont une combinaison lin´eaire de tous les attributs originaux. Or, nous aimerions utiliser par la suite des m´ethodes de s´election d’attributs afin de s´electionner un en- semble r´eduit d’attributs pertinents, et ´eviter ainsi le calcul syst´ematique (et coˆuteux) de tous les attributs. La PCA est incompatible avec ce but. En outre, il est difficile d’interpr´eter les attributs transform´es y : que serait-il possible de conclure si un algorithme de s´election d’attributs indiquait que l’attribut le plus discriminant est0.7OBSI4− 0.1MF CC6+ 0.9ZCRr− 0.2TA? Par ailleurs,

une motivation fr´equente `a utiliser une PCA pour d´ecorr´eler les attributs, est qu’elle rend plus plau- sible, par la suite, l’usage d’un mod`ele gaussien avec matrice de covariance diagonale. Puisque nous n’utilisons pas de tels mod`eles, cet argument ne p`ese pas. Terminons enfin par un argument plus pragmatique : nous n’avons observ´e durant des exp´eriences pr´eliminaires de classification aucun gain notable de performances.

Pr´ecisons pour conclure qu’il a ´egalement ´et´e sugg´er´e d’extraire une matrice de transforma- tion W rendant statistiquement ind´ependantes (et non plus seulement d´ecorr´el´ees) les composantes de y, `a l’aide d’une ICA. Les gains de performance observ´es avec cette m´ethode lors d’´etudes pr´eliminaires ont ´et´e n´egligeables. Il semblerait que les gains de performances rapport´es dans la litt´erature [Ero03] lorsque l’ICA est utilis´ee comme m´ethode de r´eduction de dimensionnalit´e sont principalement dus `a la PCA qui la pr´ec`ede !