• Aucun résultat trouvé

4.2 Modèle d'observation

4.2.1 Attributs d'agrégat

An de caractériser l'agrégat présent à chaque trame de l'enregistrement musical, nous utilisons une représentation en vecteurs de chroma (présenté en section 2.2.1). On rap- pelle qu'un vecteur de chroma est un vecteur à 12 composantes, dont chacune représente l'énergie des bandes de fréquences correspondant à une classe chromatique de la gamme musicale. Un exemple de chromagramme est représenté gure 4.6 Parmi les nombreuses méthodes existante pour le calcul de vecteurs de chroma, nous utilisons celle de Zhu et Kankanhalli [2006]. Ce choix est motivé par notre étude [Joder et al., 2010b], qui mon- tre que l'utilisation de cette représentation donne de bons résultats d'alignement, avec un modèle simple. An de rendre la fonction d'observation indépendante des dynamiques de la musique, les vecteurs de chroma obtenus sont normalisés de façon que leur somme soit égale à 1.

Comparaison de l'observation à des gabarits théoriques

Ces observations sont comparées à des gabarits, qui représentent des vecteurs de chroma- types correspondant aux agrégats. Chaque gabarit est construit de façon très simple, d'après la composition de l'agrégat associé. En eet, on crée un vecteur de chroma dont chacune des composantes est proportionnelle au nombre de notes de l'agrégat appartenant à la classe chromatique correspondante. Le gabarit est alors obtenu en normalisant ce vecteur et en le superposant à un vecteur  de bruit , dont toutes les composantes sont égales.

Plus formellement, soient c un agrégat et Jc= ˙Jc∪ ˘Jcl'ensemble des notes (attaquées

0 5 10 15 20 25 30 35 40 Temps (s) Classe chromatique do ré mi fa sol la si

Figure 4.6  Exemple de chromagramme extrait d'un enregistrement musical.



ré do mi fa sol la si q 12+ 1−q 4 q 12 q 12+ 1−q 2

Figure 4.7  Exemple de construction du gabarit théorique de chroma à partir d'un agrégat de 4 notes. Ici, on a q = 1

2.

désigne l'index de la classe chromatique de cette note. Le gabarit théorique uc associé à

l'agrégat est déni par :

∀i = {1, . . . , 12}, uc(i) = X j∈J 1 − q card(J )1{i=pc(j)}+ q 12. (4.15)

Le paramètre q ∈ [0, 1[ contrôle l'importance donnée au terme de bruit. La construction du gabarit est illustrée gure 4.7.

Notons que les gabarits sont normalisés de la même manière que les observations, de façon que leur somme soit égale à 1. On peut alors considérer ces vecteurs comme des distributions de probabilités sur les classes chromatiques et utiliser une distance proba- biliste pour comparer une observation et un gabarit. Nous choisissons la divergence de Kullback-Leibler. L'attribut d'agrégat f1(c, v)est alors déni par :

f1(c, v) = I

X

i=1

v(i) log v(i) uc(i)



. (4.16)

 lissage . Il permet en eet d'éviter les valeurs nulles du gabarits, qui entraineraient une valeur innie de la divergence.

Intégration du voisinage

Comme indiqué en section3.3.3, la fonction φ1, reliant les observations de chroma aux

étiquettes, peut faire intervenir des vecteurs d'observations issues de plusieurs trames de l'enregistrement, sans hypothèse d'indépendance. Le potentiel φ1(xn, v1:N)est alors formé

en comparant l'étiquette xn aux observations de chroma extraites d'un voisinage de la

trame n.

Nous faisons tout d'abord l'hypothèse que l'interprétation est dèle à la partition, dans le sens où les notes et le rythme sont conformes aux indications. Nous supposons de plus que le tempo peut être considéré comme constant sur une fenêtre temporelle courte (durant plusieurs trames). Sous ces deux hypothèses, la donnée d'une étiquette associée à une trame de l'enregistrement est susante pour dénir les agrégats joués autour de la trame courante. En eet, les variables cnet dndénissent la position dans la partition et le

tempo tn permet d'extrapoler les positions (dans la partition) correspondant au voisinage

de la trame n. On peut alors comparer terme à terme la séquence d'observations de ce voisinage et la séquence déduite de l'étiquette xn.

Plus formellement, soit ν un entier tel que le tempo peut être considéré comme constant sur une fenêtre de 2ν + 1 trames. Pour une étiquette xn= (cn, dn, an, tn) correspondant à

la trame n, on construit la séquence des 2ν +1 agrégats correspondant à une interprétation  exacte  de la partition au tempo tn, autour de la position (cn, dn)telle que la position

dans la partition à la trame n soit (cn, dn). Une telle séquence est représentée gure 4.8.

Soit ¯cn−ν, . . . , ¯cn+ν les gabarits correspondant à ces agrégats. Le potentiel d'agrégat φcest

alors déni par :

φ1(xn, v) = exp − ν X k=−ν µ(k)1 f1  ¯ cn+k, vn+k  ! (4.17) où les µ(k)

1 sont des paramètres contrôlant le poids donné aux diérentes observations

autour de la trame courante.

Intuitivement, on souhaite favoriser les observations temporellement proches de la trame courante, tout en restant symétrique entre le passé et le futur. La valeur de µ(k)

1 est

donc une fonction décroissante de |k|. On choisit une fenêtre exponentielle de paramètre 25, ce qui correspond à une division du poids par 2 en environ 350 ms. An de donner encore plus d'importance à l'observation courante, on choisit de lui aecter un poids sup- plémentaire égal à la somme des paramètres de la fenêtre exponentielle. On note alors µ1

le poids total donné aux observations de chroma. Les paramètres sont donc dénis par :

µ(k)1 = µ1     1 2 ν P κ=−ν e−25|κ| e−25|k|+1 21{k=0}     (4.18)

12.5 13 13.5 14 14.5 15 15.5 16 si la sol fa mi ré do si la sol fa mi ré do ν ν vn Temps un

Figure 4.8  Illustration du calcul du potentiel de chroma. Haut : la séquence d'ob- servations autour de la trame n ; bas : les gabarits correspondant à une interprétation  mécanique  de la partition, au tempo constant tnautour de la position (cn, dn). Sur cet

exemple, tn est un tempo plus rapide que l'enregistrement.

Notons que dans le cas général, la fonction d'observation proposée fait apparaitre des dépendances supplémentaires entre les variables Cn, Dn et Tn lorsque ces variables ne

sont pas reliées. En revanche, dans le cas particulier où ν = 0, c'est-à-dire où l'on prend en compte uniquement l'observation de chroma issue de la trame courante, la valeur du potentiel de chroma ne dépend ni de Dn, ni de Tn. Dans ce cas, aucune dépendance

supplémentaire n'est impliqué par la fonction d'observation.