• Aucun résultat trouvé

Formulation générale de l'attribut d'agrégat

L'attribut d'agrégat utilisé au chapitre précédent a été déni en 4.2.1 comme une divergence entre le vecteur de chroma observé et un gabarit théorique correspondant à l'agrégat considéré. Dans cette section, nous proposons une formulation plus générale du calcul de cet attribut, dans le but de réaliser un apprentissage des attributs optimaux.

5.1.1 Dénition

L'attribut d'agrégat a pour but de quantier la correspondance entre une observation extraite de l'audio et un agrégat de la partition. An de calculer cet attribut, nous dénis- sons tout d'abord le vecteur de notes, qui constitue une représentation vectorielle de la partition. Dans l'hypothèse (peu réductrice) que l'ambitus d'un morceau ne dépasse pas le registre du piano moderne (du la−2 au do7), nous numérotons les hauteurs de notes possi-

bles de 1 à 88, suivant la gamme chromatique. Le vecteur de notes hc d'un agrégat c est

alors le vecteur dont chaque composante est égale au nombre de notes de la hauteur cor- respondante. Notons qu'une composante supplémentaire est ajoutée an de rendre compte des agrégats ne contenant pas de note (correspondant au silence où à des sons sans hauteur dénie). Cette dernière composante est égale à 1 si et seulement si toutes les autres sont nulles. La dimension de cette représentation en vecteur de notes est donc J = 89.

Pour une représentation temps-fréquence quelconque, vndésigne maintenant le vecteur

d'observation extrait de la trame n. Comme dans le cas du chapitre précédent, l'attribut d'agrégat f1(c, vn)est alors obtenu en comparant l'observation à un gabarit correspondant

à l'agrégat c. Nous supposons alors que le gabarit associé à un agrégat est la superposition des gabarits correspondants aux notes qui le composent. Cette approximation contient en fait deux hypothèses simplicatrice. La première est que les gabarits sont additifs et la seconde est que toutes les notes d'un agrégat contribuent de façon égale au gabarit de celui-ci. Ce gabarit peut alors être calculé par une application linéaire à partir du vecteur hc. La forme générale de l'attribut est alors :

f1(c, vn) = −D (vn, Whc) , (5.1)

où D( · , · ) est une fonction mesurant la dissemblance entre deux vecteurs (une distance, par exemple) et W est une matrice de dimension I × J, où I est la dimension des vecteurs d'observation. Cette matrice peut être interprétée comme une transformation du domaine symbolique (les vecteurs de notes) vers le domaine des observations. Les colonnes de W constituent alors les gabarits des notes individuelles et le vecteur uc= Whc est le gabarit

associé à l'agrégat c.

On peut observer que les gabarits utilisés dans le chapitre précédent, dénis à l'équation (4.15), constituent un cas particulier de cette formulation générale. En eet, ils correspon- dent au choix de la divergence de Kullback-Leibler comme mesure de dissimilarité et à la matrice dénie par :

Wi,j = (1 − q)1{i=pc(j)}+

q

I. (5.2)

On rappelle que pc(j) est la classe chromatique de la note j et que q est un paramètre contrôlant l'importance du terme de bruit dans le gabarit.

5.1.2 Lien avec un modèle génératif

La formulation proposée dans l'équation (5.1) est est fortement liée à certains modèles génératifs utilisés pour une factorisation en matrice non négative [Lee et Seung,1999]. Nous détaillons ici comme cette formulation peut être retrouvé à partir du modèle d'observation de Virtanen et al.[2008].

Ce modèle postule que chaque vecteur d'observation est la superposition de variables aléatoires indépendantes, correspondant chacune à une des notes jouées. De plus, chaque composante de ces variables est supposée distribuée suivant une loi de Poisson1, indépen-

dante des autres composantes. Si on pose Wi,j comme paramètre de la loi de probabilité

conditionnelle de la i-ième composante d'un vecteur d'observation, sachant qu'une unique note j est jouée. Cette loi s'écrit alors :

P  V (i) = v(i)|j  = e−Wi,j (Wi,j) v(i) Γ  v(i)+1  , (5.3)

où Γ désigne la fonction gamma, interpolant la fonction factorielle. Wi,j s'interprète donc

comme le paramètre (qui est aussi l'espérance) de cette loi de Poisson.

On peut alors en déduire les probabilités des vecteurs d'observation lorsqu'un agrégat quelconque est joué. En eet, on suppose qu'ils sont formés par la somme de variables aléatoires indépendantes correspondant aux notes de cet agrégat. Or, on rappelle qu'une somme de variables de Poisson indépendantes est encore distribuée suivant une loi de Poisson, dont le paramètre est la somme des paramètres des lois individuelles. Chaque composante v(i) d'une observation v, sachant l'agrégat joué c, suit donc une loi de Poisson dont le paramètre, noté uc(i), est la somme des paramètres Wi,j correspondant aux notes

de l'agrégat. Ce paramètre peut s'exprimer à l'aide du vecteur de notes hc, par la formule

uc(i) = J

X

j=1

Wi,jhc(j), (5.4)

puisque l'agrégat c contient un nombre hc(j)de notes de hauteur j.

Par hypothèse d'indépendance, la probabilité conditionnelle globale d'un vecteur d'ob- servation, sachant l'agrégat c, est le produit des probabilités de chaque composante v(i). On peut donc écrire :

P (V = v|c) =

I

Y

i=1

e−uc(i) uc(i)

v(i) Γ v(i)+1 (5.5) = exp ( I X i=1

v(i) log uc(i) − uc(i) − log Γ v(i)+1

 ) = exp ( − I X i=1

v(i) log v(i) uc(i) − v(i) + uc(i) ! + Z(v) ) = exp−DKL v uc + Z(v)

1. Une loi de Poisson est une loi de probabilité discrète dépendant d'un paramètre λ, dont la fonction de masse s'écrit P (k) = e−λ λk

k!. Il est probablement plus intuitif de considérer les valeurs de puissance

spectrale comme des variables aléatoires continues. Néanmoins, il est tout de même possible d'utiliser cette loi en considérant que les observations sont quantiées, en raison notamment de la précision nie des ordinateurs.

Z(v) =

I

X

i=1

v(i) log v(i) − v(i) − log Γ v(i)+1 (5.6) est un facteur dépendant uniquement de l'observation v. DKLest la divergence de Kullback-

Leibler généralisée, dénie par DKL(vku) =

I

X

i=1

v(i) log v(i) u(i)



− v(i) + u(i). (5.7)

Avec ce choix de distance particulier, on a donc la relation :

P (V = v|c) ∝ ef1(c,v). (5.8)

Comme on l'a vu en section 3.3.2, on peut alors construire un modèle CRF équivalent à ce modèle génératif en posant

φ(v|c) = ef1(c,v). (5.9)

La formulation proposée dans l'équation (5.1) peut alors être considérée comme une général- isation d'un tel modèle génératif.

5.1.3 Distances utilisées

En théorie, une fonction de distance2 quelconque peut être utilisée pour calculer l'at-

tribut d'agrégat. Dans ce travail, nous nous focalisons sur diérentes versions de la diver- gence de Kullback-Leibler. Cette divergence présente en eet l'avantage d'être interprétable comme dérivant d'un modèle génératif, comme on vient de le voir. D'autres types de diver- gences, comme la distance cosinus ou la divergence d'Itakura-Saito ont en eet été abordées dans des tests préliminaires, sans donner de meilleurs résultats. La première version a déjà été présentée à l'équation (5.7). Elle sera désignée par  KL1 . Cela correspond à la forme utilisée dans le chapitre précédent3. Comme cette divergence n'est pas symétrique, nous

testons aussi une deuxième version, appelée  KL2  et dont l'expression est : DKL(ukv) =

I

X

i=1

u(i) log u(i) v(i)



− u(i) + v(i). (5.10) Enn, la dernière distance considérée est la divergence de Kullback-Leibler symétrisée, désignée par  KLs  :

DKLs(v, u) = DKL(vku) + DKL(ukv) . (5.11)

Notons qu'an de rendre cet attribut robuste aux dynamiques d'intensité globale, les vecteurs d'observations ainsi que les vecteurs de notes sont normalisés.

2. Comme indiqué plus haut, la fonction D( · , · ) est une mesure de dissimilarité, qui peut ne pas vérier les propriétés d'une distance au sens mathématique.

3. L'équation (4.16) emploie la divergence de Kullback-Leibler originale (non généralisée). Cependant, les deux formes sont équivalentes dans le cas où les deux vecteurs comparés sont normalisés.