• Aucun résultat trouvé

L’intérêt de la contrainte de régularité et son implantation dans le cadre déterministe ont été évoqués section V.2.2. En ce qui concerne les approches probabilistes, [Shashanka et al., 2008b] propose une version régularisée de KL-NMF dans un cadre bayésien, et qui inclut également des contraintes de parcimonie. Nous présentons ici notre approche de la régularité temporelle, publiée dans [Févotte et al., 2009].

VII.2.1 Modèles

On se place dans un cadre bayésien, où W et H ont des distributions a priori p(W) et p(H) indépendantes et connues. Nous cherchons un estimateur joint de W et H maximisant la probabilité a posteriori. Cela se traduit par un critère à minimiser que nous écrivons :

CM AP(W, H) def= − log p(W, H|X) (VII.2)

c

= DIS(V|WH) − log p(W) − log p(H) (VII.3)

Si l’on utilise des a priori indépendants de la forme p(W) = Qkp(wk) et p(H) = Qkp(hk), l’algorithme SAGE présenté dans le chapitre VI précédent peut encore être utilisé pour l’estimation du MAP. Les fonctionnelles en jeu vont alors s’écrire :

VII.2. RÉGULARITÉ TEMPORELLE 107

Loi Densité de probabilité Mode Moyenne Variance

Gamma G(u|α, β) = Γ(α)βα uα−1 exp(−β u) − 1)/β α/β α/β2

Inverse-Gamma IG(u|α, β) = βα

Γ(α)u−(α+1) exp(− β

u) β/(α + 1) β/(α− 1) β2/(α− 1)2(α− 2)2

TableVII.1 – Lois Gamma et inverse-Gamma.

QM APkk|θ′) def= Z

Ck

log p(θk|Ck) p(Ck|X, θ′) dCk (VII.4)

c

= QM Vk (wk, hk|θ′)− log p(wk)− log p(hk) (VII.5) L’étape E est inchangée, puisqu’elle consiste toujours à calculer QM V

k (wk, hk|θ′), de la même manière que dans la section VI.4. Seule l’étape de maximisation va être modifiée par l’introduction de contraintes via les termes − log p(wk) et/ou − log p(hk).

Plus précisement, dans la suite, nous considérons des a priori sous forme de chaîne de Markov, qui favoriseront la régularité des lignes de H. Nous ne poserons pas d’a priori sur W (qui sera donc estimé par MV comme précédemment). Cependant, il faut noter que la méthodologie présentée ici pourrait parfaitement s’appliquer à W, que la structure d’a priori sur W ou H soit la même ou totalement différente. Nous pouvons également remarquer que, puisque les composantes sont toutes traitées séparément, on pourrait de la même manière poser des modèles différents pour chacune d’elles (en utilisant par exemple des GMM pour certaines d’entre elles, comme évoqué à la fin du chapitre VI).

Nous supposons que la distribution des hk possède une structure de chaîne de Markov : p(hk) = p(hk1)

N Y

n=2

p(hkn|hk(n−1)), (VII.6)

où p(hkn|hk(n−1))est une fonction densité de probabilité (fdp) dont le mode est atteint en hk(n−1). La motivation de ce choix est de contraindre chaque coefficient hkn à ne pas différer significativement de sa valeur à la trame précédente n − 1, ce qui devrait favoriser la régularité de la ligne hk de proche en proche. On propose de considérer deux choix possibles de fdp, pour n = 2, . . . , N,

p(hkn|hk(n−1)) =IG(hkn|α, (α + 1) hk(n−1)) (VII.7) et

p(hkn|hk(n−1)) =G(hkn|α, (α − 1)/hk(n−1)) (VII.8) où G(x|α, β) est la distribution Gamma et IG(x|α, β) la distribution inverse-Gamma. La valeur des densités de probabilité associées ainsi que les valeurs du mode et de la variance correspondantes sont rappelées dans la table VII.1 ; les figures VII.1 et VII.2 illustrent ces fdp pour quelques valeurs de α.

On peut vérifier dans la table VII.1 que les distributions proposées dans les équations (VII.7) et (VII.8) atteignent effectivement leur mode en hkn= hk(n−1). α est un paramètre dit « de forme », qui contrôle la dispersion de la densité autour de son mode. Une grande valeur de α réduit la dispersion et donc contraint davantage hk à être régulier, tandis qu’une faible valeur de α rend l’a priori plus

0 1 2 3 4 0 1 2 3 4 α=2 α=10 α=100

Figure VII.1 – Densité de probabilité de lois Gamma G(u|α, β) de moyenne 1, α variable.

0 1 2 3 4 0 1 2 3 4 α=2 α=10 α=100

VII.2. RÉGULARITÉ TEMPORELLE 109 dispersé et donc moins contraignant. Les deux distributions, Gamma et inverse-Gamma deviennent très proches pour de grandes valeurs de α, comme on peut le voir sur les figures VII.1 et VII.2.

Le choix de cet a priori est motivé par plusieurs raisons. D’une part, la non-négativité y est natu- rellement assurée. D’autre part, l’a priori est conjugué pour le modèle d’observation gaussien, ce qui amène une simplicité calculatoire et la possibilité d’une résolution analytique. Enfin, il paraît adapté pour la modélisation des enveloppes temporelles du signal musical : il favorise la régularité grâce au choix approprié du mode, et l’asymétrie de la distribution autour de son mode contraint davantage de régularité sur les parties décroissantes (hkn≤ hk(n−1)) que sur les parties croissantes (hkn≥ hk(n−1)) de l’enveloppe. Ce dernier point est particulièrement intéressant, car nous voulons favoriser la régularité des moments de silence et des parties stationnaires des notes, sans pour autant trop défavoriser les attaques.

Les a priori posés sur H ne sont complètement définis qu’après avoir fixé une distribution pour le début de la chaîne de Markov. On choisit ici l’a priori « non-informatif1 » de Jeffreys p(hk1

)∝ 1/hk1.

VII.2.2 Algorithmes

En prenant désormais en compte la structure (VII.6), la dérivée de QM AP

k (wk, hk|θ′) par rapport à hkn devient, ∀n = 2, . . . , N − 1 : ∇hknQ M AP k (wk, hk|θ′) = ∇hknQ M L

k (wk, hk|θ′)− ∇hknlog p(hk(n+1)|hkn)− ∇hknlog p(hkn|hk(n−1)) (VII.9)

En remplaçant chaque terme par sa valeur, on montre que cette dérivée peut s’écrire : ∇hknQ M AP k (wk, hk|θ′) = −F h2kn(p2h 2 kn+ p1hkn− p0) (VII.10)

où p0, p1et p2sont des coefficients scalaires dépendant de la loi utilisée (Gamma ou inverse-Gamma), et dont la valeur est donnée dans la table VII.22

. Ainsi, la mise à jour des hkn se ramène à la résolution d’une équation polynômiale du second degré. Ce polynôme possède une unique racine positive, que nous écrivons sous une forme évitant une possible division par zéro :

h(l+1)kn = 2p0 pp2

1+ 4p2p0+ p1

(VII.11) Les coefficients hk1 et hkN des bords de la chaîne de Markov ont des mises à jour spécifiques, qui s’ex- priment cependant comme la solution de l’annulation de polynômes d’ordre 1 ou 2, dont les coefficients sont également indiqués dans la table VII.2.

Nous pouvons remarquer que la différence des mises à jour entre la loi Gamma et la loi inverse- Gamma se résume principalement à intervertir les positions de hk(n−1)et hk(n+1)dans les expressions de p0et p2. De ce fait, utiliser un a priori Gamma sur une chaîne anticausale (« partant de la fin ») p(hk) = QN −1

n=1 p(hkn|hk(n+1)) p(hkN)et de paramètre de forme α est exactement équivalent (en termes de règles de mises à jour par maximum a posteriori) à l’utilisation d’une chaîne inverse-Gamma causale (« partant

1. Une loi a priori est dite non informative lorsqu’elle est construite uniquement à partir des observations, sans usage d’un paramètre. Le lecteur pourra se référer à [Robert, 2007]

2. Les valeurs de p0, p1, p2 sont communes à chaque n ∈ [2 . . . N − 1] et diffèrent au bord de la chaîne de Markov (n = 1 et n = N ). Ils dépendent bien sûr de k, n et ℓ ; nous ne reportons pas cette dépendance dans la notation pour des questions de lisibilité.

inverse-Gamma p2 p1 p0 hk1 (α + 1)/hk2 F− α + 1 −F ˜hM Lk1 hkn (α + 1)/hk(n+1) F + 1 −F ˜hM Lkn − (α + 1) hk(n−1) hkN 0 F + α + 1 −F ˜hM LkN − (α + 1) hk(N −1) Gamma p2 p1 p0 hk1 0 F + α + 1 −F ˜hM Lk1 − (α − 1) hk2 hkn (α− 1)/hk(n−1) F + 1 −F ˜hM Lkn − (α − 1) hk(n+1) hkN (α− 1)/hk(N −1) F− α + 1 −F ˜hM LkN

Table VII.2 – Coefficients du polynôme d’ordre 2 à annuler pour mettre à jour hkn dans l’IS-NMF bayésienne avec prior en chaîne de Markov. ˜hM L

kn désigne la mise-à-jour du MV donnée par l’équa- tion (VI.38).

du début », cf. équation(VII.6)) de paramètre de forme α − 2. Inversement, une chaîne inverse-Gamma anticausale et de paramètre α est équivalente à une chaîne Gamma causale de paramètre α + 2.

Récemment, les auteurs de [Virtanen et al., 2008] ont considéré l’usage de chaînes Gamma pour régulariser la KL-NMF. La modélisation qu’ils proposent est cependant différente de la nôtre. L’a priori Gamma utilisé est construit sur un mode hiérarchique, c’est-à-dire en introduisant des variables auxiliaires supplémentaires qui assurent que les a priori sont bien conjugués pour le modèle de Poisson des observations. L’estimation des facteurs est ensuite réalisée par l’approche habituelle de descente multiplicative de gradient, et les résultats en séparation de source monocapteur sont présentés à partir de la factorisation du spectrogramme d’amplitude |X|, les composantes étant reconstruites suivant la méthode (VI.5).

Dans la suite, nous désignerons cet algorithme régularisé en temps par l’abréviation S-NMF/EM.