• Aucun résultat trouvé

VI.2.1 Contrainte de non-négativité dans les approches statistiques

Le rapprochement entre les travaux sur la NMF et l’approche statistique commence par l’« impor- tation » de la contrainte de non-négativité dans des méthodes usuelles de décomposition des signaux dans un formalisme statistique.

VI.2. ÉTAT DE L’ART 95 indépendantes (ICA) de données non-négatives. L’ICA est une technique de réduction de dimension- nalité particulièrement populaire dans le domaine de la séparation aveugle de sources (BSS) ; on en trouvera une présentation très complète par exemple dans [Cardoso, 1998]. Dans le paradigme de la BSS, on observe à chaque trame temporelle F mélanges [z1(n) . . . zF(n)]de K variables aléatoires ap- pelées sources, [s1(n) . . . sK(n)]. Les mélanges et les sources sont liés par une matrice de mélange A invariante et supposée de rang plein, telle que :

z= As (VI.1)

où z = [z1. . . zF]T ∈ RF, s = [s1. . . sK]T ∈ RK et A ∈ RF ×K. La tâche est dite « sous-déterminée » lorsque K < F (on observe moins de mélanges que de sources).

Cette notation établit clairement un parallèle avec la NMF, mais il faut cependant remarquer que dans le paradigme original, les sources et les mélanges observés évoluent dans le domaine temporel, et la séparation exploite une diversité spatiale (séparation multi-capteurs). Pour mener l’analogie, on pourrait considérer que le domaine transformé dans lequel évolue V introduit une diversité fréquentielle, les points fréquentiels étant considéré comme des « capteurs ».

[Plumbley, 2002] étudie l’opportunité d’une contrainte de non-négativité dans l’ICA sur le plan théorique uniquement, et suggère la possibilité de développer des algorithmes, ce qui est fait dans [Plum- bley, 2003,Oja et Plumbley, 2003,Plumbley, 2004]. Dans ces travaux, une équivalence est établie entre l’indépendance statistique des sources (argument usuel pour résoudre le problème standard d’ICA), et l’affaiblissement de cette hypothèse en hypothèse de décorrélation des sources dans le cas où celles- ci sont non-négatives, ce qui rapproche l’ICA et la PCA (analyse en composantes principales, où les composantes extraites sont décorrélées en terme de variance, mais non indépendantes statistiquement). Cet affaiblissement de l’hypothèse est à rapprocher des variantes de la NMF sous contrainte de décor- rélation dans le cadre déterministe (cf. section V.2.3, page 82). Enfin, il est à noter que l’hypothèse de non-négativité ne concerne que les sources, et non la matrice de mélange. En ce sens, l’ICA non-négative peut être considérée comme une « semi-NMF » sous contrainte de décorrélation.

Par ailleurs, dans la même mouvance, ces idées sont utilisées dans un cadre connexe, celui du codage parcimonieux [Abdallah et Plumbley, 2004, Abdallah et Plumbley, 2006], la parcimonie (cf. section V.2.1, page 80) étant imposée par un a priori sur la distribution des sources (supposée lapla- cienne). C’est aussi dans le cadre de ce travail que la non-négativité associée à un cadre probabiliste est appliquée à des spectres de puissance de signaux audio dans une tâche d’analyse de musique poly- phonique.

La contrainte de non-négativité imposée aux tâches de codage parcimonieux est également large- ment appliquée dans le domaine de l’image (voir par exemple [Shang, 2008]).

VI.2.2 Interprétations probabilistes de la NMF

Le pont entre NMF et cadre statistique s’établit véritablement dans la littérature lorsqu’un modèle (probabiliste) de l’observation (à valeurs non-négatives) est posé, et qu’il est établi une équivalence formelle entre la minimisation de la fonction de coût dans le problème de NMF et l’estimation des para- mètres du modèle dans le problème statistique. Ces équivalences sont recensées de manière synthétique dans [Févotte et Cemgil, 2009].

|xn| = K X

k=1

|ckn| (VI.2)

sous l’hypothèse que chaque variable latente ckn(f )est distribuée suivant une loi de Poisson généralisée (notée P) :

|ckn(f )| ∼ P(ckn(f )|wf khkn) (VI.3)

P(u|λ) = exp(−λ)λ u

u! (VI.4)

La somme de variables aléatoires poissonniennes étant elle-même distribuée suivant une loi de Poisson, il en découle que |xf n| ∼ P(PK

k=1wf khkn). La log-vraisemblance − log p(X|W, H) s’écrit donc simplement grâce à l’expression de la loi de Poisson (VI.4), et on vérifie qu’elle est égale, à une constante près, à la distance de Kullback-Leibler DKL( |X| | W H) (III.5). Ceci établit l’équivalence entre estimation du MV dans le modèle (VI.2) et résolution de la KL-NMF. Après factorisation, les composantes estimées sont formées en utilisant la phase des observations [Virtanen, 2007], de manière que

ˆ

ckf n = wf khkn arg(xf n), (VI.5)

où arg(x) désigne la phase du scalaire complexe x.

Cette approche mérite quelques commentaires. D’une part, la distribution de Poisson est originel- lement définie seulement sur des entiers, ce qui altère la possibilité d’interpréter statistiquement la KL-NMF de données non dénombrables telles que les spectres audio (on pourrait cependant envisager une mise à l’échelle appropriée et une quantification très fine pour réduire ce problème). D’autre part, cette approche contraint la non-négativité d’une manière relativement arbitraire, en prenant la valeur absolue de X. La méthode de reconstruction force les composantes à posséder la même phase que les observations et la reconstruction des composantes n’est ni fondée statistiquement, ni conservative, i.e. xn ≈PKk=1ˆck,n. Notons au passage que la recontruction de Wiener est utilisée dans le problème de KL-NMF du spectrogramme d’amplitude |X| par [Smaragdis, 2007], qui le présente comme un filtrage dans le domaine spectral et qui met en exergue le caractère conservatif de l’approche.

Un autre exemple d’approche statistique de la résolution du problème de NMF et de ses approches contraintes peut être trouvé dans [Schmidt et Laurberg, 2008]. Dans le modèle proposé, les facteurs W et H sont exprimés comme deux fonctions fh et fw (dites « fonctions liantes ») de variables latentes gaussiennes, avec des hypothèses relativement faibles sur ces deux fonctions. Cette approche peut être vue comme une généralisation de celle que nous développerons dans ce chapitre, pour des choix appropriés de fh et fw.

Dans le contexte bien différent de l’analyse de données textuelles, [Ding et al., 2006,Ding et al., 2008] démontre une équivalence entre la NMF de la matrice de co-occurrence et son « analyse sémantique latente probabiliste » (PLSA, également nommée PLSI pour Probabilistic Latent Semantic Indexing, suivant le contexte), une technique statistique d’apprentissage non supervisé introduite dans [Hofmann, 1999]. Une discussion détaillée de l’équivalence entre PLSI et NMF pourra être consultée dans [Rigouste, 2006, Gaussier et Goutte, 2005].