• Aucun résultat trouvé

En comparaison d’autres systèmes de transcription plus complexes et plus informés, la NMF ap- paraît comme un moyen simple d’obtenir une représentation mi-niveau sémantique de la musique, prometteuse pour la transcription, sans information extérieure, exploitant la redondance du signal et traitant simultanément les dimensions temporelle et fréquentielle du signal. Son fonctionnement revêt cependant un caractère de « boîte noire » et son efficacité pour produire une réelle transcription reste à établir. À la lumière de cet état de l’art introductif, nous proposons dans cette thèse d’examiner les questions suivantes.

Comment fonctionne la NMF, et pourquoi fonctionne-t-elle ? Quelles sont ses pro- priétés ?

Nous examinerons en particulier ses propriétés théoriques, ainsi que les fonctions de coût sous- jacentes à sa résolution et leur pertinence pour la représentation des signaux audio.

Les algorithmes de NMF sont-ils efficaces ? Peut-on les améliorer ?

De nombreux algorithmes de résolution du problème de NMF sont disponibles dans la littérature. Leurs propriétés, de convergence en particulier, sont diverses. L’initialisation et l’évitement des minima locaux font partie des questions à élucider.

L’approche totalement aveugle est-elle suffisante ? Quel est le degré minimum de connaissances à injecter dans le système ? Quelles connaissances et sous quelle forme ?

La plupart des systèmes de transcription de l’état de l’art sont, d’une manière ou d’une autre, informés, c’est-à-dire qu’ils utilisent des connaissances extérieures au signal pour l’analyser. Ce n’est pas le cas de la NMF standard, qui n’impose que la non-négativité des coefficients. Nous verrons dans quelle mesure il est possible et souhaitable de lui apporter des connaissances supplémentaires, notamment sous la forme de contraintes.

Comment convertir la factorisation en réelle transcription ? S’agit-il d’une approche efficace ?

Si la pertinence de la représentation NMF saute aux yeux sur un exemple simple, son efficacité pour produire une réelle transcription de la musique une fois intégrée à un système complet reste à établir. Nous proposerons une architecture de système de transcription basée sur les NMF et confronterons les mises en œuvre qui en découlent à des algorithmes de l’état de l’art en conditions réelles de transcription.

45

Deuxième partie

47

Chapitre III

État de l’art de la NMF non contrainte

Résumé

Où l’on introduit le problème standard de factorisation en matrices à coefficients positifs (NMF), en abordant la question de l’existence et de l’unicité des solutions à ce problème, avant de dresser l’état de l’art des fonctions de coût sous-jacentes et des algorithmes usuels de la littérature s’y intéressant, en gardant à l’esprit les questions pratiques de convergence, d’initialisation et de minima locaux.

III.1

Introduction

L

e problème standard de factorisation en matrices à coefficients positifs, sous la forme la plus générique possible, s’exprime comme suit : étant donnée une matrice V de dimensions F × N à coefficients réels positifs ou nuls, la NMF est la détermination d’une factorisation approchée :

V≈ WH = ˆV (III.1)

où W et H sont des matrices de dimensions respectives F × K et K × N dont tous les coefficients sont des réels positifs ou nuls, et où l’opérateur ≈ désigne une « approximation » à définir. L’ordre du modèle, K, est habituellement choisi tel que F K + KN ≪ F N, ce qui fait de la NMF une technique de réduction de la dimensionnalité.

Si l’on attribue plus ou moins de fait la « paternité » de la NMF à [Lee et Seung, 1999], il faut cependant remarquer que, cinq ans plus tôt, [Paatero et Tapper, 1994] pose et résout le même pro- blème. La gloire lui échappera pour une dénomination malheureuse : la « factorisation en matrices positives » (PMF, ou Positive Matrix Factorization) contient une ambiguïté sur la notion de matrice positive (est-elle à coefficients positifs, ou semi-définie positive c’est-à-dire à valeurs propres réelles positives ?). Malgré cette maladresse, on trouve de nombreuses applications de la PMF entre 1994 et 1999, principalement dans des domaines liés à la chimie, l’étude des pollutions et les sciences de l’environnement [Junnto et Paatero, 1994, Anttila et al., 1995, Polissar et al., 1998, Paterson et al., 1999].

Néanmoins, c’est véritablement [Lee et Seung, 1999] qui fait date et crée l’enthousiasme autour de la NMF, qui prend alors son nom définitif et commence à être appliquée dans de très nombreux domaines1

. Nous illustrerons la variété des domaines d’applications par quelques exemples, sans avoir aucunement l’ambition d’être exhaustive :

– Traitement de l’image : représentation d’images de visages [Lee et Seung, 1999, Li et al., 2001, Wang et al., 2004], classification d’images [Guillamet et al., 2001]

– Traitement du texte : surveillance de messages électroniques [Berry et Browne, 2005], classi- fication de documents [Ding et al., 2008], extraction de caractéristiques sémantiques dans des textes [Lee et Seung, 1999]

– Économie : diversification de portefeuilles d’actions [Drakakis et al., 2008]

– Biologie : clustering2de gènes impliqués dans le cancer [Liu et Yuan, 2008], détection de l’activité neuronale pour les interfaces cerveau-machine [Kim et al., 2005]

– Gastronomie : clustering de scotch whiskeys [Young et al., 2006]

À notre connaissance, [Smaragdis et Brown, 2003] est le premier travail proposant d’appliquer la NMF à des signaux audionumériques et plus particulièrement à la transcription de musique polypho- nique. Dans les applications audionumériques, f désigne la plupart du temps l’indice de fréquence et n l’indice de trame temporelle ; la matrice des observations V étant, par le fait, une représentation temps-fréquence du signal.

Ce chapitre dresse l’état de l’art de l’approche classique (déterministe) du problème de NMF. Nous commencerons par examiner dans la section III.2 la question de l’existence et de l’unicité des solutions

1. Pour l’anecdote, les sites bien connus http://citeseerx.ist.psu.edu et http://scholar.google.com reportent respectivement 415 et 1405 citations de cet article à la date où nous écrivons.

2. Bien que l’Office Québécois de la Langue Française recommande l’usage de la traduction « groupage », nous avons préféré dans ce document conserver l’usage communément répandu du terme anglais.

III.2. EXISTENCE ET UNICITÉ DES SOLUTIONS 49