• Aucun résultat trouvé

Partie IV Application à la transcription

IX.2 Système complet de transcription

IX.2.1 Représentation temps-fréquence

Le premier choix à faire est celui de la représentation V. Au cours de ce mémoire, nous avons évoqué et utilisé les deux principaux, la transformée de Fourier à court-terme (TFCT) et la représentation en bandes rectangulaires équivalentes (ERB), mais d’autres choix sont possibles.

IX.2.1.1 Transformée de Fourier à court-terme

La transformée de Fourier à court-terme d’un signal x décrit le contenu fréquentiel de x au cours du temps. Elle est calculée comme la transformée de Fourier discrète de trames successives, qui sont de courts segments de signal multipliés par une fenêtre w de la même longueur. Ainsi, chaque point temps-fréquence de la TFCT est donné par :

T F CT [x](f, t) = N −1

X

n=0

x(n + t)w(n)e−i2πf nN (IX.1)

En prenant le module, ou le module au carré de chacun de ces coefficients, nous obtenons une représentation temps-fréquence V (spectrogramme d’amplitude ou de puissance) factorisable par NMF. Le problème bien connu de la TFCT est celui du compromis de résolution temps-fréquence. En effet, la résolution fréquentielle de cette transformée est directement liée à la taille de la fenêtre et à la largeur du lobe principal de son spectre. Ce compromis est problématique pour des signaux de musique. Nous pouvons nous en convaincre en prenant quelques ordres de grandeurs. Dans un morceau comportant des doubles croches (1/4 de temps) à un tempo de 120 à la noire, huit notes sont jouées chaque seconde, ce qui nécessite une résolution temporelle d’au plus 125 ms, soit 5512 échantillons d’un signal à 44100 Hz (fréquence d’échantillonnage du CD). Par ailleurs, la différence de fréquences entre le premier do du piano et le do♯ qui le suit immédiatement est de 2 Hz (voir table B.1 page 188), ce qui ne peut être résolu qu’avec un nombre de points fréquentiels supérieur à 22050. Ces deux conditions sont incompatibles, ce qui impose de faire un compromis.

IX.2. SYSTÈME COMPLET DE TRANSCRIPTION 129 Toutefois, les notes les plus graves de la tessiture du piano sont rarement employées, et on peut espérer que la NMF ne souffre pas autant du compromis temps-fréquence que d’autres applications, étant donné les approximations sur lesquelles elle repose.

IX.2.1.2 Transformée en bandes rectangulaires équivalentes

Afin de préserver une résolution minimale d’un demi-ton sur l’ensemble de la tessiture, la TFCT doit être calculée avec une fenêtre relativement longue (nous avons proposé 64 ms dans [Bertin et al., 2007]), ce qui implique à la fois une résolution temporelle médiocre, et un coût de calcul long et superflu étant donné la redondance de l’information en hautes fréquences sur de telles fenêtres. De plus, les fréquences des notes de musique sont réparties sur une échelle non linéaire (en gamme tempérée, on passe d’une note à la suivante en multipliant sa fréquence par 21/12). On risque donc d’avoir beaucoup trop de points fréquentiels en haute fréquence par rapport aux notes à discriminer.

Une représentation de dimensions plus réduites, offrant une meilleure résolution temporelle dans le registre hautes fréquences, peut être obtenue en choisissant une échelle non linéaire de fréquences. Nous utilisons la représentation proposée dans [Vincent, 2006] (dans le cadre de modèles spécifiques par instruments) et motivée par des arguments perceptifs. Le signal est filtré par un banc de filtres de 257 fenêtres de Hanning modulées par une sinusoïde, et dont les fréquences centrales sont comprises entre 5 Hz and 10.8 kHz et linéairement espacées sur l’échelle des Bandes Rectangulaires Équivalentes (ERB, [Zwicker et Fastl, 1999,van de Par et al., 2002]). L’équivalence entre fréquences en échelle ERB et exprimées en Hertz est définie par la relation :

fERBdef= 9.26 log(0.00437fHz+ 1) (IX.2)

Le gain de la réponse fréquentielle Gi du ie filtre peut être calculé analytiquement comme une combinaison de sinus cardinaux. La longueur de chaque filtre est choisie de manière que la bande- passante de son lobe principal soit égale à 4 fois la différence entre sa fréquence centrale et celles des filtres adjacents, ce qui introduit une forme de lissage spectral favorable à la NMF. Après filtrage, chaque sous-bande est segmentée en trames disjointes de 23 ms, et l’énergie dans chaque trame est calculée.

Sur les expériences menées dans [Vincent et al., 2008], nous avons pu constater que ce choix ne modifiait pas significativement la performance de transcription (comparée à la TFCT), mais réduisait de manière importante le temps de calcul.

IX.2.1.3 Autres

Il existe une très grande quantité de représentations temps-fréquence d’un signal. Un inventaire exhaustif de ces représentations est par exemple disponible dans [Demars, 2004]. Dans la littérature consacrée à la NMF appliquée au signal audio, on peut notamment trouver l’utilisation du spectro- gramme réalloué et de la transformée à Q constant, que nous décrivons brièvement.

Spectrogramme réalloué Si une fréquence du signal se trouve exactement au milieu de deux fré- quences centrales de la TFCT, son énergie va être dissipée sur deux points fréquentiels. L’idée du spectrogramme réalloué [Auger et Flandrin, 1995] est d’ajuster les points temps-fréquences au signal en considérant les points voisins et en déplaçant le point de calcul au « centre de gravité local » de

l’énergie du signal. Son calcul s’appuie sur les dérivées en temps et en fréquence de la phase de la TFCT. Le spectrogramme réalloué a été utilisé comme entrée d’un système de NMF appliqué à la séparation de voix parlée dans [Segbroeck et hamme, 2009].

Transformée à facteur de qualité constant Il est possible de représenter le spectre non plus selon une échelle linéaire en fréquence, mais plutôt selon une échelle logarithmique. C’est le principe des analyses à Q constant, où Q désigne le facteur de qualité d’un filtre, c’est à dire le rapport F/∆F entre sa fréquence propre et sa largeur de bande [Brown, 1991]. L’avantage de cette méthode vient du fait qu’un spectre harmonique présente, en échelle logarithmique, une structure toujours identique quelle que soit sa fréquence fondamentale, avec simplement un décalage de l’origine. Ainsi leur structure est indépendante du fondamental dont la valeur se retrouve uniquement dans la position de la première raie (à log(f0)). Le calcul du spectre à Q constant peut être effectué de différentes manières (FFT, transformée en ondelettes). Cependant, il n’est pas nativement exprimé sous une forme matricielle, car les fenêtres d’analyse des différentes bandes sont de longueur différente. L’utilisation de cette transformée pour la NMF demande donc de la modifier pour la rendre matricielle. De plus, les fenêtres, très longues dans les basses fréquences, introduisent un important pré-écho. Pour ces raisons, nous préférons la transformée ERB précédente qui constitue un meilleur compromis entre la TFCT et le banc à Q constant.