• Aucun résultat trouvé

La musique, et en particulier les musiques que nous cherchons à analyser ici, est par essence poly- phonique : plusieurs notes sont jouées simultanément. Si l’oreille humaine est capable d’appréhender cette polyphonie avec une certaine performance, en combinant écoute analytique (focalisation sur un instrument en particulier) et écoute synthétique (appréciation du tout), l’estimation automatique de hauteurs multiples n’est pas sans poser un certain nombre de problèmes. En effet, il ne s’agit pas de la simple généralisation du problème d’estimation de hauteur simple : dans le domaine temporel, détecter « plusieurs périodicités » n’a pas de sens, tandis que dans le domaine fréquentiel, une somme de peignes harmoniques peut être associée à plusieurs ensembles de fréquences fondamentales. Ainsi, les difficultés liées aux rapports harmoniques entre fréquences fondamentales se posent de manière encore plus aiguë dans le cas polyphonique : outre la tendance, déjà observée dans le cas monodique, des estimateurs à surestimer ou sous-estimer la fréquence fondamentale d’une ou de plusieurs octaves, le cas polyphonique impose également de pouvoir déterminer si des notes dont les fréquences sont en rapport harmonique sont présentes simultanément. Cette difficulté est d’autant plus problématique que la musique tonale occidentale est justement friande de l’association de telles notes.

II.2.1 État de l’art de l’estimation de hauteurs multiples

Contrairement à l’estimation de fréquence fondamentale simple, le problème des hauteurs simul- tanées n’a été que peu abordé dans le domaine du traitement de la parole ; il intéresse en revanche beaucoup les spécialistes du signal musical. Deux grandes familles d’approches sont suivies dans la

II.2. ESTIMATION DE FRÉQUENCES FONDAMENTALES MULTIPLES 31 littérature. Elles sont présentées ici.

II.2.1.1 Estimation itérative

Une première approche de l’estimation de f0 multiples consiste à considérer que, puisqu’un son comportant plusieurs hauteurs est un mélange additif de sons à hauteurs simples, on doit pouvoir le « déconstruire » en estimant chaque hauteur simple l’une après l’autre et en soustrayant chaque note de l’ensemble lorsqu’elle est détectée. La méthode repose sur l’idée que dans un mélange polyphonique, l’une des notes est prédominante, par exemple suivant un critère énergétique. Si l’on parvient à estimer cette note et à la soustraire du mélange, le résiduel contient théoriquement une note de moins que l’original, et il ne reste plus qu’à itérer le procédé jusqu’à épuiser les hauteurs présentes. C’est le principe des méthodes iteratives [Karjalainen et Tolonen, 1999, Ortiz-Berenguer, 2002, Klapuri, 2003, Klapuri, 2008].

Entrée: Signal de musique polyphonique x Sortie : Liste de fréquences fondamentales Initialisation : Résiduel r = x

while rcontient une note do

Trouver la fréquence fondamentale f0 prédominante dans r Estimer le signal s correspondant à f0

r← r − s, ajouter f0 à la liste de sortie. end while

TableII.1 – Estimation itérative de fréquences fondamentales multiples.

La sélection de la note prédominante repose souvent sur un critère énergétique, qui correspond parfois à une méthode d’estimation conçue pour le cas monodique, par exemple le maximum du produit spectral. Une fois la fréquence fondamentale prédominante estimée, on doit estimer quelle partie de la note lui correspond et soustraire cette contribution, ce qui va souvent se faire de manière approchée et constitue un problème difficile, notamment en raison du recouvrement spectral entre les différentes notes simultanées. Une solution consiste à exploiter l’information portée par l’enveloppe spectrale de la note, qui, pour la plupart des instruments de musique, a une allure régulière. Ce principe baptisé spectral smoothness et introduit dans [Klapuri, 2001b] fait référence dans le domaine.

Dans ce modèle, une hauteur est caractérisée non seulement par l’énergie de chaque partiel pris individuellement mais aussi selon l’énergie relative entre les partiels. Ainsi, en cas de recouvrement spectral, l’amplitude des partiels est déterminée comme une valeur moyenne ou médiane des amplitudes des partiels d’ordre voisin. De cette manière, on évitera par exemple de soustraire l’octave en même temps que la note que l’on vient de détecter, le spectre de la note et de son octave jouées ensemble ayant des pics plus importants une fréquence sur deux. La définition d’un critère d’arrêt (de type énergétique, par exemple le rapport signal à bruit) n’est pas aisée, mais permet une estimation simultanée du degré de polyphonie.

II.2.1.2 Estimation jointe

Une autre approche consiste à chercher d’emblée à identifier toutes les hauteurs présentes en même temps. Cette estimation jointe est traitée par exemple dans [de Cheveigné, 2003,Tolonen et Karjalainen,

Figure II.1 – Principe du spectral smoothness. D’après [Klapuri, 2001b].

2000]. La méthode consiste à passer le signal dans des filtres en peigne qui suppriment les partiels répartis suivant la distribution harmonique correspondant à des fréquences fondamentales supposées puis à calculer l’énergie du résiduel ; cette énergie doit être minimale lorsque ces fréquences ont été correctement choisies.

L’estimation conjointe résout le problème de la soustraction imparfaite des notes successives dans la méthode itérative. Cependant, elle pose un problème combinatoire important. Si on se limite sim- plement à un degré de polyphonie maximal de 4 (jamais plus de 4 notes simultanées), le nombre total de filtres en peigne nécessaires pour estimer les hauteurs jouées sur un piano est P4

p=188p, c’est-à-dire plus de 60 millions ! Cette méthode n’est donc raisonnable que pour des ⋆tessitures et des polyphonies faibles. De plus, elle impose de fixer a priori un degré de polyphonie maximum, donc d’estimer par une autre méthode la polyphonie de la pièce analysée. Un alternative à cette explosion combinatoire est l’approche probabiliste [Walmsley et al., 1999, Godsill, 2002, Davy et al., 2006, Emiya et al., 2007], que nous discuterons dans la section suivante.

II.2.2 Du multipitch à la transcription

Même en supposant que nous disposons d’un moyen d’estimer efficacement et précisément un ensemble de fréquences fondamentales dans un extrait quasi-stationnaire de signal, cela ne fait pas une transcription. Deux approches sont possibles pour intégrer l’information temporelle :

1. L’approche par segmentation, qui consiste à pré-découper le signal en segments susceptibles de correspondre à une note, en détectant d’abord les débuts de note (onsets), pour analyser chaque segment séparément.

2. L’approche par fusion, qui consiste à analyser le signal trame à trame, puis à apparier ces infor- mations d’une trame à l’autre pour reconstituer une information temporelle.

[Klapuri, 2003] propose une étude de la métrique préalable à l’estimation des fréquences fondamen- tales. Les attaques sont détectées et le signal segmenté. On considère ensuite que le signal à l’intérieur d’un segment est quasi-stationnaire et que son contenu en terme de hauteurs est constant sur le seg- ment, ce qui permet d’utiliser toute sa durée pour l’estimation des fréquences fondamentales. Cette approche peut convenir à une musique ⋆homorythmique, mais risque de poser problème dans le cas général, la question des recollements entre segments se posant.

II.2. ESTIMATION DE FRÉQUENCES FONDAMENTALES MULTIPLES 33

Figure II.2 – Modèle de système de transcription par segmentation. D’après [Klapuri, 2003].

À l’inverse, [Ryynänen et Klapuri, 2005] propose un système qui illustre bien l’approche par fusion (voir figure II.3). Il utilise l’estimateur de fréquences fondamentales multiples de [Klapuri, 2005], qui fournit une saillance des fréquences fondamentales multiples estimées dans une trame. Pour chaque trame, un vecteur de caractéristiques (features) est calculé à partir des cinq fréquences fondamentales les plus saillantes, des valeurs de leur saillance, et des cinq fréquences fondamentales pour lesquelles la dérivée temporelle de la saillance est maximale (« fréquences prédominantes pour les attaques »). Ce vecteur de caractéristiques alimente ensuite un modèle de Markov caché (HMM) à trois états (attaque, entretien et silence) qui réalise l’intégration temporelle. Les modèles de Markov cachés, introduits par Leonard Baum dans les années 1960, sont sans aucun doute le moyen le plus largement utilisé dans les méthodes par fusion [Raphael, 2002,Ryynänen et Klapuri, 2005,Poliner et Ellis, 2007], avec cependant des choix variables en ce qui concerne le paramétrage, la définition des états et la détermination des probabilités de transition.

Il est possible de combiner ces deux approches, ce que nous appellerons l’approche mixte. Elle consiste à pré-segmenter le signal, les frontières entre segments étant les onsets détectés, puis à analyser trame par trame le signal à l’intérieur de ce segment, pour finalement re-fusionner les informations de ces trames. Cette approche, développée par exemple dans [Emiya, 2008], permet d’être plus robuste aux erreurs de détection d’onsets ou à certains cas particuliers tels que les notes répétées, tout en réduisant la complexité du modèle HMM, en interdisant un grand nombre de transitions à l’intérieur d’un segment.

Figure II.4 – Modèle de système de transcription mixte. D’après [Emiya, 2008].