• Aucun résultat trouvé

I.3 Approches historiques

I.3.2 Premiers systèmes de transcription polyphonique

Parallèlement à ces travaux pionniers sur la fréquence fondamentale, d’autres auteurs décident dans la même période de s’atteler à la question de la transcription musicale avec un regard de plus haut niveau. Leurs approches sont présentées ici.

I.3.2.1 Premiers systèmes

La transcription automatique de la musique en tant que problématique en soi a été introduite par les travaux de [Moorer, 1975], dans lesquels l’auteur définit en détail le problème, et propose un premier système de transcription. L’objectif théorique est de générer une partition, par un ordinateur, à partir d’un enregistrement musical. Un certain nombre d’hypothèses simplificatrices permettent alors de restreindre ce vaste cadre et de concevoir un système de transcription élémentaire : limitation de la polyphonie à deux voix, absence de notes simultanées en rapport harmonique et notamment d’⋆unisson, absence de ⋆vibrato ou de ⋆glissando.

Ces travaux soulèvent les principales questions à résoudre dans le cadre de la transcription : – le choix d’une représentation adaptée des données, c’est-à-dire la conversion de la forme d’onde

vers un domaine mettant en valeur les caractéristiques du signal, en particulier son contenu fréquentiel. Cette représentation doit servir de base à l’estimation ultérieure des notes ;

– le problème des fréquences fondamentales en rapport harmonique et du recouvrement spectral entre notes ;

– l’intégration temporelle de cette information, c’est-à-dire le passage d’une succession de fré- quences fondamentales à la construction de l’objet « note » ;

– la définition de l’ensemble des éléments à transcrire, à différents niveaux sémantiques : les ins- truments, les voix (mélodie, accompagnement...), le tempérament, le rythme, etc.

Dans la même période, [Piszczalski et Galler, 1979] présente un algorithme d’estimation multipitch fondé sur l’examen des rapports arithmétiques de fréquences, avec un fonctionnement de type hypo- thèses/validation. Dans ce papier, l’auteur développe des considérations similaires à celles de [Moorer, 1975] sur la tâche de transcription musicale.

Ces approches historiques adoptent un paradigme similaire qui imprégnera nombre de systèmes ultérieurs que nous évoquerons au chapitre suivant : une démarche dite bottom-up, c’est-à-dire partant du plus bas niveau (la forme d’onde) pour s’élever progressivement sur l’échelle sémantique, d’abord par un changement de représentation, puis par l’estimation des fréquences fondamentales sur des segments, pour arriver au niveau de la note et éventuellement à des niveaux d’information plus élevés.

I.3.2.2 Tableau noir

Dans les années 1990, un autre type d’approches voit le jour. Contrairement aux précédentes, celles- ci cherchent à intégrer des informations extérieures au signal lui-même et envisagent une approche top-down, c’est-à-dire l’utilisation précoce de connaissances de haut-niveau pour informer et aider l’analyse du signal. Cette approche est dite « tableau noir » (blackboard), par analogie avec un groupe d’experts cherchant à résoudre un problème devant un tableau noir, chacun intervenant seulement lorsque son domaine d’expertise est requis. De nombreux systèmes de la littérature utilisent et/ou considèrent ce paradigme comme une approche historique majeure de la transcription musicale [Martin, 1996b, Hainsworth, 2001, Plumbley et al., 2002].

La méthode du tableau noir est née à l’Université du Massachussetts en 1993 via le schéma IPUS (Integrated Processing and Understanding of Signals) [Lesser et al., 1993] mais s’inspire des principes de conception des systèmes-experts de l’intelligence artificielle des années 1970. Son principe consiste à extraire de l’information du signal original trame par trame, puis à trouver les paramètres qui décrivent ce signal en utilisant un ensemble de sources de connaissances mises en compétition et d’hypothèses à plusieurs niveaux de description. Ainsi, le système IPUS combine un traitement bottom-up du signal et

I.3. APPROCHES HISTORIQUES 27 l’utilisation top-down d’a priori ou d’informations globales pour choisir entre différentes hypothèses ins- crites au tableau noir. Le système est dynamique, en ce que les paramètres d’analyse bas-niveau peuvent être ajustés en fonction des niveaux supérieurs d’information, avec un système d’« allers-retours » entre les hypothèses et l’analyse. Plusieurs auteurs arguent que ce fonctionnement pourrait être similaire à celui de l’écoute humaine, qui traiterait en permanence l’information de manière complémentaire à la fois sur les plans auditifs (oreille, nerf) et cognitif (cerveau).

Le système est principalement constitué de trois parties : le tableau, où les hypothèses sont pro- posées et examinées ; les sources de connaissances, qui interviennent pour aider l’analyse et apporter l’information nécessaire à chaque étape ; le contrôleur (planner ou controller), qui gère les interactions entre ces deux parties, en sollicitant le niveau de connaissances approprié.

Le schéma IPUS en tant que tel n’a jamais été appliqué au problème de la transcription audio, mais il a largement inspiré de nombreux travaux dans ce domaine [Martin, 1996b,Martin, 1996a,Godsmark et Brown, 1999, Bello et al., 2000, Plumbley et al., 2002].

Figure I.10 – Système en tableau noir pour la transcription musicale. D’après [Bello et al., 2000]. [Bello et al., 2000] décrit en particulier le fonctionnement chronologique et les sous-tâches d’un système de transcription de type tableau noir. Le contrôleur établit des priorités entre les sources de connaissance et détermine l’ordre dans lequel leur action sur le tableau va s’effectuer. Chaque source de connaissance est représentée sous la forme d’une paire condition/action (if/then). Lorsque la condition d’une certaine source de connaissance est satisfaite, le contrôleur déclenche l’action et place son résultat sur le tableau. Les actions réalisées peuvent consister soit à supprimer du tableau des hypothèses infirmées, soit à déclencher une action d’analyse, comme la ré-estimation des partiels en fonction d’une hypothèse sur la note. La figure I.10 illustre la mise en œuvre globale du système proposé.

En ce qui concerne les sources de connaissance et leurs interactions, la figure I.11 [Martin, 1996a] en propose une illustration globale. Elle montre la hiérarchie des hypothèses dans un cas de transcription musicale. Chaque source de connaissance est représentée par un graphe, dont chaque sommet est une hypothèse du tableau noir, et dont les arcs symbolisent une relation de type « causer un changement sur ». Les sommets d’où partent les flèches représentent les hypothèses satisfaisant les préconditions

de la source de connaissance ; les sommets où aboutissent ces flèches sont les hypothèses modifiées par l’action de la source de connaissance. Les sommets représentés en blanc sont des hypothèses dites « concurrentielles », c’est-à-dire qui mettent en compétition plusieurs sous-hypothèses et tranchent parmi elles.

Figure I.11 – Exemple de sources de connaissance. D’après [Martin, 1996a].

Au premier abord, ces systèmes en tableau noir semblent être un bon moyen de combiner des infor- mations extérieures de haut niveau avec un flux d’analyse bottom-up. Cependant, ils sont heuristiques par nature, et leur performance dépend considérablement des caractéristiques précises de leur mise en œuvre. En effet, s’ils proposent une architecture générale pour aborder le problème, ils laissent une grande latitude de choix quant à l’implantation des sources de connaissances et de leurs actions, les niveaux des hypothèses considérées et la manière de trancher entre elles. Au chapitre suivant, nous étu- dierons plus précisément les techniques mises en œuvre et implantées concrètement dans les systèmes de l’état de l’art.

Dès ces premiers systèmes, il se dégage des tendances qui vont imprégner durablement les dévelop- pements futurs de systèmes plus sophistiqués :

– Le rôle central de l’estimation de hauteur fondamentale à l’échelle de la trame. Il constitue un problème en soi, et soulève la question de l’intégration temporelle de l’information de fréquence. – L’emploi de connaissances extérieures aux données analysées elles-mêmes.

L’état de l’art des systèmes de transcription musicale qui est présenté au chapitre suivant s’inté- ressera particulièrement à ces deux angles d’éclairage.

29

Chapitre II

État de l’art

Résumé

Où l’on dresse l’état de l’art des approches et systèmes de transcription musicale, sous l’angle qui motive notre démarche.

II.1

Introduction

L

a transcription automatique de la musique a déjà été l’objet d’une abondante littérature ; les références sont nombreuses et complètes et il n’est pas dans notre ambition d’être ici exhaustive. Des bibliographies très complètes pourront être consultées par exemple dans [Cemgil, 2004,Hainsworth, 2004,Emiya, 2008]. Comme introduit précédemment, nous choisissons ici deux angles d’approche pour présenter brièvement l’état de l’art et motiver notre propre travail :

– Suivant la manière d’utiliser l’ensemble du signal et sa redondance intrinsèque ;

– Suivant la quantité et la nature de connaissances extérieures éventuellement apportées au sys- tème.

Toute entreprise de catégorisation grossière de la littérature est évidemment vouée à l’échec, chaque système méritant sa propre catégorie, et les frontières étant souvent trop floues pour classer l’un ou l’autre des systèmes dans une catégorie donnée. Consciente de ce constat, nous proposons malgré tout des délimitations que nous espérons éclairantes. Dans ce chapitre, nous présentons en premier lieu (section II.2) les techniques d’estimation de fréquences fondamentales multiples, en considérant en particulier comment leur résultat est intégré temporellement pour produire une transcription. Nous présentons ensuite divers systèmes de transcription de l’état de l’art répartis en trois catégories : les systèmes informés, utilisant des connaissances extérieures au signal (section II.3), les méthodes bayé- siennes à la frontière entre approche informée et approche aveugle (section II.4) et enfin les méthodes aveugles (section II.5). Ceci nous amène à introduire dans la section II.5.2 l’usage de la factorisation en matrices non-négatives (NMF) pour la transcription automatique de la musique, et à poser dans la section II.6 les problématiques de cette thèse.