• Aucun résultat trouvé

I.3 Approches historiques

I.3.1 La transcription monodique

Tant pour des raisons historiques (travaux antérieurs en traitement de la parole) que pour des rai- sons de simplification du problème, les premières transcriptions s’intéressent aux sons dits⋆monodiques, c’est-à-dire tels qu’une seule note est jouée à la fois7. Historiquement, la transcription monodique se confond quasiment avec l’estimation monopitch (estimation d’une seule fréquence fondamentale, ou hauteur simple), que nous présentons ici. Les techniques d’estimation se répartissent principalement en deux catégories, inspirées de la perception humaine : les approches dans le domaine spectral et les approches dans le domaine temporel.

I.3.1.1 Méthodes temporelles

La première catégorie de méthodes se place dans le domaine temporel, partant du constat que l’on examine des séries chronologiques périodiques ou quasi-périodiques, et que la pseudo-période P0 doit pouvoir être obtenue en cherchant une ressemblance maximale entre le signal observé x et des versions

décalées de lui-même dans le temps.

En vertu du théorème de Fourier, et considérant des signaux échantillonnés — donc ne contenant pas de fréquences au-delà de la fréquence de Nyquist fs/2— le signal quasi-périodique xnpeut s’exprimer suivant un modèle sinusoïdal simple :

xn= H X

h=1

2Ahcos(2πhn/P0+ ϕh) + bn, (I.1)

où : P0 : période fondamentale réduite

H : nombre d’harmoniques du signal (choisi tel que Hf0 < 1/2) Ah : amplitude du partiel h

ϕh : phase du partiel h, variable aléatoire de loi uniforme sur [0, 2π] b : bruit blanc centré de variance σ2, indépendant des phases

Sous ce modèle, on peut voir le signal x comme un processus centré et stationnaire au sens large (SSL). On peut donc définir sa fonction d’autocovariance Rxx :

Rxx(m)def= E[xnxn+m] = H X

h=1

2A2hcos(2πhm/P0) + σ2δ(m) (I.2)

L’autocovariance mesure effectivement la ressemblance du signal avec des versions décalées de lui- même. Son intérêt est de faire disparaître les déphasages entre les partiels et l’influence du bruit hors de m = n. Ainsi, Rxx atteint son maximum lorsque m est un multiple de P0.

Cette idée est à la base de la méthode de référence de [Rabiner, 1977], basée sur l’autocorrélation (ACF), une version normalisée de l’autocovariance, et déclinée sous de nombreuses variantes ou tech- niques reliées, telles que l’usage du cepstre (transformée de Fourier inverse du logarithme du module de la transformée de Fourier [Noll, 1967]) ou de la fonction de différences d’amplitudes moyennes (ou AMDF, pour Average Difference Magnitude Function [Ross et al., 1974]) ; l’enjeu de ces méthodes revient à estimer cette fonction d’autocovariance, évidemment inconnue. Signalons également qu’une modélisation probabiliste du problème permet de faire le lien entre l’autocorrélation et une estimation de type « maximum de vraisemblance » (MV) de P0 [Wise et al., 1976].

Une fois l’ACF estimée, le moyen le plus simple d’estimer P0 est de choisir la valeur qui réalise son maximum. Cependant, compte-tenu de la périodicité, des pics peuvent apparaître à P = 2P0, 4P0... rendant la méthode susceptible de produire des erreurs de sous-octave. De plus, cette méthode est sensible à l’enveloppe spectrale du signal.

I.3.1.2 Méthodes fréquentielles

Dans le domaine fréquentiel, nous avons vu sur les figures I.2 et I.3 que le spectre de la note est constitué de pics régulièrement espacés (on parle de distribution ⋆harmonique, ou quasi-harmonique). Ceci se retrouve évidemment si l’on écrit la transformée de Fourier du modèle (I.2). Les méthodes fréquentielles d’estimation de hauteur consistent à estimer ce « peigne » pour obtenir la fréquence fondamentale f0= 1/P0, visualisée comme « l’écart entre les dents du peigne ». La méthode « brutale » qui consisterait à choisir, par exemple, f0 au pic maximum du spectre, serait susceptible de produire des erreurs d’octave et manquerait de robustesse.

Dans ce domaine, [Schroeder, 1968] est le travail de référence. Après calcul du spectre et détection des pics, l’auteur propose de former un histogramme en fonction de la fréquence ; pour chaque pic

I.3. APPROCHES HISTORIQUES 25 du spectre, on dénombre les pics dont la fréquence est un multiple de la fréquence du pic considéré. Le maximum de l’histogramme doit alors correspondre à la fréquence fondamentale, puisque c’est la fréquence qui rassemble le plus grand nombre de multiples. Ce principe étant posé, l’auteur propose ensuite de pondérer les contributions des pics dans le dénombrement par leur amplitude, puis de suppri- mer l’étape de détection de pics et de construire le même histogramme pour chaque point fréquentiel. Ceci aboutit à un estimateur de fréquence fondamentale aujourd’hui extrêmement répandu : la somme spectrale, définie par :

S(f )def= H X

h=1

|X(hf)|2 (I.3)

où H désigne un nombre de partiels fixé, et choisi tel qu’on ne dépasse pas la fréquence de Nyquist. Cette fonction devrait atteindre son maximum en f0.

Une autre variante peut être obtenue en pondérant les contributions non pas par l’amplitude des partiels, mais par leur logarithme, ce qui conduit au produit spectral :

P (f )def= H Y

h=1

|X(hf)|2 (I.4)

où X est la transformée de Fourier discrète du signal. Ces méthodes sont particulièrement efficaces lorsque l’on peut fixer le nombre H de partiels, c’est-à-dire lorsque l’on recherche f0 dans un inter- valle [fmin, fmax] relativement restreint (puisqu’on impose Hfmax < 1/2). Ceci concernera donc des instruments de ⋆tessiture limitée, ou des pièces d’⋆ambitus raisonnable.

Comme le remarque [Emiya, 2008], de très nombreuses méthodes d’estimation de hauteur abou- tissent à des variantes de la somme ou du produit spectraux, bien que leur point de départ puisse être sensiblement différent de celui de [Schroeder, 1968]. Par exemple, [Doval et Rodet, 1991] et [Brown, 1992] proposent une estimation fondée sur des produits scalaires entre le spectre à estimer et des spectres de référence (méthode dite de pattern matching), dont la formulation revient à une somme pondérée ; [Klapuri, 2005] définit une fonction dite de « saillance », fonction de la variable temporelle et liée à l’autocorrélation, mais qui peut également être interprétée comme une variante de la somme spectrale. Enfin, signalons que la somme spectrale calculée sur le module au carré du spectre est éga- lement l’estimateur du maximum de vraisemblance du paramètre f0 dans le modèle de l’équation (I.1) lorsque le bruit est gaussien.

Un des intérêts de la somme et du produit spectraux est de ne faire aucune hypothèse sur la présence ou l’absence d’énergie à la fréquence fondamentale, ni sur le fait que cette énergie devrait être supérieure à celle des partiels, par exemple. Ceci rend la méthode robuste aux fondamentales absentes et à l’enveloppe spectrale.

Pour conclure cette partie, signalons enfin que certaines méthodes comme [Hess, 1983, Peeters, 2006] associent des approches temporelle et fréquentielle afin de compenser leurs défauts réciproques et combiner leurs avantages.