• Aucun résultat trouvé

Cadre bayésien pour la transcription et la séparation

L’utilisation des modèles d’instruments s’effectue en deux phases : apprentissage des paramètres des modèles spécifiques à chaque instrument, puis intégration comme information a priori dans la transcrip-tion et la séparatranscrip-tion. Nous expliquons dans ce paragraphe comment effectuer les quatre tâches définies dans le chapitre 1 une fois les modèles appris. Nous présentons uniquement les variables estimées et les critères d’estimation utilisés. Des algorithmes plus précis adaptés au cas particulier de modèle d’instru-ment choisi seront discutés dans le chapitre 4 et les suivants.

3.4.1 Identification de notes

L’identification de notes vise à trouver les listes d’accords joués par tous les instruments sachant les instruments présents. Dans les modèles d’instruments proposés, ces listes d’accords ne sont pas modéli-sées en tant que telles, mais en lien avec les instants de début et de fin des notes au sein des états (Ej). Il est donc naturel d’estimer plutôt les états (Ej)sachant les modèles des instruments présents (Mj). Notons que cela ne permet pas de distinguer deux notes de même hauteur jouées à la suite sans silence intermédiaire et une note unique de durée plus longue (il faudrait pour cela modéliser différemment les parties d’attaque et de relâche). Le critère d’estimation est le critère du Maximum A Posteriori (MAP) [Rab89]

d

(Ej) = arg max

(Ej)P ((Ej)| o, (Mj),I), (3.6)

qui consiste à intégrer la distribution conjointe de l’équation 3.1 par rapport à Θ, (mj)et (pj).

Pour certains modèles d’instruments et de mélange, l’intégrale par rapport à (mj) est facilement approchable (voire calculable exactement) sous une forme paramétrique simple. L’intégrale du produit de distributions PspatPspecest alors remplacée par

Pcomb= P (o|Θ, (pj), (Mj)) =

T −1Y

t=0

Cette approche est utilisée par les algorithmes de décomposition parcimonieuse spectrale et de combi-naison de modèles sur des mélanges monocanal (voir paragraphes 2.3.4 et 2.3.5). Nous serons en mesure de l’adopter aussi par la suite.

Par contre, l’intégrale par rapport à Θ et (pj)n’est généralement pas calculable sous une forme pa-ramétrique simple. Les méthodes d’approximation classiques sont les méthodes variationnelles [Att99, Mis01, Gha01] et de Monte Carlo [Gha01, Dav02c, Wol03, Fév04b], assez lourdes en calculs, et la méthode de Laplace [Abd01]. Nous choisissons une approximation encore plus simple qui consiste à prendre en compte uniquement les valeurs les plus probables de Θ et (pj) sachant o, (Ej), (Mj)et I [Abd01, Ben03].

Cela revient à considérer le nouveau critère d

(Ej)≈ arg max

(Ej) max

Θ,(pj)P (Θ, (pj), (Ej)| o, (Mj),I). (3.8) Ce critère n’est pas optimal pour l’identification de notes, mais il trouve tout son intérêt pour des tâches de transcription plus avancées où Θ et (pj)doivent également être estimés. Dans ce cas il corres-pond au critère du MAP

b

Θ, d(pj), d(Ej) = arg max

Θ,(pj),(Ej)P (Θ, (pj), (Ej)| o, (Mj),I). (3.9) Les algorithmes d’identification de notes par décomposition parcimonieuse spectrale et par ASA computationnelle fonctionnent sur le même principe. Ils estiment les notes présentes en fonction des meilleurs coefficients de décomposition ou du meilleur regroupement des partiels (voir paragraphes 2.3.4, 2.3.2 et 2.4.5).

Remarquons que ce critère admet deux propriétés particulièrement intéressantes, pas toujours vé-rifiées par les algorithmes existants : le nombre de notes présentes à un instant donné n’est pas fixé à l’avance et les hauteurs et les instruments associés aux notes sont estimés conjointement.

3.4.2 Identification d’instruments

L’identification d’instruments consiste à estimer les instruments présents O sachant les modèles des instruments potentiellement présents M. Cela se traduit par le critère du MAP

b

O = arg max

O P (O| o, M, I). (3.10)

Son calcul implique l’intégration de la distribution conjointe de l’équation 3.1 par rapport à Θ, (mj), (pj)et (Ej). Comme pour l’identification de notes, nous choisissons d’approcher l’intégrale par rapport à (mj)par une forme paramétrique simple et de prendre en compte uniquement les valeurs les plus pro-bables de Θ, (pj)et (Ej)sachant o, (Mj)et I.

Cela fournit le critère pratique b

O ≈ arg max

O P (O|I) P ( bΘ, d(pj), d(Ej)| o, (Mj),I), (3.11) où bΘ, d(pj) et d(Ej) sont définis en fonction de O par l’équation 3.9. Cette expression fait apparaître un lien important entre identification d’instruments et identification de notes. En effet, l’estimation im-plique de calculer pour chaque orchestre possible la probabilité de la meilleure transcription au sens de l’équation 3.9.

Les algorithmes existants d’identification d’instruments estiment aussi simultanément les notes et les instruments présents [Kas95, Kin99], ou supposent les notes déjà identifiées auparavant [Egg03].

3.4.3 Extraction de sources

Le but de l’extraction de sources est d’estimer les sources s sachant les modèles des instruments présents (Mj). Cela correspond au critère du MAP

bs = arg maxs P (s|x, (Mj),I). (3.12)

Nous introduisons les variables des modèles d’instruments en développant P (s|x, (Mj),I) sous la forme

P (s|x, (Mj),I) = Z

P (s|x, Θ, (mj)) P (Θ, (mj)| o, (Mj),I) dΘ d(mj), (3.13) où Θ et (mj) sont supposés indépendants de x sachant o, et s indépendant de (Mj) et I sachant (mj). Le terme P (Θ, (mj)| o, (Mj),I) correspond lui-même à l’intégrale de la distribution conjointe de l’équation 3.1 par rapport à (pj)et (Ej). Nous proposons une approximation en deux étapes. Nous prenons en compte d’abord uniquement les valeurs les plus probables de Θ, (pj) et (Ej) sachant o, (Mj)et I, puis uniquement la valeur la plus probable de (mj)sachant o, Θ, (pj), (Ej)et (Mj).

Cela mène au nouveau critère

bs ≈ arg maxs P (s|x, bΘ, [(mj)), (3.14)

[

(mj) = arg max

(mj)P ((mj)| o, bΘ, d(pj), d(Ej), (Mj)) (3.15) et bΘ, d(pj)et d(Ej)sont définis par l’équation 3.9. L’application de ce critère met en lumière un lien impor-tant entre transcription et extraction de sources. En effet l’estimation des sources comprend trois étapes successives : estimation de la meilleure transcription au sens de l’équation 3.9, estimation du spectre de puissance des sources par l’équation 3.15 et filtrage du mélange selon l’équation 3.14. Le filtrage peut être invariant dans le temps ou non, et être éventuellement complété d’une resynthèse sinusoïdale des partiels cachés.

La plupart des algorithmes d’extraction de sources existants effectuent aussi des estimations ap-prochées en plusieurs étapes. Le filtrage est réalisé en fonction du meilleur regroupement des partiels pour l’ASA computationnelle, en fonction des meilleurs coefficients de décomposition pour la décom-position parcimonieuse spectrale, en fonction du meilleur état à chaque instant pour la combinaison de modèles et en fonction des meilleurs paramètres de mélange pour la maximisation de parcimonie et le masquage temps-fréquence (voir paragraphes 2.3.2, 2.4.5, 2.3.4, 2.3.5, 2.4.3 et 2.4.4). Quelques algo-rithmes de maximisation de parcimonie estiment conjointement les sources et les paramètres de mélange [Lee99, Dav02b, Fév04a]. Mais souvent leur performance est identique à celle des algorithmes en deux étapes, qui peuvent estimer les paramètres de mélange avec une grande précision [Abr01, Fév04b]. L’al-gorithme de combinaison de modèles décrit dans [Ben03] réalise un filtrage pseudo-Wiener en intégrant les états cachés des MG, mais pas les facteurs d’échelle.

L’étape de filtrage dépend de la distribution P (s|x, Θ, (mj)). Cette distribution peut être remplacée par P (simg i|x, Θ, (mj))dans le cas où on cherche à estimer l’image spatiale des sources sur le capteur i. Dans les chapitres 6 et 7 nous donnerons plusieurs méthodes de filtrage selon le type de mélange. Notons que dans le cas d’un mélange sur-déterminé convolutif court peu bruité, il est possible d’estimer des filtres de démixage invariants dans le temps uniquement en fonction des paramètres de mélange Θ. Dans ce cas, la deuxième étape est inutile. Notons aussi que la procédure d’estimation des sources ne change pas fondamentalement en remplaçant le critère MAP de l’équation 3.12 par le critère d’Espérance A Posteriori (EAP) [Ben03]. Seule l’équation 3.14 de filtrage par MAP est modifiée en un filtrage par EAP. Sous certaines hypothèses, les deux types de filtrage sont équivalents [Ben03].

3.4.4 Modification de scène sonore

La modification de scène sonore consiste à estimer le remix xrmx sachant les paramètres de remix Θrmxet les modèles des instruments présents (Mj). L’estimateur du MAP vaut

[

xrmx = arg max

xrmx

P (xrmx|x, Θrmx, (Mj),I). (3.16)

Avec l’approximation utilisée pour l’extraction de sources, nous obtenons l’estimateur approché [

xrmx≈ arg maxx

rmx

P (xrmx|x, Θrmx, bΘ, [(mj)), (3.17) où bΘ et [(mj) sont définis par les équations 3.9 et 3.15. L’estimateur obtenu avec un critère EAP est semblable. Cela mène encore à un algorithme en trois étapes, similaire aux algorithmes existants [Ave02, Rad02]. Des méthodes de filtrage correspondant à la distribution P (xrmx|x, Θrmx, Θ, (mj)) seront décrites dans les chapitres 6 et 7.