• Aucun résultat trouvé

Filtres de formation de voie (sources ponctuelles mixées de manière diffuse)

MANIÈRE DIFFUSE) 145

travaux précurseurs menés par Feder et Weinstein dans [68]. Dans cet algorithme, les variables x observées sont complétées par un lot de variables latentes non observées y de manière à former l’ensemble {x, y} des données complètes3. Dans notre cas, ces variables latentes sont simplement constituées des images des sources. Dans la mesure où le mélange s’obtient de manière déterministe comme la somme des images y, les données complètes considérées seront simplement y et il apparaît que notre problème devient exactement équivalent à celui considéré dans [50] (section 3.3), à la différence que les DSP P (· | θ) des sources ne sont pas à estimer puisqu’on les suppose déjà estimées et fixées.

Dans ces conditions, je propose d’appliquer exactement le même algorithme que celui proposé par Duong et al. en introduisant cependant une petite modification, qui consiste à estimer dans un premier temps toutes les matrices de covariance spatiale Rj(f ) sous la forme de matrice à rang plein I lors de l’étape de Maximisation, et de les décomposer sous la forme Aj(f ) Aj(f )H lorsque cela est nécessaire (pour j ∈ MC) seulement dans un deuxième temps. Cela permet de s’affranchir de la nécessite d’introduire un bruit additif dans le modèle pour pallier à d’éventuelles instabilités numériques. L’algorithme 11.2 page suivante résultant permet d’estimer les paramètres de mixage.

11.5

Filtres de formation de voie (sources ponctuelles mixées de

manière diffuse)

Comme je l’ai expliqué en section 11.1.2, les filtres de formation de voie {Uj(f )}f,j∈S

p∩Md∩Zs

ne sont pas inclus dans les paramètres qu’une approche générative peut optimiser. Je propose ainsi de les estimer indépendamment, une fois tous les autres paramètres de Θ déterminés. Pour ce faire, il suffit de considérer la principale expression 9.2.4 page 124 où ils interviennent comme la covariance entre les réalisations ponctuelles observées des sources de Sp∩ Md∩ Zset les mélanges :

E h

sp(f, n, j) x (f, n, ·) Hi

= Uj(f )>Rj(f ) P (f, n, j) .

on peut remarquer que compte tenu de l’indépendance des sources, cette expression se confond avec : E h sp(f, n, j) y (f, n, ·) Hi = Uj(f )>E h y (f, n, ·, j) y (f, n, ·, j)Hi,

ce qui indique que Uj(f ) n’est rien d’autre que le vecteur permettant d’esimer sp(f, n, j) à partir de l’image y (f, n, ·, j) aux moindres carrés. Si on suppose fixée l’estimée ˆy (f, n, ·, j) de l’image,

obtenue par filtrage de Wiener des mélanges, on peut estimer Uj(f ) :

∀j ∈ Sp∩ Md∩ Zs, ∀f, cUj(f )>= 1 N N X n=1 sp(f, n, j) ˆy (f, n, ·) H y (f, n, ·, j) y (f, n, ·, j)H −1 , (11.5.1) où je rappelle que ·∗désigne la conjugaison complexe et ·H la conjugaison Hermitienne (conjuguée transposée). Si on désire plutôt transmettre ces filtres de formation de voie sous la forme de réponses impulsionnelles, on peut appliquer une transformée de Fourier inverse aux filtres estimés par 11.5.1.

11.6

Conclusion

Au cours des différentes sections de ce chapitre, j’ai proposé une heuristique pour l’apprentissage dans toute sa généralité de l’information annexe du système de séparation informée paramétrique présenté au chapitre 9. La quantification et l’encodage des paramètres ainsi appris peut se faire en utilisant les mêmes techniques que celles présentées en section 10.3.

3. Je rappelle que si les sources (ponctuelles ou diffuses) sont observées, leurs images y dans le mélange ne le sont pas.

Algorithme 11.2 Estimation des paramètres de mixage θM = n

{Aj(f )}f,j∈Mc, {Rj(f )}f,j∈Md o

à partir du modèle θ des DSP des sources et des mélanges x. Entrées :

– TFCT x (f, n, ·) des mélanges

– Paramètres θ des DSP des sources (alternativement, leur version quantifiée ¯θ)

– Ensembles Mc et Md des sources mixées de manière convolutive ou diffuse, respectivement. Initialisation :

– Définir tous les Rj(f ) comme une matrice diagonale de dimension I × I Répéter jusqu’à convergence :

– Étape d’estimation : pour chaque (f, n, j) : 1. K (x (f, n, ·) , x (f, n, ·)) =PJ

j=1P (f, n, j | θ) Rj(f ) 2. Calcul du gain “de Wiener”

Gj= P (f, n, j | θ) Rj(f ) K (x (f, n, ·) , x (f, n, ·))−1 de dimension I × I

3. Estimée des images :

b

y (f, n, ·, j) = Gjx (f, n, ·) 4. Estimée des covariances des images :

b

K (y (f, n, ·, j) , y (f, n, ·, j)) =y (f, n, ·, j)b by (f, n, ·, j)H+ (II− Gj) P (f, n, j | θ) Rj(f ) , où je rappelle que II est la matrice identité de dimension I × I.

– Étape de maximisation : pour chaque f et chaque j : 1. Rj(f ) ←N1 P N n=1 b K(y(f,n,·,j),y(f,n,·,j)) P (f,n,j|θ) 2. Si j ∈ Mc :

a) Calculer la décomposition en valeurs propres de Rj(f ).

b) Définir Aj(f ) comme le vecteur propre de Rj(f ) associé à la plus grande valeur propre λmax, multiplié par

λmax. c) Rj(f ) ← Aj(f ) Aj(f ) H Sortie : – {Aj(f )}f,j∈Mc et {Rj(f )}f,j∈Md

11.6. CONCLUSION 147

Ce chapitre présente une technique complète d’estimation de l’information annexe, dans le cas général envisagé au chapitre 9. Il est pro- bable que des travaux ultérieurs viendront améliorer la technique proposée, basée sur des heuristiques.

Contrairement au cas plus simple envisagé au cha- pitre précédent et dont j’ai considéré des cas particuliers dans [130, 137], l’heuristique que je viens de présenter ne bénéficie pas de garanties d’optimalité, puisqu’elle repose sur une série d’approximations qui mériteraient d’être étudiées de plus près et au cas échéant remplacées au pro- fit de techniques plus adéquates. En revanche, elle offre une solution assez simple au problème du calcul de l’in- formation annexe au niveau de l’encodeur dans un nombre très considérable de configurations, qui englobe l’ensemble des cas de figure abordés dans la littérature mais qui inclut aussi de multiples variantes inédites.

De manière à clôturer ce chapitre sur l’encodage de l’information annexe dans le cas général, je résume dans l’algorithme 11.3 l’ensemble des opérations que je viens de décrire et qui sont à implémenter au niveau du codeur. Les opérations effectuées au décodeur, présentées dans l’al- gorithme 9.1 page 125, restent inchangées. Cet algorithme sera mis en œuvre dans l’évaluation présentée au chapitre 16.

Algorithme 11.3 Encodeur paramétrique pour la séparation informée selon le modèle gaussien, cas général.

Entrées :

– I signaux régulièrement échantillonnés de mélange ˜x

– Sp signaux régulièrement échantillonnés : sources ponctuelles ˜sp

– Sd groupes de I signaux régulièrement échantillonnés : sources diffuses ˜sd – Paramètres ρ et L0de tramage

– Famille paramétrique P utilisée pour les DSP des sources – Pas de quantification ∆θà utiliser pour le modèle de sources – Paramètres de mixage s’ils sont connus

– Ensemble Zs, Zy et Z∅ des signaux désirés au décodeur

Initialisation

– Construire les TFCT x et s des mélanges et des sources observées DSP des sources

– Pour les sources sp, estimer leurs DSP par leurs spectrogrammes – Pour les sources sd, utiliser l’algorithme 11.1

Modèle de sources θ – Si P est le modèle NTF

– Estimer le modèle de sources θ = {W, H, Q} en utilisant l’algorithme 4.1 où on remplace v par les DSP estimées à l’étape précédente

– Quantifier uniformément log W , log H et log Q en utilisant les pas de quantification 10.3.8 – Encoder les paramètres en utilisant un codage de Huffman ou un MMG comme décrit en

section 10.3.3 – Si P est le modèle CI

– Compresser les log-DSP des sources en utilisant un algorithme de codage d’image (idéalement, utiliser une quantification uniforme au lieu de la quantification perceptuelle intégrée dans les codeurs standards)

Modèle de mélange

– Utiliser l’algorithme 11.2 pour estimer {Rj(f )}f,j∈Md et {Aj(f )}f,j∈Mc

– Les quantifier de manière uniforme sur 32 bits et utiliser un encodage de Huffman Filtres de formation de voie

– Si cela est nécessaire (j ∈ Zs∩ Sp∩ Md), estimer ces filtres en utilisant 11.5.1 – Les quantifier de manière uniforme sur 32 bits et utiliser un encodage de Huffman Sortie

– Retourner le flux binaire correspondant à ¯ Θ =n ¯θ ,¯ Rj(f ) f,j∈Md , ¯ Aj(f ) f,j∈Mc , ¯ Uj(f ) j∈Zs∩Sp∩Md o

Chapitre 12

Évaluation

Dans ce chapitre, je présente les résultats des différentes campagnes d’évaluation que j’ai menées au cours de mon travail de doctorat sur le système proposé de séparation informée paramétrique. Ce travail d’évaluation s’est opéré sur les trois années durant lesquelles je me suis intéressé à cette problématique et a été effectué dans le cadre de plusieurs publications [130, 137, 134]. Ce sont les résultats publiés dans [134] que je vais détailler tout particulièrement ici. Cette évaluation est le fruit de la collaboration de l’ensemble des partenaires académiques du projet DReaM et constitue un état des lieux assez complet sur les performances et les débits que peuvent atteindre les systèmes paramétriques actuels. Il s’agit à ma connaissance de l’unique évaluation commune et complète de plusieurs systèmes de séparation informée sur la même base de données et avec les mêmes métriques. Je tiens à remercier ici tous ses participants pour leur enthousiaste collaboration.

12.1

Métriques

12.1.1

Qualité de séparation : principes généraux

L’évaluation de la séparation de sources est un problème non trivial qui a fait l’objet de plusieurs travaux. En premier lieu, une manière naturelle d’évaluer les résultats d’une séparation est de faire appel à une campagne d’évaluation perceptive, c’est-à-dire de demander à de nombreux sujets dans une situation d’écoute contrôlée de quantifier leur opinion sur la qualité des sons obtenus après séparation. En effet, seules de telles études permettent d’évaluer rigoureusement le véritable objectif de la séparation, qui est de permettre de récupérer des sources séparées qui soient agréables à entendre. Quantifier les critères selon lesquels un humain juge qu’un son est de bonne qualité est une tâche très difficile et il est toujours mieux de faire appel à une campagne d’évaluation perceptive lorsque cela est possible. C’est par exemple une étape obligée dans la définition de standards de compression audio [146, 147].

Si l’idéal serait d’avoir recours à une éva- luation perceptive de la séparation, de telles évaluations sont difficiles à réaliser. C’est pour cette raison que des métriques objec- tives comme celles de BSSEval ou PEASS ont été proposées.

Malheureusement, les évaluations perceptives souffrent d’un inconvénient majeur : elles sont d’une grande diffi- culté de mise en œuvre. Pour qu’elles soient faites dans de bonnes conditions, il est en effet nécessaire de faire appel à de nombreux sujets, d’évaluer les scores sur une large quantité de données et enfin de procéder à un encadre- ment strict des conditions d’écoute. De telles procédures sont souvent coûteuses à mettre en place et requièrent énormément d’investissement pour être menées à bien. Je n’ai malheureusement pas eu le temps de réaliser une telle campagne d’évaluation durant ma thèse.

Pour pallier à la difficulté de faire appel à une évaluation perceptive pour l’évaluation de la séparation, plusieurs chercheurs se sont concentrés sur l’établissement de métriques permettant une évaluation objective [212, 59]. De telles métriques ont le grand avantage de simplement nécessiter l’application d’algorithmes qui aboutissent à la production d’un score. Elles sont donc très faciles à

utiliser dans un contexte d’évaluation, d’autant plus que des implémentations librement utilisables en sont disponibles. Le principe d’une évaluation objective de la séparation de sources est le suivant. En premier lieu, une évaluation objective d’un algorithme de séparation nécessite la disponibilité de plusieurs morceaux musicaux dont on dispose de l’ensemble des pistes séparées. Pour un morceau donné, c’est en effet en comparant les pistes séparées avec les originales qu’on peut produire un score estimant la qualité de la séparation. De plus, la configuration informée requiert la connaissance des sources au codeur pour pouvoir être appliquée. La disponibilité de tels corpus est encore très restreinte et j’ai eu la chance de bénéficier en primeur de la base de données QUASI1, qui contient les pistes séparées d’une quinzaine de morceaux de musique ainsi que leurs mélanges. Je reviendrai sur ce point en section 12.3.

Dans le cadre de mon travail sur la séparation informée, j’ai utilisé deux métriques principales. La première, le SDR (Signal to Distortion Ratio) provient de la bibliothèque BSSeval [212], très utilisée dans la communauté de la séparation de sources audio. La deuxième, le PSM (Perceptual

Similarity Measure, [107]) provient de la communauté du codage audio.

12.1.2

BSSEval

La bibliothèque BSSEval (Blind Source Separation Evaluation) permet d’évaluer les perfor- mances de la séparation de sources audio. Si on dispose d’un lot de sources originales et d’un lot de sources estimées, elle renvoie pour chaque source un ensemble de trois métriques permettant d’évaluer la qualité de la séparation, qui s’expriment toutes trois en décibels (dB) :

– Le SDR (Signal to Distortion Ratio) peut se comprendre comme un rapport moyen entre la source estimée et l’erreur d’estimation. En ce sens, elle se rapproche d’un simple rapport signal à bruit. Cependant, ce n’est pas la source estimée telle que renvoyée par l’algorithme de séparation qui est utilisée pour calculer la métrique mais plutôt sa version filtrée qui permet au mieux de la rapprocher de la source originale2. L’idée derrière cette technique

d’estimation est de ne pas pénaliser une séparation qui serait parfaite à un filtre près. – Le SIR (Signal to Interference Ratio) permet de quantifier la quantité d’interférences entre

les sources dans les estimées, c’est-à-dire à quel point on entendra les autres sources quand on écoutera une des pistes séparées.

– Le SAR (Signal to Artefacts Ratio) cherche à quantifier la quantité d’artéfacts présents dans les pistes séparées, comme le bruit musical, introduit par la mise à zéro de nombreux points TF dans les estimées, qui conduit à de brusques changements de phases et d’amplitudes des signaux, désagréables à l’oreille.

Cette bibliothèque d’évaluation fait aujourd’hui l’objet d’un consensus dans le domaine de la sé- paration de sources audio, pour plusieurs raisons. Tout d’abord, il a été montré [125] que parmi l’ensemble des métriques disponibles pour l’évaluation de la séparation de sources, ce sont celles de BSSEval qui sont le mieux corrélées avec les résultats d’évaluations perceptives. Bien que ce résultat doive être tempéré par les récentes recherches accomplies dans [59] qui tendent à montrer que de nouvelles métriques puissent être plus avantageuses sur ce point, il reste clair que leur va- lidité est généralement acceptée. Une deuxième raison du succès de BSSEval est qu’il s’agit d’une technique d’évaluation relativement rapide, quoique loin d’être instantanée. Pour un extrait d’en- viron 20 secondes composé de 5 sources, il faut environ 5 secondes pour mener à bien l’évaluation. Enfin, un avantage déterminant pour la large diffusion de ces métriques a été la mise à disposition pour tous par Emmanuel Vincent de scripts Matlab implémentant ces méthodes3.

12.1.3

PEMO-Q

Un des principaux inconvénients des métriques de BSSEval dans le contexte qui nous occupe est qu’elles ont été mises au point pour évaluer la séparation aveugle et non pas la séparation infor-

1. http://www.tsi.telecom-paristech.fr/aao/en/2012/03/12/quasi/ 2. au sens des moindres carrés