Résultats de la classification polyphonique

3.7 Expériences numériques sur données réelles

3.7.5 Résultats de la classification polyphonique

Méthode proposée sans réduction.Le Tableau 3.11 résume les résultats sur l’ensemble de données A-Volute pour la tâche de classification polyphonique de la même manière que pour la tâche de classification monophonique. Les données d’entraînement polyphoniques ont été créées en considérant un ensemble de données d’entraînement monophonique réduit. En effet, le nombre de mélanges possibles à partir de l’ensemble de données d’origine était trop important pour pouvoir être stocké dans une mémoire d’ordinateur standard, de sorte que les mélanges sont créés en utilisant un ensemble de données réduit. Pour r_mono= 400, l’ensemble de données monophoniques est réduit d’un facteur 400 et des mélanges ont été créés en utilisant cet ensemble de données réduit. Ensuite, les mélanges ont été classés en utilisant les modèles monophoniques réduits et les modèles polyphoniques. Par conséquent, lorsque la réduction rmono diminue, les scores deviennent meilleurs (puisque plus de modèles sont utilisés pour construire l’ensemble de données polyphoniques). Le CRNN doit être entrainé en utilisant un ensemble de données contenant des sons mixtes, c’est pourquoi des mélanges artificiels ont été créés sur l’ensemble de données A-Volute. Le paramètre Nmixtcontrôle le nombre de frames de chaque classe mélangées ensemble : si N_mixt= 200, il y avait 200 frames de la première classe mélangées avec 200 frames de la seconde classe. De plus, une fois le réseau formé, un seuil doit être fixé : la valeur par défaut est 0,5 mais elle est totalement arbitraire. Ce tableau montre que la méthode RARE surpasse la méthode CRNN en termes de résultats et de temps de test. En effet, dans le cas r_mono= 400 et r_poly= 1, RARE obtient un F1 de 69,4% et un E.R. de 46,2% alors que le CRNN entrainé avec le plus de données (N_mixt= 300) obtient au plus un F1 de 53,1% et un E.R. de 60,3%.

Les Tableaux 3.12 et 3.13 résument les résultats pour le jeu de données Battlefield et TUT-SED comme précédemment. La principale différence entre ces ensembles de données et l’ensemble de données A-Volute est la présence de mélanges dans les ensembles de données. C’est pourquoi la méthode proposée n’utilise qu’un facteur de réduction pour les classes polyphoniques. Pour l’ensemble de données de Battlefield, la méthode proposée donne de meilleurs résultats en termes de scores (F1 et taux d’erreur) et de temps (entraînement et tests).

Méthode proposée avec réduction.Pour un r_monoplus petit, la méthode proposée pour l’en-semble de données A-Volute doit utiliser une étape de réduction polyphonique pour fonctionner en temps réel. Comme la réduction monophonique, la réduction polyphonique améliore les résultats de sorte que, sans réduction, la méthode proposée peut avoir surappris. L’ensemble de

Tableau3.11 – Tâche de classification polyphonique. Résumé des résultats de l’ensemble de données A-Volute en termes de score F1 (F1), de taux d’erreur (E.R.), de temps d’entraînement (en secondes) et de temps de test par image (en millisecondes) pour différentes méthodes.

Méthode Param. F1 E.R. Apprentissage Test

RARE r_mono= 400 r_poly= 1 69,4 (3,2) 46,2 (3,2) 7, 7 × 10¹ 6, 4 × 10⁰ r_mono= 100 ^r^poly^{= 1} ^{72,3 (4,8)} ^{43,1 (5,4)} 1, 9 × 104 7, 9 × 10² r_poly= 20 71,4 (3,8) 41,3 (4,5) 4, 2 × 10¹ r_mono= 50 r_poly= 1 74,5 (4,7) 40,6 (5,1) 7, 7 × 10¹ 3, 0 × 10³ CRNN [18] Nmixt= 200 th = 0, 5 39,8 (26,5) 70,3 (20,0) 4, 8 × 10³ 2, 8 × 10¹ th = 0, 2 56,4 (3,8) 114,4 (6,0) th = 0, 1 55,9 (2,1) 141,7 (15,0) CRNN [18] N_mixt= 300 th = 0, 5 53,1 (0,6) 60,3 (0,6) 1, 3 × 104 3, 1 × 10¹ th = 0, 2 56,2 (1,9) 141,1 (14,4) th = 0, 1 57,1 (0,1) 149,1 (1,9)

Tableau3.12 – Tâche de classification polyphonique. Résumé des résultats pour l’ensemble de données du Battlefield en termes de score F1 (F1), de taux d’erreur (E.R.), de temps d’en-traînement (en secondes) et de temps de test par image (en millisecondes) pour différentes méthodes.

Méthode Param. F1 E.R. Apprentissage Test

RARE r_poly= 1 66,0 (4,3) 44,5 (6,3) 1, 2 × 10² 9, 4 × 10¹ r_poly= 10 69,2 (2,8) 40,9 (2,6) 1, 0 × 10¹ rpoly= 50 67,9 (1,8) 42,3 (2,2) 2, 1 × 10⁰ CRNN [18] th = 0, 5 61,8 (3,4) 54,4 (4,4) 1, 8 × 10² 2, 6 × 10¹ th = 0, 3 63,5 (4,0) 77,9 (17,3) th = 0, 2 65,2 (2,8) 85,1 (7,0) th = 0, 1 56,1 (1,5) 156,7 (9,4)

données de Battlefield montre un comportement similaire : de meilleurs scores pour une réduc-tion d’un facteur 10, puis une diminuréduc-tion pour un facteur de réducréduc-tion important. L’ensemble de données TUT-SED ne peut pas être réduit avec nos ordinateurs car le clustering hiérarchique utiliserait trop de RAM (de l’ordre de 120 Go).

Avantages et inconvénients.Toutes les méthodes précédentes utilisées pour la classification monophonique ne sont pas conçues pour travailler sur la classification polyphonique à partir d’un ensemble de données monophoniques, contrairement à la méthode que nous proposons, ce qui constitue un avantage majeur. En effet, la méthode proposée ne doit pas apprendre les mélanges de sons mais seulement les sons individuels.

Tableau3.13 – Tâche de classification polyphonique. Résumé des résultats de l’ensemble de données TUT-SED en termes de score F1 (F1), de taux d’erreur (E.R.), de temps d’entraînement (en secondes) et de temps de test par image (en millisecondes) pour différentes méthodes.

Méthode Param. F1 E.R. Apprentissage Test

RARE r_poly= 1 30,1 (4,1) 85,4 (9,8) 5, 4 × 10² 1, 3 × 10³ RARE ^r^poly^{= 100} ^{40,2 (9,8)} ^{60,1 (9,7)} ^{8, 8 × 10} 2 1, 6 × 10¹ rpoly= 1000 47,9 (11,9) 59,1 (11,3) 8, 8 × 10² 2, 5 × 10⁰ CRNN [18] th = 0., 5 0,0 (0,0) 100,0 (0,0) 2, 3 × 10³ 2, 9 × 10¹ th = 0, 4 7,5 (15,0) 100,0 (0,0) th = 0, 3 25,2 (16,9) 99,1 (2,5) th = 0, 2 39,1 (7,7) 137,4 (57,9) th = 0, 1 34,5 (5,2) 308,4 (122,1)

3.8 Conclusion

Dans ce chapitre, nous avons présenté la méthode RARE qui permet de faire de la classifi-cation audio en temps-réel, monophonique et polyphonique. Cette méthode est basée sur un modèle génératif du spectre de puissance normalisé et une estimation de densité par noyau pour calculer la distribution conditionnelle nécessaire à la classification. Les contributions principales de cette méthode sont les suivantes :

1. Les données : L’utilisation du spectre de puissance normalisé à la place des descripteurs audio usuels extraits des signaux audio. Ce spectre de puissance normalisé est particu-lièrement utile dans le cas polyphonique grâce à la propriété d’additivité des sources décorrélées.

2. Modélisation : Une modélisation générative très générale des spectres de puissance normalisés conçue pour le traitement temps-réel, qui utilise notamment la modélisation monophonique pour construire la modélisation polyphonique.

3. Temps-réel : Une réduction de complexité basée sur la classification hiérarchique des modèles de manière à obtenir un compromis précision - temps de calcul particulièrement efficace et pertinent.

Les expériences ont montré l’intérêt de notre méthode comparée aux autres techniques dans le cas de la classification temps-réel. De même la construction de l’ensemble d’apprentissage est très importante pour le temps-réel et influence beaucoup les résultats comparé aux méthodes classiques.

Du fait de l’estimation par noyaux notre méthode possède une flexibilité qu’il convient d’exploiter au mieux pour obtenir de bons résultats. Nous avons déjà considéré trois noyaux différents mais il semble qu’investiguer plus en détails sur le choix du noyau soit une piste intéressante de recherche pour cette méthode.

Henri Poincaré

Chapitre

4

Séparation de sources audio en

temps-réel

Ce chapitre présente la méthode développée dans cette thèse pour la séparation de sources en temps-réel. Un état de l’art des modèles de sources et de mélanges ainsi que des méthodes de séparation est présentée dans les parties 4.1 et 4.2. La méthode développée dans cette thèse, appelée RASE pourReal-time Audio Separation Engine, est présentée en partie 4.3. Cette méthode utilise un modèle génératif ainsi que deux manières d’estimer les sources. La première proposition se place dans le contexte des données manquantes pour estimer les spectres des sources individuelles sachant le spectre observé et la distribution des sources. La seconde proposition est basée sur la déformation optimale de spectres de l’apprentissage. Les expériences numériques sont disponibles en partie 4.4. La partie 4.5 dresse la conclusion de ce chapitre.

4.1 Modèles de sources et de mélanges

4.1.1 Modèles de mélanges

Le mélange de sources sonores peut être modélisé de plusieurs manières. Un façon classique de décrire ce problème est de supposer que l’on dispose de J sources s(t) =s1(t), ..., sJ(t)^>qui se mélangent via M microphones distribués spatialement pour former le signal multi-canal x(t) = (x₁(t), ..., x_M(t)>

). Le modèle de mélange de sources le plus simple est l’additivité dans le domaine temporel, ditmélange instantané.

Définition 18(Mélange instantané). Le mélange instantané de plusieurs sources sonores est défini par :

x(t) = A(t)s(t) + n(t), (4.1)

avec A(t) ∈ R^M×J la matrice de mélange qui contient les pondérations de chaque source et n(t) un bruit additif.

La matrice A(t) est souvent considérée stationnaire, c’est-à-dire A(t) = A. Ce modèle est le plus simple possible, et historiquement fait référence au problème decocktail party (plusieurs per-sonnes discutent et leurs voix sont enregistrées par plusieurs microphones). Dans le cas où J = M, on peut estimer la matrice A avec la méthode ICA (Analyse en Composantes Indépendantes) [59].

Cependant ce modèle ne prend pas en compte d’éventuelles réverbérations ou interactions complexes entre les sources et les microphones. Ces phénomènes physiques peuvent être pris en compte par un modèleconvolutif.

Définition 19(Mélange convolutif). Le mélange de convolution de plusieurs sources sonores est défini par :

x(t) = A(t) ? s(t) + n(t), (4.2)

avec ? l’opérateur de convolution.

Ces phénomènes physiques peuvent être exprimés par un modèle de source xj(t) prenant en compte la réponse impulsionnelle de la salle [95] :

x_j(t) =^X

h_jk(l)s_k(t − l), (4.3)

avec h_jkles réponses impulsionnelles associées à la salle entre la source k et le microphone j.

Plus récemment, les modèles de mélanges considérés utilisent une représentation temps-fréquence (la STFT par exemple), de manière à changer les convolutions en produits :

x(τ, f ) ≈ A(τ, f )s(τ, f ) + n(τ, f ). (4.4) Finalement, la modélisation la plus souvent retenue est une somme non pondérée dans le domaine temps-fréquence d’images spatiales de sources c_j(τ, f ) [30] :

x(τ, f ) =^X

c_j(τ, f ). (4.5)

Les modèles de sources présentés dans la partie suivantes sont basés sur ce dernier modèle (Eq. (4.5)).

Dans le document Modèles génératifs pour la classification et la séparation de sources sonores en temps-réel (Page 85-89)