Discrimination parole/musique

Partie II Contribution expérimentale

C.3 GP a posteriori

7.4 Discrimination parole/musique

Dans un premier test nous traitions 9 fichiers qui contiennent de la voix chantée, 17 fichiers de musique instrumentale, 30 segments de musique rock/jazz et 30 séquences de parole du corpus OGI (15 en anglais et 15 en allemand). Le résultat d’utilisation du système de base avec cet ensemble est la formation de deux groupes bien définis de vecteurs, affiché dans la figure 7.2(a). Ces groupes sont facilement détectés par n’importe quel algorithme de regroupement. Pour cet exemple nous avons utilisé la méthode d’association agglomérative dont le critère d’arrêt est le nombre de clusters à identifier, égal à deux dans ce cas. L’un des groupes est composé de vecteurs qui représentent des séquences de musique et de voix chantée tandis que l’autre rassemble les vecteurs correspondants aux séquences de parole.

Il n’est pas surprenant que la voix chantée soit assimilée à la musique plutôt que à la parole, cette association a été déjà observée par d’autres systèmes de discrimination parole/musique [Lac07]. Néanmoins, à l’intérieur du cluster de la musique on peut observer des sous-ensembles correspondants à la voix chantée, à la musique instrumentale et au rock/jazz, selon la figure7.2(b).

7.5 Identification de langues

L’identification de langues est une tâche très difficile à accomplir en utilisant seulement la modélisation de l’espace acoustique. Normalement on le fait avec des systèmes phonotactiques et prosodiques, mais nous appliquons la méthode décrite pour observer leurs résultats. Néanmoins, nous changeons la paramétrisation cepstrale standard. On utilise désormais un dé- tecteur de parole pour éliminer les silences dans les séquences. Ensuite les dérivées des vecteurs cepstraux sont arrangées de la manière connue comme « shifted delta cepstra (SDC) » [TC02] avec la configuration 7-1-3-3.

7.6. Regroupement des locuteurs

(a) (b)

FIG. 7.2 – Discrimination parole - musique. (a) Deux groupes sont identifiés automatiquement

lors de l’application du système proposé. (b) À l’intérieur du cluster de la musique, des sous- ensembles sont établis, mais ils sont difficiles à identifier par des méthodes automatiques (on les présente ici avec les étiquettes manuelles).

Le premier test montre 60 fichiers du corpus OGI (20 séquences en Anglais, 20 en Italien et 20 en Mandarin, figure 7.3(a)), le deuxième affiche 40 séquences (20 en Hindi et 20 en Portugais, figure7.3(b)). Dans les deux exemples nous observons un certain regroupement par langue. Il est intéressant car nous pouvons mettre en relation, par exemple, les caractéristiques acoustiques et phonotactiques des séquences et leur position dans les groupes, et étudier les représentants qui se trouvent prés du centroïde de chaque classe pour déterminer certaines caractéristiques distinctives des langues.

Une autre possibilité du traitement serait d’appliquer des méthodes à noyau et de regroupement automatique sur ces projections. Nous le faisons dans le prochain exemple d’utilisation de l’algorithme proposé, celui du regroupement des locuteurs.

7.6 Regroupement des locuteurs

Dans cette section nous traitons une collection de séquences de parole avec comme objectif le regroupement en locuteur. La base de données de test est composée de 150 fichiers audio (25 séquences de 6 locuteurs différents, 3 hommes et 3 femmes) tirés du corpus ANITA.

En plus du système de base (dénommé « Système KL »), deux variantes ont été étudiées. La première (Système KL-CV, détaillé en la section7.6.2) utilise la procédure d’étiquetage SCV développée dans le chapitre antérieur pour séparer les unités consonantiques des unités voca- liques et effectuer une modélisation différenciée de l’espace acoustique. La deuxième variante

(a) (b)

FIG. 7.3 – Identification des langues. (a) Séquences en Anglais, Italien et Mandarin. (b) Hindi

et Portugais.

(Système SV, détaillé en la section7.6.3) fait appel à la définition et à l’adaptation d’une modèle GMM universel ainsi que à l’analyse en composantes principales (PCA) traditionnelle dès lors qu’un GMM est assimilé à un supervecteur.

Le regroupement spectral est utilisé pour mettre en évidence le nombre de clusters dans le nouvel espace, là où les séquences ont été projetées. Nous cherchons une différence importante entre les valeurs propres de la matrice du regroupement spectral, « l’eigengap », car l’identification de cette caractéristique donne le nombre de groupes présents dans l’ensemble des données. Nous utilisons aussi les méthodes à noyau pour définir une étape de classification supervisée multiclasse dans chaque système présenté.

7.6.1 Système KL

7.6.1.1 Description

Comme dit précédemment, ce premier système résulte de la paramétrisation d’une séquence de parole par un GMM et du fait qu’un GMM est avant tout une loi de probabilité qui modélise une distribution de paramètres acoustiques. La distance entre modèles est calculée approxi- mativement par la divergence symétrique de Kullback-Leiber et représentée dans un espace euclidien au moyen de l’algorithme MDS. Le résultat de MDS est un ensemble Y de vecteurs tri-dimensionnels, et chaque vecteur yn représente une séquence audio de la base de données

7.6. Regroupement des locuteurs 7.6.1.2 Analyse non supervisée

La représentation Y ∈ R3 _{des séquences est montrée dans la figure} _7.4_{. Les meilleurs}

résultats sont obtenus avec 32 composantes par GMM. L’échantillonnage de Monte-Carlo pour estimer la divergence KL est fixé à 5000 vecteurs par modèle. Pour connaître le regroupement des 6 locuteurs de test dans l’espace, la matrice du regroupement spectral est obtenue à l’aide de la fonction RBF (σ = 100) et diagonalisée pour observer ses valeurs propres. L’eigengap signale 6 groupes dans l’ensemble, mais leur identification visuelle dans l’espace Y ne correspond pas exactement aux groupes de locuteurs du corpus. La configuration des paramètres est tolérante aux variations du nombre de composantes des GMM et à la taille de la fenêtre d’analyse MFCC.

FIG. 7.4 – Représentation en faible dimension de la divergence de Kullback-Leiber entre GMM.

En haut, chaque point représente une séquence de parole et chaque symbole signale un locuteur. En bas, les principales valeurs propres du regroupement spectral montrent la présence de 6 clusters dans l’ensemble.

7.6.1.3 Analyse supervisée

Nous utilisons un classifieur SVM Multiclasse en configuration « one vs all » pour effectuer une analyse supervisée des représentations obtenues par le système KL. Dans l’étape d’apprentissage, 6 classifieurs (utilisant un noyau polynomial avec σ = 140) sont entraînés, avec 15 fichiers par locuteur (90 en total). Lors de l’apprentissage, la plupart des vecteurs de chaque classe sont considérés comme des vecteurs de support (points encerclés dans la figure7.5(a)), ce qui indique que les frontières entre les classes sont extrêmement complexes. La liste du nombre de vecteurs de support par classe est affiché dans le tableau7.1.

(a) (b)

FIG. 7.5 – Système SVM Multiclasse. (a) Entraînement. Chaque symbole représente une classe,

les vecteurs de support sont encerclés. (b) Test. Les vecteurs de test sont présentés en noir et les vecteurs d’entraînement en couleur claire.

Pour l’étape de test nous utilisons 10 fichiers par locuteur (60 au total). Le système ne commet aucune erreur de classification. Dans la figure 7.5(b), nous présentons les vecteurs de test en couleur foncée tandis que les vecteurs qui ont servi à l’apprentissage sont montrés en couleur claire. Chaque symbole représente un locuteur différent.

7.6.2 Système KL-CV : Modélisation différenciée consonnes-voyelles de

séquences audio par GMM et MDS

7.6.2.1 Description

Dans cette approche nous ajoutons une étape de pré-traitement au système de base pour extraire des unités élémentaires différenciées et les caractériser par autant de GMM que de

Dans le document Méthodes spectrales pour le traitement automatique de documents audio (Page 196-200)