• Aucun résultat trouvé

Cette annexe a pour but de préciser les techniques employées par les systèmes dits de référence dans les expériences et de préciser leur évolution.

Système Paramétrisation DAV Compensation canal

Normalisation des scores

LIA06-tnorm SPRO LIA CMVN+ Feature

Mapping

T-NORM

LIA-THL06-tnorm

Aurora LIA CMVN T-NORM

LIA-THL07-tnorm

Aurora Aurora CMVN T-NORM

LIA08-ztnorm SPRO LIA CMVN +

symme-trical LFA

ZT-NORM

LIA-THL08-ztnorm

Aurora Aurora CMVN + feature

LFA

ZT-NORM

TAB.A.1 – Description des systèmes utilisés.

Le tableau A.1présente une synthèse des éléments clés constituant chacun de ces systèmes. Une présentation plus détaillée de chacun des systèmes est proposée dans les sections suivantes.

Nous présentons dans le tableauA.2les résultats des différents systèmes chronolo-giquement. Les taux d’erreurs de ces systèmes sont listés pour le protocole NIST SRE 2005. Tous les systèmes utilisent les mêmes bases de données pour la création du mo-dèle du monde (Fischer1) et des modèles imposteurs (NIST SRE 2004).

1Fisher English Training Speech Part 1, LDC n° :LDC2004S13

Système Date DCF EER Système LIA06-tnorm 2006 3.05 7.80 Système LIA-THL06-tnorm 2006 3.63 9.78 Système LIA-THL07-tnorm 2007 3.37 8.93 Système LIA08-ztnorm 2008 1.64 4.21 Système LIA-THL08-ztnorm 2008 1.4 3.5

TAB.A.2 – Taux d’erreurs des systèmes de référence évalués sur la base NIST SRE 2005.

A.3.1 Le système GMM-UBM commun

Les modèles du monde dépendant du genre ont été appris avec environ 800 locu-teurs provenant de la base Fischer, totalisant environ 10 heures d’enregistrement. 512 composantes Gaussiennes ont été utilisées pour les modèles.

Les modèles client sont dérivés par adaptation MAP du modèle du monde, avec un relevance factorde 14.

Les modèles de la cohorte d’imposteur utilisée pour les normalisations Z et T-norm ont été créés à partir de données de la base Fischer d’une durée de 2 minutes 30 secondes.

La sélection des 10 meilleures Gaussiennes est utilisée pour la phase de test.

A.3.2 Système LIA06

Le calcul des paramètres cepstraux est réalisé avec SPRO.

Une fenêtre de Hamming de 20 ms avec un décallage de 10 ms est utilisée.

50 coefficients sont utilisés :

C1....C19,∆C1, ...,∆C19,∆log(E),∆∆C1, ...,∆∆C11.

La DAV est basée sur une classification des trames par leur énergie (Détecteur à 3 Gaus-siennes, l’horizon d’estimation est ici de la durée du fichier d’enregistrement).

La technique du Feature Mapping est ensuite appliquée aux vecteurs de paramètres avant une normalisation moyenne variance (l’horizon d’estimation est ici de la durée du fichier d’enregistrement).

T-norm est utilisée. La cohorte est composée de 160 locuteurs, divisée en parts égales entre des enregistrements du RTC, GSM et DECT provenant de la base Fischer.

A.3.3 Système LIA-THL06

Le calcul des paramètres cepstraux est réalisé avec Aurora.

62 coefficients sont utilisés :

C1....C20,∆C1, ...,∆C20,∆log(E),∆∆C1, ...,∆∆C20,∆∆log(E)

Une fenêtre de Hamming de 25 ms avec un décalage de 10 ms est utilisée.

La DAV est basée sur une classification des trames par leur énergie (Détecteur à 3 Gaus-siennes, l’horizon d’estimation est ici de la durée du fichier d’enregistrement).

La technique du Feature Mapping est ensuite appliquée aux vecteurs de paramètres

avant une normalisation moyenne variance (l’horizon d’estimation est ici de la durée du fichier d’enregistrement).

T-norm est utilisée : la cohorte est composée de 160 locuteurs, divisée en parts égales entre des enregistrements du RTC, GSM et DECT provenant de a base NIST SRE 2004.

A.3.4 Système LIA-THL07

Le calcul des paramètres cepstraux est réalisé avec Aurora.

50 coefficients sont utilisés :

C1....C19,∆C1, ...,∆C19,∆log(E),∆∆C1, ...,∆∆C11.

Une fenêtre de Hamming de 25 ms avec un décalage de 10 ms est utilisée.

La DAV est basée sur la combinaison de la DAV Aurora et de l’information de voise-ment Aurora.

La technique duFeature Mappingn’est pas appliquée.

Une normalisation moyenne variance est utilisée (l’horizon d’estimation est ici de la durée du fichier d’enregistrement).

T-norm est utilisée : la cohorte est composée de 160 locuteurs, divisée en parts égales entre des enregistrements du RTC, GSM et DECT provenant de la base Fischer.

A.3.5 Système LIA08

Le calcul des paramètres cepstraux est réalisé avec SPRO.

50 coefficients sont utilisés :

C1....C19,∆C1, ...,∆C19,∆log(E),∆∆C1, ...,∆∆C11.

Une fenêtre de Hamming de 20 ms avec un décalage de 10 ms est utilisée.

La DAV est basée sur une classification des trames par leur énergie (Détecteur à 3 Gaus-siennes, l’horizon d’estimation est ici de la durée du fichier d’enregistrement).

La technique dusymmetrical Latent Factor analysisest utilisée. La matrice de covariance est générée à partir de 124 locuteurs masculins de la base NIST SRE 2004 totalisant 2938 sessions d’enregistrements (rang de la matrice : 40). TZ-norm est utilisée : la cohorte est composée de 160 locuteurs, divisée en parts égales entre des enregistrements du RTC, GSM et DECT provenant de la base NIST SRE 2004.

A.3.6 Système LIA-THL08

Le calcul des paramètres cepstraux est réalisé avec Aurora.

50 coefficients sont utilisés :

C1....C19,∆C1, ...,∆C19,∆log(E),∆∆C1, ...,∆∆C11.

Une fenêtre de Hamming de 25 ms avec un décalage de 10 ms est utilisée.

L’échelle de MEL n’est pas appliquée sur les signaux féminins (LFCC). La DAV est ba-sée sur la combinaison de la DAV Aurora et de l’information de voisement Aurora.

Une normalisation moyenne variance est utilisée (l’horizon d’estimation est ici de la durée du fichier d’enregistrement).

Le LFA est appliqué dans l’espace des paramètres. Deux matrices de covariance, dépen-dantes du genre, sont générées. La matrice de covariance femmes est estimée à partir de 133 locutrices des bases NIST SRE 2004 et 2006, totalisant 3856 sessions d’enregistre-ments (rang de la matrice : 40).

La matrice de covariance hommes est estimée à partir de 136 locuteurs des bases NIST SRE 2004 et 2006, totalisant 3080 sessions d’enregistrements (rang de la matrice : 40).

TZ-norm est utilisée : La cohorte est composée de 160 locuteurs, divisée en parts égales entre des enregistrements du RTC, GSM et DECT provenant de la base NIST SRE 2004.

Apprentissage discriminant des modèles de locuteur

Cette annexe présente les expériences menées sur l’introduction d’un critère dis-criminant dans la modélisation générative des locuteurs. Le critère de discrimination choisi est leMaximum Mutual Information(MMI). Ce critère a démontré de bonnes per-formances en reconnaissance de la parole et de la langue. Nous proposons dans ce tra-vail deux méthodes d’adaptation des poids du GMM applicables à la RAL. Ce tratra-vail a été publié dans [Preti et al.,2006].

B.1 Introduction

L’idée d’intégrer un critère discriminant dans les méthodes génératives a été appli-quée avec succès en reconnaissance de la parole. Les classifieurs discriminants, tels les SVM, sont désormais très utilisés en RAL. La combinaison d’un critère discriminant et d’une approche générative prend alors tout son sens. Dans le système GMM-UBM, une part importante de la modélisation est acquise grâce au modèle de non locuteur ou modèle du monde. On peut alors le considérer comme un imposteur, et présenter le système GMM-UBM comme un système discriminant, qui s’appuie sur la divergence entre les paramètres d’un locuteur et du modèle du monde. La tentative d’intégrer le critère MMI au sein du GMM se base majoritairement sur ce constat. Nous proposons d’estimer le poids des Gaussiennes du GMM par l’approche MMIE (MMI Estimation).

L’idée sousjacente est de diminuer l’influence des Gaussiennes dans le modèle GMM qui porte une forte information commune avec une cohorte de modèles imposteurs. On peut ainsi espérer valoriser l’information spécifique d’un locuteur.