Performance de la PLDA après normalisation SphN

hommes

normalisation scoring EER DCF

non G-PLDA 2.64[2.62 ;2.65] 0.41[0.40 ;0.42] EFR (1 itér.) G-PLDA 1.34[1.29 ;1.38] 0.34[0.34 ;0.34] EFR (2 itér.) G-PLDA 1.29[1.24 ;1.35] 0.34[0.34 ;0.35] SphN G-PLDA 1.08[1.04 ;1.13] 0.31[0.29 ;0.32]

SphN G-PLDA initialisée 1.04 0.29

TABLE4.24 –Performances de différents systèmes basés sur la PLDA gaussienne (évaluation det 5 extended 2010 hommes).

femmes

normalisation scoring EER DCF

non G-PLDA 3.23[3.18 ;3.26] 0.38[0.38 ;0.38] EFR (1 itér.) G-PLDA 1.92[1.91 ;1.94] 0.35[0.34 ;0.35] EFR (2 itér.) G-PLDA 1.94[1.94 ;1.94] 0.35[0.35 ;0.35] SphN G-PLDA 1.77[1.73 ;1.84] 0.34[0.33 ;0.34]

SphN G-PLDA initialisée 1.73 0.33

TABLE4.25 –Performances de différents systèmes basés sur la PLDA gaussienne (évaluation det 5 extended 2010 femmes)

où les scalaires φ_i représentent les écart-types par dimension du sous-espace des eigenvoices, les facteursyi,z,εsuivent une loi normale standard et où la matriceΓest de plein rang et orthogonale.

4.8 Performance de la PLDA après normalisation SphN

Les tables4.24et4.25présentent les résultats de cinq systèmes basés sur la PLDA Gaussienne. Le protocole expérimental est le même qu’au paragraphe4.5précédent.

Les cinq systèmes comparés sont les suivants :

– G-PLDA: exécution sur les i-vectors non normalisés (hormis un centrage) d’une PLDA Gaussienne avec initialisation aléatoire des paramètresΦetΓ,

– EFR (1 itération) + G-PLDA: 1 itération de l’algorithme EFR suivie d’une PLDA Gaussienne initialisée aléatoirement,

– EFR (2 itérations) + G-PLDA : 2 itérations de l’algorithme EFR suivies d’une PLDA Gaussienne initialisée aléatoirement,

– SphN + G-PLDA: 3 itérations de l’algorithme SphN suivies d’une PLDA Gaus-sienne initialisée aléatoirement,

– SphN + G-PLDA: 3 itérations de l’algorithme SphN suivies d’une PLDA Gaus-sienne initialisée suivant la méthode proposée en4.6.7.

Chaque fois, le rang optimal de la matrice locuteurΦestr =80, celui de la matrice sessionΓde 600 (pleine dimension). Dans tous les systèmes, hormis le dernier,

l’éva-LDA-WCCN- PLDA Gaussienne SPhN +

-cosine scoring PLDA gaussienne

normalisation (1) - - W-norm

+ unitarisation

Détermination sous-espace LDA PLDAΦ,Γ PLDAΦ,Γ

de discrimination du locuteur

normalisation (2) WCCN-norm -

-+ unitarisation

scoring produit scalaire log-ratio hypo. log-ratio hypo.

complémentaires complémentaires T^ABLE4.26 –Détails de trois méthodologies en reconnaissance du locuteur basée sur les i-vectors.

luation hommes a nécessité 100 itérations pour atteindre la meilleure performance, celle des femmes en a nécessité 300. De plus, les initialisations étant aléatoires, les résultats sont sujets à variabilité, en terme d’EER comme de DCF min. Les valeurs affichées sont des performances moyennes obtenues sur un ensemble de 10 répétitions de la même expérimentation. Les valeurs entre crochets indiquent les minima et maxima obtenus lors des répétitions de l’expérience.

L’application de l’algorithme de normalisation EFR 1 itération améliore nettement les performances d’un système basée sur la PLDA Gaussienne. Il est à noter, comme cela l’a été dans (Garcia-Romero and Espy-Wilson,2011), que ces performances rejoignent alors celles d’une heavy-tailed PLDA. Une expérience comparant ces systèmes sur une configuration i-vectors très proche de celle que nous avons utilisée et par une méthode avoisinante (whitening, puis une standardisation et normalisation de longueur) a permis de pleinement le constater.

Mais un nombre d’itérations supérieur à 1 n’apporte pas forcément la stabilisation des performances à leur optimum, tel qu’observé pour le système LDA-two–covariance.

Les 4^ème et 5^ème systèmes sont basés sur la normalisation Spherical-Nuisance prélimi-naire à la PLDA Gaussienne. Les performances pour les deux genres marquent une amélioration, significative étant données les grandes quantités de tests effectués dans ces évaluations. Le dernier système est basé sur l’initialisation des matrices décrite pré-cédemment. En l’absence d’aléa initial, les résultats ne sont donc plus soumis à variabi-lité. Seulement 10 itérations ont été nécessaires pour atteindre la performance optimale sur l’évaluation hommes, pour 2 itérations sur l’évaluation femmes.

La normalisation Spherical-Nuisance s’avère donc plus efficace et robuste qu’EFR dans le cadre de la PLDA gaussienne. La comparaison des tables 4.13, 4.24 et 4.25 montre que la méthode enchaînant la normalisation Spherical-Nuisance et un modèle de PLDA gaussienne procure les meilleures performances, en terme d’EER comme de DCFmin, quel que soit le genre. Nous reviendrons en détail dans le chapitre suivant sur la comparaison des différentes méthodes dans les système basés sur les i-vectors.

La normalisation Spherical-Nuisance inclut une "W-normalisation", c’est à dire une normalisation suivant la matrice de covariance intra-classes, qui s’apparente à la

pro-4.8. Performance de la PLDA après normalisation SphN

cédure WCCN de (Dehak et al.,2011). La table4.26permet d’apprécier les différentes stratégies mises en oeuvre lors des trois approches suivantes :

– LDA-WCCN-cosine scoring tel qu’initialement proposée par (Dehak et al.,2011) dans le champ des i-vectors,

– PLDA gaussienne telle que proposée initialement par (Prince and Elder,2007), – PLDA gaussienne avec normalisation Spherical-nuisance telle que nous l’avons

élaborée. La démarche de (Dehak et al.,2011) s’est avérée pertinente par la nor-malisation (2) des données suivant la variabilité intra-locuteur suivie d’une uni-tarisation, mais pêche par un scoring insuffisant (simple produit scalaire) et par une LDA non-probabiliste et pratiquée avant normalisation. La PLDA gaussienne probabilise les étapes de détermination du sous-espace principal de discrimina-tion et de scoring, mais ignore une phase essentielle : la normalisadiscrimina-tion des don-nées. Parmi les techniques de normalisation par sphérisation des données, celle basée surW(Spherical-nuisance) limite l’imprécision d’un paramètre linéaire glo-bal de variabilité intra-locuteur en privilégiant l’isotropie.

Un dernier point reste à signaler pour conclure cette étude : les résultats précédents peuvent interroger sur l’algorithme EM de la PLDA appliqué sur les i-vectors. La faible dimensionnalité de la représentation par i-vectors autorise, ce qui n’était pas le cas jus-qu’alors dans le domaine, d’itérer l’algorithme EM-ML un nombre considérable de fois.

D’une part, la convergence vers un point optimal pour le jeu de données jeu BUT-femmes semblait acquise après 100 itérations. Poussant à 300 itérations, un nouveau maximum de performance a été atteint. Mais d’autre part, et c’est le fait qui mérite pour nous le plus d’attention, après l’initialisation proposée des matricesΦet Γla conver-gence vers un maximum de performance s’effectue en 10 (resp. 2) itérations pour les jeux hommes (resp. femmes), contre 100 et 300. La performance atteinte est significa-tivement meilleure dans ce cas. Remarquons que la divergence en nombre d’itérations suivant le genre reste à expliquer.

Dans le domaine de la reconnaissance du locuteur, il est souvent admis, à juste titre, que les quantités considérables de données d’apprentissage dont on dispose autorisent à produire, par des algorithmes de type EM avec initialisation aléatoire des métapara-mètres, des solutions localement maximales satisfaisantes, ce à condition d’itérer un nombre suffisant de fois. Les initialisations de métaparamètres ne sont considérées utiles qu’à accélérer la convergence vers ces maxima dans le champ d’optimisation. Cer-taines techniques de bruitage permettent à l’algorithme de sortir de l’attracteur en cours pour éventuellement poursuivre vers un nouveau point de meilleure maximisation ou de travailler sur une distribution de paramètres obtenus sur échantillons aléatoires (par exempleStochastic Expectation Algorithm SEM(Celeux and Diebolt,1985) (Celeux and Diebolt,1986)). Elles sont a priori inutiles dans notre domaine, étant données les tailles d’échantillons d’apprentissage. Le fait qu’une initialisation n’accélère pas seulement la convergence, mais améliore la qualité du maximum obtenu, soulève certaines interro-gations. Elle signifie qu’une part non négligeable des informations n’est pas capturée correctement par le modèle (ici par le cadre gaussien).

Dans le document The DART-Europe E-theses Portal (Page 136-139)