• Aucun résultat trouvé

Réduction de dimension

Dans le document The DART-Europe E-theses Portal (Page 147-153)

5.2 Evaluation des étapes d’un système basé sur les i-vectors

5.2.3 Réduction de dimension

Un i-vector d’un énoncé de voix est obtenu par extraction, depuis les paramètres GMM adaptés de cet énoncé, d’un facteur de variabilité totale suivant un algorithme EM-ML de Factor Analysis. Etudier l’impact de l’algorithme EM par maximum de vraisemblance dans la qualité du système peut être effectué en extrayant des vecteurs compressés par la plus usuelle des techniques vectorielles de réduction de dimension : l’analyse en composantes principales (PCA)(Jolliffe,2002).

Des PCA sur les supervecteurs sont déjà réalisées par certains organismes comme extracteur de "i-vectors" (au sens élargi de vecteurs de taille réduite d’un énoncé de voix) (Yaman et al.,2011) (Campbell et al.,2012). Pour notre part, nous avons participé à une étude (Larcher et al.,2012b) sur les potentialités de cette méthode. Nous présentons ici la suite de nos investigations, qui s’appuie sur la problématique suivante : sur quelle re-présentation issue du GMM-UBM doit être effectuée la PCA pour la rendre comparable

5.2. Evaluation des étapes d’un système basé sur les i-vectors

avec la Factor Analysis-Total variability ? L’extracteur de i-vectors par PCA

Soit F la dimension de l’espace acoustique et G le nombre de composantes de la mixture de gaussienne de l’UBM. Considérant la collection X = {xt}t des vecteurs acoustiques d’un segment donné, la statistique d’ordre 0 de ce segment est le vecteur de dimensionGdont lagèmecomposante est :

tγg(t) (5.1)

γg(t)est la probabilité d’occupation de la tramextpour lagèmecomposante.

SoitNX la matrice de dimensionFG×FGdes statistiques d’ordre 0 de ce segment : NX est la matrice diagonale par blocs dont les blocs-diagonauxF×Fsont lesngI oùI est la matrice identitéF×F, tel que, pour toutgde[1,G]:

ng =

tγg(t) (5.2)

La valeurngest l’effectif de trames associées probabilistiquement à la gaussienneg.

De même, la statistique centréeSX d’ordre 1 du segment est le vecteur de dimension FGobtenu par concaténation desGvecteursSX,gtels que :

SX,g =

tγg(t) xtµg

(5.3)

µgest la moyenne de l’UBM pour lagèmecomposante gaussienne.

Le supervecteur de ce segment est le vecteursde dimensionFGobtenu par :

SX = NX(s−µ) (5.4)

µest le supervecteur de l’UBM obtenu par concaténation desµg.

Une dimension de réduction p ayant été fixée, le i-vector w de ce segment est le vecteur de dimensionpcalculé à partir du postulat :

s=µ+Tw (5.5)

La matriceT, de dimensionFG×p, est estimée par un algorithme EM-ML pour ré-pondre aux hypothèses de la factor analysis de normalité standard des i-vectors d’ap-prentissage et du résidu. La solution est :

w= I+TtΣ1NXT1

TtΣ1SX (5.6)

oùΣ est la matrice de covariance du monde. La relation entre i-vectorwet super-vecteurss’écrit :

w=I+TtΣ1NXT1

TtΣ1NX(s−µ) (5.7) Considérons maintenant la réduction de dimensionnalité amenée par une PCA ef-fectuée sur les supervecteurs. La matricecov(s)de covariance totale des supervecteurs peut être décomposée en valeurs singulièrescov(s) =PDPtPest la matrice ortho-gonale de vecteurs propres etDla matrice diagonale des valeurs propres. NotonsP[a,b] la matriceFG×pconstituée desaèmeàbèmecolonnes (vecteurs-propres ) deP. La PCA va produire un vecteurwdeIRpvérifiant :

w=Pt[1,r](s−µ) (5.8)

Une méthode de réduction de dimensionnalité commet une erreur ε (dite en PCA

"erreur de reconstruction"). Ici, le modèle PCA peut s’écrires= µ+Tw+εoù :





T=P[1,r]

w= Pt[1,r](s−µ)

ε=P[r+1,p]Pt[r+1,p](s−µ)

(5.9)

La matrice de covariance théorique des vecteurswobtenus est alors : cov(w) =Eh

Pt[1,r](s−µ) (s−µ)tP[1,r]i

=Pt[1,r]cov(s)P[1,r] (5.10) Afin d’assurer le caractère standard des vecteursw, soit pour obtenir des vecteurs de basse dimension dont la moyenne soit nulle et la matrice de covariance égale à l’iden-tité, le procédé le plus simple consiste à effectuer une PCA sur les supervecteurs modi-fiésΣ12 (s−µ)

On a alors :

cov(w) =Σ12cov(s)Σ12 (5.11) qui doit normalement être égale à l’identité. Mais l’expérimentation pratique montre que la covariance des grands jeux de supervecteurs d’apprentissage utilisés pour la production d’i-vectors diffère significativement de celle,Σ, de l’UBM.

Campbell et al. (Campbell et al.,2012) proposent d’effectuer la réduction de dimen-sionnalité par la PCA suivante aux supervecteurs :

Ut[1,r](Σ+Σn)1(s−µ) (5.12)

5.2. Evaluation des étapes d’un système basé sur les i-vectors

U[1,r] est la matrice desrpremiers vecteurs propres de la matrice de covariance Σ(donc le sous-espace de rangr de la projection par PCA) etΣnest une matrice dia-gonale utilisée pour modéliser le bruit. L’équation5.12peut être interprétée comme la projection d’un supervecteur à filtre de Wiener dans un espace de i-vectors.

La PCA à appliquer demande de s’accorder sur le vecteur de haute dimension issu du GMM-UBM adopté comme représentation de la session de voix. Nous nous propo-sons ici de choisir celle sur laquelle est appliquée en réalité la Factor Analysis, rendant comparables les deux techniques d’extraction. Intéressons-nous pour cela au cas "ex-trême" de la PCA sur les supervecteurs, dans lequel la dimension finale p est égale à l’initialeFG. Le modèle devient :



T=Σ12P w=Pt(s−µ) ε=0

(5.13)

A fortiori, le cas -plus qu’extrême !- oùT=I(matrice identitép×p) aboutit à :



 T = I w=s−µ ε=0

(5.14)

ce qui produit, trivialement, un i-vector égal au supervecteur centré.

Reprenons maintenant ce résultat dans le cas de la Factor Analysis. Si la matriceT de variabilité totale est égale à l’identitéI, alors le modèle obtenu s’écrit :



 T=I

w=I+Σ1NX1

Σ1NX (s−µ) = NX(Σ+NX)1(s−µ) ε=Σ(Σ+NX)1(s−µ)

(5.15)

Pour chaque gaussienneg, la coordonnéewg,kde lakèmedimension (k ∈[1,F]) pour la gaussiennegdu vecteurwvaut :

wg,k = ng ng+ Σg

k,k

(s−µ)g,k (5.16)

Σg

k,k est lakèmevaleur diagonale, pour la gaussienneg, de la matrice de cova-rianceΣde l’UBM.

et de même

εg,k =

Σg

k,k

ng+ Σgk,k (s−µ)g,k (5.17)

0.00 0.02 0.04 0.06 0.08 sv

sv sv sv

FA PCA FA PCA

SphN SphN no no

PLDA PLDA PLDA PLDA

2.89 % 3.25 %

5.02 % 5.20 %

FIGURE5.3 –EER moyens suivant la méthode de réduction de dimension (FA-total var ou PCA) avec ou sans normalisation.

Dans le cas trivial où T = I, la valeur dewn’est donc pas égale à celle du super-vecteur centré, mais au supersuper-vecteur adapté par une procédure qui s’apparente à la technique MAP de maximum à posteriori. Les supervecteurs, donc les moyennes par gaussienne, sont translatés pour les rapprocher de l’UBM suivant une intensité inver-sement proportionnelle à la quantité d’information disponible. Mais, contrairement à la technique MAP usuelle, le facteur de pertinence (relevant factorτ) n’est pas constant entre les gaussiennes, mais égal à la variance par dimension. Nous remarquons l’analo-gie, ou la correspondance, entredispersion par dimensionetquantité d’informations conte-nues dans cette dimension.

Les i-vectors obtenus par la Factor analysis-total variability sont donc des réductions de dimension effectuées sur des supervecteurs préalablement adaptés par la formule précédente et non sur les supervecteurs d’origine. Pour comparer les performances d’une PCA à celles de la FA-Total Var, nous effectuerons donc la PCA sur ces super-vecteurs adaptés. Le vecteurwobtenu vérifiera :

w= P[1,r]bs (5.18)

Pest la matrice de vecteurs propres obtenue par décomposition en valeurs sin-gulières de la matrice de covariance des supervecteurs adaptésbs, définis par :

b

s= NX(Σ+NX)1(s−µ) (5.19)

Résultats

Le graphique5.3 et la table5.2 indiquent les résultats obtenus sur le protocole ex-périmental. Pour en clarifier le dépouillement, tous les systèmes comparés utilisent le

5.2. Evaluation des étapes d’un système basé sur les i-vectors

EER (%) 2008 2010

repr reduc dim norm scoring det 7 det 6 det 5 Ext moy

1 sv PCA non PLDA 3.18 6.63 5.80 5.20

2 sv FA non PLDA 3.18 6.41 5.48 5.02

3 sv PCA SphN PLDA 2.05 5.21 2.48 3.25

4 sv FA SphN PLDA 1.59 4.80 2.27 2.89

TABLE5.2 –Performances, en terme d’EER, successivement à différentes techniques de réduction de dimension.

type de normalisation et le modèle le plus performant (SphN et PLDA). Les extractions de "i-vectors" par PCA et FA-total variability, avec ou sans normalisation, sont testées.

La Factor Analysis-total variability est la méthode la plus performante. Elle procure un gain relatif d’EER de 11% (2.89% vs 3.25% pour la PCA). Mais cet écart est très réduit en comparaison de celui obtenu par la normalisation (les EER progressent en moyenne d’une valeur relative de 40%). Deux points principaux ressortent de ces expériences :

– La FA-total-var est une méthode de décomposition en facteurs probabiliste. Basée sur une fonction objective de vraisemblance qu’elle cherche à maximiser, elle tente ainsi de prendre en compte les contraintes de modélisation gaussienne nécessaires à la PLDA et que la PCA ignore. L’expérience précédente montre qu’elle prépare mieux les données que la PCA à la suite du traitement, mais l’apport de cette démarche probabiliste s’avère réduit, en terme de performance, s’il est comparé à celui induit par les fonctions de normalisation. Ces techniques participent donc principalement à modéliser les données suivant des contraintes gaussiennes.

– Nous avons appliqué la PCA à des supervecteurs adaptés de telle sorte que la concordance entre les deux approches soit la plus grande possible et donc leur comparaison. Les systèmes de certains laboratoires utilisent une PCA et non une FA-total-var sur leurs versions adaptées des supervecteurs (Campbell et al.,2012) pour produire des i-vectors, jugeant le raffinement probabiliste de cette dernière négligeable en terme de performance et la voie d’investigation de méthodes dé-terministes plus porteuse.

– l’extraction des i-vectors s’apparente moins à une décomposition en facteurs qu’à une réduction de dimensionnalité suivant la variabilité totale ou, plus briève-ment, à une compressiondes représentations en haute dimension concaténant les informations locales du GMM-UBM.

Les vecteurs de moyenne adaptés de l’UBM peuvent donc être compressés pour pro-duire des composantes principales de l’énoncé vocal. Par résumé des comportements corrélés de ces vecteurs suivant la variabilité totale, donc des composantes gaussiennes du GMM, se dégage un espace réduit dont les dimensions contiennent des informa-tions acoustiques de haut niveau du signal de voix. Le i-vector est une représentation compacte de l’énoncé de voix complet (et non d’un ou plusieurs de ces facteurs dans un sous-espace de typeeigenvoicesou eigenchannels comme en JFA), obtenue par une simple réduction de dimensionnalité (compression suivant la variabilité totale).

Le caractère indépendant des variables unidimensionnelles de cet espace permet le traitement pour scoring, mais à la condition que les vecteurs soient d’abord condition-nées par une opération de normalisation. Celle-ci, tout en accentuant cette indépen-dance, blanchit les données dont la magnitude a été affectée non-linéairement par la variabilité intrinsèque au locuteur.

Dans le document The DART-Europe E-theses Portal (Page 147-153)