• Aucun résultat trouvé

Décomposition en facteurs et réduction de dimensionnalité

Dans le document The DART-Europe E-theses Portal (Page 51-55)

Une fois obtenue la représentation en statistiques d’ordre 0 et 1 issues du GMM-UBM, plusieurs techniques ont été mises en oeuvre pour exploiter ce vecteur dans l’ob-jectif de discrimination des locuteurs.

2.4.1 Les diverses décompositions

La représentation des segments de voix par supervecteur issu de l’adaptation MAP peut s’écrire vectoriellement :

s=m+Dz (2.23)

où le supervecteurs est l’adaptation du supervecteur des moyennes du monde m par addition d’un terme vectorielDzet dans lequel la matrice diagonale(FG×FG)D vérifie (Matrouf et al.,2007) :

I = τDtΣ1D (2.24)

Iétant la matrice-identité etΣla matrice de covariance dont les blocs diagonaux sont les matrices de covariance diagonales par gaussienneΣg. Le vecteurzdeRFGconstitue le facteur de l’adaptation.

Plus généralement, une représentation vectorielle peut faire l’objet d’une décompo-sition additive enfacteurs. Ceux-ci sont des vecteurs censés représenter une partie pré-cise de la variabilité générale. Dans le cas de l’adaptation MAP, il s’agit d’une simple addition à un terme universel, le supervecteur du monde, d’un facteurDz propre au locuteur (ou au moins à son segment de voix considéré).

Cette notion de décomposition vectorielle additive en facteurs a fait l’objet de nom-breuses études, destinées à améliorer la qualité des systèmes s’appuyant sur la repré-sentation en supervecteurs issue du GMM-UBM. La principale avancée a consisté à émettre des hypothèses contraignant la liberté des facteurs, supposés propres à certains

2.4. Décomposition en facteurs et réduction de dimensionnalité

types de variabilité. Ainsi, il a été proposé (Kuhn et al.,1998) de décomposer le super-vecteur moyen d’un locuteur, c’est à dire l’espérance de l’ensemble des supersuper-vecteurs des segments de ce locuteur qu’on noteraE[s], de la manière suivante :

E[s] =m+Vy (2.25)

où la matriceVestFG×r, son rangrétant largement inférieur àFGet le facteury propre au locuteur se restreignant à un vecteur de dimensionrréduite.

Cette approche, inspirée par les notions d’eigenfacesen reconnaissance faciale (Turk and Pentland,1991a) (Turk and Pentland, 1991b), conduit la reconnaissance du locu-teur vers les techniques de réduction de dimensionnalité (Dimensionality Reduction Tech-niques, DRT). Les colonnes deVsont les vecteurs propres de la voix (leseigenvoices)et le vecteuryle facteur locuteur (speaker factor).

L’estimation du supervecteur locuteur moyenE[s]ne pouvant s’appuyer, dans beau-coup de protocoles, que sur un nombre limité d’occurrences de voix (voire une seule), il a paru naturel de proposer une décomposition en facteurs d’une occurrence unique, c’est à dire d’un supervecteursunique "modèle" de représentation du locuteur. Pour tenir compte de cette variabilité, la décomposition s’écrit :

s=m+Ux+Dz (2.26)

où apparaît le terme m+Dz, modélisant cette fois la part propre au locuteur et un facteurUx prenant en compte la variabilité de ce locuteur sur la session de voix représentée. Notons que le termem+Dzs’étend sans contrainte dans l’espace vectoriel de représentation.

Le facteurUxa été considéré (Teunen et al.,2000) comme attribuable au canal spé-cifique à l’enregistrement. D’où le nom de canaux propres (eigenchannels) pour la dé-composition du type précédent (Kenny et al.,2003) (Burget et al.,2007), dans laquelle la matriceUest rectangulaire de rang faible et le facteurx(channel factor) un vecteur de faible dimension.

Les approches précédentes supposent les variabilités locuteur et canal linéairement contraignables. Combinant ces approches, la décomposition additive en facteur de-vient :

s=m+Vy+Ux (2.27)

oùy(resp.x) est le facteur locuteur (resp. canal) du segment de voix représenté, de dimension réduite.

Enfin, l’expérimentation a montré que cette décomposition idéale pouvait être rela-tivisée en :

(monde)m VyA

UxA1

DzA1

locuteur

canal DzB1 UxB1 VyB

UxA2 DzA2

FIGURE2.4 –Les hypothèses de la décomposition Joint Factor Analysis en 3D.

s=m+Vy+Ux+Dz (2.28)

dans laquelle le supervecteur d’un segment d’un locuteur est considéré comme dé-composable en un décalage par rapport au supervecteur du monde, formé d’une com-posante spécifique au locuteurVz, d’une composante spécifique au canalUx et enfin d’un résiduDz, ces deux derniers formant la variabilité ditesession. Le termeDz res-pecte deux conditions d’un bruit aléatoire : indépendance entre les dimensions et non compressibilité (Ddiagonale et de plein rang).

La figure2.4illustre les hypothèses de cette décomposition. Trois supervecteurssA1, sA2,sB1 de deux locuteurs distinct Aet B sont représentés en dimension 3. Le facteur locuteur s’étend sur une droite vectorielle. Le facteur canal s’étend sur une seconde droite. Avec les résidus (DzA1,DzA2,DzB1), il différencie les segments de voix de ces locuteurs.

Cette formule de décomposition fait clairement apparaître les défis statistiques de la reconnaissance du locuteur : l’objet "signal de voix" contient tout autant des variabili-tés propres aux caractéristiques physiologiques et psychologiques des locuteurs qu’au contenu phonétique et linguistique de la parole, à la nature du support audiophonique et aux conditions environnementales. Nous verrons dans la section sur les modèles et scorings des i-vectors qu’une telle décomposition réapparaît naturellement dans l’es-pace de ces nouvelles représentations.

2.4.2 Réduction de dimensionnalité

Les décompositions présentées ci-dessus constituent des réductions de dimension de tout ou partie des variabilités en présence (locuteur, canal). Il faut donc faire ap-pel aux techniques de réduction de dimension pour calculer leurs facteurs. La plus

2.4. Décomposition en facteurs et réduction de dimensionnalité

commune d’entre elles dans le champ des variables numériques est l’analyse en com-posantes principales (Principal Component Analysis PCA), initiée par Pearson et forma-lisée par Hotelling dans le cadre de l’analyse canonique. La PCA réduit un vecteur par projection orthogonale sur le sous-espace, de dimension fixée a priori, qui maxi-mise la variance des projetés. Dans le cas où la variabilité traitée est la variabilité totale, sa solution exacte est le sous-espace engendré par les premiers vecteurs propres de la matrice de covariance, dans l’ordre décroissant des valeurs propres. Cette méthode ga-rantit une erreur minimale (reconstruction error) entre vecteurs initiaux et projetés au sens euclidien du terme (principe de "moindre inertie"). Il s’agit donc d’une méthode géométrique. La PCA peut s’écrire :

s =Px+ε (2.29)

où un vecteur s est réduit à un vecteur x de rangr avec une erreurε. La matrice rectangulairePest orthogonale, contenant lesrpremiers vecteurs propres de la matrice de covariance.

Le caractère de la représentation par GMM a conduit naturellement à employer des méthodes de réduction probabilistes. LaFactor Analysis(Bartholomew,1987) (Tipping and Bishop, 1999a) est une forme d’analyse en composantes principales probabiliste (Probabilistic Principal Component Analysis PPCA). Elle postule une décomposition équi-valente à celle de la formule précédente, mais avec les contraintes quex suive une loi probabiliste (conventionnellement la loi normale standard N(0,I)) et que l’erreur ε suive une loi probabiliste compatible avec un bruit aléatoire : indépendance et gaussia-nité des dimensions. Cette dernière hypothèse réduit le risque d’éliminer par compres-sion une part d’informations non aléatoires, donc potentiellement explicatives. De plus, elle s’adapte au caractère inférentiel de notre domaine de reconnaissance où la matrice de projection, apprise sur un échantillon d’apprentissage, sera appliquée sur de nou-velles données. Enfin, ces deux hypothèses séparent les rôles des deux facteurs x et ε: le premier gère les corrélations seules, le second les fluctuations d’échantillonnage.

Notons que la matrice de projectionPobtenue n’est plus nécessairement constituée de vecteurs-colonnes orthogonaux (comme c’était le cas en PCA, par la nature symétrique de la matrice de covariance).

L’obtention de la matrice de projection s’effectue par apprentissage EM-ML. Mais dans le cadre de la reconnaissance du locuteur avec représentation par GMM, le super-vecteur est en fait une batterie de super-vecteurs d’un espace commun, pondérés par gaus-sienne. A partir des travaux de Tipping et Bishop (Tipping and Bishop, 1999b), deux algorithmes spécifiques à ce type de représentation ont été proposés pour déterminer ces facteurs.

Le premier algorithme estime une décomposition à un facteur (nommée par la com-munauté Factor Analysis FA)suivant la formule 2.26(Kenny et al., 2005) . Le second gère le cas plus complexe de la formule2.28(Joint Factor Analysis JFA) où deux facteurs hors résidu doivent être estimés par un processus itératif sur critère de maximum de vraisemblance (Kenny et al.,2007) .

Dans les deux cas, l’estimation est réalisée à l’aide d’un vaste fichier d’apprentissage multi-sessions et multi-locuteurs. Celui-ci peut ou non différer de celui du GMM-UBM.

Son effectif, bien évidemment, mais aussi les types de canaux qu’il inclut, le nombre minimal d’occurrences par locuteur peuvent influer sur la qualité du résultat.

Dans les deux cas, en estimant à chaque itération les différentes parties successive-ment et non simultanésuccessive-ment, une version simplifiée a été implésuccessive-mentée dans la plupart des laboratoires (Matrouf et al.,2007). De plus, des obstacles mathématiques dans l’ex-pression de la fonction de vraisemblance obligent à un alignement de chaque trame par gaussienne (affectation de la trame à la gaussienne suivant différentes méthodes, comme celle de Viterbi). La non-prise en compte de cette obligation n’a pas altéré les performances des systèmes résultants et cette précaution théorique n’est pas respectée en général.

2.4.3 Scores après décomposition en facteurs FA et JFA

Le choix de la représentation adoptée comme modèle dépend ensuite de la décom-position en facteurs. Il pourra s’agir de soustraire au supervecteur la composante canal Ux, dans le cas de la Factor Analysis (Matrouf et al.,2007), ou bien les composantes

"session"UxetDz, dans le cas de la Joint Factor Analysis.

Diverses formules directes, obtenues par intégration d’une fonction objective, ont été proposées dans le cas de la Joint Factor Analysis. Une synthèse de ces variantes de scoring peut être trouvée dans (Glembek et al.,2009) .

Dans le document The DART-Europe E-theses Portal (Page 51-55)