• Aucun résultat trouvé

Standardité

Dans le document The DART-Europe E-theses Portal (Page 86-89)

3.2 Transformations des i-vectors

3.2.1 Standardité

La Factor Analysis Total Var. réalise une réduction de dimension des supervecteurs du GMM-UBM sous la contrainte d’hypothèses probabilistes et gaussiennes : la norma-lité des résidus et la normanorma-lité standard des i-vectors obtenus.

Elle sous-entend donc implicitement que les écarts entre l’échantillon des vecteurs obtenus et cette loi théorique sont seulement imputables aux fluctuations d’échantillon-nage. Ces fluctuations sont inhérentes à toute méthode itérative basée sur la contin-gence d’un jeu de données fini. En pratique, la question se pose de savoir si ces écarts doivent être conservés ou éliminés, mais également par quelle méthode. L’opération de centrage-réduction (standardisation) s’écrit

w←Σ12 (w−µ) (3.1)

ou, ce qui revient au même, w ← L(w−µ) où µ est la moyenne globale du fi-chier d’apprentissage etLvérifieΣ1 =LLt, matrice obtenue par la décomposition de Cholesky de la matrice de précision. Elle transforme les vecteurs du jeu de données d’apprentissage de sorte que leurs nouvelles moyenne et matrice de covariance soient 0 et la matrice identitéI. Rien n’indique pour autant qu’ils ne suivent une loi normale, comme supposé a priori. Mais cette opération permet de les rapprocher des hypothèses, en entraînant l’indépendance statistique de leurs dimensions et en homogénéïsant leurs variabilités.

Tout vecteur de testwdoit être alors standardisé selon les paramètres de tendance centrale du fichier d’apprentissage :

w←Σappr12 w−µappr

Cette transformation joue un rôle deconditionnementdes nouvelles observations aux paramètres appris : celles-ci sont rapprochées de la distribution empirique de l’appren-tissage. Nous parlerons ici d’adéquationou demise à conformitédes données d’évaluation aux données d’apprentissage. Nous étudierons dans la suite la capacité de la standar-disation à améliorer cette adéquation.

Concernant l’opportunité de cette transformation dans le cadre de vecteurs issus de la FA-Total Var, elle peut être justifiée de la manière suivante : tout i-vector est obtenu à partir des formules

w=I+TtΣ1NT1

TtΣ1SX

=I+TtΣ1NT1

TtΣ1N(s−µ) (3.2)

où SX est la statistique d’ordre 1 de la collection de trames X, s est le supervec-teur correspondant,Nla matrice diagonale des statistiques d’ordre 0,µla moyenne de l’UBM. En notantTe = Σ12Tetes =Σ12 (s−µ), le i-vectorwse réécrit :

w=I+TetNTe1

TetNes (3.3)

Le calcul dewne fait intervenir que la version standardiséeesdes. Cela signifie que les variabilités spécifiques des composantes gaussiennes du GMM sont ignorées (per-dues) dans le processus d’extraction. Ce fait peut surprendre : ces informations sont indispensables à un modèle de discrimination de locuteur comme la JFA, qui travaille dans l’espace GMM. Mais l’équation précédente montre que, dans le cadre d’une réduc-tion de dimension, les corrélaréduc-tions existantes entre les vecteurs de chaque gaussienne ne peuvent être compressées que si elles sont comparables entre gaussiennes, donc si leurs distributions ont été normalisées. En ce sens, les écarts à la loi théorique sont bien des anomalies.

La figure 3.2 montre le graphe spectral du jeu de données d’apprentissage BUT-hommes (détaillé en annexeA) immédiatement après son extraction par FA-Total Var, c’est à dire avant toute transformation et, donc, dans sa base canonique d’origine. Les 600 variances (600 est la dimension de l’espace i-vector) pour les trois types de varia-bilités sont affichées. Les i-vectors suivent en théorie une loi normale standard. Nous nous intéressons ici à leurs seules variances spectrales, i.e. à leur matrice de covariance (l’étude de leur gaussianité est effectuée plus loin). La matrice de covariance étant théo-riquement égale à la matrice identité, on observe sur la figure3.2que les variances des dimensions initiales sont effectivement proches de 1. Les parts de variance intra- et inter-locuteur mesurées par les diagonales de B et W semblent également indépen-dantes entre les dimensions. La contrainte probabiliste de standardité -au moins en terme de covariance- semble apparemment respectée.

Nous procédons alors à un changement de base, par rotation suivant la base de vecteurs propres de la covariance totaleΣ. NotantPcette matrice de vecteurs propres deΣ, les i-vectors deviennent :

w = Ptw (3.4)

La matricePétant orthogonale, la covariance totale serait invariante par cette trans-formation siΣétait exactement égale à la matrice identité.

La figure3.3affiche le graphe spectral-Σ(obtenu après rotation parPt dans la base de Σ). Le spectre de variance totale par dimension présente clairement une énergie : des axes principaux de variabilité se dégagent. L’opération de rotation n’a pourtant en rien transformé les données initiales, les proximités entre points ayant été strictement conservées. Cet état de fait constitue en soi un sujet de réflexion. La standardité des i-vectors en sortie de l’extraction n’est qu’apparente : l’algorithme FA-Total Var a plus ou moins égalisé les variances dans la base canonique de réduction, mais n’a en rien assuré le lissage uniforme de celles-ci. Comme l’indique également la figure 3.3, les trois courbes de variance présentent une corrélation élevée : les variabilités locuteur

3.2. Transformations des i-vectors

0 100 200 300 400 500 600

0.00.40.8

Variances : totale locuteur session

FIGURE3.2 –Graphe spectral du jeu de données d’apprentissage BUT-hommes, immédiatement après son extraction par FA-Total Var (dans la base canonique).

0 100 200 300 400 500 600

012345 Variances : totale locuteur session

FIGURE3.3 –Graphe Spectral-Σdes mêmes données qu’à la figure précédente.

et session sont significativement corrélées à la variabilité totale. Les deux premières courbes décroissent même strictement avec cette dernière.

Les allures non-aléatoires des courbes locuteur et session, en particulier la corréla-tion entre variances totale et locuteur ne sont pas explicables par un défaut de l’algo-rithme FA-total-var : celui-ci ignore la variable locuteur. La non-conformité des données à une loi standard, en sortie d’extracteur, est incontestablement liée à la présence de la variable latente locuteur. La standardisation forcée des données n’a pas pour seul but de rapprocher les i-vectors de leur modèle théorique. Comme le montre la figure3.3, la part de variance session dans la variance totale augmente en même temps que cette dernière diminue (les derniers axes à droite contiennent la plus forte part de variance session). La standardisation va ainsi faciliter la tâche de séparation des variabilités ex-plicative et résiduelle par un modèle génératif.

Dans le document The DART-Europe E-theses Portal (Page 86-89)