• Aucun résultat trouvé

Gaussianité

Dans le document The DART-Europe E-theses Portal (Page 89-92)

3.2 Transformations des i-vectors

3.2.2 Gaussianité

Les modèles génératifs et méthodes de scoring utilisés dans le cadre des i-vectors s’appuient sur des hypothèses de gaussianité, qu’il s’agisse de configurer la variabilité totale, locuteur ou session.

La modélisation par mixture de gaussienne de l’espace acoustique ne traduit pas nécessairement une gaussianité des données : il est toujours possible d’approximer une distribution quelconque par une combinaison linéaire de lois normales, de même qu’on interpole une fonction par des polynômes, ou des séries de Fourier lorsqu’elle est pério-dique. Une fois transférés les segments de parole dans l’espace compact des i-vectors, les hypothèses sur la nature de leur distribution dans un cadre de modélisation confir-matoire (basée sur des a priori que l’empirique doit vérifier et ainsi valider) constitue le principal obstacle à lever. Des stratégies basées sur la loi normale, bien entendu, mais aussi sur la loi de Student ("Heavy-tailed" HT-PLDA) ont été mises en place et la porte reste ouverte à d’autres propositions. Mais la souplesse des lois basées sur la famille exponentielle, dont les formulations mathématiques autorisent la constitution de dis-tributions conjuguées1en forme close et des calculs de vraisemblance exacts et rapides à mettre en oeuvre, a beaucoup contribué à maintenir les investigations dans leur do-maine.

Le défaut de gaussiannité qui a conduit à introduire la HT-PLDA doit être constaté.

Pour cela, une mesure de gaussianité sur des observations multidimensionnelles est à déterminer, dont les résultats seront commentés sur les jeux de données à disposition.

D’autre part, si des transformations sont mises en place sur les i-vectors, comme nous l’avons envisagé, la mesure doit présenter un caractère absolu pour comparer les jeux initiaux et après transformation. Les techniques de gaussianisation des données s’in-cluent dans celles dites de "blanchiment" des données (whitening), destinées à éliminer, redresser ou au moins atténuer des anomalies par rapport aux hypothèses probabilistes émises.

1. la distribution a posteriori issue de la fonction de vraisemblance étant de même type que la distri-bution a priori

3.2. Transformations des i-vectors

Mesures de gaussianité : remarquons d’abord que, lorsqu’un vecteur aléatoire v deIRp suit une loi multinormale standard, sa normekvk=

p

j=1

v2j est une somme de p carrés de loi normales unidimensionnelles centrées-réduites et suit donc une loi duχ2 à pdegrés de liberté. Mesurer la gaussianité de données multidimensionnelles néces-site quelques précautions. Il s’agit d’étudier l’adéquation d’un jeu de données multi-dimensionnel à un modèle gaussien. La fonction de répartition est incalculable, mais il est possible de procéder par mesure de vraisemblance, sous l’hypothèse que la dis-tribution soit normale. Le critère de mesure de la vraisemblance est alors la densité gaussienne. La vraisemblance d’une observationwde IRp sous l’hypothèse quewsuit une loi normaleN(µ,Σ)est :

L(w|N (µ,Σ)) =P(w|N (µ,Σ)) = (2π)p2 |Σ|12exp

12(w−µ)tΣ1(w−µ) (3.5) Par dérivation du logarithme deL suivantµet Σ, la loi normale la plus vraisem-blable pour un ensemble de données{wi}i=1,...,nest celle de moyenne :

µ= 1 n

n

i=1

wi (3.6)

et de matrice de covariance

Σ= 1 n−1

n

i=1

(wiµ)t(wiµ) (3.7) La vraisemblance totale de{wi}i=1,...,nest alors :

L({wi} |N(µ,Σ)) =

in=1P(wi|N(µ,Σ))

n1

(3.8) qui se simplifie en

L({wi} |N (µ,Σ)) = (2π)p2 |Σ|12 exp12Tr Σ11n

n

i=1

(wiµ)t(wiµ)

!!

= (2π)p2 |Σ|12 exp

12n1 n Tr

Σ1Σ

= (2π)p2 |Σ|12 exp

12(n−1)p n

(3.9) oùTr(.)est l’opérateur trace

500 1000 1500 2000

0.0000.008 c2

apprentissage test

FIGURE3.4 –Histogrammes des normes carrées des jeux de données standardisés d’apprentissage et d’évaluation BUT-hommes, et densité duχ2à p degrés de liberté (p=600).

La vraisemblance n’est dépendante que de la précision de la variabilité (de plus, elle est maximale si tous les points sont confondus !). Etudier la vraisemblance gaussienne globale d’un jeu de données avant et après une transformation ne procure aucune in-formation sur l’évolution de sa gaussianité. Elle ne peut s’entendre qu’en comparaison de différents jeux de données sur un espace commun. Par contre, la distribution des termes exponentiels de la vraisemblance précédente :

S=n(wiµ)tΣ1(wiµ)o

i=1,...n (3.10)

peut se réécrire :

S=Σ12 (wiµ)2

i=1,...n

(3.11) soit comme une norme carrée -autrement dit la somme de carrés de lois standards-.

Si celles-ci sont normales, alorsSsuit une loi duχ2àpdegrés de liberté. La comparaison de l’histogramme empirique de la sérieSet de la courbe de densité duχ2(p)permet donc d’estimer la gaussianité du jeu de données.

La figure3.4présente l’histogramme des valeurs deScalculées sur les jeux de don-nées d’apprentissage et d’évaluation BUT-hommes, ainsi que la densité duχ2àpdegrés de liberté (icip =600).

– la courbe en pointillé est celle de la distribution théorique du χ2 à p degrés de liberté. On rappelle que sa moyenne est p (ici 600) et son écart-typep

2p (ici ≈ 34.64).

– la courbe noire en gras est la distribution empirique des normes carrées des don-nées d’apprentissage standardisées (la distributionSde l’équation3.11).

– la troisième courbe est la distribution empirique des normes carrées des données d’évaluation standardisées. La standardisation a été effectuée sur les paramètres de tendance centrale du fichier d’apprentissage. Nous avons donc calculé et affi-ché :

Stest=Σ12 wtestkµ2

k=1,...,Ntest

(3.12)

3.2. Transformations des i-vectors

avec les paramètresΣetµde l’apprentissage.

Comme le montre la figure, les données présentent plusieurs anomalies :

– la distribution empirique est asymétrique. Notons que la moyenne de ces valeurs, indiquée par la droite verticale noire en gras, est proche dep=600, mais ce par sa nature même. En effet, l’équation3.11ci-dessus montre qu’elle vaut exactement :

E[S] = 1

n

ni=1Σ12 (wiµ)tΣ12 (wiµ)

=Tr

Σ11

n

ni=1(wiµ) (wiµ)t

=Tr

Σ1n−1 n Σ

= n1 n Tr(I)

= (n−1)p

n (3.13)

Le caractère asymétrique de la distribution est une preuve de faible gaussianité.

– la densité empirique de l’apprentissage est plus "plate" qu’unχ2(p)c’est à dire que la proportion de valeurs extrêmes est plus importante qu’en situation gaus-sienne. La distribution est diteheavy-tailed(à queue de distribution importante) et l’on comprend mieux l’intérêt de la PLDA adaptée à ce type de distribution, telle qu’introduite dans (Kenny,2010) en reconnaissance du locuteur.

– la densité empirique de l’évaluation est plus proche en courbure d’unχ2(p), mais présente un décalage net de valeurs : la moyenne, indiquée par la droite verticale en rouge, est de l’ordre de 400, très inférieure aux 600 théoriques. Cela tient es-sentiellement à un biais entre les moyenne globalesµetµtestdes jeux de données.

En annexeCsont présentés les histogrammes correspondants pour les jeux de don-nées BUT-femmes et LIA-hommes (détaillés en annexeA). Le premier permet notam-ment de vérifier le comportenotam-ment similaire des distributions pour les fichiers féminins et donc l’indépendance au genre des constats précédents.

Cette étude confirme le défaut de gaussianité de la représentation i-vectors, telle que fournie par l’extracteur FA-total-var. L’alternative d’une autre loi de la famille ex-ponentielle (Student), comme distribution a priori des vecteurs, a été proposée avec la HT-PLDA. D’autres lois restent envisageables, mais nous proposons au paragraphe suivant une autre stratégie pour pallier à ces défauts de gaussianité, basée sur la trans-formation des vecteurs.

Dans le document The DART-Europe E-theses Portal (Page 89-92)