• Aucun résultat trouvé

Unitarité

Dans le document The DART-Europe E-theses Portal (Page 92-97)

3.2 Transformations des i-vectors

3.2.3 Unitarité

Σ11

n

ni=1(wiµ) (wiµ)t

=Tr

Σ1n−1 n Σ

= n1 n Tr(I)

= (n−1)p

n (3.13)

Le caractère asymétrique de la distribution est une preuve de faible gaussianité.

– la densité empirique de l’apprentissage est plus "plate" qu’unχ2(p)c’est à dire que la proportion de valeurs extrêmes est plus importante qu’en situation gaus-sienne. La distribution est diteheavy-tailed(à queue de distribution importante) et l’on comprend mieux l’intérêt de la PLDA adaptée à ce type de distribution, telle qu’introduite dans (Kenny,2010) en reconnaissance du locuteur.

– la densité empirique de l’évaluation est plus proche en courbure d’unχ2(p), mais présente un décalage net de valeurs : la moyenne, indiquée par la droite verticale en rouge, est de l’ordre de 400, très inférieure aux 600 théoriques. Cela tient es-sentiellement à un biais entre les moyenne globalesµetµtestdes jeux de données.

En annexeCsont présentés les histogrammes correspondants pour les jeux de don-nées BUT-femmes et LIA-hommes (détaillés en annexeA). Le premier permet notam-ment de vérifier le comportenotam-ment similaire des distributions pour les fichiers féminins et donc l’indépendance au genre des constats précédents.

Cette étude confirme le défaut de gaussianité de la représentation i-vectors, telle que fournie par l’extracteur FA-total-var. L’alternative d’une autre loi de la famille ex-ponentielle (Student), comme distribution a priori des vecteurs, a été proposée avec la HT-PLDA. D’autres lois restent envisageables, mais nous proposons au paragraphe suivant une autre stratégie pour pallier à ces défauts de gaussianité, basée sur la trans-formation des vecteurs.

3.2.3 Unitarité

La division de vecteurs par leur norme permet d’obtenir de nouveaux vecteurs de norme 1, ditsnormésouunitaires. En mathématique, le terme d’unitarisationest alors

uti-lisé pour définir spécifiquement ce type denormalisation de longueur. Nous emploierons par la suite ces deux termes, dans la même acception.

Une des premières tentatives de scoring sur des i-vectors, présentée dans (Dehak et al.,2011) (Dehak et al.,2009), utilisait un simple cosinus sur des i-vectors tel qu’ini-tialement proposé comme noyau pour une expérience basée sur un SVM dans l’espace des i-vectors. Etant donnés deux i-vectorsw1,w2à comparer, le score proposé est2:

k(w1,w2) =cos(w1,w2) = w1.w2

kw1k kw2k (3.14)

Le scoring associé, issu de ce noyau-cosinus, prend en compte la variabilité intra-locuteur, qu’il cherche à normaliser. Il s’agit du scoring présenté dans le chapitre précé-dent :

k(w1,w2) =

W[WCCN12 ]w1

t

W[WCCN12 ]w2

W[WCCN12 ]w1

W[WCCN12 ]w2

(3.15)

Comme le montrent ces formules, ce scoring est également un cosinus, mais appli-qué sur des vecteurs préalablement multipliés par la racine carré W[WCCN12 ] de la ma-trice de précision intra-locuteur. Ces vecteurs ont donc une nouvelle mama-trice de co-variance W[WCCN] égale à l’identité : aucune dimension ne possède plus de variance qu’une autre. On parlera alors d’isotropie.

Les performances obtenues par ce scoring-cosinus surpassent celles obtenues par un produit scalaire entre les vecteurs ou par leur distance (euclidienne, comme suivant d’autres métriques). Un cosinus est un simple produit scalaire sur des vecteurs uni-taires. Ce fait a attiré notre attention : en effet, il implique que la longueur initiale d’un i-vector ne contient pas d’information utile en discrimination du locuteur, ou, pour être plus prudent, que ces informations ne sont pas "maîtrisables" par les mesures de proxi-mité usuelles. Dans (Dehak et al., 2011), il est avancé l’hypothèse que l’information non-locuteur (telle que session et canal) affecte la norme des i-vectors et que l’ignorer augmente la robustesse du i-vector.

Un tel cas n’est pas nouveau dans le domaine de l’analyse de données (il se retrouve, par exemple, dans certaines problématiques des génomique, morphométrie ou recon-naissance d’images (Hamsici and Martinez,2007)) mais reste peu courant, en particu-lier pour les méthodes prédictives et, surtout, nécessite une adaptation des hypothèses et modélisations aux objets représentés. Lanormalisation de longueurenvoie les vec-teurs sur la surface d’une hypersphère de l’espace de représentation. Elle modifie de façon non-linéaire les proximités entre ces vecteurs et par conséquent l’ensemble des paramètres de leur distribution statistique.

2. Même si rien ne le précise dans les articles de référence, cette opération est effectuée sur des vecteurs préalablement centrés, suivant une moyenne estimée à partir d’un jeu d’apprentissage.

3.2. Transformations des i-vectors

Les i-vectors étant supposés suivre une loi normale standard, il est utile de s’interro-ger sur l’effet d’une telle transformation qui conduit les i-vectors vers une distribution inconnue, non recensée dans la littérature. Les distributions gaussiennes radiales ne correspondent pas exactement à ce cas de configuration.

Le constat d’efficacité de la normalisation de longueur découle donc des perfor-mances obtenues par les premiers scorings-cosinus effectués sur les i-vectors. Ce constat a motivé notre travail avec trois objectifs :

(i) expliquer l’effet positif (au sens de l’objectif de discrimination du locuteur) de cette transformation,

(ii) exploiter plus complètement et plus finement son potentiel,

(iii) quantifier l’apport de cette transformation dans la qualité du système, par rap-port à ceux des autres constituants.

Concernant le premier point, il sera justifié dans la suite -au moins partiellement-par un certain nombre de propriétés. Mais une remarque peut être effectuée dès main-tenant : si le rôle de cette opération dans la discrimination du locuteur est supposé positif, alors ses conséquences peuvent être étudiées en amont, c’est à dire sur la repré-sentation initialement pourvue par le modèle GMM-UBM. Supposons nulle la moyenne globale des i-vectors d’apprentissage (ce qui est conforme à l’a priori de standardité des i-vectors) et soient deux i-vectorswetw liés par la relation homothétique :

w =αw(α>0) (3.16)

Ces deux vecteurs se retrouvent confondus après normalisation de leurs longueurs.

Les supervecteurssets dont ils découlent vérifient :

sµ=Tw = αTw=α(s−µ) (3.17) ce qui correspond à la situation triviale illustrée par la figure3.5: sur chacune des trois gaussiennesgi, le sous-vecteur de moyenne centré

sgiµgi

est égal àα sgiµgi . Les deux sessions représentées par ces deux supervecteurs s et s se retrouveront confondues dans leur représentation en i-vectors, donc à score maximal pour tout sco-ring. Ce fait traduit l’importance de la proximité directionnelle (angulaire) et pas seule-ment absolue des représentations GMM-UBM. Une telle proximité d’angle est d’ailleurs bien notée par les scoringsllr-by-frame(log-ratio de vraisemblance des moyenne adap-tée / trames) de la JFA.

Concernant le second point "(ii) exploiter plus complètement et plus finement son potentiel", il est à remarquer que la normalisation de longueur n’intervient pour Dehak et al. qu’en phase finale de traitement, dans le scoring, et comme composant d’une mesure angulaire de proximité par le cosinus. Une application de cette normalisation en amont du scoring, comme transformation préparatoire à un modèle génératif ou discriminant, nous a paru mériter notre attention.

g1

s' g

2

s' g

3

s g

3

s g

2

s g

1

g3

g2

m g

1

m g

2

m g

3

s' g

1

FIGURE3.5 –Cas de deux segments de voix aux représentations "proportionnelles" ...

3.2. Transformations des i-vectors

Le troisième point "(iii) quantifier l’apport de cette transformation ..." fera l’objet d’une mesure comparée de performance dans le chapitre5.

Une étrange propriété

Nous relevons également dans la communauté3 un résultat étrange dans les es-paces vectoriels de grande dimension. Considérons la densité d’une loi normale stan-dard multidimensionnelle. Elle est maximale en son mode, qui, la loi de Gauss étant symétrique, se trouve être sa moyenne. C’est donc autour de 0 que se trouve la plus grande concentration de densité. Mais il peut être intéressant d’étudier la densité des coquilles gaussiennes de l’espace : dans le cas d’une loi standard, une coquille gaus-sienne est la surface d’une sphère centrée en 0 et de rayonr. Nous nous intéressons alors à la comparaison des densités de chaque coquille. Intuitivement, c’est en se rap-prochant de 0 que cette densité sera maximale. Mais l’intuition s’avère parfois erronée en grande dimension. Considérons la somme des densités d’une loi normale standard p-dimensionnelle sur la coquille de centre 0 et rayon r. Cette valeur, notée ∆(r), est égale à :

∆(r) =

Z

kxk=rN (x|0,I)dx (3.18) oùN (x|0,I)est la densité normale standard|I|12 e12(x0)tI1(x0). S’interrogeant sur le mode de cette fonction, c’est à dire sur sa plus grande valeur, nous obtenons par simplification :

∆(r) = (2π)p2 er22 Z

kxk=rdr

= (2π)p2 S(r)er22 (3.19) oùS(r)est la surface de l’hypersphère de rayonr. On sait que cette valeur s’écrit K(p)rp1oùK(p)est une valeur ne dépendant que de p. La densité de la coquille de rayonrest donc égale à :

∆(r) =Crp1er22 (3.20) oùCest une constante. Par dérivation suivantr, on obtient :

δ∆(r)

δr =C (p−1)rp2rper22 égal à 0 si et seulement si(p−1) =r2

L’unique maximum est atteint pour la valeurrmax = q(p−1), qui n’est égale à 0 que lorsque p = 1. D’une manière assez peu prévisible, malgré que la loi normale

3. http ://ontopo.wordpress.com/2009/03/10/reasoning-in-higher-dimensions-measure/

-1.5

-1.0 -0.5 0.0

0.5

1.0

1.5 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

0.02 0.04 0.06 0.08

1

FIGURE3.6 –Densités des coquilles gaussiennes standards en dimension 2.

"perde" de sa densité en s’éloignant de l’origine, la surface sphérique de densité maxi-male se trouve àq

(p−1)de celle-ci. Cette valeur correspond à l’estimateur de l’écart-type, rayon de l’hypersphère dans laquelle est concentré l’essentiel de la distribution.

La figure 3.6 illustre cette propriété en dimension p = 2. Les densités ∆(r) des coquilles de la loiN (0,I)atteignent leur maximum pourr =pp−1=1.

En ce sens, un ensemble de données migrées sur cette surface présentera une plus forte vraisemblance vis à vis d’une loi normale standard, puisque les données voisi-neront alors avec une forte densité d’éléments normalement distribués. Bien entendu, la démarche de migration reste artificielle, mais l’unitarisation (normalisation de lon-gueur) des i-vectors constitue une possible transformation pour améliorer leur carac-tère gaussien.

Dans le document The DART-Europe E-theses Portal (Page 92-97)