• Aucun résultat trouvé

Premières propriétés de la normalisation EFR

Dans le document The DART-Europe E-theses Portal (Page 103-108)

Nous étudions le rôle joué par la transformation dans la mise à conformité des don-nées aux hypothèses. Au fil des itérations de cet algorithme, les i-vectors d’apprentis-sage tendent vers un modèle théorique. Nous montrons ici la convergence des obser-vations vers ce modèle qui possède un certain nombre de propriétés, répondant aux problématiques levées par l’analyse du chapitre précédent. Nous recensons ensuite un certain nombre de propriétés supplémentaires de ce modèle théorique, qui expliquent plus complètement le pouvoir discriminant des vecteurs après transformation EFR.

4.2.1 Convergence vers le modèle standard

Après chaque itération de l’algorithme précédent, les vecteurs sont normalisés en longueur, mais plus nécessairement standardisés. La propriété intuitive suivante a été constatée empiriquement, sur l’ensemble des jeux de données dont nous disposons :

Propriété: lorsquei→,

– la moyenne globaleµitend vers 0,

– la matrice de covariance totaleΣitend versI.

les convergences étant strictement monotones (la distance diminue strictement à chaque itération).

Démontrer cette propriété ne semble pas possible dans la mesure de nos connais-sances et de la documentation accessible. Nous présentons ici sa validation expéri-mentale sur plusieurs jeux de données de i-vectors : LIA-hommes, hommes, BUT-femmes (détaillés en annexeA) produits par notre laboratoire ou fournis par le Brno University of Technology BUT. L’utilisation de plusieurs jeux de données issus de dif-férentes configurations nous a aidé à vérifier la pertinence des résultats.

i) convergence de la moyenneµi

Les tables4.1,4.2,4.3affichent les normes de la moyenne globale des vecteurs pour chacun des jeux d’apprentissage, avant application de l’algorithme (initial "itération 0") puis après chaque itération de l’algorithme jusqu’à la 4ème itération. Chaque fois, la dimension p de l’espace des vectors est rappelée. La norme de l’ensemble des i-vectors étant égale en sortie de l’algorithme à√p(elle est de 1, puis les vecteurs sont multipliés par√

ppour simplifier les démonstrations qui suivent), comparer la norme de la moyenneµià cette valeur√ppermet d’estimer de manière absolue la position de µipar rapport à la surface d’hypersphère d’origine 0 contenant les i-vectors.

4.2. Premières propriétés de la normalisation EFR

LIA p=400

Après chaque itération, normes des i-vectors=√ p=√

400=20

Itérationi 0 1 2 3 4

kµik 0.029 0.12 0.015 0.0023 0.00042 TABLE4.1 –Convergence de la moyenne globale vers 0 (LIA).

BUT hommesp=600

Après chaque itération, normes des i-vectors=√p=√

600=24. 49

Itérationi 0 1 2 3 4

kµik 10.95 0.087 0.012 0.0023 0.00054 TABLE4.2 –Convergence de la moyenne globale vers 0 (BUT-hommes).

Pour chacun des jeux de données, la moyenne converge bien vers 0. De plus, cette convergence est chaque fois strictement monotone.

Par exemple, pour le troisième jeu de données (table4.3), la norme de la moyenne est négligeable après deux itérations (0.083) en regard du rayon de l’hypersphère contenant les i-vectors (égal à 24.49).

Il découle deux remarques de ces tables :

– le comportement des données homme ou femme de BUT, issues des mêmes confi-gurations GMM-UBM et extracteur d’i-vectors, est identique vis à vis de la conver-gence de la moyenne vers 0. Aucun biais n’est constaté suivant le genre.

– les normes initiales ("itération 0") diffèrent considérablement entre les données issues de deux extracteurs distincts (LIA et BUT). Mais nous verrons plus bas qu’elles doivent être comparées aux variances totales des données initiales.

ii) Convergence de la matrice de covarianceΣi vers la matrice-identitéI Nous mesurons la distance entre Σ

i et I, au sens de la norme de Frobenius2. La norme de Frobenius d’une matriceA est définie par kAk = Tr√

AtA

oùTr()est l’opérateur Trace.

La distance entre Σi et I est alors mesurée par son ratio d’écart à I au sens des moindres carrés :

2. L’espace euclidien des matricesp×pétant de dimension finie, toutes les normes y sont équivalentes, et nous choisissons la plus usuelle.

BUT femmesp=600 Après chaque itération, normes des i-vectors=√

p=√

600=24. 49

Itérationi 0 1 2 3 4

kµik 11.58 0.083 0.010 0.0022 0.00070 TABLE4.3 –Convergence de la moyenne globale vers 0 (BUT-femmes).

LIAp =400

Itérationi 0 1 2 3 4

ε(Σi,I) 0.99 0.10 0.013 0.0022 0.00041 TABLE4.4 –Convergence de la covariance vers l’identité (LIA).

BUT hommesp=600

Itérationi 0 1 2 3 4

ε(Σi,I) 0.44 0.081 0.013 0.0027 0.00065 TABLE4.5 –Convergence de la covariance vers l’identité (BUT-hommes).

ε(Σi,I) = kΣiIk kIk =

s1 pTr

(ΣiI)2= s1

p

k

l

(ΣiI)2k,l (4.1) Les valeurs ε(Σi,I)sont indiquées sur les tables 4.4, 4.5, 4.6 pour les trois mêmes jeux que précédemment. Pour chacun des jeux de données, la matrice de covariance des données d’apprentissage tend bien vers la matrice-identité. De plus, cette convergence est chaque fois strictement monotone. Là encore, les comportements des données par genre sont comparables.

4.2.2 Gaussianité

Nous nous intéressons ici à la gaussianité des données, c’est à dire à leur degré de similarité avec un échantillon gaussien. L’analyse du chapitre précédent a montré que l’évolution de la gaussianité entre des jeux données soumis à une transformation pouvait être évaluée par la loi duχ2. Nous reprenons donc les mesures effectuées pré-cédemment, au fil des itérations de la phase d’apprentissage.

La figure4.2présente les histogrammes successifs, avant puis après 1 à 5 itérations de la normalisation EFR, des normes carrées des jeux de données standardisés d’ap-prentissage et d’évaluation BUT-hommes, ainsi que la densité du χ2 à p degrés de li-berté (icip=600).

♦Figure4.2, graphique n1 :

Ce premier graphique, reproduction du graphique 3.4 du chapitre précédent, cor-respond aux données initiales (avant EFR). Rappelons que :

BUT femmesp=600

Itérationi 0 1 2 3 4

ε(Σi,I) 0.43 0.070 0.010 0.0029 0.0010 TABLE4.6 –Convergence de la covariance vers l’identité (BUT-femmes).

4.2. Premières propriétés de la normalisation EFR

500 1000 1500 2000

0.0000.008

590 595 600

0.00.40.8

580 590 600 610 620 630

0.00.30.6

590 595 600 605 610

0.01.53.0

597 598 599 600 601 602

0510

0 iter.

1 iter.

2 iter.

3 iter.

4 iter.

c2

apprentissage test

FIGURE4.2 –Histogrammes successifs des normes carrées des jeux de données standardisés d’ap-prentissage et d’évaluation BUT-hommes, et densité duχ2à p degrés de liberté (p=600).

– la courbe en pointillé est celle de la distribution théorique du χ2 à p degrés de liberté. On rappelle que sa moyenne est p (ici 600) et son écart-typep

2p (ici ≈ 34.64).

– la courbe noire en gras est la distribution empirique des normes carrées des don-nées d’apprentissage standardisées (la distributionSde l’équation3.11).

– la courbe rouge est la distribution empirique des normes carrées des données d’évaluation standardisées.

Comme nous l’avons constaté au chapitre précédent, les données présentent plu-sieurs anomalies :

– asymétrie de la la distribution empirique (preuve de faible gaussianité)

– densité de l’apprentissage plus "plate" qu’unχ2(p)c’est à dire que la proportion de valeurs extrêmes est plus importante qu’en situation gaussienne.

– densité empirique de l’évaluation plus proche en courbure d’unχ2(p), mais pré-sentant un décalage net de valeurs : la moyenne, indiquée par la droite verticale en rouge, est de l’ordre de 400, très inférieure aux 600 théoriques. Cela tient es-sentiellement à un biais entre les moyenne globalesµetµtestdes jeux de données.

♦Figure4.2, graphique n2 :

Une itération de l’algorithme de normalisation EFR a été pratiquée et les distribu-tions empiriques re-calculées. La procédure effectuée a été :

Calculer lesw = Σ

12 (w−µ)

Σ12 (w−µ)

Actualiser les paramètres de moyenne et covariance(µ,Σ)→ µ,Σ CalculerS = Σ12 wiµ

2

i=1,...n

Les distributions empiriques se sont nettement condensées autour de la moyenne : l’échelle des valeurs s’étend entre 595 et 603. A cette échelle, la distribution duχ2(p) n’est plus visible sur le graphique. La distribution de l’apprentissage présente encore une asymétrie, celle de l’évaluation est quasiment symétrique et, surtout, correctement centrée autour de la valeur théoriquep.

♦ Figure 4.2, graphiques n 3, 4, 5 : au fur et à mesure des itérations 2 à 4 de l’al-gorithme EFR, les distributions des normes se condensent progressivement autour de p(surveiller les échelles des abscisses : l’écart-type diminue de±10 à±1). L’asymétrie des distributions s’atténue. Ce résultat était prévisible : la convergence deµi etΣi vers 0 etI, montrée au paragraphe précédent, entraîne que, pour toute observationw:

Σ

12

iter(w−µiter)

2 i

Σ12 (w−0)2=kwk2 = p=E

χ2(p) (4.2) donc une forte proximité des carrés des normes des vecteurs standardisés avec le mode théorique.

Dans le document The DART-Europe E-theses Portal (Page 103-108)