• Aucun résultat trouvé

Dimension initiale et performance en discrimination

Dans le document The DART-Europe E-theses Portal (Page 162-169)

5.3 Investigations complémentaires

5.3.3 Dimension initiale et performance en discrimination

La représentation par vecteurs de comptes peut être mise à profit pour étudier la relation entre la dimension de l’espace de représentation initial et la performance dis-criminative obtenue. Etant donné un GMM-UBM, ici celui à 128 composantes de l’expé-rience précédente, l’augmentation du nombreqde spécificités par gaussienne permet de former des représentations de taille croissante, puis de leur appliquer la méthode

"i-vector" précédente : projection par PCA en dimension 512 puis normalisation SphN, modélisation et scoring PLDA.

L’ensemble{4, 8, 16, 256}de valeurs deqa été testé, aboutissant à des dimensions {512, 1024, 2048, 32768}. Le recouvrement en spécificités a été effectué à partir de l’al-gorithmeΣ1-KNN-kmeansexpliqué en8

Les graphiques de la figure5.6, partie 1, affichent les dimensions initiales en abscisse et les EER (%) en ordonnées des conditions det 7 et 6. La dimension 51200 adoptée dans la partie8et son EER ont été ajoutés au graphique, pour prolonger la courbe. La ligne horizontale indique les performances optimales obtenues lors des évaluations expéri-mentales de la section précédente. La décroissance attendue des quantités d’erreur est bien vérifiée. Son caractère asymptotique à l’infini laisse envisager un plafonnement de la performance à la valeur optimale précédente.

La partie 2 du graphique5.6 présente la même expérience, mais cette fois les abs-cisses sont les logarithmes en base 2 de la dimension initiale ln(dim)/ ln 2. La courbe de décroissance du taux d’erreur présente un degré de linéarité plus important. Une corrélation nette apparaît entre les deux grandeurs (de l’ordre de−0.97 et0.98 pour les deux conditions), ce en gardant à l’esprit qu’il s’agit chaque fois de dimension ini-tiale compressée en dimension 512 (hormis bien sûr le premier modèle à 512 spécifi-cités, immédiatement exploitable). Tôt ou tard, l’épuisement des données d’apprentis-sage doit conduire à une stagnation asymptotique de l’EER. Le caractère linéaire de la relation entre le logarithme en base 2 de la dimension initiale (égal àpsi la dimension est 2p) et la performance rattache l’étude du modèle binaire à un problème d’entropie en théorie de l’information binaire.

La table 5.7 présente un échantillon intéressant des résultats précédents. Les co-lonnes 1 et 2 indiquent respectivement la dimension initiale des vecteurs de comptes

l l

l

l

l l

l

0 10000 20000 30000 40000 50000

0.0100.030

det 7

dimension

EER

l l

l

l l l

l

0 10000 20000 30000 40000 50000

0.040.060.08

det 6

dimension

EER

l

l

l

l

l l

l

9 10 11 12 13 14 15

0.0100.030

det 7

log(dimension)

EER

l

l

l

l l l

l

9 10 11 12 13 14 15

0.040.060.08

det 6

log(dimension)

EER

(1)

(2)

FIGURE5.6 – 1. Dimensions initiales et EER des systèmes i-vectors basés sur la représentation haute dimension par vecteurs de compte du modèle binaire. 2. Même graphique que précédemment avec les logarithmes en base 2 des dimensions en abscisse.

5.4. Bilan et conclusion

dimension EER

haute basse det 7 det 6

512 id. 4.54 8.69

2048 id. 3.83 8.10 2048 512 3.14 7.11

TABLE5.7 –Comparaison de performances de systèmes basés sur les accumulateurs binaires, en fonction des dimensions initiale et finale.

GMM-UBM réduction

de dim. normalisation

Modèle

&

scoring

...

vecteurs acoustiques signal vocal

Représentation haute dimension (par concaténation) 20 000 à 100 000 coeff.

gauss. 1

gauss. G

i-vector 400 à 600 coeff.

FIGURE5.7 –Les étapes du système de reconnaissance du locuteur par i-vectors, reconsidéré à posteriori des analyses précédentes.

et celle des i-vectors résultants : la PCA n’est effectuée que sur le troisième système.

Toutes les performances s’améliorent d’une ligne à l’autre. Les vecteurs 2048 compres-sés en 512 (3èmeligne) sont plus discriminants que des vecteurs 512 (1èreligne) et que les mêmes vecteurs 2048 directement traités sans compression. C’est donc une nou-velle fois la compression suivant la variabilité totale, aveugle à toute variable latente, qui confirme sa pertinence dans le champ de la discrimination du locuteur. Si la "ma-lédiction de la dimension" a été avancée depuis longtemps dans le domaine de l’ap-prentissage automatique (par épuisement du contenu informatif de l’apl’ap-prentissage), le passage par une modélisation en grande dimension reste indispensable, s’il est suivi d’une compression sur la variabilité totale et d’une normalisation non-linéaire5.

5.4 Bilan et conclusion

L’ensemble des études conduites dans ce chapitre n’a pas amené à reconsidérer la chaîne de traitement d’un système de reconnaissance du locuteur basé sur les i-vectors, ni dans ses étapes, ni dans les méthodes état-de-l’art généralement mises en oeuvre.

Mais elles ont permis de mettre en avant le pouvoir prépondérant de certaines étapes et de dégager un concept. La figure5.7reprend la figure5.1de la chaîne de traitement d’un système i-vector, en la décomposant cette fois en ses véritables étapes fondamen-tales. Une fois produites les trames acoustiques d’un segment de voix :

1. Une représentation vectorielle de haute dimension est réalisée par concaténation d’informations des composante gaussiennes. Le GMM-UBM est capable de struc-turer l’espace d’une manière suffisamment cohérente pour former des représen-tations performantes, ce suivant différentes approches et confirme ainsi son rôle de paradigme.

2. L’extraction d’un i-vector à partir de cette représentation s’apparente plus à une simple réduction de dimensionnalité ("éliminer la variance globale résiduelle, sans égard pour aucune variable latente") qu’à une décomposition en facteurs. Les nom-breux travaux antérieurs réalisés dans le domaine (FA session, JFA) ont généralisé cette dénomination, mais elle s’entend plutôt lorsqu’un vecteur est décomposé additivement en termes spécifiques, éventuellement réduits, ou lorsque l’unique facteur à produire est dévolu à contenir une variabilité spécifique : locuteur, nui-sance. C’est bien l’énoncé de voix complet dont on produit la version vectorielle en faible dimension et non des facteurs associés à certaines de ses variabilités.

Cette compression est aveugle à toute variable latente, en particulier la variable locuteur et présente un caractère drastique : de plus de 25000 dimensions à moins de 600-. Le caractère global de la compression (suivant la variabilité totale) et l’am-pleur inhabituelle du taux de compression s’expliquent par l’opportunité de ré-sumer les comportements corrélés des informations par gaussiennes, produisant ainsi des composantes principales du signal de voix. Ces composantes princi-pales constituent les variables statistiques de nouvelles informations acoustiques de haut niveau.

3. La représentation compressée est alors transformée (post-normalisation) par des procédures qui ne sont actuellement ni linéaires ni issues de fonctions probabi-listes (la standardisation suivant une variabilité-cible est suivie d’une uniformisa-tion des longueurs). Ces procédures s’avèrent former la soluuniformisa-tion la plus efficace pour mettre les données à conformité de modèles et scorings à hypothèses proba-bilistes gaussiennes.

4. Ces procédures sont indissociables. On ne peut parler d’efficacité de la solution i-vector si l’un de ces principes : (1) vecteur de représentation par concaténation multi-gaussienne, (2) compression suivant la variabilité totale, (3) normalisation non-linéaire, n’est pas respecté.

5. Ceci en gardant à l’esprit le nombre de classes-locuteurs d’apprentissage, de 1000 à 2000 actuelle-ment, utilisés pour estimer la variabilité inter-locuteurs.

5.4. Bilan et conclusion

Le paradigme i-vector, défini par ces étapes fondamentales, est unereprésentation compacte et normalisée des énoncés complets et non de facteurs ciblés de variabi-lité, issue d’uneconcaténation vectorielle d’informations locales du GMM-UBM. Le résultat est un vecteur de variables acoustiques de très haut niveau informatif. Ces supervariables quantifient les causes indépendantes de variabilité du signal de voix, dont celles, propres au locuteur, qui nous intéressent. D’autre part, elles obéissent suf-fisamment à des hypothèses probabilistes pour leur appliquer des métriques robustes.

Les représentations vectorielles des énoncés de voix à partir de ces supervariables ré-pondent ainsi efficacement aux problématiques de la reconnaissance automatique du locuteur.

Chapitre 6

Limites de la modélisation linéaire gaussienne

6.1 Introduction

La solution i-vectors, que nous généralisons et identifions aux étapes fondamentales énoncées au chapitre précédent1, est en mesure de gérer avec une grande efficacité des tâches de reconnaissance de locuteur. Encore récente, cette solution fait l’objet d’un nombre considérable d’études, destinées autant à étudier sa mise en oeuvre dans des contextes particuliers, voire extérieurs à la reconnaissance du locuteur (reconnaissance du langage) qu’à en affiner les étapes ou en simplifier le fonctionnement, essentielle-ment en terme de complexité de calcul.

Si une large partie de ce document a été consacrée à relever et circonscrire des pro-priétés de cette approche, la poursuite de son analyse nous paraît une priorité, étant donné le caractère encore neuf -et en partie exploratoire- de ce nouveau paradigme. En particulier, ses limites doivent être identifiées.

Lors du chapitre consacré à notre nouvelle approche de normalisation des i-vectors, Spherical Nuisance (au paragraphe 4.6.1), nous avions signalé la difficulté à estimer un métaparamètre linéaire universel de variabilité intra-locuteur lorsque les données avaient été transportées sur la surface d’une hypersphère pour gaussianisation. Cette surface est non-linéaire, ôtant toute validité a priori à une hypothèse d’homoscédasti-cité. Nous développons sur ce point dans cette section : l’utilisation de transformations non-linéaires durant la chaîne de traitements des vecteurs méritait qu’une mesure plus précise d’adéquation des métaparamètres linéaires aux hypothèses finales de la mo-délisation soit effectuée. Nous proposons donc une analyse supplémentaire qui vise à éprouver les limites du concept.

1. quelle que soit la représentation par concaténation issue du GMM-UBM, ainsi que la méthode de réduction de dimensionnalité.

Dans le document The DART-Europe E-theses Portal (Page 162-169)