• Aucun résultat trouvé

Observations diverses autour des GMM

Dans le document The DART-Europe E-theses Portal (Page 46-51)

2.3 Modélisations basées sur les mixtures de gaussiennes

2.3.6 Observations diverses autour des GMM

x∈X

log

G

g=1

wgNx|µ(gs),Σg

log

G

g=1

wgN x|µg,Σg!)

(2.16)

2.3.6 Observations diverses autour des GMM

L’étude détaillée des modèles par mélanges de gaussiennes en reconnaissance du locuteur nous a conduits à plusieurs observations, sur leur nature, leurs propriétés et sur les caractéristiques de leurs métriques induites, que nous présentons dans cette partie.

2.3.6.1 Structuration de l’espace acoustique par le GMM-UBM

Le GMM-UBM ne fait pas que modéliser une hypothèse "non-locuteur". Il structure l’espace acoustique (Scheffer and Bonastre, 2006) en régions de densité élevée, donc en classes probabilistes, par une technique d’apprentissage, hors toute considération phonologique ou linguistique. Le résultat obtenu peut donc être considéré, si la collec-tion est suffisamment vaste et variée, comme une classificacollec-tion probabiliste de l’espace acoustique de la voix humaine enregistrée, d’où son nom d’Universal Background Model.

2.3.6.2 Pertinence de la représentation par supervecteur

La représentation par supervecteur relève un point par gaussienne, la moyenne des trames affectées à cette gaussienne, avec relativisation de sa position par maximum à posteriori. La moyenne est choisie parce que ce paramètre est en fait le mode (valeur de plus grande densité) d’une distribution lorsque celle-ci est supposée symétrique. Sous hypothèses gaussiennes, sa manipulation en tant que paramètre de tendance centrale des observations est donc pertinente : le sous-vecteursgde la gaussiennegd’un super-vecteurset l’effectifng de trames affectées à cette gaussienne résument la distribution de ces trames sur cette gaussienne, assimilée à une loi symétrique de moyennesg, de covariance celle du mondeΣg, avec une fiabilité ng, la quantité d’informations qui a permis de l’estimer.

2.3.6.3 Facteur de confiance

Les études réalisées plus loin (5.2.3) montrent un lien, peu surprenant en fait, entre la quantité d’informations contenue dans chaque dimension de chaque gaussienne (c’est à dire une valeur ponctuelleτg,k,g∈[1,G],k ∈[1,F]) et la dispersion des données pour cette dimension et cette gaussienne (la variance, égale à Σg

k,k). La pondération des ef-fectifs entrenget le facteur de confiance peut alors s’interpréter comme une forme pré-coce destandardisationdes données dans la chaîne de traitement d’un système. Avant

mg mg

mg ´ 1

´ ng + t ng

FIGURE2.1 –L’adaptation à posteriori MAP relativise l’écart à la moyenne monde, mais préserve la direction.

les processus de normalisation que nous introduisons dans la suite, ce fait est à remar-quer.

2.3.6.4 Adaptation des moyennes

Comme nous l’avons indiqué précédemment, il s’est avéré que la seule adaptation des moyennes suffisait à atteindre les performances optimales. Dans la partie ultérieure 5.3.1, la comparaison des vecteurs d’accumulation de divers modèles nous a amené à produire des systèmes basés sur des adaptations des vecteurs de poids seuls. Les performances, bridées par la taille modeste des vecteurs (Gcoordonnées au lieu deGF, oùFest la dimension de l’espace acoustique), restent tout de même très intéressantes, eu égard au faible volume d’informations fournies.

L’utilisation du facteur de confiance met alors en évidence un aspect, important pour la suite, de l’adaptation de modèles. La formule 2.9 d’adaptation de moyenne conduit à l’expression :

b

µg = ng

ng+τmg+ τ

ng+τµg (2.17)

Cette expression montre que la moyenne adaptée sur chaque gaussienneµbgest une combinaison barycentrique de la moyenne µg (moyennedu monde) et de la moyenne empiriquemgissue des seules trames du segment considéré. Elle peut se reformuler :

b

µg =µg+ ng

ng+τ mgµg (2.18)

qui montre, comme l’indique la figure2.1, que la statistique d’ordre 1 empirique est relativisée sur chaque gaussienne suivant la quantité des informations qui l’a façonnée.

2.3. Modélisations basées sur les mixtures de gaussiennes

L’adaptation MAP peut alors se voir comme un ensemble de translations par gaus-sienne du modèle du monde dans la direction des données du locuteur. Elle fait appa-raître l’importance de la direction des données par rapport au paradigme UBM, c’est à dire d’une localisation qui n’est pas prioritairement absolue (euclidienne) mais ra-diale : MAP se permet de déplacer les données empiriques par rapport au monde, mais conserve intacte leur direction par rapport à ce dernier. Ce point mérite d’être souli-gné, car nous retrouverons plusieurs fois par la suite la prédominance de la localisation radialesur l’absolue, notamment dans la chaîne de traitement des systèmes i-vectors dé-crite à la section2.5 de ce chapitre. Cette prédominance se retrouve dans le calcul de scoreLLR-by-frame, comme le montre le paragraphe suivant.

2.3.6.5 Le score LLR-by-frame : proximités absolue et directionnelle

L’analyse de la mesure de proximité du LLR-by-frame n’est pas simple, du fait des sommes de logarithmes intervenant dans la formule. On peut toutefois tirer quelques enseignements du cas simplifié où chaque trame est alignée binairement à une gaus-sienne. La part associée à cette tramex, associée à la gaussienneg, est :

llr=log

wgNx|µ(gs),Σg

log wgN x|µg,Σg

(2.19) qui se développe en :

llr= −12x−µ(gs)

t

Σ1 g

x−µ(gs)

+ 1

2 x−µgtΣ1

g x−µg

+C (2.20)

oùCest une constante indépendante du test réalisé. La part du score quadratique associée à cette gaussienne se résume à un score linéaire enx:

x−µgtΣ1 g

µsgµg

12µsgµg

t

Σ1 g

µsgµg

(2.21)

ou plus simplement

= Dx−µg,µsgµg

E

Σg112µsgµg

Σ1

g

(2.22) où les notationshiΣg1 etkkΣg1 définissent le produit scalaire et la norme au sens de la matrice de précisionΣ1

g .

Pour un locuteur-cible fixé, la décision dépend du produit scalaire entre les deux vecteursx−µg et µsgµg. La figure 2.2 illustre ce propos. L’estimation initiale de la moyenne du locuteur avant adaptation MAP est également représentée.

(s)

x

m

g

m

g

gaussienne g

avant MAP ...

FIGURE2.2 –Sur une gaussienne, le score LLR-by-frame doit mesurer la proximité entre la trame de test x et le modèle du locuteurµ(s)g adapté par MAP.

En notant p(µsgµg) (x)la projection oblique (suivant Σg1) de la trame x sur l’axe porté par le vecteur µsgµg, la mesure précédente se ramène à celle de l’abscisse de p(µsgµg) (x)−µgsur cet axe.

La figure2.3affiche les courbes de niveaux de la mesure de l’équation2.22. En grisé, sont affichées celles de la même mesure, mais effectuée sur l’estimation de moyenne de savant adaptation MAP. On voit que :

– les courbes de niveau sont bien les droites correspondant à l’image inverse d’un projeté sur l’axe

µsgµg

suivant la direction oblique deΣ1 g ,

– la valeur 0 de non-décidabilité est celle correspondant au milieu deµsgetµg. Une valeur positive est obtenue au-delà, dans la direction du modèle des,

– la valeur tend vers l’infini avecx, mais ce cas ne peut se produire, la gaussienne gn’étant pas alors la plus vraisemblable.

Ce constat est obtenu sur le cas simplifié d’un alignement de trame uni-gaussien.

Mais, d’une part, les expériences s’appuyant sur cette configuration approchent les meilleures performances et, d’autre part, l’alignement par gaussienne est, comme nous l’avons indiqué, un pré-supposé du développement mathématique rigoureux de la Fac-tor Analysis, présentée plus bas.

L’adaptation MAP des moyennes ne peut que les rapprocher de la moyenne monde.

Ceci entraîne, comme l’indique la comparaison avec les droites grisées, un basculement plus rapide de la mesure dans les positifs (voir courbes 0), mais aussi son tassement en

2.3. Modélisations basées sur les mixtures de gaussiennes

(s)

m

g

m

g

avant MAP ...

FIGURE2.3 –Lignes de niveaux du LLR-by-frame dans le cas simplifié d’alignement binaire de la trame à une gaussienne. En trait fin grisé les valeurs avant adaptation MAP, en trait épais après cette procédure.

s’éloignant de 0. La mesure est ainsi relativisée.

Ces considérations montrent que la proximité trames / modèle locuteur-cible doit s’entendre moins comme absolue que comme relative à une direction suivant l’axe de la translationµsgµg. L’adaptation MAP, qui modifie la position absolue, préserve soi-gneusement cette direction.

Cette importante de la proximité directionnelle doit rester à l’esprit, car elle reste sous-jacente lors de l’analyse, non plus de l’espace des représentations en haute dimen-sion (supervecteurs, ...), mais de sa "verdimen-sion" compressée (i-vectors).

Dans le document The DART-Europe E-theses Portal (Page 46-51)