• Aucun résultat trouvé

Hypoth` eses et mod` eles de variabilit´ e totale

3.3 Extension multi-Gaussienne du Factor Analyser

3.3.1 Hypoth` eses et mod` eles de variabilit´ e totale

Comme nous l’avons vu dans la section 3, le Factor Analyser est une approximation de distribution Gaussienne mono-modale. L’´equation g´en´eratrice du mod`ele Factor Analyser `a une Gaussienne est la suivante :

x = µ + h + ✏ (3.3)

Une repr´esentation graphique de ce mod`ele est donn´ee par la figure 3.5. Cette figure illustre le fait que la variable cach´ee h qui d´ecrit la classe acoustique est de dimension r´eduite par rapport `a l’observation x. Le Factor Analyser peut donc ˆetre utilis´e pour com-presser l’information.

Une Gaussienne seule, mˆeme `a matrice de covariance pleine, n’est pas suffisante pour mod´eliser la complexit´e de la distribution de vecteurs acoustiques produits par un locu-teur ou dans une langue. Les GMMs permettent d’obtenir une repr´esentation plus pr´ecise de cette distribution, mais produisent des super-vecteurs de dimension trop importante. Comme expliqu´e dans la section 2.2.2, les super- vecteurs sont la concat´enation des vec-teurs moyens des distributions Gaussiennes d’un GMM. En supposant que chaque

Figure 3.5 – Interpr´etation graphique du mod`ele Factor Analyser `a une Gaussienne. L’observation x est la somme d’un vecteur moyen µ avec une composante li´ee `a la classe acoustique qui g´en`ere l’observation : h multipli´ee par la matrice de facteurs plus un vecteur de bruit ✏.

sienne de ce GMM a une matrice de covariance approxim´ee par un Factor Analyser , on obtiendrait le mod`ele repr´esent´e par la figure 3.6. Soit un super- vecteur M repr´esentant un GMM. Chacune des C composantes du mod`ele GMM se di↵´erencie du mod`ele du monde par son vecteur moyen Mc qui est d´ecrit par un mod`ele Factor Analyser comme la somme d’un vecteur moyen µc avec le terme chc o`u la matrice c est la matrice de facteurs du Factor Analyser pour la cieme Gaussienne du GMM et hc est la variable cach´ee qui d´ecrit la classe acoustique. Enfin, le terme de bruit ✏c qui suit une distribution de probabilit´e Gaussienne P (✏c) =N (✏c|O, ⌃c) s’ajoute `a la somme.

Figure 3.6 – Interpr´etation graphique du mod`ele Factor Analyser pour un GMM. L’observation M est un super-vecteur, concat´enation de C vecteurs moyens. Chaque vecteur Mc est la somme d’un vecteur moyen µc avec une composante li´ee `a la classe acoustique qui g´en`ere l’observation : hc multipli´ee par la matrice de facteurs c, plus un vecteur de bruit ✏c.

Le mod`ele d´ecrit ci-dessus est une mixture de Factor Analyser . Dans le cadre de la reconnaissance du locuteur, on souhaite que le super-vecteur M soit d´ependant d’une unique variable cach´ee h qui expliquerait de fa¸con unique l’ensemble des distributions du

CHAPITRE 3. UN COMPROMIS : LE FACTOR ANALYSER

mod`ele GMM. Cette nouvelle hypoth`ese correspond `a la figure 3.7 dans laquelle le vecteur moyen de chaque Gaussienne du GMM : Mc est obtenu grˆace `a un unique vecteur cach´e h qui ne d´epend plus de la distribution, mais est commun `a l’ensemble des distributions du mod`ele.

Figure 3.7 – Utilisation du Factor Analyser en partageant la variable cach´ee entre toutes les distributions du mod`ele GMM. L’observationM est un super-vecteur, concat´enation de C vecteurs moyens. Chaque vecteurMc est la somme d’un vecteur moyen µc avec une composante unique li´ee `a la classe acoustique qui g´en`ere l’observation : h multipli´ee par la matrice de facteurs c plus un vecteur de bruit ✏c. La variable cach´ee h est partag´ee entre toutes les distributions du GMM.

Dans ce mod`ele, nous pouvons utiliser des notations group´ees :M pour le super-vecteur du GMM, µ pour le super-vecteur de moyennes, pour la matrice de facteurs qui est la concat´enation des C matrices c et ✏ pour le super-vecteur de bruit. Nous retrouvons ici une forme semblable au Factor Analyser mono-Gaussien de la figure, 3.5 mais il faut noter que les vecteurs M et ✏ ne suivent pas une distribution Gaussienne comme c’est le cas dans le, Factor Analyser mais sont d´ecrits par un GMM. Dans ce mod`ele, la variable cach´ee h est partag´ee entre toutes les distributions Gaussiennes du GMM.

Enfin dans le cadre de la reconnaissance du locuteur ou de la langue, les observations sont des s´equences de vecteurs acoustiques X = {xt}t2[1,N]. La derni`ere hypoth`ese qui conduit au paradigme de l’espace de variabilit´e totale consiste `a partager l’unique variable cach´ee h `a travers toute la s´equence de vecteurs observ´es au cours du temps. Dans ce mod`ele, le vecteur moyen µ, la matrice de facteurs ne sont pas modifi´es. Le super-vecteur est obtenu par adaptation MAP du mod`ele du monde, et de ce fait exploite l’information de l’ensemble des vecteurs acoustiques de la s´equence.

Dans le mod`ele de variabilit´e totale, la variable cach´ee h est partag´ee par les C distri-butions Gaussiennes du GMM et par les N vecteurs acoustiques de la s´equence temporelle. La repr´esentation obtenue, appel´ee i -vecteur correspond au Maximum A Posteriori de la variable cach´ee h. Pour illustrer l’e↵et de compression du mod`ele de variabilit´e totale, consid´erons un segment d’une minute de parole repr´esent´e par 6000 vecteurs acoustiques de dimension 50. Le i -vecteur de dimension 500 (dimension standard en reconnaissance du locuteur) compresse l’information des 300000 coefficients acoustiques de la s´equence, soit un taux de compression de 1, 6 ˙10 4.