• Aucun résultat trouvé

etape r´e estime les param`etres comme une somme pond´er´ee de l’a priori et de l’estimation par maximum de vraisemblance de cette distribution. Le crit`ere MAP permet d’adapter chaque distribution de fa¸con pr´ecise, mais n´ecessite une quantit´e relativement importante pour obtenir une estimation robuste du mod`ele. Ce ne sera pas le cas pour l’extraction des i -vecteurs (cf. chapitre 3.3.1) qui peut ´egalement ˆetre vu comme une adaptation du mod`ele du monde.

Ce paradigme a ´et´e largement utilis´e du fait que les GMMs utilisent des distributions `a covariance diagonale qui simplifient les calculs et que l’adaptation MAP utilis´ee ne modifie que les param`etres de moyenne des distributions, laissant les poids des distributions et les matrices de covariances inchang´ees d’un mod`ele `a l’autre. De ce fait, les param`etres sp´ecifiques `a un locuteur donn´e se limitent aux moyennes des distributions de son GMM, soit un ensemble de C vecteurs de dimension d qui sont repr´esent´es sous une forme concat´en´ee appel´ee super-vecteur [Kinnunen et Li, 2010].

Chaque locuteur est ainsi repr´esent´e par un super-vecteur dans un espace de grande dimension dont le centre est le super-vecteur du mod`ele du monde. Il est possible dans cet espace de classifier les locuteurs ou tout autre ph´enom`ene acoustique mod´elis´e par un m´elange de Gaussienne [Campbell et al., 2006; Dehak et al., 2009].

2.3. Discussion

Depuis les ann´ees 1980, les mod`eles Gaussiens simples ou en m´elange ont ´et´e uti-lis´es tr`es largement dans tous les domaines de traitement automatique de la parole pour mod´eliser des ph´enom`enes vari´es (s´enones, phon`emes, parole, non-parole, musique, locu-teur, langue...)

Les principaux inconv´enients de ces mod`eles sont les suivants : 1. l’estimation de leurs param`etres n´ecessite un algorithme EM ;

CHAPITRE 2. DISTRIBUTIONS GAUSSIENNES ET MIXTURES

2. le nombre de distributions Gaussiennes n´ecessaires pour mod´eliser un ph´enom`ene est difficile `a estimer ;

3. le paradigme UBM-GMM implique que tous les ph´enom`enes `a comparer aient ´et´e mod´elis´es avec la mˆeme complexit´e.

4. Les mod`eles Gaussiens et les GMMs ne permettent pas de mod´eliser la structure temporelle du signal de parole et il est n´ecessaire d’utiliser des mod`eles de Markov (cf. Partie III) ;

5. l’estimation robuste de leurs nombreux param`etres requiert une grande quantit´e de donn´ees ;

6. la mod´elisation est tr`es sensible aux perturbations induites par le bruit ambiant ou par les distorsions dues au canal de transmission.

Le point 4 est discut´e dans la partie III. Le Factor Analsyer, approximation de la distri-bution Gaussienne `a covariance pleine, et ses d´eriv´es qui permettent de palier aux points 5 et 6 est d´ecrit dans la suite de cette partie.

CHAPITRE 3

Un compromis : le Factor Analyser

Le Factor Analyser a marqu´e la reconnaissance du locuteur depuis 2004 et plusieurs approches se sont succ´ed´ees depuis les Eigen Voices [Kuhn et al., 1998] utilis´ees pour la reconnaissance de la parole, les Eigen Channels [Kenny et Dumouchel, 2004; Matrouf et al., 2007] utilis´es pour supprimer la variabilit´e li´ee au canal, les i -vecteurs qui o↵rent une repr´esentation en dimension r´eduite d’un segment audio et les versions compl`etes du Joint Factor Analysis [Kenny et al., 2007a,b] ou de l’analyse lin´eaire discriminante probabiliste (PLDA) [Prince et Elder, 2007] qui visent `a s´eparer le locuteur du canal et du bruit.

Cette partie pr´esente bri`evement la th´eorie du Factor Analyser et de deux de ses applications en reconnaissance du locuteur : la PLDA et l’espace de variabilit´e totale (Total Variability Space) des i -vectors. La description suit une logique de complexit´e plutˆot que temporelle et ne traite que des deux m´ethodes sur lesquelles ont port´e mes travaux.

3.1. Le mod`ele du Factor Analyser mono-Gaussien

Le Factor Analyser est un compromis entre la distribution Gaussienne `a covariance pleine qui n´ecessite un nombre important d’observations pour estimer les d⇥(d 1)2 pa-ram`etres libres de sa matrice de covariance, et la distribution `a covariance diagonale tr`es contrainte.

3.1.1 Description du mod`ele

Dans le compromis du Factor Analyser , la matrice de covariance de la distribution Gaussienne est d´ecrite par (r + 1)⇥ d param`etres, o`u r << d. Le nombre de param`etres `

a estimer est donc compris entre d (matrice diagonale) et d(d 1)2 (matrice pleine). La matrice de covariance est de la forme : T + ⌃ o`u est une matrice portrait de rang r et de dimension d⇥ r et ⌃ est une matrice diagonale. L’´equation qui d´ecrit la distribution Gaussienne devient alors :

P r(x) =Nx(µ, T + ⌃) (3.1)

Dans ce mod`ele, on consid`ere que la variabilit´e r´eside principalement dans un sous espace lin´eaire de dimension r´eduite : r . La distribution Gaussienne est expliqu´ee par une variable cach´ee de dimension r , qui r´eside dans ce sous-espace lin´eaire. Cette variable est projet´ee dans l’espace des observations par une op´eration lin´eaire : la multiplication par la matrice `a laquelle s’ajoute un bruit Gaussien dont la distribution est centr´ee, de covariance ⌃. Un mod`ele de graphique du Factor Analyser est donn´e dans la figure 3.1.

x h Φ, Σ

Figure 3.1 – Mod`ele graphique du Factor Analyser .

La description math´ematiques compl`ete du Factor Analyser mono-Gaussien est donn´ee en annexe A.

3.1.2 Discussion

Le Factor Analyser a ´et´e largement exploit´e dans le cadre de la reconnaissance du locuteur [Dehak et al., 2009; Kenny et al., 2007a; Kenny et Dumouchel, 2004; Prince et Elder, 2007] ou de la langue [Dehak et al., 2011b]. Ce mod`ele assure un bon compromis entre complexit´e et pr´ecision et pr´esente deux int´erˆets principaux :

— il peut ˆetre utilis´e pour de la r´eduction de dimension ;

— ses d´eriv´es permettent de d´evelopper des mod´elisations discriminantes (voir 3.2) ou multi-Gaussiennes (voir 3.3).

Ce mod`ele est utilis´e dans les Eigen Voices [Kenny et al., 2005a] et le Joint Factor Analysis [Kenny et al., 2007a] qui ne seront pas discut´es dans ce manuscrit par souci de concision,

CHAPITRE 3. UN COMPROMIS : LE FACTOR ANALYSER

car mes travaux ne portent pas sur ces mod`eles. Il a ´egalement permis le d´eveloppement des Eigen Channels (cf. section 3.3.3) et des i -vectors (cf. 3.3). Enfin le Factor Analyser est ´egalement `a l’origine de l’analyse lin´eaire discriminante probabiliste (PLDA) qui est d´ecrite ci-apr`es.