• Aucun résultat trouvé

locuteurs. Le rapport de vraisemblance pour un signalSet un modèle du locuteur IX devient :

LR(S,H0,H1) = p(S|X)

p(S|X¯) ≈ LR(S,X,W) = p(S|X)

p(S|W) (7.8) Il faut noter que, de la même façon que pour les cohortes d’imposteurs, le choix des locuteurs dont les données sont utilisées pour l’entraînement de l’UBM est primordial.

Il est généralement considéré que plus la variabilité et le nombre de locuteurs sont élevés, meilleur sera le modèle UBM. La quantité de données disponible et le temps d’apprentissage d’un tel modèle fait cependant resurgir la question de la sélection des données utilisées pour apprendre le modèle du monde, que ce soit la sélection des locuteurs ou des vecteurs de paramètres.

7.1.4 Calcul des scores

En considérant le paradigme GMM/UBM, le score obtenu par une séquence de test O={ot},t ∈[1,T]pour une identité clamée IXest donnée par : p(ot|X)et p(ot|W)sont respectivement les vraisemblances du vecteur de paramètres ot pour les modèles du locuteur X et du monde W. Le score calculé est l’espérance mathématique logarithmique d’un rapport de vraisemblance (LogLikelihood Ratio -LLR) sur le segment de testO.

Considérant qu’une première normalisation résulte de l’utilisation du modèle du monde à travers le rapport de vraisemblance, la normalisation sur le segmentOn’est pas in-dispensable mais permet de comparer des segments de longueurs différentes.

Le calcul de ce score n’est pas symétrique. Soient deux segments de parole donnés : XetY, les deux modèles GMMsX etYappris sur ces segments et un modèle du monde W, l’asymétrie du calcul des scores est visible dans l’inéquation 7.10 :

1

7.2 Place des modèles de locuteurs dans l’espace acoustique

Les modèles GMMs permettent de représenter les locuteurs dans un espace acous-tique de grande dimension. Les performances des systèmes de reconnaissance du locu-teur dépendent de la pertinence de la représentation du monde et des loculocu-teurs dans cet espace. Cette section traite de la structure de l’espace acoustique et des méthodes état-de-l’art permettant d’obtenir une modélisation pertinente des locuteurs.

7.2.1 Apprentissage du modèle du monde

Le modèle du monde est appris à partir de plusieurs centaines d’heures de parole provenant d’un maximum de locuteurs différents. Son apprentissage repose sur l’al-gorithme d’Espérance Maximisation (Expectation-Maximisation algorithm - EM) avec comme critère d’optimisation, le critère de maximum de vraisemblance (Maximum Li-kelihood - ML). Celui-ci permet de maximiser la vraisemblance des données d’appren-tissage par rapport au modèle GMM du monde. Cet algorithme itératif converge vers un maximum local et présente l’avantage d’augmenter la vraisemblance des données avec le modèle estimé à chaque itération. Une description approfondie de l’algorithme EM est donnée dans l’annexe B.

7.2.2 Adaptation de modèle, critère du Maximum a Posteriori

L’algorithme EM−ML, utilisant un critère de maximum de vraisemblance, n’est pas adapté à l’apprentissage des modèles de locuteurs. La quantité de données dispo-nible pour un locuteur n’est pas suffisante. Une méthode courante consiste à apprendre le modèle GMM d’un locuteur en adaptant le modèle du monde avec les données de ce locuteur. Différents critères d’adaptation existent dans la littérature. La méthode la plus utilisée en reconnaissance du locuteur est celle du Maximum a Posteriori (MAP) (Gauvain et Lee, 1994), (Reynolds et al., 2000).

L’adaptation selon le critère MAP utilise l’algorithme EM, mais considère un modèle a priori. Si Θest le vecteur de paramètres qui doit être estimé d’après les donnéesX avec la fonction de densité de probabilité f(.|Θ) et si g est la fonction de densité de probabilité a priori deΘ, alors le vecteur de paramètres,ΘMAP, estimé est :

ΘˆMAP= argmax

Θ p(Θ|X) =argmax

Θ p(Θ|X)p(Θ) (7.11) L’adaptation MAP peut être interprétée comme une modification des paramètres du modèle GMM du monde en vue de le « rapprocher » d’un modèle appris sur l’en-semble des données d’apprentissage.

Chaque paramètre de chaque distribution est adapté par une transformation spé-cifique, indépendante des autres paramètres. Cette adaptation indépendante nécessite une quantité de données importante pour estimer chaque paramètre avec une confiance suffisante.

En pratique, pour un mélange de Gaussiennes, les nouveaux paramètres sont esti-més par :

µˆi =αµiEi(X) + (1−αµi)µi (7.12) σˆi2=ασiEi(X2) + (1−ασi)(σi2+µ2i)−µˆ2i (7.13)

7.2. Place des modèles de locuteurs dans l’espace acoustique

ˆ

wi =αwi ni

T + (1−αwi )wi

γ (7.14)

γ permet d’obtenir une somme de poids égale à 1, ni représente l’occupation de la Gaussiennei, T est le nombre total de trames d’apprentissage, Ei(X)et Ei(X2) sont respectivement les moments d’ordre 1 et 2 des données d’adaptation obtenues par maximum de vraisemblance.

Le coefficientαi (�=µ,σouw) est égal à : αi = ni

ni+r (7.15)

oùrest un facteur de régulation. Ce facteur indique en pratique la confiance accordée aux statistiques provenant des données d’apprentissage par rapport à un a priori que sont les statistiques issues du modèle du monde. Le facteurrcorrespond au nombre de trames d’apprentissage nécessaires à l’adaptation d’un paramètre pour accorder le même poids au paramètre appris d’après les données d’apprentissage qu’au paramètre a priori (si l’occupation de la Gaussienne considérée est égale à ce paramètre, alors le paramètre résultant du MAP est une moyenne du paramètre a priori et du paramètre appris par maximum de vraisemblance). En pratique, seules les moyennes des distri-butions Gaussiennes sont adaptées pour la reconnaissance du locuteur.

7.2.3 Autre formulation de l’estimation MAP et EigenVoices

Dans la suite, nous appelons super-vecteur le vecteur contenant tous les paramètres de moyennes d’un modèle GMM. Soit un mélange de GaussiennesSàNcomposantes de dimensiond. Le vecteur de moyennes de la distributionidu mélange est de la forme :

µi = [µi1...µid] (7.16)

Alors, le super-vecteur associé au modèleSet notéµ(S)est de la forme :

µ(S) = [µ1µ2...µN] = [µ11µ12...µ1dµ21...µNd] (7.17) L’apprentissage d’un modèle de locuteur avec le critère MAP, à partir du modèle du mondeW, peut alors être mis sous la forme :

µ(S) =µ(W) +D Z (7.18)

où la matriceD, diagonale dans le cas de l’adaptation MAP, vérifieI =rµDtΣ1DoùI est l’identité,Σla matrice de covariance du mélange de Gaussiennes etrµest le facteur de régulation du MAP.

Remarque Le termeµ(W)est indépendant du choix du locuteur S et des données d’apprentissage utilisées, donc de la session d’apprentissage.

L’absence de prise en compte de l’inter-corrélation entre les Gaussiennes peut être légitimée par le rôle structurant du modèle du monde dans les approches génératives, considérant qu’un modèle du monde bien appris « segmente » l’espace acoustique en régions cohérentes.

Dans certaines approches, comme par exemple (Zavaliagkos, 1995), la matriceDest considérée sous sa forme pleine. L’approche parEigenVoicesouvoix propresdéveloppée par Kuhn et al. (1998) s’inspirent des travaux de Turk et Pentland (1991a) (cf. section 4.1.2). Elle permet de simplifier l’estimation de ces paramètres en formulant l’hypo-thèse selon laquelle la variabilité locuteur est restreinte à un sous-espace acoustique de dimension réduite. La formulation de cette hypothèse prend alors la forme :

µ(S) =µ(W) +V Y (7.19)

où la matriceV est une matrice rectangulaire pleine de rang faible. Le rang faible cor-respond à la dimension du sous espace au sein duquel se trouvent les modèles des locuteurs. Chaque locuteur est caractérisé par un vecteurY de dimension réduite. Les colonnes de la matriceVconstituent lesvoix propreset les composantes deYsont appe-léesspeaker factors.

Il existe une similitude entre les modèles d’ancrage (cf. partie 3.2.1) et lesvoix propres.

La différence entre ces deux approches réside dans l’espace d’application de la dé-composition. Lesvoix propressont utilisées pour obtenir la modélisation d’un locuteur, quand les modèles d’ancrage permettent une représentation du locuteur dans l’espace des scores.

7.2.4 Mise en évidence de la composante canal

L’équation 7.19 présente le modèle de locuteur comme la somme d’une composante invariante (le modèle du monde) et d’une composante spécifique au locuteur considéré.

Les variations acoustiques dues au canal, ou à la spécificité de la session d’apprentis-sage, n’apparaissent pas explicitement dans ce formalisme.

Différentes approches, développées ces dernières années, utilisent le postulat se-lon lequel tout super-vecteur provenant de l’enregistrement d’un locuteurS dans des conditionsEpeut être mis sous la forme :

µ(S) =s+c (7.20)

oùsest une composante dépendante du locuteurS, etcappelée composante canal, est un vecteur qui ne dépend que des conditions d’enregistrement E. Ce formalisme est illustré par la figure 7.1.

7.2. Place des modèles de locuteurs dans l’espace acoustique

s µ(S)

c

FIG.7.1: Plusieurs approches telles que la synthèse de modèles de locuteurs ou les EigenChannels représentent un modèle de locuteur µ(S) comme la somme de deux composantes s et c, la première ne dépendant que du locuteur et la deuxième que des conditions d’enregistrement.

Modélisation discrète de la composante canal

Dans (Teunen et al., 2000) les auteurs considèrent que le vecteurcest la composante canal spécifique à chaque couple microphone/canal. Dans ce contexte, la suppression de la composante canal est rendue difficile par le caractère discret de la composante c. Sous cette hypothèse, la suppression de la composantec nécessite la connaissance explicite de tous les canaux qui peuvent intervenir.

Modélisation continue de la composante canal

La théorie des EigenChannels (Kenny et al., 2003), (Burget et al., 2007) reprend l’ex-pression précédente du super-vecteur deS(cf. equation 7.20). Toutefois, elle considère que la composante canalcn’est plus discrète, mais qu’elle appartient à un sous-espace acoustique de faible dimension et qu’elle peut être exprimée de la façon suivante :

c=U X (7.21)

oùUest une matrice rectangulaire de rang faible. Les vecteurs propres non-nuls de la matriceUUTsont appelés EigenChannels. L’interprétation physique de cette approche équivaut à considérer tout canal comme une combinaison linéaire des colonnes de la matriceU.

7.2.5 Joint Factor Analysis

Dans le formalisme du Joint Factor Analysis, introduit par Kenny et Dumouchel (2004), l’expression du super-vecteur d’un locuteur, pour une session donnée, devient

la somme de quatre termes :

µ(S) =µ(W) +U X+V Y+D Z (7.22) Dans cette expression, le termeYreprésente le locuteur dans le sous espace acoustique de variation locuteur,Xest la représentation de la session, ou composante canal, dans le sous espace de variation canal, le termeµ(W)est indépendant du locuteur et de la session et le termeD Zest appris de la même façon que le termeD Zdu MAP (cf. équa-tion 7.18). La puissance de cette approche réside dans les simplificaéqua-tions théoriques réalisées par Kenny et al. (2005) pour l’estimation des paramètres des matricesV, et principalementU, qui permettent une modélisation continue des variabilités locuteur et session.