• Aucun résultat trouvé

3.2 La paramétrisation du signal de parole

3.3.4 Estimation robuste des modèles de locuteurs

Deux problèmes majeurs subsiste en VAL pour estimer correctement un modèle de locuteur : la faible quantité de données d’apprentissage et les variations du canal de transmission entre les enregistrements. Des techniques ont été développées pour répondre à ces problèmes.

3.3.4.1 La faible quantité de données pour estimer un modèle de locuteur

Nous avons introduit l’utilisation du modèle du monde, pour compenser le pro-blème de la faible quantité de données d’apprentissage et pour l’estimation des GMM de locuteurs. Malgré l’utilisation de l’adaptation MAP du modèle du monde, la qua-lité des modèles de locuteurs n’est pas optimale. En effet, l’adaptation MAP modifie les moyennes de Gaussiennes les unes indépendamment des autres. De cette manière,

Gaussiennes du modèle du monde Données d'apprentisage

Gaussiennes adaptées par MAP

FIG.3.5 –Illustration de l’adaptation MAP d’un GMM à 3 composantes.

certaines Gaussiennes peuvent rester inchangées du fait de l’absence de données d’ap-prentissage. Une solution consiste à faire en sorte que toutes les Gaussiennes (même celles sans données associées) soient adaptées en utilisant toutes les données d’appren-tissage.

Pour cela, [Kuhn et al.,1998] émet l’hypothèse qu’un GMM de locuteur peut être décomposé comme étant une combinaison linéaire d’un certain nombre de GMM de locuteurs de base. Cette méthode est une extension de l’adaptation MAP, appelée eigen-voice MAP, en référence à la technique originelle utilisée en reconnaissance de visage eigenfaces[Turk et Pentland,1991], dont elle s’inspire. En général, l’adaptation MAP du modèle du monde est réalisée sur les paramètres de moyenne du GMM. La décomposi-tion eneigenvoicesest réalisée sur les super-vecteurs2de moyennes des GMM locuteurs.

La décomposition d’un supervecteurSVsdu locuteur est définie comme :

SVs =SVw+V.ys (3.10)

où SVW est le supervecteur du modèle du monde, ys est un vecteur regroupant les coefficients de la combinaison, et où les colonnes de la matriceV sont les vecteurs cor-respondant aux locuteurs de base, appelés voix propres. L’intérêt de ce formalisme ré-side dans deux observations : la première consiste à remarquer que la matriceV, ayant

2Le supervecteur de moyenne d’un GMMSV(λ)est la concaténation des paramètres de moyenne d’un GMMλ. Sa dimension est :dim(SVλ) =Nb Gaussiennes (M)Nb Paramètres (D)=M D.

beaucoup de paramètres, est estimée en utilisant une large quantité de données prove-nant d’un grand nombre de locuteurs (indépendamment du locuteur à modéliser). Et la deuxième, où le vecteurys, contenant peu de paramètres, est estimé de manière ro-buste en utilisant les données d’apprentissage du locuteur. Les colonnes de la matriceV sont les vecteurs propres de la matrice de covariance des supervecteurs de moyennes (plusieurs centaines en pratique). Elles peuvent être calculées par maximum de vrai-semblance [Kenny et al.,2005a] ou par l’analyse en composantes principales (ACP). Le vecteurys est estimé avec les données d’apprentissage du locuteur par maximum de vraisemblance une fois la matriceV calculée.

3.3.4.2 La compensation de canal

Les modèles de locuteur, réalisés par adaptation MAP du modèle du monde, sont adaptés au locuteur mais aussi aux conditions d’enregistrements. La variabilité inter-session est intégrée dans les modèles. Par exemple, si les données d’apprentissage d’un modèle de locuteur proviennent d’une conversation téléphonique, le modèle du locu-teur est spécifique au loculocu-teur, mais aussi au canal téléphonique. Ceci pose problème lors du calcul de vraisemblance entre des données enregistrées sur des types différents de canaux de transmission, et ce modèle de locuteur.

L’approchefeature mapping, introduite par [Reynolds,2003], exploite la connaissance du type de canal d’enregistrement, pour projeter les trames vers un espace non in-fluencé par le canal de transmission. Une transformation est appliquée pour compen-ser cette projection et reprojeter les paramètres dans un espace indépendant du canal de transmission. Pour cela deux modèles GMM sont utilisés, le modèle du monde, in-dépendant du canal et un modèle in-dépendant du canal (CD, Channel Dependent), appris sur une quantité de données suffisantes, ce dernier pouvant être considéré comme un sous espace du modèle du monde. En pratique, il est réalisé par adaptation MAP du modèle du monde avec des données dépendantes du canal considéré. La normalisation du vecteur de paramètres est alors réalisée suivant l’équation :

~

xnorm= (~x−µCDi ) σiW

σCDiWi (3.11)

ouiest l’indice de la Gaussienne de plus forte vraisemblance dans le modèle du monde etσietµi les moyennes et variances de Gaussiennes d’indiceidans les modèles indé-pendant(W)et dépendant(CD)du canal. La connaissance du canal d’enregistrement pour le choix du modèle dépendant du canal n’est pas toujours disponible. Un test de maximum de vraisemblance entre le signal et plusieurs modèles dépendant du canal permet de déterminer le canal le plus probable pour l’enregistrement considéré. L’in-convénient de cette méthode est qu’elle ne prend en compte qu’un certain nombre de canaux de transmission connusa priori.

[Kenny et Dumouchel., 2004] introduit la méthode eigenchannel pour caractériser l’information spécifique du canal de transmission (inter-session) dans la modélisation GMM des locuteurs. Cette technique peut être vue comme une extension dufeature

mapping au cas continu (dans ce cas les canaux ne sont plus en nombre fini mais un espace continu). Les deux méthodes,eigenvoiceset eigenchannel, sont conjuguées dans le formalisme dujoint factor analysis[Kenny et al.,2005b;Kenny et Dumouchel.,2004].

Ce formalisme propose une décomposition du modèle du locuteur selon trois compo-santes :

– une indépendante du locuteur et de la session, – une dépendante du locuteur,

– une dépendante de la session.

La composante indépendante du locuteur et de la session est introduite par l’utilisa-tion du modèle du monde. Les données d’apprentissage du locuteur, spécifiques au locuteur, mais aussi à la session d’enregistrement, introduisent les deux autres compo-santes. Pour une sessionhd’enregistrement du locuteurs, le super-vecteur du locuteur dépendant de la session et du locuteur s’exprime :

SVh,s=SVW +V.ys+U.xh,s (3.12) où V est la matrice contenant les eigenvoices, ys un vecteur contenant les speaker-factors, U est la matrice contenant les eigenchannel, et xh,s un vecteur contenant les channel-factors.

En pratique, leseigenchannelpeuvent être estimés par l’analyse en composante prin-cipale ou par maximum de vraisemblance [Kenny et al.,2005a], à partir de la matrice de covariance des supervecteurs de plusieurs locuteurs, et avec plusieurs sessions par locuteur. Lorsque seule la décomposition eneigenchannelest réalisée (appeléeLFA, La-tent Factor Analysis), seule la variabilité inter-session est estimée. L’ajout de la décom-position selon leseigenvoicesa prouvé ses bons résultats lors des dernières évaluations NIST SRE (2008)3. Le retrait de la composante, induite par le canal de transmission par la technique LFA, a permis de réduire grandement les taux d’erreurs des systèmes de VAL4. Les performances de la méthode réside dans une bonne estimation de la matrice U (généralement de rang faible : de l’ordre de 40). De très nombreux enregistrements sont alors nécessaires (en général une vingtaine de session pour une centaine de locu-teurs).

Cette méthode a été appliquée de différentes façons dans les système de VAL. Ainsi [Vogt et al.,2005] propose d’estimer l’influence du canal dans le signal de test. Le ca-nal du modèle d’apprentissage est ensuite remplacé par celui estimé sur le test, pour projeter l’apprentissage et le test dans le même espace. Il est à noter que le rapport de vraisemblance est à modifier pour compenser le fait que le modèle générique n’est pas décomposé selon le formalisme dujoint factor analysis.

[Vair et al.,2006] et [P. Kenny et al.,2006] proposent de normaliser l’espace des para-mètres en retirant la contribution du canal directement sur les vecteurs acoustiques.

Une autre méthode, appeléesymmetrical compensation par ses auteurs [Matrouf et al., 2007], propose de retirer les variations du canal dans l’espace des paramètres, pour les énoncés de test, et dans l’espace des modèles pour l’apprentissage. Cette méthode a

3Pour un rang élevé de la matriceV, de l’ordre de 300.

4La méthode a régulièrement été évaluée lors des évaluations NIST SRE

démontré de meilleurs résultats que la compensation de canal complètement réalisée dans l’espace des paramètres, lorsqu’ elle est utilisée dans le système LIA08.