• Aucun résultat trouvé

1.3 Principes de modélisation d’un locuteur par un système de RAL

1.3.2 ALIZE/SpkDet : exemple d’une approche UBM-GMM

ALIZE/SpkDet est une plate-forme biométrique libre de droit principalement dévelop-pée au Laboratoire Informatique d’Avignon. Ce système repose sur une approche générative qui utilise des modèles multi-gaussien (GMM) dont la construction s’ap-puie sur unUniversal Background Modelou modèle du monde (UBM).

Modèle multi-gaussien et Modèle du monde

Le modèle du locuteur est résumé par unmélange de gaussiennes(GMM) (Reynolds, 1995) de dimensionM10. Le locuteur est ainsi caractérisé par une loi de densité de prob-abilité dans l’espace des paramètres acoustiques. Pour un vecteur de paramètres xde dimensionD, la loi de densité est définie par l’équation1.5.

p(x,H) =

M i=1

wipi(x) (1.5)

oùwiest le poids attribué à la gaussienneitel que

M i=1

wi = 1 avec pi(x), la probabilité pourxd’appartenir à la gaussienneidéfinie par l’équation1.6.

pi(x) = 1D2|i|12e

12(xµ)T1(xµ) (1.6)

Ce modèle repose sur l’hypothèse que les vecteurs de paramètres, x, provenant d’un enregistrement prononcé par un locuteur suivent une loi de probabilité propre à ce lo-cuteur.

Nous l’avons vu précédemment, la durée des enregistrements est assez courte, en ma-jorité de 2.5 minutes soit environ 15 000 trames.L’estimation du GMM avec unique-ment ces trames n’est pas très précise.

Pour remédier à cela, le modèle du locuteur est construit par adaptation d’un modèle

10. Pour ALIZE/SpkDet, la dimension du GMM varie de 256 à 2048 gaussiennes (Larcher et al.,2010)

du monde (UBM). Le modèle du monde est un mélange de gaussiennes construit à par-tir de plusieurs milliers de fichiers de parole prononcés par des centaines de locuteurs dans différentes conditions. L’idée ici est d’obtenir une représentation précise de ce qu’est la parole afin de structurer l’espace des paramètres autour des lieux où se con-centrent les échantillons de parole. Ce modèle est unique pour l’apprentissage de tous les locuteurs. Il est tout de même souvent construit un modèle du monde par genre.

L’apprentissage du modèle du monde repose sur l’algorithme d’Espérance Maximisa-tion (EM) (Laird,1993). Cet algorithme cherche à optimiser les paramètres du modèle pour maximiser la vraisemblance des données avec ce même modèle.

Le modèle du locuteur consiste à modifier, en fonction des paramètres extraits du fichier d’apprentissage, les moyennes de l’UBM. La méthode la plus utilisée en recon-naissance du locuteur est celle duMaximum a Posteriori(MAP) (Gauvain et Lee,1994).

La figure1.5illustre le processus d’apprentissage à partir d’un UBM.

FIGURE1.5 –Apprentissage du modèle de locuteur : une adaptation du modèle du monde selon les paramètres extraits du signal d’apprentissage.

Dans le cadre d’un modèle UBM-GMM,p(S|H0)correspond à la vraisemblance moyenne du signal test d’appartenir au modèle du locuteur.

p(S|H1)peut être approximée grâce à une cohorte d’imposteurs (Rosenberg et al.,1992) mais c’est généralement la vraisemblance d’appartenance au modèle du monde (Carey et Parris,1992) qui est utilisée pour estimer la contre-hypothèse.

Si (Higgins et al.,1991) préconise d’utiliser pour la construction de l’UBM des signaux de parole considérés comme proches de celui du signal d’apprentissage, (Reynolds, 1995) considère qu’il faut utiliser tous les types d’enregistrement de manière à avoir accès à des signaux proches et d’autres plus éloignés.

Factor Analysis

La variation des conditions d’enregistrement des signaux de parole est un des prob-lèmes majeurs que les participants à NIST-SRE ont cherché à résoudre. La technique du Factor Analysis est une des solutions qui a permis d’améliorer très significativement (d’un facteur deux en moyenne) les performances des systèmes11. Cette technique est implémentée dans ALIZE/SpkDet (Matrouf et al.,2008a).

Le Factor Analysis (Kenny et al., 2005) repose sur l’hypothèse que l’enregistrement de parole dépend de différents facteurs dont deux principaux, l’un rendant compte du locuteur, l’autre correspondant à des informations sur le canal. Ici le canal est en-tendu comme information pouvant varier dans le signal de parole et qui n’est pas due au locuteur comme les conditions d’enregistrement ou la langue. Le Factor Analysis admet comme seconde hypothèse que chaque facteur peut être représenté dans un sous-espace spécifique de dimension réduite. Il s’agit donc dans cette technique de ne conserver pour la modélisation que la partie contenant l’information sur le locuteur.

Normalisations

Dans les campagnes NIST-SRE, il est demandé aux participants de ne fournir qu’un seul seuil. Par ailleurs, les campagnes ont très tôt imaginé des cohortes où fichiers d’ap-prentissage et de test sont enregistrés dans des conditions très différentes. Ces con-traintes ont eu, notamment, comme conséquence d’amener les participants à proposer

11. EERsansFA=17% vsEERavecFA=7.1% (Kenny et Dumouchel,2004)

une normalisation des scores.Les techniques les plus courantes consistent à centrer et réduire les scores obtenus en fonction de cohortes d’imposteurs. Trois types de normalisations sont observées en 2010 dans les systèmes participants à la campagne NIST-SRE.

z-normpermet de préciser le rapport du signal d’apprentissage à des signaux dont nous savons qu’ils sont des imposteurs (Reynolds, 1997). Cette transformation se ré-sume par l’équation1.7.

Score= log(p(SignalApprentissage|H0))−µI

σI (1.7)

µI et σI sont respectivement la moyenne et la variance des scores obtenus par le signal d’apprentissage face à des fichiers test que nous savons tous imposteur.

t-normpermet de préciser le rapport du signal de test à des signaux dont nous savons qu’ils sont des imposteurs (Auckenthaler et al.,2000). Cette transformation se résume par l’équation1.8.

Score= log(p(Signaltest|H0))−µI

σI (1.8)

zt-normest l’application conjointe et successive des deux normalisations précédentes.

Ces normalisations permettent une légère amélioration des résultats comme l’illustre la figure1.6pour ALIZE/SpkDet.

En 2008, pour ALIZE/SpkDet, sur les fichiers d’apprentissage et de test de 2.5 minutes, les EER sans normalisation, avec znorm, avec tnorm et ztnorm sont respectivement de 4.33%, 3.42%, 4.55% et 3.87%.