• Aucun résultat trouvé

L’architecture d’un système de RAL est décomposée en différents modules de trai-tement. La plupart des approches standards en RAL utilisent une structure similaire :

– un module de paramétrisation : il extrait du signal les éléments permettant une discrimination des locuteurs,

– un module de création des références de locuteurs : à partir des données du lo-cuteur, extraites par le module de paramétrisation, une référence du locuteur est

créée. Elle sert d’élément de référence pour la RAL, où elle est comparée avec le signal de test,

– un module de test : il effectue la comparaison entre la référence (tâche de vérifi-cation) ou les références (tâche d’identifivérifi-cation) et le signal de test,

– un module de décision : à partir du résultat du module précédent, cet étage rend la décision (le nom d’un locuteur en identification, un rejet ou une acceptation en vérification) et prenant en compte différents éléments comme le niveau de sécu-rité souhaité.

Différentes méthodologies sont utilisées en RAL pour réaliser les références de lo-cuteurs. Les approches génératives regroupent des méthodes qui utilisent les données d’apprentissage pour modéliser les densités de probabilité de chaque classe, par une famille de fonctions paramétriques. L’approche générative dominante pour représen-ter la référence du locuteur, en RAL indépendante du texte, est le modèle de mélanges de Gaussiennes (GMM, Gaussian Mixture Model). Elle a été introduite par [Reynolds et Rose,1995;Reynolds et al.,2000] et constitue l’état de l’art des systèmes de VAL. Cette approche est détaillée dans le chapitre3.3.

Il existe d’autres approches génératives comme les modèles de Markov cachés (HMM, Hidden Markov Model). Les HMM sont très employés en RAL dépendante du texte car ils sont capables de capturer les dépendances temporelles entre différentes variables aléatoires. Dans le cas de la RAL dépendante du texte, la modélisation des variations temporelles, des distributions des paramètres acoustiques, permet de très bonnes per-formances [Rosenberg et Soong,1992].

Les approches à base de quantification vectorielle ont été utilisées en RAL. Elles proposent une représentation minimale d’une classe de paramètres observés : un re-présentant (dans un dictionnaire) pour chaque classe [Soong et al.,1985]. Chaque classe de paramètres est déterminée par un algorithme de classification du type K-moyennes.

Cette représentation est choisie en minimisant la distance entre le centroïde et les pa-ramètres de la population observée. Ces approches ne sont plus très employées depuis l’apparition des GMM en RAL.

L’approche discriminante la plus employée en RAL sont lesSupport Vector Machine (SVM)[Wan et Campbell,2000]. A l’origine, ils ont été conçus comme une fonction dis-criminante permettant de séparer au mieux des régions complexes dans des problèmes de classification à 2 classes. Ils démontrent aujourd’hui des performances similaires à l’approche GMM. Ces deux méthodes sont aussi combinées dans un nouveau forma-lisme, le GMM/SVM Super-Vecteur [Campbell et al., 2006] qui profite des capacités génératives du GMM et discriminantes du SVM.

2.3.1 La prise de décision

La prise de décision en RAL est basée sur le formalisme probabiliste. Elle est diffé-rente pour l’identification et la vérification du locuteur.

2.3.1.1 Décision pour l’identification automatique du locuteur

Considérons une population de locuteuri = 1, ..., N avecMi la référence associée au locuteuri. L’identité retournéeM, présente dans le signalX, est alors celle qui maxi-malise la probabilité :

M =argmaxiP(Mi|X) (2.10) Sans informationsa priorisur l’apparition des locuteurs,P(Mi), et en appliquant la règle de Bayes la relation devient :

M =argmaxiP(Mi|X) =argmaxi

p(X|Mi).P(Mi)

P(X) =argmaxip(X|Mi) (2.11) oùp(S|Mi)est la fonction de vraisemblance du locuteuriqui approxime la densité de probabilité des observations du locuteuri. Lorsque le nombre de locuteurs augmente dans la base de référence, des proximités entre locuteurs apparaissent. Il est plus dif-ficile de différencier les locuteurs et les performances se dégradent [Furui, 1978b]. Il faut aussi noter que, dans ce cas, les ressources nécessaires et les temps de traitement augmentent.

2.3.1.2 Décision pour la vérification du locuteur

Considérons une identité proclamée M. Selon l’approche probabiliste, le calcul de la probabilité que le signalX =x~1, .., ~xT ait été prononcé par le locuteurM repose sur le test d’hypothèse suivant :

– H0 : X est une occurrence prononcée par le locuteurM;

– H1 : X n’a pas été prononcé par le locuteurM mais par un autre locuteur queM. Une des deux hypothèses doit être validée par le système de VAL. L’hypothèseH0

est représentée par la fonction de vraisemblancep(X|H0) et l’hypothèseH1 est repré-sentée par la fonction de vraisemblancep(X|H1). Le problème de vérification est résolu en comparant le rapport de ces deux hypothèses à un seuil de décision. Dans le cadre de la théorie de la décision bayésienne, le rapport de vraisemblance des deux hypothèses (likelihood ratio) est défini par :

LR(X, H0, H1) = P(H0|X)

P(H1|X) (2.12)

En appliquant la règles de Bayes :

P(Hi|X) = p(X|Hi)P(Hi)

P(X) (2.13)

LR(X, H0, H1) = p(X|H0)P(H0)

p(X|H1)P(H1) (2.14)

LR(X, H0, H1) < θ l’hypothèseH0est rejetée LR(X, H0, H1) > θ l’hypothèseH0est validée

oùθest le seuil de décision. En pratique les probabilitésa prioriP(H0)etP(H1)sont reportées dans le calcul du seuil de décisionθ. Le rapport de vraisemblance devient alors :

LR(X, H0, H1) = p(X|H0)

p(X|H1) ≶θ.P(H1)

P(H0) (2.15)

La modélisation de l’hypothèse de l’imposture H1 est réalisée à l’aide d’un mo-dèle du « non-locuteur ». Il représente l’ensemble des locuteurs autres queM. Son es-timation est une tâche difficile. Différentes approches sont proposées. La première ap-proche consiste à utiliser une cohorte de locuteurs. Les locuteurs peuvent être sélec-tionnés selon un critère de proximité avec le locuteurM [Rosenberg et al., 1992]. La vraisemblance de l’hypothèseH1est alors une fonction (somme, max, ...) des vraisem-blances du signal sur les modèles des locuteurs de la cohorte (M1, ..., Mn) :LR(X|H1) = f(LR(X|M1), ..., LR(X|Mn)).

Une seconde approche consiste à utiliser un modèle unique pour le modèle du

« non-locuteur » [Carey et Parris,1992;Reynolds et Rose,1995]. Ce modèle, dénommé modèle du monde ouUBM (Universal Background Model), est estimé sur une grande quantité d’enregistrements de locuteurs. Il représente toute la variabilité de la parole [Reynolds et Rose, 1995]. La modélisation de l’hypothèse H0 utilise quant à elle les données disponibles du locuteur.