• Aucun résultat trouvé

LR(X, H0, H1) < θ l’hypothèseH0est rejetée LR(X, H0, H1) > θ l’hypothèseH0est validée

oùθest le seuil de décision. En pratique les probabilitésa prioriP(H0)etP(H1)sont reportées dans le calcul du seuil de décisionθ. Le rapport de vraisemblance devient alors :

LR(X, H0, H1) = p(X|H0)

p(X|H1) ≶θ.P(H1)

P(H0) (2.15)

La modélisation de l’hypothèse de l’imposture H1 est réalisée à l’aide d’un mo-dèle du « non-locuteur ». Il représente l’ensemble des locuteurs autres queM. Son es-timation est une tâche difficile. Différentes approches sont proposées. La première ap-proche consiste à utiliser une cohorte de locuteurs. Les locuteurs peuvent être sélec-tionnés selon un critère de proximité avec le locuteurM [Rosenberg et al., 1992]. La vraisemblance de l’hypothèseH1est alors une fonction (somme, max, ...) des vraisem-blances du signal sur les modèles des locuteurs de la cohorte (M1, ..., Mn) :LR(X|H1) = f(LR(X|M1), ..., LR(X|Mn)).

Une seconde approche consiste à utiliser un modèle unique pour le modèle du

« non-locuteur » [Carey et Parris,1992;Reynolds et Rose,1995]. Ce modèle, dénommé modèle du monde ouUBM (Universal Background Model), est estimé sur une grande quantité d’enregistrements de locuteurs. Il représente toute la variabilité de la parole [Reynolds et Rose, 1995]. La modélisation de l’hypothèse H0 utilise quant à elle les données disponibles du locuteur.

EER FR FA

Ergonomie Sécurité

FIG.2.7 – Evolution des taux FA et FR.

probabilité de fausses acceptations (FA) ou d’acceptations d’impostures. Ces taux sont étroitement liés. Au point de fonctionnement, pour un certain seuil de vérification, ces deux taux sont définis. En fonction du type d’application souhaitée, le seuil de vérifi-cation peut être choisi pour minimiser le taux de fausses acceptations : applivérifi-cation de sécurité, ou minimiser le taux de faux rejets pour augmenter l’ergonomie d’utilisation.

Il n’est pas possible de minimiser conjointement ces deux taux (cf. figure2.7).

2.4.3 Les courbes DET

FIG.2.8 –Exemple de courbe DET (False alarms : FA, Miss probability : FR).

La représentation la plus communément utilisée pour évaluer la pertinence du seuil de décision en fonction de ces deux taux d’erreurs est la courbe DET (Detection Error

Tra-deoff[Martin et al.,1997]). Les échelles des axes suivent la répartition d’une loi normale contrairement à leurs prédécesseurs, les courbesROC (Receiver Operating Characteristic), qui utilisent une échelle linéaire.

L’échelle logarithmique est utilisée pour rendre la courbe DET linéaire quand les scores des systèmes suivent une distribution Gaussienne. La courbe DET permet d’évaluer, pour chaque seuil de vérification, les valeurs du couple (FA, FR). La figure2.8illustre un exemple de courbe DET.

D’autres solutions ont été proposées pour la représentation des performances d’un sys-tème de RAL :

– la courbe EPC(Expected Performance Curve)[Bengio et Mariethoz,2004], – la courbe APE(Applied Probability of Error)[van Leeuwen et Brummer,2007].

2.4.4 Les points de fonctionnement

Pour comparer les systèmes de RAL deux points de fonctionnement sont extraits pour caractériser plus simplement ces courbes. Le taux d’erreurs égales ou EER (Equal Error Rate) défini comme le point de fonctionnement où FA = FR. A ce point de fonction-nement aucune priorité n’est donnée à la minimisation des FA ou de FR. Cette mesure est très utilisée pour comparer les performances des systèmes de RAL.

Pour introduire une pondération pour chacun de ces taux, en fonction du contexte ap-plicatif, une fonction de coût de détection (DCF, Decision Cost Function) peut être appli-quée. Cette DCF s’exprime sous la forme :

DCF =CF AτF APf alse+CF RτF RPtrue (2.16) où :

τF Aest le taux de fausses acceptations ; τF Rest le taux de faux rejets ;

CF Aest le coût associé à une fausse acceptation ; CF Rest le coût associé à un faux rejet ;

Ptrueest la probabilitéa priorid’un accès client ; Pf alsela probabilité d’une imposture.

Une autre mesure, dénommée HTER ouHalf Total Error Rate, est définie comme la distribution du taux d’erreur moyen pour chaque seuil de décision [Bengio et Marie-thoz,2004].

HT ER= 1

2(F A+F R) (2.17)

Les taux d’erreurs sont liés au point de fonctionnement d’utilisation. Le réglage du seuil de décision est effectué sur une population de tests, a priori. La calibration de

ce seuil est très importante. Une variation du seuil entre la phase de calibration et de fonctionnement éloigne le système du point de fonctionnement optimal souhaité.

Le point de fonctionnement réel peut être déterminéa posteriori. C’est notamment le cas lors de campagnes d’évaluations des système de VAL. Le point de fonctionnement optimal qui minimise le critère DCF est comparé au point de fonctionnement fixé a priori. Cette mesure, nommée minDCF, permet d’évaluer l’erreur de calibration du seuil de décision.

En général, pour comparer les performances des systèmes de RAL, le pourcentage relatif de gain/perte, pour les mesures DCF et EER, est utilisé :

% relatif= V1−V2 V1

(2.18) où,V peut être la mesure EER ou DCF.

2.4.5 Les corpus utilisés

Un système de VAL s’évalue sur des données de développement. Ces données sont choisies pour leur proximité avec les données réelles que le système de VAL va devoir analyser. Cette phase de développement joue un rôle essentiel. Elle va notamment per-mettre de calibrer un seuil de vérification et d’évaluer les performances du système.

La base de données de développements doit représenter au mieux les variabilités de la parole qui seront présentes dans le système en fonctionnement réel.

Ainsi les variabilités intra-locuteur et inter-session, la variabilité due à l’environne-ment, la variabilité due au canal d’enregistrement (depuis le combiné/micro jusqu’à la chaîne de transmission du signal), la variabilité inter-locuteur (genre mais aussi les lo-cuteurs montrant des particularités, voir la « ménagerie » de Doddington, [Doddington et al.,1998]) doivent être représentées. La connaissancea priorides conditions réelles de fonctionnement est alors nécessaire. Ainsi si le système de VAL est destiné à effectuer de l’authentification sur le réseau téléphonique, la base de données doit être majoritai-rement composée d’enregistmajoritai-rements téléphoniques.

Il n’existe pas de moyen théorique permettant d’estimer la fiabilité des performances d’un système de VAL sur une base de données de développement [Dass et al., 2006].

Une règle empirique, la « règle des 30 » [Porter,2000], stipule qu’une erreur est bien mo-délisée lorsque 30 exemples de cette erreur sont présents dans les tests. Par exemple, pour valider un taux d’erreur de faux rejet de 1%, la règle précise que 30 erreurs de faux rejets doivent être représentées, soit30∗100 = 3000tests clients. Cette règle per-met d’obtenir un pourcentage sur la fiabilité du taux d’erreur du système de VAL, en fonction des types de tests représentés dans la base de développement. Mais les nom-breuses variabilités de la parole ne peuvent toutes être reproduites dans une base de données d’enregistrements. Aussi, l’évaluation d’un système de VAL sur des données de développements constitue une simulation.

L’approche statistique GMM-UBM pour la vérification du locuteur

Sommaire

3.1 Schéma général . . . . 42 3.2 La paramétrisation du signal de parole . . . . 42 3.2.1 L’extraction des coefficients cepstraux . . . . 43 3.2.2 La détection d’activité vocale . . . . 43 3.2.3 La normalisation des paramètres pour la compensation canal . 45 3.3 Modèles statistiques pour la VAL . . . . 47 3.3.1 L’apprentissage des modèles GMM . . . . 48 3.3.2 Le modèle du non locuteur ou modèle du monde . . . . 49 3.3.3 Estimation des modèles de locuteur . . . . 50 3.3.4 Estimation robuste des modèles de locuteurs . . . . 51 3.4 Le test de vérification . . . . 55 3.4.1 Calcul du score vérification . . . . 55 3.4.2 La normalisation des scores . . . . 56 3.4.3 La fusion des scores . . . . 60 L’approche statistique est majoritairement utilisée en VAL. Elle permet de définir une mesure de similarité entre une référence du locuteur et un ensemble de données de test. La référence du locuteur est un modèle statistique qui prend en compte les varia-bilités du signal de parole. Ce modèle décrit la distribution statistique des observations acoustiques issues des données d’apprentissage. Il doit néanmoins être appris à partir de données représentatives du locuteur et des variabilités de son signal de parole. La mesure de similarité entre un ensemble de paramètres caractérisant le signal audio,S, et la référence du locuteuri,Mi, est représentée par une probabilité, la probabilité deS sachantMi (P(S|M i)).

Dans ce cadre statistique, les observations acoustiques des signaux d’enregistre-ments sont utilisées pour :

1. générer un modèle statistique du locuteur,

2. calculer une mesure de similarité entre le signal de test et le modèle statistique du locuteur.

La modélisation des locuteurs repose sur les modèles à base de mélanges de Gaus-siennes (GMM). L’hypothèse inverse dans la théorie bayésienne est réalisée à l’aide du GMM du monde (UBM). Cette méthode est plus communément appelée GMM-UBM [Bimbot et al.,2004]. Ce chapitre présente l’application de la méthode GMM-UBM pour la VAL indépendante du texte.

3.1 Schéma général

FIG.3.1 –Schéma de la méthode GMM-UBM pour la VAL indépendante du texte.

Le schéma de fonctionnement est représenté sur la figure3.1. Les différents modules représentés sont :

– le module « Paramètres ». Il permet d’extraire les paramètres du signal de parole pertinents pour la VAL.

– les modules « Modèle de référence et modèle du locuteur-cible », qui estiment, à partir des données d’apprentissage, les modèles statistiques des locuteurs.

– le module « Comparaison », qui calcule la mesure de similarité entre l’échantillon de test et le modèle de locuteur cible. Il fournit la décision de vérification.

La suite de ce chapitre décrit chacun de ces modules.