• Aucun résultat trouvé

Mesures de performance en VAL

Dans le document The DART-Europe E-theses Portal (Page 27-31)

Les systèmes de VAL produisent des mesures de vraisemblance d’une hypothèse (ou de "similarité") entre des énoncés de voix. On appelle score en général une telle mesure etscoringla méthode qui l’a générée. La traduction française du mot score ("no-tation statistique") rappelle le caractère estimatif de cette mesure, souvent appuyé par des hypothèses probabilistes.

Lorsqu’une décision binaire est demandée, les valeurs de score sont seuillées pour produire une réponse, d’acceptation ou rejet de l’hypothèse de même identité. La per-formance d’un système de VAL à décision binaire peut être évaluée à partir d’un jeu de tests composé de tests-cible et tests-imposteur. Nous décrivons dans cette partie les mé-triques d’évaluation usuellement employées dans ce cadre et en particulier dans celui des campagnes d’évaluation NIST, décrites à la section1.3.

1.2.1 Fonction de coût

Une réponse négative sur un test-cible est appelée faux rejet (False Reject FR) ou détection manquée (Missed detection). Un second type d’erreur du système se produit lorsqu’une réponse positive a été renvoyée sur un test-imposteur. Il est appelé fausse alerte1(False Alarm FA) ou fausse acceptation.

La qualité d’un système est mesurée à partir des taux de fausse alerte tFA et faux rejet tFR obtenus sur des données de développement. Etant donné un jeu de n tests composé dencibletests-cible etnimptests-imposteur, ces taux sont définis par :

tFA= nFA

nimp (1.1)

tFR = nFR

ncible (1.2)

oùnFAest le nombre de fausses alertes etnFRle nombre de faux rejets.

Ces deux types d’erreur n’induisent pas nécessairement les mêmes "coûts" (au sens large du terme). La mesure de qualité fera donc intervenir des valeurs CFA et CFR de coûts FA et FR fixées a priori. La fonction de coût de décision (Decision Cost Function, DCF(Martin and Przybocki,2000)) mesure cette qualité par la formule :

1. Le terme d’alerte ne traduit pas nécessairement l’apparition d’un événement négatif. Il marque le fait qu’une action découle en général de la détection.

1.2. Mesures de performance en VAL

DCF=CFAnFA

n +CFRnFR

n (1.3)

qui peut se réécrire :

DCF=CFA

nimp

n nFA

nimp +CFRncible

n nFR

ncible (1.4)

=CFA

1−ncible n

tFA+CFRncible

n tFR (1.5)

En fixant une fréquence d’événements a prioriπcible, on obtient :

DCF =CFA(1−πcible)tFA+CFRπcibletFR (1.6) Cette valeur peut être normalisée par le coût minimal des deux systèmes triviaux obtenus en déclenchant systématiquement ou jamais l’alerte. Ce coût minimal, noté DCFdéfaut, est égal à :

DCFdéfaut=min(CFA(1−πcible),CFRπcible) (1.7) La valeur de coût normalisée qui s’en déduit est :

DCFNorm= DCFdéfaut

DCF (1.8)

Une valeur supérieure à 1 indique un système à coût plus élevé qu’un système tri-vial.

En phase de développement, un système peut être évalué en calculant sur un jeu de tests renseignés la DCF minimale suivant l’ensemble des seuils possibles de décision :

DCFmin=min

θ {CFA(1−πcible)tFA(θ) +CFRπcibletFR(θ)} (1.9) oùtFA(θ)etFR(θ)sont les taux de FA et FR obtenus en fixant le seuil de décision à la valeurθ.

LaDCFmin est un indicateur (optimiste) de coût potentiel du système. Le seuilθmin correspondant est un estimateur du seuil optimal, qui peut être éventuellement ajusté puis utilisé lors du déploiement de l’application.

0.1 0.5 2 5 10 20 30 40 50

0.1 0.5 2 5 10 20 30 40 50

Miss probability (in %)

False Alarms probability (in %) (dcf:2.59,eer:4.78)

FIGURE1.1 –Un exemple de courbe décisionnelle DET (Detection Error Tradeoff)

1.2. Mesures de performance en VAL

1.2.2 Mesures d’erreurs en développement

La capacité discriminante d’un système peut difficilement être évaluée lorsque les coûts FA et FR de la DCF sont trop déséquilibrés. C’est pourquoi, dans un cadre de re-cherche, d’autres mesures viennent compléter, voire remplacer, la DCF. Il peut s’agir du point de fonctionnement obtenu en minimisant l’HTER (Half total Error Rate), moyenne des taux d’erreur :

HTERmin=min

θ

tFA(θ) +tF(θ)

2 (1.10)

Il est également utile d’observer l’évolution complète de ces taux en fonction du seuilθ. Ceci est possible, l’intervalle de variation deθétant borné aux valeurs extrêmes des scores du jeu d’essais. Les valeurs successives de ces taux sont représentées par la courbe des points(tFA(θ),tFR(θ)). Cette courbe, variante de la célèbre courbe décision-nelle ROC (Receiver Operating Characteristic), affiche ces points dans une échelle suivant l’évolution de la fonction de répartition d’une loi normale et porte le nom de courbe DET (Detection Error Tradeoff (Martin et al.,1997)). La figure1.1affiche un exemple de courbe DET. Par la nature -en général- gaussienne des scores, la courbe présente une allure linéaire grâce au changement d’échelle.

Le point de coordonnées (1, 0) correspond au cas d’un système à déclenchement systématique. Le point (0, 1) correspond à celui d’un système à abstention systéma-tique. Entre ces points, la courbe permet d’observer l’évolution des deux taux d’erreur, inversement proportionnels. Les défauts de linéarité en bas à droite de la figure 1.1 indiquent par exemple une faiblesse de ce système, qui sous-évalue certains tests-cible.

A partir de cette courbe, une mesure basée sur un coût équilibré est proposée, nom-mée taux d’erreur égale (Equal Error Rate, EER). Etant donné le point de fonctionnement à taux égaux, c’est à dire celui obtenu pour le seuilθ0tel que les taux de FA et FR soient égaux, l’EER est défini par leur valeur communeEER=tFA(θ0) =tFR(θ0).

Sur la figure1.1, cette valeur correspond à l’intersection de la courbe avec la pre-mière bissectrice. Ce point de fonctionnement n’a pas d’interprétation directe en terme de coût, mais est très souvent utilisé comme une première indication des performances d’un système.

Notons que le point de fonctionnement minimisant la DCF, telle que spécifiée, est indiqué sur la courbe DET (second triangle sur la figure, en haut à gauche). L’EER sera utilisé le plus souvent dans ce document, où notre objectif principal est la comparaison de méthodes sans prise en compte de coûts déséquilibrés.

Période CFA CFR πcible 1997-2008 10 1 0.01 2010-2012 1 1 0.001

TABLE1.1 –Valeurs des coûts d’erreurs et probabilité cible a priori de NIST-SRE.

Dans le document The DART-Europe E-theses Portal (Page 27-31)