Méthodes d'évaluation

Les diérents travaux de reherhe que nous avons dérits dans les pages préédentes ont

utilisédesméthodesdiérentes pourévaluer leursmesuresde onane.

Lesperformanesd'unsystèmedereonnaissane sonthabituellement évaluéesen taux

d'er-reur en mots. Déterminer e taux implique un alignement de e résultat ave les données de

référene de latransription manuelledu doument sonore.Deet alignement quatrequantités

sont alulées:

lenombrede mots bienreonnusdont lapositiondanslaphrase estorrete,

lenombred'omissions:les mots orretsque lesystèmea omis,

lenombrede substitutions:lesmots mal reonnus,

lenombred'insertions:les mots quelesystèmea ajoutésparrapport àlaréférene.

La première quantité dénieles mots orrets, lesdeuxdernières dénissentles mots inorrets.

Nous allons présenter ii les méthodesd'évaluation les plus ommunément employées. Pour

toutesesméthodesd'évaluation,ilestnéessairededisposerdelalassiationd'unmotreonnu

dansune desesdeux atégories:orretetinorret.

Par ailleurs, la plupart des méthodes d'évaluation desmesures de onane sont également

fondées sur la lassiation des mots résultats de la reonnaissane en aeptations et rejets.

Pour ela, l'utilisation d'un seuil de déision permet d'étiqueter haque mot suivant es deux

atégories. Unmotest étiquetéAeptation s'ilestonsidéré ommejusteparlamesure(valeur

supérieureauseuildedéision).IlestétiquetéRejetsi,auontraire,ilestonsidéréommefaux.

2.4.1 Taux d'égale erreur

Cette méthode d'évaluationonsisteà omptabiliserlenombredefois oùlamesurea donné

unemauvaiseindiation.Pourêtrepluspréis,sontomptabilisés:les motsmalreonnusparle

moteurmais onsidérésà tortomme bonspar lamesure(fausse aeptation),et lesmots bien

reonnusparle moteurmaisonsidérésommefauxparlamesure(faux rejet).

F A = N b. de mots incorrects ´ etiquet´ es Acceptation

N b. de mots incorrects

^(2.21)

F R = N b. de mots corrects ´ etiquet´ es Rejet

N b. de mots corrects

^(2.22)

Les deux quantités ainsi dénies sont à mettre en relation ave la méthode des tests

d'hy-pothèses (voir setion 2.3.5.1 p.38). Nous retrouvons l'expression des erreurs de première et

deuxièmeespèe.

Deuxourbespermettenthabituellementdereprésenterlavariationdeeserreursenfontion

duseuilde déisionde lamesurede onane.Ces deuxourbessont :

laourbeROC(Reeiveroperating harateristi)

laourbeDET (DetetionErrorTradeo)

LaourbeROCsearatèriseparlareprésentationdutauxdefaussesaeptationsetdutaux

de vraies aeptations en fontion du seuil de déision. L'éhelle utilisé est linéaire sur haque

axe.

LaourbeDETreprésentequant-àelleletauxdefaussesaeptationsetletauxdefauxrejets

enfontion duseuildedéision.Enrevanhe,l'éhelleemployéesurhaqueaxeestgénéralement

log-normale(déviationparrapport àlaloi normale) [Martin97℄.

Toutefois,andepouvoirnousompareravelamesurederéférenefondéesurlaprobabilité

aposteriorialuléeparlaméthodedéritedans[Wessel01℄,nousadoptonslamêmeourbepour

nosévaluations. Dans leurs travaux, les auteurs dénissent une ourbe dite DET intermédiaire

entre les vraies ourbes ROC et DET. An de diérenier ette ourbe des deux autres, nous

l'appelons ROC-DET ar la ourbe dénie dans leur travaux est une ourbe DET à éhelle

linéaire(ommeune ourbe ROC).

Ainsi,àpartirdedeuxtauxdefaussesaeptationsetdefauxrejets,enfaisantvarierleseuil

dedéision,nous pouvonsreprésenterune ourbe ROC-DET. Cetteourbeexprimeles taux de

faussesaeptationsetdefauxrejetsen fontionduseuil. Lagure2.2donneun exempled'une

ourbeROC-DET.

EER

100 90 80 70 60 50 40 30 20 10

0 0 10 20 30 40 50 60 70 80 90 100

Taux de fausses acceptations [%]

Taux de faux rejets [%]

courbe DET

Fig. 2.2 Exemple d'une ourbe ROC-DET. L'intersetion entre la première bissetrie et la

ourbedéterminele point EER.

La droited'équation

y = 1 − x

^représente^la ôurbe ôbtenue ^par ûne ^séletionâléatoire ^des

motsàaepterouàrejeter.Pluslaourbeestprohedesaxesetpluslamesuredeonaneest

pertinente. L'intersetion entre lapremière bissetrie etla ourbe ROC-DET dénit un point

remarquable :la valeur du seuilpourlaquelle les taux de faussesaeptations etde faux rejets

sont égaux (Equal Error Rate EER). Plus la valeur EER est faible, meilleure est la mesure.

Le taux EER a été utilisé en tant que méthode d'évaluation des performanes de mesures de

onane dansplusieurstravaux[Uhrik97,Jitsuhiro98,Siu99℄.

LaourbeROC-DETprésentel'avantagedeontenirl'ensembledespointsdefontionnement

pourune mesure de onane.Il est en eet failede déterminer parexemple pourun taux de

faussesaeptationsmaximumxé, letaux defaux rejetsquisera observé.

Une seonde ourbe peut également être représentée : la ourbe ROC (Reeiver operating

harateristi) [Egan 75℄. Cette ourbe, ontrairement à laourbe ROC-DET, exprimele taux

de faussesaeptations etde vraies aeptationsen fontion du seuilde déision.L'analyse des

aeptationsest privilégiéeà traversette ourbe.

La méthode d'évaluation fondée sur le taux d'égale erreur permet une analyse des

perfor-manes d'une mesure de onane de façonindépendantede toute appliation. Cette méthode

neherhepasàminimiserplusspéiquementletauxdefaussesaeptationsouletauxdefaux

rejets. Eneet,un seul point de fontionnement estdéni:le tauxEER.Cei peutreprésenter

une limitationdans lesas où l'appliationvisée exigeraitun point de fontionnement diérent

qui favoriserait letauxde faussesaeptationsou letaux defaux rejets.

2.4.2 Taux d'erreur de onane

Le taux d'erreur de onane (Condene Error Rate CER) représente de façon simple

et intuitive lapréision d'une mesure de onane. Cetteméthode a étéutilisée dans plusieurs

études [Kemp97,Weintraub97,Wessel01,Maulair06℄.Elle estdénieparlerapport entre le

nombrede motsinorretement étiquetésparlamesuredeonane etlenombretotalde mots

reonnus:

CER = N b. de F ausses Acceptations + nb. de F aux Rejets

N b. de mots reconnus

^(2.23)

Un exemple estdonnéen annexe A.2page146.

An de pouvoir omparer le gain d'une mesure de onane par rapport au système de

reonnaissane,leCER dusystèmeest aluléparl'équation2.24 :

CER _r´ _ef _erence _´ = N b. d ^′ insertions + nb. de substitutions

N b. de mots reconnus

^(2.24)

CeirevientàutiliserunemesureétiquetantAeptationtouslesmots delaphrase reonnue

parlesystème.Une mesuredeonanequi apportede l'informationutiledevraitpermettrede

diminuer les taux de faussesaeptations etde faux rejets. Ainsi, de l'équation 2.23, on déduit

logiquementqueplusunemesuredeonaneserapréiseetpluslavaleurduCERassoiéesera

prohe de zéro. Un exemple de alul de e taux d'erreur sur une phrase est donnéen annexe

A.2page146.

2.4.3 Entropie roisée normalisée

La plupart des méthodes lassiques d'évaluation analysent la performane des mesures de

onaneparlaomparaisondel'évolutiondutauxd'erreurenmots oudutauxd'EER.La

mé-thode fondée sur l'entropieroisée normalisée (Normalized Cross Entropy NCE) tente

d'éva-luer l'apport d'information que fournit une mesure de onane par rapport au résultat du

moteur de reonnaissane. Cette méthode d'évaluation a été employée dans plusieurs études

[Siu97,Kemp 97,Rueber97,Evermann00,Maison 01,Duhateau02a℄.Saversionnon

norma-liséeaégalement étéutiliséedansd'autres travaux[Chase 97,Gillik97,Weintraub 97℄.

Le prinipeestde omparerl'entropiedusystèmeà l'issueduproessusdereonnaissane à

l'entropie dumême systèmemais dont les mots ont été lassés en tenant omptede leur valeur

deonane.Cetteméthodeaétéintroduitelorsd'uneampagned'évaluationduNISTde1996

dansleurlogiield'évaluationstatistiquede reonnaissane [Siu97,Kemp 97℄.

Soit

p ₀

^le^taux^dereonnaissaneenmotsdusystèmedéniommelerapportentrelenombre demots orretset lenombre total de mots.L'entropiede référene

H(S)

^du^système ^est^alors

dénieparl'équation suivante:

H(S) = −p 0 log p 0 − (1 − p 0 ) log(1 − p 0 )

^(2.25)

X

^représente^toutes ^les informationssupplémentaires apportéesau système de reonnais-saneinitial, l'entropieonditionnelle

H(S|X)

^peut^être ^alulée^ainsi ^:

H(S|X) = −1 N

X

w correct

log pc _w + ^X

w incorrect

log(1 − pc _w )

^(2.26)

Où N représente le nombre de mots de la phrase reonnue et

pc _w

^la ^mesure ^de ^onane

assoiée aumot

w

La valeur NCEest alorsdéniepar:

N CE = H(S) − H(S|X)

H(S)

^(2.27)

Ainsi,silamesuredeonaneestparfaite(lesmotsjustesontuneonanede1etlesmots

faux ont une valeur de onane de 0), d'après l'équation 2.26,

H(S|X) = 0

^et ^don ^la ^valeur

NCEassoiéevaut1.

De même, si la mesure de onane est uniformément aléatoire,

H(S|X)

^est équivalente à l'entropiedu systèmea priori

H(S)

êt^la^valeur^NCE êstâlors^nulle.

Cependant,ilest possible quelavaleurNCE soit négative sil'apportd'information esttrop

fortement erroné. On pourra se reporter à un exemple onret de alul de la valeur NCE en

annexeA.1 page145.

Un problèmepersiste dansl'utilisationde laméthode NCE.En eet,dansleas oùun mot

orret a une valeur de onane prohe de 0 réiproquement un mot faux a une valeur de

onane prohe de 1 l'équation 2.26 indique que l'entropie tend vers l'inni. Une solution

onsiste à seuiller les valeurs de onane an que elles-i ne s'approhent pas des valeurs

ritiques0 et1maisrestentparexemple dansl'intervalle [0,1 0,9℄.

2.4.4 Coeient de orrélation

Uneautrefaçondeproéderpourobserverlapertinened'unemesuredeonaneest

d'ana-lyser simplement l'existened'une orrélation entre les valeursde onane assoiées auxmots

reonnus etlajustesse réellede esmots.

Pourela nousdénissons deux ensembles de données

X

^et

Y

X

^représente ^l'ensemble^des

valeursdelamesuredeonanepourlesmotsreonnusparlesystème,et

Y

êstûnênsemble^de

valeursindiquantsilemotreonnuestjusteoufauxrelativementàlatransriptionderéférene.

L'ensemble

Y

^est^à ^v^aleur ^disrète ^dans

{0, 1}

Sileséarts-types

σ _X

^et

σ _Y

^sont^dénisêt^non^nuls^(il^faut^dans^notreâs^qu'il^yâitâu^moins

deuxvaleursdistintesdanshaundesensembles)etsilesmoyennes

µ _X

^et

µ _Y

^de^es^ensembles

sont égalementdénies, alorsleoeient de orrélation

ρ _X,Y

^est^déni ^par^l'équation^:

ρ _X,Y = E(XY ) − E(X)E(Y )

p E(X ² ) − E ² (X) ^p E(Y ² ) − E ² (Y )

^(2.28)

Où

E

^représente^l'espéranemathématique.

Une mesurede onane idéale auraun oeient de orrélationégal à 1. Par ontre, dans

le pire desas où la mesure estime exatement l'inverse des labels réels desmots, le oeient

sera égal à

−1

^.Ên êet, ^bien ^que^faux, ^les ^vâleurs ^de ônane ^sont ôrrélées âve ^les ^mots. ^Si

une mesureaepte tousles mots,leoeientde orrélationest nul.

En dehors desvaleursprohes desextrêmes 0,1 ou -1,il est diilede qualier ledegré de

orrélation à partir de la valeur du oeient. Un oeient de 0,9 peut parfois exprimer une

faible orrélation à ause, notamment, de la grande sensibilitédu oeient de orrélation aux

valeursaberrantes.

2.4.5 Rappel / Préision

Dansledomainedelareherhed'information(InformationRetreival),lesméthodesévaluant

la pertinene habituellement utilisées sont dénies par rapport aux notions de Rappel et de

Préision.Cesdeuxnotionspermettentderendreomptedel'eaitédel'améliorationapportée

au système.

Lesméthodesderappel/préisionont également étéintroduitesdansledomainedesmesures

deonaneenreonnaissaneautomatiquedelaparole[Cox02℄.Lamesuredeonanepermet

d'étiqueterlesmotsd'unephraseenAeptationetRejet,ommedansleasdel'analysedutaux

d'égaleerreur(EER). Lesvaleursde rappel/préisionsontdéniesen fontion deet étiquetage

etde laonnaissanedelaséquenedemots réellementprononée.Leséquationsderappeletde

préision pourl'analyse desAeptations s'expriment ainsi:

Rappel = N b. de mots correctement etiquet´ ´ es Acceptation

N b. total de mots corrects

^(2.29)

P r´ ecision = N b. de mots correctement etiquet´ ´ es Acceptation

N b. de mots etiquet´ ´ es Acceptation

^(2.30)

La valeur de rappel seule n'est pas pertinente. Par exemple, une mesure de onane qui

aepte tousles mots de laphrase,etqui seraparonséquent inutile, auraunevaleur de rappel

égale à100%. Ainsi, lavaleurde rappelvagénéralementde pairave lavaleur depréision.

Une fontionglobaledénieparlamoyenneharmoniquedelavaleurderappeletdepréision

permetde regrouperes deux indiesen unseul [VanRijsbergen79℄. Cette mesure estappelée

F −

^mesure.^Son ^équation^est ^la^suivante^:

F α = (1 + α)(pr´ ecision.rappel)

α. pr´ ecision + rappel

^(2.31)

Les

F−

^mesures habituellement aluléessont

F ₁

F ₂

^,^et

F _0,5

Les informations issues des valeurs de rappel et de préision sont ainsi représentées parun

seulindie,la

F−

^mesure.^La^omparaison^desperformanesdesdiérentesmesuresdeonane devient alorsplusdirete, ommeave letaux d'égaleerreur.

2.4.6 Synthèse

Nousavonsprésenté plusieursméthodesd'évaluation de mesures de onaneutilisées dans

la littérature. L'objetif de haune d'elle est le même : omparer et évaluer les mesures de

onane entre elles et également parrapport au système de reonnaissane.Toutefois, haque

méthode a ses aratèristiques propres, ses avantages et ses inonvénients et tente de apturer

des aspets plus ou moins liés à une appliation partiulière. Par exemple, le taux d'erreur de

onane CER est faile à évaluer de par sa simpliité et permet de omparer les mesures de

onaneparrapportàseule unevaleur.Depluse tauxestégalementomparable ave letaux

de mots orrets du système de reonnaissane. Mais un des inonvénients de ette méthode

vient justement du fait qu'il n'est pas possible de distinguer les deux types d'erreurs, fausses

aeptationsetfauxrejets,etainsidénir diérents points defontionnement.

La méthode proposéeparle NISTfondée surlealul de l'entropie roiséenormalisée tente

d'évaluer l'apportd'information d'unemesure de onaneparrapport aurésultat de la

reon-naissane.Cetteméthode,ommeleCER, détermineuneunique valeur,sanspouvoirdénir de

points de fontionnement. De plus, ette méthode pose des problèmes pour des mots dont la

onaneestnulle ousûre etpeutêtre àvaleur négative.

La méthode onsistant àaluler lestaux derappeletde préision estgénéralement utilisée

en reherhe d'information. L'assoiation des deux taux permet de dénir plusieurs points de

fontionnement selon le seuil de déision hoisi pourla mesure. Une seonde méthode

permet-tantégalement dedénir divers points defontionnement onsiste àaluler lestaux defausses

aeptationsetdefauxrejets.Toutefoispouretteméthode,unpointpartiulierpeutêtre

faile-mentmis enévidene,lepoint EERpourlequellamesuredeonanefaitproportionnellement

autant de fausses aeptations que de faux rejets. C'est poures raisons que pour l'évaluation

denosmesures de onane surleorpus de développement nousomparons nosmesures selon

leurtauxd'EER:lesmesures peuvent seomparerparrapportàune valeur préiseetplusieurs

pointsde fontionnement peuventfailement être dénis.

Dans le document Mesures de confiance trame-synchrones et locales en reconnaissance automatique de la parole ~ Association Francophone de la Communication Parlée (Page 68-73)

F A = N b. de mots incorrects ´ etiquet´ es Acceptation

N b. de mots incorrects

F R = N b. de mots corrects ´ etiquet´ es Rejet

N b. de mots corrects

EER

100 90 80 70 60 50 40 30 20 10

0 0 10 20 30 40 50 60 70 80 90 100

Taux de fausses acceptations [%]

Taux de faux rejets [%]

courbe DET

y = 1 − x

CER = N b. de F ausses Acceptations + nb. de F aux Rejets

N b. de mots reconnus

CER r´ ef erence ´ = N b. d ′ insertions + nb. de substitutions

N b. de mots reconnus

p 0

H(S)

H(S) = −p 0 log p 0 − (1 − p 0 ) log(1 − p 0 )

X

H(S|X)

H(S|X) = −1 N

X

w correct

log pc w + X

w incorrect

log(1 − pc w )

pc w

w

N CE = H(S) − H(S|X)

H(S)

H(S|X) = 0

H(S|X)

H(S)

X

Y

X

Y

Y

{0, 1}

σ X

σ Y

µ X

µ Y

ρ X,Y

ρ X,Y = E(XY ) − E(X)E(Y )

p E(X 2 ) − E 2 (X) p E(Y 2 ) − E 2 (Y )

E

−1

Rappel = N b. de mots correctement etiquet´ ´ es Acceptation

N b. total de mots corrects

P r´ ecision = N b. de mots correctement etiquet´ ´ es Acceptation

N b. de mots etiquet´ ´ es Acceptation

F −

F α = (1 + α)(pr´ ecision.rappel)

α. pr´ ecision + rappel

F−

F 1

F 2

F 0,5

F−

CER _r´ _ef _erence _´ = N b. d ^′ insertions + nb. de substitutions

p ₀

log pc _w + ^X

log(1 − pc _w )

pc _w

σ _X

σ _Y

µ _X

µ _Y

ρ _X,Y

ρ _X,Y = E(XY ) − E(X)E(Y )

p E(X ² ) − E ² (X) ^p E(Y ² ) − E ² (Y )

F ₁

F ₂

F _0,5