Les diérents travaux de reherhe que nous avons dérits dans les pages préédentes ont
utilisédesméthodesdiérentes pourévaluer leursmesuresde onane.
Lesperformanesd'unsystèmedereonnaissane sonthabituellement évaluéesen taux
d'er-reur en mots. Déterminer e taux implique un alignement de e résultat ave les données de
référene de latransription manuelledu doument sonore.Deet alignement quatrequantités
sont alulées:
lenombrede mots bienreonnusdont lapositiondanslaphrase estorrete,
lenombred'omissions:les mots orretsque lesystèmea omis,
lenombrede substitutions:lesmots mal reonnus,
lenombred'insertions:les mots quelesystèmea ajoutésparrapport àlaréférene.
La première quantité dénieles mots orrets, lesdeuxdernières dénissentles mots inorrets.
Nous allons présenter ii les méthodesd'évaluation les plus ommunément employées. Pour
toutesesméthodesd'évaluation,ilestnéessairededisposerdelalassiationd'unmotreonnu
dansune desesdeux atégories:orretetinorret.
Par ailleurs, la plupart des méthodes d'évaluation desmesures de onane sont également
fondées sur la lassiation des mots résultats de la reonnaissane en aeptations et rejets.
Pour ela, l'utilisation d'un seuil de déision permet d'étiqueter haque mot suivant es deux
atégories. Unmotest étiquetéAeptation s'ilestonsidéré ommejusteparlamesure(valeur
supérieureauseuildedéision).IlestétiquetéRejetsi,auontraire,ilestonsidéréommefaux.
2.4.1 Taux d'égale erreur
Cette méthode d'évaluationonsisteà omptabiliserlenombredefois oùlamesurea donné
unemauvaiseindiation.Pourêtrepluspréis,sontomptabilisés:les motsmalreonnusparle
moteurmais onsidérésà tortomme bonspar lamesure(fausse aeptation),et lesmots bien
reonnusparle moteurmaisonsidérésommefauxparlamesure(faux rejet).
F A = N b. de mots incorrects ´ etiquet´ es Acceptation
N b. de mots incorrects
(2.21)F R = N b. de mots corrects ´ etiquet´ es Rejet
N b. de mots corrects
(2.22)Les deux quantités ainsi dénies sont à mettre en relation ave la méthode des tests
d'hy-pothèses (voir setion 2.3.5.1 p.38). Nous retrouvons l'expression des erreurs de première et
deuxièmeespèe.
Deuxourbespermettenthabituellementdereprésenterlavariationdeeserreursenfontion
duseuilde déisionde lamesurede onane.Ces deuxourbessont :
laourbeROC(Reeiveroperating harateristi)
laourbeDET (DetetionErrorTradeo)
LaourbeROCsearatèriseparlareprésentationdutauxdefaussesaeptationsetdutaux
de vraies aeptations en fontion du seuil de déision. L'éhelle utilisé est linéaire sur haque
axe.
LaourbeDETreprésentequant-àelleletauxdefaussesaeptationsetletauxdefauxrejets
enfontion duseuildedéision.Enrevanhe,l'éhelleemployéesurhaqueaxeestgénéralement
log-normale(déviationparrapport àlaloi normale) [Martin97℄.
Toutefois,andepouvoirnousompareravelamesurederéférenefondéesurlaprobabilité
aposteriorialuléeparlaméthodedéritedans[Wessel01℄,nousadoptonslamêmeourbepour
nosévaluations. Dans leurs travaux, les auteurs dénissent une ourbe dite DET intermédiaire
entre les vraies ourbes ROC et DET. An de diérenier ette ourbe des deux autres, nous
l'appelons ROC-DET ar la ourbe dénie dans leur travaux est une ourbe DET à éhelle
linéaire(ommeune ourbe ROC).
Ainsi,àpartirdedeuxtauxdefaussesaeptationsetdefauxrejets,enfaisantvarierleseuil
dedéision,nous pouvonsreprésenterune ourbe ROC-DET. Cetteourbeexprimeles taux de
faussesaeptationsetdefauxrejetsen fontionduseuil. Lagure2.2donneun exempled'une
ourbeROC-DET.
EER
100 90 80 70 60 50 40 30 20 10
0 0 10 20 30 40 50 60 70 80 90 100
Taux de fausses acceptations [%]
Taux de faux rejets [%]
courbe DET
Fig. 2.2 Exemple d'une ourbe ROC-DET. L'intersetion entre la première bissetrie et la
ourbedéterminele point EER.
La droited'équation
y = 1 − x
représentela ourbe obtenue par une séletionaléatoire desmotsàaepterouàrejeter.Pluslaourbeestprohedesaxesetpluslamesuredeonaneest
pertinente. L'intersetion entre lapremière bissetrie etla ourbe ROC-DET dénit un point
remarquable :la valeur du seuilpourlaquelle les taux de faussesaeptations etde faux rejets
sont égaux (Equal Error Rate EER). Plus la valeur EER est faible, meilleure est la mesure.
Le taux EER a été utilisé en tant que méthode d'évaluation des performanes de mesures de
onane dansplusieurstravaux[Uhrik97,Jitsuhiro98,Siu99℄.
LaourbeROC-DETprésentel'avantagedeontenirl'ensembledespointsdefontionnement
pourune mesure de onane.Il est en eet failede déterminer parexemple pourun taux de
faussesaeptationsmaximumxé, letaux defaux rejetsquisera observé.
Une seonde ourbe peut également être représentée : la ourbe ROC (Reeiver operating
harateristi) [Egan 75℄. Cette ourbe, ontrairement à laourbe ROC-DET, exprimele taux
de faussesaeptations etde vraies aeptationsen fontion du seuilde déision.L'analyse des
aeptationsest privilégiéeà traversette ourbe.
La méthode d'évaluation fondée sur le taux d'égale erreur permet une analyse des
perfor-manes d'une mesure de onane de façonindépendantede toute appliation. Cette méthode
neherhepasàminimiserplusspéiquementletauxdefaussesaeptationsouletauxdefaux
rejets. Eneet,un seul point de fontionnement estdéni:le tauxEER.Cei peutreprésenter
une limitationdans lesas où l'appliationvisée exigeraitun point de fontionnement diérent
qui favoriserait letauxde faussesaeptationsou letaux defaux rejets.
2.4.2 Taux d'erreur de onane
Le taux d'erreur de onane (Condene Error Rate CER) représente de façon simple
et intuitive lapréision d'une mesure de onane. Cetteméthode a étéutilisée dans plusieurs
études [Kemp97,Weintraub97,Wessel01,Maulair06℄.Elle estdénieparlerapport entre le
nombrede motsinorretement étiquetésparlamesuredeonane etlenombretotalde mots
reonnus:
CER = N b. de F ausses Acceptations + nb. de F aux Rejets
N b. de mots reconnus
(2.23)Un exemple estdonnéen annexe A.2page146.
An de pouvoir omparer le gain d'une mesure de onane par rapport au système de
reonnaissane,leCER dusystèmeest aluléparl'équation2.24 :
CER r´ ef erence ´ = N b. d ′ insertions + nb. de substitutions
N b. de mots reconnus
(2.24)CeirevientàutiliserunemesureétiquetantAeptationtouslesmots delaphrase reonnue
parlesystème.Une mesuredeonanequi apportede l'informationutiledevraitpermettrede
diminuer les taux de faussesaeptations etde faux rejets. Ainsi, de l'équation 2.23, on déduit
logiquementqueplusunemesuredeonaneserapréiseetpluslavaleurduCERassoiéesera
prohe de zéro. Un exemple de alul de e taux d'erreur sur une phrase est donnéen annexe
A.2page146.
2.4.3 Entropie roisée normalisée
La plupart des méthodes lassiques d'évaluation analysent la performane des mesures de
onaneparlaomparaisondel'évolutiondutauxd'erreurenmots oudutauxd'EER.La
mé-thode fondée sur l'entropieroisée normalisée (Normalized Cross Entropy NCE) tente
d'éva-luer l'apport d'information que fournit une mesure de onane par rapport au résultat du
moteur de reonnaissane. Cette méthode d'évaluation a été employée dans plusieurs études
[Siu97,Kemp 97,Rueber97,Evermann00,Maison 01,Duhateau02a℄.Saversionnon
norma-liséeaégalement étéutiliséedansd'autres travaux[Chase 97,Gillik97,Weintraub 97℄.
Le prinipeestde omparerl'entropiedusystèmeà l'issueduproessusdereonnaissane à
l'entropie dumême systèmemais dont les mots ont été lassés en tenant omptede leur valeur
deonane.Cetteméthodeaétéintroduitelorsd'uneampagned'évaluationduNISTde1996
dansleurlogiield'évaluationstatistiquede reonnaissane [Siu97,Kemp 97℄.
Soit
p 0
letauxdereonnaissaneenmotsdusystèmedéniommelerapportentrelenombre demots orretset lenombre total de mots.L'entropiede référeneH(S)
dusystème estalorsdénieparl'équation suivante:
H(S) = −p 0 log p 0 − (1 − p 0 ) log(1 − p 0 )
(2.25)Si
X
représentetoutes les informationssupplémentaires apportéesau système de reonnais-saneinitial, l'entropieonditionnelleH(S|X)
peutêtre aluléeainsi :H(S|X) = −1 N
X
w correct
log pc w + X
w incorrect
log(1 − pc w )
(2.26)Où N représente le nombre de mots de la phrase reonnue et
pc w
la mesure de onaneassoiée aumot
w
.La valeur NCEest alorsdéniepar:
N CE = H(S) − H(S|X)
H(S)
(2.27)Ainsi,silamesuredeonaneestparfaite(lesmotsjustesontuneonanede1etlesmots
faux ont une valeur de onane de 0), d'après l'équation 2.26,
H(S|X) = 0
et don la valeurNCEassoiéevaut1.
De même, si la mesure de onane est uniformément aléatoire,
H(S|X)
est équivalente à l'entropiedu systèmea prioriH(S)
etlavaleurNCE estalorsnulle.Cependant,ilest possible quelavaleurNCE soit négative sil'apportd'information esttrop
fortement erroné. On pourra se reporter à un exemple onret de alul de la valeur NCE en
annexeA.1 page145.
Un problèmepersiste dansl'utilisationde laméthode NCE.En eet,dansleas oùun mot
orret a une valeur de onane prohe de 0 réiproquement un mot faux a une valeur de
onane prohe de 1 l'équation 2.26 indique que l'entropie tend vers l'inni. Une solution
onsiste à seuiller les valeurs de onane an que elles-i ne s'approhent pas des valeurs
ritiques0 et1maisrestentparexemple dansl'intervalle [0,1 0,9℄.
2.4.4 Coeient de orrélation
Uneautrefaçondeproéderpourobserverlapertinened'unemesuredeonaneest
d'ana-lyser simplement l'existened'une orrélation entre les valeursde onane assoiées auxmots
reonnus etlajustesse réellede esmots.
Pourela nousdénissons deux ensembles de données
X
etY
.X
représente l'ensembledesvaleursdelamesuredeonanepourlesmotsreonnusparlesystème,et
Y
estunensembledevaleursindiquantsilemotreonnuestjusteoufauxrelativementàlatransriptionderéférene.
L'ensemble
Y
està valeur disrète dans{0, 1}
.Sileséarts-types
σ X
etσ Y
sontdénisetnonnuls(ilfautdansnotreasqu'ilyaitaumoinsdeuxvaleursdistintesdanshaundesensembles)etsilesmoyennes
µ X
etµ Y
deesensemblessont égalementdénies, alorsleoeient de orrélation
ρ X,Y
estdéni parl'équation:ρ X,Y = E(XY ) − E(X)E(Y )
p E(X 2 ) − E 2 (X) p E(Y 2 ) − E 2 (Y )
(2.28)Où
E
représentel'espéranemathématique.Une mesurede onane idéale auraun oeient de orrélationégal à 1. Par ontre, dans
le pire desas où la mesure estime exatement l'inverse des labels réels desmots, le oeient
sera égal à
−1
.En eet, bien quefaux, les valeurs de onane sont orrélées ave les mots. Siune mesureaepte tousles mots,leoeientde orrélationest nul.
En dehors desvaleursprohes desextrêmes 0,1 ou -1,il est diilede qualier ledegré de
orrélation à partir de la valeur du oeient. Un oeient de 0,9 peut parfois exprimer une
faible orrélation à ause, notamment, de la grande sensibilitédu oeient de orrélation aux
valeursaberrantes.
2.4.5 Rappel / Préision
Dansledomainedelareherhed'information(InformationRetreival),lesméthodesévaluant
la pertinene habituellement utilisées sont dénies par rapport aux notions de Rappel et de
Préision.Cesdeuxnotionspermettentderendreomptedel'eaitédel'améliorationapportée
au système.
Lesméthodesderappel/préisionont également étéintroduitesdansledomainedesmesures
deonaneenreonnaissaneautomatiquedelaparole[Cox02℄.Lamesuredeonanepermet
d'étiqueterlesmotsd'unephraseenAeptationetRejet,ommedansleasdel'analysedutaux
d'égaleerreur(EER). Lesvaleursde rappel/préisionsontdéniesen fontion deet étiquetage
etde laonnaissanedelaséquenedemots réellementprononée.Leséquationsderappeletde
préision pourl'analyse desAeptations s'expriment ainsi:
Rappel = N b. de mots correctement etiquet´ ´ es Acceptation
N b. total de mots corrects
(2.29)P r´ ecision = N b. de mots correctement etiquet´ ´ es Acceptation
N b. de mots etiquet´ ´ es Acceptation
(2.30)La valeur de rappel seule n'est pas pertinente. Par exemple, une mesure de onane qui
aepte tousles mots de laphrase,etqui seraparonséquent inutile, auraunevaleur de rappel
égale à100%. Ainsi, lavaleurde rappelvagénéralementde pairave lavaleur depréision.
Une fontionglobaledénieparlamoyenneharmoniquedelavaleurderappeletdepréision
permetde regrouperes deux indiesen unseul [VanRijsbergen79℄. Cette mesure estappelée
F −
mesure.Son équationest lasuivante:F α = (1 + α)(pr´ ecision.rappel)
α. pr´ ecision + rappel
(2.31)Les
F−
mesures habituellement aluléessontF 1
,F 2
,etF 0,5
.Les informations issues des valeurs de rappel et de préision sont ainsi représentées parun
seulindie,la
F−
mesure.Laomparaisondesperformanesdesdiérentesmesuresdeonane devient alorsplusdirete, ommeave letaux d'égaleerreur.2.4.6 Synthèse
Nousavonsprésenté plusieursméthodesd'évaluation de mesures de onaneutilisées dans
la littérature. L'objetif de haune d'elle est le même : omparer et évaluer les mesures de
onane entre elles et également parrapport au système de reonnaissane.Toutefois, haque
méthode a ses aratèristiques propres, ses avantages et ses inonvénients et tente de apturer
des aspets plus ou moins liés à une appliation partiulière. Par exemple, le taux d'erreur de
onane CER est faile à évaluer de par sa simpliité et permet de omparer les mesures de
onaneparrapportàseule unevaleur.Depluse tauxestégalementomparable ave letaux
de mots orrets du système de reonnaissane. Mais un des inonvénients de ette méthode
vient justement du fait qu'il n'est pas possible de distinguer les deux types d'erreurs, fausses
aeptationsetfauxrejets,etainsidénir diérents points defontionnement.
La méthode proposéeparle NISTfondée surlealul de l'entropie roiséenormalisée tente
d'évaluer l'apportd'information d'unemesure de onaneparrapport aurésultat de la
reon-naissane.Cetteméthode,ommeleCER, détermineuneunique valeur,sanspouvoirdénir de
points de fontionnement. De plus, ette méthode pose des problèmes pour des mots dont la
onaneestnulle ousûre etpeutêtre àvaleur négative.
La méthode onsistant àaluler lestaux derappeletde préision estgénéralement utilisée
en reherhe d'information. L'assoiation des deux taux permet de dénir plusieurs points de
fontionnement selon le seuil de déision hoisi pourla mesure. Une seonde méthode
permet-tantégalement dedénir divers points defontionnement onsiste àaluler lestaux defausses
aeptationsetdefauxrejets.Toutefoispouretteméthode,unpointpartiulierpeutêtre
faile-mentmis enévidene,lepoint EERpourlequellamesuredeonanefaitproportionnellement
autant de fausses aeptations que de faux rejets. C'est poures raisons que pour l'évaluation
denosmesures de onane surleorpus de développement nousomparons nosmesures selon
leurtauxd'EER:lesmesures peuvent seomparerparrapportàune valeur préiseetplusieurs
pointsde fontionnement peuventfailement être dénis.