2.3 Mesures de onane
2.3.5 Mesures fondées sur le rapport de vraisemblane
Lesmesuresdeonanesfondéessurlerapportdevraisemblanesontuneextensiondestests
d'hypothèse. La notion de test d'hypothèse est importante pour des situations qui néessitent
l'aeptation ou le rejet d'unévènement. Ces ritères de déision peuvent ainsi être dérivés en
mesures de onanepourdesappliations s'appuyant surune séparation binaire desrésultats.
Nousallonsommenerparprésenterlestestsd'hypothèsepuislafaçondonteux-isontétendus
auxmesures de onane.
2.3.5.1 Tests d'hypothèse
Les tests statistiques d'hypothèse sont des ritères de déision onernant un état binaire
d'unévènementparrapportàunseuildéni.Dansleasde lareonnaissanedelaparole,nous
onsidéronslerésultatproduitparlesystème.Deuxhypothèses
H 0
etH 1
sontalorsdéniespar:l'hypothèse nulle
H 0
:lerésultat dusystèmede reonnaissane estorret.l'hypothèse alternative
H 1
:lerésultat dusystèmeest inorret.Le taux de reonnaissane global d'un système de reonnaissane étant généralement
supé-rieur à 50%, nous supposons que le résultat de la reonnaissane est orret et allons tester
l'hypothèse
H 0
.Deux typesd'erreur sont dénis:
erreurdepremière espèe :fauxrejet de
H 0
(appeléeaussierreurde type I).erreurde deuxième espèe :fausse aeptation de l'hypothèse
H 0
(appelée égalementerreurdetype II).
Testerl'hypothèse
H 0
versusl'hypothèseH 1
,'estdéterminersinousdevonsaepteroureje-ter
H 0
.Lelemme deNeyman-Pearsonénonealorsquelasolutionoptimaledutest d'hypothèse estfondée surunrapportde vraisemblane etun seuilτ
suivantlarelation suivante:LR = P (X|H 0 )
P (X|H 1 )
(2.5)X
représente lerésultat du système de reonnaissane.SiLR ≥ τ
, alorsl'hypothèseH 0
estaeptée,sinonelleestrejetée.Enfaisantvarier
τ
,ilestpossibled'inuenerlenombred'erreursde première etdeuxièmeespèeande favoriserun desdeuxtypesd'erreur.
2.3.5.2 Rapport de vraisemblane
Le rapport de vraisemblane de l'équation 2.5 sert de base an de dénir des mesures de
onane.Pourela,il faut interpréter les hypothèses
H 0
etH 1
suivant lamodélisation utilisée dans la reonnaissane de la parole. SoientO
une séquene d'observations orrespondant à un signal de parole,M
le modèle reonnu etM f
le modèle alternatif. Les hypothèsesH 0
etH 1
s'expriment maintenant souslaforme suivante:
H 0
:lemodèleM
agénéré laséquened'observationsO
.
H 1
:lemodèle alternatifM f
agénéré laséquened'observationsO
.L'équation2.5s'exprime alorsainsi:
LR = P (O|M) P (O| M) f
(2.6)
La problématiquedurapport devraisemblaneseonentredanslamodélisationde
l'hypo-thèsealternative
M f
.Trois prinipalesstratégies ontété dérites danslalittérature :laréation d'unanti-modèleou d'unmodèlegénérique etl'utilisationdeshypothèsesonurrentes.2.3.5.3 Modèle / Anti-Modèle
Laméthodelaplusommunémentemployéeonsisteàentraînerunanti-modèle
M
spéiquepourhaque modèle
M
[Rahim95, Rose95b,Sukkar 96,Rahim 97, Moreau00℄. L'anti-modèleM
estapprisàpartirdetouslesélémentsduorpusquin'ontpasserviàengendrerlemodèleM
.Ainsilesystèmea,parexemple,pourhaqueentitéphonétiquesonmodèle
M
etsonanti-modèleM
.LeshypothèsesH 0
etH 1
s'exprimentmaintenant sous laformesuivante:
H 0
:le modèleM
a générél'observationO
.
H 1
:l'anti-modèleM
a générél'observationO
.Par exemple, Moreau et al. utilisent un rapport de vraisemblane modèle/anti-modèle an
derejeterdesnoms ou desphrasesdansleadrede l'interrogationd'unrépertoire téléphonique
ave un voabulaire spéique de 2004 noms. Les résultats sont analysés du point de vue des
tauxde fauxrejetsetde faussesaeptations.
Habituellement, l'équation 2.6 n'est pas utilisée diretement maissubit une transformation
logarithmique.Nousobtenons ainsidansleasdesanti-modèles l'équation suivante:
LLR = log P(O|M )
P(O|M )
(2.7)Le résultat du logarithmedu rapport de vraisemblane peutêtre utilisé entant quemesure
de onane au niveau des phonèmes [Sukkar 96, Ramesh98℄. En e qui onerne les mots,
plusieurspossibilitésont étéétudiées:soitdiretementen travaillant aveune modélisationdes
mots,soiten moyennantlesrapportsdevraisemblanedesphonèmesonstituantlesmots.Dans
leurs travaux, Falavigna et al. [Falavigna 02℄ ont introduit une telle mesure de onane dans
leadred'une appliationd'aeptation/rejet ave troissortes de orpus: desnoms propresou
des noms de ville (1781 au total), des onversations téléphoniques de type SWITCHBOARD,
desdialogues homme-hommedelongueur ourte(39mots)enréponseàlaquestion Comment
puis-jevousaider?.L'analyse aété faitesuivant letaux d'égaleerreurentreles fauxrejetset
lesfaussesaeptations.
D'autres travaux ont introduit une fontion de transformation monotone, par exemple
sig-moïdale,andenormaliserlerapportdevraisemblanedansl'intervalle
[0, 1]
[Garia-Mateo 99℄.Dansleurs travaux, Garia etalont évalué les mesures de onane qu'ilsont déniesdans un
adre de reonnaissane de mots isolés (des noms propresau téléphone) à l'aide du ritère du
tauxd'égaleerreur.
2.3.5.4 Modèle générique
Une autre façon de générerun modèle alternatif
M f
onsiste à dénir un modèle génériqueM ′
quireprésenten'importequelleentité [Kamppari00,Mengusoglu 03,Fabian05℄. Une entitépeut représenter un mot, un phonème ou une phrase. Par exemple, si nous désirons aluler le
rapportdevraisemblaneentredesmots,danse as,lemodèle
M ′
représentelemodèlemoyende tous les mots du voabulaire. Le modèle
M ′
sera appris surl'ensemblede toutes les entitésdu orpus.Le rapportdevraisemblanes'exprime alorsainsi:
LR = P(O|M )
P(O|M ′ )
(2.8)Cette méthode d'estimation de la onane a été étudiée dans [Fabian05℄ au niveau des
états desmodèles de Markovan d'eetuerunélagagedynamiquedu faiseaude reherheau
oursdelaphasededéodagedumoteurdereonnaissane.Lavaleurdeonanedéterminela
largeurdufaiseaudereherhe.Lesauteursontévaluél'impatdel'intégrationdeette mesure
de onanesuivant leritèredutaux d'erreurenmots dusystèmede reonnaissane,ainsique
suivant un ritère de fateur de temps gagné. Le adre de l'expériene étaitdes phrases(1000)
issues de dialogue de réservation en allemand (VERMOBIL), ave un lexique de taille réduite
(5343mots).
Une seonde façond'estimer
P(O|M ′ )
onsiste à utiliser pourM ′
une boule de phonèmessansontrainteslinguistiques.Deette manière,lemodèle
M ′
représenteunesuitede phonèmesdont lesore aoustiqueestmaximalpourhaqueobservation de
O
.Ce rapportentrelavraisemblaned'unmodèle
M
etunmodèle génériqueM ′
représenteenquelquesorte l'éart entrelemodèle
M
etun modèlegénérique.Cetteméthodeestparexempleutilisée pourladétetion de mots ou de phraseshors voabulaire[Young 94b,Sukkar 96℄. Pour
Sunetal.[Sun03℄l'appliationonsistaitenladétetiondemotshorsvoabulaire(nomspropres)
pourdesdialogues téléphoniques.L'analyse a été menée sur l'évolution destaux de faux rejets
etde faussesalarmes.
D'autres travaux ont déni un modèle alternatif ommeune ombinaison d'un anti-modèle
etd'unmodèlegénérique[Lleida 96,Setlur 96℄.Pouresméthodes,àhaquemodèle estassoié
un modèlealternatif, ommedansleasde ladénitiond'anti-modèles.
2.3.5.5 Modèles ompétitifs
Lesdeuxméthodespréédentesnéessitentl'apprentissagedenouveauxmodèles(anti-modèles,
modèle générique) ou la mise en plae d'unsystème de type boule de phonèmes pour estimer
la probabilité de la séquene d'observations. D'autres méthodes ne néessitent pas
l'apprentis-sage de modèles supplémentaires. Celles-ine sont fondées quesur laonnaissanedes modèles
existant dans le système de reonnaissane, 'est-à-dire les diérents modèles en ompétition
pendantlaphase dedéodage.
Ainsi[Cox96℄proposedefairelerapportentrelemodèle
M
etlemeilleurmodèleonurrentau niveau du déodage. D'autres travaux, pour un voabulaire
V
de taille restreinte, prennent enomptelesmodèles detouslesmotsduvoabulaireetdénissentlerapportdevraisemblaneainsi:
LR = P(O|M ) P
b
M∈V \{M}
P (O| M c )
(2.9)
La normalisationse fait don parla sommedes vraisemblanes de tousles modèles
onur-rents.Dans[Rahim 97℄,lesauteursexploitentetteméthodedansunbutd'aeptation/rejetde
phrasesonstituéesde hiresonnetés viauntéléphone (environ6000phrases).
Cependant,aveunsystèmegrandvoabulaire,etteméthodedevientdiilementréalisable
àausedunombretropimportantde modèlesàprendre enompte.Une solutiononsisteà
uti-liser la liste des
n
-meilleures phrases générées parle système de reonnaissane an de faire le rapportentre lavraisemblane de laphrase hypothèse et elle de ladeuxième meilleure phraseou de toutes les autres meilleures phrases [Boite 93, Rueber97, Weintraub 97℄. Charlet et al.
[Charlet01℄ ont par exemple déni une mesure de onane en fusionnant un tel rapport de
vraisemblane fondé surles
n
-meilleures phrases ave le résultat d'unréseau de neurones om-binant des ritères de voisement, nasalité, et. L'objetif étaitenore de rejeter des phrases defaible onane dansle adre d'appliation d'interrogationde répertoire de noms.Aussi, le
vo-abulaireétait-il de tailleréduite :1587mots.L'analyse desmesuresde onane a étéfaite en
termedetaux de fauxrejetsetdefaussesaeptations.