2.3 Mesures de onane
2.3.5 Mesures fondées sur le rapport de vraisemblane
Lesmesuresdeonanesfondéessurlerapportdevraisemblanesontuneextensiondestests d'hypothèse. La notion de test d'hypothèse est importante pour des situations qui néessitent l'aeptation ou le rejet d'unévènement. Ces ritères de déision peuvent ainsi être dérivés en mesures de onanepourdesappliations s'appuyant surune séparation binaire desrésultats. Nousallonsommenerparprésenterlestestsd'hypothèsepuislafaçondonteux-isontétendus auxmesures de onane.
2.3.5.1 Tests d'hypothèse
Les tests statistiques d'hypothèse sont des ritères de déision onernant un état binaire d'unévènementparrapportàunseuildéni.Dansleasde lareonnaissanedelaparole,nous onsidéronslerésultatproduitparlesystème.Deuxhypothèses
H
0 etH
1sontalorsdéniespar:l'hypothèse nulle
H
0 :lerésultat dusystèmede reonnaissane estorret. l'hypothèse alternativeH
1 :lerésultat dusystèmeest inorret.Le taux de reonnaissane global d'un système de reonnaissane étant généralement supé-rieur à 50%, nous supposons que le résultat de la reonnaissane est orret et allons tester l'hypothèse
H
0.Deux typesd'erreur sont dénis:
erreurdepremière espèe :fauxrejet de
H
0 (appeléeaussierreurde type I).erreurde deuxième espèe :fausse aeptation de l'hypothèse
H
0 (appelée également erreurdetype II).Testerl'hypothèse
H
0 versusl'hypothèseH
1,'estdéterminersinousdevonsaepterou reje-terH
0.Lelemme deNeyman-Pearsonénonealorsquelasolutionoptimaledutest d'hypothèse estfondée surunrapportde vraisemblane etun seuilτ
suivantlarelation suivante:LR= P(X|H
0)
P(X|H
1)
(2.5)X
représente lerésultat du système de reonnaissane.SiLR≥τ
, alorsl'hypothèseH
0 est aeptée,sinonelleestrejetée.Enfaisantvarierτ
,ilestpossibled'inuenerlenombred'erreurs de première etdeuxièmeespèeande favoriserun desdeuxtypesd'erreur.2.3.5.2 Rapport de vraisemblane
Le rapport de vraisemblane de l'équation 2.5 sert de base an de dénir des mesures de onane.Pourela,il faut interpréter les hypothèses
H
0 etH
1 suivant lamodélisation utilisée dans la reonnaissane de la parole. SoientO
une séquene d'observations orrespondant à un signal de parole,M
le modèle reonnu etMf
le modèle alternatif. Les hypothèsesH
0 etH
1 s'expriment maintenant souslaforme suivante:
H
0 :lemodèleM
agénéré laséquened'observationsO
.L'équation2.5s'exprime alorsainsi:
LR= P(O|M)
P(O|Mf)
(2.6)
La problématiquedurapport devraisemblaneseonentredanslamodélisationde l'hypo-thèsealternative
Mf
.Trois prinipalesstratégies ontété dérites danslalittérature :laréation d'unanti-modèleou d'unmodèlegénérique etl'utilisationdeshypothèsesonurrentes.2.3.5.3 Modèle / Anti-Modèle
Laméthodelaplusommunémentemployéeonsisteàentraînerunanti-modèle
M
spéique pourhaque modèleM
[Rahim95, Rose95b,Sukkar 96,Rahim 97, Moreau00℄. L'anti-modèleM
estapprisàpartirdetouslesélémentsduorpusquin'ontpasserviàengendrerlemodèleM
. Ainsilesystèmea,parexemple,pourhaqueentitéphonétiquesonmodèleM
etsonanti-modèleM
.LeshypothèsesH
0 etH
1 s'exprimentmaintenant sous laformesuivante:
H
0 :le modèleM
a générél'observationO
.H
1 :l'anti-modèleM
a générél'observationO
.Par exemple, Moreau et al. utilisent un rapport de vraisemblane modèle/anti-modèle an derejeterdesnoms ou desphrasesdansleadrede l'interrogationd'unrépertoire téléphonique ave un voabulaire spéique de 2004 noms. Les résultats sont analysés du point de vue des tauxde fauxrejetsetde faussesaeptations.
Habituellement, l'équation 2.6 n'est pas utilisée diretement maissubit une transformation logarithmique.Nousobtenons ainsidansleasdesanti-modèles l'équation suivante:
LLR= logP(O|M)
P(O|M)
(2.7)Le résultat du logarithmedu rapport de vraisemblane peutêtre utilisé entant quemesure de onane au niveau des phonèmes [Sukkar 96, Ramesh98℄. En e qui onerne les mots, plusieurspossibilitésont étéétudiées:soitdiretementen travaillant aveune modélisationdes mots,soiten moyennantlesrapportsdevraisemblanedesphonèmesonstituantlesmots.Dans leurs travaux, Falavigna et al. [Falavigna 02℄ ont introduit une telle mesure de onane dans leadred'une appliationd'aeptation/rejet ave troissortes de orpus: desnoms propresou des noms de ville (1781 au total), des onversations téléphoniques de type SWITCHBOARD, desdialogues homme-hommedelongueur ourte(39mots)enréponseàlaquestion Comment puis-jevousaider?.L'analyse aété faitesuivant letaux d'égaleerreurentreles fauxrejetset lesfaussesaeptations.
D'autres travaux ont introduit une fontion de transformation monotone, par exemple sig-moïdale,andenormaliserlerapportdevraisemblanedansl'intervalle
[0,1]
[Garia-Mateo 99℄. Dansleurs travaux, Garia etalont évalué les mesures de onane qu'ilsont déniesdans un adre de reonnaissane de mots isolés (des noms propresau téléphone) à l'aide du ritère du tauxd'égaleerreur.2.3.5.4 Modèle générique
Une autre façon de générerun modèle alternatif
Mf
onsiste à dénir un modèle génériqueM
′ quireprésenten'importequelleentité [Kamppari00,Mengusoglu 03,Fabian05℄. Une entité peut représenter un mot, un phonème ou une phrase. Par exemple, si nous désirons aluler lerapportdevraisemblaneentredesmots,danse as,lemodèle
M
′ représentelemodèlemoyen de tous les mots du voabulaire. Le modèleM
′sera appris surl'ensemblede toutes les entités du orpus.Le rapportdevraisemblanes'exprime alorsainsi:
LR= P(O|M)
P(O|M
′)
(2.8)Cette méthode d'estimation de la onane a été étudiée dans [Fabian05℄ au niveau des états desmodèles de Markovan d'eetuerunélagagedynamiquedu faiseaude reherheau oursdelaphasededéodagedumoteurdereonnaissane.Lavaleurdeonanedéterminela largeurdufaiseaudereherhe.Lesauteursontévaluél'impatdel'intégrationdeette mesure de onanesuivant leritèredutaux d'erreurenmots dusystèmede reonnaissane,ainsique suivant un ritère de fateur de temps gagné. Le adre de l'expériene étaitdes phrases(1000) issues de dialogue de réservation en allemand (VERMOBIL), ave un lexique de taille réduite (5343mots).
Une seonde façond'estimer
P(O|M
′)
onsiste à utiliser pourM
′ une boule de phonèmes sansontrainteslinguistiques.Deette manière,lemodèleM
′représenteunesuitede phonèmes dont lesore aoustiqueestmaximalpourhaqueobservation de
O
.Ce rapportentrelavraisemblaned'unmodèle
M
etunmodèle génériqueM
′représenteen quelquesorte l'éart entrelemodèle
M
etun modèlegénérique.Cetteméthodeestparexemple utilisée pourladétetion de mots ou de phraseshors voabulaire[Young 94b,Sukkar 96℄. Pour Sunetal.[Sun03℄l'appliationonsistaitenladétetiondemotshorsvoabulaire(nomspropres) pourdesdialogues téléphoniques.L'analyse a été menée sur l'évolution destaux de faux rejets etde faussesalarmes.D'autres travaux ont déni un modèle alternatif ommeune ombinaison d'un anti-modèle etd'unmodèlegénérique[Lleida 96,Setlur 96℄.Pouresméthodes,àhaquemodèle estassoié un modèlealternatif, ommedansleasde ladénitiond'anti-modèles.
2.3.5.5 Modèles ompétitifs
Lesdeuxméthodespréédentesnéessitentl'apprentissagedenouveauxmodèles(anti-modèles, modèle générique) ou la mise en plae d'unsystème de type boule de phonèmes pour estimer la probabilité de la séquene d'observations. D'autres méthodes ne néessitent pas l'apprentis-sage de modèles supplémentaires. Celles-ine sont fondées quesur laonnaissanedes modèles existant dans le système de reonnaissane, 'est-à-dire les diérents modèles en ompétition pendantlaphase dedéodage.
Ainsi[Cox96℄proposedefairelerapportentrelemodèle
M
etlemeilleurmodèleonurrent au niveau du déodage. D'autres travaux, pour un voabulaireV
de taille restreinte, prennent enomptelesmodèles detouslesmotsduvoabulaireetdénissentlerapportdevraisemblane ainsi:LR= P(O|M)
P
b
M∈V\{M}P(O|Mc)
(2.9)La normalisationse fait don parla sommedes vraisemblanes de tousles modèles onur-rents.Dans[Rahim 97℄,lesauteursexploitentetteméthodedansunbutd'aeptation/rejetde phrasesonstituéesde hiresonnetés viauntéléphone (environ6000phrases).
Cependant,aveunsystèmegrandvoabulaire,etteméthodedevientdiilementréalisable àausedunombretropimportantde modèlesàprendre enompte.Une solutiononsisteà uti-liser la liste des