Mesures fondées sur le rapport de vraisemblane

2.3 Mesures de onane

2.3.5 Mesures fondées sur le rapport de vraisemblane

Lesmesuresdeonanesfondéessurlerapportdevraisemblanesontuneextensiondestests d'hypothèse. La notion de test d'hypothèse est importante pour des situations qui néessitent l'aeptation ou le rejet d'unévènement. Ces ritères de déision peuvent ainsi être dérivés en mesures de onanepourdesappliations s'appuyant surune séparation binaire desrésultats. Nousallonsommenerparprésenterlestestsd'hypothèsepuislafaçondonteux-isontétendus auxmesures de onane.

2.3.5.1 Tests d'hypothèse

Les tests statistiques d'hypothèse sont des ritères de déision onernant un état binaire d'unévènementparrapportàunseuildéni.Dansleasde lareonnaissanedelaparole,nous onsidéronslerésultatproduitparlesystème.Deuxhypothèses

H

₀ et

H

₁sontalorsdéniespar:

l'hypothèse nulle

H

₀ :lerésultat dusystèmede reonnaissane estorret. l'hypothèse alternative

H

₁ :lerésultat dusystèmeest inorret.

Le taux de reonnaissane global d'un système de reonnaissane étant généralement supé-rieur à 50%, nous supposons que le résultat de la reonnaissane est orret et allons tester l'hypothèse

H

₀.

Deux typesd'erreur sont dénis:

erreurdepremière espèe :fauxrejet de

H

₀ (appeléeaussierreurde type I).

erreurde deuxième espèe :fausse aeptation de l'hypothèse

H

₀ (appelée également erreurdetype II).

Testerl'hypothèse

H

0 versusl'hypothèse

H

1,'estdéterminersinousdevonsaepterou reje-ter

H

₀.Lelemme deNeyman-Pearsonénonealorsquelasolutionoptimaledutest d'hypothèse estfondée surunrapportde vraisemblane etun seuil

τ

suivantlarelation suivante:

LR= ^P⁽^X|H

₀

)

P(X|H

)

(2.5)

X

représente lerésultat du système de reonnaissane.Si

LR≥τ

, alorsl'hypothèse

H

0 est aeptée,sinonelleestrejetée.Enfaisantvarier

τ

,ilestpossibled'inuenerlenombred'erreurs de première etdeuxièmeespèeande favoriserun desdeuxtypesd'erreur.

2.3.5.2 Rapport de vraisemblane

Le rapport de vraisemblane de l'équation 2.5 sert de base an de dénir des mesures de onane.Pourela,il faut interpréter les hypothèses

H

0 et

H

1 suivant lamodélisation utilisée dans la reonnaissane de la parole. Soient

O

une séquene d'observations orrespondant à un signal de parole,

M

le modèle reonnu et

_Mf

le modèle alternatif. Les hypothèses

H

₀ et

H

₁ s'expriment maintenant souslaforme suivante:

H

₀ :lemodèle

M

agénéré laséquened'observations

O

L'équation2.5s'exprime alorsainsi:

LR= ^P⁽^O|M)

P(O|M^f)

(2.6)

La problématiquedurapport devraisemblaneseonentredanslamodélisationde l'hypo-thèsealternative

_Mf

.Trois prinipalesstratégies ontété dérites danslalittérature :laréation d'unanti-modèleou d'unmodèlegénérique etl'utilisationdeshypothèsesonurrentes.

2.3.5.3 Modèle / Anti-Modèle

Laméthodelaplusommunémentemployéeonsisteàentraînerunanti-modèle

M

spéique pourhaque modèle

M

[Rahim95, Rose95b,Sukkar 96,Rahim 97, Moreau00℄. L'anti-modèle

M

estapprisàpartirdetouslesélémentsduorpusquin'ontpasserviàengendrerlemodèle

M

. Ainsilesystèmea,parexemple,pourhaqueentitéphonétiquesonmodèle

M

etsonanti-modèle

M

.Leshypothèses

H

₀ et

H

₁ s'exprimentmaintenant sous laformesuivante:

H

₀ :le modèle

M

a générél'observation

O

H

1 :l'anti-modèle

M

a générél'observation

O

Par exemple, Moreau et al. utilisent un rapport de vraisemblane modèle/anti-modèle an derejeterdesnoms ou desphrasesdansleadrede l'interrogationd'unrépertoire téléphonique ave un voabulaire spéique de 2004 noms. Les résultats sont analysés du point de vue des tauxde fauxrejetsetde faussesaeptations.

Habituellement, l'équation 2.6 n'est pas utilisée diretement maissubit une transformation logarithmique.Nousobtenons ainsidansleasdesanti-modèles l'équation suivante:

LLR= log^P⁽^O|M)

P(O|M)

(2.7)

Le résultat du logarithmedu rapport de vraisemblane peutêtre utilisé entant quemesure de onane au niveau des phonèmes [Sukkar 96, Ramesh98℄. En e qui onerne les mots, plusieurspossibilitésont étéétudiées:soitdiretementen travaillant aveune modélisationdes mots,soiten moyennantlesrapportsdevraisemblanedesphonèmesonstituantlesmots.Dans leurs travaux, Falavigna et al. [Falavigna 02℄ ont introduit une telle mesure de onane dans leadred'une appliationd'aeptation/rejet ave troissortes de orpus: desnoms propresou des noms de ville (1781 au total), des onversations téléphoniques de type SWITCHBOARD, desdialogues homme-hommedelongueur ourte(39mots)enréponseàlaquestion Comment puis-jevousaider?.L'analyse aété faitesuivant letaux d'égaleerreurentreles fauxrejetset lesfaussesaeptations.

D'autres travaux ont introduit une fontion de transformation monotone, par exemple sig-moïdale,andenormaliserlerapportdevraisemblanedansl'intervalle

[0,1]

[Garia-Mateo 99℄. Dansleurs travaux, Garia etalont évalué les mesures de onane qu'ilsont déniesdans un adre de reonnaissane de mots isolés (des noms propresau téléphone) à l'aide du ritère du tauxd'égaleerreur.

2.3.5.4 Modèle générique

Une autre façon de générerun modèle alternatif

_Mf

onsiste à dénir un modèle générique

M

^′ quireprésenten'importequelleentité [Kamppari00,Mengusoglu 03,Fabian05℄. Une entité peut représenter un mot, un phonème ou une phrase. Par exemple, si nous désirons aluler le

rapportdevraisemblaneentredesmots,danse as,lemodèle

M

^′ représentelemodèlemoyen de tous les mots du voabulaire. Le modèle

M

′

sera appris surl'ensemblede toutes les entités du orpus.Le rapportdevraisemblanes'exprime alorsainsi:

LR= ^P⁽^O|M)

P(O|M

′

)

(2.8)

Cette méthode d'estimation de la onane a été étudiée dans [Fabian05℄ au niveau des états desmodèles de Markovan d'eetuerunélagagedynamiquedu faiseaude reherheau oursdelaphasededéodagedumoteurdereonnaissane.Lavaleurdeonanedéterminela largeurdufaiseaudereherhe.Lesauteursontévaluél'impatdel'intégrationdeette mesure de onanesuivant leritèredutaux d'erreurenmots dusystèmede reonnaissane,ainsique suivant un ritère de fateur de temps gagné. Le adre de l'expériene étaitdes phrases(1000) issues de dialogue de réservation en allemand (VERMOBIL), ave un lexique de taille réduite (5343mots).

Une seonde façond'estimer

P(O|M

^′

)

onsiste à utiliser pour

M

^′ une boule de phonèmes sansontrainteslinguistiques.Deette manière,lemodèle

M

′

représenteunesuitede phonèmes dont lesore aoustiqueestmaximalpourhaqueobservation de

O

Ce rapportentrelavraisemblaned'unmodèle

M

etunmodèle générique

M

′

représenteen quelquesorte l'éart entrelemodèle

M

etun modèlegénérique.Cetteméthodeestparexemple utilisée pourladétetion de mots ou de phraseshors voabulaire[Young 94b,Sukkar 96℄. Pour Sunetal.[Sun03℄l'appliationonsistaitenladétetiondemotshorsvoabulaire(nomspropres) pourdesdialogues téléphoniques.L'analyse a été menée sur l'évolution destaux de faux rejets etde faussesalarmes.

D'autres travaux ont déni un modèle alternatif ommeune ombinaison d'un anti-modèle etd'unmodèlegénérique[Lleida 96,Setlur 96℄.Pouresméthodes,àhaquemodèle estassoié un modèlealternatif, ommedansleasde ladénitiond'anti-modèles.

2.3.5.5 Modèles ompétitifs

Lesdeuxméthodespréédentesnéessitentl'apprentissagedenouveauxmodèles(anti-modèles, modèle générique) ou la mise en plae d'unsystème de type boule de phonèmes pour estimer la probabilité de la séquene d'observations. D'autres méthodes ne néessitent pas l'apprentis-sage de modèles supplémentaires. Celles-ine sont fondées quesur laonnaissanedes modèles existant dans le système de reonnaissane, 'est-à-dire les diérents modèles en ompétition pendantlaphase dedéodage.

Ainsi[Cox96℄proposedefairelerapportentrelemodèle

M

etlemeilleurmodèleonurrent au niveau du déodage. D'autres travaux, pour un voabulaire

V

de taille restreinte, prennent enomptelesmodèles detouslesmotsduvoabulaireetdénissentlerapportdevraisemblane ainsi:

LR= ^P⁽^O|M)

P

b

M∈V\{M}

P(O|M^c)

(2.9)

La normalisationse fait don parla sommedes vraisemblanes de tousles modèles onur-rents.Dans[Rahim 97℄,lesauteursexploitentetteméthodedansunbutd'aeptation/rejetde phrasesonstituéesde hiresonnetés viauntéléphone (environ6000phrases).

Cependant,aveunsystèmegrandvoabulaire,etteméthodedevientdiilementréalisable àausedunombretropimportantde modèlesàprendre enompte.Une solutiononsisteà uti-liser la liste des

n

-meilleures phrases générées parle système de reonnaissane an de faire le rapportentre lavraisemblane de laphrase hypothèse et elle de ladeuxième meilleure phrase ou de toutes les autres meilleures phrases [Boite 93, Rueber97, Weintraub 97℄. Charlet et al. [Charlet01℄ ont par exemple déni une mesure de onane en fusionnant un tel rapport de vraisemblane fondé surles

n

-meilleures phrases ave le résultat d'unréseau de neurones om-binant des ritères de voisement, nasalité, et. L'objetif étaitenore de rejeter des phrases de faible onane dansle adre d'appliation d'interrogationde répertoire de noms.Aussi, le vo-abulaireétait-il de tailleréduite :1587mots.L'analyse desmesuresde onane a étéfaite en termedetaux de fauxrejetsetdefaussesaeptations.

Dans le document Mesure de confiance trame-synchrones et locales en reconnaissance automatique de la parole (Page 59-62)

Mesures fondées sur le rapport de vraisemblane

2.3 Mesures de onane

2.3.5 Mesures fondées sur le rapport de vraisemblane

H

H

H

H

H

H

H

H

H

H

τ

LR= P(X|H

)

P(X|H

)

X

LR≥τ

H

τ

H

H

O

M

Mf

H

H

H

M

O

LR= P(O|M)

P(O|Mf)

Mf

M

M

M

M

M

M

H

H

H

M

O

H

M

O

LLR= logP(O|M)

P(O|M)

[0,1]

Mf

M

M

M

LR= P(O|M)

P(O|M

)

P(O|M

)

M

M

O

M

M

M

M

V

LR= P(O|M)

P

b

P(O|Mc)

n

n

LR= ^P⁽^X|H

_Mf

LR= ^P⁽^O|M)

P(O|M^f)

_Mf

LLR= log^P⁽^O|M)

_Mf

LR= ^P⁽^O|M)

LR= ^P⁽^O|M)

P(O|M^c)