Mesures fondées sur le rapport de vraisemblane

2.3 Mesures de onane

2.3.5 Mesures fondées sur le rapport de vraisemblane

Lesmesuresdeonanesfondéessurlerapportdevraisemblanesontuneextensiondestests

d'hypothèse. La notion de test d'hypothèse est importante pour des situations qui néessitent

l'aeptation ou le rejet d'unévènement. Ces ritères de déision peuvent ainsi être dérivés en

mesures de onanepourdesappliations s'appuyant surune séparation binaire desrésultats.

Nousallonsommenerparprésenterlestestsd'hypothèsepuislafaçondonteux-isontétendus

auxmesures de onane.

2.3.5.1 Tests d'hypothèse

Les tests statistiques d'hypothèse sont des ritères de déision onernant un état binaire

d'unévènementparrapportàunseuildéni.Dansleasde lareonnaissanedelaparole,nous

onsidéronslerésultatproduitparlesystème.Deuxhypothèses

H ₀

^et

H ₁

^sont^alors^dénies^par^:

l'hypothèse nulle

H ₀

^:^le^résultat ^du^système^de reonnaissane estorret.

l'hypothèse alternative

H ₁

^:^le^résultat ^du^système^est ^inorret.

Le taux de reonnaissane global d'un système de reonnaissane étant généralement

supé-rieur à 50%, nous supposons que le résultat de la reonnaissane est orret et allons tester

l'hypothèse

H ₀

Deux typesd'erreur sont dénis:

erreurdepremière espèe :fauxrejet de

H ₀

^(appeléeâussiêrreur^de ^type Î).

erreurde deuxième espèe :fausse aeptation de l'hypothèse

H ₀

^(appelée ^également

erreurdetype II).

Testerl'hypothèse

H 0

^versusl'hypothèse

H 1

^,^'est^déterminer^si^nous^devons^aepter^ou

reje-ter

H ₀

^.^Le^lemme ^deNeyman-Pearsonénonealorsquelasolutionoptimaledutest d'hypothèse estfondée surunrapportde vraisemblane etun seuil

τ

^suivant^la^relation ^suivante^:

LR = P (X|H 0 )

P (X|H 1 )

^(2.5)

X

^représente ^le^résultat ^du ^système ^de reonnaissane.Si

LR ≥ τ

^, ^alorsl'hypothèse

H 0

^est

aeptée,sinonelleestrejetée.Enfaisantvarier

τ

^,^il^est^possible^d'inuener^le^nombre^d'erreurs

de première etdeuxièmeespèeande favoriserun desdeuxtypesd'erreur.

2.3.5.2 Rapport de vraisemblane

Le rapport de vraisemblane de l'équation 2.5 sert de base an de dénir des mesures de

onane.Pourela,il faut interpréter les hypothèses

H 0

^et

H 1

^suivant ^lamodélisation utilisée dans la reonnaissane de la parole. Soient

O

^une ^séquene d'observations orrespondant à un signal de parole,

M

^le ^modèle ^reonnu ^et

M ^f

^le ^modèle alternatif. Les hypothèses

H ₀

^et

H ₁

s'expriment maintenant souslaforme suivante:

H ₀

^:^le^modèle

M

^a^généré ^la^séquened'observations

O

H 1

^:^le^modèle ^alternatif

M f

^a^généré ^la^séquened'observations

O

L'équation2.5s'exprime alorsainsi:

LR = P (O|M) P (O| M) ^f

(2.6)

La problématiquedurapport devraisemblaneseonentredanslamodélisationde

l'hypo-thèsealternative

M f

^.^Trois ^prinipales^stratégies ^ont^été ^dérites ^dans^lalittérature :laréation d'unanti-modèleou d'unmodèlegénérique etl'utilisationdeshypothèsesonurrentes.

2.3.5.3 Modèle / Anti-Modèle

Laméthodelaplusommunémentemployéeonsisteàentraînerunanti-modèle

M

^spéique

pourhaque modèle

M

^[Rahim^95, ^Rose^95b,^Sukkar ^96,^Rahim ^97, ^Moreau^00℄. L'anti-modèle

M

êstâppris^à^partir^de^tous^les^éléments^duôrpus^qui^n'ont^pas^servi^àêngendrer^le^modèle

M

Ainsilesystèmea,parexemple,pourhaqueentitéphonétiquesonmodèle

M

^et^sonanti-modèle

M

^.^Les^hypothèses

H ₀

^et

H ₁

s'exprimentmaintenant sous laformesuivante:

H ₀

^:^le ^modèle

M

^a ^générél'observation

O

H 1

^:l'anti-modèle

M

^a ^générél'observation

O

Par exemple, Moreau et al. utilisent un rapport de vraisemblane modèle/anti-modèle an

derejeterdesnoms ou desphrasesdansleadrede l'interrogationd'unrépertoire téléphonique

ave un voabulaire spéique de 2004 noms. Les résultats sont analysés du point de vue des

tauxde fauxrejetsetde faussesaeptations.

Habituellement, l'équation 2.6 n'est pas utilisée diretement maissubit une transformation

logarithmique.Nousobtenons ainsidansleasdesanti-modèles l'équation suivante:

LLR = log P(O|M )

P(O|M )

^(2.7)

Le résultat du logarithmedu rapport de vraisemblane peutêtre utilisé entant quemesure

de onane au niveau des phonèmes [Sukkar 96, Ramesh98℄. En e qui onerne les mots,

plusieurspossibilitésont étéétudiées:soitdiretementen travaillant aveune modélisationdes

mots,soiten moyennantlesrapportsdevraisemblanedesphonèmesonstituantlesmots.Dans

leurs travaux, Falavigna et al. [Falavigna 02℄ ont introduit une telle mesure de onane dans

leadred'une appliationd'aeptation/rejet ave troissortes de orpus: desnoms propresou

des noms de ville (1781 au total), des onversations téléphoniques de type SWITCHBOARD,

desdialogues homme-hommedelongueur ourte(39mots)enréponseàlaquestion Comment

puis-jevousaider?.L'analyse aété faitesuivant letaux d'égaleerreurentreles fauxrejetset

lesfaussesaeptations.

D'autres travaux ont introduit une fontion de transformation monotone, par exemple

sig-moïdale,andenormaliserlerapportdevraisemblanedansl'intervalle

[0, 1]

[Garia-Mateo 99℄.

Dansleurs travaux, Garia etalont évalué les mesures de onane qu'ilsont déniesdans un

adre de reonnaissane de mots isolés (des noms propresau téléphone) à l'aide du ritère du

tauxd'égaleerreur.

2.3.5.4 Modèle générique

Une autre façon de générerun modèle alternatif

M f

^onsiste ^à ^dénir ^un ^modèle ^générique

M ^′

^qui^représente^n'importe^quelleêntité ^[Kamppari^00,^Mengusoglu ^03,^Fâbian^05℄. Ûne êntité

peut représenter un mot, un phonème ou une phrase. Par exemple, si nous désirons aluler le

rapportdevraisemblaneentredesmots,danse as,lemodèle

M ^′

^représente^le^modèle^moyen

de tous les mots du voabulaire. Le modèle

M ^′

^sera ^appris ^sur^l'ensemble^de ^toutes ^les ^entités

du orpus.Le rapportdevraisemblanes'exprime alorsainsi:

LR = P(O|M )

P(O|M ^′ )

^(2.8)

Cette méthode d'estimation de la onane a été étudiée dans [Fabian05℄ au niveau des

états desmodèles de Markovan d'eetuerunélagagedynamiquedu faiseaude reherheau

oursdelaphasededéodagedumoteurdereonnaissane.Lavaleurdeonanedéterminela

largeurdufaiseaudereherhe.Lesauteursontévaluél'impatdel'intégrationdeette mesure

de onanesuivant leritèredutaux d'erreurenmots dusystèmede reonnaissane,ainsique

suivant un ritère de fateur de temps gagné. Le adre de l'expériene étaitdes phrases(1000)

issues de dialogue de réservation en allemand (VERMOBIL), ave un lexique de taille réduite

(5343mots).

Une seonde façond'estimer

P(O|M ^′ )

^onsiste ^à ^utiliser ^pour

M ^′

^une ^boule ^de ^phonèmes

sansontrainteslinguistiques.Deette manière,lemodèle

M ^′

^représente^une^suite^de ^phonèmes

dont lesore aoustiqueestmaximalpourhaqueobservation de

O

Ce rapportentrelavraisemblaned'unmodèle

M

^et^un^modèle ^générique

M ^′

^représente^en

quelquesorte l'éart entrelemodèle

M

êtûn ^modèle^générique.^Cette^méthodeêst^parêxemple

utilisée pourladétetion de mots ou de phraseshors voabulaire[Young 94b,Sukkar 96℄. Pour

Sunetal.[Sun03℄l'appliationonsistaitenladétetiondemotshorsvoabulaire(nomspropres)

pourdesdialogues téléphoniques.L'analyse a été menée sur l'évolution destaux de faux rejets

etde faussesalarmes.

D'autres travaux ont déni un modèle alternatif ommeune ombinaison d'un anti-modèle

etd'unmodèlegénérique[Lleida 96,Setlur 96℄.Pouresméthodes,àhaquemodèle estassoié

un modèlealternatif, ommedansleasde ladénitiond'anti-modèles.

2.3.5.5 Modèles ompétitifs

Lesdeuxméthodespréédentesnéessitentl'apprentissagedenouveauxmodèles(anti-modèles,

modèle générique) ou la mise en plae d'unsystème de type boule de phonèmes pour estimer

la probabilité de la séquene d'observations. D'autres méthodes ne néessitent pas

l'apprentis-sage de modèles supplémentaires. Celles-ine sont fondées quesur laonnaissanedes modèles

existant dans le système de reonnaissane, 'est-à-dire les diérents modèles en ompétition

pendantlaphase dedéodage.

Ainsi[Cox96℄proposedefairelerapportentrelemodèle

M

^et^le^meilleur^modèle^onurrent

au niveau du déodage. D'autres travaux, pour un voabulaire

V

^de ^taille restreinte, prennent enomptelesmodèles detouslesmotsduvoabulaireetdénissentlerapportdevraisemblane

ainsi:

LR = P(O|M ) P

b

M∈V \{M}

P (O| M ^c )

(2.9)

La normalisationse fait don parla sommedes vraisemblanes de tousles modèles

onur-rents.Dans[Rahim 97℄,lesauteursexploitentetteméthodedansunbutd'aeptation/rejetde

phrasesonstituéesde hiresonnetés viauntéléphone (environ6000phrases).

Cependant,aveunsystèmegrandvoabulaire,etteméthodedevientdiilementréalisable

àausedunombretropimportantde modèlesàprendre enompte.Une solutiononsisteà

uti-liser la liste des

n

-meilleures phrases générées parle système de reonnaissane an de faire le rapportentre lavraisemblane de laphrase hypothèse et elle de ladeuxième meilleure phrase

ou de toutes les autres meilleures phrases [Boite 93, Rueber97, Weintraub 97℄. Charlet et al.

[Charlet01℄ ont par exemple déni une mesure de onane en fusionnant un tel rapport de

vraisemblane fondé surles

n

-meilleures phrases ave le résultat d'unréseau de neurones om-binant des ritères de voisement, nasalité, et. L'objetif étaitenore de rejeter des phrases de

faible onane dansle adre d'appliation d'interrogationde répertoire de noms.Aussi, le

vo-abulaireétait-il de tailleréduite :1587mots.L'analyse desmesuresde onane a étéfaite en

termedetaux de fauxrejetsetdefaussesaeptations.

Dans le document Mesures de confiance trame-synchrones et locales en reconnaissance automatique de la parole ~ Association Francophone de la Communication Parlée (Page 58-61)

Mesures fondées sur le rapport de vraisemblane

2.3 Mesures de onane

2.3.5 Mesures fondées sur le rapport de vraisemblane

H 0

H 1

H 0

H 1

H 0

H 0

H 0

H 0

H 1

H 0

τ

LR = P (X|H 0 )

P (X|H 1 )

X

LR ≥ τ

H 0

τ

H 0

H 1

O

M

M f

H 0

H 1

H 0

M

O

H 1

M f

O

LR = P (O|M) P (O| M) f

M f

M

M

M

M

M

M

H 0

H 1

H 0

M

O

H 1

M

O

LLR = log P(O|M )

P(O|M )

[0, 1]

M f

M ′

M ′

M ′

LR = P(O|M )

P(O|M ′ )

P(O|M ′ )

M ′

M ′

O

M

M ′

M

M

V

LR = P(O|M ) P

b

M∈V \{M}

P (O| M c )

n

n

H ₀

H ₁

H ₀

H ₁

H ₀

H ₀

H ₀

H ₀

M ^f

H ₀

H ₁

H ₀

LR = P (O|M) P (O| M) ^f

H ₀

H ₁

H ₀

M ^′

M ^′

M ^′

P(O|M ^′ )

P(O|M ^′ )

M ^′

M ^′

M ^′

P (O| M ^c )