• Aucun résultat trouvé

2.3 Mesures de onane

2.3.5 Mesures fondées sur le rapport de vraisemblane

Lesmesuresdeonanesfondéessurlerapportdevraisemblanesontuneextensiondestests

d'hypothèse. La notion de test d'hypothèse est importante pour des situations qui néessitent

l'aeptation ou le rejet d'unévènement. Ces ritères de déision peuvent ainsi être dérivés en

mesures de onanepourdesappliations s'appuyant surune séparation binaire desrésultats.

Nousallonsommenerparprésenterlestestsd'hypothèsepuislafaçondonteux-isontétendus

auxmesures de onane.

2.3.5.1 Tests d'hypothèse

Les tests statistiques d'hypothèse sont des ritères de déision onernant un état binaire

d'unévènementparrapportàunseuildéni.Dansleasde lareonnaissanedelaparole,nous

onsidéronslerésultatproduitparlesystème.Deuxhypothèses

H 0

et

H 1

sontalorsdéniespar:

l'hypothèse nulle

H 0

:lerésultat dusystèmede reonnaissane estorret.

l'hypothèse alternative

H 1

:lerésultat dusystèmeest inorret.

Le taux de reonnaissane global d'un système de reonnaissane étant généralement

supé-rieur à 50%, nous supposons que le résultat de la reonnaissane est orret et allons tester

l'hypothèse

H 0

.

Deux typesd'erreur sont dénis:

erreurdepremière espèe :fauxrejet de

H 0

(appeléeaussierreurde type I).

erreurde deuxième espèe :fausse aeptation de l'hypothèse

H 0

(appelée également

erreurdetype II).

Testerl'hypothèse

H 0

versusl'hypothèse

H 1

,'estdéterminersinousdevonsaepterou

reje-ter

H 0

.Lelemme deNeyman-Pearsonénonealorsquelasolutionoptimaledutest d'hypothèse estfondée surunrapportde vraisemblane etun seuil

τ

suivantlarelation suivante:

LR = P (X|H 0 )

P (X|H 1 )

(2.5)

X

représente lerésultat du système de reonnaissane.Si

LR ≥ τ

, alorsl'hypothèse

H 0

est

aeptée,sinonelleestrejetée.Enfaisantvarier

τ

,ilestpossibled'inuenerlenombred'erreurs

de première etdeuxièmeespèeande favoriserun desdeuxtypesd'erreur.

2.3.5.2 Rapport de vraisemblane

Le rapport de vraisemblane de l'équation 2.5 sert de base an de dénir des mesures de

onane.Pourela,il faut interpréter les hypothèses

H 0

et

H 1

suivant lamodélisation utilisée dans la reonnaissane de la parole. Soient

O

une séquene d'observations orrespondant à un signal de parole,

M

le modèle reonnu et

M f

le modèle alternatif. Les hypothèses

H 0

et

H 1

s'expriment maintenant souslaforme suivante:

H 0

:lemodèle

M

agénéré laséquened'observations

O

.

H 1

:lemodèle alternatif

M f

agénéré laséquened'observations

O

.

L'équation2.5s'exprime alorsainsi:

LR = P (O|M) P (O| M) f

(2.6)

La problématiquedurapport devraisemblaneseonentredanslamodélisationde

l'hypo-thèsealternative

M f

.Trois prinipalesstratégies ontété dérites danslalittérature :laréation d'unanti-modèleou d'unmodèlegénérique etl'utilisationdeshypothèsesonurrentes.

2.3.5.3 Modèle / Anti-Modèle

Laméthodelaplusommunémentemployéeonsisteàentraînerunanti-modèle

M

spéique

pourhaque modèle

M

[Rahim95, Rose95b,Sukkar 96,Rahim 97, Moreau00℄. L'anti-modèle

M

estapprisàpartirdetouslesélémentsduorpusquin'ontpasserviàengendrerlemodèle

M

.

Ainsilesystèmea,parexemple,pourhaqueentitéphonétiquesonmodèle

M

etsonanti-modèle

M

.Leshypothèses

H 0

et

H 1

s'exprimentmaintenant sous laformesuivante:

H 0

:le modèle

M

a générél'observation

O

.

H 1

:l'anti-modèle

M

a générél'observation

O

.

Par exemple, Moreau et al. utilisent un rapport de vraisemblane modèle/anti-modèle an

derejeterdesnoms ou desphrasesdansleadrede l'interrogationd'unrépertoire téléphonique

ave un voabulaire spéique de 2004 noms. Les résultats sont analysés du point de vue des

tauxde fauxrejetsetde faussesaeptations.

Habituellement, l'équation 2.6 n'est pas utilisée diretement maissubit une transformation

logarithmique.Nousobtenons ainsidansleasdesanti-modèles l'équation suivante:

LLR = log P(O|M )

P(O|M )

(2.7)

Le résultat du logarithmedu rapport de vraisemblane peutêtre utilisé entant quemesure

de onane au niveau des phonèmes [Sukkar 96, Ramesh98℄. En e qui onerne les mots,

plusieurspossibilitésont étéétudiées:soitdiretementen travaillant aveune modélisationdes

mots,soiten moyennantlesrapportsdevraisemblanedesphonèmesonstituantlesmots.Dans

leurs travaux, Falavigna et al. [Falavigna 02℄ ont introduit une telle mesure de onane dans

leadred'une appliationd'aeptation/rejet ave troissortes de orpus: desnoms propresou

des noms de ville (1781 au total), des onversations téléphoniques de type SWITCHBOARD,

desdialogues homme-hommedelongueur ourte(39mots)enréponseàlaquestion Comment

puis-jevousaider?.L'analyse aété faitesuivant letaux d'égaleerreurentreles fauxrejetset

lesfaussesaeptations.

D'autres travaux ont introduit une fontion de transformation monotone, par exemple

sig-moïdale,andenormaliserlerapportdevraisemblanedansl'intervalle

[0, 1]

[Garia-Mateo 99℄.

Dansleurs travaux, Garia etalont évalué les mesures de onane qu'ilsont déniesdans un

adre de reonnaissane de mots isolés (des noms propresau téléphone) à l'aide du ritère du

tauxd'égaleerreur.

2.3.5.4 Modèle générique

Une autre façon de générerun modèle alternatif

M f

onsiste à dénir un modèle générique

M

quireprésenten'importequelleentité [Kamppari00,Mengusoglu 03,Fabian05℄. Une entité

peut représenter un mot, un phonème ou une phrase. Par exemple, si nous désirons aluler le

rapportdevraisemblaneentredesmots,danse as,lemodèle

M

représentelemodèlemoyen

de tous les mots du voabulaire. Le modèle

M

sera appris surl'ensemblede toutes les entités

du orpus.Le rapportdevraisemblanes'exprime alorsainsi:

LR = P(O|M )

P(O|M )

(2.8)

Cette méthode d'estimation de la onane a été étudiée dans [Fabian05℄ au niveau des

états desmodèles de Markovan d'eetuerunélagagedynamiquedu faiseaude reherheau

oursdelaphasededéodagedumoteurdereonnaissane.Lavaleurdeonanedéterminela

largeurdufaiseaudereherhe.Lesauteursontévaluél'impatdel'intégrationdeette mesure

de onanesuivant leritèredutaux d'erreurenmots dusystèmede reonnaissane,ainsique

suivant un ritère de fateur de temps gagné. Le adre de l'expériene étaitdes phrases(1000)

issues de dialogue de réservation en allemand (VERMOBIL), ave un lexique de taille réduite

(5343mots).

Une seonde façond'estimer

P(O|M )

onsiste à utiliser pour

M

une boule de phonèmes

sansontrainteslinguistiques.Deette manière,lemodèle

M

représenteunesuitede phonèmes

dont lesore aoustiqueestmaximalpourhaqueobservation de

O

.

Ce rapportentrelavraisemblaned'unmodèle

M

etunmodèle générique

M

représenteen

quelquesorte l'éart entrelemodèle

M

etun modèlegénérique.Cetteméthodeestparexemple

utilisée pourladétetion de mots ou de phraseshors voabulaire[Young 94b,Sukkar 96℄. Pour

Sunetal.[Sun03℄l'appliationonsistaitenladétetiondemotshorsvoabulaire(nomspropres)

pourdesdialogues téléphoniques.L'analyse a été menée sur l'évolution destaux de faux rejets

etde faussesalarmes.

D'autres travaux ont déni un modèle alternatif ommeune ombinaison d'un anti-modèle

etd'unmodèlegénérique[Lleida 96,Setlur 96℄.Pouresméthodes,àhaquemodèle estassoié

un modèlealternatif, ommedansleasde ladénitiond'anti-modèles.

2.3.5.5 Modèles ompétitifs

Lesdeuxméthodespréédentesnéessitentl'apprentissagedenouveauxmodèles(anti-modèles,

modèle générique) ou la mise en plae d'unsystème de type boule de phonèmes pour estimer

la probabilité de la séquene d'observations. D'autres méthodes ne néessitent pas

l'apprentis-sage de modèles supplémentaires. Celles-ine sont fondées quesur laonnaissanedes modèles

existant dans le système de reonnaissane, 'est-à-dire les diérents modèles en ompétition

pendantlaphase dedéodage.

Ainsi[Cox96℄proposedefairelerapportentrelemodèle

M

etlemeilleurmodèleonurrent

au niveau du déodage. D'autres travaux, pour un voabulaire

V

de taille restreinte, prennent enomptelesmodèles detouslesmotsduvoabulaireetdénissentlerapportdevraisemblane

ainsi:

LR = P(O|M ) P

b

M∈V \{M}

P (O| M c )

(2.9)

La normalisationse fait don parla sommedes vraisemblanes de tousles modèles

onur-rents.Dans[Rahim 97℄,lesauteursexploitentetteméthodedansunbutd'aeptation/rejetde

phrasesonstituéesde hiresonnetés viauntéléphone (environ6000phrases).

Cependant,aveunsystèmegrandvoabulaire,etteméthodedevientdiilementréalisable

àausedunombretropimportantde modèlesàprendre enompte.Une solutiononsisteà

uti-liser la liste des

n

-meilleures phrases générées parle système de reonnaissane an de faire le rapportentre lavraisemblane de laphrase hypothèse et elle de ladeuxième meilleure phrase

ou de toutes les autres meilleures phrases [Boite 93, Rueber97, Weintraub 97℄. Charlet et al.

[Charlet01℄ ont par exemple déni une mesure de onane en fusionnant un tel rapport de

vraisemblane fondé surles

n

-meilleures phrases ave le résultat d'unréseau de neurones om-binant des ritères de voisement, nasalité, et. L'objetif étaitenore de rejeter des phrases de

faible onane dansle adre d'appliation d'interrogationde répertoire de noms.Aussi, le

vo-abulaireétait-il de tailleréduite :1587mots.L'analyse desmesuresde onane a étéfaite en

termedetaux de fauxrejetsetdefaussesaeptations.