Mesures fondées sur les probabilité a posteriori

2.3 Mesures de onane

2.3.6 Mesures fondées sur les probabilité a posteriori

En reonnaissane automatique de la parole, les systèmes herhent la séquene de mots qui maximise la probabilité que ette séquene ait généré la suite d'observations du signal de parole. Cependant, une fois la séquene solution déterminée, auun indie de qualité de ette solution n'estdisponible.En eet, dans larésolution de la reonnaissane (f. équation 1.2),la normalisationdel'équationparlaprobabilitédel'émission

P(O)

aétéomisearetteprobabilité estindépendantede laséquene demots onsidérée.

La probabilité a posteriori

P(W|O)

d'une phrase ou d'une séquene de mots

W

pour la séquened'observations

O

estdonnéeparl'équation suivante:

P(W|O) = ^P⁽^O|W)P(W)

P(O)

(2.10)

Laquantité

P(O|W)P(W)

estaluléeparlemoteurdereonnaissaneauoursdelaphase dedéodagede lasuited'observations

O

.Connaître

P(O)

permettrait depouvoir normaliserla vraisemblane de la séquene trouvée an de aluler la probabilité a posteriori de la séquene

W

,'est-à-diredelaphrasereonnue.Deparsadénition,laprobabilitéaposteriorisembleêtre unebonne mesurede onanede laphrase.

De la même façon, il est intéressant de dénir la mesure de onane d'un mot omme sa probabilitéa posteriori.Toutefois,si nousvoulons aluler laprobabilitéa posterioride haun desmotsde

W

,desétapessupplémentairessontnéessaires.Pourunmot

w

partiulier,eipeut êtreréalisé en sommant laprobabilitéa posterioride toutes les phrasesontenant

w

àlamême position danslaséquene.Soit

w

_n len

ieme`

motdans unephrase

W

.La probabilitéa posteriori d'unmot

w

s'exprime alorsainsi :

P(w|O) = X

W/wn=w

P(W|O)

(2.11)

Undeuxièmeproblèmeestsoulevéii,arpourunmot

w

,ilfautdéterminertouteslesphrases quiontiennent

w

,etégalement,expliiterlanotionde même positiondans la phrase.

Plusieurstravauxdereherheontdonpourobjetifd'estimeretteprobabilitéaposteriori. Pour ela ils ont le plussouvent utilisé une desdeux strutures issues du moteurde reonnais-sane:laliste desn-meilleuresphrasesou lesgraphes de mots (voir setion1.6.3 p.18).

Toutes les méthodes qui suivent et que nous présentons dièrent sur la façon d'estimer et d'approximer

P(O)

ainsiquelafaçondont estdéterminéelapositiond'unmot danslaphrase.

2.3.6.1 Mesures fondées sur la liste de n-meilleures phrases

Lalistedesn-meilleuresphrasesontientunelistedeséquenesdemotsdontlavraisemblane étaitparmilesn-meilleurespendantledéodage.Commeindiquépréédemment,pouralulerla probabilitéa posteriorid'unmot,ilest néessaired'estimer

P(O)

etde onnaîtrela probabilité a posterioridetouteslesphrasesquiontiennentemot.Or,ilestfailede onnaîtrel'existene d'unmotetsapositiondansunedesséquenesdelalistedesn-meilleuresphrases,etommees phrasessontparmilesn-meilleures,leurontribution estmajoritairean d'eetuerlealulde laprobabilitéa posteriori. Ainsidenombreusesmesures deonaness'appuient surlaliste des n-meilleures phrasespourleur dénition[Jeanrenaud95, Stolke97℄.

Dans [Weintraub 95, Weintraub97℄, la solution adoptée pour évaluer la probabilité a pos-teriori d'un mot lé onsiste à sommer les probabilités de toutes les séquenes de la liste des n-meilleuresphrasesontenante mot léà lamêmeposition danslaphrase,puis,ànormaliser ette quantité parla sommedes probabilitésde toutes les séquenes de laliste desn-meilleures phrases.Rueber[Rueber97℄proposeuneméthodesimilairepourdéterminerlaonanedemots telsquedesnomspropresenutilisantlesprobabilitésre-normaliséesdesséquenesdelalistedes n-meilleuresphrases.Laméthodeinitiée parWeintraubaétéétendueaualuldelaprobabilité a posteriori de tous les mots d'une phrase parF. Wessel etal. An de aluler laprobabilité a posteriori d'un mot

w

, il est néessaire de déterminer l'ensemble des séquenes de la liste des n-meilleuresphrasesontenant

w

àlamêmeposition.Dansetteétude,laméthoded'alignement de Levenshtein aétéemployée, equi apermisnalement d'estimerles probabilitésa posteriori desmots [Wessel99℄.

L. Chase [Chase 97℄ ainsi que Gilliket al. [Gillik97℄ étudient la proportion de séquenes ontenant un mothypothèse à la mêmeposition parmila liste desn-meilleures phrases an de dénir laprobabilitéa posteriori.

Lealuldelaprobabilitéaposteriorienutilisantles

n

-meilleuresphrasesprésentel'avantage delasimpliitéd'aèsauxinformationstelles quelapositiond'unmotdanslaphrase.Deplus, le nombrede meilleuresphrases retenuesétant de l'ordre de laentaine,ette méthode est peu oûteuse d'un point de vue alulatoire. Toutefois, les mesures de onane fondées sur les

n

-meilleuresphrasessontdesapproximationsassez fortesdelavaleurthéorique delaprobabilitéa posteriorietparonséquent sontmoinspréises queellesestiméesàpartird'ungraphedemots ayantune densitéd'hypothèsesplusimportante[Wessel99℄.

Par ailleurs, es mesures néessitent la génération de l'ensemble des

n

-meilleures phrases et don la terminaison omplète du proessus de reonnaissane. Ces mesures ne sont don pas envisageables pour des appliations en ux, omme par exemple la transription en ligne d'émissionsou de oursdansune sallede lasse.

2.3.6.2 Mesuresfondéessurlesgraphesdemotsetl'algorithmedeforward-bakward

La plupartdesmesuresdeonaneestimantlaprobabilitéa posterioriàpartird'ungraphe de mots utilisent l'algorithmeforward-bakwark[Kemp97,Metze00,Wessel01℄.

Le graphede motsest unereprésentationompateetassez préisede toutesles hypothèses émises et non élaguées lors de la phase de déodage du système de reonnaissane (f. 1.6.3). Ainsi, le alul de la probabilité a posteriori à partir de e graphe de mots permet d'obtenir une estimationne de

P(W|O)

.C'est pourquoi esmesuresde onane donnenten généralde meilleurs résultatsqueles autres formesde mesuresde onane[Jiang 05℄.

F.Wesseldéritdans[Wessel01℄uneméthodequipermetd'estimerlaprobabilitéaposteriori d'un mot et ainsi de dénir une mesure de onane. Cette méthode repose sur une struture

de graphede mots, etutilise les probabilités aoustiques ainsique les probabilités linguistiques issuesdu modèlede langage desmots hypothèsesontenusdanse graphe.

UnepartiedenostravauxétantfondéesurlaméthodeproposéeparWesseletal.pourestimer laprobabilitéa posteriori d'unmot,nousdérivonselle-i plusen détail.

Méthode de alul proposée par F. Wessel

Pourdérireette mesure,nousdevonsintroduire quelquesnotations,soient :

[w, τ, t]

unmothypothèse ommençantà l'instant

τ

etseterminant àl'instant

t

o

^t_τ laséquene d'observationsdu temps

τ

au temps

t

Une phraseseradénieommeommençantàl'instant

1

etseterminant àl'instant

T

.Nous dénissonsainsi:

[w, τ, t]

ommelemothypothèse dontnousvoulons estimerlaprobabilité a posteriori,

[w, τ, t]

^M₁ une séquene de

M

mots

[w

, τ

, t

]

telle que

τ

₁

= 1

t

= T

t

_i₋₁

= τ

−1

pour

i= 2, . . . , M

C([w, τ, t])

lamesurede onane dumot hypothèse

[w, τ, t]

Soit

p([w, τ, t]

^M₁

|o

^T₁

)

la probabilité a posteriori d'une séquene de

M

mots sahant

o

^T₁, les observationsaoustiquesorrespondantes.Laprobabilitéa posterioridumothypothèse

[w, τ, t]

, notée

p([w, τ, t]|o

^T₁

)

, est égale à la somme des probabilités a posteriori de toutes les phrases hypothèses ontenant le mot

[w, τ, t]

.La méthode dérite parF. Wessel dérive de l'algorithme forward-bakwardde BaumetWelhprésentésetion1.4.2.1maisappliquéauniveau dumot.Il dénitdonpourunmot

[w, τ, t]

dugrapheuneprobabilitéforward,

Φ([w, τ, t])

,etuneprobabilité bakward,

Ψ([w, τ, t])

Toutefois, les sores aoustiques et linguistiques impliqués dans es aluls ne varient pas dansles mêmes ordres de grandeur. Ce phénomènepeutinduire de mauvaises performanes de lamesure, danslaquelle le sore aoustique serait dominant. Aussi, deux fateurs d'éhelle ont étéintroduits :

α

pourlesore aoustiqueet

β

pourlesore du modèlede langage.

Lesdeuxprobabilités forward etbakwardpeuvent êtrealuléesdemanière réursive.Nous exprimons les équations Eq. 2.12 et Eq. 2.13 représentant respetivement les dénitions de es deuxprobabilités dansleadrede modèles de langagebigramme.

Φ([w, τ, t]) =p(o

^t_τ

|w)

^α

X

τ′

Φ([w

, τ

^′

, τ −1])p(w|w

)

^β (2.12)

Ψ([w, τ, t]) =p(o

^t_τ

|w)

^α

X

t′

Ψ([w

, t+ 1, t

^′

])p(w

|w)

^β (2.13)

Dansl'équation2.12,

[w

, τ

′

, τ−1]

représentetoutmotdugraphequi préède

[w, τ, t]

etqui nit don à l'instant

τ −1

. Dans l'équation 2.13,

[w

, t+ 1, t

^′

]

représente tout mot du graphe quisuit

[w, τ, t]

etqui débutedon àl'instant

t+ 1

.Au nal,laprobabilité a posterioridu mot

[w, τ, t]

,ave lesdénitions desprobabilitésforward etbakward,estdériteparl'équation2.14.

p(w|O) =p([w, τ, t]|o

^T₁

) = ^Φ([^{w, τ, t}^])Ψ([^{w, τ, t}^])

p(o

)p(o

|w)

α (2.14) Le point ruial dans le alul de la probabilité a posteriori est l'estimation de la quantité

P(O) =p(o

^T₁

)

,qui représentela probabilité de la séquene d'observations assoiée à la phrase.

Cependant, à partir deséquations 2.12 et 2.13, ette quantité peut être estimée parl'équation suivante:

P(O) =p(o

^T₁

) =X

X

Φ([w, τ, T])

(2.15)

F. Wessel dénit nalement la mesure de onane d'un mot hypothèse

[w, τ, t]

omme la probabilitéa posterioride

[w, τ, t]

C([w, τ, t]) =p([w, τ, t]|o

^T₁

)

(2.16) Cependant, ette mesure est alulée pour une hypothèse de mot

w

ave des instants de débutetdenpréisémentégaux à

τ

t

respetivement.Ordanslegraphedemots,un même mot

w

peutapparaître ave despositionstemporelleslégèrementdiérentes.Par onséquent, la probabilité a posteriori du mot est don répartie entre es diérentes hypothèses. La solution proposéeparF.Wesselonsiste àsommerles probabilitésdesmêmesmots hypothèsesselon des ritères d'intersetion. Plusieurs ritères ont été testés pour un mot

[w, τ, t]

analysé. Les mots ontributeurspeuventdon être :

tous les mots

[w, τ

^′

, t

^′

]

tels que l'intersetion entre les deux mots

[w, τ, t]

[w, τ

^′

, t

^′

]

soit nonvide,

touslesmots

[w, τ

′

, t

′

]

tels queletempsmédian

(τ+t)/2

appartienneà l'intervalle

[τ

′

, t

′

]

, tous les mots

[w, τ

′

, t

′

]

tels que l'instant

t

_max appartienne à l'intervalle

[τ

′

, t

′

]

t

_max étant

déniommeletempsentre

τ

t

maximisant laquantité suivante:

max

tm∈[τ,t]

X

[w,τ′,t′];τ′≤tm≤t′

p([w, τ

^′

, t

^′

]|o

^T₁

)

2.3.6.3 Mesure de onane du système de reonnaissane Julius

Lee et al. [Lee04℄ proposent une autre méthode an de aluler une mesure de onane fondéesuruneapproximationdelaprobabilitéaposterioripendantladeuxièmepassedusystème de reonnaissaneJulius.

Le système de reonnaissane Julius fontionne en deux passes. Une première passe moins préise,fondéesurl'algorithmedeViterbi,permetde réerun graphedemots ontenantun en-semblerestreintd'hypothèses.Ladeuxième,pluspréise,s'appuiesurettestruturededonnées andealuler laséquenesolutionontenuedanslesignalde paroleàl'aidedel'algorithme

A

∗ (f.setion1.6.2p.16).Ahaquemotdugrapheestassoiélesoredevraisemblanedumeilleur heminpartiel entre ledébutde laphraseetemot,laprobabilitéaoustiquedumot,ainsique saprobabilitélinguistique ave le motlepréédant danslehemin.

Le prinipe de basedu alulde la probabilitéa posteriori d'unmot proposérestele même queeluiprésentésetion2.3.6 etparl'équation 2.11:

alulde la vraisemblane des phrasesontenant un mot partiulier à une position parti-ulière,

estimationde

P(O)

L'idée desauteurs est d'approximer toutes es valeurs en n'utilisant que les données dispo-niblesau oursdeladeuxième passequiestfondéesurunalgorithme

A

∗

ommençantparlan delaphrase.

Soient un mot hypothèse

[w, τ, t]

W

_[_w,τ,t_] l'ensemble des phrases qui ontiennent le mot hypothèse

[w, τ, t]

.Soit

g(w)

lavraisemblanealuléeparl'algorithme

A

^∗,delandelaphrase jusqu'aumot

w

.Soit

h

lafontion heuristiquedusystèmepourlareherhe desolutionauours de la deuxième passe. Pour un mot

w

′

h(w

′

)

est égal à la vraisemblane alulée lors de la première passe du hemin allant du début de la phrase jusqu'au mot

w

^′. Lee etal. dénissent alorspourunmot

[w

, τ

, t

]

dugraphe lafontion

f(w

)

,quiesten faituneapproximationde lavraisemblane duhemin ompletpassant par

[w

, τ

, t

]

suivant l'équationsuivante:

f(w

) =g(w

)×h(w

n−1

)

(2.17) Dansetteéquation,

w

n−1 représentelemotpouvanttemporellementprééder

w

naumoment delareherhe

A

^∗ etmaximisant

f(w

)

Ladeuxièmeapproximationfaiteparlesauteursonsisteàonsidérerquelesphrasespassant parlemot

w

_n sontles phrasespassant exatementpar

[w

, τ

, t

]

.Or,ommelemothypothèse

[w

, τ

, t

]

est unique dans le graphe de mots et étant donné l'approximation du alul de la vraisemblane

f

d'unephrase passant parun mot

w

_n,il nepeutyavoirqu'une seule phrase.

La dernière quantité néessaire an de pouvoir estimer laprobabilité a posteriori d'un mot est

P(O)

.La troisième approximationquefont Leeetal.onsiste àestimerque

P(O)

peutêtre approximerparlasommedesvraisemblanesdesphrasespassant parunmot ayant temporelle-mentune intersetionnonvide avelemot

w

ndont laonaneestestimée.Soit

W

c l'ensemble desmots

[w

^′

, τ

^′

, t

^′

]

ayantuneintersetionnonvide avelemot

[w

, τ

, t

]

P(O)

estalorsdonné parl'équation suivante:

P(O) = X

[w′,τ′,t′]∈Wc

f(w

^′

)

(2.18)

La probabilité a posteriori, et don lavaleur de onane,du mot hypothèse

[w

, τ

, t

]

est alorsdonnéeparlaformulesuivante:

p(w

|O) = P ^f⁽^w

ⁿ

⁾

[w′,τ′,t′]∈Wc

f(w

′

)

(2.19) Leeetal.ontainsidéniunemesuredeonanealulableauoursdelaphasededéodage deladeuxièmepassedumoteurdereonnaissane.Cealuldemandepeud'eortariln'utilise quedesquantitésdéjàaluléesetnéessairesauproessusdedéodage.Enrevanhe,lapremière passedoit êtreomplètement eetuée,e quiest impossible pourdes appliationsen uxpour lesquelleslesignalaoustiquen'apotentiellementpasden.Parailleurs,dufaitdesnombreuses approximations faites, le mesure de onane ainsi dénie est moins préise qu'une mesure de onane également fondée sur la probabilité a posteriori, mais alulée par exemple ave la méthode de Wesseletal.

2.3.6.4 Mesures fondées sur les réseaux de onfusion

Un réseau de onfusion est un graphe de mots simplié dans lequel les alternatives sont exprimées en position des mots dans la phrase (f. setion 1.6.3.3). Généralement le réseau de onfusionest onstruit àpartird'ungraphede mots préalablementexistant.L'objetif étant de

simplier le graphe de mots en regroupant des hypothèses similaires en une seule. Ainsi moins d'hypothèsessontà traiter.

Les réseauxdeonfusionont également étéutilisésan de alulerdesmesures deonane fondées sur laprobabilité a posteriori. Toutefois, an de aluler laprobabilité a posteriori des mots duréseau de onfusion,il estnéessairede aluleres probabilitéssurlegraphe demots. Ensuite, la probabilité a posteriori d'un mot du réseau est égal à la somme des probabilités a posterioridesmots impliqués danslaonstrution du motduréseau.

Cette probabilitépeutêtreutilisée diretement en tantque mesurede onane,mais elle-i tend à surestimer laprobabilité a posteriori réelle des hypothèses [Mangu 00, Evermann 00, Falavigna02℄. De plus, lanéessité de aluler au préalable des probabilités a posteriori sur le graphe de mots, bien plus dense en hypothèses que le réseau de onfusion, rend ette mesure moinsattrative.

2.3.6.5 Réapitulatif des mesures fondées sur une estimation de la probabilité a posteriori

Dans ette setion, nous avons présenté des mesures de onane estimant la probabilité a posteriorid'unmotave desméthodesdiérentes etplusou moinsd'approximations:

uneméthodefondéesurles

n

-meilleuresphrases.Cetteméthodeestlégèredupointdevue alulatoire, mais elle néessite la génération de la liste des

n

-meilleures phrases et don le déodage intégral de la phrase. De plus, ette méthode est une approximation assez grossièrede laprobabilitéa posteriori.

uneméthode fondéesurlesgraphes demots etl'algorithmeforward-bakward deBaum et Welh,dontun algorithmedealulaétédéritparWesseletal.Moinsd'approximations sont néessaires et ette méthode de alul est la plus préise à notre onnaissane pour estimer la probabilité a posteriori d'un mot. En revanhe, sa omplexité de alul est supérieureàelledelaméthodedes

n

-meilleuresphrases.Deplus,etteméthodenéessite lagénérationdu graphede mots del'intégralitéde laphrase.

une méthode fondée sur les graphes de mots ave des approximations, omme elle im-plantée dans le système de reonnaissane Julius. Cette méthode estime la probabilité a posteriori au ours de la deuxième passe du proessus de déodage, sans introduire de nouvelles variables etave un oûtalulatoire faible, maisau prix de multiples approxi-mations.Lamesuredeonaneobtenueestdonmoinspréisequelaméthodedéritepar Wesseletal.,tout ennéessitantommeelle lagénération préalable dugraphede mots. uneméthodefondéesurlesréseauxdeonfusion.Andealulerlaprobabilitéaposteriori

des mots de e réseau, ette méthode néessite quand même le alul de la probabilité a posteriori des mots du graphe de mots d'origine, non simplié. De plus, ette méthode a tendaneà surestimer lesvaleursde laprobabilitéa posteriori[Evermann 00℄.

Dans le document Mesure de confiance trame-synchrones et locales en reconnaissance automatique de la parole (Page 62-67)

Mesures fondées sur les probabilité a posteriori

2.3 Mesures de onane

2.3.6 Mesures fondées sur les probabilité a posteriori

P(O)

P(W|O)

W

O

P(W|O) = P(O|W)P(W)

P(O)

P(O|W)P(W)

O

P(O)

W

W

w

w

w

W

w

P(w|O) = X

P(W|O)

w

w

P(O)

P(O)

w

w

n

n

n

P(W|O)

[w, τ, t]

τ

t

o

τ

t

1

T

[w, τ, t]

[w, τ, t]

M

[w

, τ

, t

]

τ

= 1

t

= T

t

= τ

−1

i= 2, . . . , M

C([w, τ, t])

[w, τ, t]

p([w, τ, t]

|o

)

M

o

[w, τ, t]

p([w, τ, t]|o

)

[w, τ, t]

[w, τ, t]

Φ([w, τ, t])

Ψ([w, τ, t])

α

β

Φ([w, τ, t]) =p(o

|w)

X

X

Φ([w

, τ

, τ −1])p(w|w

)

Ψ([w, τ, t]) =p(o

|w)

P(W|O) = ^P⁽^O|W)P(W)

) = ^Φ([^{w, τ, t}^])Ψ([^{w, τ, t}^])