Mesures fondées sur les probabilité a posteriori

2.3 Mesures de onane

2.3.6 Mesures fondées sur les probabilité a posteriori

En reonnaissane automatique de la parole, les systèmes herhent la séquene de mots

qui maximise la probabilité que ette séquene ait généré la suite d'observations du signal de

parole. Cependant, une fois la séquene solution déterminée, auun indie de qualité de ette

solution n'estdisponible.En eet, dans larésolution de la reonnaissane (f. équation 1.2),la

normalisationdel'équationparlaprobabilitédel'émission

P(O)

â^étéômiseârêtteprobabilité estindépendantede laséquene demots onsidérée.

La probabilité a posteriori

P (W |O)

^d'une ^phrase ^ou ^d'une ^séquene ^de ^mots

W

^pour ^la

séquened'observations

O

^est^donnée^par^l'équation ^suiv^ante^:

P(W |O) = P (O|W )P(W )

P (O)

^(2.10)

Laquantité

P (O|W )P(W )

^est^alulée^par^le^moteur^dereonnaissaneauoursdelaphase dedéodagede lasuited'observations

O

^.^Connaître

P (O)

permettrait depouvoir normaliserla vraisemblane de la séquene trouvée an de aluler la probabilité a posteriori de la séquene

W

^,'est-à-diredelaphrasereonnue.Deparsadénition,laprobabilitéaposteriorisembleêtre unebonne mesurede onanede laphrase.

De la même façon, il est intéressant de dénir la mesure de onane d'un mot omme sa

probabilitéa posteriori.Toutefois,si nousvoulons aluler laprobabilitéa posterioride haun

desmotsde

W

^,^des^étapessupplémentairessontnéessaires.Pourunmot

w

partiulier,eipeut êtreréalisé en sommant laprobabilitéa posterioride toutes les phrasesontenant

w

^à^la^même

position danslaséquene.Soit

w _n

^leⁿ

^i` ^eme

^mot^dans ^une^phrase

W

^.^La probabilitéa posteriori d'unmot

w

^s'exprime ^alors^ainsi ^:

P (w|O) = ^X

W/w n =w

P(W |O)

^(2.11)

Undeuxièmeproblèmeestsoulevéii,arpourunmot

w

^,^il^faut^déterminer^toutes^les^phrases

quiontiennent

w

^,^et^également,^expliiter^la^notion^de ^même ^position^dans ^la ^phrase.

Plusieurstravauxdereherheontdonpourobjetifd'estimeretteprobabilitéaposteriori.

Pour ela ils ont le plussouvent utilisé une desdeux strutures issues du moteurde

reonnais-sane:laliste desn-meilleuresphrasesou lesgraphes de mots (voir setion1.6.3 p.18).

Toutes les méthodes qui suivent et que nous présentons dièrent sur la façon d'estimer et

d'approximer

P (O)

^ainsi^que^la^façon^dont ^est^déterminée^la^position^d'un^mot ^dans^la^phrase.

2.3.6.1 Mesures fondées sur la liste de n-meilleures phrases

Lalistedesn-meilleuresphrasesontientunelistedeséquenesdemotsdontlavraisemblane

étaitparmilesn-meilleurespendantledéodage.Commeindiquépréédemment,pouralulerla

probabilitéa posteriorid'unmot,ilest néessaired'estimer

P(O)

^et^de ^onnaître^la probabilité a posterioridetouteslesphrasesquiontiennentemot.Or,ilestfailede onnaîtrel'existene

d'unmotetsapositiondansunedesséquenesdelalistedesn-meilleuresphrases,etommees

phrasessontparmilesn-meilleures,leurontribution estmajoritairean d'eetuerlealulde

laprobabilitéa posteriori. Ainsidenombreusesmesures deonaness'appuient surlaliste des

n-meilleures phrasespourleur dénition[Jeanrenaud95, Stolke97℄.

Dans [Weintraub 95, Weintraub97℄, la solution adoptée pour évaluer la probabilité a

pos-teriori d'un mot lé onsiste à sommer les probabilités de toutes les séquenes de la liste des

n-meilleuresphrasesontenante mot léà lamêmeposition danslaphrase,puis,ànormaliser

ette quantité parla sommedes probabilitésde toutes les séquenes de laliste desn-meilleures

phrases.Rueber[Rueber97℄proposeuneméthodesimilairepourdéterminerlaonanedemots

telsquedesnomspropresenutilisantlesprobabilitésre-normaliséesdesséquenesdelalistedes

n-meilleuresphrases.Laméthodeinitiée parWeintraubaétéétendueaualuldelaprobabilité

a posteriori de tous les mots d'une phrase parF. Wessel etal. An de aluler laprobabilité a

posteriori d'un mot

w

^, ^il ^est ^néessaire ^de ^déterminer ^l'ensemble ^des ^séquenes ^de ^la ^liste ^des

n-meilleuresphrasesontenant

w

^à^la^même^position.^Dans^ette^étude,^la^méthoded'alignement de Levenshtein aétéemployée, equi apermisnalement d'estimerles probabilitésa posteriori

desmots [Wessel99℄.

L. Chase [Chase 97℄ ainsi que Gilliket al. [Gillik97℄ étudient la proportion de séquenes

ontenant un mothypothèse à la mêmeposition parmila liste desn-meilleures phrases an de

dénir laprobabilitéa posteriori.

Lealuldelaprobabilitéaposteriorienutilisantles

n

-meilleuresphrasesprésentel'avantage delasimpliitéd'aèsauxinformationstelles quelapositiond'unmotdanslaphrase.Deplus,

le nombrede meilleuresphrases retenuesétant de l'ordre de laentaine,ette méthode est peu

oûteuse d'un point de vue alulatoire. Toutefois, les mesures de onane fondées sur les

n

-meilleuresphrasessontdesapproximationsassez fortesdelavaleurthéorique delaprobabilitéa

posteriorietparonséquent sontmoinspréises queellesestiméesàpartird'ungraphedemots

ayantune densitéd'hypothèsesplusimportante[Wessel99℄.

Par ailleurs, es mesures néessitent la génération de l'ensemble des

n

-meilleures phrases et don la terminaison omplète du proessus de reonnaissane. Ces mesures ne sont don

pas envisageables pour des appliations en ux, omme par exemple la transription en ligne

d'émissionsou de oursdansune sallede lasse.

2.3.6.2 Mesuresfondéessurlesgraphesdemotsetl'algorithmedeforward-bakward

La plupartdesmesuresdeonaneestimantlaprobabilitéa posterioriàpartird'ungraphe

de mots utilisent l'algorithmeforward-bakwark[Kemp97,Metze00,Wessel01℄.

Le graphede motsest unereprésentationompateetassez préisede toutesles hypothèses

émises et non élaguées lors de la phase de déodage du système de reonnaissane (f. 1.6.3).

Ainsi, le alul de la probabilité a posteriori à partir de e graphe de mots permet d'obtenir

une estimationne de

P(W |O)

^.^C'est ^pourquoi ês^mesures^de ônane ^donnentên ^général^de

meilleurs résultatsqueles autres formesde mesuresde onane[Jiang 05℄.

F.Wesseldéritdans[Wessel01℄uneméthodequipermetd'estimerlaprobabilitéaposteriori

d'un mot et ainsi de dénir une mesure de onane. Cette méthode repose sur une struture

de graphede mots, etutilise les probabilités aoustiques ainsique les probabilités linguistiques

issuesdu modèlede langage desmots hypothèsesontenusdanse graphe.

UnepartiedenostravauxétantfondéesurlaméthodeproposéeparWesseletal.pourestimer

laprobabilitéa posteriori d'unmot,nousdérivonselle-i plusen détail.

Méthode de alul proposée par F. Wessel

Pourdérireette mesure,nousdevonsintroduire quelquesnotations,soient :

[w, τ, t]

^un^mot^hypothèse ^ommençant^à ^l'instant

τ

^et^se^terminant ^à^l'instant

t

o ^t _τ

^la^séquene d'observationsdu temps

τ

^au ^temps

t

Une phraseseradénieommeommençantàl'instant

1

^et^se^terminant ^à^l'instant

T

^.^Nous

dénissonsainsi:

[w, τ, t]

^omme^le^mot^hypothèse ^dont^nous^voulons ^estimer^laprobabilité a posteriori,

[w, τ, t] ^M ₁

^une ^séquene ^de

M

^mots

[w _i , τ _i , t _i ]

^telle ^que

τ ₁ = 1

t _M = T

^et

t _i−1 = τ _i − 1

pour

i = 2, . . . , M

C([w, τ, t])

^la^mesure^de ^onane ^du^mot ^hypothèse

[w, τ, t]

Soit

p([w, τ, t] ^M ₁ |o ^T ₁ )

^la probabilité a posteriori d'une séquene de

M

^mots ^sahant

o ^T ₁

^, ^les

observationsaoustiquesorrespondantes.Laprobabilitéa posterioridumothypothèse

[w, τ, t]

notée

p([w, τ, t]|o ^T ₁ )

^, ^est ^égale ^à ^la ^somme ^des probabilités a posteriori de toutes les phrases hypothèses ontenant le mot

[w, τ, t]

^.^La ^méthode ^dérite ^par^F. ^W^essel ^dérive ^de l'algorithme forward-bakwardde BaumetWelhprésentésetion1.4.2.1maisappliquéauniveau dumot.Il

dénitdonpourunmot

[w, τ, t]

^du^graphe^uneprobabilitéforward,

Φ([w, τ, t])

^,^et^uneprobabilité bakward,

Ψ([w, τ, t])

Toutefois, les sores aoustiques et linguistiques impliqués dans es aluls ne varient pas

dansles mêmes ordres de grandeur. Ce phénomènepeutinduire de mauvaises performanes de

lamesure, danslaquelle le sore aoustique serait dominant. Aussi, deux fateurs d'éhelle ont

étéintroduits :

α

^pour^le^sore ^aoustique^et

β

^pour^le^sore ^du ^modèle^de ^langage.

Lesdeuxprobabilités forward etbakwardpeuvent êtrealuléesdemanière réursive.Nous

exprimons les équations Eq. 2.12 et Eq. 2.13 représentant respetivement les dénitions de es

deuxprobabilités dansleadrede modèles de langagebigramme.

Φ([w, τ, t]) = p(o ^t _τ |w) ^α ^X

[w, τ, t]

^,^ave ^les^dénitions ^desprobabilitésforward etbakward,estdériteparl'équation2.14.

p(w|O) = p([w, τ, t]|o ^T ₁ ) = Φ([w, τ, t])Ψ([w, τ, t])

p(o ^T ₁ )p(o ^t _τ |w) ^α

^(2.14)

Le point ruial dans le alul de la probabilité a posteriori est l'estimation de la quantité

P(O) = p(o ^T ₁ )

^,^qui ^représente^la probabilité de la séquene d'observations assoiée à la phrase.

Cependant, à partir deséquations 2.12 et 2.13, ette quantité peut être estimée parl'équation

w

X

τ

Φ([w, τ, T ])

^(2.15)

F. Wessel dénit nalement la mesure de onane d'un mot hypothèse

[w, τ, t]

^omme ^la

probabilitéa posterioride

[w, τ, t]

C([w, τ, t]) = p([w, τ, t]|o ^T ₁ )

^(2.16)

Cependant, ette mesure est alulée pour une hypothèse de mot

w

^ave ^des ^instants ^de

débutetdenpréisémentégaux à

τ

^et

t

respetivement.Ordanslegraphedemots,un même mot

w

^peut^apparaître ^ave ^des^positionstemporelleslégèrementdiérentes.Par onséquent, la probabilité a posteriori du mot est don répartie entre es diérentes hypothèses. La solution

proposéeparF.Wesselonsiste àsommerles probabilitésdesmêmesmots hypothèsesselon des

ritères d'intersetion. Plusieurs ritères ont été testés pour un mot

[w, τ, t]

^analysé. ^Les ^mots

ontributeurspeuventdon être :

tous les mots

[w, τ ^′ , t ^′ ]

^tels ^que l'intersetion entre les deux mots

[w, τ, t]

^et

[w, τ ^′ , t ^′ ]

^soit

nonvide,

touslesmots

[w, τ ^′ , t ^′ ]

^tels ^que^le^temps^médian

(τ + t)/2

appartienneà l'intervalle

[τ ^′ , t ^′ ]

tous les mots

[w, τ ^′ , t ^′ ]

^tels ^que ^l'instant

t _max

appartienne à l'intervalle

[τ ^′ , t ^′ ]

t _max

^étant

déniommeletempsentre

τ

^et

t

^maximisant ^la^quantité ^suivante^:

t m max ∈[τ,t]

X

[w,τ ^′ ,t ^′ ];τ ^′ ≤t m ≤t ^′

p([w, τ ^′ , t ^′ ]|o ^T ₁ )

2.3.6.3 Mesure de onane du système de reonnaissane Julius

Lee et al. [Lee04℄ proposent une autre méthode an de aluler une mesure de onane

fondéesuruneapproximationdelaprobabilitéaposterioripendantladeuxièmepassedusystème

de reonnaissaneJulius.

Le système de reonnaissane Julius fontionne en deux passes. Une première passe moins

préise,fondéesurl'algorithmedeViterbi,permetde réerun graphedemots ontenantun

en-semblerestreintd'hypothèses.Ladeuxième,pluspréise,s'appuiesurettestruturededonnées

andealuler laséquenesolutionontenuedanslesignalde paroleàl'aidedel'algorithme

A ^∗

(f.setion1.6.2p.16).Ahaquemotdugrapheestassoiélesoredevraisemblanedumeilleur

heminpartiel entre ledébutde laphraseetemot,laprobabilitéaoustiquedumot,ainsique

saprobabilitélinguistique ave le motlepréédant danslehemin.

Le prinipe de basedu alulde la probabilitéa posteriori d'unmot proposérestele même

queeluiprésentésetion2.3.6 etparl'équation 2.11:

alulde la vraisemblane des phrasesontenant un mot partiulier à une position

parti-ulière,

estimationde

P (O)

estimationde laprobabilitéa posteriorid'unmot.

L'idée desauteurs est d'approximer toutes es valeurs en n'utilisant que les données

dispo-niblesau oursdeladeuxième passequiestfondéesurunalgorithme

A ^∗

^ommençant^par^laⁿ

delaphrase.

Soient un mot hypothèse

[w, τ, t]

^et

W _[w,τ,t]

^l'ensemble ^des ^phrases ^qui ^ontiennent ^le ^mot

hypothèse

[w, τ, t]

^.^Soit

g(w)

^lavraisemblanealuléeparl'algorithme

A ^∗

^,^de^laⁿ^de^la^phrase

jusqu'aumot

w

^.^Soit

h

^la^fontion heuristiquedusystèmepourlareherhe desolutionauours de la deuxième passe. Pour un mot

w ^′

h(w ^′ )

^est ^égal ^à ^la vraisemblane alulée lors de la première passe du hemin allant du début de la phrase jusqu'au mot

w ^′

^. ^Lee ^et^al. ^dénissent

alorspourunmot

[w _n , τ _n , t _n ]

^du^graphe ^la^fontion

f (w _n )

^,^quiêstên ^faitûneapproximationde lavraisemblane duhemin ompletpassant par

[w _n , τ _n , t _n ]

^suiv^ant ^l'équation^suivante^:

f(w n ) = g(w n ) × h(w n−1 )

^(2.17)

Dansetteéquation,

w n−1

^représente^le^mot^pouvanttemporellementprééder

w n

^au^moment

delareherhe

A ^∗

^et^maximisant

f (w _n )

Ladeuxièmeapproximationfaiteparlesauteursonsisteàonsidérerquelesphrasespassant

parlemot

w _n

^sont^les ^phrases^passant ^exatement^par

[w _n , τ _n , t _n ]

^.^Or,^omme^le^mot^hypothèse

[w _n , τ _n , t _n ]

êst ûnique ^dans ^le ^graphe ^de ^mots êt ^étant ^donné l'approximation du alul de la vraisemblane

f

^d'une^phrase ^passant ^par^un ^mot

w _n

^,^il ^ne^peut^y^avoir^qu'une ^seule ^phrase.

La dernière quantité néessaire an de pouvoir estimer laprobabilité a posteriori d'un mot

est

P (O)

^.^La ^troisième approximationquefont Leeetal.onsiste àestimerque

P (O)

^peut^être

approximerparlasommedesvraisemblanesdesphrasespassant parunmot ayant

temporelle-mentune intersetionnonvide avelemot

w n

^dont ^laônaneêstêstimée.^Soit

W c

^l'ensemble

desmots

[w ^′ , τ ^′ , t ^′ ]

^ayant^uneintersetionnonvide avelemot

[w _n , τ _n , t _n ]

P (O)

^est^alors^donné

parl'équation suivante:

P (O) = ^X

[w ^′ ,τ ^′ ,t ^′ ]∈W c

f(w ^′ )

^(2.18)

La probabilité a posteriori, et don lavaleur de onane,du mot hypothèse

[w _n , τ _n , t _n ]

^est

alorsdonnéeparlaformulesuivante:

p(w _n |O) = f(w _n ) P

[w ^′ ,τ ^′ ,t ^′ ]∈W c f (w ^′ )

^(2.19)

Leeetal.ontainsidéniunemesuredeonanealulableauoursdelaphasededéodage

deladeuxièmepassedumoteurdereonnaissane.Cealuldemandepeud'eortariln'utilise

quedesquantitésdéjàaluléesetnéessairesauproessusdedéodage.Enrevanhe,lapremière

passedoit êtreomplètement eetuée,e quiest impossible pourdes appliationsen uxpour

lesquelleslesignalaoustiquen'apotentiellementpasden.Parailleurs,dufaitdesnombreuses

approximations faites, le mesure de onane ainsi dénie est moins préise qu'une mesure de

onane également fondée sur la probabilité a posteriori, mais alulée par exemple ave la

méthode de Wesseletal.

2.3.6.4 Mesures fondées sur les réseaux de onfusion

Un réseau de onfusion est un graphe de mots simplié dans lequel les alternatives sont

exprimées en position des mots dans la phrase (f. setion 1.6.3.3). Généralement le réseau de

onfusionest onstruit àpartird'ungraphede mots préalablementexistant.L'objetif étant de

simplier le graphe de mots en regroupant des hypothèses similaires en une seule. Ainsi moins

d'hypothèsessontà traiter.

Les réseauxdeonfusionont également étéutilisésan de alulerdesmesures deonane

fondées sur laprobabilité a posteriori. Toutefois, an de aluler laprobabilité a posteriori des

mots duréseau de onfusion,il estnéessairede aluleres probabilitéssurlegraphe demots.

Ensuite, la probabilité a posteriori d'un mot du réseau est égal à la somme des probabilités a

posterioridesmots impliqués danslaonstrution du motduréseau.

Cette probabilitépeutêtreutilisée diretement en tantque mesurede onane,mais

elle-i tend à surestimer laprobabilité a posteriori réelle des hypothèses [Mangu 00, Evermann 00,

Falavigna02℄. De plus, lanéessité de aluler au préalable des probabilités a posteriori sur le

graphe de mots, bien plus dense en hypothèses que le réseau de onfusion, rend ette mesure

moinsattrative.

2.3.6.5 Réapitulatif des mesures fondées sur une estimation de la probabilité a

posteriori

Dans ette setion, nous avons présenté des mesures de onane estimant la probabilité a

posteriorid'unmotave desméthodesdiérentes etplusou moinsd'approximations:

uneméthodefondéesurles

n

-meilleuresphrases.Cetteméthodeestlégèredupointdevue alulatoire, mais elle néessite la génération de la liste des

n

-meilleures phrases et don le déodage intégral de la phrase. De plus, ette méthode est une approximation assez

grossièrede laprobabilitéa posteriori.

uneméthode fondéesurlesgraphes demots etl'algorithmeforward-bakward deBaum et

Welh,dontun algorithmedealulaétédéritparWesseletal.Moinsd'approximations

sont néessaires et ette méthode de alul est la plus préise à notre onnaissane pour

estimer la probabilité a posteriori d'un mot. En revanhe, sa omplexité de alul est

supérieureàelledelaméthodedes

n

-meilleuresphrases.Deplus,etteméthodenéessite lagénérationdu graphede mots del'intégralitéde laphrase.

une méthode fondée sur les graphes de mots ave des approximations, omme elle

im-plantée dans le système de reonnaissane Julius. Cette méthode estime la probabilité a

posteriori au ours de la deuxième passe du proessus de déodage, sans introduire de

nouvelles variables etave un oûtalulatoire faible, maisau prix de multiples

approxi-mations.Lamesuredeonaneobtenueestdonmoinspréisequelaméthodedéritepar

Wesseletal.,tout ennéessitantommeelle lagénération préalable dugraphede mots.

uneméthodefondéesurlesréseauxdeonfusion.Andealulerlaprobabilitéaposteriori

des mots de e réseau, ette méthode néessite quand même le alul de la probabilité a

posteriori des mots du graphe de mots d'origine, non simplié. De plus, ette méthode a

tendaneà surestimer lesvaleursde laprobabilitéa posteriori[Evermann 00℄.

Dans le document Mesures de confiance trame-synchrones et locales en reconnaissance automatique de la parole ~ Association Francophone de la Communication Parlée (Page 61-66)

Mesures fondées sur les probabilité a posteriori

2.3 Mesures de onane

2.3.6 Mesures fondées sur les probabilité a posteriori

P(O)

P (W |O)

W

O

P(W |O) = P (O|W )P(W )

P (O)

P (O|W )P(W )

O

P (O)

W

W

w

w

w n

i` eme

W

w

P (w|O) = X

W/w n =w

P(W |O)

w

w

P (O)

P(O)

w

w

n

n

n

P(W |O)

[w, τ, t]

τ

t

o t τ

τ

t

1

T

[w, τ, t]

[w, τ, t] M 1

M

[w i , τ i , t i ]

τ 1 = 1

t M = T

t i−1 = τ i − 1

i = 2, . . . , M

C([w, τ, t])

[w, τ, t]

p([w, τ, t] M 1 |o T 1 )

M

o T 1

[w, τ, t]

p([w, τ, t]|o T 1 )

[w, τ, t]

[w, τ, t]

Φ([w, τ, t])

Ψ([w, τ, t])

α

β

Φ([w, τ, t]) = p(o t τ |w) α X

[w, τ, t]

p(w|O) = p([w, τ, t]|o T 1 ) = Φ([w, τ, t])Ψ([w, τ, t])

p(o T 1 )p(o t τ |w) α

P(O) = p(o T 1 )

P (O) = p(o T 1 ) = X

w

X

τ

Φ([w, τ, T ])

[w, τ, t]

[w, τ, t]

C([w, τ, t]) = p([w, τ, t]|o T 1 )

w

τ

t

w

[w, τ, t]

w _n

^i` ^eme

P (w|O) = ^X

o ^t _τ

[w, τ, t] ^M ₁

[w _i , τ _i , t _i ]

τ ₁ = 1

t _M = T

t _i−1 = τ _i − 1

p([w, τ, t] ^M ₁ |o ^T ₁ )

o ^T ₁

p([w, τ, t]|o ^T ₁ )

Φ([w, τ, t]) = p(o ^t _τ |w) ^α ^X

p(w|O) = p([w, τ, t]|o ^T ₁ ) = Φ([w, τ, t])Ψ([w, τ, t])

p(o ^T ₁ )p(o ^t _τ |w) ^α

P(O) = p(o ^T ₁ )

P (O) = p(o ^T ₁ ) = ^X

C([w, τ, t]) = p([w, τ, t]|o ^T ₁ )

[w, τ ^′ , t ^′ ]

[w, τ ^′ , t ^′ ]

[w, τ ^′ , t ^′ ]

[τ ^′ , t ^′ ]

[w, τ ^′ , t ^′ ]

t _max

[τ ^′ , t ^′ ]

t _max

[w,τ ^′ ,t ^′ ];τ ^′ ≤t m ≤t ^′

p([w, τ ^′ , t ^′ ]|o ^T ₁ )

A ^∗

A ^∗

W _[w,τ,t]

A ^∗

w ^′

h(w ^′ )

w ^′

[w _n , τ _n , t _n ]

f (w _n )

[w _n , τ _n , t _n ]

A ^∗

f (w _n )

w _n

[w _n , τ _n , t _n ]

[w _n , τ _n , t _n ]

w _n

[w ^′ , τ ^′ , t ^′ ]

[w _n , τ _n , t _n ]

P (O) = ^X

[w ^′ ,τ ^′ ,t ^′ ]∈W c

f(w ^′ )

[w _n , τ _n , t _n ]

p(w _n |O) = f(w _n ) P

[w ^′ ,τ ^′ ,t ^′ ]∈W c f (w ^′ )