2.3 Mesures de onane
2.3.6 Mesures fondées sur les probabilité a posteriori
En reonnaissane automatique de la parole, les systèmes herhent la séquene de mots
qui maximise la probabilité que ette séquene ait généré la suite d'observations du signal de
parole. Cependant, une fois la séquene solution déterminée, auun indie de qualité de ette
solution n'estdisponible.En eet, dans larésolution de la reonnaissane (f. équation 1.2),la
normalisationdel'équationparlaprobabilitédel'émission
P(O)
aétéomisearetteprobabilité estindépendantede laséquene demots onsidérée.La probabilité a posteriori
P (W |O)
d'une phrase ou d'une séquene de motsW
pour laséquened'observations
O
estdonnéeparl'équation suivante:P(W |O) = P (O|W )P(W )
P (O)
(2.10)Laquantité
P (O|W )P(W )
estaluléeparlemoteurdereonnaissaneauoursdelaphase dedéodagede lasuited'observationsO
.ConnaîtreP (O)
permettrait depouvoir normaliserla vraisemblane de la séquene trouvée an de aluler la probabilité a posteriori de la séqueneW
,'est-à-diredelaphrasereonnue.Deparsadénition,laprobabilitéaposteriorisembleêtre unebonne mesurede onanede laphrase.De la même façon, il est intéressant de dénir la mesure de onane d'un mot omme sa
probabilitéa posteriori.Toutefois,si nousvoulons aluler laprobabilitéa posterioride haun
desmotsde
W
,desétapessupplémentairessontnéessaires.Pourunmotw
partiulier,eipeut êtreréalisé en sommant laprobabilitéa posterioride toutes les phrasesontenantw
àlamêmeposition danslaséquene.Soit
w n
leni` eme
motdans unephraseW
.La probabilitéa posteriori d'unmotw
s'exprime alorsainsi :P (w|O) = X
W/w n =w
P(W |O)
(2.11)Undeuxièmeproblèmeestsoulevéii,arpourunmot
w
,ilfautdéterminertouteslesphrasesquiontiennent
w
,etégalement,expliiterlanotionde même positiondans la phrase.Plusieurstravauxdereherheontdonpourobjetifd'estimeretteprobabilitéaposteriori.
Pour ela ils ont le plussouvent utilisé une desdeux strutures issues du moteurde
reonnais-sane:laliste desn-meilleuresphrasesou lesgraphes de mots (voir setion1.6.3 p.18).
Toutes les méthodes qui suivent et que nous présentons dièrent sur la façon d'estimer et
d'approximer
P (O)
ainsiquelafaçondont estdéterminéelapositiond'unmot danslaphrase.2.3.6.1 Mesures fondées sur la liste de n-meilleures phrases
Lalistedesn-meilleuresphrasesontientunelistedeséquenesdemotsdontlavraisemblane
étaitparmilesn-meilleurespendantledéodage.Commeindiquépréédemment,pouralulerla
probabilitéa posteriorid'unmot,ilest néessaired'estimer
P(O)
etde onnaîtrela probabilité a posterioridetouteslesphrasesquiontiennentemot.Or,ilestfailede onnaîtrel'existened'unmotetsapositiondansunedesséquenesdelalistedesn-meilleuresphrases,etommees
phrasessontparmilesn-meilleures,leurontribution estmajoritairean d'eetuerlealulde
laprobabilitéa posteriori. Ainsidenombreusesmesures deonaness'appuient surlaliste des
n-meilleures phrasespourleur dénition[Jeanrenaud95, Stolke97℄.
Dans [Weintraub 95, Weintraub97℄, la solution adoptée pour évaluer la probabilité a
pos-teriori d'un mot lé onsiste à sommer les probabilités de toutes les séquenes de la liste des
n-meilleuresphrasesontenante mot léà lamêmeposition danslaphrase,puis,ànormaliser
ette quantité parla sommedes probabilitésde toutes les séquenes de laliste desn-meilleures
phrases.Rueber[Rueber97℄proposeuneméthodesimilairepourdéterminerlaonanedemots
telsquedesnomspropresenutilisantlesprobabilitésre-normaliséesdesséquenesdelalistedes
n-meilleuresphrases.Laméthodeinitiée parWeintraubaétéétendueaualuldelaprobabilité
a posteriori de tous les mots d'une phrase parF. Wessel etal. An de aluler laprobabilité a
posteriori d'un mot
w
, il est néessaire de déterminer l'ensemble des séquenes de la liste desn-meilleuresphrasesontenant
w
àlamêmeposition.Dansetteétude,laméthoded'alignement de Levenshtein aétéemployée, equi apermisnalement d'estimerles probabilitésa posterioridesmots [Wessel99℄.
L. Chase [Chase 97℄ ainsi que Gilliket al. [Gillik97℄ étudient la proportion de séquenes
ontenant un mothypothèse à la mêmeposition parmila liste desn-meilleures phrases an de
dénir laprobabilitéa posteriori.
Lealuldelaprobabilitéaposteriorienutilisantles
n
-meilleuresphrasesprésentel'avantage delasimpliitéd'aèsauxinformationstelles quelapositiond'unmotdanslaphrase.Deplus,le nombrede meilleuresphrases retenuesétant de l'ordre de laentaine,ette méthode est peu
oûteuse d'un point de vue alulatoire. Toutefois, les mesures de onane fondées sur les
n
-meilleuresphrasessontdesapproximationsassez fortesdelavaleurthéorique delaprobabilitéa
posteriorietparonséquent sontmoinspréises queellesestiméesàpartird'ungraphedemots
ayantune densitéd'hypothèsesplusimportante[Wessel99℄.
Par ailleurs, es mesures néessitent la génération de l'ensemble des
n
-meilleures phrases et don la terminaison omplète du proessus de reonnaissane. Ces mesures ne sont donpas envisageables pour des appliations en ux, omme par exemple la transription en ligne
d'émissionsou de oursdansune sallede lasse.
2.3.6.2 Mesuresfondéessurlesgraphesdemotsetl'algorithmedeforward-bakward
La plupartdesmesuresdeonaneestimantlaprobabilitéa posterioriàpartird'ungraphe
de mots utilisent l'algorithmeforward-bakwark[Kemp97,Metze00,Wessel01℄.
Le graphede motsest unereprésentationompateetassez préisede toutesles hypothèses
émises et non élaguées lors de la phase de déodage du système de reonnaissane (f. 1.6.3).
Ainsi, le alul de la probabilité a posteriori à partir de e graphe de mots permet d'obtenir
une estimationne de
P(W |O)
.C'est pourquoi esmesuresde onane donnenten généraldemeilleurs résultatsqueles autres formesde mesuresde onane[Jiang 05℄.
F.Wesseldéritdans[Wessel01℄uneméthodequipermetd'estimerlaprobabilitéaposteriori
d'un mot et ainsi de dénir une mesure de onane. Cette méthode repose sur une struture
de graphede mots, etutilise les probabilités aoustiques ainsique les probabilités linguistiques
issuesdu modèlede langage desmots hypothèsesontenusdanse graphe.
UnepartiedenostravauxétantfondéesurlaméthodeproposéeparWesseletal.pourestimer
laprobabilitéa posteriori d'unmot,nousdérivonselle-i plusen détail.
Méthode de alul proposée par F. Wessel
Pourdérireette mesure,nousdevonsintroduire quelquesnotations,soient :
[w, τ, t]
unmothypothèse ommençantà l'instantτ
etseterminant àl'instantt
,
o t τ
laséquene d'observationsdu tempsτ
au tempst
.Une phraseseradénieommeommençantàl'instant
1
etseterminant àl'instantT
.Nousdénissonsainsi:
[w, τ, t]
ommelemothypothèse dontnousvoulons estimerlaprobabilité a posteriori,[w, τ, t] M 1
une séquene deM
mots[w i , τ i , t i ]
telle queτ 1 = 1
,t M = T
ett i−1 = τ i − 1
,pour
i = 2, . . . , M
.
C([w, τ, t])
lamesurede onane dumot hypothèse[w, τ, t]
.Soit
p([w, τ, t] M 1 |o T 1 )
la probabilité a posteriori d'une séquene deM
mots sahanto T 1
, lesobservationsaoustiquesorrespondantes.Laprobabilitéa posterioridumothypothèse
[w, τ, t]
,notée
p([w, τ, t]|o T 1 )
, est égale à la somme des probabilités a posteriori de toutes les phrases hypothèses ontenant le mot[w, τ, t]
.La méthode dérite parF. Wessel dérive de l'algorithme forward-bakwardde BaumetWelhprésentésetion1.4.2.1maisappliquéauniveau dumot.Ildénitdonpourunmot
[w, τ, t]
dugrapheuneprobabilitéforward,Φ([w, τ, t])
,etuneprobabilité bakward,Ψ([w, τ, t])
.Toutefois, les sores aoustiques et linguistiques impliqués dans es aluls ne varient pas
dansles mêmes ordres de grandeur. Ce phénomènepeutinduire de mauvaises performanes de
lamesure, danslaquelle le sore aoustique serait dominant. Aussi, deux fateurs d'éhelle ont
étéintroduits :
α
pourlesore aoustiqueetβ
pourlesore du modèlede langage.Lesdeuxprobabilités forward etbakwardpeuvent êtrealuléesdemanière réursive.Nous
exprimons les équations Eq. 2.12 et Eq. 2.13 représentant respetivement les dénitions de es
deuxprobabilités dansleadrede modèles de langagebigramme.
Φ([w, τ, t]) = p(o t τ |w) α X
[w, τ, t]
,ave lesdénitions desprobabilitésforward etbakward,estdériteparl'équation2.14.p(w|O) = p([w, τ, t]|o T 1 ) = Φ([w, τ, t])Ψ([w, τ, t])
p(o T 1 )p(o t τ |w) α
(2.14)Le point ruial dans le alul de la probabilité a posteriori est l'estimation de la quantité
P(O) = p(o T 1 )
,qui représentela probabilité de la séquene d'observations assoiée à la phrase.Cependant, à partir deséquations 2.12 et 2.13, ette quantité peut être estimée parl'équation
suivante:
P (O) = p(o T 1 ) = X
w
X
τ
Φ([w, τ, T ])
(2.15)F. Wessel dénit nalement la mesure de onane d'un mot hypothèse
[w, τ, t]
omme laprobabilitéa posterioride
[w, τ, t]
.C([w, τ, t]) = p([w, τ, t]|o T 1 )
(2.16)Cependant, ette mesure est alulée pour une hypothèse de mot
w
ave des instants dedébutetdenpréisémentégaux à
τ
ett
respetivement.Ordanslegraphedemots,un même motw
peutapparaître ave despositionstemporelleslégèrementdiérentes.Par onséquent, la probabilité a posteriori du mot est don répartie entre es diérentes hypothèses. La solutionproposéeparF.Wesselonsiste àsommerles probabilitésdesmêmesmots hypothèsesselon des
ritères d'intersetion. Plusieurs ritères ont été testés pour un mot
[w, τ, t]
analysé. Les motsontributeurspeuventdon être :
tous les mots
[w, τ ′ , t ′ ]
tels que l'intersetion entre les deux mots[w, τ, t]
et[w, τ ′ , t ′ ]
soitnonvide,
touslesmots
[w, τ ′ , t ′ ]
tels queletempsmédian(τ + t)/2
appartienneà l'intervalle[τ ′ , t ′ ]
,tous les mots
[w, τ ′ , t ′ ]
tels que l'instantt max
appartienne à l'intervalle[τ ′ , t ′ ]
,t max
étantdéniommeletempsentre
τ
ett
maximisant laquantité suivante:t m max ∈[τ,t]
X
[w,τ ′ ,t ′ ];τ ′ ≤t m ≤t ′
p([w, τ ′ , t ′ ]|o T 1 )
2.3.6.3 Mesure de onane du système de reonnaissane Julius
Lee et al. [Lee04℄ proposent une autre méthode an de aluler une mesure de onane
fondéesuruneapproximationdelaprobabilitéaposterioripendantladeuxièmepassedusystème
de reonnaissaneJulius.
Le système de reonnaissane Julius fontionne en deux passes. Une première passe moins
préise,fondéesurl'algorithmedeViterbi,permetde réerun graphedemots ontenantun
en-semblerestreintd'hypothèses.Ladeuxième,pluspréise,s'appuiesurettestruturededonnées
andealuler laséquenesolutionontenuedanslesignalde paroleàl'aidedel'algorithme
A ∗
(f.setion1.6.2p.16).Ahaquemotdugrapheestassoiélesoredevraisemblanedumeilleur
heminpartiel entre ledébutde laphraseetemot,laprobabilitéaoustiquedumot,ainsique
saprobabilitélinguistique ave le motlepréédant danslehemin.
Le prinipe de basedu alulde la probabilitéa posteriori d'unmot proposérestele même
queeluiprésentésetion2.3.6 etparl'équation 2.11:
alulde la vraisemblane des phrasesontenant un mot partiulier à une position
parti-ulière,
estimationde
P (O)
,estimationde laprobabilitéa posteriorid'unmot.
L'idée desauteurs est d'approximer toutes es valeurs en n'utilisant que les données
dispo-niblesau oursdeladeuxième passequiestfondéesurunalgorithme
A ∗
ommençantparlandelaphrase.
Soient un mot hypothèse
[w, τ, t]
etW [w,τ,t]
l'ensemble des phrases qui ontiennent le mothypothèse
[w, τ, t]
.Soitg(w)
lavraisemblanealuléeparl'algorithmeA ∗
,delandelaphrasejusqu'aumot
w
.Soith
lafontion heuristiquedusystèmepourlareherhe desolutionauours de la deuxième passe. Pour un motw ′
,h(w ′ )
est égal à la vraisemblane alulée lors de la première passe du hemin allant du début de la phrase jusqu'au motw ′
. Lee etal. dénissentalorspourunmot
[w n , τ n , t n ]
dugraphe lafontionf (w n )
,quiesten faituneapproximationde lavraisemblane duhemin ompletpassant par[w n , τ n , t n ]
suivant l'équationsuivante:f(w n ) = g(w n ) × h(w n−1 )
(2.17)Dansetteéquation,
w n−1
représentelemotpouvanttemporellementprééderw n
aumomentdelareherhe
A ∗
etmaximisantf (w n )
.Ladeuxièmeapproximationfaiteparlesauteursonsisteàonsidérerquelesphrasespassant
parlemot
w n
sontles phrasespassant exatementpar[w n , τ n , t n ]
.Or,ommelemothypothèse[w n , τ n , t n ]
est unique dans le graphe de mots et étant donné l'approximation du alul de la vraisemblanef
d'unephrase passant parun motw n
,il nepeutyavoirqu'une seule phrase.La dernière quantité néessaire an de pouvoir estimer laprobabilité a posteriori d'un mot
est
P (O)
.La troisième approximationquefont Leeetal.onsiste àestimerqueP (O)
peutêtreapproximerparlasommedesvraisemblanesdesphrasespassant parunmot ayant
temporelle-mentune intersetionnonvide avelemot
w n
dont laonaneestestimée.SoitW c
l'ensembledesmots
[w ′ , τ ′ , t ′ ]
ayantuneintersetionnonvide avelemot[w n , τ n , t n ]
.P (O)
estalorsdonnéparl'équation suivante:
P (O) = X
[w ′ ,τ ′ ,t ′ ]∈W c
f(w ′ )
(2.18)La probabilité a posteriori, et don lavaleur de onane,du mot hypothèse
[w n , τ n , t n ]
estalorsdonnéeparlaformulesuivante:
p(w n |O) = f(w n ) P
[w ′ ,τ ′ ,t ′ ]∈W c f (w ′ )
(2.19)Leeetal.ontainsidéniunemesuredeonanealulableauoursdelaphasededéodage
deladeuxièmepassedumoteurdereonnaissane.Cealuldemandepeud'eortariln'utilise
quedesquantitésdéjàaluléesetnéessairesauproessusdedéodage.Enrevanhe,lapremière
passedoit êtreomplètement eetuée,e quiest impossible pourdes appliationsen uxpour
lesquelleslesignalaoustiquen'apotentiellementpasden.Parailleurs,dufaitdesnombreuses
approximations faites, le mesure de onane ainsi dénie est moins préise qu'une mesure de
onane également fondée sur la probabilité a posteriori, mais alulée par exemple ave la
méthode de Wesseletal.
2.3.6.4 Mesures fondées sur les réseaux de onfusion
Un réseau de onfusion est un graphe de mots simplié dans lequel les alternatives sont
exprimées en position des mots dans la phrase (f. setion 1.6.3.3). Généralement le réseau de
onfusionest onstruit àpartird'ungraphede mots préalablementexistant.L'objetif étant de
simplier le graphe de mots en regroupant des hypothèses similaires en une seule. Ainsi moins
d'hypothèsessontà traiter.
Les réseauxdeonfusionont également étéutilisésan de alulerdesmesures deonane
fondées sur laprobabilité a posteriori. Toutefois, an de aluler laprobabilité a posteriori des
mots duréseau de onfusion,il estnéessairede aluleres probabilitéssurlegraphe demots.
Ensuite, la probabilité a posteriori d'un mot du réseau est égal à la somme des probabilités a
posterioridesmots impliqués danslaonstrution du motduréseau.
Cette probabilitépeutêtreutilisée diretement en tantque mesurede onane,mais
elle-i tend à surestimer laprobabilité a posteriori réelle des hypothèses [Mangu 00, Evermann 00,
Falavigna02℄. De plus, lanéessité de aluler au préalable des probabilités a posteriori sur le
graphe de mots, bien plus dense en hypothèses que le réseau de onfusion, rend ette mesure
moinsattrative.
2.3.6.5 Réapitulatif des mesures fondées sur une estimation de la probabilité a
posteriori
Dans ette setion, nous avons présenté des mesures de onane estimant la probabilité a
posteriorid'unmotave desméthodesdiérentes etplusou moinsd'approximations:
uneméthodefondéesurles
n
-meilleuresphrases.Cetteméthodeestlégèredupointdevue alulatoire, mais elle néessite la génération de la liste desn
-meilleures phrases et don le déodage intégral de la phrase. De plus, ette méthode est une approximation assezgrossièrede laprobabilitéa posteriori.
uneméthode fondéesurlesgraphes demots etl'algorithmeforward-bakward deBaum et
Welh,dontun algorithmedealulaétédéritparWesseletal.Moinsd'approximations
sont néessaires et ette méthode de alul est la plus préise à notre onnaissane pour
estimer la probabilité a posteriori d'un mot. En revanhe, sa omplexité de alul est
supérieureàelledelaméthodedes
n
-meilleuresphrases.Deplus,etteméthodenéessite lagénérationdu graphede mots del'intégralitéde laphrase.une méthode fondée sur les graphes de mots ave des approximations, omme elle
im-plantée dans le système de reonnaissane Julius. Cette méthode estime la probabilité a
posteriori au ours de la deuxième passe du proessus de déodage, sans introduire de
nouvelles variables etave un oûtalulatoire faible, maisau prix de multiples
approxi-mations.Lamesuredeonaneobtenueestdonmoinspréisequelaméthodedéritepar
Wesseletal.,tout ennéessitantommeelle lagénération préalable dugraphede mots.
uneméthodefondéesurlesréseauxdeonfusion.Andealulerlaprobabilitéaposteriori
des mots de e réseau, ette méthode néessite quand même le alul de la probabilité a
posteriori des mots du graphe de mots d'origine, non simplié. De plus, ette méthode a
tendaneà surestimer lesvaleursde laprobabilitéa posteriori[Evermann 00℄.