La modélisation aoustique permet au moteur de reonnaissane de déterminer quelles ont
étéles unitésaoustiquesprononées(phones,phonèmes,syllabes,mots).La littératurepropose
plusieursmodélisationspossiblesetparmilesplusfréquentessetrouventlesréseauxdeneurones
[Robinson88,Robinson 94,Tebelskis95℄,lesmodèlesdeMarkovahésetlesréseauxBayesiens
[Rabiner89, Deviren 02℄. Les modèles de Markov ahés (Hidden Markov Model - HMM) ont
étéintroduits dansledomainede lareonnaissanede laparole depuisdéjà une trentaine
d'an-nées[Baker75,Jelinek 76℄, etlamajeurepartiedesmodélisations atuellessont fondéessures
modèles. Une telle modélisation probabiliste de la parole peut être étendue parl'intermédiaire
de strutures telles que les HMM multidimensionnels ou enore parles réseaux Bayesiens dont
lesmodèles de Markovahéssont un aspartiulier [Mari97,Deviren04℄.
1.4.1 Modèles de Markov ahés
Un modèle de Markov ahé peut être dérit omme un automate probabiliste à
N
étatsomportantdeuxproessus:unproessusahédehangementd'étatetunproessusd'émission.
Leproessusdehangement d'étatest ahéarelui-in'estpasobservable. Cependant,parle
proessusd'émission, latransitiondu modèledansunétatgénère uneobservation.Lagure1.4
représenteunmodèlede Markovahé àtroisétats.
a 11 a 22 a 33
a 12 a 23
1 1
b (o ) b (o ) 2 2
2 3
b (o ) b (o ) 2 4 b (o ) 3 6
O 1 O 2 O 3 O 4 O 5 O 6
3 5
b (o ) 2
1 3
Fig. 1.4HMM gauhe-droite àtroisétats.
La réalisation d'un proessus de Markov ahé se traduit par l'existene d'une séquene
Q = (q 0 , . . . , q T )
d'états de l'automate. Le proessus d'émission du modèle de Markov ahé assoie àQ
une séquene deT
observationsO = (o 1 , . . . , o T )
. Avant le début du proessus,le système se trouve dans un état initial
q 0
sans émettre d'observations. Au tempst
, le HMMeetue une transition vers l'état
q t
et émet l'observationo t
. Un modèle de Markov ahé estaratérisépartroisparamètres:
π i
,lesprobabilités initiales,'est-à-direlaprobabilitéd'êtredansl'étati
de l'automateautemps0,
π i = P (q 0 = i), ∀i ∈ {1, N }
A = ((a ij ))
,lamatriedetransitionentrelesétats del'automate;a ij
représentelaproba-bilité de transitionpourallerde l'état
i
àl'étatj
,a ij = P (q t = j|q t−1 = i), ∀i, j ∈ {1, N } 2
b i (o t )
,ladistributiondesprobabilitésd'émissiondel'observationo t
àl'étati
del'automate,b i (o t ) = P(o t |q t = i), ∀i ∈ {1, N }, ∀t ∈ {1, T }.
Pour haque état, la probabilité d'émission représente la probabilité qu'un état de
l'auto-mate ait généré une observation partiulière. Cette probabilité d'émission de l'observation est
généralement modélisée parunesomme pondérée de
G
fontionsde densitégaussienneN (µ, Σ)
(GaussianMixture Model - GMM)d'espérane
µ
etde matrie de ovarianeΣ
.La probabilité d'observation estalorsdénie parl'équationsuivante:b i (o t ) =
haque gaussienneayant unedensité deprobabilité ontinue égaleà
q 1
(2π) D det(Σ)
exp(− 1 2
t (o t − µ)Σ −1 (o t − µ))
pourlaquelle
o t
représenteleveteurd'observationàD
omposantes,µ
leveteurmoyendelagaussienne,et
Σ
lamatriede ovariane.Lamatrie detransitiondénitlatopologiedel'automatedumodèledeMarkovahé.Dans
l'exemple de la gure 1.4, le modèle à 3 états possède des transitions gauhe-droite entre les
étatsainsiquedestransitionsdeboulage.Cetype demodélisationestemployépourdénirdes
modèlesdephonèmes.Dansesmodèles,lestransitionssontgauhe-droite(pasderetourarrière
possible)pouressayer de représenter l'évolutionaoustique d'un phonème au ours du temps :
ledébutdu phonème,sapartieentraleetlan duphonème.
La modélisationHMMpeutêtreappliquéede plusieursmanières pourtraiter leasdessons
d'unelangue.Laplussimpleestdefaireautantdemodèlesquedephonèmes.Lesmodèles
repré-senterontequ'onappelledesmonophones.Cependant,ilestpossibledehoisirunemodélisation
plus ne en tenant ompte du ontexte aoustiqueentourant le phonème. Ainsi, un modèle ne
dénit plusunphonème maisune réalisationpartiulière de e phonème,dépendanteduou des
phonèmeslepréédant etde eluioueux luisuédant.Ce sont lesn-phones.
Les modèles aoustiques, qu'ils soient monophones ou n-phones, sont appris sur un orpus
aoustiqueontenant desexemplesde parole et leurtransription phonétique. Le passageà des
modèles n-phones augmente fortement le nombre de modèles à apprendre et en même temps
diminue fortement le nombre d'ourrenes de haun d'eux dans le orpus d'apprentissage.
Des méthodes ont alors été développées an de limiter l'impat du manque d'exemples pour
l'apprentissage des modèles. Une possibilité onsiste à dénir un ensemble xe de gaussiennes
qui seront partagéesparles diérents modèles ouparles états desmodèles [Lee00℄.
1.4.2 Apprentissage des modèles de Markov ahés
La phase de onstrution d'unmodèle est lepoint ruial de tout système. L'apprentissage
revêtdon unegrandeimportane.Lesmodèlesaoustiquesnéessitent unimportantorpus
so-noretransritdeplusieursentainesd'heures.Unetransriptionphonétiqueestassoiéeàhaque
éhantillonsonore de sorte qu'au nalhaque modèle possède desreprésentantsdansle orpus.
Unefoisl'ensembledesdonnéesprêt,laphased'apprentissagedesmodèless'eetue.Nousallons
dérire dans ette setion l'algorithme ommunément utilisé dans la phase d'apprentissage des
modèles de Markovahéspourlareonnaissanede laparole.
A partir d'exemples dont nous onnaissons à lafois laséquene des modèles etla séquene
d'observationsengendrée, noussouhaitons déterminer les paramètresdénissant les modèles de
Markovahésde haqueunité phonétique.Ilnous fautdon estimerpourhaquemodèle :
les probabilités initiales
π i
,les probabilités detransition
a ij
,les probabilités d'émissions
b i (o t )
qui sont aratériséespar:•
lesmoyennesµ i
,•
lesmatriesde ovarianesΣ i
,•
lesoeients dumélangede gaussiennesc i
.Dans le adre modèles de Markov ahés, la méthode ommunément utilisée repose sur le
ritèredumaximumdevraisemblane(MaximumLikelihoodML).Toutefois,d'autresméthodes
ontétédéveloppées,parexemplelatehniqued'apprentissagedisriminantfondéesurleritèredu
maximumd'information mutuelle(MaximumMutualInformationMMI). Soit
λ = (π i , a ij , b i )
les paramètres dénissant un modèle HMM, nous devons d'après le ritère du maximum de
vraisemblane,trouverunmodèle
Λ
quimaximiseP (O|λ)
.Λ = arg max
λ P (O|λ)
Or,il n'existepasde méthodedirete pourrésoudree problème demaximisation de
Λ
.1.4.2.1 L'algorithme de Baum et Welh
Baum a eul'idée d'introduire d'autresfontions redénissant leproblème de reherhe d'un
système
λ
. Puis il a dérit un algorithme permettant l'estimation des nouveaux modèles de manièreitérative[Baum70℄.Soit
p
unefontionpositive,etP (λ) = R p(q, λ)dq
,nouspouvonsalorsintroduireunefontionauxiliaire
Q
:Q(λ, λ ′ ) = 1 P (λ)
Z
p(q, λ) log p(q, λ ′ )dq
Bauma démontré d'unepartlapropriété suivante:
Q(λ, λ ′ ) − Q(λ, λ) ≤ log P(λ ′ ) − log P(λ)
etd'autrepartqu'en dénissant lafontion
T
ainsi:T (λ) = arg max
λ ′ Q(λ, λ ′ )
nousavonsalorsl'inégalité suivante:
P (T (λ)) ≥ P(λ).
L'algorithme de Baum et Welh onsiste à trouver un nouveau modèle
λ ′
qui maximiseQ(λ, λ ′ )
.Cetalgorithmeestitératifetommeneparunjeudeparamètresarbitrairesλ 0
.Ensuite,nousherhons
λ 1
quimaximiseQ(λ 0 , λ)
,puisλ 2
quimaximiseQ(λ 1 , λ)
,etainsidesuite.Nousavons, de plus,lapropriété
P (λ 2 ) ≥ P (λ 1 ) ≥ P (λ 0 )
.Il faut trouvermaintenant uneméthode pourmaximiserlafontion
Q
.Dansle asdesmodèles de Markovonsidérés,
P (λ)
s'érit:P(λ) = X
Ξ
étantl'ensemble desheminspossiblespourunHMM gauhe-droit.Dans e as
Q(λ, λ ′ )
peutseréérire sous laformed'une sommede troistermes:Q(λ, λ ′ ) = A(π i ) + B(a ij ) + C(b i ).
Ainsi, maximiser
Q(λ, λ ′ )
revient à maximiser les trois termes séparément. Or, la topologie de nos modèles fore les valeurs desπ i
, arnous ommençons obligatoirement parle premier état du modèle. Lesπ i
sont don onstants. La maximisation des termesB
etC
onduisent à desformulesde ré-estimationpourles probabilitésd'observationetde transition.Nousdonnonses
formulespourdesprobabilitésd'observationmonogaussiennes.
Aussi, pourles probabilités detransition
a ′ ij
etpourune loigaussienneN (µ ′ k , Σ ′ k )
à l'étatk
dumodèle
λ ′
,ilfaut exprimerlesquantitésµ ′ k
,Σ ′ k
eta ′ ij
en fontiondumodèleλ
.Ces érituresn'étant pasimmédiates,il estnéessaired'introduire denouvellesvariables
γ
etξ
,puisα
etβ
.Les probabilités d'observation
Lesformulesderé-estimationdesprobabilitésd'observationpouruneloigaussienne
N (µ ′ k , Σ ′ k )
du nouveau modèle
λ ′
sontdérites parles équations suivantes:µ ′ k = nb de f ois ` a l ′ etat k et observation de o ´ t nb de f ois a l ` ′ ´ etat k
= P T t=1
γ t (k)o t P T t=1 γ t (k) Σ ′ k =
P T t=1
γ t (j)(o t − µ j )(o t − µ j ) P T
t=1
γ t (j)
γ
étant laprobabilité a posterioride s'êtretrouvéà l'étati
àl'instantt
onnaissantlaséquened'observationsetle modèle:
γ t (i) = P (q t = i|O, λ)
Les probabilités de transition
Les valeursdes probabilitésde transitionsont :
a ′ ij = nb de transitions ij nb trans. sortantes de i =
P T t=1
ξ t (i, j) P T t=1
ξ t (i)
ξ
étant la probabilité de s'être trouvé à l'étati
à l'instantt
, et à l'étatj
à l'instantt + 1
onnaissantla séquened'observationset
λ
:ξ t (i, j) = P (q t = i, q t+1 = j|O, λ)
Hélas, le problème est simplement reporté sur deux nouvelles inonnues,
γ
etξ
. Il est alorspossible d'introduirede nouveau deuxvariables supplémentaires:
soit
α t (i) = P (o 1 . . . o t , q t = i|λ)
,la probabilité d'observer laséqueneo 1 . . . o t
etd'être àl'état
i
àl'instantt
sahantle modèleλ
.soitégalement
β t (i) = P(o t+1 . . . o T |q t = i, λ)
,laprobabilitéd'observerlaséqueneo t+1 . . . o T
sahant
λ
,etd'êtreàl'étati
autempst
.Les valeurs de
γ
etξ
peuvent s'exprimer en fontion deα
etβ
. Nous obtenons alors leséquationssuivantes:
Par l'introdution de nouvelles inonnues
α
etβ
, Baum et Welh reformulent la dénition desinonnuesγ
etξ
.Toutefois,Il està présentlapossibilitédealuler esnouvelles inonnues àpartirdes probabilitésd'observation etdestransitions initialesdu modèleλ
parlesméthodesforward etbakward.
1.4.2.2 La méthode forward
Eneet,ilestpossible dealuler
α
parréurrenearhaqueétapedealulautempst
nenéessitequeles observationsdestempspréédents. Voii ladénitionde ette réurrene:
Initialisation :
α 1 (i) = π i b i (o 1 )
Deplus,nousavonsla propriétésuivante:
P(O|λ) =
De même que pour
α
, il est possible de alulerβ
par réurrene. Par ontre, dans le asde
β
, les aluls à l'étape de tempst
ont besoin des observations des temps suivants. Voii la dénitionde laréurrenedeβ
:Ces résultatsamènent unepropriété intéressante:
Dans es deux réurrenes relatives aux valeurs
α
etβ
, auune nouvelle inonnue n'a étéintroduite,ettoutes lesautres valeursprésentessont dénies,lealuleetifestdon possible.
Il sut d'utiliser les diérentes égalités et inonnues introduites pour obtenir les valeurs de
ré-estimation des
a ij
etdesb i
.Ensuite, nous itérons le proessus de alul du système
λ i
, qui sera au moins aussi bonque le système
λ i−1
. Le nombre d'itérations réalisées est habituellement déni à une valeur xée de manière arbitraire, ou bien dépend d'unritère d'arrêt exprimant la stabilisation de laonvergene desmodèles