Modélisation de la parole Modélisation aoustique

La modélisation aoustique permet au moteur de reonnaissane de déterminer quelles ont

étéles unitésaoustiquesprononées(phones,phonèmes,syllabes,mots).La littératurepropose

plusieursmodélisationspossiblesetparmilesplusfréquentessetrouventlesréseauxdeneurones

[Robinson88,Robinson 94,Tebelskis95℄,lesmodèlesdeMarkovahésetlesréseauxBayesiens

[Rabiner89, Deviren 02℄. Les modèles de Markov ahés (Hidden Markov Model - HMM) ont

étéintroduits dansledomainede lareonnaissanede laparole depuisdéjà une trentaine

d'an-nées[Baker75,Jelinek 76℄, etlamajeurepartiedesmodélisations atuellessont fondéessures

modèles. Une telle modélisation probabiliste de la parole peut être étendue parl'intermédiaire

de strutures telles que les HMM multidimensionnels ou enore parles réseaux Bayesiens dont

lesmodèles de Markovahéssont un aspartiulier [Mari97,Deviren04℄.

1.4.1 Modèles de Markov ahés

Un modèle de Markov ahé peut être dérit omme un automate probabiliste à

N

^états

omportantdeuxproessus:unproessusahédehangementd'étatetunproessusd'émission.

Leproessusdehangement d'étatest ahéarelui-in'estpasobservable. Cependant,parle

proessusd'émission, latransitiondu modèledansunétatgénère uneobservation.Lagure1.4

représenteunmodèlede Markovahé àtroisétats.

a ₁₁ a 22 a 33

a 12 a ₂₃

1 1

b (o ) b (o ) 2 2

2 3

b (o ) b (o ) 2 4 b (o ) ³ ⁶

O 1 O ₂ O 3 O ₄ O 5 O ₆

3 5

b (o ) 2

1 3

Fig. 1.4HMM gauhe-droite àtroisétats.

La réalisation d'un proessus de Markov ahé se traduit par l'existene d'une séquene

Q = (q ₀ , . . . , q _T )

^d'états ^de l'automate. Le proessus d'émission du modèle de Markov ahé assoie à

Q

^une ^séquene ^de

T

observations

O = (o 1 , . . . , o _T )

^. ^Av^ant ^le ^début ^du ^proessus,

le système se trouve dans un état initial

q ₀

^sans ^émettre d'observations. Au temps

t

^, ^le ^HMM

eetue une transition vers l'état

q _t

^et ^émet l'observation

o _t

^. Ûn ^modèle ^de ^Markov âhé êst

aratérisépartroisparamètres:

π _i

^,^lesprobabilités initiales,'est-à-direlaprobabilitéd'êtredansl'état

i

^de ^l'automate^au

temps0,

π i = P (q 0 = i), ∀i ∈ {1, N }

A = ((a _ij ))

^,^la^matrie^de^transition^entre^les^états ^de^l'automate^;

a _ij

^représente^la

proba-bilité de transitionpourallerde l'état

i

^à^l'état

j

a _ij = P (q _t = j|q t−1 = i), ∀i, j ∈ {1, N } ²

b _i (o _t )

^,^ladistributiondesprobabilitésd'émissiondel'observation

o _t

^à^l'état

i

^del'automate,

b i (o t ) = P(o t |q t = i), ∀i ∈ {1, N }, ∀t ∈ {1, T }.

Pour haque état, la probabilité d'émission représente la probabilité qu'un état de

l'auto-mate ait généré une observation partiulière. Cette probabilité d'émission de l'observation est

généralement modélisée parunesomme pondérée de

G

^fontions^de ^densité^gaussienne

N (µ, Σ)

(GaussianMixture Model - GMM)d'espérane

µ

^et^de ^matrie ^de ^ovariane

Σ

^.^La probabilité d'observation estalorsdénie parl'équationsuivante:

b i (o t ) =

haque gaussienneayant unedensité deprobabilité ontinue égaleà

q 1

(2π) ^D det(Σ)

exp(− 1 2

t (o _t − µ)Σ ⁻¹ (o _t − µ))

pourlaquelle

o t

^représente^le^veteurd'observationà

D

omposantes,

µ

^le^veteur^moyen^de

lagaussienne,et

Σ

^la^matrie^de ^ovariane.

Lamatrie detransitiondénitlatopologiedel'automatedumodèledeMarkovahé.Dans

l'exemple de la gure 1.4, le modèle à 3 états possède des transitions gauhe-droite entre les

étatsainsiquedestransitionsdeboulage.Cetype demodélisationestemployépourdénirdes

modèlesdephonèmes.Dansesmodèles,lestransitionssontgauhe-droite(pasderetourarrière

possible)pouressayer de représenter l'évolutionaoustique d'un phonème au ours du temps :

ledébutdu phonème,sapartieentraleetlan duphonème.

La modélisationHMMpeutêtreappliquéede plusieursmanières pourtraiter leasdessons

d'unelangue.Laplussimpleestdefaireautantdemodèlesquedephonèmes.Lesmodèles

repré-senterontequ'onappelledesmonophones.Cependant,ilestpossibledehoisirunemodélisation

plus ne en tenant ompte du ontexte aoustiqueentourant le phonème. Ainsi, un modèle ne

dénit plusunphonème maisune réalisationpartiulière de e phonème,dépendanteduou des

phonèmeslepréédant etde eluioueux luisuédant.Ce sont lesn-phones.

Les modèles aoustiques, qu'ils soient monophones ou n-phones, sont appris sur un orpus

aoustiqueontenant desexemplesde parole et leurtransription phonétique. Le passageà des

modèles n-phones augmente fortement le nombre de modèles à apprendre et en même temps

diminue fortement le nombre d'ourrenes de haun d'eux dans le orpus d'apprentissage.

Des méthodes ont alors été développées an de limiter l'impat du manque d'exemples pour

l'apprentissage des modèles. Une possibilité onsiste à dénir un ensemble xe de gaussiennes

qui seront partagéesparles diérents modèles ouparles états desmodèles [Lee00℄.

1.4.2 Apprentissage des modèles de Markov ahés

La phase de onstrution d'unmodèle est lepoint ruial de tout système. L'apprentissage

revêtdon unegrandeimportane.Lesmodèlesaoustiquesnéessitent unimportantorpus

so-noretransritdeplusieursentainesd'heures.Unetransriptionphonétiqueestassoiéeàhaque

éhantillonsonore de sorte qu'au nalhaque modèle possède desreprésentantsdansle orpus.

Unefoisl'ensembledesdonnéesprêt,laphased'apprentissagedesmodèless'eetue.Nousallons

dérire dans ette setion l'algorithme ommunément utilisé dans la phase d'apprentissage des

modèles de Markovahéspourlareonnaissanede laparole.

A partir d'exemples dont nous onnaissons à lafois laséquene des modèles etla séquene

d'observationsengendrée, noussouhaitons déterminer les paramètresdénissant les modèles de

Markovahésde haqueunité phonétique.Ilnous fautdon estimerpourhaquemodèle :

les probabilités initiales

π _i

les probabilités detransition

a _ij

les probabilités d'émissions

b _i (o _t )

^qui ^sont aratériséespar:

•

^les^moyennes

µ _i

•

^les^matries^de ^ovarianes

Σ _i

•

^les^oeients ^du^mélange^de gaussiennes

c _i

Dans le adre modèles de Markov ahés, la méthode ommunément utilisée repose sur le

ritèredumaximumdevraisemblane(MaximumLikelihoodML).Toutefois,d'autresméthodes

ontétédéveloppées,parexemplelatehniqued'apprentissagedisriminantfondéesurleritèredu

maximumd'information mutuelle(MaximumMutualInformationMMI). Soit

λ = (π _i , a _ij , b _i )

les paramètres dénissant un modèle HMM, nous devons d'après le ritère du maximum de

vraisemblane,trouverunmodèle

Λ

^qui^maximise

P (O|λ)

Λ = arg max

λ P (O|λ)

Or,il n'existepasde méthodedirete pourrésoudree problème demaximisation de

Λ

1.4.2.1 L'algorithme de Baum et Welh

Baum a eul'idée d'introduire d'autresfontions redénissant leproblème de reherhe d'un

système

λ

^. ^Puis îl â ^dérit ûn âlgorithme ^permettant l'estimation des nouveaux modèles de manièreitérative[Baum70℄.

Soit

p

^une^fontion^positive,^et

P (λ) = ^R p(q, λ)dq

^,^nous^pouvonsâlorsîntroduireûne^fontion

auxiliaire

Q

Q(λ, λ ^′ ) = 1 P (λ)

Z

p(q, λ) log p(q, λ ^′ )dq

Bauma démontré d'unepartlapropriété suivante:

Q(λ, λ ^′ ) − Q(λ, λ) ≤ log P(λ ^′ ) − log P(λ)

etd'autrepartqu'en dénissant lafontion

T

^ainsi^:

T (λ) = arg max

λ ^′ Q(λ, λ ^′ )

nousavonsalorsl'inégalité suivante:

P (T (λ)) ≥ P(λ).

L'algorithme de Baum et Welh onsiste à trouver un nouveau modèle

λ ^′

^qui ^maximise

Q(λ, λ ^′ )

^.^Cetâlgorithmeêstîtératifêtômmene^parûn^jeu^de^paramètresarbitraires

λ ₀

^.^Ensuite,

nousherhons

λ ₁

^qui^maximise

Q(λ ₀ , λ)

^,^puis

λ ₂

^qui^maximise

Q(λ ₁ , λ)

^,^et^ainsi^de^suite.^Nous

avons, de plus,lapropriété

P (λ 2 ) ≥ P (λ 1 ) ≥ P (λ 0 )

Il faut trouvermaintenant uneméthode pourmaximiserlafontion

Q

Dansle asdesmodèles de Markovonsidérés,

P (λ)

^s'érit^:

P(λ) = ^X

Ξ

^étant^l'ensemble ^des^hemins^possibles^pour^un^HMM gauhe-droit.

Dans e as

Q(λ, λ ^′ )

^peut^se^réérire ^sous ^la^forme^d'une ^somme^de ^trois^termes^:

Q(λ, λ ^′ ) = A(π _i ) + B(a _ij ) + C(b _i ).

Ainsi, maximiser

Q(λ, λ ^′ )

^revient ^à ^maximiser ^les ^trois ^termes séparément. Or, la topologie de nos modèles fore les valeurs des

π _i

^, ^ar^nous ^ommençons obligatoirement parle premier état du modèle. Les

π _i

^sont ^don ^onstants. ^La maximisation des termes

B

^et

C

^onduisent ^à ^des

formulesde ré-estimationpourles probabilitésd'observationetde transition.Nousdonnonses

formulespourdesprobabilitésd'observationmonogaussiennes.

Aussi, pourles probabilités detransition

a ^′ _ij

^et^pour^une ^loi^gaussienne

N (µ ^′ _k , Σ ^′ _k )

^à ^l'état

k

dumodèle

λ ^′

^,^il^faut ^exprimer^les^quantités

µ ^′ _k

Σ ^′ _k

^et

a ^′ _ij

^en ^fontion^du^modèle

λ

^.^Ces ^éritures

n'étant pasimmédiates,il estnéessaired'introduire denouvellesvariables

γ

^et

ξ

^,^puis

α

^et

β

Les probabilités d'observation

Lesformulesderé-estimationdesprobabilitésd'observationpouruneloigaussienne

N (µ ^′ _k , Σ ^′ _k )

du nouveau modèle

λ ^′

^sont^dérites ^par^les ^équations ^suiv^antes^:

µ ^′ _k = nb de f ois ` a l ^′ etat k et observation de o ´ _t nb de f ois a l ` ^′ ´ etat k

= P T t=1

γ _t (k)o _t P T t=1 γ t (k) Σ ^′ _k =

P T t=1

γ _t (j)(o _t − µ _j )(o _t − µ _j ) P T

t=1

γ _t (j)

γ

^étant ^laprobabilité a posterioride s'êtretrouvéà l'état

i

^à^l'instant

t

^onnaissant^la^séquene

d'observationsetle modèle:

γ _t (i) = P (q _t = i|O, λ)

Les probabilités de transition

Les valeursdes probabilitésde transitionsont :

a ^′ _ij = nb de transitions ij nb trans. sortantes de i =

P T t=1

ξ _t (i, j) P T t=1

ξ _t (i)

ξ

^étant ^la probabilité de s'être trouvé à l'état

i

^à ^l'instant

t

^, ^et ^à ^l'état

j

^à ^l'instant

t + 1

onnaissantla séquened'observationset

λ

ξ _t (i, j) = P (q _t = i, q _t+1 = j|O, λ)

Hélas, le problème est simplement reporté sur deux nouvelles inonnues,

γ

^et

ξ

^. Îl êst âlors

possible d'introduirede nouveau deuxvariables supplémentaires:

soit

α _t (i) = P (o ₁ . . . o _t , q _t = i|λ)

^,^la probabilité d'observer laséquene

o ₁ . . . o _t

^et^d'être ^à

l'état

i

^à^l'instant

t

^sahant^le ^modèle

λ

soitégalement

β _t (i) = P(o _t+1 . . . o _T |q t = i, λ)

^,^laprobabilitéd'observerlaséquene

o _t+1 . . . o _T

sahant

λ

^,^et^d'être^à^l'état

i

^au^temps

t

Les valeurs de

γ

^et

ξ

^peuvent ^s'exprimer ^en ^fontion ^de

α

^et

β

^. ^Nous ^obtenons ^alors ^les

équationssuivantes:

Par l'introdution de nouvelles inonnues

α

^et

β

^, ^Baum ^et ^W^elh reformulent la dénition desinonnues

γ

^et

ξ

^.^Toutefois,^Il ^est^à ^présent^lapossibilitédealuler esnouvelles inonnues àpartirdes probabilitésd'observation etdestransitions initialesdu modèle

λ

^par^les^méthodes

forward etbakward.

1.4.2.2 La méthode forward

Eneet,ilestpossible dealuler

α

^par^réurreneâr^haque^étape^deâlulâu^temps

t

^ne

néessitequeles observationsdestempspréédents. Voii ladénitionde ette réurrene:

Initialisation :

α ₁ (i) = π _i b _i (o ₁ )

Deplus,nousavonsla propriétésuivante:

P(O|λ) =

De même que pour

α

^, îl êst ^possible ^de âluler

β

^par ^réurrene. ^Par ^ontre, ^dans ^le ^as

β

^, ^les ^aluls ^à ^l'étape ^de ^temps

t

^ont ^besoin ^des observations des temps suivants. Voii la dénitionde laréurrenede

β

Ces résultatsamènent unepropriété intéressante:

Dans es deux réurrenes relatives aux valeurs

α

^et

β

^, ^auune ^nouvelle ^inonnue ^n'a ^été

introduite,ettoutes lesautres valeursprésentessont dénies,lealuleetifestdon possible.

Il sut d'utiliser les diérentes égalités et inonnues introduites pour obtenir les valeurs de

ré-estimation des

a _ij

^et^des

b _i

Ensuite, nous itérons le proessus de alul du système

λ _i

^, ^qui ^sera ^au ^moins ^aussi ^bon

que le système

λ _i−1

^. ^Le ^nombre d'itérations réalisées est habituellement déni à une valeur xée de manière arbitraire, ou bien dépend d'unritère d'arrêt exprimant la stabilisation de la

onvergene desmodèles

λ _i

Dans le document Mesures de confiance trame-synchrones et locales en reconnaissance automatique de la parole ~ Association Francophone de la Communication Parlée (Page 25-30)

Modélisation de la parole Modélisation aoustique

N

a 11 a 22 a 33

a 12 a 23

1 1

b (o ) b (o ) 2 2

2 3

b (o ) b (o ) 2 4 b (o ) 3 6

O 1 O 2 O 3 O 4 O 5 O 6

3 5

b (o ) 2

1 3

Q = (q 0 , . . . , q T )

Q

T

O = (o 1 , . . . , o T )

q 0

t

q t

o t

π i

i

π i = P (q 0 = i), ∀i ∈ {1, N }

A = ((a ij ))

a ij

i

j

a ij = P (q t = j|q t−1 = i), ∀i, j ∈ {1, N } 2

b i (o t )

o t

i

b i (o t ) = P(o t |q t = i), ∀i ∈ {1, N }, ∀t ∈ {1, T }.

G

N (µ, Σ)

µ

Σ

b i (o t ) =

q 1

(2π) D det(Σ)

exp(− 1 2

t (o t − µ)Σ −1 (o t − µ))

o t

D

µ

Σ

π i

a ij

b i (o t )

•

µ i

•

Σ i

•

c i

λ = (π i , a ij , b i )

Λ

P (O|λ)

Λ = arg max

λ P (O|λ)

Λ

λ

p

P (λ) = R p(q, λ)dq

Q

Q(λ, λ ′ ) = 1 P (λ)

Z

p(q, λ) log p(q, λ ′ )dq

Q(λ, λ ′ ) − Q(λ, λ) ≤ log P(λ ′ ) − log P(λ)

T

T (λ) = arg max

λ ′ Q(λ, λ ′ )

P (T (λ)) ≥ P(λ).

λ ′

Q(λ, λ ′ )

λ 0

λ 1

Q(λ 0 , λ)

λ 2

Q(λ 1 , λ)

P (λ 2 ) ≥ P (λ 1 ) ≥ P (λ 0 )

a ₁₁ a 22 a 33

a 12 a ₂₃

b (o ) b (o ) 2 4 b (o ) ³ ⁶

O 1 O ₂ O 3 O ₄ O 5 O ₆

Q = (q ₀ , . . . , q _T )

O = (o 1 , . . . , o _T )

q ₀

q _t

o _t

π _i

A = ((a _ij ))

a _ij

a _ij = P (q _t = j|q t−1 = i), ∀i, j ∈ {1, N } ²

b _i (o _t )

o _t

(2π) ^D det(Σ)

t (o _t − µ)Σ ⁻¹ (o _t − µ))

π _i

a _ij

b _i (o _t )

µ _i

Σ _i

c _i

λ = (π _i , a _ij , b _i )

P (λ) = ^R p(q, λ)dq

Q(λ, λ ^′ ) = 1 P (λ)

p(q, λ) log p(q, λ ^′ )dq

Q(λ, λ ^′ ) − Q(λ, λ) ≤ log P(λ ^′ ) − log P(λ)

λ ^′ Q(λ, λ ^′ )

λ ^′

Q(λ, λ ^′ )

λ ₀

λ ₁

Q(λ ₀ , λ)

λ ₂

Q(λ ₁ , λ)

P(λ) = ^X

Q(λ, λ ^′ )

Q(λ, λ ^′ ) = A(π _i ) + B(a _ij ) + C(b _i ).

Q(λ, λ ^′ )

π _i

π _i

a ^′ _ij

N (µ ^′ _k , Σ ^′ _k )

λ ^′

µ ^′ _k

Σ ^′ _k

a ^′ _ij

N (µ ^′ _k , Σ ^′ _k )

λ ^′

µ ^′ _k = nb de f ois ` a l ^′ etat k et observation de o ´ _t nb de f ois a l ` ^′ ´ etat k

γ _t (k)o _t P T t=1 γ t (k) Σ ^′ _k =

γ _t (j)(o _t − µ _j )(o _t − µ _j ) P T

γ _t (j)

γ _t (i) = P (q _t = i|O, λ)

a ^′ _ij = nb de transitions ij nb trans. sortantes de i =

ξ _t (i, j) P T t=1

ξ _t (i)

ξ _t (i, j) = P (q _t = i, q _t+1 = j|O, λ)

α _t (i) = P (o ₁ . . . o _t , q _t = i|λ)

o ₁ . . . o _t

β _t (i) = P(o _t+1 . . . o _T |q t = i, λ)

o _t+1 . . . o _T