• Aucun résultat trouvé

La modélisation aoustique permet au moteur de reonnaissane de déterminer quelles ont

étéles unitésaoustiquesprononées(phones,phonèmes,syllabes,mots).La littératurepropose

plusieursmodélisationspossiblesetparmilesplusfréquentessetrouventlesréseauxdeneurones

[Robinson88,Robinson 94,Tebelskis95℄,lesmodèlesdeMarkovahésetlesréseauxBayesiens

[Rabiner89, Deviren 02℄. Les modèles de Markov ahés (Hidden Markov Model - HMM) ont

étéintroduits dansledomainede lareonnaissanede laparole depuisdéjà une trentaine

d'an-nées[Baker75,Jelinek 76℄, etlamajeurepartiedesmodélisations atuellessont fondéessures

modèles. Une telle modélisation probabiliste de la parole peut être étendue parl'intermédiaire

de strutures telles que les HMM multidimensionnels ou enore parles réseaux Bayesiens dont

lesmodèles de Markovahéssont un aspartiulier [Mari97,Deviren04℄.

1.4.1 Modèles de Markov ahés

Un modèle de Markov ahé peut être dérit omme un automate probabiliste à

N

états

omportantdeuxproessus:unproessusahédehangementd'étatetunproessusd'émission.

Leproessusdehangement d'étatest ahéarelui-in'estpasobservable. Cependant,parle

proessusd'émission, latransitiondu modèledansunétatgénère uneobservation.Lagure1.4

représenteunmodèlede Markovahé àtroisétats.

a 11 a 22 a 33

a 12 a 23

1 1

b (o ) b (o ) 2 2

2 3

b (o ) b (o ) 2 4 b (o ) 3 6

O 1 O 2 O 3 O 4 O 5 O 6

3 5

b (o ) 2

1 3

Fig. 1.4HMM gauhe-droite àtroisétats.

La réalisation d'un proessus de Markov ahé se traduit par l'existene d'une séquene

Q = (q 0 , . . . , q T )

d'états de l'automate. Le proessus d'émission du modèle de Markov ahé assoie à

Q

une séquene de

T

observations

O = (o 1 , . . . , o T )

. Avant le début du proessus,

le système se trouve dans un état initial

q 0

sans émettre d'observations. Au temps

t

, le HMM

eetue une transition vers l'état

q t

et émet l'observation

o t

. Un modèle de Markov ahé est

aratérisépartroisparamètres:

π i

,lesprobabilités initiales,'est-à-direlaprobabilitéd'êtredansl'état

i

de l'automateau

temps0,

π i = P (q 0 = i), ∀i ∈ {1, N }

A = ((a ij ))

,lamatriedetransitionentrelesétats del'automate;

a ij

représentela

proba-bilité de transitionpourallerde l'état

i

àl'état

j

,

a ij = P (q t = j|q t−1 = i), ∀i, j ∈ {1, N } 2

b i (o t )

,ladistributiondesprobabilitésd'émissiondel'observation

o t

àl'état

i

del'automate,

b i (o t ) = P(o t |q t = i), ∀i ∈ {1, N }, ∀t ∈ {1, T }.

Pour haque état, la probabilité d'émission représente la probabilité qu'un état de

l'auto-mate ait généré une observation partiulière. Cette probabilité d'émission de l'observation est

généralement modélisée parunesomme pondérée de

G

fontionsde densitégaussienne

N (µ, Σ)

(GaussianMixture Model - GMM)d'espérane

µ

etde matrie de ovariane

Σ

.La probabilité d'observation estalorsdénie parl'équationsuivante:

b i (o t ) =

haque gaussienneayant unedensité deprobabilité ontinue égaleà

q 1

(2π) D det(Σ)

exp(− 1 2

t (o t − µ)Σ −1 (o t − µ))

pourlaquelle

o t

représenteleveteurd'observationà

D

omposantes,

µ

leveteurmoyende

lagaussienne,et

Σ

lamatriede ovariane.

Lamatrie detransitiondénitlatopologiedel'automatedumodèledeMarkovahé.Dans

l'exemple de la gure 1.4, le modèle à 3 états possède des transitions gauhe-droite entre les

étatsainsiquedestransitionsdeboulage.Cetype demodélisationestemployépourdénirdes

modèlesdephonèmes.Dansesmodèles,lestransitionssontgauhe-droite(pasderetourarrière

possible)pouressayer de représenter l'évolutionaoustique d'un phonème au ours du temps :

ledébutdu phonème,sapartieentraleetlan duphonème.

La modélisationHMMpeutêtreappliquéede plusieursmanières pourtraiter leasdessons

d'unelangue.Laplussimpleestdefaireautantdemodèlesquedephonèmes.Lesmodèles

repré-senterontequ'onappelledesmonophones.Cependant,ilestpossibledehoisirunemodélisation

plus ne en tenant ompte du ontexte aoustiqueentourant le phonème. Ainsi, un modèle ne

dénit plusunphonème maisune réalisationpartiulière de e phonème,dépendanteduou des

phonèmeslepréédant etde eluioueux luisuédant.Ce sont lesn-phones.

Les modèles aoustiques, qu'ils soient monophones ou n-phones, sont appris sur un orpus

aoustiqueontenant desexemplesde parole et leurtransription phonétique. Le passageà des

modèles n-phones augmente fortement le nombre de modèles à apprendre et en même temps

diminue fortement le nombre d'ourrenes de haun d'eux dans le orpus d'apprentissage.

Des méthodes ont alors été développées an de limiter l'impat du manque d'exemples pour

l'apprentissage des modèles. Une possibilité onsiste à dénir un ensemble xe de gaussiennes

qui seront partagéesparles diérents modèles ouparles états desmodèles [Lee00℄.

1.4.2 Apprentissage des modèles de Markov ahés

La phase de onstrution d'unmodèle est lepoint ruial de tout système. L'apprentissage

revêtdon unegrandeimportane.Lesmodèlesaoustiquesnéessitent unimportantorpus

so-noretransritdeplusieursentainesd'heures.Unetransriptionphonétiqueestassoiéeàhaque

éhantillonsonore de sorte qu'au nalhaque modèle possède desreprésentantsdansle orpus.

Unefoisl'ensembledesdonnéesprêt,laphased'apprentissagedesmodèless'eetue.Nousallons

dérire dans ette setion l'algorithme ommunément utilisé dans la phase d'apprentissage des

modèles de Markovahéspourlareonnaissanede laparole.

A partir d'exemples dont nous onnaissons à lafois laséquene des modèles etla séquene

d'observationsengendrée, noussouhaitons déterminer les paramètresdénissant les modèles de

Markovahésde haqueunité phonétique.Ilnous fautdon estimerpourhaquemodèle :

les probabilités initiales

π i

,

les probabilités detransition

a ij

,

les probabilités d'émissions

b i (o t )

qui sont aratériséespar:

lesmoyennes

µ i

,

lesmatriesde ovarianes

Σ i

,

lesoeients dumélangede gaussiennes

c i

.

Dans le adre modèles de Markov ahés, la méthode ommunément utilisée repose sur le

ritèredumaximumdevraisemblane(MaximumLikelihoodML).Toutefois,d'autresméthodes

ontétédéveloppées,parexemplelatehniqued'apprentissagedisriminantfondéesurleritèredu

maximumd'information mutuelle(MaximumMutualInformationMMI). Soit

λ = (π i , a ij , b i )

les paramètres dénissant un modèle HMM, nous devons d'après le ritère du maximum de

vraisemblane,trouverunmodèle

Λ

quimaximise

P (O|λ)

.

Λ = arg max

λ P (O|λ)

Or,il n'existepasde méthodedirete pourrésoudree problème demaximisation de

Λ

.

1.4.2.1 L'algorithme de Baum et Welh

Baum a eul'idée d'introduire d'autresfontions redénissant leproblème de reherhe d'un

système

λ

. Puis il a dérit un algorithme permettant l'estimation des nouveaux modèles de manièreitérative[Baum70℄.

Soit

p

unefontionpositive,et

P (λ) = R p(q, λ)dq

,nouspouvonsalorsintroduireunefontion

auxiliaire

Q

:

Q(λ, λ ) = 1 P (λ)

Z

p(q, λ) log p(q, λ )dq

Bauma démontré d'unepartlapropriété suivante:

Q(λ, λ ) − Q(λ, λ) ≤ log P(λ ) − log P(λ)

etd'autrepartqu'en dénissant lafontion

T

ainsi:

T (λ) = arg max

λ Q(λ, λ )

nousavonsalorsl'inégalité suivante:

P (T (λ)) ≥ P(λ).

L'algorithme de Baum et Welh onsiste à trouver un nouveau modèle

λ

qui maximise

Q(λ, λ )

.Cetalgorithmeestitératifetommeneparunjeudeparamètresarbitraires

λ 0

.Ensuite,

nousherhons

λ 1

quimaximise

Q(λ 0 , λ)

,puis

λ 2

quimaximise

Q(λ 1 , λ)

,etainsidesuite.Nous

avons, de plus,lapropriété

P (λ 2 ) ≥ P (λ 1 ) ≥ P (λ 0 )

.

Il faut trouvermaintenant uneméthode pourmaximiserlafontion

Q

.

Dansle asdesmodèles de Markovonsidérés,

P (λ)

s'érit:

P(λ) = X

Ξ

étantl'ensemble desheminspossiblespourunHMM gauhe-droit.

Dans e as

Q(λ, λ )

peutseréérire sous laformed'une sommede troistermes:

Q(λ, λ ) = A(π i ) + B(a ij ) + C(b i ).

Ainsi, maximiser

Q(λ, λ )

revient à maximiser les trois termes séparément. Or, la topologie de nos modèles fore les valeurs des

π i

, arnous ommençons obligatoirement parle premier état du modèle. Les

π i

sont don onstants. La maximisation des termes

B

et

C

onduisent à des

formulesde ré-estimationpourles probabilitésd'observationetde transition.Nousdonnonses

formulespourdesprobabilitésd'observationmonogaussiennes.

Aussi, pourles probabilités detransition

a ij

etpourune loigaussienne

N (µ k , Σ k )

à l'état

k

dumodèle

λ

,ilfaut exprimerlesquantités

µ k

,

Σ k

et

a ij

en fontiondumodèle

λ

.Ces éritures

n'étant pasimmédiates,il estnéessaired'introduire denouvellesvariables

γ

et

ξ

,puis

α

et

β

.

Les probabilités d'observation

Lesformulesderé-estimationdesprobabilitésd'observationpouruneloigaussienne

N (µ k , Σ k )

du nouveau modèle

λ

sontdérites parles équations suivantes:

µ k = nb de f ois ` a l etat k et observation de o ´ t nb de f ois a l ` ´ etat k

= P T t=1

γ t (k)o t P T t=1 γ t (k) Σ k =

P T t=1

γ t (j)(o t − µ j )(o t − µ j ) P T

t=1

γ t (j)

γ

étant laprobabilité a posterioride s'êtretrouvéà l'état

i

àl'instant

t

onnaissantlaséquene

d'observationsetle modèle:

γ t (i) = P (q t = i|O, λ)

Les probabilités de transition

Les valeursdes probabilitésde transitionsont :

a ij = nb de transitions ij nb trans. sortantes de i =

P T t=1

ξ t (i, j) P T t=1

ξ t (i)

ξ

étant la probabilité de s'être trouvé à l'état

i

à l'instant

t

, et à l'état

j

à l'instant

t + 1

onnaissantla séquened'observationset

λ

:

ξ t (i, j) = P (q t = i, q t+1 = j|O, λ)

Hélas, le problème est simplement reporté sur deux nouvelles inonnues,

γ

et

ξ

. Il est alors

possible d'introduirede nouveau deuxvariables supplémentaires:

soit

α t (i) = P (o 1 . . . o t , q t = i|λ)

,la probabilité d'observer laséquene

o 1 . . . o t

etd'être à

l'état

i

àl'instant

t

sahantle modèle

λ

.

soitégalement

β t (i) = P(o t+1 . . . o T |q t = i, λ)

,laprobabilitéd'observerlaséquene

o t+1 . . . o T

sahant

λ

,etd'êtreàl'état

i

autemps

t

.

Les valeurs de

γ

et

ξ

peuvent s'exprimer en fontion de

α

et

β

. Nous obtenons alors les

équationssuivantes:

Par l'introdution de nouvelles inonnues

α

et

β

, Baum et Welh reformulent la dénition desinonnues

γ

et

ξ

.Toutefois,Il està présentlapossibilitédealuler esnouvelles inonnues àpartirdes probabilitésd'observation etdestransitions initialesdu modèle

λ

parlesméthodes

forward etbakward.

1.4.2.2 La méthode forward

Eneet,ilestpossible dealuler

α

parréurrenearhaqueétapedealulautemps

t

ne

néessitequeles observationsdestempspréédents. Voii ladénitionde ette réurrene:

Initialisation :

α 1 (i) = π i b i (o 1 )

Deplus,nousavonsla propriétésuivante:

P(O|λ) =

De même que pour

α

, il est possible de aluler

β

par réurrene. Par ontre, dans le as

de

β

, les aluls à l'étape de temps

t

ont besoin des observations des temps suivants. Voii la dénitionde laréurrenede

β

:

Ces résultatsamènent unepropriété intéressante:

Dans es deux réurrenes relatives aux valeurs

α

et

β

, auune nouvelle inonnue n'a été

introduite,ettoutes lesautres valeursprésentessont dénies,lealuleetifestdon possible.

Il sut d'utiliser les diérentes égalités et inonnues introduites pour obtenir les valeurs de

ré-estimation des

a ij

etdes

b i

.

Ensuite, nous itérons le proessus de alul du système

λ i

, qui sera au moins aussi bon

que le système

λ i−1

. Le nombre d'itérations réalisées est habituellement déni à une valeur xée de manière arbitraire, ou bien dépend d'unritère d'arrêt exprimant la stabilisation de la

onvergene desmodèles

λ i

.