1.3 Les méthodes de re onnaissan e de mots manus rits à base de modèles
1.3.1 Méthodes HMMs : généralités
Lesmodèlesde Markov a hés sontune méthode utiliséedepuislongtemps pour
la modélisation de séquen es. Leur simpli ité s'applique ave su ès à une grande
diversité de tâ hes : la re onnaissan e de la parole, la re onnaissan e de l'é riture
manus rite ouimpriméeou en orela bio-informatique [6℄.
Prin ipe. Les modèles de Markov a hés sont un pro essus doublement sto has-
tique, largement utilisé pour modéliser statistiquement des séquen es. D'une part,
ladynamiquede laséquen e àmodéliserest représentée par une haînede Markov,
'est-à-dire un ensemble d'états et de transitions entre états; la parti ularité des
haînes de Markov d'ordre 1 est l'hypothèse que la probabilité de se trouver dans
un état donné à un instant donné ne dépend que de l'état à l'instant pré édent.
D'autre part, des densités de probabilité sont asso iées aux états an de modéliser
lesobservations.La dénominationmodèlesde Markov a hés vientdu fait que
la séquen e d'états orrespondant aux données observées est in onnue de l'obser-
vateur, qui n'a a ès qu'aux observations elles-mêmes. Ainsi, par onstru tion, les
HMMs ne peuvent pas fournir la séquen e exa te d'états qui génère la séquen e
d'observation
OT
= o1o2. . . oT
mais ilest possiblede al uler laséquen e d'états la plus vraisemblable selon les données observées.UnmodèleHMMdis ret
1
,quenousnotons
λ= {N, M, A, B, Π}
,estdénipar : lenombre d'étatsN
du modèle. Les états sont nomméss1, s2, . . . sN
etqt
estl'étatau temps
t
.QT
est laséquen e d'étatsq1, q2, . . . qT
. lenombre d'observations par étatM
, nomméesv1, v2, . . . vM
.la matri e des probabilités de transition d'état à état
A = {aij}
, oùaij
=
P (qt= sj|qt−1
= si)
et1 ≤ i, j ≤ N
. Par dénition,0 ≤ aij
≤ 1
etPN
j=1aij
=
1
.la distribution de probabilité
B = {bj(k)}
des symboles observés dans l'étatj
,oùbj(k) = P (ot= vk|qt= sj)
.ladistribution des états à l'instant initial
Π = {πi}
oùπi
= P (q1
= si)
.Les HMMs ontinus, très utilisésdanslessystèmes de re onnaissan e del'é rit
ou de la parole, dièrent des HMMs dis rets dans le sens où il est imposé aux
bj
une forme ontinue. Ainsi on ne parle plus de la probabilité d'émission d'un ve teur d'observations mais de la vraisemblan e qu'un tel ve teur soit émis alorsquelesystèmeest dans un étatdonné. Dansle as lassique,uneloinormalemulti-
gaussienne est utiliséeet les
bj
sont de la forme:bj(ot) =
M
X
m=1
cjmN (ot, µjm, Ujm)
où
M
est le nombre de gaussiennes,cjm
est le oe ient de la gaussienne numérom
asso iée à l'étatsj
etµ
jm, Ujm
sont respe tivement sa moyenne et sa matri e de ovarian e.D'autres systèmes ependantutilisentdesloisdiérentes, ommeparexemplela loide Bernouilli[57, 58℄ :
bj(ot) =
K
X
k=1
πjk
D
Y
d=1
potdjkd(1 − pjkd)1−otd
où
πjk
est le oe ient duk
`
eme
mélange et
pjk
son prototype de Bernouilli,K
le nombre de mélanges etD
la dimension des ara téristiques.En général, les systèmes de re onnaissan e d'é riture manus rite utilisent des
HMMs gau he-droit (de type Bakis), qui imposent des ontraintes sur
A
, ommeFigure1.13 HMM de type Bakis
illustrésur la Figure1.13 :
aij
= 0
si(
j < i
ou
j > i + 2
La première ondition signie qu'il n'y a pas de transition d'un état vers un
étatantérieur(modèlegau he-droite) etlase onde signiequed'unétatonne peut
passerqueverslui-même,versl'étatsuivantoubien eluiquisuitlesuivant(modèle
de Bakis). Sa hant ela, onimpose aussi une ontraintesur
Π
: la séquen e d'états doit ommen erpar l'état1etterminerparl'étatN
,donπ1
= 1
etπi
= 0
sii 6= 1
.Les HMMs semi- ontinus, quant à eux,sont des HMMs ontinus dontles pa-
ramètressont partagés. Cettemodélisationest avantageusepar rapportauxHMMs
lassiques ontinus ar elle permet d'apprendre moins de paramètres ave autant
de données et d'éviter les phénomènes de suraprentissage qui nuisent à la apa ité
de généralisation du modèle. En général, les HMMs semi- ontinus dénissent un
ensemble de gaussiennes et l'ensemble des états partagent es gaussiennes. Nous
verronsauChapitre3quedes partagesde paramètresplusintéressantspeuventêtre
ee tués, qui améliorent onsidérablementles performan es du système.
L'un des prin ipaux avantages d'utiliser les modèles de Markov a hés est que
leurapprentissage ainsique ledé odage sontbasés sur des algorithmesperformants
etéprouvés, présentés i-dessous.
Apprentissage. Il n'existe pas d'algorithme pour estimer les paramètres opti-
maux du modèle mais il est possible de trouver un maximum lo al, notamment à
l'aide de l'algorithmeEM (Espéran e-Maximisation, en anglaisExpe tation- Maxi-
misation). Lesparamètres du modèle
λ
sont itérativement ajustés pour maximiser laprobabilitéP (O|λ)
d'avoirgénérélesdonnéesobservées ave lemodèle.A haque itération, on dispose du modèle pré édemment al uléλ
et on her heˆ
P (O|ˆλ) > P (O|λ)
.Dansle as de l'algorithmeBaum-Wel h[7℄ (oualgorithmeForward-Ba kward),
ˆ
λ
est trouvépar maximumde vraisemblan e, 'est-à-dire enmaximisantlafon tion auxiliaireQ(λ, ˆλ)
:Q(λ, ˆλ) =X
QT
P (q1q2. . . qT|O, λ)log[P (O, q1q2. . . qT|ˆλ)]
Le al ulde
Q(λ, ˆλ)
estl'étapeE
del'algorithmeEMetlamaximisationdeQ(λ, ˆλ)
est l'étapeM
. La pro édure EM est répétée jusqu'à e queP (O|ˆλ) − P (O|λ) < ǫ
pourǫ
faible;le modèle trouvé maximise lavraisemblan e.L'algorithmeBaum-Wel hestà ejourlargementutilisépourl'apprentissagedes
modèlesHMMs. Il introduit deux probabilités: laprobabilitéavant
αt(i)
(forward) et la probabilité arrièreβt(i)
(ba kward).αt(i)
est la probabilité de la séquen e d'observation partielleo1, o2, . . . ot
d'être dans d'étatsi
à l'instantt
etβt(i)
est la probabilité d'observer la séquen e partielle de symbolesot+1, ot+2, . . . oT
en supposantêtre àl'étatsi
à l'instantt
.L'algorithme Baum-Wel hserésumeen trois étapes :d'abord une passeavant (forward)puis une passe arrière(ba kward)suivied'unepasse de lissage.
L'étape forward onsiste à al ulerpar ré urren e les
αt(i)
à partirdet = 1
. La ré urren es'initialise:α1(i) =
pour1 ≤ i ≤ N
Puis lepassage de
αt
àαt+1
s'ee tue ave le al ulsuivant :αt+1(j) = {PNi=1αt(i)aij}bj(ot+1)
pour1 ≤ j ≤ N
t = 1 . . . T − 1
Durantl'étapeba kward,on al uleles
βt(i)
par ré urren einverse (en ommen- çant àt = T
). L'initialisationest donnée en posant:etle passagede
βt+1
àβt
se al ule :βt(i) =
PNj=1aijbj(ot+1)βt+1(j)
pour1 ≤ i ≤ N
t = T − 1 . . . 1
Lesprobabilitésavantetarrièresontensuite ombinéespour obtenirlaprobabi-
litéd'être dans l'état
si
àl'instantt
:P (qt
= si|O, λ) =
αt(i)βt(i)
P (O|λ)
.
(1.1)Cette probabilité est dite lissée ar elle utilise les onnaissan es avant et arrière
pour son al ul. Les probabilités
αt(i)
etβt(i)
sont enn utilisées dans le al ul de laprobabilité d'êtredans l'étatsi
àl'instantt
et dans l'étatsj
àt + 1
:P (qt= si, qt+1
= sj|O, λ) =
αt(i)aijbj(ot+1)βt+1(j)
P (O|λ)
.
(1.2)Ave lesdeux valeursdéniesdans leséquations1.1et1.2,ilest ensuitepossible de
ré-estimer lesparamètres
aij
etbj(t)
du modèle HMMλ
.Dé odage. Le but du dé odage de modèles HMMs est de hoisir la séquen e
d'états
QT
= q1q2. . . qT
optimale orrespondant aux données observéesOT
=
o1o2. . . oT
sa hantqu'ondisposedumodèleλ
.Laséquen eQ
∗
T
est ellequimaximiseP (OT, q1q2. . . qT|λ)
.Il ne serait pas orre t de al uler
Q
∗
T
en prenant, pour haque instantt
, l'états∗
qui maximise
P (qt
= s|O, λ)
. En eet, les étatsq
∗
t
seraient individuellement les plus probables mais la séquen e qu'ils produiraient ne serait pas viable ar elle neprendrait pas en ompte, entre autres, lesprobabilités de transition possibles entre
états.
La séquen e
Q
∗
T
se onstruit alors par ré urren e.Supposons qu'à l'instantt
on onnaisse la meilleureséquen e d'étatsQ
∗
t
(les états de1
àt
) etque elle- inisse par l'étatsi
au tempst
. On dénit alorsδt(i)
, la vraisemblan e que la séquen e d'observationso1, o2, . . . ot
soitproduite par ette séquen e d'étatsoptimale.Pour haque étape de la ré urren e, on onserve le souvenir de la séquen eQ
∗
variable
φt(i)
. Laré urren e s'initialisealors :δ1(1) = 1
δ1(i) = 0
sii > 1(HMMs de Bakis)Lepassage de l'instant
t
à l'instantt + 1
se al uleensuite :δt+1(j) =
max1<i<N
|δt(i)aij|bj(ot)
φt(j) =
arg max1<i<N|δt(i)aij|
Laterminison s'obtient enn :
q∗T
=
arg max1<i<N|δT(i)|
L'algorithme de Viterbi se termine en ee tuant un par ours en arrière sur les
états optimaux.Pour haque instant
t < T
,q
∗
t
s'obtient :qt∗
= φt+1(qt+1∗
)
Les modèles de Markov a hés en re onnaissan e d'é riture. L'utilisation
massivedes HMMs dans lessystèmes de re onnaissan e de l'é riture se justie par
l'énon iation du problème : pour une image donnée,
OT
représente l'ensemble des ve teursde ara téristiques(enanglais,frames)extraitsde etteimage.Etantdonnéquel'on disposedes donnéesobservées
OT
,on her he ensuiteàtrouverlaséquen e de symboleswˆ
qui maximisela probabilité aposteriori d'avoir émisw
sa hant que l'on dispose des donnéesOT
,P (w|OT)
. Grâ eà la loide Bayes, on peut é rire :ˆ
w
=
argmaxw
P (w|OT)
=
argmaxw
P (w)P (OT|w)
P (OT)
=
argmaxw
P (w)P (OT|w)
P (w)
est la modélisationdes séquen es possibles de symbolesw
.P (OT|w)
est la probabilité d'observer la séquen e de ve teurs de ara téristiquesOT
sa hant le modèled'é riture,quelesalgorithmesBaum-Wel h(pourl'apprentissage)etViterbi"v"
"o"
"i"
"s"
"n"
"i"
Figure 1.14 Le modèle d'un mot est la on aténation des modèles HMMs des
ara tères le omposant.
(pour ledé odage) permettent de déterminer.
Dans le as de la re onnaissan e de mots,
w
est une séquen e de ara tères etP (w)
représentelelexiqueoulemodèledelangage;un HMMmodéliseun ara tère etlemodèle d'unmot est la on aténation des modèlesde ara tèresle omposant,ommeillustré sur laFigure 1.14.