1.3 Les méthodes de re onnaissan e de mots manus rits à base de modèles
1.3.2 Etat de l'art des méthodes à base de HMMs
On peut regrouper sous trois atégories lessystèmes de re onnaissan e de mots
manus rits : les méthodes holistiques, elles à base de segmentation expli ite d'un
mot en graphèmes etles méthodes àsegmentation impli ite.
Les méthodes holistiques onsidèrent un mot omme une entité. Les ara té-
ristiques sont extraites sur le mot sans le dé omposer et haque mot orrespond à
un modèle uniqueappris. Ces méthodes ont été appliquéesave su èsà des tâ hes
très pré ises, omme la re onnaissan e de montant sur les hèques ou bien la re-
her he de mot- lef dans un do ument mais leur utilisation reste limitée. En eet,
e type de méthode ne passe pas à l'é helle d'un plus grand lexiqueet exige que le
nombre d'exemples d'apprentissagesoitélevépour haque modèle, e quin'est sou-
vent pas réalistedans le adre de lare onnaissan e de mots en général.Cependant,
l'utilisationd'une lassi ationà base de méthode holistique peut permettre pour
ertainestâ hesde réduirelelexiquedetest enamont(Madhvanath etGovindaraju
[101℄)ou en ored'aider aunettoyage d'imagesdégradées (Lavrenko et al. [89℄).
Les méthodes à base de segmentation expli ite d'un mot dé oupent un
graphèmes. Les graphèmes peuvent être soit des ara tères, soit des parties de a-
ra tères. Pour haque mot, une ouplusieurssegmentationssont onduitesen même
temps et ertainsgraphèmes peuvent être regroupés entre eux pour former des a-
ra tères. Les mots peuvent être modélisés de deux façons. Soit un lassieur de
ara tère isolé modélise (puis re onnaît) ha un des ara tères proposés dans ha-
une des segmentations [46, 83, 41, 86℄. Dans e as, la phase d'apprentissage et
de dé odage se simplie à un lassieur de ara tères isolés, pour lequel l'état de
l'art atteint a tuellement d'ex ellentes performan es. Le dé odage peut d'ailleurs
être guidé par un lexique an d'avoir un nombre de mots autorisésni. De plus, il
est possible d'appliquer un modèle de langage sur les
n
meilleuressorties du lassi- eur pour haque graphème an d'améliorer les performan es. Une autre façon demodéliserlesmotsest d'utiliserdes HMMs pour lesdé omposeren une séquen e de
graphèmes[60,5, 113℄. L'in onvénient majeur de méthodes àbase de segmentation
expli iteest que lasegmentation en elle-mêmeest périlleuse.Eneet, les méthodes
de segmentation en graphèmes utilisent des heuristiques basées sur des intuitions
humaines et non des règles automatiques. Ainsi il est impossible de vérier que la
segmentation en graphèmes est orre te (au un graphème ne doit être partagé par
deux ara tères) ou bien que, dans toutes les segmentations et regroupements de
graphèmesproposés, la segmentation en ara tères est bonne [35℄.
Les méthodes séquentielles, à base de segmentation impli ite, sont à e
jour les méthodes les plus utilisées en re onnaissan e de l'é riture manus rite et
produisent la plupart des meilleurs systèmes. Elles sont utilisées ave des modèles
de Markov [159, 100, 15, 40, 134, 143, 58℄ ou bien ave des réseaux de neurones
parexemple [44℄.Ces méthodes ontl'avantagede ne pas né essiterde segmentation
expli ite des images en entrée, aussi l'utilisation de modèles statistiques permet
d'êtrepeusensibleauxvariationsdeformedes ara tèresouaubruitquilesentoure.
Deplus, esméthodesontunegrandeexibilitévis-à-visdelalongueurdesmodèles,
equiestunavantagepourlare onnaissan edel'é riture,oùlatailledesmotsd'un
do ument à un autre peut varier grandement. Enn, es méthodes onsidèrent les
mots é rits omme des observations séquentielles, 'est-à-dire une suite d'éléments
ordonnés : 'est sans doute lamodélisationla plus naturelle.
Le tableau 1.1 dresse une listenon exhaustive de lassieurs aujourd'hui onsi-
dérés omme à l'état de l'art et qui utilisent l'une de es trois méthodes. Cette
que 'est e que nous utilisons dans notre système. Cette séle tion est donnée par
ordrede parutiondessystèmessilessystèmesontétéaméliorésdepuis,ladernière
publi ation le on ernant (à notre onnaissan e) est dans le tableau. On peut voir
quede nouvelles méthodes àbase de segmentation expli itedes mots en graphèmes
n'apparaissent plus, alors que les travaux de re her he sur les méthodes à base de
segmentationimpli ite sont toujours d'a tualité.
Dansletableau1.1,nousutilisons ertaines abbréviationsexpli itées idessous:
HMMsignie quela méthode utilise des Modèles de Markov Ca hés. Il existe
plusieurstypes de HMMs, ommeles HMMsdis rets, ontinus, semi- ontinus
ou en ore les HMMs à distribution de Bernouilli, omme nous l'avons dé rit
dans laSe tion1.3.1.
NNveut direRéseau deNeurones (NeuralNetwork)etlessigles RNNetSNN
signient que les méthodes utilisées dérivent respe tivement des Réseaux de
NeuronesRé urrents etdes Réseaux de Neurones Segmentaux.
1.3.3 Dis ussion
Nous avons présenté en Se tion 1.3.2 un état de l'art général de systèmes de
re onnaissan e de mots manus rits à base de HMMs, dont les prin ipes ont été
développés en Se tion 1.3.1. Dans ette Se tion, nous approfondissons l'étudede la
Se tion 1.3.2. Des méthodes itées dans le tableau 1.1, nous retenons
3
ourants prin ipauxpour les lassieurs àbase de HMMs, dé rits i-dessous.Les HMMs ontinus sont très répandus dans les systèmes de l'état de l'art de
lare onnaissan e de mots manus rits.Ils sont le plus souvent utilisés a ompagnés
d'améliorations annexes. Ainsi le système de l'Université de Aa hen [33, 34, 32℄
utilise un lassieur à base de HMMs gaussiens mais pratique un apprentissage
dis riminant an d'améliorer ses performan es. De plus, pour l'é riture arabe, des
modèles de silen e intra-motspermettent à leur système d'être à l'étatde l'art lors
deré entes ompétitions.De même,El-Hajjet al.[39℄utilisedes HMMs lassiques;
l'élaborationde ara téristiquesgéométriques( fSe tion1.2)ainsiqu'une ombinai-
sondes sortiesdetrois lassieursHMMsàl'aidede Réseauxde Neuronesdonnede
bonsrésultats.Enn,lesystèmeutiliséparMartietBunke[111℄,quiutiliseaussides
HMMsgaussiens lassiques,modélise haque ara tèreenfon tiondesalongueur, e
Système / Méthode Cara téristiques, options, Arti le(s)
Exploitant utilisée optimisations, et de référen e
A2iA segm. Systèmehybride : segmentation Gorskiet al. [60℄, 2001
expli ite expli iteet re onnaissan e de Augustin [5℄, 2001
+hybride graphèmespar NN puis passage de Menasri [113℄,2008
HMM/NN graphèmesà mots par HMMs
Con ordia ombin. Re onnaissan e etsegmentation de El-Ya oubiet al. [41℄, 1999
University, HMMs et mots ave HMMs et ara téristiques Koeri het al. [86℄, 2006
Montréal NNs hautniveau. Re o. lettres par SNN
segm. et ara t. bas niveau
IAM -Bern HMMs Lalongueur des modèles dépend Martiet al. [111℄, 2001
du ara tère. Dé odage ave Bertolami et al. [11℄,2007
modèle de langage Vin iarelliet al. [159℄, 2004
BBN HMMs HMMs semi- ontinus+ modèles de Natarajan et al. [119℄,2001
Te hnologies ara tères en ontexte. Dé odage Cao et al. [20℄, 2010
ave modèle de langage Ma Rostie et al.[100℄,2010
TU HMMs Re onnaissan e d'adresses ave Brakensiek et al. [15℄, 2004
Mün hen n-gramsde ara tères et
adaptationau s ripteur
University HMMS Appro he holistique de re onnais- Lavrenko et al. [89℄, 2004
of Massa- -san ede do uments historiques
husetts dégradés monos ripteur pour le
nettoyage d'images
UOB et HMMs Cara téristiques géométriques et El-Hajjet al. [39℄, 2005
Télé om ombinaison de lassieurs par El-Hajjet al. [40℄, 2005
ParisTe h réseaux de neurones
TU HMMs HMMs semi- ontinus. La longueur Wiene ke et al. [165℄, 2005
Dortmund des modèles dépend du ara tère Plötz et al. [133℄, 2008
Plötz et al. [134℄, 2009
University HMMs Cara téristiques d'histogrammede Rodriguezet al.[142℄,2008
of Leeds gradient.Lo alisationde mots Rodriguezet al.[143℄,2009
sur une page ave des HMMs
semi- ontinus
University HMMs Modèles pour les espa es intra- Dreuw et al. [33℄, 2008
of Aa hen mots (arabe) +apprentissage Dreuw et al. [34℄, 2009
(RWTH) dis riminant (adaptationdes Dreuw et al. [32℄, 2009
modèles)
University HMMs Mélangesde distributionsde Gìmenezet al. [59℄, 2008
of Valen ia Bernoullidans les HMMs Gìmenezet al. [57℄, 2009
(UPV-DSIC) Giménezet al. [58℄, 2010
University hybride : Systèmehybride : un per eptron España-Boquera et al. [45℄,
of Valen ia HMMs + mutli- ou hes estimeles proba. 2009, España-Boquera
(UPV-DSIC) NNs d'émission des états des HMMs et al. [44℄, 2010
utilisentdes mélanges multi-gaussienspour probabilité d'émission,d'autres loisde-
puis ont été proposées etévaluées, ommela loi de Bernoulli, utilisée par Giménez
et al. [58℄. Le ara tère même des distributions de Bernouilli permet de re evoir
en entrée du système dire tement les pixels de l'image binarisée et don d'éviter
de passer par une extra tion de ara téristiques. Comme dis uté dans la Se tion
1.2.4, l'extra tion de ara téristiques d'images pour l'apprentissage de modèles ou
la lassi ationn'est pas un problèmerésolu. Ainsi,des systèmesqui ne né essitent
pas une extra tion expli ite de ara téristiques mais qui in luent une phase d'ex-
tra tionautomatiqueetimpli ite,parexempleparapprentissageautomatique,nous
semblent prometteurs.
Les HMMs semi- ontinus attirent plus spé ialement notre attention ar ils se
répandent depuis peu dans la re onnaissan e d'é riture manus rite. Le partage de
paramètres permet de mieux apprendre haque modèle, en parti ulier si le nombre
de données d'apprentissage n'est pas élevé. Ce partage (que e soit un partage de
distributions gaussiennes entre tous les états ou bien un partage d'états entre dif-
férents HMMs de ara tères) permet aussi d'élaborer des modèles plus omplexes
et plus pré is, omme par exemple les modèles de ara tères dépendants de leur
ontexte, qui sontau oeur de notre système de re onnaissan e de mots manus rits
(voir Chapitre 3).
Les systèmeshybrides HMMs/ NN sonttrès intéressants arla ombinaison
des deux méthodes permet d'éviter ertains problèmes d'une méthode en utilisant
l'autre.Par exemple, lesréseaux de neurones peuvent être utilisés pour al uler les
probabilités d'émission des états des HMMs [5, 113℄. Cela permet de faire de l'ap-
prentissage dis riminant et de rempla er le al ul des mélanges gaussiens dans les
HMMs lassiques par un réseau de neurones, plus rapide lors du dé odage. Aussi,
en re onnaissan e de l'é riture en ligne, les réseaux de neurones à onvolution per-
mettentde dépasser leproblème de l'extra tion de ara téristiquesque ren ontrent
lessystèmesHMMs engénéral[135℄.Eneet,l'extra tion estee tuéepar leréseau
dire tement sur les pixelset e type de système permet d'apprendre les ara téris-
tiques à extraire, au lieu de for er le système à travailler ave des ara téristiques
Nous ne pouvons lore ette Se tion de dis ussion sans évoquer une dernière
méthode, qui n'utilise pas de HMMs mais obtient de très bons résultats en re on-
naissan e d'é riture manus rite : les Réseaux de Neurones Ré urrents sont en eet
à e jourlesystème deréféren e de l'étatde l'art(voirGrosi kietEl-Abed [64℄).Ils
sont présents dans le mondede l'apprentissage depuis plusieursannées (Ho hreiter
etS hmidhuber[67℄) etledéveloppementré entde réseaux LTSM (long-short term
memory) a permis leur appli ation ré ente à la re onnaissan e de la parole (E k
etal.[36℄)etdel'é rit(GravesetS hmidhuber[62℄).ContrairementauxHMMs,les
RNNsutilisentunapprentissagedis riminantetles ara téristiquesquireprésentent
les données sont adaptatives (apprises sur les données). De plus les RNNs ne font
pasl'hypothèsede l'indépenden eentre lesobservations, ontrairementauxHMMS.
Nous omparerons don dans le Chapitre 4 (Expérien es) notre système original à
d'autres systèmes HMMs, ainsi qu'aux RNNs.
Con lusion du hapitre 1
Dans e premier hapitre, nous avons présenté une introdu tion à la re onnais-
san e de do uments manus rits. Nous avons vu en premier lieu que le traitement
d'undo umentmanus rit sefaiten plusieursétapes :d'abord lastru ture du do u-
ment est extraite etensuite les paragraphes isolés sont analysés un àun; leslignes
les omposant sont déte tées, an que les mots qui les omposent soient re onnus.
Avantde pro éderàlale turedelignes,nousavonsvuqu'ilestné essairedeprétrai-
ter les images. Certains do uments manus rits sont en eet bruités etles systèmes
de re onnaissan e peuvent en être ae tés.
Dansla deuxièmepartiede e hapitre,nous avons dé rit ommenttransformer
une image an qu'elle soit interprétée par un système : 'est l'extra tion de ara -
téristiques. Plusieurs types de ara téristiques peuvent être extraites d'une image
selon le système de re onnaissan e hoisi. Elles peuvent être haut niveau, bas ni-
veau,liées auxstatistiquesdespixelsoubienàlaformedes ara tèresprésentsdans
l'image. Pour extraire les ara téristiques d'une image, plusieurs appro hes sont
possibles: l'appro he à segmentationexpli ite oùl'imaged'un motest dé oupée en
sous-parties (graphèmes),l'appro he holistiqueet l'appro he à segmentation impli-
ite. Cette dernière est l'appro he que nous hoisissons. Elle a l'avantage d'éviter
un plus grandnombre de modèles quela deuxième.Unesegmentation impli itedes
images de mots est ara térisée par une extra tion de ara téristiquespar fenêtres
glissantes. Nous avons présenté dans e hapitre les ara téristiques ren ontrées le
plusfréquemmentdansl'étatdel'artpour lessystèmesàbasedefenêtresglissantes.
Nousavons réutilisé ertaines d'entre elles dans notresystème, ommenous l'expli-
querons dans leChapitre 2.
Enn, e premier hapitreapermis d'introduirel'utilisationde modèlesde Mar-
kov a hés pour lare onnaissan ede motsmanus rits.LesHMMs représentent à e
jourla te hnique la plus utilisée pour ette tâ he. Ce i s'explique grâ e à ertaines
de leurspropriétés, notamment leur apa ité à modéliserdes séquen es de longueur
variable.Nousavonsdonnéunaperçudes te hniquesàbasedeHMMs utiliséesdans
l'état de l'art de lare onnaissan e de l'é riture manus rite. Trois ourantsmajeurs
se dégagent : les systèmes HMMs lassiques, où haque ara tère est représenté
par un HMM dont les états sont modélisés par des distributions de probabilité in-
dépendantes d'un état à un autre, les systèmes HMMs hybrides, où le al ul des
probabilitésd'observation sefaitave des réseaux de neurones etenn lessystèmes
HMMs semi- ontinus. Ces derniers attirent plus pré isément notre attention ar ils
permettentune modélisationplus ne des ara tèrestout en ontrlantlamultipli-
ationdesparamètresque ettemodélisationimplique.Lesystèmeoriginalquenous
présenterons au Chapitre 3 se base sur ette idée tout en proposant une nouvelle
façon de partager les paramètres des modèles HMMs an d'améliorer lesystème.
L'étatdel'artdessystèmesdere onnaissan edemotsmanus ritsquenousavons
présenté dans e hapitre reste dans le périmètredes systèmes à base de HMMs. Il
nousfautpourtantévoquer qu'ilexiste d'autres typesde lassieurs, appliquésave
su ès à ette tâ he, omme les lassieurs à base de réseaux de neurones. Lors
de la présentation de nos résultats au Chapitre 4, nous reviendrons sur es autres
Chapitre 2
Système de re onnaissan e de mots
manus rits à base de HMMs
Gaussiens indépendants du ontexte
Introdu tion
La plupart des méthodes de re onnaissan e de mot manus rits présentées dans
le hapitre pré édent partagent la même vision des images de mots en entrée du
système : elles onvertissent es images en séquen e d'observations. L'appro he sé-
quentielle de lare onnaissan ed'é rituremanus riteest aujourd'huilaméthodequi
fon tionnele mieux ar ellerespe te la nature mêmedes données. Avant d'aborder
les modèles en ontexte au Chapitre 3, qui représentent une appro he originale de
l'appli ation de HMMs à la re onnaissan e de l'é riture, nous présentons dans e
hapitre un système HMM lassique. L'élaboration de e système garantit la mise
enpla ed'unre onnaisseur HMM lassiquerobuste,quiposelesbasesdure onnais-
seurave modèlesen ontextes.Lesystèmeprésentédans e hapitreproteenoutre
d'apports originaux, omme les ara téristiques dynamiquesouen ore l'adaptation
du nombre d'étatsà la longueur des ara tères.
Le hapitre est organisé ainsi : la Se tion 2.1 présente les ara téristiques uti-
lisées dans nos systèmes HMM ( lassique et en ontexte). La Se tion 2.2 expli ite
notrefaçond'utiliserlesalgorithmesd'apprentissageetdedé odagedesHMMspour
l'élaboration de nos modèles. Enn, la Se tion2.3 propose une te hnique originale
ara tère appris.
2.1 Extra tion de ara téristiques
Lapremièreétaped'unsystèmeàbasede HMMsest deprétraiter, normaliseret
transformer en un signal interprétable (séquen e de ve teurs de ara téristiques ou
séquen edesous-partiesdel'image)lesimagesenentrée.Nousavonsprésentédansle
Chapitre1diérentsprétraitementsappli ablesaux images, ommelabinarisation,
la orre tion d'angle etde pente de l'é riture ainsi que la normalisationdes images
enhauteur. Dansnotresystème,nous avons hoisi de onserverlesimagesdansleur
niveau de gris initial an de ne pas perdre d'information et de ne pas modier la
tailledesimages.Leseulprétraitementquenousappliquonsest ladéte tion d'angle
etde pente, an d'harmoniserle par ours desfenêtres glissantes lorsde l'extra tion
des ara téristiques.
Nous avons aussi présenté au Chapitre 1 les ara téristiques les plus utilisées
pourlare onnaissan ed'é rituremanus rite.Nousprésentonsi iles ara téristiques
quenousutilisons(voirSe tion2.1.1),quisontune ombinaisondes ara téristiques
géométriques( fSe tion1.2.2)etdes ara téristiquesd'histogrammesdegradient( f
Se tion1.2.3). Dans ette Se tion, nous présentons aussi les ajoutset hangements
que nous avons appliqués aux ara téristiques que nous utilisons, an d'améliorer
notresystème: al uld'unerégression(voirSe tion2.1.2)etanalyseen omposantes
prin ipales(voirSe tion 2.1.3).