Etat de l'art des méthodes à base de HMMs

1.3 Les méthodes de re onnaissan e de mots manus rits à base de modèles

1.3.2 Etat de l'art des méthodes à base de HMMs

On peut regrouper sous trois atégories lessystèmes de re onnaissan e de mots

manus rits : les méthodes holistiques, elles à base de segmentation expli ite d'un

mot en graphèmes etles méthodes àsegmentation impli ite.

Les méthodes holistiques onsidèrent un mot omme une entité. Les ara té-

ristiques sont extraites sur le mot sans le dé omposer et haque mot orrespond à

un modèle uniqueappris. Ces méthodes ont été appliquéesave su èsà des tâ hes

très pré ises, omme la re onnaissan e de montant sur les hèques ou bien la re-

her he de mot- lef dans un do ument mais leur utilisation reste limitée. En eet,

e type de méthode ne passe pas à l'é helle d'un plus grand lexiqueet exige que le

nombre d'exemples d'apprentissagesoitélevépour haque modèle, e quin'est sou-

vent pas réalistedans le adre de lare onnaissan e de mots en général.Cependant,

l'utilisationd'une lassi ationà base de méthode holistique peut permettre pour

ertainestâ hesde réduirelelexiquedetest enamont(Madhvanath etGovindaraju

[101℄)ou en ored'aider aunettoyage d'imagesdégradées (Lavrenko et al. [89℄).

Les méthodes à base de segmentation expli ite d'un mot dé oupent un

graphèmes. Les graphèmes peuvent être soit des ara tères, soit des parties de a-

ra tères. Pour haque mot, une ouplusieurssegmentationssont onduitesen même

temps et ertainsgraphèmes peuvent être regroupés entre eux pour former des a-

ra tères. Les mots peuvent être modélisés de deux façons. Soit un lassieur de

ara tère isolé modélise (puis re onnaît) ha un des ara tères proposés dans ha-

une des segmentations [46, 83, 41, 86℄. Dans e as, la phase d'apprentissage et

de dé odage se simplie à un lassieur de ara tères isolés, pour lequel l'état de

l'art atteint a tuellement d'ex ellentes performan es. Le dé odage peut d'ailleurs

être guidé par un lexique an d'avoir un nombre de mots autorisésni. De plus, il

est possible d'appliquer un modèle de langage sur les

n

meilleuressorties du lassieur pour haque graphème an d'améliorer les performan es. Une autre façon de

modéliserlesmotsest d'utiliserdes HMMs pour lesdé omposeren une séquen e de

graphèmes[60,5, 113℄. L'in onvénient majeur de méthodes àbase de segmentation

expli iteest que lasegmentation en elle-mêmeest périlleuse.Eneet, les méthodes

de segmentation en graphèmes utilisent des heuristiques basées sur des intuitions

humaines et non des règles automatiques. Ainsi il est impossible de vérier que la

segmentation en graphèmes est orre te (au un graphème ne doit être partagé par

deux ara tères) ou bien que, dans toutes les segmentations et regroupements de

graphèmesproposés, la segmentation en ara tères est bonne [35℄.

Les méthodes séquentielles, à base de segmentation impli ite, sont à e

jour les méthodes les plus utilisées en re onnaissan e de l'é riture manus rite et

produisent la plupart des meilleurs systèmes. Elles sont utilisées ave des modèles

de Markov [159, 100, 15, 40, 134, 143, 58℄ ou bien ave des réseaux de neurones

parexemple [44℄.Ces méthodes ontl'avantagede ne pas né essiterde segmentation

expli ite des images en entrée, aussi l'utilisation de modèles statistiques permet

d'êtrepeusensibleauxvariationsdeformedes ara tèresouaubruitquilesentoure.

Deplus, esméthodesontunegrandeexibilitévis-à-visdelalongueurdesmodèles,

equiestunavantagepourlare onnaissan edel'é riture,oùlatailledesmotsd'un

do ument à un autre peut varier grandement. Enn, es méthodes onsidèrent les

mots é rits omme des observations séquentielles, 'est-à-dire une suite d'éléments

ordonnés : 'est sans doute lamodélisationla plus naturelle.

Le tableau 1.1 dresse une listenon exhaustive de lassieurs aujourd'hui onsi-

dérés omme à l'état de l'art et qui utilisent l'une de es trois méthodes. Cette

que 'est e que nous utilisons dans notre système. Cette séle tion est donnée par

ordrede parutiondessystèmessilessystèmesontétéaméliorésdepuis,ladernière

publi ation le on ernant (à notre onnaissan e) est dans le tableau. On peut voir

quede nouvelles méthodes àbase de segmentation expli itedes mots en graphèmes

n'apparaissent plus, alors que les travaux de re her he sur les méthodes à base de

segmentationimpli ite sont toujours d'a tualité.

Dansletableau1.1,nousutilisons ertaines abbréviationsexpli itées idessous:

HMMsignie quela méthode utilise des Modèles de Markov Ca hés. Il existe

plusieurstypes de HMMs, ommeles HMMsdis rets, ontinus, semi- ontinus

ou en ore les HMMs à distribution de Bernouilli, omme nous l'avons dé rit

dans laSe tion1.3.1.

NNveut direRéseau deNeurones (NeuralNetwork)etlessigles RNNetSNN

signient que les méthodes utilisées dérivent respe tivement des Réseaux de

NeuronesRé urrents etdes Réseaux de Neurones Segmentaux.

1.3.3 Dis ussion

Nous avons présenté en Se tion 1.3.2 un état de l'art général de systèmes de

re onnaissan e de mots manus rits à base de HMMs, dont les prin ipes ont été

développés en Se tion 1.3.1. Dans ette Se tion, nous approfondissons l'étudede la

Se tion 1.3.2. Des méthodes itées dans le tableau 1.1, nous retenons

3

ourants prin ipauxpour les lassieurs àbase de HMMs, dé rits i-dessous.

Les HMMs ontinus sont très répandus dans les systèmes de l'état de l'art de

lare onnaissan e de mots manus rits.Ils sont le plus souvent utilisés a ompagnés

d'améliorations annexes. Ainsi le système de l'Université de Aa hen [33, 34, 32℄

utilise un lassieur à base de HMMs gaussiens mais pratique un apprentissage

dis riminant an d'améliorer ses performan es. De plus, pour l'é riture arabe, des

modèles de silen e intra-motspermettent à leur système d'être à l'étatde l'art lors

deré entes ompétitions.De même,El-Hajjet al.[39℄utilisedes HMMs lassiques;

l'élaborationde ara téristiquesgéométriques( fSe tion1.2)ainsiqu'une ombinai-

sondes sortiesdetrois lassieursHMMsàl'aidede Réseauxde Neuronesdonnede

bonsrésultats.Enn,lesystèmeutiliséparMartietBunke[111℄,quiutiliseaussides

HMMsgaussiens lassiques,modélise haque ara tèreenfon tiondesalongueur, e

Système / Méthode Cara téristiques, options, Arti le(s)

Exploitant utilisée optimisations, et de référen e

A2iA segm. Systèmehybride : segmentation Gorskiet al. [60℄, 2001

expli ite expli iteet re onnaissan e de Augustin [5℄, 2001

+hybride graphèmespar NN puis passage de Menasri [113℄,2008

HMM/NN graphèmesà mots par HMMs

Con ordia ombin. Re onnaissan e etsegmentation de El-Ya oubiet al. [41℄, 1999

University, HMMs et mots ave HMMs et ara téristiques Koeri het al. [86℄, 2006

Montréal NNs hautniveau. Re o. lettres par SNN

segm. et ara t. bas niveau

IAM -Bern HMMs Lalongueur des modèles dépend Martiet al. [111℄, 2001

du ara tère. Dé odage ave Bertolami et al. [11℄,2007

modèle de langage Vin iarelliet al. [159℄, 2004

BBN HMMs HMMs semi- ontinus+ modèles de Natarajan et al. [119℄,2001

Te hnologies ara tères en ontexte. Dé odage Cao et al. [20℄, 2010

ave modèle de langage Ma Rostie et al.[100℄,2010

TU HMMs Re onnaissan e d'adresses ave Brakensiek et al. [15℄, 2004

Mün hen n-gramsde ara tères et

adaptationau s ripteur

University HMMS Appro he holistique de re onnais- Lavrenko et al. [89℄, 2004

of Massa- -san ede do uments historiques

husetts dégradés monos ripteur pour le

nettoyage d'images

UOB et HMMs Cara téristiques géométriques et El-Hajjet al. [39℄, 2005

Télé om ombinaison de lassieurs par El-Hajjet al. [40℄, 2005

ParisTe h réseaux de neurones

TU HMMs HMMs semi- ontinus. La longueur Wiene ke et al. [165℄, 2005

Dortmund des modèles dépend du ara tère Plötz et al. [133℄, 2008

Plötz et al. [134℄, 2009

University HMMs Cara téristiques d'histogrammede Rodriguezet al.[142℄,2008

of Leeds gradient.Lo alisationde mots Rodriguezet al.[143℄,2009

sur une page ave des HMMs

semi- ontinus

University HMMs Modèles pour les espa es intra- Dreuw et al. [33℄, 2008

of Aa hen mots (arabe) +apprentissage Dreuw et al. [34℄, 2009

(RWTH) dis riminant (adaptationdes Dreuw et al. [32℄, 2009

modèles)

University HMMs Mélangesde distributionsde Gìmenezet al. [59℄, 2008

of Valen ia Bernoullidans les HMMs Gìmenezet al. [57℄, 2009

(UPV-DSIC) Giménezet al. [58℄, 2010

University hybride : Systèmehybride : un per eptron España-Boquera et al. [45℄,

of Valen ia HMMs + mutli- ou hes estimeles proba. 2009, España-Boquera

(UPV-DSIC) NNs d'émission des états des HMMs et al. [44℄, 2010

utilisentdes mélanges multi-gaussienspour probabilité d'émission,d'autres loisde-

puis ont été proposées etévaluées, ommela loi de Bernoulli, utilisée par Giménez

et al. [58℄. Le ara tère même des distributions de Bernouilli permet de re evoir

en entrée du système dire tement les pixels de l'image binarisée et don d'éviter

de passer par une extra tion de ara téristiques. Comme dis uté dans la Se tion

1.2.4, l'extra tion de ara téristiques d'images pour l'apprentissage de modèles ou

la lassi ationn'est pas un problèmerésolu. Ainsi,des systèmesqui ne né essitent

pas une extra tion expli ite de ara téristiques mais qui in luent une phase d'ex-

tra tionautomatiqueetimpli ite,parexempleparapprentissageautomatique,nous

semblent prometteurs.

Les HMMs semi- ontinus attirent plus spé ialement notre attention ar ils se

répandent depuis peu dans la re onnaissan e d'é riture manus rite. Le partage de

paramètres permet de mieux apprendre haque modèle, en parti ulier si le nombre

de données d'apprentissage n'est pas élevé. Ce partage (que e soit un partage de

distributions gaussiennes entre tous les états ou bien un partage d'états entre dif-

férents HMMs de ara tères) permet aussi d'élaborer des modèles plus omplexes

et plus pré is, omme par exemple les modèles de ara tères dépendants de leur

ontexte, qui sontau oeur de notre système de re onnaissan e de mots manus rits

(voir Chapitre 3).

Les systèmeshybrides HMMs/ NN sonttrès intéressants arla ombinaison

des deux méthodes permet d'éviter ertains problèmes d'une méthode en utilisant

l'autre.Par exemple, lesréseaux de neurones peuvent être utilisés pour al uler les

probabilités d'émission des états des HMMs [5, 113℄. Cela permet de faire de l'ap-

prentissage dis riminant et de rempla er le al ul des mélanges gaussiens dans les

HMMs lassiques par un réseau de neurones, plus rapide lors du dé odage. Aussi,

en re onnaissan e de l'é riture en ligne, les réseaux de neurones à onvolution per-

mettentde dépasser leproblème de l'extra tion de ara téristiquesque ren ontrent

lessystèmesHMMs engénéral[135℄.Eneet,l'extra tion estee tuéepar leréseau

dire tement sur les pixelset e type de système permet d'apprendre les ara téris-

tiques à extraire, au lieu de for er le système à travailler ave des ara téristiques

Nous ne pouvons lore ette Se tion de dis ussion sans évoquer une dernière

méthode, qui n'utilise pas de HMMs mais obtient de très bons résultats en re on-

naissan e d'é riture manus rite : les Réseaux de Neurones Ré urrents sont en eet

à e jourlesystème deréféren e de l'étatde l'art(voirGrosi kietEl-Abed [64℄).Ils

sont présents dans le mondede l'apprentissage depuis plusieursannées (Ho hreiter

etS hmidhuber[67℄) etledéveloppementré entde réseaux LTSM (long-short term

memory) a permis leur appli ation ré ente à la re onnaissan e de la parole (E k

etal.[36℄)etdel'é rit(GravesetS hmidhuber[62℄).ContrairementauxHMMs,les

RNNsutilisentunapprentissagedis riminantetles ara téristiquesquireprésentent

les données sont adaptatives (apprises sur les données). De plus les RNNs ne font

pasl'hypothèsede l'indépenden eentre lesobservations, ontrairementauxHMMS.

Nous omparerons don dans le Chapitre 4 (Expérien es) notre système original à

d'autres systèmes HMMs, ainsi qu'aux RNNs.

Con lusion du hapitre 1

Dans e premier hapitre, nous avons présenté une introdu tion à la re onnais-

san e de do uments manus rits. Nous avons vu en premier lieu que le traitement

d'undo umentmanus rit sefaiten plusieursétapes :d'abord lastru ture du do u-

ment est extraite etensuite les paragraphes isolés sont analysés un àun; leslignes

les omposant sont déte tées, an que les mots qui les omposent soient re onnus.

Avantde pro éderàlale turedelignes,nousavonsvuqu'ilestné essairedeprétrai-

ter les images. Certains do uments manus rits sont en eet bruités etles systèmes

de re onnaissan e peuvent en être ae tés.

Dansla deuxièmepartiede e hapitre,nous avons dé rit ommenttransformer

une image an qu'elle soit interprétée par un système : 'est l'extra tion de ara -

téristiques. Plusieurs types de ara téristiques peuvent être extraites d'une image

selon le système de re onnaissan e hoisi. Elles peuvent être haut niveau, bas ni-

veau,liées auxstatistiquesdespixelsoubienàlaformedes ara tèresprésentsdans

l'image. Pour extraire les ara téristiques d'une image, plusieurs appro hes sont

possibles: l'appro he à segmentationexpli ite oùl'imaged'un motest dé oupée en

sous-parties (graphèmes),l'appro he holistiqueet l'appro he à segmentation impli-

ite. Cette dernière est l'appro he que nous hoisissons. Elle a l'avantage d'éviter

un plus grandnombre de modèles quela deuxième.Unesegmentation impli itedes

images de mots est ara térisée par une extra tion de ara téristiquespar fenêtres

glissantes. Nous avons présenté dans e hapitre les ara téristiques ren ontrées le

plusfréquemmentdansl'étatdel'artpour lessystèmesàbasedefenêtresglissantes.

Nousavons réutilisé ertaines d'entre elles dans notresystème, ommenous l'expli-

querons dans leChapitre 2.

Enn, e premier hapitreapermis d'introduirel'utilisationde modèlesde Mar-

kov a hés pour lare onnaissan ede motsmanus rits.LesHMMs représentent à e

jourla te hnique la plus utilisée pour ette tâ he. Ce i s'explique grâ e à ertaines

de leurspropriétés, notamment leur apa ité à modéliserdes séquen es de longueur

variable.Nousavonsdonnéunaperçudes te hniquesàbasedeHMMs utiliséesdans

l'état de l'art de lare onnaissan e de l'é riture manus rite. Trois ourantsmajeurs

se dégagent : les systèmes HMMs lassiques, où haque ara tère est représenté

par un HMM dont les états sont modélisés par des distributions de probabilité in-

dépendantes d'un état à un autre, les systèmes HMMs hybrides, où le al ul des

probabilitésd'observation sefaitave des réseaux de neurones etenn lessystèmes

HMMs semi- ontinus. Ces derniers attirent plus pré isément notre attention ar ils

permettentune modélisationplus ne des ara tèrestout en ontrlantlamultipli-

ationdesparamètresque ettemodélisationimplique.Lesystèmeoriginalquenous

présenterons au Chapitre 3 se base sur ette idée tout en proposant une nouvelle

façon de partager les paramètres des modèles HMMs an d'améliorer lesystème.

L'étatdel'artdessystèmesdere onnaissan edemotsmanus ritsquenousavons

présenté dans e hapitre reste dans le périmètredes systèmes à base de HMMs. Il

nousfautpourtantévoquer qu'ilexiste d'autres typesde lassieurs, appliquésave

su ès à ette tâ he, omme les lassieurs à base de réseaux de neurones. Lors

de la présentation de nos résultats au Chapitre 4, nous reviendrons sur es autres

Chapitre 2

Système de re onnaissan e de mots

manus rits à base de HMMs

Gaussiens indépendants du ontexte

Introdu tion

La plupart des méthodes de re onnaissan e de mot manus rits présentées dans

le hapitre pré édent partagent la même vision des images de mots en entrée du

système : elles onvertissent es images en séquen e d'observations. L'appro he sé-

quentielle de lare onnaissan ed'é rituremanus riteest aujourd'huilaméthodequi

fon tionnele mieux ar ellerespe te la nature mêmedes données. Avant d'aborder

les modèles en ontexte au Chapitre 3, qui représentent une appro he originale de

l'appli ation de HMMs à la re onnaissan e de l'é riture, nous présentons dans e

hapitre un système HMM lassique. L'élaboration de e système garantit la mise

enpla ed'unre onnaisseur HMM lassiquerobuste,quiposelesbasesdure onnais-

seurave modèlesen ontextes.Lesystèmeprésentédans e hapitreproteenoutre

d'apports originaux, omme les ara téristiques dynamiquesouen ore l'adaptation

du nombre d'étatsà la longueur des ara tères.

Le hapitre est organisé ainsi : la Se tion 2.1 présente les ara téristiques uti-

lisées dans nos systèmes HMM ( lassique et en ontexte). La Se tion 2.2 expli ite

notrefaçond'utiliserlesalgorithmesd'apprentissageetdedé odagedesHMMspour

l'élaboration de nos modèles. Enn, la Se tion2.3 propose une te hnique originale

ara tère appris.

2.1 Extra tion de ara téristiques

Lapremièreétaped'unsystèmeàbasede HMMsest deprétraiter, normaliseret

transformer en un signal interprétable (séquen e de ve teurs de ara téristiques ou

séquen edesous-partiesdel'image)lesimagesenentrée.Nousavonsprésentédansle

Chapitre1diérentsprétraitementsappli ablesaux images, ommelabinarisation,

la orre tion d'angle etde pente de l'é riture ainsi que la normalisationdes images

enhauteur. Dansnotresystème,nous avons hoisi de onserverlesimagesdansleur

niveau de gris initial an de ne pas perdre d'information et de ne pas modier la

tailledesimages.Leseulprétraitementquenousappliquonsest ladéte tion d'angle

etde pente, an d'harmoniserle par ours desfenêtres glissantes lorsde l'extra tion

des ara téristiques.

Nous avons aussi présenté au Chapitre 1 les ara téristiques les plus utilisées

pourlare onnaissan ed'é rituremanus rite.Nousprésentonsi iles ara téristiques

quenousutilisons(voirSe tion2.1.1),quisontune ombinaisondes ara téristiques

géométriques( fSe tion1.2.2)etdes ara téristiquesd'histogrammesdegradient( f

Se tion1.2.3). Dans ette Se tion, nous présentons aussi les ajoutset hangements

que nous avons appliqués aux ara téristiques que nous utilisons, an d'améliorer

notresystème: al uld'unerégression(voirSe tion2.1.2)etanalyseen omposantes

prin ipales(voirSe tion 2.1.3).

Dans le document Reconnaissance de mots manuscrits cursifs par modèles de Markov cachés en contexte : application au français, à l'anglais et à l'arabe (Page 49-57)