Approches globales - Les modèles de Markov cachés unidimensionnel (HMM 1D)

Chapitre 3 : La Reconnaissance d’écriture par les Modèles de Markov cachés

4. Systèmes et Approches antérieurement proposées

4.1. Les modèles de Markov cachés unidimensionnel (HMM 1D)

4.1.1. Approches globales

Dans [Boug09], Bougamouza et al proposent une approche basée sur les HMMs 1D pour la reconnaissance globale des noms de villes tunisiennes, pour cela ils ont procédé à effectuer les démarches décrites ci-dessous :

• Prétraitements de l’image

- Suppression des allongements horizontaux, des espaces verticaux et des espaces horizontaux.

- Transformation de l’image en signal 1D.

• Extraction de primitives

- Primitives basées sur les coefficients spectraux (MFCC) de la transformation de Fourier.

• La mdélisation

- Un modèle de Markov caché (HMM1D) gauche droite est utilisé pour modéliser chaque mot.

- Le nombre d’états par HMM1D est égale à 17 inclus les deux états non émetteurs de début et de fin (fixé empiriquement).

- L’apprentissage et la reconnaissance sont effectués par viterbi.

• Les résultats

- Les tests ont été effectués sur la base IFN/ENIT : Apprentissage (6823 images), tests (2650 images), dictionnaire (59 noms villes).

- Scores : 70.78% sans utilisation des prétraitements. : 85.60% avec utilisation des prétraitements.

: 96.05% en Top 5 (les 5 meilleurs candidats incluent le mot approprié). Dans [Al-Ma02b], Al-Ma'adeed et al ont proposé une méthode basée sur HMM1D à densité d’observations discrets de type modèle discriminant pour la reconnaissance des montants littéraux manuscrits et des chèques postaux. Elle comporte les principales étapes suivantes :

• Prétraitements et normalisation

- Correction de l’inclinaison locale et globale de mots. - Normalisation d’épaisseur et de la hauteur des lettres.

• Extraction de primitives

- Utilisation de technique de fenêtrage.

- Chaque fenêtre est transformée en un vecteur de 29 caractéristiques.

- La quantification vectorielle est utilisée pour construire un dictionnaire (codebook) de taille qu’a été empiriquement fixée à 70.

• Modélisation

- Le mot est modélisé par un HMM1D dont le nombre d’états correspond aux caractères qui le composent.

- Le nombre total des lettres (ou portions de lettres) est 55.

- La classification est effectuée par une version modifiée de l’algorithme de Viterbi.

- L’apprentissage est réalisé par l’algorithme de Baum-Welch.

• Les résultats

- Les expériences ont été effectuées sur la base de données AHDB crée par les mêmes auteurs (contenant plus de 15 000 échantillons produisent par 100 scripteurs).

- 2/3 de l’ensemble de données c.-à-d. 10 000 images pour l’apprentissage, et le reste pour les tests.

- Le taux de reconnaissance obtenu en top 1 environ de 45%.

Dans le but d’étendre l’approche précitée, les auteurs présentent aussi dans [Al-Ma04], une amélioration au niveau de la classification. En effet, cette extension comporte les étapes ci dessous :

4. Systèmes et Approches antérieurement proposées

• Modélisation

- Combinaison séquentielle d’un classifieur fondé sur des règles heuristiques avec plusieurs classifieurs HMM1D fonctionnant en parallèle.

- Chaque classifieur HMM1D consiste à discriminer une partie de mots du lexique (8 groupes de classes de mots).

- Le classifieur heuristique effectue une discrimination globale du mot en se basant sur des primitives visuelles (nombre de points hauts, nombre de points bas et nombre de segments).

- La reconnaissance est effectuée en deux phases, en premier lieu, le classifieur détermine le groupe auquel le mot appartient, puis le classifieur HMM1D associé à ce groupe est activé pour identifier le mot.

• Les résultats

- Le corpus de données d’apprentissage 4200 images de mots extraites de la base AHDB, le reste représente les données de test.

- un score de reconnaissance de 65% en top 1.

Dans [Dehg01a], Dehghan et al mettent au point un système basé sur une approche globale pour la reconnaissance des manuscrits Arabes/Farsi, le principe de cette approche est le suivant :

• Extraction de primitives

- Primitives calculées à partir du contour de l’image par le principe de fenêtres glissantes verticales.

- Les fenêtres ont toutes une largeur fixe avec la possibilité de chevauchement de 50% entre 2 bandes consécutives.

- Les fenêtres se déplacent dans le sens de l’écriture arabe (de droite à gauche) (cf. Figure 3-5 ci-dessous).

- Chaque bande est découpée horizontalement en 5 zones de même hauteur. - Chaque zone horizontale est transformée en un vecteur de primitives de taille

20.

- Utilisation de la quantification vectorielle basée sur les cartes auto- organisatrices de Kohonen pour réduire la taille de la séquence d’observations obtenue à partir de vecteur de primitives.

• Modélisation

- Le mot est considéré comme l’entité de base, puis modélisé par un HMM 1D discret.

- Apprentissage est effectué par la procédure itérative de Baum-Welsh.

• Les résultats

- Base de données est de taille supérieure à 17,000 exemples.

- Base d’apprentissage est de 60% de l’ensemble de données, le reste pour la base de test.

- Les taux obtenus sur un vocabulaire de 198 villes Iraniennes, sont : - 65% en premier choix et de 76.1 % en second choix.

• Interprétation et analyse des résultats

- Simplicité de l’approche utilisée notamment au niveau de la phase d’extraction de primitives.

- Nature cursive de script Farsi/arabe. - Similarité entre certains mots de lexique.

Pour améliorer cette approche, les auteurs proposent une autre version dans [Dehg01b], qui se résume en phases ci-dessous :

- Utilisation de la quantification vectorielle floue (algorithme C-moyen floue).

• Modélisation

- Chaque mot est modélisé par un modèle FVQ/HMM de topologie droite-gauche. - Utilisation de la procédure Baum-Welsh modifiée pour l’apprentissage.

• Les résultats

- Les scores de reconnaissance obtenus sont 67 % en top 1 et 96,5 en top 20 sur la même base de données que dans [Dehg01a].

Figure 3-5 : Extraction de primitives par le principe de fenêtrage par [Dehg01a]]. Dans [Masm00], Masmoudi et al présentent une méthode globale pour la reconnaissance des mots arabes manuscrits dans un vocabulaire de taille très limitée (10 classes). Pour cela, ils ont suivi la démarche ci-dessous :

• Extraction de primitives

- Description globale de mots par des primitives visuelles (type de points diacritiques, boucles, occlusions, ascendants, descendants, traits saillants).

• Modélisation

- Chaque mot est modélisé par un HMM1D de topologie linéaire droite-gauche à 6 états déterminés de manière empirique.

• Les résultats

- La base de données utilisée est constituée de 1100 images de mots écrits par plusieurs scripteurs.

- 72% de l’ensemble de données représente la base d’apprentissage, le reste est utilisé pour les tests.

4. Systèmes et Approches antérieurement proposées

Dans [Khor00], Khorsheed propose une approche de reconnaissance globale basée sur les HMMs 1D de type modèle discriminant pour les mots arabes manuscrits :

• Prétraitement et normalisation

- Utilisation de la transformation polaire normalisée de l’image de mot.

• Extraction de primitives

- Primitives extraites par les coefficients spectraux résultant de la transformation de Fourier.

- Chaque mot est représenté par une séquence de primitives de taille 6.

• Modélisation

- Le mot est représenté par un modèle droite gauche à 6 états.

- Chaque état est associé à un secteur angulaire dans le spectre de Fourier.

- Apprentissage par Baum-Welsh sur un vocabulaire de tailles 128, puis 256 entrées.

• Les résultats

- Les performances en reconnaissance s’échelonnent entre 68.4% et 85.44%. Ce type d’approches montre leur efficacité sur des vocabulaires limités. Cependant, elle devient problématique lorsque la taille du vocabulaire augmente (cf. section 2.6.1).

Dans le document Reconnaissance de caractères imprimés et manuscrits,textes et documents basée sur les modèles de Markov cachés (Page 84-88)