Expériences et résultats - :Reconnaissance de textes amazighes imprimés par les Modèles de Mark

Chapitre 5 :Reconnaissance de textes amazighes imprimés par les Modèles de Marko

10. Expériences et résultats

Tableau 5-6 : Exemples de quelques caractères dans la base des patterns de la graphie amazighe

10.2. La plate forme logicielle HTK

Les Modèles de Markov cachés s’appuient sur un ensemble d’algorithmes standards et éprouvés. L’implémentation de ces algorithmes s’appuie sur des techniques bien maitrisées de la programmation dynamique.

Actuellement, de nombreuses implémentations de ces algorithmes sont disponibles au téléchargement. En plus, un certain nombre de librairies HTK, GHMM et ESMERALDA et de modules sont également publiquement accessibles pour l’apprentissage et le décodage des HMMs [Youn93].

Nous avons choisi de mener cette étude en utilisant un logiciel de développement de systèmes à base de modèles de Markov cachés le plus complet possible au sens des tâches à réaliser et dont le programme source est ouvert pour d'éventuelles fonctions à mettre en œuvre. Après une analyse des caractéristiques de chacun de ces logiciels, notre choix s'est

finalement porté sur la plate-forme logicielle HTK (Hidden Markov ToolKit). Elle était originalement mise au point à l’Université de Cambridge, dédiée au développement de systèmes à base de HMMs, principalement pour la reconnaissance de parole [Youn02].Mais, elle à été également utilisée dans un certain nombre de publications de recherche pour la tâche reconnaissance de caractères [Khor07], de mots [Slim09]. Le Tableau 5-7 ci-dessous présente quelques caractéristiques de la librairie HTK.

HTK

Organisme Microsoft et Cambridge

University

URL http://htk.eng.cam.ac.uk/

Langage C

Environnement Unix, Linux, Windows

Support Excellent

Date de la première version 1993

Disponibilité de la source Sous licence

Tableau 5-7 : Quelques caractéristiques de la librairie HTK

La boite à outils HTK a connu une période de commercialisation. De ce fait, HTK est passée par les différents cycles de perfectionnement nécessaires au logiciel commercial. Elle est par conséquent efficace, flexible (liberté du choix des options et possibilité d’ajout d’autres modules), plus convivial et plus souple que les autres logiciels. En outre, HTK et complète dans le sens où elle fournit une documentation très détaillée (le livre HTK [Youn06]est une encyclopédie dans le domaine).

HTK se compose d’un ensemble de modules sous forme des codes sources c. L’exécution de ces modules se fait par des lignes de commande comportant des options et des arguments.

Les paramètres HTK utilisés:

Nous utilisons la boite à outils HTK [Youn01]pour l’évaluation de notre approche. HTK permet de spécifier l’architecture des HMMs à utiliser, le nombre d’états, le nombre de gaussiennes et le dictionnaire de la reconnaissance, etc. L’utilisation de HTK pour une tâche de reconnaissance de caractères isolés, comprend trois phases : la préparation des données, l’apprentissage et la reconnaissance.

- La phase de préparation des données est effectuée par l’outil HInit qui vise à initialiser les modèles par un algorithme de type k-moyennes (Viterbi).

- Durant la phase d’apprentissage,l’outil HRest effectue la ré-estimation Baum-welsh des paramètres des modèles.

- La reconnaissance se fait en appliquant l’algorithme de Viterbi qui cherche la meilleure séquence des sous-modèles dans le HMM global par l’outil HVite.

146

10. Expériences et résultats

- Les performances du système sont évaluées et analysées en termes de taux de reconnaissance par l’outil HResult.

10.3. Tests et résultats

Pour valider le système proposé, nous avons effectué des expérimentations significatives à l'aide de Toolkit (HTK) sur la base de données de patterns de la graphie amazighe [Aito09] Nous avons constitué à partir de cette base deux ensembles distincts de données, un ensemble A (A=2/3) pour l’apprentissage et un ensemble B (B=1/3) pour les tests.

Plusieurs tests ont été effectués, pour évaluer le taux de reconnaissance du système en fonction de : nombre d’états et de nombre de mélange de gaussienne. Par ailleurs, nous avons effectué les premiers tests sur toute la base de patterns de la graphie amazighe (BD1 : contient 19437 caractères multi fonts c.-à-d. 627 échantillons x 31 classes). Le Tableau 5-8 ci-dessous présente les résultats obtenus de ces tests sur la base BD1, en utilisant les modèles mono-gaussien, les modèles à deux gaussiens et les modèles à trois gaussiens.

Nombre d’états 3 5

Nombre de gaussiennes 1-2-3 1-2-3

Taux de reconnaissance 98.21% 98.52%

Tableau 5-8 : Taux de reconnaissance sur BD1

La Figure 5-25 ci-dessous illustre la sortie renvoyée par la plate forme logicielle HTK sur la base BD1

Figure 5-25:Résultats retournés par HTK sur BD1

Ces résultats montrent un taux d’erreur de 1,48% avec un modèle de topologie de 5 états. Ce fait peut se justifier par la déformation de certains caractères dans certaines fontes, notamment dans les fonts « Tassafut » et « Taromeit ». La Figure 5-26 et la Figure 5-27 ci- dessous illustrent quelques exemples de caractères de la fonte « Tassafut » et dans la fonte « Taromeit » respectivement.

Figure 5-26 : Exemples de caractères da la base, de la fonte « Tassafut »

Figure 5-27 : Exemples de caractères da la base, de la fonte « Taromeit »

En effet, les traits constituants certains caractères de ces fontes ne respectent pas les éléments de la liste précédente que nous avons définie dans la section 2. Ce choix de description impose que les caractères doivent être composés exclusivement avec ces primitives, donc une certaine contrainte sur le style d’écriture admissible par notre système.

148

10. Expériences et résultats

En revanche, cette contrainte est relativement réaliste et peu contraignante, puisque le dictionnaire a été établi de façon à couvrir l’essentiel des formes de traits rencontrés l’alphabet tifinagh.

Afin de valider notre hypothèse nous avons procédé à un deuxième test sur un sous ensemble BD2 de la base BD1 précédente. En effet, La base BD2 est constituée à partir de BD1. Elle comporte 456 x 31 classes, c.-à-d., 14136 caractères. Nous avons exclu les deux fontes Tromeit et Tassafut précédentes. La Figure 5-28 ci-dessous présente quelques exemples de caractères de la base BD2. On constate que les traits constituants les tracés de ces caractères respecte les segments de la liste précédente.

Figure 5-28 : Exemples de caractères da la base, dont la fonte est déférente de deux fontes Taromeit et Tassafut

Nous avons obtenus des résultats très encourageants présentés par le Tableau 5-9 ci- dessous. Le meilleur score enregistré est de 99,76%, avec les modèles de topologie de 5 états. Nous constatons que le nombre de gaussienne utilisé n’influence pas les résultats, tandis que son augmentation implique un nombre important de paramètres à calculer. Cependant, le choix de la topologie influence directement les résultats. En effet, l’augmentation de nombre d’états augmente le taux de reconnaissance de système.

Nombre d’états 3 5

Nombre de mélange de gaussienne 1-2-3 1-2-3 Taux de reconnaissance 99, 38% 99,76%

La Figure 5-29 ci-dessous montre le résultat renvoyé par la boite à outils HTK sur BD2

Figure 5-29 : Résultats retournés par HTK sur BD2

Les résultats obtenus sur la BD2 sont plus prometteurs que ceux obtenus sur la base BD1. Cela confirme notre hypothèse. En effet, le gain le plus important en taux de reconnaissance est de l’ordre de 1,24% en Tableau 5-9 ci-dessus avec une topologie de 5 états par modèle. Ces tests ont montré que les HMMs continus sont plus efficaces. Ces résultats ont été publiés dans le journal international IRECOS [Amro12b].

Enfin, nous estimons que les autres erreurs de reconnaissance sont attribuées, d’une part, aux méthodes utilisées pour la pré-classification et à la détection des points d’intérêts, et d’autre part, à l’insuffisance des caractéristiques utilisées pour mieux décrire chaque segment. En effet, nous avons déployé un algorithme sélectif, qui s’appuie sur un indice de classification pendant la pré-classification. En outre, nous avons employé la technique qui repose sur le nombre de transition noire et blanche entre les pixels d’un voisinage 8, pour localiser les points d’intérêts. Cette méthode dépend fortement de la topologie de la forme

traitée. Si le squelette obtenu de la forme possède des déformations, il influence la

détection des ces points.

En vue de remédier à ces problèmes pour diminuer le taux d’erreur de notre système et par conséquent avoir un système fiable, nous proposons dans ce qui suit, une autre variante de ce système, qui consiste à adopter la transformation de Hough pour séparer les lettres circulaires et les non circulaires. En plus, cette version s’appuie sur une autre technique pour déterminer les points d’intérêts de la forme, la technique utilise la notion de déviation maximale au niveau de la courbe du caractère.

Dans le document Reconnaissance de caractères imprimés et manuscrits,textes et documents basée sur les modèles de Markov cachés (Page 164-169)