Évaluation du Système CR-UCD - Extraction hybride et description structurelle de caractères pou

Nous évaluons notre proposition CR-UCD sur la base LRDE-DBD [69] composée de 125 documents de magazine.

Comme indiqué dans la figure 3.14, les documents de la base LRDE-DBD incluent diffé- rentes tailles de texte, et de fontes Serif et Sans Serif.

Figure 3.14: Exemples de documents de la base LRDE-DBD.

Nous illustrons dans la figure 3.15 les modèles utilisés dans la mise en correspondance des caractéristiques.

Nous générons six modèles répartis en deux classes : Serif et Sans Serif.

Figure 3.15: Les templates multi-échelle et multi-fonte utilisées.

Chaque répartition, inclut trois sous-modèles qui consistent en trois plages de tailles de ca- ractères : petites, moyennes, et larges. Ce choix de répartition regroupe les plus proches en tailles et en fontes. Ainsi on réduit l’écart entre les échelles et les fontes dans chaque modèle.

Les petits caractères désignent le texte dans les paragraphes, les caractères moyens désignent les sous titres et les caractères larges désignent les titres.

Table 3.3: Les seuils x-height utilisés

Tailles de caractères Seuils x-height (pixels)

Petite 0-30

Moyenne 30-55

Large 55-100

Pour distinguer ces tailles, les seuils, donnés dans le Tableau 3.3 sont employés.

Dans la suite, nous comparons notre système CR-UCD à celui de Tesseract [43].

Pour faire une comparaison équitable, nous avons désactivé le dictionnaire Tesseract que nous ne traitons pas encore dans notre travail.

La figure 3.16 montre le cumul des taux de reconnaissance pour les systèmes Tesseract et CR-UCD sur les 125 documents de la base LRDE. Le système de reconnaissance de caractères CR-UCD affiche un taux de reconnaissance de 60%, 1.5x meilleur que celui de Tesseract sur 125 documents de la base LRDE-DBD.

Cum ul des pr éci sion s OCR CR-UCD Tesseract Documents scannées

Figure 3.16: Cumul des taux de reconnaissance des systèmes Tesseract et CR-UCD sur 125 documents de la base LRDE-DBD .

5 Conclusion

Nous avons proposé dans ce chapitre un nouveau descripteur de caractères unifié (UCD). Les caractéristiques structurelles globales des caractères ont été combinées comme le nombre de segments, la position des segments, les barycentres, et la proportion de la largeur et de la hauteur. Le descripteur a été évalué au sein d’une chaîne de reconnaissance de caractères que nous avons proposée et développée (CR-UCD). Cette chaîne inclut les étapes d’extraction hybride de texte, de segmentation du texte en caractères disjoints, de sélection du modèle approprié et de classification rapide. Grâce à cette chaîne, nous avons démontré que notre descripteur est robuste et invariant aux changements d’échelle et de fonte. Cette chaîne affiche une précision de reconnaissance de caractère 1.5x meilleure que Tesseract en désac- tivant le dictionnaire de ce dernier pour fournir une comparaison équitable.

Parallélisation sur GPU de

l’extraction hybride du texte dans les

documents hétérogènes

Dans le cadre d’une application temps réel de dématérialisation, nous proposons dans ce chapitre des stratégies de parallélisation pour l’accélération de l’extraction hybride de texte (EHT), proposée dans le chapitre 2, sur les plateformes multi-cœur (CPU-GPU). Les algorithmes parallèles développés permettent une accélération de l’ordre de 6.74x par rapport aux algorithmes séquentiels.

Sommaire

1 Introduction . . . 109 2 Architectures Multi-cœur . . . 110 2.1 Les CPU multi-cœur . . . 111 2.2 Les processeurs graphiques GPU . . . 112 3 Parallélisation de la méthode de l’extraction hybride de texte 113 3.1 Analyse temporelle de la méthode EHT . . . 113 3.2 Stratégie de parallélisation de la méthode EHT . . . 114 3.3 Accélération de la correction gamma (CG) . . . 115 3.4 Accélération de la classification hybride basée sur le noyau K-means127 3.5 Accélération de l’analyse de structure du document (Séparation et

localisation du texte) . . . 136 4 Évaluation de la stratégie de parallélisation de la méthode EHT137 4.1 Outils de développement et environnement de travail . . . 138 4.2 Évaluation de la parallélisation de la correction gamma . . . 138 4.3 Évaluation de la parallélisation de la méthode CHK . . . 138 4.4 Évaluation de la parallélisation de la méthode d’analyse de struc-

4.5 Évaluation de l’accélération proposée de la méthode EHT . . . 143 5 Conclusion . . . 147

1 Introduction

Nous considérons l’application de dématérialisation qui transforme un ensemble de documents papiers en documents numériques éditables en utilisant un scanner multifonction de type Sharp MX-C250. Pour un document donné, la reconnaissance de caractères est réalisée sur un poste de travail distant du scanner au moment de la numérisation du document suc- cesseur. Ainsi, la reconnaissance doit s’exécuter durant le processus de numérisation (Tnum)

qui est égal à 3.15 secondes pour un document A4 et de résolution 300 dpi (figure 4.1) qui représente la contrainte temps réel de notre application de dématérialisation.

Dans ce contexte, la chaîne de reconnaissance de caractères développée (CR-UCD) nécessite 8.75 secondes comme temps de traitement d’un document de format A4 et de résolution 300 dpi ce qui ne satisfait pas la contrainte temps réel comme le montre la figure 4.1). Nous proposons d’accélérer les algorithmes les plus coûteux en temps de calculs de la chaîne CR-UCD.

Tnum = 3.15 s

Tocr 1 = 8.75 s Contrainte temps réel

Scanner multifonctions « Sharp MX-C250 »

Figure 4.1: Contrainte temps réel de l’application de dématérialisation. Tnum : Temps de

numérisation du scanner, Tocr1 : Temps de reconnaissance de caractères de la méthode CR-

UCD avant accélération de l’application.

Nous comparons dans le tableau 4.1 les différentes étapes de la chaîne de reconnaissance de caractères CR-UCD en termes de temps d’exécution. La mesure du temps d’exécution est effectuée sur un CPU Intel i3 d’architecture N ehalem de fréquence 2.5 GHz et de mémoire RAM de 4 Go.

La description et la reconnaissance de caractères possèdent des temps d’exécutions rela- tivement faibles par rapport au temps total de la chaîne de reconnaissance de caractères CR-UCD. Par contre, la méthode d’extraction hybride de caractères (EHT) possède le temps d’exécution le plus important (8.16 secondes) qui représente 93.25% du temps total de la chaîne.

Nous accélérons la méthode d’extraction hybride de texte (EHT) car elle est la plus com- plexe et elle représente 93.25% du temps total de la chaîne de reconnaissance de caractères CR-UCD. De plus cette méthode est fortement parallélisable, comme nous l’avons montré

Table 4.1: Analyse de la méthode CR-UCD sur CPU

Étapes de la méthode CR-UCD Temps (s) Temps (%)

Extraction hybride de caractères 8.16 93.25

Description de caractères 0.36 4.11

Reconnaissance de caractères 0.23 2.62

Total 8.75 100

dans le chapitre 2.

Dans notre travail, nous utilisons les architectures parallèles tel que les CPU multi-cœur et les GPU. Les CPU multi-cœur sont efficaces pour les traitements qui ne sont pas exécu- tés systématiquement, c’est-à-dire dont l’exécution est conditionnée par le succès d’un test. Spécialement, les GPU se montrent très adaptées aux algorithmes de traitement d’images vus leur potentiel à paralléliser les tâches de calcul intensives sur les pixels des images.

Les CPU et les GPU peuvent s’utiliser conjointement pour augmenter la performance d’un algorithme lorsque celui-ci est composé à la fois d’étapes de calcul intensif et de traitement conditionnel. La stratégie de parallélisation convenable dépend de plusieurs éléments tel que les dépendances de données, les contraintes de ressources matérielles et la complexité des algorithmes.

Dans ce chapitre nous présentons notre stratégie d’accélération de la chaîne de reconnaissance de caractères. Nous introduisons dans la section 2 les architectures multi-cœur des CPU et GPU. Ensuite, nous exposons dans la section 3 la stratégie de parallélisation de la méthode d’extraction hybride de texte sur GPU-CPU. Enfin, nous évaluons les résultats obtenus en étudiant les expérimentations réalisées concernant les différentes parties de la méthode d’extraction de texte dans la section 4.

2 Architectures Multi-cœur

Les processeurs multi-cœur sont très variés et difficiles à comparer. Les CPU-multi-cœur et les GPU s’avèrent des architectures performantes [123]. Ils sont efficaces surtout pour diffé- rents types d’algorithmes de traitement d’images [124, 125]. Dans la suite nous présentons les architectures génériques des CPU et des GPU.

Dans le document Extraction hybride et description structurelle de caractères pour une reconnaissance efficace de texte dans les documents hétérogènes scannés : Méthodes et Algorithmes parallèles (Page 108-116)