• Aucun résultat trouvé

Dans notre extraction de texte, nous utilisons la méthode de dissection de Tesseract [43] pour localiser les caractères qui fait partie de la méthode d’analyse structurelle de document PLA [56] .

Une fois les régions de texte séparées de l’arrière-plan dans les régions de texte simple et d’images, les lignes de texte sont identifiées par l’algorithme de recherche de lignes (Line

Finding) [132] employé dans l’algorithme d’analyse de structure du document PLA [56].

Les lignes de base (baseline) sont modélisées selon l’inclinaison du texte de façon à gérer le texte incliné. Cette modélisation est effectuée en groupant les composantes connexes qui sont sur les parties les plus rectilignes de la ligne de base d’origine. Des partitions de com- posantes connexes organisées en lignes sont ainsi générées.

Les lignes de texte construites sont segmentées en mots de manière différente selon l’espa- cement entre les caractères. Les lignes de texte qui contiennent des caractères équidistants (ceux qui possèdent une marge fixe) sont séparées directement en caractères en respectant la marge fixe. La figure 2.21 illustre un exemple de mot avec des caractères équidistants.

Figure 2.21: Localisation des caractères par Tesseract [43].

Une ligne de texte qui comporte des marges non fixes et aléatoires est divisée en mots en utilisant des marges aléatoires. Une phase de résolution des marges non fixes est réalisée au moment de la reconnaissance des caractères.

4

Expérimentations

La méthode EHT proposée a été évaluée sur les bases d’images LRDE-DBD1 [69] et IC- DAR [81]. La base LRDE-DBD est composée de 125 documents de texte français extraits du magazine "Le Nouvel Observateur"2. L’ensemble des données fournies par la base est

1. Copyright(c) 2012. EPITA and Development Laboratory (LRDE) with permission from Le Nou-

vel Observateur. LRDE-DBD est disponible sur le site web : http : //www.lrde.epita.f r/cgi −

bin/twiki/view/Olena/DatasetDBD

2. Le Nouvel Observateur. Issue 2402, November 18-24, 2010 et disponible sur le site web : http :

composé d’images au format A4 dont la résolution est de 300 dpi. Notre évaluation a été effectuée sur les 125 documents numérisés. Ces documents sont légèrement dégradés à cause du bruit généré lors du processus de la numérisation. Nous utilisons également les 125 images binarisées et sorties texte (OCR) de la base LRDE comme vérité terrain.

Dans les expérimentations qui suivent, on fixe la taille de bloc à 32 × 32 pixels pour la méthode CHK car cette taille donne une qualité de binarisation acceptable sur la base LRDE-DBD [103]. Nous utilisons la métrique F-measure pour évaluer l’exactitude de notre binarisation. La F-measure d’un système est mesurée en fonction du Rappel (R) et de la Précision (P) du système étudié selon l’équation 2.29. Le rappel (R) est défini par le nombre de pixels pertinents correctement classifiés au regard du nombre de pixels pertinents contenus dans l’image étudié. La précision (P) représente le nombre de pixels pertinents correctement classifiés rapporté au nombre de pixels total dans l’image (2.31).

F measure = 2P R

P + R (2.29)

avec

R = N bpixels pertinents correctement classifié N bpixels pertinents contenus dans l’image

(2.30)

et

P = N bpixels pertinents correctement classifiés N bpixels total dans l’image

(2.31)

En outre, Tesseract 3.02 a été utilisée pour effectuer l’étude de la reconnaissance de caractères. Enfin, nous évaluons notre approche d’extraction hybride de texte quelque soit le type du document.

4.1

Binarisation hybride de texte

La qualité de binarisation de texte influe directement sur le résultat de la reconnaissance de caractères. Dans ce contexte, Tesseract 3.02 [43] est utilisé pour lire le texte extrait à l’aide de notre méthode CHK. Actuellement, nous comparons le taux de reconnaissance de carac- tère basé sur les documents binaires de texte générés par notre méthode CHK avec plusieurs méthodes de binarisation [69, 68, 34, 65, 93, 44, 45] sur les mêmes documents LRDE-DBD. Le tableau 2.2 illustre le taux de reconnaissance des différentes méthodes évaluées.

La méthode CHK donne le meilleur taux de reconnaissance avec 91% de précision OCR grâce à sa binarisation robuste (Figure 2.22). D’autre part, la méthode Sauvola Mskx donne

un taux acceptable de reconnaissance de 89%. Elle assure ainsi une extraction efficace de texte, mais dans certaines régions du document, les artefacts peuvent apparaître conduisant à une mauvaise reconnaissance comme on le voit dans la figure 2.23.

Dans la suite, nous comparons le taux de reconnaissance de la méthode GCM [71] et la méthode CGCHK proposée afin de montrer son efficacité lors de la séparation de texte dans les images de scènes naturelles. Nous rappelons que cette méthode améliore l’image en uti- lisant la méthode de correction gamma GC associée avec la méthode de binarisation CHK.

Table 2.2: Taux de reconnaissance des caractères extraits par CHK et par plusieurs mé- thodes de binarisation

Méthodes Taux de reconnaissance OCR (%)

CHK [70] 91 Sauvola Mskx [69] 89 Wolf [34] 88 Sauvola [68] 87 Lelore [44] 85 Otsu [65] 84 Niblack [93] 80 TMMS [45] 73 (a) (b) (c)

Figure 2.22: Comparaison visuelle de la qualité de binarisation. (a) : CHK ; (b) : Lelore et (c) : Tmms

Le tableau 2.3 compare GCM [71] et CGCHK sur des images de scène naturelles issues de la base ICDAR Robust Reading [81].

Nous notons que CGCHK donne un meilleur taux de reconnaissance de caractère soit 85,2%. Nous expliquons ce résultat par le fait que la méthode CHK améliore Otsu dans l’étape de binarisation de texte. En effet, la stratégie de traitement hybride employée prend en compte à la fois l’information locale et globale de pixel pour fournir un résultat plus efficace. Nous montrons un résultat visuel dans la figure 2.24. Comme nous pouvons le voir, le texte est mieux séparé de l’arrière-plan en utilisant la méthode CGCHK.