• Aucun résultat trouvé

Partie II : Contributions

Chapitre 4 : Contributions à l’évaluation des techniques de binarisation

4.2. Evaluation objective de plusieurs techniques de binarisation d‘images de documents dégradés

4.2.2. Base d‘images utilisée

La base d‘images que nous avons utilisée dans cette étude est composée de deux ensembles: un ensemble public d‘images réelles, et un ensemble local d‘images synthétiques. Notons que pour chaque image de la base, une image de vérité terrain représentant le résultat de binarisation idéal qu‘on souhaiterait avoir doit être accompagnée car certaines mesures d‘évaluation les nécessitent.

Nous décrivons dans cette section chacun des deux ensembles d‘images.

4.2.2.1. Premier ensemble d’images réelles

Le premier ensemble d‘images utilisé dans les expérimentations est constitué des cinq collections d‘images proposées dans le cadre des compétitions internationales de binarisation DIBCO 20094, H-DIBCO 20105, DIBCO 20116, H-DIBCO 20127 et DIBCO 20138. DIBCO (Document Image Binarization Contest) et H-DIBCO (Handwritten Document Image

Binarization Competition) sont des compétitions internationales de binarisation d‘images de

documents émergées en 2009 dans le contexte de la conférence ICDAR 2009. Le but de ces compétitions est de suivre les avancées dans le domaine de la binarisation d‘images de documents et d‘évaluer les performances en utilisant des mesures quantitatives sur la même base. Chaque collection contient un certain nombre d‘images de documents dégradées, et d‘images de vérité terrain correspondantes créées semi-automatiquement en utilisant la procédure proposée dans [NTI 08]. Les images inclues dans les cinq collections DIBCO/H- DIBCO ont été sélectionnées attentivement par les organisateurs pour qu‘elles couvrent la plupart des dégradations liées aux documents anciens (intensité variable dans l‘arrière plan, faible contraste, ombre, taches d‘encre et d‘humidité, effet de transparence, plis et déchirures, etc.).

La collection de DIBCO 2009 contient 5 images de documents imprimés et 5 manuscrits proviennent de plusieurs bibliothèques (bibliothèque de l‘état et de l‘université Göttingen, bibliothèque de l‘état de Bavière, bibliothèque britannique, et bibliothèque du Congres), avec les images de vérité terrain associées. L‘ensemble de test de H-DIBCO 2010 est composé de 10 images de documents manuscrits proviennent de la bibliothèque du Congres, et des images de vérité terrain correspondantes. La collection de DIBCO 2011 comprends 8 images de documents imprimés et 8 manuscrits proviennent de : la bibliothèque de l‘état et de l‘université Göttingen, bibliothèque de l‘état de Bavière, la bibliothèque britannique, et la bibliothèque du Congres, accompagnées des images de référence. La collection de H-DIBCO 2012 contient 14 images de documents manuscrits, avec leur image de vérité terrain. L‘ensemble d‘images de DIBCO 2013 est composé de 8 images de documents imprimés et 8 manuscrits, et d‘images de références associées.

Un total de 66 images est ainsi obtenu et elles sont réparties comme dans le tableau 4.1.

4 http://users.iit.demokritos.gr/˜bgat/DIBCO2009/benchmark/ 5 http://www.iit.demokritos.gr/˜bgat/H-DIBCO2010/benchmark 6 http://utopia.duth.gr/~ipratika/DIBCO2011/benchmark 7 http://www.iit.demokritos.gr/˜bgat/H-DIBCO2010/benchmark 8 http://utopia.duth.gr/~ipratika/DIBCO2013/benchmark/

99

Tableau 4. 1. Répartition d’images de documents dans les collections publiques de DIBCO et H- DIBCO

Manuscrit Imprimé Somme

DIBCO 2009 5 5 10 H-DIBCO 2010 10 0 10 DIBCO 2011 8 8 16 H-DIBCO 2012 14 0 14 DIBCO 2013 8 8 16 Somme 45 21 66

Les figures 4.2 – 4.6 présentent quelques images extraites des collections DIBCO/ H-DIBCO avec les images de vérité terrain correspondantes.

(a) Image de document (b) Image de vérité terrain

Figure 4. 2. Image extraite de la collection DIBCO 2009 avec l’image de vérité terrain correspondante

100 (a) Image de document (b) Image de vérité terrain

Figure 4. 3. Image extraite de la collection H-DIBCO 2010 avec l’image de vérité terrain correspondante (a) Image de document (b) Image de vérité terrain

Figure 4. 4. Image extraite de la collection DIBCO 2011 avec l’image de vérité terrain correspondante

101 (a) Image de document (b) Image de vérité terrain

Figure 4. 5. Image extraite de la collection H-DIBCO 2012 avec l’image de vérité terrain correspondante (a) Image de document (b) Image de vérité terrain

Figure 4. 6. Image extraite de la collection DIBCO 2013 avec l’image de vérité terrain correspondante

102

4.2.2.2. Deuxième ensemble d’images synthétiques

Pour que les résultats d‘évaluation soient plus sûrs, les tests doivent être effectués sur une large collection de données. Ainsi, le premier ensemble d‘images (images de DIBCO/H- DIBCO) nous semble insuffisant. Nous avons besoins donc d‘images supplémentaires pour les utiliser dans les tests, tout en prenant en considération que chaque image doit être accompagnée de sa version binaire idéale (image de référence ou vérité terrain). Le deuxième ensemble d‘images a été alors construit.

Cependant, il n‘est possible pratiquement d‘utiliser qu‘un nombre réduit d‘images réelles à cause de la difficulté de l‘établissement manuel des images de vérité terrain, ce qui s‘oppose à notre objectif. Pour cette raison, nous avons décidé d‘utiliser des images synthétiques au lien d‘images réelles, et nous avons ainsi construit un ensemble d‘images de documents historiques synthétiques. En effet, l‘idée d‘utiliser des images synthétiques dans les tests n‘est pas d‘aujourd‘hui. Les coûts élevés des bases de données commerciales et des phases de collections de données ont motivé plusieurs groupes de recherche à développer des méthodes de création des bases de données synthétiques [ELA 08]. [MÄR 01] et [KIE 14] sont des exemples.

Dans notre cas, les images de documents dégradés synthétiques sont générées en partant d‘un ensemble d‘images de référence de départ (images en noir et blanc propres et épurées de bruit), et en les ajoutant du bruit relatif aux documents anciens (taches, transparence, trous, etc.). Les images de documents de référence sont prises de deux sources. Certaines images ont été tirées à partir des pages PDF contenant du texte imprimé et/ou manuscrit, avec ou sans figures, tableaux, colonnes, formules, etc. Les autres images ont été sélectionnées à partir de la base AHDB [ALM 02] et contenant des textes manuscrits arabes.

La figure 4.7 présente deux images différentes utilisées pour la génération d‘images de documents synthétiques.

(a) Image prise d’une page PDF (b) Image sélectionnée de la base AHDB

Figure 4. 7. Exemples d’images de référence utilisées pour la génération d’images de documents synthétiques

103

(a) Taches d’humidité (b) Déchirure,Tampon, et bruit marginal

(c) Fond variable (d) Trous et effets de transparence

Figure 4. 8. Quelques images de fonds anciens utilisées pour la génération d’images de documents synthétiques

104

Une image de document synthétique (artificielle) est obtenue par la superposition d‘une image de référence et un masque. Les masques sont des images de fonds anciens vierges (ne contiennent aucun texte ou graphiques), collectées à partir du web et couvrent la plupart des dégradations rencontrés dans les documents anciens (présence des taches, illumination inégale, plis et déchirure, etc.). La Figure 4.8 illustre quelques exemples de fonds anciens de notre collection.

La combinaison est effectuée en utilisant la technique de Mosaicing d‘images proposée par P. Stathis et al. dans [STA 08]. Ainsi dans [STA 08], deux techniques de combinaison ont été proposées : l’intensité maximale, et l’intensité moyenne. En utilisant la technique d’intensité

maximale, l‘image résultante sera constituée en privilégiant les pixels les plus foncés, c.à.d. en

attribuant à chaque pixel dans la nouvelle image, l‘intensité du pixel le plus foncé entre les deux pixels correspondants des 2 images combinées (l‘image de référence et l‘image du fond). De telles façons, pour les pixels de l‘avant plan, l‘image du texte aura dans la plupart des cas l‘avantage sur l‘image du masque et pour les pixels de l‘arrière plan, l‘image du masque aura l‘avantage car elle est généralement plus foncée. En utilisant la technique de

Mosaicing par intensité moyenne, l‘intensité de chaque pixel dans la nouvelle image égale à la

moyenne des intensités des deux pixels correspondants dans les deux images combinées. Alors que chacune des deux techniques précédentes permet de produire des images de documents synthétiques contenant du bruit et des dégradations, il nous semble que le mixage de ces deux techniques permettra de donner des résultats plus naturels et proches des images réelles. Nous avons adopté ainsi cette solution pour la construction de notre deuxième ensemble d‘images de documents historiques synthétiques. Ainsi, les intensités des pixels dans l‘image résultante sont attribuées en appliquant la technique de l’intensité maximale lorsque les pixels dans l‘image du masque soient plus foncés que les pixels correspondants dans l‘image du texte, et en appliquant la technique de l’intensité moyenne dans l‘autre cas. En d‘autres termes, un pixel dans l‘image résultante aura l‘intensité du pixel correspondant dans l‘image du masque lorsque ce pixel est plus foncé que celui de l‘image du texte, et aura la moyenne des intensités des deux pixels correspondants dans les deux images combinées dans le cas contraire.

Cette technique peut être résumée par le pseudo code suivant : Algorithme de superposition par mosaicing

Entrées : GT: l’image du texte

BG: l’image de vérité terrain

Sortie: R: l’image résultat Début

Pour chaque pixel (i, j) de GT faire

Si BG(i,j) est plus foncé que GT(i,j) alors R(i,j)  BG (i,j) Sinon R(i,j)  (GT(i,j)+BG(i,j))/2

Fin Pour Fin

La figure 4.9 présente un exemple d‘une image synthétique obtenue en utilisant l‘algorithme de combinaison précédent.

105

Figure 4. 9. Image de document synthétique obtenue par la combinaison de l’image de référence de la figure 4.7.b et de l’image du fond de la figure 4.8.b

En effet, la fusion en utilisant l‘algorithme précédent est possible lorsque les deux images à fusionner ont la même taille ou lorsque l‘image du masque est plus grande. Dans ce dernier cas, la fusion ne prend pas l‘image du fond dans sa totalité mais une partie ayant la même taille que l‘image du texte. Lorsque l‘image du texte soit la plus grande, la fusion en utilisant l‘algorithme précédent ne peut pas être effectuée correctement. La dernière partie de l‘image du texte reste sans couverture par le masque. Pour surmonter ce problème, nous avons proposé d‘étirer l‘image du masque automatiquement pour qu‘elle soit de la même taille que l‘image du texte. De ce fait, aucun prétraitement manuel des images n‘est nécessaire et aucune contrainte sur la taille des images du fond n‘est imposée pour notre cas à la différence avec [STA 08] où les images du fond utilisées ont été redimensionnées manuellement pour avoir la même taille que les images du texte. La Figure 4.10 montre le résultat de la fusion par étirement du masque.

106 (a) Image de référence (b) Image du fond (c) Image synthétique obtenue

Figure 4. 10. Image de document synthétique obtenue de la fusion par étirement du masque

Notre ensemble d‘images de documents historiques synthétiques est composé de 682 images générées à partir de 11 images de texte (de référence) et 62 images du fond.

Documents relatifs