à base d’un descripteur de traits

(1)

à base d’un descripteur de traits

Mehdi Felhi

^1,2

, Salvatore Tabbone

¹

, Maria V. Ortiz Segovia

²

1. LORIA UMR 7503 - Université de Lorraine,

BP 239, 54506 Vandoeuvre-lès-Nancy Cedex, France [email protected],[email protected]

2. Océ Print Logic Technologies - Canon Group, Créteil, France [email protected]

RÉSUMÉ.Nous présentons une approche complète de segmentation de pages de documents nu- mérisés permettant d’identifier et d’extraire les régions de texte, de lignes et de photos. L’approche est composée de deux étapes principales : la première étape consiste à détecter une éventuelle inclinaison afin d’ajuster l’image et ainsi diminuer les contraintes pour la segmentation. La deuxième étape se focalise sur une nouvelle méthode hybride pour la segmentation de pages basée sur les composantes connexes et sur l’analyse de régions. Nous décrivons d’abord notre nouvelle méthode de détection d’inclinaison. Ensuite, nous présentons notre descripteur de traits qui permet de détecter les candidats de texte et des lignes par la squelettisation de l’image du document binarisé. Un modèle de contours actifs est appliqué pour segmenter le reste de l’image en photos et arrière plan. Cette classification est vérifiée par l’étude de la variation photométrique de chacune des régions détectées. Enfin, les candidats de texte sont classifiés à l’aide de la technique du clustering du mean-shift en fonction de leurs tailles et nous présentons une approche adaptative d’analyse du profil de projection pour recueillir sé- parément les régions de texte horizontales et verticales. Cette méthode est appliquée pour la segmentation des images réelles des documents numérisés qui contiennent du texte, lignes et des régions de photos. Nous évaluons les performances de notre approche en la comparant avec des méthodes existantes sur des benchmarks connus.

ABSTRACT.In this paper we present a full document image segmentation approach in order to identify and extract text, lines and photo regions. This approach is composed of two main steps.

The first step consists in detecting a possible skew. Then, a new hybrid page segmentation approach based on connected component and region analysis is proposed. For that, we first des- cribe our stroke descriptor that detects text and line component candidates using the skeleton of the binarized document image. Then, an active contour model is applied to segment the rest of the image into photo and background regions. This classification is verified by studying the variation of each detected region. Finally, we cluster the text candidates using mean-shift analysis technique according to their corresponding sizes and we present our multiscale projection profile approach to gather separately horizontal and vertical text regions. We evaluate the performances of our approach by comparing it to the existing methods on well-known benchmarks.

(2)

MOTS-CLÉS :segmentation de page, descripteur de traits, transformée de Ridgelets, détecteur d’inclinaison.

KEYWORDS:page segmentation, stroke descriptor, Ridgelets transform, skew detector.

DOI:10.3166/DN.17.3.9-30 c2014 Lavoisier

1. Introduction

L’objectif principal du domaine de la segmentation des images de documents est de séparer les régions textes des autres régions (photo, graphique, ligne et du bruit). Cela implique le fractionnement et la classification des parties de l’image du document en des blocs isolés. Fondamentalement, le résultat d’une telle segmentation est une image binaire qui indique l’identité de chaque pixel/région. Plusieurs méthodes ont été proposées pour assurer la segmentation des images de documents. Typiquement, un système de segmentation d’images de documents comprend classiquement deux étapes : la définition des caractéristiques et la proposition d’un classificateur robuste qui sépare différentes régions et identifie à quelle classe elles appartiennent (texte, image, lignes, etc.).

De nombreux travaux ont été proposés pour trouver des descripteurs appropriés.

Certaines de ces approches, extraient les caractéristiques basiques de l’image, telles que sa fréquence, les variations du gradient, les caractéristiques de texture ou les informations sur les traits. Les techniques basiques concernant la segmentation des images de documents peuvent être classées en deux grandes approches ; à savoir, les approches ascendantes et les approches descendantes. Les méthodes descendantes commencent par diviser l’image du document en un ensemble de régions disjointes.

Ces régions sont ensuite classées et subdivisées en termes de lignes et de colonnes.

Les techniques descendantes les plus connues sont la technique du profil de projection (Iwakiet al., 1987), la technique appelée “Recursive X-Y Cut" (RXYC) (Nagyet al., 1988). Les techniques descendantes présentent quelques limitations, en particulier dans la détection du texte dans les images des documents inclinés car ils reposent sur les caractéristiques structurelles des documents en colonnes, en particulier les lignes de texte horizontales et en même temps sur l’espacement horizontal et vertical. D’autre part, les techniques ascendantes utilisent les informations géométriques de proximité afin de fusionner ou d’isoler les régions. Ces techniques partent du niveau du pixel et évoluent vers le niveau le plus élevé qui décrit un modèle géométrique particulier. Les méthodes ascendantes les plus courantes sont basées sur les composantes connexes (Lebourgeoiset al., 1992). L’utilisation de caractéristiques a ajouté plus de précisions au système de segmentation. Ces caractéristiques visent à décrire la particularité de la région texte en comparaison avec les autres classes de régions en se référant à dif- férents critères tels que le contraste entre l’avant-plan et l’arrière-plan, la fréquence, l’homogénéité, la couleur et la texture.

Parmi les exemples des caractéristiques basées sur la fréquence, S. Audithanet al.

(Audithan, Chandrasekaran, 2009) appliquent une transformée en ondelette discrète

(3)

(TOD) comme un ensemble de caractéristiques pour séparer le texte du graphique. La TOD génère deux types de composantes de l’image : la sous-bande moyenne qui est le résultat d’un filtre passe-bas, et les sous-bandes de détails qui expriment la haute fré- quence et peuvent détecter les trois types de contours (horizontal, vertical et diagonal).

Les auteurs (Audithan, Chandrasekaran, 2009) supposent que le texte possède des composantes de détails plus élevées que celles des autres régions et classifient ensuite l’image de document en trois régions différentes (texte, photos et arrière-plan). Cepen- dant, cette méthode, non seulement manque de robustesse à la variation de l’échelle mais aussi elle présente de faibles taux de reconnaissance si l’image contient des textures et des graphiques/lignes qui, comme le texte, ont des composantes de détails élevées. Les filtres de Gabor ont été présentés en tant que caractéristiques pour la segmentation des images de documents. Par exemple, Raju et al. (2004) proposent l’utilisation d’une banque d’espace-fréquence en utilisant les filtres de Gabor, et cal- culent la quantité d’énergie dans la bande à haute fréquence afin de séparer le texte du non-texte. Cette méthode dépend de la taille du texte et ne peut pas le distinguer avec précision des graphiques/lignes qui présentent eux aussi une quantité similaire d’énergie à haute fréquence.

D’autres travaux utilisent les informations de couleurs pour classer le contenu de l’image de document en texte, image(s) et arrière-plan. Chuai-Areeet al. (2001) utilise le modèleFuzzy C-Mean(FCM) comme une méthode de classification non-supervisée en se basant sur la couleur comme caractéristique. La technique élaborée classifie les régions de l’image en se basant sur la moyenne et l’écart-type de chaque bloc de pixels. Par exemple, la couleur des pixels de l’arrière-plan est considérée comme étant plus claire et plus uniforme que le reste de l’image, tandis que la couleur des pixels du texte est considérée comme plus foncée que l’arrière-plan et ayant un contraste plus élevé pour être lisible. Le principal inconvénient de cette méthode est la nécessité d’introduire le nombre a priori de classes (clusters) en tant que paramètre. En effet, une image de document peut contenir ou pas des régions de photos. Ainsi, les résultats dépendent de la nature des documents à traiter. En outre, cette approche est sensible au bruit.

D’autres méthodes existantes déterminent les régions de texte en se basant sur l’information de trait (Epshteinet al., 2010 ; H. Chenet al., 2011). Généralement, les traits des caractères du texte présentent une largeur et une couleur uniformes. Dans (Epshteinet al., 2010), les auteurs ont élaboré un descripteur de traits appeléStroke Width Transform(SWT), qui permet de déterminer la largeur dans chaque partie des composantes connexes. Les composantes ayant une faible variation de largeur de trait sont considérées comme des composantes de texte. Cependant, cette méthode est uniquement destinée à la détection du texte dans des images de scènes réelles et ne traite pas les images de documents contenant des lignes et des séparateurs qui présentent également une faible variation de largeur de trait. De plus, cette méthode ne peut pas regrouper le texte en des paragraphes et des lignes de texte. La plupart des méthodes de segmentation d’images de documents existantes dépendent de la structure du document. En fait, les performances de l’étape de segmentation peuvent chuter quand il s’agit de la segmentation d’un document à agencement non régulier. Reconnaître et

(4)

regrouper les régions de texte en blocs est une tâche difficile et complexe. Pour cela, de nombreux chercheurs font beaucoup d’hypothèses concernant la couleur et/ou l’orientation des zones de texte.

Dans ce papier, nous avons cherché à rendre l’étape de la segmentation indépen- dante de la structure de l’image du document. Plus précisément, nous avons conçu un système de segmentation qui traite non seulement les images de documents non régu- liers, mais aussi les documents contenant des régions de texte présentant différentes tailles. Pour cela, nous avons proposé deux principales contributions dans le domaine de la segmentation d’images de document. Plus précisément, nous avons proposé une méthode de détection d’inclinaison et une approche de segmentation d’image de documents.

Dans la section 2 nous détaillons notre nouvelle méthode de détection d’inclinaison qui permet d’ajuster l’image de document avant l’étape de la segmentation.

Ensuite, nous présentons un système robuste de segmentation à base de traits qui vise à détecter et séparer le texte, les lignes, les photos et l’arrière-plan. Tout d’abord, nous donnons une présentation générale du système proposé dans la section 3. Ensuite, nous décrivons notre descripteur à base de trait conçu pour détecter les candidats de texte et des lignes dans la section 4. La section 5 est consacrée à la présentation de la technique de la segmentation arrière-plan/image. Dans la suite, les étapes de détection de lignes et de la classification du texte (selon un critère de taille et de couleur) sont respectivement décrites dans les sections 6 et 7. Les résultats expérimentaux de la segmentation conjointement à une comparaison avec d’autres méthodes de segmentation de pages existantes sont présentés dans la section 8.

2. Détection d’inclinaison

Nous présentons dans cette section notre nouvelle méthode de détection d’inclinaison qui permet de détecter et d’ajuster l’inclinaison des documents numérisés. Cette approche a pour objectif d’extraire les régions de texte sous différents contrastes indé- pendamment de la mise en page et du type du document. Cette méthode est constituée de deux étapes principales : l’étape de segmentation et l’étape d’estimation de l’angle d’inclinaison.

2.1. Maximum Gradient Difference

Comme nous l’avons mentionné, notre méthode commence par une étape de segmentation afin d’extraire les candidats de texte. Le processus de segmentation est basé sur la technique deMaximum Gradient Difference(MGD), qui est utilisée dans plusieurs méthodes d’extraction de texte dans les vidéos (Wong, Chen, 2003 ; Phanet al., 2009). Conformément à la méthode de Wong (Wong, Chen, 2003), la première étape consiste à calculer le gradient horizontalGde l’imageI:

G=I ⋆ g, (1)

(5)

oùg= [−1 1].

Cette étape est suivie par la sélection des valeurs minimales et maximales du gradient dans une fenêtre locale centrée sur chaque pixel(i, j)de taillew×1.

∀i, j,MGD(i, j) = max(G(i, l), j−n≤l≤j+n)

−min(G(i, l), j−n≤l≤j+n),

oùn= ^w₂ −1.

Notons que, même si le texte est sur un fond complexe ou sur des zones d’image, les valeurs MGD correspondant à des régions de texte sont souvent supérieures aux valeurs MGD de l’arrière-plan ou des images. La taille de la fenêtre idéale dépend de la taille des caractères. Wonget al.(Wong, Chen, 2003) prétendent que l’un des meilleurs choix de la valeurwest une valeur qui se rapproche de la taille des caractères de la ligne de texte. De manière générale, la fenêtre1-D devrait être légèrement plus grande que la longueur des caractères.

2.2. La transformée Ridgelets

Beaucoup de travaux relatifs à la détection de ligne, la détection de texture, dé- bruitage et la représentation de symboles se basent sur la transformée de Ridgelets.

En effet, cette transformée décrit les singularités de lignes incluses dans les images et en particulier l’orientation des objets dans l’image du document. La transformée de Ridgelets continue a été décrite avec plus de détails dans (Candes, 2001) et est définie comme suit :

RI(a, b, θ) = Z Z

ψa,b,θ(x, y)I(x, y)dxdy, (2) oùψa,b,θ(x, y)etIreprésentent respectivement les ridgelets et l’image. Les Rid- gelets sont définies à partir d’une fonction 1-D du type ondelettesψ(u):

ψa,b,θ(x, y) = ψ(xcos(θ) +ysin(θ)−b)

a^1/2 , (3)

Compte tenu de cette définition, la transformée Ridgelets continue pourrait être considérée comme une transformée continue2-D en ondelettes appliquée à l’ensemble des paramètres(ρi, θi)à la place des paramètres(xi, yi). A noter que le premier ensemble de paramètres décrit ici la position des lignes tandis que le second exprime celle des points.

Conformément à la méthode de calcul de la transformée en Ridgelets orthonormée présentée par Doet al.(Do, Vetterli, 2000), nous avons appliqué une transformée 1-D

(6)

en ondelettes sur les colonnes de la transformée de Radon en vue d’obtenir les coefficients de Ridgelets de notre image binarisée (grâce à l’utilisation du MGD). Ainsi la transformée Ridgelets est liée à une transformée en ondelettes par la transformée de Radon.

La figure 1 montre la relation entre la transformée de Radon et la transformée Rid- gelets. Dans notre travail, nous appliquons cette transformation à l’image segmentée contenant des lignes de texte et du fond d’image afin d’estimer l’orientation du texte.

Figure 1. La relation entre la transformée de Radon et la transformée Ridgelets Nous décrivons dans la sous-section suivante la méthode que nous avons adoptée dans le but de trouver l’angle d’inclinaison du document.

2.3. Estimation de l’angle avec la transformée de Ridgelets

Comme suggéré dans le paragraphe précédent, une méthode basée sur la trans- formée de Ridgelets est appliquée afin de trouver l’angle d’inclinaison de l’image du document. Cependant, la plupart des papiers qui se sont intéressés à cette transfor- mée ont appliqué aux Ridgelets un seuil fixe de manière à extraire des coefficients pertinents qui décrivent l’image. Dans notre cas, nous nous intéressons uniquement à la détermination d’un seul angle qui est l’angle d’inclinaison pour chaque document. Pour cela, nous proposons dans cette section une méthode robuste pour détecter l’angle en question. Les critères que nous avons adoptés consistent à localiser les pics qui représentent les singularités linéaires typiques de l’image binarisée obtenue à partir de l’étape de segmentation. Nous avons utilisé le déterminantDetH(ρp, θp)de la matrice hessienneH(f)à chaque pointp= (ρp, θp)(voir équation 4) pour mesurer la netteté des pics dans la transformée de Ridgeletsf. En fait, ce déterminant décrit à chaque point une courbure locale. Enfin, nous avons fait la somme des valeurs abso- lues sous chaque colonne d’angle pour obtenir le profil des pics de Ridgelets (quelques exemples sont présentés dans les figures 3c et 3d). L’angle qui maximise le profil des pics sera considéré comme l’angle d’inclinaisonθ0(voir équation 5).

H(f)(ρp, θp) =

∂²f

∂²ρ(ρp, θp) _∂ρ∂θ^∂²^f (ρp, θp)

∂²f

∂θ∂ρ(ρp, θp) ^∂_∂²₂^f_θ(ρp, θp)

!

(4)

(7)

θ0=argmax_θ X

ρ

|DetH(ρ, θ)|

!

. (5)

2.3.1. Algorithme

L’idée principale de l’approche proposée consiste à détecter les lignes de texte dans une représentation compacte et ensuite estimer l’angle d’inclinaison (qui est l’orientation des lignes de texte) en utilisant la transformée en Ridgelets. Afin d’améliorer le taux de précision de notre méthode, nous avons adopté une approche par raffinement successifs. Nous décrivons dans ce paragraphe l’algorithme de l’approche proposée.

La figure 2 illustre l’algorithme de la méthode de détection d’inclinaison proposée.

1. La transformée MGDθde l’image d’origineIen tout pointpest calculée dans 3directionsθ∈ {α1, α2, α3}:

MGD^p_θ(I) =Rotation(−θ)(MGD(Rotationθ(I))), (6) où,Rotateθ(I)représente l’imageIpivotée par un angleθ.

2. Pour tout pixelpla valeur qui minimise en ce point la transformée MGDθest définie :

∀i, j,MGD^p=argmin_θ(MGD^p_θ(I)), (7) La transformée MGD résultante (MGD^p) est seuillée avec un premier seuilT pour obtenir une image binaireB(voir figures 2b et 2c).

3. Nous estimons l’angle d’inclinaisonθ0à l’aide du profil des pics de Ridgelets:

le premier pas de recherche est fixé à1^◦(voir figure 3c) ;

4. Nous recherchons l’angle final d’inclinaisonθf∈[θ0−2, θ0+ 2]en appliquant notre profil de pics des Ridgelets à B; la taille finale de recherche est fixée à0,1^◦ (voir figure 3d).

2.4. Résultats expérimentaux

Nous avons évalué notre méthode sur la base de données publique disponible dans la littérature¹fournie par Chouet al. (2007) et composée de500 images de documents générés par numérisation d’une collection de documents différents. Ces images sont sélectionnées pour représenter différents types de documents (journaux, livres, magazines et revues) et ont été produits par la numérisation de documents à une réso- lution de300dpi. Les concepteurs de cette base de données limitent l’angle maximum

1. http://ocrwks11.iis.sinica.edu.tw/ dar/Download/WebPages/Skew.htm

(8)

(a) Une image de document incliné de 12◦

(b)M GD¹ (c) B: M GD¹

image binarisée

Figure 2. Un exemple d’illustration de l’algorithme proposé : MGD

à±15^◦. Chouet al. (2007) ont réparti les données en5catégories de100images en fonction de la langue et le type de documents :

1. documents en anglais ;

2. documents japonais et chinois ;

3. documents contenant des figures grande échelle ; 4. documents contenant des formulaires ou des tableaux ; 5. documents multilingues.

Afin d’évaluer notre méthode, nous avons sélectionné cinq autres méthodes existantes : Ondelettes (Liet al., 2007), PCP (Chouet al., 2007), PJ (Postl, 1986), TC (Y. K. Chen, Wang, 2000) et de CC (Chaudhuri, Chaudhuri, 1997). Les résultats ex- périmentaux de ces méthodes sur l’ensemble de données sont disponibles dans (Liet al., 2007) et (Chouet al., 2007). Dans notre évaluation, nous avons décidé de diminuer la résolution des images à 150 dpi afin d’accélérer le temps de calcul. Les valeurs des paramètres de l’algorithme sont déterminées de manière empirique :w = 10et T = 100. Nous avons aussi fixé les valeurs (α1, α2, α3) = (−10^◦,0^◦,10^◦) pour bien couvrir l’intervalle [−15^◦15^◦].

(9)

(a) La transformée de Ridgelets de l’image binariséeB

(b) Le déterminant de la matrice Hes- sienne

(c) Le profil des Ridgelets deBavec une taille de recherche =1^◦

(d) Le profil des Ridgelets deBavec une taille de recherche = 0.1^◦: ici θ_f = 11.9^◦

Figure 3. Un exemple d’illustration de l’algorithme proposé : transformée en Ridgelets

Les mesures de performance proposées avec la vérité terrain sont la moyenne et la variance de l’erreur. Concrètement, l’erreur d’estimation pour un document donné est la valeur absolue de la différence entre l’angle estimé par une méthode de détection d’inclinaison et l’angle figurant dans la vérité terrain.

Les tableaux 1-5 montrent les performances des5méthodes existantes et de notre méthode proposée pour chaque catégorie de la base de données. Ces tableaux montrent également les performances des meilleurs80% en taux d’erreur. Pour calculer ces performances on enlève de chaque catégorie les 20images correspondant aux plus importantes erreurs comme cela a été présenté dans l’article (Chouet al., 2007). En comparaison avec les méthodes (Liet al., 2007) et (Chouet al., 2007) qui fournissent les meilleurs résultats dans la littérature pour l’ensemble des données, nous remar-

(10)

quons que notre méthode donne des taux de performances compétitifs notamment en termes de variance d’erreur ce qui montre une robuste de l’approche par rapport à la diversité des documents.

Tableau 1. Performances sur la première catégorie

Moyenne Variance

Méthode Toutes les Top Toute les Top

images 80% images 80%

Méthode proposée 0.247 0.187 0.030 0.014

Ondelette 0.256 0.208 0.088 0.015

PCP 0.149 0.102 0.129 0.096

PJ 0.230 0.153 0.206 0.140

TC 0.185 0.148 0.180 0.131

CC 0.166 0.115 0.144 0.109

Tableau 2. Performances sur la deuxième catégorie

Moyenne Variance

Ondelette 0.126 0.068 0.035 0.005

PCP 0.139 0.088 0.143 0.070

PJ 0.496 0.254 0.591 0.263

TC 0.171 0.108 0.155 0.091

CC 0.180 0.132 0.192 0.096

Tableau 3. Performances sur la troisième catégorie

Moyenne Variance

Ondelette 0.499 0.450 0.019 0.011

PCP 0.231 0.178 0.135 0.011

PJ 7.787 3.419 9.049 4.934

TC 0.249 0.183 0.223 0.144

CC 0.345 0.223 0.325 0.186

A la fin de cette étape une image de document incliné est ajusté pour faciliter la tâche de la segmentation dans la mesure où une étape de projection est nécessaire pour la classification du texte (voir section suivante où nous décrivons notre méthode de segmentation et de catégorisation du contenu des images de documents).

(11)

Tableau 4. Performances sur la quatrième catégorie

Moyenne Variance

Ondelette 0.125 0.071 0.021 0.008

PCP 0.111 0.062 0.127 0.073

PJ 0.160 0.096 0.163 0.105

TC 0.150 0.078 0.180 0.084

CC 0.139 0.075 0.146 0.078

Tableau 5. Performances sur la cinquième catégorie

Moyenne Variance

Ondelette 0.071 0.040 0.006 0.002

PCP 0.077 0.051 0.075 0.050

PJ 2.050 0.208 5.816 0.264

TC 0.176 0.105 0.240 0.072

CC 0.197 0.129 0.230 0.125

3. Présentation générale du système de segmentation

Notre système se compose de quatre étapes principales (voir figure 4) :

1. Descripteur de la variation globale de la largeur du trait (VGLT) : cette étape vise à extraire les candidats de texte et de lignes.

2. Modèle du contour actif et l’étude de la variation : à ce stade l’arrière-plan et les régions photos sont identifiés.

3. Classification SVM : ici, nous introduisons un nouveau vecteur de caractéris- tiques qui permet la séparation texte/lignes. A la fin de cette étape, les lignes et les séparateurs sont extraits et les composantes texte sont identifiées.

4. Profil de projection adaptatif pour la classification du texte : les composantes texte sont regroupées selon leurs intensités et leurs tailles. Un profil de projection adaptatif est appliqué afin de structurer les paragraphes et les lignes de textes.

4. Descripteur de la variation globale de la largeur du trait (VGLT)

Comme mentionné dans l’introduction, les largeurs de traits pour le texte comme pour les lignes sont généralement uniformes. Dans cette section nous décrivons notre descripteur appelé variation globale de la largeur du trait (VGLT) qui permet l’identification de ces régions puis qui élimine les régions photos et arrière-plan en estimant

(12)

VGLT

SVM Modèle du contour

actif et l’étude de variation

Profil de projection adaptatif et classification du texte

Arrière-plan Régions de photos

Lignes Texte Image

Figure 4. Schéma d’ensemble du système de segmentation proposé

les variations de largeur de trait de chaque composante. Tout d’abord, l’image est binarisée en utilisant la méthode de détection de blobs Maximally Stable Extremal Regions(MSER) (Mataset al., 2002). Une région MSER est une région qui est soit plus foncée, soit plus claire que l’arrière-plan qui l’entoure. Afin de détecter ces ré- gions, un ensemble de seuils successifs est appliqué sur l’image en niveaux de gris ce qui implique un ensemble d’images binaires. Ces images sont constituées par des composantes connexes. La stabilité d’une région donnée est calculée en déterminant l’inverse de sa variation d’intensité relative à l’aire lorsque le seuil en question aug- mente. Par conséquent, un texte lisible ou une ligne contrastée constituent une région stable. Le VGLT est ensuite appliqué sur chaque composante (claire ou foncée) sé- parément. Avant d’introduire notre descripteur, nous commençons par introduire la fonction suivante :

D(C) =distC∗skC (8)

oùskC, est le squelette ébarbulé correspondant à la composanteCobtenu par la mé- thode (Lamet al., 1992) qui élimine les branches indésirables.distCest le résultat de la transformée de distance qui calcule la distance euclidienne séparant chaque pixel de la composanteCdu pixel le plus proche de l’arrière-plan. Pour chaque trait, nous as- socions une branche du squelette ébarbulé. Puis, la fonctionDpermet d’obtenir pour chaque composanteCle vecteurD(C)permettant d’estimer la moitié de la projection perpendiculaire de la largeur de trait pour chaque pixel du squelette. Pour conclure, D(C)est le vecteur contenant les résultats de la transformée distance appliquée uni-

(13)

quement sur le squelette de la composante Cet possède alors les mêmes variations que la largeur du trait de la composanteC. Le descripteur VGLT se calcule comme suit :

V GLT(C) =std(D(C))/mean(D(C)) (9) oùmean(D(C), std(D(C))sont respectivement la moyenne et l’écart-type correspondant au vecteurD(C). Soit la composanteC, si sa largeur de trait varie beaucoup par rapport à sa largeur de trait moyenne alors le descripteurV GLT(C)est élevé.

Inversement,V GLT(C)présente une valeur faible si la largeur de trait deCest uniforme ce qui est le cas pour le texte et pour les lignes. A la fin de cette étape, toutes les composantes ayant un V GLT au dessous d’un certain seuilt1 sont considérées comme des candidats de texte ou de lignes.

5. Modèle de contours actif et étude de la variation

Une fois les candidats de texte et de lignes extraits, nous envisageons de détecter les régions de photos et d’arrière-plan. Cette partie est composée de trois principales étapes : l’inpaintingdu texte et des lignes, le contour actif pour la segmentation de l’images et l’identification des photos et arrière-plan.

1. L’inpaintingdu texte et des lignes : à cette étape de l’approche, les régions de texte et des lignes sont détectées. Ainsi, avant de détecter les régions homogènes de l’image, il serait très utile d’éliminer les régions déjà détectées. Une façon intuitive de les éliminer est de mettre la valeur 255(couleur blanche du fond) à la place des ré- gions texte/lignes. Toutefois, ces régions ne reposent pas toujours sur des arrière-plans de couleurs blanches. De plus, les arrière-plans des documents scannés présentent gé- néralement du bruit. Ainsi, les transitions entre les parties déjà éliminées et l’arrière- plan ne seront pas des transitions lisses. Pour ces raisons, nous avons choisi d’effectuer une étape d’inpaintingafin d’éliminer proprement les régions détectées et de préser- ver les transitions lisses des zones homogènes et de l’arrière-plan. Dans la littérature, l’inpainting est utilisé pour reconstruire les éléments/zones perdus de l’image. De nombreux travaux ont été consacrés à la restauration naturelle ou artificielle des parties endommagées ou manquantes de l’image (Criminisiet al., 2004 ; Pnevmatikakis, Maragos, 2008). La plupart des ouvrages existants sont basés sur les équations aux dérivées partielles (PDE) où les parties manquantes sont remplis à travers des techniques basées sur la diffusion (Pnevmatikakis, Maragos, 2008). D’autres travaux sont basés sur l’analyse de la texture et des opérations morphologiques pour reconstruire les images (Pnevmatikakis, Maragos, 2008). Cependant, ces procédés sont à la base adaptés pour restaurer des images naturelles et dépendent de plusieurs paramètres.

Dans ce paragraphe, nous introduisons une méthode efficace basée sur l’analyse morphologique et l’inpaintingpour éliminer du texte et les lignes candidates des images du document. A cette fin, nous identifions chaque candidat de texte/ligne par deux heuristiques utilisées dans l’algorithme 1 :

maxStrokeW idth(C) =max(D(C))

(14)

r(C) =

(1 siCreprésente une MSER foncée (minimum local)

−1 siCreprésente une MSER claire (maximum local)

Algorithme 1 :Processus d’inpainting Data:I;%Iest l’image originale Result:Ip;%Ipl’image finale Pour toute composanteC;

if(r(C)>0)then

Rc(Ip) =Rc(open(I,^′disk^′, maxStrokeW idth(C))) ;%Rcest la surface qu’occupe la composante connexeC. La fonction open(I,

’disk’,maxStrokeWidth(C)) représente l’ouverture morphologique où l’élément structurant est un disque dont le rayon est égal à

maxstrokewidth(C)+1 (on rajoute 1 à la valeur de maxstrokewidth(C) pour couvrir toute la surface).

else

Rc(Ip) =Rc(close(I,^′disk^′, maxStrokeW idth(C))) ;idem, avec close qui représente la fermeture morphologique.

end

A noter que la complexité de cet algorithme ne dépend pas du nombre de composants puisque nous échantillonnons l’ensemble des composantes en nous basant sur l’histogramme de maxstrokewidth et nous appliquons le même élément structurant d’ouverture / fermeture sur tous les composants appartenant à un même intervalle.

2. Le modèle de contours actif pour la segmentation de l’image : jusqu’ici, nous avons construit l’image retouchéeIp. Les parties restantes de l’image du document contiennent soit du fond de l’image ou des régions de l’image. Ces deux classes ont des variations d’intensité différentes. Le but de cette étape est de partitionnerIpen deux régions différentes et d’en identifier chacune. Pour cette raison, nous proposons l’utilisation du modèle de Chan et Vese pour le contour actif (Chan, Vese, 2001) qui montre dans la littérature de bons résultats à la segmentation bi-classes afin de séparer les deux régions avec deux différentes distributions de couleurs (moyennes d’intensité différentes). Mathématiquement, étant donnée la courbeCv = ∂ω avecω ⊂ Ωun sous-ensemble ouvert et deux paramètresc1etc2 qui représentent la variation d’in- tensité dans chacune des deux régions, Chan et Vese ont proposé de segmenter une imageIpen minimisant l’énergie suivante en considérantc1,c2etCv.

F(c1, c2, Cv) =ν|Cv|+λ1

Z

Cv

|Ip(x, y)−c1|²dxdy

+λ2

Z

Cv

|Ip(x, y)−c2|²dxdy

oùν définit le lissage de la courbeCv. Ce paramètre contrôle le résultat de la segmentation. La variation de ν conduit soit à une sur-segmentation, soit à une sous-

(15)

segmentation. En fait, si le paramètre de lissage est très faible, alors nous négli- geons les variations à l’intérieur de chaque région et cela pourrait conduire à une sur- segmentation. Au contraire, une valeur élevée de celui-ci conduit généralement à une sous-segmentation en diminuant l’effet du deuxième et troisième termes de l’équation ci-dessus. La valeur deνest définie empiriquement. En outre, nous avons considéré, comme stipulé dans l’article de Chan et Vese, que les deuxième et troisième termes de l’équation ont le même effet etλ1=λ2= 1.

3. L’identification de l’image et du fond de l’image : après le processus de segmentation, nous obtenons un ensemble de régions ayant différentes couleurs. Nous proposons d’évaluer la variation de couleur à l’intérieur de chaque région, en utilisant l’expression suivante :

V(A) =std(I(A))/mean(I(A)) (10)

oùV(A)représente la variation de la régionA,I(A)est le vecteur qui inclut les valeurs des pixels de la régionA. Intuitivement, la valeur deV est peu élevée lorsque la région est homogène. En fait, la répartition d’intensité est concentrée sur la valeur moyenne. Cette caractéristique permet de distinguer le fond de l’image des régions de l’image qui présentent des variations généralement plus élevées. Enfin, nous construi- sons les cadres de sélection qui délimitent les régions de photos.

6. Le classificateur SVM

Dans cet article, nous supposons que les zones de texte et de lignes n’appartiennent pas aux photos, nous éliminons alors le texte / lignes candidates qui sont inclus dans les cadres de la photo extraits au cours de l’étape précédente. Cette hypothèse réduit les faux positifs puisque les photos pourraient contenir des textures et des formes qui ressemblent à du texte ou à des lignes. En outre, la plupart des systèmes de segmentation de pages ignorent le fait que les photos contiennent du texte ou des lignes. Le rôle de cette étape de classification consiste à séparer du texte et les lignes. Premièrement, nous définissons les caractéristiques suivantes qui sont utilisées pour cette séparation :

– Epaisseur relative (RT) :

RT(C) =Ar(skC)/mean(D(C)) (11)

oùAr(skC)représente l’aire (le nombre de pixels) de la régionskC. Nous remarquons que cette variable présente des valeurs élevées pour les lignes puisque leurs largeurs de trait sont très petits comparé à la longueur des composants de la ligne.

– Allongement (El) :

El(C) =majoraxis(C)/minoraxis(C) (12) Cette variable calcule le rapport entre le grand axe (majoraxis) et le petit axe (minoraxis) de l’ellipse qui correspond aux second moments centraux normalisés du composantC.

(16)

– Compacité (S(C)) : ce scalaire varie entre0et1et calcule la densité de la zone du composant comparée à sa surface convexe correspondante de l’enveloppe. Notez que les lignes droites ont des valeurs élevées de compacité. Au contraire, des lignes courbes présentent de faibles valeurs de compacité. Par expérience, le texte présente quant à lui des valeurs de compacité proche de0,5et par conséquent, nous définissons S1(formulée de telle façon à avoir des valeurs faibles pour le texte) comme suit :

S1(C) = 2∗ |S(C)−0.5| (13)

Ce paramètre est défini pour séparer le texte et les lignes à partir des informations de compacité. En fait, dans quelques polices particulières, le texte présente des valeurs de compacité moyennes comparé aux lignes. Par conséquent, les lignes présentent normalement des valeursS1supérieures à celles du texte. Tous ces paramètres peuvent aider à séparer le texte des régions des lignes. Par conséquent, nous définissons la fonction vecteur (F T) suivante :

∀C, F T(C) =



 RT(C)

El(C) S1(C)





Ensuite, nous apprenons un classificateur SVM linéaire sur un ensemble de données d’apprentissage contenant un ensemble de composants marqués (1pour le texte et−1 pour les lignes). Ainsi, ce classificateur permet de séparer du texte et des lignes. Dans cet article, nous ne considérons que des lignes fines et longues afin d’identifier les séparateurs et nous n’avons pas testé le processus de segmentation sur d’autres types de lignes.

7. Profil de projection adaptatif pour la classification du texte

Les méthodes de profil de projection sont basées sur des opérations morphologiques qui reposent sur des paramètres prédéfinis qui dépendent de la taille du texte. Le choix de ces paramètres est effectué de manière arbitraire sur la base de connaissances a priori sur la taille des textes. Cependant, la même image peut contenir différentes ré- gions de texte avec des tailles différentes (paragraphes et titres). Dans ce cas, la plupart des méthodes de profil de projection existantes ne parviennent pas à se concentrer et à détecter correctement les régions de texte. Certains travaux cherchent à surmonter ce problème par l’utilisation d’une représentation multi-résolution de l’image comme la structure pyramidale (Benjelilet al., 2012). Les méthodes de représentation multi- résolution sont généralement fondées sur des approches non supervisées et ont besoin d’un paramètre prédéfini qui est le nombre de niveaux. Le mauvais choix de ce pa- ramètre peut entraîner la fusion de deux zones de texte différentes. Nous proposons dans cet article une approche de profil de projection adaptative afin de regrouper et classifier les régions de texte. Tout d’abord, nous commençons par la classification de l’ensemble des éléments de texte en fonction de leurs largeurs de trait et de leurs couleurs. Pour cela, nous utilisons la méthode de classificationmean shift (Cheng,

(17)

1995), qui ne nécessite pas un nombre prédéfini de classes. Nous supposons que deux composantsC1etC2appartenant à la même classe doivent vérifier (D étant le vecteur squelette de la transformée de distance) :

max

mean(D(C1))

mean(D(C2)),mean(D(C2)) mean(D(C1))

< a

|mean(I(C1))−mean(I(C2))|< b

Etant donné que le logarithme du quotient est égal à la différence entre les loga- rithmes du numérateur et du dénominateur, nous définissons, pour chaque composant C, la donnée d’entrée du modèle basée sur la moyenne comme suit :

M(C) =

log(mean(D(C))) mean(I(C)))

La largeur de bande (bandwidth)σqui correspond à l’écart autorisé dans chaque classe peut s’écrire sous la forme :

σ=

log(a) b

À la fin de cette étape, nous appliquons l’approche de projection de profil décrite dans (Yeet al., 2005) sur chaque classe de façon indépendante. En réalisant ce processus, nous pouvons éviter le problème de fusion décrit au début de cette section.

La figure 5 résume le résultat des différentes étapes du procédé de segmentation appliqué sur l’image originale de la figure 4a. Cette figure montre respectivement les résultats de la fonction VGLT (voir figure 4b), l’extraction des régions de photos (voir figure 4d), l’extraction des lignes (figure 4e), le résultat de la classification de texte en clusters (voir figure 4g) définis par l’algorithme de mean shift (voir figure 4f). Le résultat final est affiché en figure 4h. Ce résultat montre une segmentation des différentes régions de l’image de document. Notons que le texte de l’image originale contient différentes échelles, orientations (horizontales et verticales) et des contrastes différents.

8. Résultats expérimentaux

Dans nos expériences, les paramètres de l’algorithme proposé, à savoirt1 = 0,5, t2 = 0,2,a = 1,22,b = 40,ν = 1,5 sont définis et validés à partir d’une base différente d’apprentissage fournie par l’entreprise Océ. Cette base contient40images de documents et une vérité terrain que nous avons construite. Afin d’évaluer notre méthode, nous avons procédé à une comparaison des taux de segmentation de notre méthode à ceux des méthodes de segmentation des pages existantes qui ont participé à

(18)

(a) L’image de document original

(b) Candidats de texte et de lignes

(c) Résultat de l’inpainting

(d) Extraction des régions de photos

(e) Extraction des lignes

0 0.5 1 1.5 2 2.5

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

no shifting, numClust:4

(f) Classification par le mean-shift

(g) Composantes de texte après classification

(h) Résultat de la segmentation final

Figure 5. Illustration des différentes étapes de l’approche proposée

(19)

Figure 6. Résultats expérimentaux en utilisant les métriques de PRImA pour les différentes régions

la compétitionICDAR page segmentation competition(Antonacopouloset al., 2009).

Un système d’évaluation est composé d’une base de données appelée PRImA, une vé- rité terrain et un ensemble de résultats publiquement disponibles. Il est à noter que la base de donnée PRImA se compose de plusieurs images de documents réelles anno- tées dans des fichiers XML. Chaque image est composée de paragraphes, lignes, sé- parateurs et régions de photos. La figure 6 montre une étude comparative entre quatre méthodes existantes en utilisant les métriques PRImA (résultats et métriques sont disponibles dans (Antonacopoulos et al., 2009 ; Antonacopoulos, Bridson, 2007)). Ce scénario permet d’évaluer les performances de reconnaissance de toutes les méthodes de segmentation de pages pour différentes régions (image, séparateurs et texte) et ceci d’une manière indépendante.

Les résultats présentés (voir figure 6) montre de bonnes performances de notre méthode, en particulier, dans la détection des régions de texte et des images. Nos performances s’expliquent par le fait que nous utilisons une approche hybride afin de définir et regrouper les régions. En outre, l’étape de segmentation par contours actif (incluant l’inpainting) améliore la segmentation des différentes régions.

9. Conclusion

Dans cet article nous avons proposé une solution complète pour segmenter les images de documents numérisés. Dans un premier temps, une nouvelle méthode pour la détection d’inclinaison des documents numérisés est définie. Cette étape d’ajuste- ment est nécessaire si les documents sont inclinés car notre méthode comme la plupart des approches de la littérature se base en partie sur une technique de projection. Tout

(20)

d’abord, la différence des gradients nous a permis de segmenter l’image en zones de texte et zones de non-texte. Ensuite, et afin d’estimer l’angle d’inclinaison, nous avons utilisé le déterminant de la matrice Hessienne appliqué à la transformée de Rid- gelets. Les résultats expérimentaux ont montré que cette méthode est précise surtout en termes de variance de l’erreur. Ce qui signifie que la méthode proposée est robuste vis-à-vis de la diversité des documents. De plus, contrairement aux méthodes existantes, la méthode proposée pourrait être étendue à plusieurs angles de rotations de pages contenus dans une seule image de document en détectant différents angles d’inclinaison dominants dans l’image de la Hessienne.

Ensuite, nous avons décrit notre nouveau système de segmentation de pages à base de descripteur de trait. Pour cela, nous avons commencé par extraire les candidats de texte et de lignes en utilisant notre descripteur VGLT qui estime la variation de la largeur du trait pour chaque composante connexe dans l’image. Ensuite, nous avons décrit notre processus d’inpaintingqui permet l’élimination de ces candidats de texte et de lignes afin de traiter les régions de photos et d’arrière-plan. Les régions photo sont séparées de l’arrière-plan à la suite d’une segmentation basée sur le modèle de contours actif. Les lignes sont séparées du texte par l’utilisation d’un classificateur linéaire SVM appliqué sur un ensemble de caractéristiques discriminantes. Enfin, nous avons proposé d’utiliser un processus de profil de projection adaptatif dans le but de regrouper les régions de texte à l’aide du modèle mean-shift. Nous avons proposé une méthode hybride car nous combinons des processus basés sur les composantes connexes et ceux basés sur les régions. Les résultats sur la base de données publique PRImA montrent expérimentalement que notre approche donne de bons résultats pour segmenter et identifier les lignes, l’arrière-plan, les régions photos et le texte ayant une taille variable (multi-échelle).

Bibliographie

Antonacopoulos A., Bridson D. (2007). Performance analysis framework for layout analysis methods. InIcdar 2009 page segmentation competition, p. 1258–1262.

Antonacopoulos A., Pletschacher S., Bridson D., Papadopoulos C. (2009). Icdar 2009 page segmentation competition. InInternational conference on document analysis and recognition, p. 1370–1374.

Audithan S., Chandrasekaran R. (2009). Document text extraction from document images using haar discrete wavelet transform. InEuropean journal of scientific research, p. 502–512.

Benjelil M., Mullot R., Alimi A. M. (2012). Page segmentation based on steerable pyramid features. InInternational conference on frontiers in handwriting recognition, p. 262–267.

Candes E. J. (2001). Ridgelets: theory and applications. ph.d. thesis. Rapport technique. De- partment of Statistics, Stanford University.

Chan T. F., Vese L. A. (2001). Active contours without edges. IEEE Transactions on Image Processing, vol. 10, n^o2, p. 266–277.

(21)

Chaudhuri A., Chaudhuri S. (1997). Robust detection of skew in document images. IEEE Transactions on Image Processing, vol. 6, n^o2, p. 344–349. Consulté sur http://dx.doi.org/

10.1109/83.551708

Chen H., Tsai S. S., Schroth G., Chen D. M., Grzeszczuk R., Girod B. (2011). Robust text detection in natural images with edge-enhanced maximally stable extremal regions. In International conference on image processing, p. 2609–2612.

Chen Y. K., Wang J. F. (2000, février). Skew detection and reconstruction based on maxi- mization of variance of transition-counts. Pattern Recognition, vol. 33, n^o 2, p. 195–

208. Consulté sur http://www.sciencedirect.com/science/article/B6V14-3Y3PS7B-3/2/

79794e1e95ea1502d0a1539338b38f30

Cheng Y. (1995). Mean shift, mode seeking, and clustering. IEEE Trans. Pattern Anal. Mach.

Intell., vol. 17, n^o8, p. 790–799.

Chou C.-H., Chu S.-Y., Chang F. (2007). Estimation of skew angles for scanned documents based on piecewise covering by parallelograms.Pattern Recognition, vol. 40, n^o2, p. 443–

455. Consulté sur http://dblp.uni-trier.de/db/journals/pr/pr40.html#ChouCC07

Chuai-Aree S., Lursinsap C., Sophatsathit P., Siripant S. (2001). Fuzzy c-mean: A statistical feature classification of text and image segmentation method. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, vol. 9, n^o6, p. 661–671.

Criminisi A., Pérez P., Toyama K. (2004). Region filling and object removal by exemplar-based image inpainting.IEEE Transactions on Image Processing, vol. 13, n^o9, p. 1200-1212.

Do M. N., Vetterli M. (2000). Orthonormal finite ridgelet transform for image compression. In Icip.

Epshtein B., Ofek E., Wexler Y. (2010). Detecting text in natural scenes with stroke width transform. InIeee conference on computer vision and pattern recognition, p. 2963–2970.

Iwaki O., Kida H., Arakawa H. (1987). A segmentation method based on office document hierarchical structure. InConf. systems, man and cybernetics, p. 375–390.

Lam L., Lee S.-W., Suen C. Y. (1992). Thinning methodologies - a comprehensive survey.

IEEE Trans. Pattern Anal. Mach. Intell., vol. 14, n^o9, p. 869–885.

Lebourgeois F., Bublinski Z., Emptoz H. (1992). A fast and efficient method for extracting text paragraphs and graphics from unconstrained documents. InInt. conf. pattern recognition, p. 272–276.

Li S., Shen Q., Sun J. (2007). Skew detection using wavelet decomposition and projection profile analysis.Pattern Recognition Letters, vol. 28, n^o5, p. 555–562. Consulté sur http://

dblp.uni-trier.de/db/journals/prl/prl28.html#LiSS07

Matas J., Chum O., Urban M., Pajdla T. (2002). Robust wide baseline stereo from maximally stable extremal regions. InProceedings of the british machine vision conference, p. 1–10.

Nagy G., Kanai J., Krishnamoorthy M., Thomas M., Viswanathan M. (1988). Two comple- mentary techniques for digitized document analysis. InIn proceedings of the acm conf.

document processing systems, p. 169–176.

Phan T. Q., Shivakumara P., Tan C. L. (2009). A laplacian method for video text detection.

InIcdar, p. 66–70. IEEE Computer Society. Consulté sur http://dblp.uni-trier.de/db/conf/

icdar/icdar2009.html#PhanST09

(22)

Pnevmatikakis E., Maragos P. (2008). An inpainting system for automatic image structure - texture restoration with text removal. InIeee international conference on image processing, p. 2616–2619.

Postl W. (1986). Detection of linear oblique structures and skew scan in digitized documents.

InIcpr, p. 687–689.

Raju S. S., Pati P. B., Ramakrishnan A. G. (2004). Gabor filter based block energy analysis for text extraction from digital document images. InInternational workshop on document image analysis for libraries, p. 233–243.

Wong E. K., Chen M. (2003). A new robust algorithm for video text extraction. Pattern Recognition, vol. 36, n^o6, p. 1397–1406. Consulté sur http://dblp.uni-trier.de/db/journals/

pr/pr36.html#WongC03

Ye Q., Huang Q., Gao W., Zhao D. (2005). Fast and robust text detection in images and video frames.Image Vision Comput., vol. 23, n^o6, p. 565-576.