Le traitement des images au service du document patrimonial

(1)

au service du document patrimonial

Vers une pluridisciplinarité

Bénédicte Allier — Hubert Emptoz

Laboratoire Informatique de Recherche en Images et Systèmes d’informations (LIRIS), INSA de Lyon

20, ave Albert Einstein F-69621 Villeurbanne cedex allier@rfv.insa-lyon.fr emptoz@rfv.insa-lyon.fr

RÉSUMÉ. Le domaine du document est une science à part entière née dans les années 80, en même temps que le traitement des images, dont l’enjeu est l’extraction des informations constitutives du document dans un but de dématérialisation. Pour cela, les méthodes qui sont généralement utilisées fonctionnent au niveau du pixel, et sont, par conséquent, relativement vulnérables aux moindres variations (présence de bruit résiduel dans les images, nombre de couleurs utilisées…). A l’opposé, le traitement des images, beaucoup plus généraliste, propose sans cesse de nouveaux outils destinés à fonctionner sur des images de nature très variée (images médicales, satellitaires, vidéo…), possédant donc des propriétés très différentes. L’idée de cet article est donc de renforcer les liens entre ces deux univers, en montrant, sur quelques exemples précis au niveau du caractère, que l’application de techniques classiques en traitement d’image (comme les contours actifs ou les filtres de Gabor) peut apporter des solutions réelles aux problèmes posés par le traitement du document.

ABSTRACT. Document image processing is a particular task born in the 1980s’, as well as image processing, which aims at retrieving the structural information composing the documents. For that, most of the methods used so far worked at a pixel level, thus suffering from every variation document images may present (e.g. noise, number of colors used…). On the other hand, classical image processing is far more generic, aimed at images coming from very different sources (medical images, satellite images, video…), consequently presenting very different properties. The goal of this article is then to link these two areas, basing our study on two precise examples at a character level, using special tools such as active contours and Gabor filtering.

MOTS-CLÉS : traitement d’image, document, contours actifs, filtres de Gabor.

KEYWORDS: image processing, document, active contours, Gabor filters.

(2)

1. Introduction

Le développement des ordinateurs et des réseaux, et les avantages qu’ils présentent en matière de manipulation et de stockage d’informations écrites, font du support numérique un outil de plus en plus sollicité. Ainsi, le désir ou la nécessité de récupérer toujours plus d’informations provenant de documents papier, même anciens, suppose des mécanismes de reconnaissance du document qui ne se limitent pas à l’identification des caractères mais qui vont jusqu’à l’analyse de sa structure même. Cette demande a donné naissance, il y a une vingtaine d’années, en même temps qu’apparaissait le traitement d’images, à un domaine de recherche particulier : l’analyse et la reconnaissance du document (ARD).

D’un point de vue technique, la problématique du document, qui est donc une discipline à part, consiste en l’extraction des informations constitutives du document, comme la détermination des zones de texte et des zones non-texte ou encore la localisation des titres, sous-titres, paragraphes... Pour cela, de nombreuses méthodes d’analyse ont été proposées dans la littérature pour localiser les zones contenant l’information dans l’image (on parle de « segmentation physique »), mais aussi pour les caractériser, c’est-à-dire déterminer leur fonction dans le document (on parle d’« étiquetage logique » ou « étiquetage fonctionnel »), cf. figure 1.

C’est aussi le but de notre étude (Allier, 2001) qui s’appuie sur un corpus particulier : celui des inventaires-sommaires des archives départementales de Savoie. Cette collection de documents est composée de livrets imprimés datant de la fin du XIX^e siècle qu’il faut rendre consultables par le grand public, c’est-à-dire dans lesquelles on peut naviguer et que l’on peut interroger via leur saisie dans une base de données informatique qu’il est donc préférable d’automatiser.

Figure 1. (a) Exemple de segmentation physique sur une page d’inventaire- sommaire des archives départementales de Savoie

(3)

Figure 1. (b) Exemple d’étiquetage logique sur la même page

Dans la pratique, la plupart des méthodes utilisées pour réaliser ces tâches fonctionnent au niveau du pixel et sont, par conséquent, relativement vulnérables à la présence de bruit résiduel, au nombre de couleurs (images binaires ou niveaux de gris)… C’est pourquoi, dans cet article, nous voulons montrer qu’en appréhendant le document avec les techniques différentes provenant du traitement des images, c’est-à-dire avec une vision des choses plus généraliste, on peut arriver à des résultats intéressants que les seules méthodes usuelles du document n’atteindraient que difficilement. Pour argumenter notre propos, nous nous appuierons sur des exemples précis d’applications au niveau du caractère (les images des caractères étant obtenues par segmentation physique préalable).

L’article se divise donc en deux grandes parties (section 2 et section 3) organisées de la même façon : présentation de l’outil par sa formulation mathématique, puis application à un problème type du document. Dans la section 2, nous présentons donc le premier outil sur lequel nous nous basons : les contours actifs. Nous montrons ensuite que son utilisation est possible sur les documents, en proposant une méthode de reconstruction de caractères dégradés (théorie et résultats). Dans la deuxième partie, nous introduirons la notion de texture au sens du traitement des images en présentant une méthode d’analyse possible : le filtrage de Gabor. Puis, nous appliquerons ce concept, au niveau du caractère, dans le cadre de la reconnaissance de fontes et du prototypage.

2. Les contours actifs

Les contours actifs (ou « snakes ») ont été introduits il y a une quinzaine d’années par (Kass et al., 1988) et sont, depuis, très utilisés dans le domaine du traitement des images naturelles pour la segmentation d’objets, le suivi d’objets en

cote

dates

p

prroovveennaannccee

intitulé

intitulé suppl.

(4)

mouvement dans les séquences vidéo, la reconstruction 3D… Concrètement, les contours actifs sont des courbes continues (fermées ou non), initialement positionnées dans l’image contenant les données à détecter (par exemple, les contours d’un objet), qui vont évoluer de façon autonome vers un état stable correspondant à la détection de ces données. L’évolution dans le temps des snakes est régie par un processus itératif de minimisation d’une fonctionnelle d’énergie (à définir), interprétable en termes de forces physiques, de telle sorte que le snake final, c’est-à-dire celui pour lequel l’énergie est minimale, concorde avec les données recherchées.

2.1. Mise en équation

Un contour actif est décrit par une courbe C fonction du temps t et de l’abscisse curviligne s par : C=

{

v

( )

s,t =

(

x

( ) ( )

s,t ;ys,t

)

/s∈

[ ]

a;b et t∈

[ ]

0;T

}

, avec a et b les extrémités du snake, et T le nombre d’itérations. Le calcul de l’énergie est alors défini de façon à forcer le contour à évoluer suivant des contraintes de trois types :

– intrinsèques à la courbe : c’est l’énergie interne ou de régularisation (Einterne) qui permet de contrôler l’aspect physique du snake ;

– en interaction avec l’image : c’est l’énergie image ou d’attache aux données

(Eimage) liée aux informations provenant de l’image ; elle permet d’assurer la

convergence du snake en l’attirant vers des zones que l’on cherche à distinguer – sa participation dans l’énergie globale est pondérée par le coefficient κ > 0 ;

– fixées par l’utilisateur : c’est l’énergie externe (Eexterne) qui permet d’introduire des informations de haut niveau.

La formulation énergétique globale classique à minimiser s’écrit donc :

[1]

Dans cette équation, Einterne s’écrit en fonction des dérivées 1^ère et 2^edu contour, agissant ainsi respectivement sur sa longueur et sa courbure : le premier terme s’oppose à la formation d’irrégularités (lissage) tandis que le second agit sur sa capacité à se déformer localement (rigidité). L’énergie image dépend du gradient : elle est minimale lorsque le gradient est maximal, donc sur les frontières de l’objet.

C’est ce que montre la figure 2 où la courbe initiale converge vers le contour de

(5)

l’objet d’abord sous l’action de l’énergie interne, puis il se fixe grâce à l’action de l’attache aux données.

La formulation [1] nécessite généralement d’être complétée, pour éviter certains problèmes liés à l’initialisation du contour actif ou à l’existence de concavités dans les formes à segmenter (Kass, et al., 1988 ; Cohen, 1991 ; Xu, et al., 1997).

Figure 2. Exemple de convergence des contours actifs : a) image originale + contour initial ; b) image de gradient + évolution du contour ; c) contour final

2.2. Cas des images de documents

Comme nous venons de l’expliquer, les contours actifs permettent de segmenter une forme donnée dans une image, en fonction d’un certain nombre de critères à spécifier. Leur formulation, très générique, en fait un outil adaptable à des images provenant de domaines très variés : c’est ainsi que les contours actifs sont devenus un outil privilégié en imagerie médicale ou en vidéo. Dans ces conditions, il n’y a aucune raison pour que les images de documents ne puissent être traitées à leur tour ; c’est ce que nous voulons montrer dans les paragraphes suivants, par un exemple d’utilisation sur les images de documents au niveau du caractère.

2.3. Exemple : reconstruction de caractères dégradés

L’expérience que nous présentons ici s’inscrit dans le contexte de numérisation de la collection des inventaires-sommaires (déjà présenté) et porte sur des images qui présentent un grand nombre de dégradations. La première étape était de trouver un moyen de reconstruire les caractères dégradés d’une façon la plus précise possible, contrairement à la plupart des méthodes déjà proposées dans la littérature qui se contentent généralement d’en fournir une image moyenne (Billawala, et al., 1993 ; Whichello, et al., 1996). Ce besoin de précision résulte du procédé de l’imprimerie lui-même, qui utilise depuis son invention des caractères mobiles fondus dans des moules sculptés par des graveurs dont le style est caractéristique (parmi les plus connus : Claude Garamond, les Didot ou plus récemment : Herman Zapf…). La connaissance de tels détails, pour des documents d’époque, est d’importance puisqu’ils contribuent à retracer l’histoire des régions (et donc de la

(a) (b) (c)

(6)

France) en renseignant sur l’imprimerie d’origine, les flux financiers ou de marchandises…

Figure 3.Synopsis de la reconstruction par la méthode des contours actifs

2.3.1. Principe

Dans ce cadre, nous avons mis au point un algorithme basé sur l’utilisation des contours actifs dans le cas particulier des caractères dégradés. Avec ces derniers, la principale difficulté rencontrée réside dans le fait que l’information de gradient (donc l’attache aux données assurant la convergence du snake) est inexistante à l’endroit des dégradations, il faut donc trouver un moyen de recouvrer l’information perdue dans les zones dégradées sans toucher à la forme du caractère ailleurs. Pour cela, nous utilisons la force GVF introduite dans (Xu, et al., 1997) dérivée de l’information de gradient, qui permet de propager son effet dans l’image toute entière. Il s’agit d’un calcul préalable à faire sur l’image et à intégrer ensuite dans le mécanisme de convergence des contours actifs, de telle sorte que le champ GVF est défini comme la solution g(x,y) = [(u(x,y),v(x,y)], sur l’image toute entière, de l’équation :

( )

∫∫

^∇ ^⋅^∇ ⁺ ^∇ ^× ⁻^∇

= u v f g f dxdy

F^GVF µ K K ² ² ^[2]

avec f l’image de contours calculée à partir de l’image originale I. Dans cette équation, loin des frontières, i.e. lorsque la quantité ∇f ² est petite, c’est le terme en µ qui domine, assurant ainsi le champ lisse ; à l’inverse lorsque ∇f ² est grande,

n=nb iter ? initialisation du contour

vn+1(s)) = fct(vn(s))

non

contour final oui

évolution du contour actif

image de caractère dégradé + paramètres du snake

pré-traitements calcul du champ GVF global

détermination d’un caractère « idéal »

calcul du champ GVF localisé

(7)

c’est le second terme qui domine dans l’intégrale et qui est minimal lorsque f 2

g= ∇ (i.e. sur la frontière réelle).

Finalement, on substitue dans [1] le champ GVF dégradé (i.e. de l’image originale dégradée) à l’endroit de la dégradation par celui d’une image extérieure considérée comme « idéale », par l’intermédiaire du terme d’énergie externe (cf.

synopsis de la reconstruction, figure 3).

La figure 4 propose un exemple de réalisation sur des images synthétiques en noir et blanc, où le caractère « idéal » a volontairement une silhouette différente de celle du caractère dégradé pour montrer clairement ce qu’il se passe au niveau des attractions (a)-(b) : le contour actif est attiré par le caractère original dans les zones non dégradées (c), et il est attiré par le caractère « idéal » sur la dégradation (localisée par un rectangle).

Figure 4. Convergence d’un contour actif avec les forces GVF dégradée +

« idéale » localisée pour α = 1,0 ; β = 0,5 ; γ = 3,0 ; κ = 1,2 et κ_a = 2,5κ (150 itérations) ; a) image originale dégradée ; b) image « idéale » ; c) image du gradient + évolution ; d) contour final

Un exemple de reconstruction de caractère dégradé dans le cas réel est présenté figure 5, avec à gauche le caractère dégradé, au centre le caractère « idéal » considéré et à droite le résultat de la reconstruction avec les contours actifs.

2.3.2. Précisions

Dans l’application précédente, la dégradation est localisée de façon automatique.

Cela est possible en utilisant une connaissance structurelle extraite sous forme de graphe (Allier, et al., 2002). En revanche, la détermination du caractère « idéal » a été réalisée manuellement, et une partie de nos travaux consistent aujourd’hui à l’automatiser en utilisant des méthodes simples de redondance de formes.

(a)

(b)

(c) (d)

(8)

2.4. Bilan

Avec cette application, nous avons montré que les contours actifs (Kass, et al., 1988), outil largement exploité dans le domaine du traitement des images naturelles, pouvaient offrir de nouvelles possibilités sur les images de document comme la reconstruction de caractères, mais aussi leur segmentation, leur vectorisation (puisque les snakes sont définis comme une liste de points connectés), etc.

Figure 5. Contour actif utilisé en reconstruction avec la formulation [1] ; a) image originale dégradée ; b) image « idéale » ; c) image dégradée + contour final

(b) (c)

(a)

(9)

3. Les filtres de Gabor

Le but des méthodes d’analyse et de caractérisation de texture est de décrire l’impression visuelle qu’elle produit comme un mélange de signaux de fréquences, d’amplitudes et de directions différentes. Ces techniques se révèlent particulièrement efficaces dans la mesure où elles sont précisément inspirées du mécanisme de la vision humaine qui opère une décomposition fréquentielle systématique des images qui parviennent sur la rétine.

Parmi ces méthodes, les filtres de Gabor bidimensionnels permettent l’extraction directe de caractéristiques de texture localisées en fréquence et en orientation. Pour y parvenir, l’idée est de bâtir un banc de filtres très sélectifs en fréquence et en orientation, et de filtrer l’image à analyser avec chacun d’eux. Le calcul a posteriori de paramètres sur les images résultats permet d’en caractériser les textures.

3.1. Mise en équation

D’un point de vue mathématique, une fonction de Gabor bidimensionnelle h est une sinusoïde complexe modulée par une gaussienne, et orientée d’un angle θ par rapport à l’axe des abscisses, c’est-à-dire, dans le domaine spatial, pour une sinusoïde de fréquence

u

₀ le long de l’axe des x (i.e. θ = 0°) :

[3]

où σ_x (resp. σ_y) désigne l’écart-type de la Gaussienne le long de l’axe des abscisses (resp. l’axe des ordonnées). Les filtres avec des orientations θ quelconques (θ ≠ 0), sont obtenus par rotation de la formulation de base [3] dans le plan. Si on applique la transformée de Fourier à [3], on obtient :

( ) ( ( ) ) ( ) ( )











 



 



 

 



 + +

−

+



 



 

 



 − +

−

=

= σ σ σ σ²

2 20

2 2

2 20

2

21 2 exp

exp 1 . , ,

v u v

u

u v v u

u u A

y x h TF v u

H [4]

avec : σ_u = 1/2πσ_x, σ_v = 1/2πσ_y et A = 2πσ_xσ_y. La représentation fréquentielle montre alors clairement la sélectivité des filtres en fréquence et en orientation qui se traduit par des pics très localisés dans le plan de Fourier à distance +

u

₀de l’origine, orientés de θ par rapport à l’axe des fréquences horizontales u. On peut enfin montrer (Jain, et al., 1991) que le banc de filtres de Gabor permet de couvrir la quasi-totalité de l’espace des fréquences et que, dans la mesure où il n’y a que peu de recouvrement entre eux (cf. figure 6), la décomposition d’une texture dans le plan de Gabor est unique et caractéristique.

(10)

3.2. Cas des images de documents

Les propriétés que nous venons de présenter font des filtres de Gabor un outil puissant et très utilisé pour l’analyse et la caractérisation de texture dans les images de toute nature. Malgré cela, leur utilisation reste relativement marginale dans le domaine du document : la plupart des applications visent simplement la séparation des zones texte et non-texte (Wu, et al., 1997 ; Jain, et al., 1992 ; Zhu, et al., 2001).

Nous proposons donc de montrer sur un exemple précis de caractérisation de fonte, que l’analyse de Gabor permet d’obtenir des résultats très intéressants pour le traitement du document en général.

Figure 6. Représentation en fréquence d’un banc de 24 filtres de Gabor (6 fréquences et 4 orientations), l’origine (u;v) = (0;0) étant située au centre de l’image

3.3. Exemple : prototypage de caractères

L’expérience que nous décrivons maintenant a été menée dans le cadre de l’extraction de la structure logique des archives, où nous cherchions un moyen de caractériser les différentes fontes composant les documents. Les méthodes proposées pour cela dans la littérature du document sont essentiellement basées sur des calculs statistiques au niveau du pixel, et sont donc très sensibles aux moindres artéfacts présents dans l’image (Allier, et al., 2003a). Notre travail est basé sur le constat qu’un texte typographié imprimé peut être vu comme une juxtaposition de petites régions texturées au niveau du caractère (il semble évident que les caractères

‘a’ et ‘a’ ou ‘o’ et ‘z’, qui présentent visuellement des fréquences et des orientations différentes, ne peuvent donner lieu aux mêmes caractéristiques de texture). C’est ce que nous voulons prouver avec les expériences que nous présentons maintenant.

3.3.1. Caractéristiques de texture

Dans nos expériences, nous utilisons un banc de 24 filtres de Gabor, comme présenté dans (Manjunath, et al., 1996), définis dans une fenêtre 128 × 128, avec S = 4 fréquences radiales (u0 =0.05, 0.1, 0.2, 0.4) et K = 6 orientations (θ = 0, π/6, π/3, π/2,

u v

(11)

2π/3, 5π/6), dans la mesure où cette configuration permet la caractérisation d’un grand nombre de textures. Les ensembles d’images que nous testons sont composés d’échantillons répartis en 2 catégories : M prototypes et N images tests à classer.

Notre méthode comporte quatre grandes phases (cf. figure 7, synopsis de la caractérisation de texture). Pour chaque image filtrée, les statistiques de texture calculées sont la moyenne µ et l’écart-type σ. La comparaison de chaque échantillon i (∀i∈[1 ; N]), de caractéristiques

(

µ_i^k;σ_i^k

)

selon le k^ième filtre, avec tous les prototypes j (∀j∈[1 ; M]), de caractéristiques

(

µ ;σ^kj

)

k

j , est donnée par le calcul de distance :

( )

∑ ∑

( ) ( )

=

= 













 −

− +

=

= ²⁴

1 24

1

;

k

kj ik k

j k i k

kij

ij d i j d norm norm

d σ σσ

µ µ

µ [5]

où norm(µ) (resp. norm(σ)) désigne la normalisation de la variable µ (resp. σ) sur l’ensemble de la base.

Les distances sont finalement reportées dans un espace à M dimensions, où on applique le classifieur AutoClass, basé sur une combinaison de classifieurs bayésiens pour déterminer automatiquement le nombre maximum de classes le plus probable (Cheeseman, et al., 1996).

Figure 7. Synopsis de la caractérisastion de texture par les filtres de Gabor

a

^a

N échantillons

filtrage de Gabor (24 filtres)

calcul des caractéristiques (µ, σ) N × 24 filtrées

N × 48 données

distances échantillons-prototypes classification M -dimensions

dproto1

dproto2

a ^a a

M prototypes

filtrage de Gabor (24 filtres) M × 24 filtrées

M × 48 données calcul des caractéristiques (µ, σ)

(12)

3.3.2. Expérience 1 : caractérisation des caractères

Dans la première expérience, on considère pour une fonte donnée, les 14 caractères les plus courants : ‘a’, ‘c’, ‘d’, ‘e’, ‘i’, ‘l’, ‘m’, ‘n’, ‘o’, ‘p’, ‘r’, ‘s’, ‘t’,

‘u’. Nous retenons environ 560 images de caractères au total, parmi lesquelles nous choisissons au hasard 14 prototypes (cf. figure 8a). Les caractéristiques de Gabor, puis les distances entre échantillons et prototypes sont donc calculées et reportées dans un espace à 14 dimensions où AutoClass est mis en œuvre.

La classification est lancée 500 fois sur le même ensemble de données, et nous obtenons 17 classes, dont les prototypes extraits correspondants sont présentés sur la figure 8b. Parmi celles-ci les formes singulières comme : ‘e’, ‘r’, ‘s’, ‘t’, ‘i’, ‘a’, ‘o’,

‘l’, ‘m’ et ‘c’ ont été extraites sans aucun problème. Trois autres classes (3ê, 8ê et 10ê) sont composées de caractères différents : la première composée de ‘n’ et de ‘u’, les deux autres composées de ‘d’ et ‘p’. Ces erreurs sont dues à l’analyse de texture par les filtres de Gabor qui sont insensibles à la translation et à la symétrie, or les paires de caractères présentés précédemment peuvent être vues comme différentes orientations d’un même motif. Les classes sur la dernière ligne sont des classes de rejet qui contiennent au plus 5 caractères. Finalement, le taux de reconnaissance obtenu atteint 96.4 % sans connaissance a priori sur les formes à comparer.

L’analyse de Gabor semble donc bien être déterminante au niveau du caractère.

(a) (b)

Figure 8. a) Images de caractères choisis aléatoirement comme prototypes, pour une fonte donnée et numéros des classes correspondants ; b) prototypes résultants après la caractérisation de texture par le filtrage de Gabor

3.3.3. Expérience 2 : caractérisation des fontes

Nous reproduisons la même expérience, pour tâcher de reconnaître les fontes, cette fois. Ainsi, nous choisissons le caractère ‘a’ très utilisé en français et très présent dans nos images, même pour les fontes les moins usitées. En choisissant une série de caractères au hasard dans nos documents, on bâtit un ensemble de

≈ 370 images de caractères réparties en 11 fontes différentes (dont les prototypes

(13)

sont indiqués figure 9a), et on applique à nouveau le logiciel de classification 500 fois dans l’espace à 11 dimensions.

On obtient 13 classes, dont les prototypes extraits sont présentés figure 9b ; parmi celles-ci 11 contiennent une seule et même fonte (classes 1 à 11), même si certaines paraissent très similaires (par exemple, les 2^e et 5^e classes), et les deux dernières sont des classes de rejet contenant au total 8 échantillons. Finalement, le taux de reconnaissance est estimé à ≈ 97.0 % sans connaissance a priori, ce qui est particulièrement intéressant.

Une expérience similaire a été menée pour le caractère ‘s’, sur environ 350 images tests, et le taux de reconnaissance obtenu est de ≈ 96.85 %.

(a) (b)

Figure 9. a) Images de caractères ‘a’ choisis aléatoirement comme prototypes dans différentes fontes, et numéros des classes correspondants ; b) prototypes résultants après la caractérisation de texture par le filtrage de Gabor

3.3.4. Précisions

Comme nous l’avons dit plus tôt, le filtrage de Gabor ne permet pas de dissocier une forme de sa translatée ou de sa symétrisée. Nous avons donc dû compléter notre étude par une méthode très simple basée un calcul de différence symétrique, pour estimer la ressemblance de deux formes (Allier, et al., 2003b) : nous atteignons un taux de reconnaissance de 92.4 % pour les caractères ‘u’ et ‘n’ sur 79 échantillons, et 100 % de reconnaissance pour ‘d’ et ‘p’ sur 42 échantillons.

3.4. Bilan

Les deux expériences précédentes permettent de montrer que l’analyse de texture par un banc de seulement 24 filtres de Gabor (4 fréquences et 6 orientations) (Jain, et al., 1991), éventuellement complétée par une méthode simple de comparaison de formes, permettait de dissocier 11 fontes et 14 caractères différents avec un taux de reconnaissance global de ≈ 97.0 %. Ceci offre de nouvelles possibilités au domaine du document (qui n’a, jusqu’à maintenant, attaché que très peu d’attention à cet outil du traitement des images) en permettant la reconnaissance

(14)

des polices, i.e. un « pré-étiquetage » logique, la reconnaissance de caractères ou leur segmentation.

4. Conclusion

Le domaine du document est une science à part entière née dans les années 80, en même temps que le traitement des images, dont l’enjeu est l’extraction des informations constitutives du document dans un but de dématérialisation. Pour cela, les méthodes qui sont généralement utilisées fonctionnent au niveau du pixel, et sont, par conséquent, très vulnérables aux moindres variations (présence de bruit résiduel dans les images, nombre de couleurs utilisées…). A l’opposé, le traitement des images, beaucoup plus généraliste, propose sans cesse de nouveaux outils destinés à fonctionner sur des images de nature très variée (images médicales, satellitaires, vidéo…). Nous avons donc montré dans cet article, en nous basant sur deux applications précises (l’une à base de contours actifs, l’autre d’analyse de texture par les filtres de Gabor), que les techniques du traitement des images étaient transposables au domaine du document, et qu’elles pouvaient même aider à la résolution de problèmes aussi complexes que l’extraction de structure logique. Ces premiers résultats nous encouragent donc à poursuivre nos efforts dans le sens de la pluridisciplinarité.

Remerciements

Nous tenons à remercier le Centre des archives départementales de Savoie pour nous avoir fourni les documents sur lesquels nous travaillons. Nous remercions également la région Rhône-Alpes pour son soutien financier.

5. Bibliographie

Allier B., Numérisation des Archives Départementales de Savoie : première analyse, Rapport de recherche RR2001-4, avril 2001, Laboratoire RFV/LIRIS - INSA Lyon.

Allier B., Emptoz H., « Degraded Character Image Restoration Using Active Contours: A First Approach », Actes de ACM DocEng’02, McLean, Va (USA), 2002, p. 142-148.

Allier B., Duong J., Gagneux A., Mallet P., Emptoz H., « Texture Feature Characterization for Logical Pre-labeling », Actes de ICDAR 2003, Edinburgh (Scotland), 2003a, p. 567- 571.

Allier B., Emptoz H., « Character prototyping in document images using gabor filters », Actes de IEEE ICIP 2003, Barcelone (Espagne), 2003b.

Billawala N., Hart P. E., Peairs M., « Image Continuation », Actes de 2nd ICDAR, Tsukuba (Japan), 1993, p. 53-57.

(15)

Cheeseman P., Stutz J., « Bayesian classification (Autoclass): Theory and results », Advances In Knowledge Discovery And Data Mining, 1996, p. 153-180.

Cohen L. D., « On Active Contour Models and Balloons: Image Understanding », Computer Vision, Graphics and Image Proc. - CVGIP, vol. 17, n° 2, 1991, p. 211-218.

Jain A. K., Bhattacharjee S. K., Chen Y., « On texture in document images », Actes de IEEE CVPR, Champaign, Illinois (USA), 1992, p. 677-680.

Jain A. K., Farrokhnia F., « Unsupervised Texture Segmentation Using Gabor Filters », Pattern Recog., vol. 24, n° 12, 1991, p. 1167-1186.

Kass M., Witkin A., Terzopoulos D., « Snakes: Active Contour Models », IJCV, vol. 1, n° X, 1988, p. 321-331.

Manjunath B. S., Ma W. Y., « Texture Features for Browsing and Retrieval of Image Data », IEEE Trans. on PAMI, vol. 18, n° 8, 1996, p. 837-842.

Whichello A., Yan H., « Linking Broken Character Borders with Variable Sized Masks to Improve Recognition », Pattern Recog., vol. 29, n° 8, 1996, p. 1429-1435.

Wu V., Manmatha R., Riseman E. M., « Finding Text in Images », Actes de Second ACM Int.

Conf. on Digital Libraries, Philadelphia, PA (USA), 1997, p. 23-26.

Xu C., Prince J. L., « Gradient Vector Flow: A New External Force for Snakes », Actes de IEEE CVPR’97, San Juan, Puerto Rico (USA),, 1997, p. 66-71.

Zhu Y., Tan T., Wang Y., « Font Recognition Based On Global Texture Analysis », IEEE Trans. on PAMI, vol. 23, n° 10, 2001, p. 1192-1200.