• Aucun résultat trouvé

La seconde méthode permettant d’obtenir des images de filigranes consiste à digitaliser une encyclopédie contenant le décalque des fili-granes. L’encyclopédie utilisée pour construire notre base de données est celle de Briquet [10]. Celle-ci contient environ seize mille reproductions de filigranes. Ils sont regroupés dans quatre volumes et sont classifiés par thèmes: Agneaux, Aigles,..., Trident (Annexe A-1). Chacun de ces fili-granes est représenté à l’échelle 1:1 et sont reproduits par un trait noir sur un fond blanc. Chaque page de l’ouvrage comporte la représentation de plusieurs filigranes placés les uns à côté des autres (figure 4.4). De plus, trois informations supplémentaires figurent avec chacun des filigranes:

l’espacement des chaînettes, la vergeure et un numéro d’identification (de 1 à 16000, placé en dessous du filigrane).

Les chaînettes y sont représentées généralement par deux ou trois traits verticaux, espacés de 2 à 6 centimètres environs, et qui permettent de localiser et de repérer la position du filigrane par rapport à ces fils de chaîne.

Figure 4.3: Quatre images de filigranes après les étapes de prétraitement sur les images de la figure 4.2.

Les vergeures sont des traits très fins espacés d’environ 2 millimètres et qui sont représentés par une série de petits traits horizontaux générale-ment dessinés à côté de l’une des chaînettes.

Quant au numéro associé aux filigranes, il permet de se référer à l’in-dex de l’ouvrage contenant plusieurs informations textuelles sur le fili-grane: la période durant laquelle le papier à été produit, le lieu, le moulin à papier, le propriétaire, le type de papier, un petit historique de l’origine du papier, etc.

Afin de ne pas abîmer ces encyclopédies, une photocopie des pages a tout d’abord été effectuée. A partir de ces reproductions, les filigranes sont scannés page par page (figure 4.4.a). La résolution choisie est de 150 dpi et le format de sauvegarde fourni par le scanner est le format TIFF (Tag Image File Format) [122]. La taille des images varie de 116x116 pixels pour la plus petite des images à 1064x1630 (hauteur x largeur). En-suite, chacune des images des filigranes contenues dans la page est sélec-tionnée manuellement puis sauvegardée seule dans des fichiers différents (ceci s’effectuant à l’aide de l’utilitaire xv), voir la figure 4.4.b. Par convention le nom du fichier est filx.tif, où x est le numéro d’index

Figure 4.4: Présentation de l’encyclopédie de Briquet. (a) Page entière de l’ency-clopédie. (b) Description des diverses informations accompagnant un filigrane.

(a)

Filigrane représentant un soleil. Nom du fichier:

fil13252.tif

vergeures fils de chaînettes

filigrane

index

(b)

identifiant le filigrane; par exemple, le premier filigrane a pour nom:

fil00001.tif.

Lors de l’acquisition des filigranes, plusieurs problèmes peuvent in-tervenir. Le fait de ne pas travailler directement avec les pages originelles implique nécessairement des erreurs de reproduction lors de la photocopie des pages (bruit de fond, taches, mauvais contraste) et aussi lorsque l’on digitalise les images (position non verticale du papier dans le scanner, bruits, etc.). Les erreurs de contraste peuvent être corrigées directement lors de la photocopie des pages, tandis que pour les erreurs dues aux bruits, il est nécessaire d’appliquer un filtre adéquat pour leur suppression sur l’image. L’erreur la plus importante provient lors de la digitalisation des pages photocopiées. En effet, si celles-ci ne sont pas correctement pla-cées dans le scanner, les filigranes ne seront pas exactement alignés ver-ticalement. La seule solution acceptable et rapide consiste à effectuer une réorientation manuelle de la page de mouvement contraire à l’erreur de ro-tation et de la scanner une seconde fois. Après des dizaines de pages digi-talisées et les compétences de l’opérateur s’améliorant de page en page, ce problème tend à disparaître.

Avant de pouvoir insérer ces images dans notre base de données, il convient d’effectuer aussi des prétraitements. Pour cela, nous avons opté pour l’utilisation d’une plate-forme de travail commerciale qui permet la manipulation aisée d’images ainsi que leurs traitements. Cette plate-forme, KBVision [41], permet la manipulation d’images de format IM. Nous devons donc convertir les images dans ce format (voir l’algorithme de la figure 4.5). La tâche RasToIm fournie avec ce logiciel permet de convertir les images de format Sun Raster [122] dans le format IM, la tâche RasToKBV permet quant à elle de convertir en parallèle N images. Les images fournies par le logiciel de digitalisation étant dans le format TIF, nous transformons celles-ci grâce au programme tiffto-ras.csh fonctionnant sous Unix (ce c-shell utilise les logiciels tif-ftopnm et pnmtorast). Mais préalablement, nous effectuons une inversion des couleurs noires et blanches en utilisant le c-shell tiffin-vert.csh qui fait appel aux logiciels tifftopnm, pnminvert et pnmtotiff. Ces programmes de conversion peuvent être trouvés dans l’annexe A-9.

4-4 Prétraitements

Avant le stockage proprement dit des images dans notre base de don-nées, il est nécessaire d’effectuer des prétraitements pour en extraire les informations importantes et utiles pour les différentes phases de re-cherche. Il est aussi nécessaire de supprimer des images les informations inutiles ou redondantes. Par exemple, le bruit ou les tâches présents dans les images doivent être éliminés.

Les phases principales de prétraitements sur les images provenant soit des encyclopédies, soit des anciens papiers, sont les suivantes et seront détaillées dans les prochains paragraphes:

• Elimination du bruit. Les petites régions sont supprimées des images. Elles proviennent de différentes sources (encyclopédie, photocopieuse ou scanner).

• Elimination de l’index.

• Détection de la vergeure. Les fils vergeures doivent être détectés afin de pouvoir déterminer l’épaisseur des fils ainsi que leurs espa-cements. Par la suite, les fils de vergeures seront supprimés de l’image.

• Réduction de l’image. L’image étant digitalisée en 150 dpi, nous pouvons nous permettre de réduire les images d’un facteur deux en largeur et en hauteur. La place nécessaire sera ainsi réduite d’un facteur 4 sans perte d’informations essentielles pour les algorithmes de comparaison. Les images originelles, sans modification, sont quant à elles toujours accessibles.

• Détection des chaînettes. Les fils de chaîne doivent être localisés

Figure 4.5: Série de filtres de conversion de formats utilisés lors de l’algorithme d’acquisition des images.

- Digitalisation de pages entières: scan -> image.tif - Inversion de l’image: tiffinvert -> image.tif - Changement de format: tifftoras -> image.ras - Changement de format: RAS2KBV -> image.im

phase, une fois leurs positions connues, les chaînettes sont suppri-mées de l’image.

• Squelettisation du filigrane. Après avoir supprimé la vergeure, les chaînettes ainsi que l’index, il ne reste plus que le filigrane dans l’image. Celui-ci est alors squelettisé afin d’obtenir un contour d’une épaisseur d’un pixel.

• Peaufinement du tracé du filigrane si de petites parties du contour sont manquantes.

• Description textuelle du filigrane. Les informations fournies par Briquet sont récupérées et retranscrites.

• Sauvegarde du filigrane (dans le format GIF) et de ses caractéris-tiques dans la base de données.

Les paragraphes suivants détaillent ces différentes étapes qui sont né-cessaires pour obtenir une image de bonne qualité des filigranes (figure 4.6).