4 ARCHIVAGE DES FILIGRANES - Acquisition, archivage et recherche de documents accessibles par l

4-1 Introduction

De nos jours, un grand nombre de systèmes informatiques ont été créés afin de retrouver dans une librairie digitale d’iconographies, des images de contenus similaires. Certains de ces systèmes sont orientés vers un domaine bien spécifique, par exemple médical [38], spatial [57]

ou encore géographique [107]. D’autres, en revanche, fournissent des utilitaires généraux permettant de retrouver des images n’appartenant pas à un domaine particulier [3]. Des exemples bien connus sont les sys-tèmes QBIC pour Query By Image Content développé par IBM [31], Ex-calibur [136] ou bien Iris [1] qui permet en plus de traiter des images vidéo. Pour retrouver des images similaires, ces systèmes utilisent géné-ralement comme critères de recherche des informations sur la couleur, la texture ou la forme. Le logiciel SPIP développé dans notre laboratoire, est basé selon ce principe et permet, par exemple, de rechercher des tex-tures similaires pour la spécification des peintex-tures marbrées [66].

Typiquement, ces systèmes permettent de retrouver des images selon deux modes de fonctionnement: soit l’utilisateur remplit un question-naire spécifiant les composantes principales de l’image à retrouver (cou-leur, texture et/ou forme), soit il fournit une image de base et le système retrouve toutes celles qui lui sont similaires. Contrairement aux données

textuelles, il ne s’agit pas de retrouver une donnée exacte, mais plutôt des images de type satisfaisant à un critère de ressemblance.

Le besoin de sauvegarder des documents anciens a toujours été une des tâches les plus importantes de la communauté des historiens. Aussi bien les manuscrits que les papiers provenant d’archives nationales ou de bibliothèques doivent être répertoriés, sauvegardés puis archivés, afin de pouvoir retrouver un document très rapidement. Plusieurs tentatives ont été effectuées pour la sauvegarde de tels documents, par exemple en uti-lisant des moyens photographiques ou en utiuti-lisant d’autres supports tels que les microfilms [117]. Malheureusement, le manque de simplicité d’utilisation ainsi que la résolution trop grossière des photographies obte-nues par ces procédés ne permettaient pas d’obtenir des résultats en un temps acceptable ainsi qu’une précision suffisante pour la reconnaissance et la description des petits détails. De plus, dans notre cas, il était impos-sible d’obtenir une image nette et précise des informations contenues dans le papier, tel que les pontuseaux, les fils de chaîne ou le filigrane. Finale-ment, une autre contrainte liée à ces supports de substitution est le fait qu’ils se trouvent localisés dans des institutions spécialisées, d’où la contrainte de déplacements fastidieux et peu rapides pour obtenir ces do-cuments.

Avec la révolution de l'électronique, des moyens de stockage d’infor-mations importants ainsi que des réseaux mondiaux d’interconnexions d’ordinateurs, il est devenu possible d’archiver ces documents précieux, de les documenter et de les retrouver. Dans ce contexte, deux projets im-portants pour les historiens ont vu le jour récemment. Le premier, dénom-mé DOCSCAN [118], concerne tout ce qui touche à la digitalisation des papiers ainsi qu’à la description précise de chacun des documents, que ce soit au niveau du papier (forme, texture, taille, filigrane, etc), de l’écriture présente sur le manuscrit ou de l’histoire du document (origine, date, lieu, moulin à papier, etc). Ce projet consiste, pour les historiens, à ne plus tra-vailler sur un ancien document réel (souvent ces documents sont fragiles et rares) mais à travailler sur un document virtuel et digital. Ces docu-ments électroniques peuvent être étudiés par les historiens de différents endroits sans risquer de les abîmer ou de les fragiliser. Le but principal de ce projet est donc la mise en valeur de ces documents anciens pour leur étude.

Le second projet dénommé KRYPICT [83][84] concerne l’aspect in-formatique du système. Cela se rapporte tout aussi bien aux capacités de stockage de l’information, aux types d’accès aux données, à la diffusion et à la protection des droits d’auteurs de ces documents, qu’aux moyens de retrouver un document de manière rapide et efficace [85][86][92][93][94][95].

Pour l’archivage, un logiciel de gestion de bases de données a été adopté pour tout ce qui concerne le stockage physique des données (images, documentation et données diverses). La documentation ainsi que la diffusion des informations s'effectuent par l’intermédiaire du réseau mondial Internet. Une personne située n’importe où dans le monde a donc la possibilité de consulter notre base de données. Il est aussi possible pour les utilisateurs ayant un droit d’accès privilégié d’étoffer la base de don-nées en ajoutant, corrigeant ou modifiant de nouveaux éléments. En ce qui concerne la recherche de documents, l’utilisateur a le choix entre une cherche textuelle basée sur la description des documents ou bien une re-cherche basée sur les caractéristiques des marques (filigranes) contenues dans ces documents.

Ces marques visibles par transparence, appelées filigranes, sont pré-sentes dans de nombreux anciens papiers et ont une importante valeur his-torique. L’origine et la date de création d’un papier inconnu peuvent par exemple être précisées par comparaison avec d’autres documents déjà ré-pertoriés et ayant un filigrane similaire. Les échanges culturels et com-merciaux entre cités moyenâgeuses se reflètent également dans l’évolution des motifs composant les filigranes. En raison cependant du nombre élevé de filigranes, de leur rareté ainsi que de leur fragilité et fi-nalement du caractère subjectif des diverses classifications rencontrées [47], il est très malaisé pour un utilisateur de retrouver des filigranes ana-logues à un modèle connu. Le nombre de filigranes répertoriés s’élève à environ 120’000-140’000, tandis que la plus grande collection contient 660’00 filigranes (Leipzig) sur un nombre total de filigranes qui est esti-mé à 6-7 millions.

Une autre partie importante du projet Krypict est la protection des droits d’auteurs des informations sauvegardées et lues de notre base de données. Le défaut majeur de la création d’une base de données

électro-fait que ces données peuvent être interceptées puis dupliquées et ainsi re-distribuées, ceci de manière très rapide et sans contrôle de la part du four-nisseur d’informations. Ainsi, les éditeurs et les musées sont très hésitants à disséminer leurs matériels par des moyens de communication informa-tique. Les possibilités commerciales de l’utilisation du réseau Internet par le World Wide Web est devenu de plus en plus appréciable, mais il est clair que l’aspect de la protection intellectuelle doit être renforcé. Pour ce-la, trois méthodes de protection sont disponibles. La première se situe au niveau de la base de données utilisée; un code d’accès ainsi qu’un mot de passe est nécessaire pour l’accès aux données. De plus, plusieurs niveaux de priorité peuvent être installés. La seconde méthode de protection se si-tue au niveau du transport de l’information à travers le réseau Internet. En collaboration avec la société R³Security Engineering, Wetzikon-Zürich, un prototype a été développé permettant le transfert de données (images et textes) de manière hautement sécurisée [75]. La dernière méthode se si-tue directement au niveau des données, l’algorithme utilisé s’appliquant sur les images. Celles-ci sont protégées grâce à une clef d’identification unique à chaque utilisateur. Cette clef, appelée digital watermark, est sau-vegardée de manière cachée à l’intérieur même des images et est donc in-visible pour l’utilisateur; de plus, elle est capable de résister à une importante catégorie de transformation de l’image [92][93][94][95].

En résumé, le système Krypict consiste à créer une base de données comportant plusieurs milliers d’images de filigranes accompagnés de leur description, et permet ensuite de retrouver rapidement une donnée de ma-nière sûre suivant des critères textuels, morphologiques et/ou descriptifs.

Ce chapitre décrit un système permettant l’archivage des filigranes dans une base de données. L’archivage, outre sa fonction de préservation patrimoniale, doit également faciliter la recherche future de filigranes se-lon une ou plusieurs caractéristiques connues. En sus de la structure de la base de données elle-même, nous présentons donc un ensemble de mé-thodes de traitement d’image visant à extraire ces caractéristiques discri-minatoires.

La section 4-2 expose un bref historique des filigranes ainsi que la dé-finition de certains termes techniques souvent employés par la suite. La section 4-3 présente les techniques employées pour l’acquisition des fili-granes ainsi que la manière de les sauvegarder. La section suivante décrit

les méthodes d’extraction des caractéristiques globales ou locales permet-tant par la suite de retrouver très rapidement un filigrane donné suivant certains critères. La création de la base de données ainsi que la description des pages HTML pour son accès à travers le réseau sont décrites dans les paragraphes 4-5 à 4-7. Pour conclure, la dernière section décrit les pro-blèmes rencontrés, les limitations et performances du système d’archi-vage.

Dans le document Acquisition, archivage et recherche de documents accessibles par le contenu : application à la gestion d'une base de données d'images de filigranes (Page 82-86)