• Aucun résultat trouvé

le contexte a changé radicalement et nous sommes entrés dans une nouvelle phase de la courte histoire de la numérisation des documents anciens et des collections patrimoniales

N/A
N/A
Protected

Academic year: 2022

Partager "le contexte a changé radicalement et nous sommes entrés dans une nouvelle phase de la courte histoire de la numérisation des documents anciens et des collections patrimoniales"

Copied!
6
0
0

Texte intégral

(1)

L’émergence de la numérisation

Il y a quatre ans, la revue Document numérique a publié un numéro spécial consacré aux « Documents anciens » (vol. 3, nº 1-2/1999). Marie-Anne Chabin et Jacques André, coordonnateurs de ce numéro commençaient leur éditorial par cette affirmation : « L’idée d’un numéro spécial de Document numérique sur les documents anciens s’imposait. »

Quatre années se sont écoulées ; le contexte a changé radicalement et nous sommes entrés dans une nouvelle phase de la courte histoire de la numérisation des documents anciens et des collections patrimoniales. La numérisation des documents écrits a fait une entrée rapide, voire brutale, à la fin du XXe siècle, d’abord dans le monde des bibliothèques, des archives, des institutions chargées du patrimoine culturel et scientifique et très vite, dans toute la société.

La soudaineté de cette irruption était à l’égal de l’irrationalité des espoirs engendrés dans les lieux de conservation du patrimoine, dans la société en général.

On allait numériser pour mieux conserver, numériser pour mettre le savoir et les connaissances à la disposition de tous, dématérialiser et compresser pour transmettre plus rapidement… La prise de conscience de cette révolution qui allait de pair avec la numérisation était patente mais, en même temps, on oubliait le coût et les difficultés (techniques) à surmonter.

La vision en 2003 est plus objective, plus réaliste, plus consciente des difficultés, du chemin à parcourir et du prix à payer.

Numériser les documents patrimoniaux

Numériser n’est pas simplement créer une image numérique, capturer et transformer un document en pixels. C’est mettre en œuvre tous les traitements disponibles aujourd’hui (et élaborés prochainement) pour satisfaire au mieux le besoin ou le souhait de l’utilisateur. Numériser conduit à un nouvel objet dont les processus de mise à disposition pour le lecteur utilisateur sont encore objet de recherche, d’autant plus que de nouveaux usages apparaissent et que la demande sociétale va encore beaucoup évoluer.

(2)

Lors de la réalisation concrète d’un projet, numériser au sens technique rappelé ci-dessus constituera la première phase dans le temps. Les caractéristiques (et les outils nécessaires) de cette numérisation dépendent du projet dans son intégralité. Le cahier des charges est réalisé par tous les protagonistes, dans le cadre d’un travail collaboratif pluridisciplinaire. Les fonctionnalités étant définies, ce sera alors aux spécialistes de l’informatique et des images de répondre, d’élaborer des outils, de générer des savoir-faire.

Depuis 1970, le traitement des images a pris un essor considérable et des panoplies de méthodes et d’outils ont été développées ; les logiciels d’OCR (Optical Character Recognition) sont arrivés plus tard. Il aura fallu quelques décennies et des moyens considérables pour élaborer et valider ces outils.

Les images de documents écrits ne sont pas des images naturelles ; l’information utile, c’est-à-dire les caractères et les lignes, recouvre un pourcentage de surface restreint, eu égard à la surface de la page ; ces images sont essentiellement des images de traits. Les méthodes standard de traitement des images ne sont pas forcément bien adaptées. On a pris conscience du fait qu’il faudra recréer une

« imagerie » spécifique pour traiter les documents du patrimoine ; les logiciels d’OCR sont bien adaptés à nos polices de caractères et à notre façon d’écrire de la fin du vingtième siècle ; ils échouent encore sur les textes contenant des formules de chimie ou de mathématiques et ils ne sont pas capables de reconnaître les caractères imprimés des siècles passés, a fortiori les manuscrits (même très réguliers) et les diverses abréviations.

Les articles du présent numéro ont été retenus à la suite d’un appel à contributions ayant une orientation moins générale, mais plus technique, que celle du précédent numéro sur les « Documents anciens ». En effet, les masses de documents à numériser sont telles que des traitements et indexations effectués manuellement sont de moins en moins envisageables. Il devient donc indispensable de développer des techniques et des traitements automatiques permettant un accès par le contenu, une diffusion exploitant des méthodes de compression adaptées aux documents anciens. Ces méthodes s’appuient sur le traitement d’images, la reconnaissance de documents, la reconnaissance de l’écriture manuscrite. Elles permettent, après résolution des difficultés importantes liées aux documents anciens et à leur masse, d’envisager la construction automatique de nouveaux moyens d’accès, de nouveaux outils de recherche, d’améliorer la diffusion sur internet, de mettre à disposition du plus grand nombre, dans un souci de valorisation d’un patrimoine qui, sans ces innovations, resterait inaccessible ou uniquement disponible en mode image.

L’objectif était donc de réunir des contributions techniques, permettant de faire un panorama des expériences actuelles de création et d’utilisation de ces méthodes de traitement d’images et de reconnaissance de documents sur des documents anciens. Nous nous sommes limités à la numérisation du patrimoine écrit et la dizaine de communications qui suit n’a pas la prétention de constituer une représentation exhaustive du domaine.

(3)

Les contributions

Les contributions retenues ont, pour la plupart, été rédigées par des chercheurs en informatique et traitement d’images. Elles ont pour objet l’élaboration de méthodes, d’outils ou de savoir-faire ; l’analyse de ces articles montre que les auteurs ont travaillé dans un contexte de pluridisciplinarité, ils ont créé pour répondre à des besoins exprimés par les acteurs du domaine du patrimoine. Les articles peuvent être classés selon deux groupes : ceux présentant des travaux sur des documents manuscrits anciens et ceux abordant les difficultés des documents imprimés de différents périodes.

L’article de Laurence Likforman nous rappelle, avec concision mais pertinence que la numérisation ne se limite pas à la capture de l’image ; celle-ci est accompagnée d’un certain nombre de traitements presque systématiques (que l’on dit souvent de bas niveau) ; cet article porte, certes, sur des documents manuscrits mais la séquence des opérations décrites est la même pour des documents imprimés.

Les trois articles qui suivent sont eux aussi consacrés à des manuscrits, mais ils abordent des problèmes qui relèvent d’objectifs (et donc de méthodes) fort différents.

L’article de Hatem Ghorbel, Giovanni Coray et Olivier Collet nous présente une adaptation de la technique d’alignement (mise en correspondance entre segments homologues de textes) à des textes du Moyen Age ; celle-ci est basée sur une approche multicritère qui prend en compte des caractéristiques de similitude au niveau lexical, morpho-syntaxique et lexico-sémantique.

La contribution de Ameur Bensafia, Thierry Paquet et Laurent Heutte concerne un modèle de recherche d’information visuelle adapté à la navigation et à l’interrogation des bases de documents manuscrits ; ces derniers sont considérés du point de vue de leur contenu graphique, ce qui relève du cadre de l’identification du scripteur ; l’originalité du travail tient à une description spécifique de l’écriture manuscrite.

L’article de Bertrand Coüasnon et Jean Camillerap présente la plate-forme sur internet qu’ils ont conçue pour l’accès par le contenu manuscrit aux images de documents d’archives. Cette plate-forme gère les annotations géométriques ou textuelles associées aux images qui permettent un accès par le contenu manuscrit.

Ces annotations sont produites automatiquement d’une part, grâce à un système générique de reconnaissance de documents et d’écriture manuscrite, et collectivement d’autre part, grâce à l’aide des lecteurs au cours de leur consultation.

Cette plate-forme a été validée sur différents types de documents d’archives, en particulier les registres paroissiaux et d’état civil et les registres de formulaires d’incorporation militaire du XIXe siècle, dans les archives départementales de Mayenne, d’Ille-et-Vilaine et des Yvelines.

(4)

Navimages est un environnement libre qui permet de préparer et de diffuser de grandes séries d’images (de documents) numérisées ; c’est un outil générique qui constitue une réponse appropriée aux besoins de nombreux organismes et qui est composé de trois modules autonomes, la base documentaire, un collecteur et une visionneuse. A la différence de ce qui se passe dans la plate-forme précédente on ne s’intéresse ici qu’à des lots ou séries d’images ; il est présenté par Martin Sévigny, Frédéric Glorieux, Florence Clavaud. Navimages qui a été initié par la direction des archives de France du ministère de la Culture et de la communication a déjà été utilisé dans plusieurs grands projets.

L’article suivant est consacré à la compression des images de documents, à leur transcription et à leur accessibilité. Frank Le Bourgeois et ses partenaires présentent des outils qui ont été élaborés dans le cadre du projet européen DEBORA (Digital accEs to BOoks of RenaissAnce). Ils montrent les limites de l’application du format JPEG aux images de documents et proposent une nouvelle approche de la compression adaptée spécifiquement à ces derniers ; ils proposent une méthode efficace pour la transcription assistée et un format permettant une grande souplesse d’accès aux différents niveaux du document.

Viennent ensuite deux articles qui sont dévolus au codage des caractères et à la typographie. « Avant même de faire de la reconnaissance de caractères, il faut avoir une connaissance de ceux-ci », déclare Jacques André qui nous entraîne dans le projet Cassetin (vu comme acronyme de CAS[S]Encoding Type INitiative) lequel dresse un inventaire des caractères d’imprimerie utilisés depuis le XVe siècle et met en place une normalisation de leur codage.

Bénédicte Allier veut restaurer les caractères, non seulement pour mieux les reconnaître mais aussi pour conserver toutes les caractéristiques liées à leur origine et à leur histoire. Elle ne peut donc pas se satisfaire de les remplacer simplement par des caractères « moyens ». Pour atteindre ce résultat, elle montre que le développement de nouveaux outils d’analyse d’images est nécessaire.

L’article proposé par Abdel et Yolande Bélaïd et par Dominique Besagni aborde la rétroconversion de fonds bibliographiques pour des besoins de bibliométrie.

L’article concerne les citations en fin d’articles ou de livres tant pour des documents modernes que plus anciens. La généricité de la méthodologie basée sur la régularité et la redondance de certains champs et sur la localisation de parties de discours permet d’étendre son application à des problématiques de traitements de documents patrimoniaux.

Le dernier article va nous conduire au-delà du monde de la recherche. Les travaux de recherche concernant la problématique « Numérisation et patrimoine » ne peuvent pas être une activité isolée. Il y a besoin de relais en amont et en aval.

Muriel Fouloneau nous présente le travail qui est fait en amont par les institutions relevant du monde culturel, notamment au niveau de l’Europe. Une politique de coordination doit être élaborée de façon commune.

(5)

Vers un avenir prometteur

Cet ouvrage a permis de dresser un panorama de travaux de recherche sur des techniques de traitement d’images et de reconnaissance de documents qui ont été effectués dans le cadre des documents patrimoniaux. Même s’il n’est pas exhaustif, ce panorama illustre bien l’intérêt de ces techniques pour la valorisation du patrimoine et montre l’activité croissante de ce domaine de recherche. Il permet également au lecteur de prendre conscience des très grandes difficultés qu’il faut surmonter pour mettre en œuvre des traitements automatiques sur des documents anciens, très souvent altérés par le temps.

Potentiellement, on peut aujourd’hui envisager de façon concomitante, une diminution des coûts et une meilleure qualité de numérisation. Il est important que les professionnels en charge de campagnes de numérisation soient au fait des exploitations potentielles des documents numérisés ; un certain nombre d’erreurs communes seront ainsi évitées, lors de l’acquisition des images qui peuvent, par la suite, rendre impossibles des traitements automatiques : compression trop forte, résolution trop faible, prétraitements catastrophiques (binarisation, rééchantillonnage…). On contribuera aussi à une diminution des coûts de numérisation en anticipant les utilisations futures, lors de la rédaction des cahiers de charges ; on pourra ainsi ne pas être contraint à refaire une campagne de numérisation pour chaque nouvelle utilisation des documents.

La reconnaissance sur des documents anciens nous entraîne sur des voies extrêmement complexes et, sans doute, parmi les plus difficiles ; les verrous à vaincre sont encore nombreux. Il faut donc être prudent sur les possibles résultats des recherches futures en étant conscient de ces difficultés ; mais force est de constater que de plus en plus de chercheurs travaillant sur la reconnaissance de documents s’orientent vers les problématiques posées par les documents du patrimoine. Deux fait marquants sont à signaler : le premier atelier international, intitulé DIAL’04 (Document Image Analysis for Librairies) et consacré à l’analyse d’images de documents pour les bibliothèques et les archives a lieu en janvier 2004 à Palo-Alto en Californie ; le premier atelier français intitulé « Numérisation et patrimoine » et consacré au même thème aura lieu en juin 2004 lors de la Semaine du numérique à La Rochelle.

Nous avons vu apparaître une nouvelle génération de projets de recherche centrés sur la numérisation, élaborés et mis en œuvre par des consortiums comprenant des laboratoires en informatique, en sciences humaines, des organismes en charge du patrimoine.

Cette émergence de la recherche va de pair avec un travail en commun des institutions de recherche et des institutions en charge du patrimoine. En premier lieu il convient de mentionner la coopération entre le ministère de la Culture et de la communication (mission de la Recherche et de la technologie) et le Centre national

(6)

de la recherche scientifique (départements SHS et STIC) ; cette coopération s’est concrétisée de plusieurs façons en 2003, intense activité du Réseau thématique pluridisciplinaire sur le document (RTP-Doc) du CNRS, ouverture sur l’Europe avec le ministère de la Culture.

Bertrand Coüasnon Jean-Pierre Dalbéra Hubert Emptoz

Références

Documents relatifs

Deville communiqua la lettre d'Augustini au ministre de l'Inté- rieur qui examina la question avec intérêt et le 12 octobre 1813 il envoyait au comte Rambuteau, qui avait

In the two zones hosting the strike-points (tile 5 and inner divertor), the inventory of trap 1 increases at the beginning of the discharges and then drops during the plasma phase

Puisque l'on sait montrer les images du manuscrit original, on a envie, lorsque l'on clique sur une reference a Eudes le Charpentier, de faire appara^tre non seule- ment le resume

À l’instar de ce qui ce fait dans le domaine de l’indexation d’images naturelles, nous proposons une démarche axée sur l’extraction d’informations issues d’une analyse

For localization by defects near the interfaces of a quantum well, the ground bound state is separated from the excited bound states (or from the continuum of delocalized levels) by

Comment utiliser cette structure au premier ordre (moyenne) et second ordre (covariance des r´esidus) pour pr´evoir au mieux la s´erie dans le futur.. Comment valider le mod`ele

Dans la suite nous présentons notre système de détection de motifs graphiques avec un prétraitement dédié (suppression du fond uniforme), extraction de fenêtres de tailles

Quel chemin parcouru depuis la découverte de cette galaxie par Abd-al-rahman al-Sûfi en l'an 900, ou la représentation donnée par Ismaël Bouillaud en 1667 (voir le cours IV dans