• Aucun résultat trouvé

Avant-projet de numérisation des imprimés en langue bretonne du CRBC

N/A
N/A
Protected

Academic year: 2021

Partager "Avant-projet de numérisation des imprimés en langue bretonne du CRBC"

Copied!
70
0
0

Texte intégral

(1)

HAL Id: dumas-01553408

https://dumas.ccsd.cnrs.fr/dumas-01553408

Submitted on 9 Jan 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Avant-projet de numérisation des imprimés en langue

bretonne du CRBC

Aurélie Kerdiles

To cite this version:

Aurélie Kerdiles. Avant-projet de numérisation des imprimés en langue bretonne du CRBC. Sciences de l’information et de la communication. 2002. �dumas-01553408�

(2)

LILLE 3

Aurélie KERDILES

MAITRISE EN

SCIENCES DE L'INFORMATION ET DE LA DOCUMENTATION

Rapport de stage

Stage effectué du 05 juin au 22 juillet 2002, puis du 30 août au 13 septembre 2002.

au

CENTRE DE RECHERCHE BRETONNE ET CEL TIQUE

BREST

AVANT-PROJET DE NUMERISATION

DES IMRIMES EN LANGUE BRETONNE DU CRBC

Sous la direction de:

Madame M. DESPRES-LONNET, responsable universitaire

Madame M.-R. PRIGENT, responsable professionnel

03 Octobre 2002 UNIVERSITE CHARLES DE GAULLE

UFR IDIST

(3)

INTRODUCTION

Le développement des nouvelles technologies, en particulier depuis la généralisation de l'Internet, a ouvert la voie à de nouvelles pratiques dans le domaine des télécommunications. Le bouleversement informatique a ensuite conquis les milieux scientifiques, puis économiques et commerciaux, avant de s'étendre au grand public.

Le monde des bibliothèques est entraîné dans cette vague d'informatisation de masse, qui entre progressivement dans une seconde phase avec la génération des bibliothèques numériques. Dès lors, la diffusion de la culture se transmet de plus en plus par voie électronique. Et les communautés scientifiques n'ont plus le monopole actuellement, de la diffusion sur Internet.

En effet, les réservoirs en ligne de textes numériques, sont aussi gérés par des bibliothèques, qui n'ont plus seulement à cœur d'offrir des outils de travail aux chercheurs et enseignants, mais qui désirent surtout faire partager et rendre public un corpus original de documents libres de droit, connus que d'un petit nombre de personnes.

C'est pourquoi le Centre de Recherche Bretonne et Celtique de l'Université de Bretagne Occidentale de Brest profite de l'opportunité de l'appel à projets de services à haut débits Mégalis pour se lancer dans un projet de numérisation de ressources documentaires écrites en langue bretonne, afin d'entretenir la mémoire de ce dialecte régional. L'opération irait de pair avec la politique active du CRBC, de conservation des originaux rares et précieux, et résoudrait en partie le problème soulevé par Ronan Le Coadic, responsable de l'association Levraoueg ar Vro ( « la bibliothèque du pays»), à savoir l'absence de mise en valeur des ouvrages en breton dans les bibliothèques et leur inaccessibilité.

Le CRBC envisage donc la diffusion progressive sur la toile de son fonds breton. Ainsi, ma mission, en intégrant ce centre documentaire, consiste à faire le point sur la pratique actuelle de la numérisation, à la lumière des expériences déjà menées en France et en Bretagne. L'étude porte, de plus, sur la publication des textes numérisés sur Internet et principalement sur la question de 1' offre documentaire numérique, en langue bretonne.

Ces démarches ne s'improvisent pas. En effet, elles ne peuvent pas être considérées comme des activités annexes, exécutées de façon discontinue, sinon la qualité du résultat est menacée. C'est pourquoi, afin de déterminer le profil du CRBC, un premier bilan est à établir, après le traitement des questions juridiques, l'examen des modalités financières, l'étude volumétrique du nombre de pages à traiter et l'analyse des choix et procédures techniques à mettre en place.

(4)

SOMMAIRE

INTRODUCTION ... 1

1. PRESENTATION DU CENTRE DE RECHERCHE BRETONNE ET CEL TIQUE ... 4

1. 1 LE CRBC, LABORATOIRE DE RECHERCHE ... 4

1.1.1. Un terrain d'étude privilégié ... 4

1.1.2. La convergence de disciplines complémentaires ... 4

1.1.3. Le CRBC: une vitrine bretonne de qualité pour l'UBO ... 5

1. 2 LE CENTRE DOCUMENT AIRE ... 5

1.2.1. La constitution du fonds de base ... 5

1.2.2. La composition actuelle du fonds de la bibliothèque ... 6

1.2.3. Un service public ... 6

1.2.4 .. .facilité par 1 'informatisation du fonds ... 7

1.2.5 Nouveauté 2002: le catalogue du CRBC en ligne ... 8

2. UN PROJET DE NUMERISATION AU CRBC ... 9 2. 1 ANTECEDENTS ... 9 2. 2 ORIGINE DU PROJET ... 9 2. 2.1. Un constat alarmant ... 9 2. 2. 2. Polemique bretonne ... ·: ... 1 0 2. 2. 3. L'intégration régionale du CRBC .. ... .. 1 0 2.2.4. La reconnaissance nationale et internationale ... ]] 2. 3 OBJECTIFS DU PROJET ... 11

3. PRELIMINAIRES : PARAMETRES A DETERMINER ... 13

3. 1 ASPECTS JURIDIQUES ... 13

3. 2 DESCRIPTION DU FONDS A NUMERISER ... 13

3.2.1. Que numeriser? ... 13

3. 2. 2. Evaluation quantitative et qualitative des documents ... 14

~ La totalite du fonds breton ... 14

~ Conformement aux criteres predetermines ... 15

3. 3 ASPECTS FINANCIERS ... 19

3. 3.1. Sur le plan national ... 19

3.3.2. Au niveau regional ... l9 4. SOLUTIONS TECHNIQUES POUR LES FONDS EN LANGUE BRETONNE DU CRBC ... 21

4. 1 REVUE DES ASPECTS TECHNIQUES ... 21

4.1.1. Le mode image ... 21

4.1.2. Le mode texte ou alphanumérique ... 22

4. 1.3. La resolution del 'image ... 23

4. 1.4. La compression de l'image ... 24

4. 2 PLUSIEURS OPTIONS POSSIBLES ... 24

4.2.1. Le materiel de numerisation ... 24

4.2.2. Les logiciels ... 26

4. 3 DES EXEMPLES A SUIVRE ? ... 27

(5)

5. 1. ENTRE ARCHIVAGE ET DIFFUSION ... 28

5.1.1. Le format et le nom d'unfichier numerique ... 28

5.1. 2. Le support de conservation et de diffusion ... 29

5.1.3. Le signalement des documents numerises ... 30

5. 2 DU FAC-SIMILE A L'HYPERTEXTE ... 30

5.2.1. L'architecture web ... 30

5.2.2. Consultation thématique ... 31

5.2.3. Recherche documentaire et interface publique ... 33

5.2.4 Modes de navigation au sein du document numérise ... 36

-<} La pagination ... 36

-<} Élements peritextuels ... .36

5. 3 L'OUTIL DE CONSULTATION ET DE RECHERCHE DU CRBC ... .37

5.3.1. La langue bretonne sur internet ... ... .37

-<} Dastum ... 37

-<} Le Cartopôle de Baud ... 39

-<} L'Institut National de l' Audiovisuel... ... 39

5. 3. 2. . .. En chansons ... 40

-<} Myriam Guillevic ... 41

-<} Serge Nicolas et Thierry Rouaud ... 42

-<} Pierre Quentel ... 43

-<} Kan ha diskan ... 45

-<} Fanch Broudic ... 45

-<} Ronan Le Coadic ... 46

5.3.3. Ambitions du CRBC ... 46

-<} Production des documents numeriques ... 46

-<} Diffusion en ligne ... 47

-<} Recherche documentaire ... 48

-<} Visualisation des documents numerises ... 49

CONCLUSION ... 50

BIBLIOGRAPHIE ... 51

REMERCIEMENTS ... 54

(6)

1.

PRESENTATION DU CENTRE DE RECHERCHE BRETONNE

ET CELTIQUE

1. 1 LE CRBC, LABORATOIRE DE RECHERCHE

1.1.1.

UN TERRAIN D 'ETUDE PRIVILEGIE

Créé à Brest, en 1969, à l'époque où naissait l'Université de Bretagne Occidentale, le Centre de Recherche Bretonne et Celtique (CRBC) est l'œuvre de l'historien Yves Le Gallo. L'UBO avait pour missions d'une part, l'étude de la mer et d'autre part, celle de la terre celtique et de ses peuples. Le CRBC répond à la seconde exigence, en devenant 4 ans après sa fondation, un foyer de réflexion, de recherche et d'information sur la matière bretonne et celtique, considérée dans le temps et dans l'espace, c'est-à-dire sans exclure les civilisations parentes d'Outre-Manche (propos de Yves Le Gallo, directeur du CRBC recueillis en 1973 par Hervé Quéméner pour le Télégramme de Brest et de l'Ouest).

En tant que laboratoire de l'UBO, il coordonne l'ensemble des recherches concernant la civilisation bretonne et celle des pays celtiques (Cornouailles, Pays de Galles, Ile de Man, Ecosse, Irlande et Galice). En 1983, il devient unité de recherche associée au Centre National de la Recherche Scientifique puis douze ans plus tard, le laboratoire s'unit avec une autre équipe CNRS, le Centre d'Etudes Celtiques de Paris. Il gère également une antenne installée au Manoir de Kernault à Mellac où, en 1990, le Centre de Documentation et de Recherche sur la Littérature Orale a vu le jour.

1.1.2.

LA

CONVERGENCE DE DISCIPLINES COMPLEMENTAIRES

Aujourd'hui, le laboratoire, rassemblant une cinquantaine de chercheurs CNRS et d'enseignants-chercheurs MEN 1

, figure parmi les plus importants centres de recherche de l'hexagone dans le domaine breton et celtique. Le contact permanent entre ces spécialistes permet de bénéficier de la mise en commun de compétences multiples. Les recherches menées au CRBC abordent tous les domaines de la connaissance (l'histoire de l'époque ancienne à l'époque contemporaine, 1 'archéologie, 1 'ethnologie, 1 'anthropologie, la sociologie, la littérature, la linguistique) touchant la Bretagne et les pays celtes.

Plus précisément, les trois axes de recherche fixés, ces dernières années, sont les suivants:

Hauts lieux du sacré en Bretagne La ville maritime

Archéologie, histoire et civilisations anciennes des peuples celtiques

1

(7)

1.1.3.

LE

CRBC:

UNE VITRINE BRETONNE DE QUALITE POUR

L'UBO

C'est ainsi que Faîich Roudaut, directeur actuel du CRBC, titre l'éditorial du numéro de juin 2002 du journal de la Faculté des Lettres et Sciences sociales, A tire d 'L. En effet, ce Centre de Recherche, influent pour l'Université, participe à la renommée de la langue et de la culture bretonne et celtique par ses multiples actions. Il organise divers rencontres, colloques, conférences, expertises ou expositions.

Plusieurs publications annuelles reflètent l'ensemble des travaux, aussi bien des chercheurs attachés ou extérieurs au laboratoire, que des membres du Centre. Elles sont classées suivant 4 collections dont le Centre s'est doté:

Les Cahiers de Bretagne Occidentale La Bretagne linguistique

Triade: Galles, Ecosse, Irlande

Kreiz : Etudes sur la Bretagne et les Pays Celtiques

Le CRBC publie également des ouvrages en coédition. La dernière publication en date concerne l'ouvrage dirigé par Christian Bougeard, intitulé Bretagne et identités régionales pendant la Seconde Guerre mondiale :Actes du colloque de Brest, novembre 2001. Cette

œuvre-bilan des « années noires » a remporté un franc succès avec 1.364 exemplaires vendus. Ces publications sont diffusées dans toute la Bretagne et disponibles également sur commande. De nombreux exemplaires sont expédiés en Angleterre, Irlande, Ecosse ...

1. 2

LE CENTRE DOCUMENT AIRE

1. 2.1.

LA CONSTITUTION DU FONDS DE BASE

Pour remplir sa mission, le Centre s'est doté d'un bibliothèque pour mettre à la disposition des chercheurs, documents et moyens de travail indispensables. La nécessité était alors de constituer un fonds documentaire spécialisé Bretagne et pays celtiques.

M. Yves Le Gallo, à la tête de cette entreprise d'acquisitions massives d'ouvrages n'hésite pas à s'adresser directement aux particuliers, assiste à des ventes aux enchères. Il acquiert, en 1968, la bibliothèque d'un érudit du Cap-Sizun, Monsieur Daniel Bernard qui décèdera 3 ans plus tard.

La collection privée de ce passionné d'histoire bretonne est complétée en novembre 1969 par la bibliothèque de Maître Francis Even, notaire et militant de la langue et de la culture bretonnes. Le fonds Even, conformément à la demande de la famille du défunt, est exclu du fonds général de la bibliothèque et occupe des rayons à part.

6.000 volumes constituent à cette date la base du fonds du C.R.B.C qui s'enrichit progressivement à la suite d'acquisitions d'occasions figurant sur des catalogues de bouquinistes

(8)

ou de donations de fonds entiers ou à l'unité. La liste des acquisitions partielles (achats, échanges de collections avec d'autres bibliothèques) de 1975 à 1996 ainsi que celle des donations de 1985 à

1997 figurent sur le site web du CRBC 2.

Deux acquisitions ont particulièrement marqué l'histoire du Centre. L'un des petits-enfants d'Anatole Le Braz dépose au CRBC, en 1986, pour en assurer l'inventaire, l'analyse et la publication, l'ensemble des carnets manuscrits et notes diverses de l'auteur de La Légende de la Mort. Ceux-ci couvrent toute la période d'activité intellectuelle du folkloriste trégorrois (à la mort du déposant, le dépôt se transforme en donation). Dix ans plus tard, Pierre-Jakez Hélias participe

à l'enrichissement du fonds ancien du Centre en léguant ses manuscrits et l'ensemble de sa bibliothèque bretonne soit environ 350 ouvrages en breton ou sur la Bretagne.

La politique persévérante d'acquisition du Centre explique la richesse de la bibliothèque et la variété des supports documentaires disponibles.

1.

2. 2.

LA COMPOSITION ACTUELLE DU FONDS DE LA BIBLIOTHEQUE Aujourd'hui, la bibliothèque du CRBC est constituée de 45.000 volumes d'ouvrages dont 4.000 titres en langue bretonne et 25.000 volumes de périodiques soit 1.600 titres dont 400 abonnements en cours. ll faut signaler que plus de 200 périodiques du Centre figurent dans le Catalogue CollectifNational des Périodiques en Série (CCN-PS) mis au point en 1983 et dans le Sudoc 3 (Système Universitaire de Documentation), le catalogue commun des bibliothèques universitaires de France.

Le laboratoire de l'UBO se procure toutes les parutions récentes qui traitent de la Bretagne et des pays celtiques et a amassé aussi en plus de 30 ans nombre de manuscrits dactylographiés émanant directement de l'activité des chercheurs, des enseignants et de leurs étudiants (monographies, articles, mémoires, thèses ... ) constituant la littérature grise du Centre.

Outre les livres, le CRBC possède une sonothèque composée de 16.000 enregistrements sonores (disques, bandes audio); met à la disposition de son public une salle de microcopie et

d'informatique, une cartothèque et une iconothèque. Ainsi, le centre documentaire offre une collection de 2.000 cartes géographiques anciennes et récentes. Des cartes postales anciennes d'intérêt historique et ethnologique ainsi que des affiches complètent le fonds traditionnel.

1.2.3.

UNSERVICEPUBLIC ...

Le centre de documentation spécialisé en documentation celtique et bretonne est une bibliothèque associée au Service Commun de Documentation (SCD) de l'Université de Bretagne Occidentale.

2 http:/J,,·ww.univ-brcst.fr/Rcchcrche/Laboratoirc/CRBC/franc/presdocu.htm#anchacquis http://\\"WW.lmiv-brcst.fr/Rccherche!Laboratoirc/CRBC/franc/prcsdocu.htm#anchdon 3 http://w\\i\\·.sudoc.abcs.fr/

(9)

En raison d'une extension rapide du fonds documentaire, les locaux choisis au départ se sont très vite révélés insuffisants faute de place. Le déménagement du C.R.B.C, en 1993, au centre ville et son installation dans de nouveaux locaux aux 3ème et 4ème étages de la Faculté des Lettres et Sciences Sociales Victor Segalen ont été bénéfiques pour son développement.

Créé à l'origine pour les besoins des chercheurs, la bibliothèque est ouverte à tous. Ce sont dès lors, des locaux plus vastes et plus fonctionnels, situés à côté des salles de cours et ouverts en permanence du lundi au vendredi de 9h à 17h (18h30 le mardi et le mercredi) qui accueillent des lecteurs universitaires ou non. Environ 4.000 lecteurs inscrits fréquentent la bibliothèque.

1.2. 4 ...

FACILITE PAR L'INFORMATISATION DU FONDS

La décision d'informatisation date de 1986, motivée par l'absence de fichier matière. Les fichiers papiers manuels classant alphabétiquement auteurs, anonymes et communes constituaient jusque là le seul mode de recherche existant. Or, dans la mesure où seuls les livres d'usage courant ou usuels sont en accès direct (les autres ouvrages sont en consultation indirecte, entreposés dans les rayonnage mobiles de type compactus de la salle de lecture), un fichier automatisé s'est avéré plus que nécessaire.

Soutenu financièrement par le Conseil Général du Finistère, le CRBC acquiert un progiciel documentaire, Micro-Questel/Tamil, fourni par la société Tamil et implanté sur un micro-mega ordinateur. Ce logiciel a pour fonctions la gestion et la recherche documentaire, disposant de modules de catalogage, de gestion de thésaurus, de prêts et de périodiques. Il peut contenir jusqu'à 10 bases de données, divisibles en sous-bases.

En 2000, il est remplacé par un logiciel de gestion de bibliothèques nommé C2, distribué par la même société, ne fonctionnant plus sur un serveur Unix mais sur un serveur NT. Cette nouvelle génération de système documentaire est construite sur une architecture «client-serveur » et propose des modules intégrés couvrant les besoins des bibliothèques : OPAC, catalogage en US Marc 4, sécurité, prêt, acquisitions, communication, multimédia ...

Les modules OPAC, prêt et catalogage ont été retenus par le CRBC. L'OPAC (Online Public Access Catalog) est un système d'accès public rendant possible la consultation par les lecteurs du catalogue informatisé du Centre. Ce fichier interrogeable à partir de 5 postes de travail, dispersés dans la salle de lecture, contient près de 40.000 notices d'ouvrages, présents au CRBC ou à Kernault. Ce système permet d'accéder à l'information souhaitée, par le biais d'une recherche rapide, facile ou de type expert, qui fournit une ou des références d'ouvrages. Quant au personnel de la bibliothèque, il dispose de 6 stations de travail.

4

Les formats Marc (Machine Readable Cataloging) ont été mis au point dans les années soixantes par des

(10)

1.2.5 NOUVEAUTE2002: LECATALOGUEDUCRBC ENLIGNE

Le catalogue du CRBC est consultable via l'Internet de 2 façons:

- par le portail des Maisons des Sciences de 1 'Homme 5 du CNRS, depuis juin 2002

- par le site du CRBC h ://www.univ-brcst.fr/Rccherche!Laboratoire/CRBC mis au point en 1998 par Philippe Guillochon, assisté par Jean-Yves André pour la création artistique.

Pour répondre au besoin du CRBC, qui désire la mise en ligne de sa base de données, contenant le catalogue du Centre, 2 étudiants stagiaires du Département d'Informatique de l'UBO ont procédé à l'extension du site web déjà existant en HTML statique 6. Leur tâche consistait à y

inclure des pages dynamiques permettant d'effectuer des recherches sur le catalogue .

./ Une copie de la base de données se situe sur un serveur distant au Centre de Ressources Informatiques de 1 'UBO. D'un format peu courant USMarc, elle est gérée

et indexée par ZEBRA, logiciel serveur Z 39. 50, logé sur le serveur du CRI (Centre de

Ressources Informatiques) de l 'UBO. ZEBRA utilise le protocole Z 39.50 qui permet à tout utilisateur disposant d'un logiciel client Z 39.50 d'interroger toute base de données accessible par un serveur conforme à Z 39.50.

De manière à établir une connexion avec ZEBRA, un module appelé YAZ est ajouté à la page de recherche PHP pour la transformer en client Z 39.50. (Voir Annexe 1 :

Principe de fonctionnement)

A partir de l'icône Documentation de la page d'accueil, le nouveau champ d'entrée

Consultation du catalogue de la bibliothèque 7 renvoie aux pages d'interrogations créées :

1 'utilisateur formule sa requête suivant les critères suivants : Titre, Auteur, Date, Sujet, Editeur de 1 'ouvrage désiré.

L'objectif de cette opération est de permettre à tout internaute de prendre connaissance à distance des ouvrages stockés soit au CRBC, soit à l'antenne de Mellac. L'interrogation sera complètement fonctionnelle à partir d'octobre 2002.

La seconde étape d'informatisation consiste désormais à rendre visible, via l'Internet toujours, non plus seulement les titres d'ouvrages mais leur contenu même. C'est pourquoi le CRBC, préoccupé notamment par la consultation et la conservation de ses documents précieux et/ou fragiles (comme bon nombre de bibliothèques), a décidé d'entrer de plein pied dans l'ère de la numérisation.

5

http://\VW\\.msh-paris.fr/accucil.htm

6

Site Internet ne faisant pas appel à une base de données.

(11)

2.

UN PROJET DE NUMERISATION AU CRBC

2. 1 ANTECEDENTS

Le centre documentaire dispose, depuis 3 ans, de documents, appartenant au fonds Donatien Laurent, numérisés par le Ministère de la Culture, en 1999, dans le cadre d'un plan de numérisation du patrimoine culturel sonore national. Il s'agit de la totalité des enregistrements sonores effectués par cet ethnologue, directeur de recherche au CNRS de 1960 à 1995 et également ancien directeur du CRBC. C'est au cours de missions CNRS du Centre d'Ethnologie Française du Musée des Arts et Traditions Populaires, dans les 3 départements bretonnants que Donatien Laurent a constitué, entre 1955 et 1975, son fonds d'enregistrements sur bandes magnétiques (300 heures environ). Ils sont en majeure partie l'illustration d'enquêtes sur la chanson bretonne de tradition orale menées auprès d'informateurs âgés et souvent monolingues. Ces échanges ne sont en général plus possibles aujourd'hui.

La numérisation de ces enregistrements s'est avéré indispensable compte tenu de la fragilité du support analytique. Ces documents sonores numérisés, soit une collection de 100 CD appartiennent désormais au Musée des ATP et au CRBC. Ils restent conservés au Ministère et au CRBC.

2. 2 ORIGINE DU PROJET

2.2.1.

UNCONSTAT ALARMANT

Ainsi, Donatien Laurent poursuit le travail des collecteurs qui, depuis 2 siècles, peinent à rassembler les richesses de la langue bretonne, d'abord exclusivement sous forme écrite (textes et partitions) puis au moyen d'enregistrements sonores et visuels. Mais le problème (déjà évoqué précédemment) qui se pose actuellement tient de la situation du breton oral devenant extrêmement critique. En effet, les résultats de la dernière enquête sur la situation sociolinguistique de la langue bretonne réalisée par l'agence TMO Ouest en 1997, sur un échantillon représentatif de la population de Basse-Bretagne démontrent que les 2/3 des bretonnants (240.000 personnes) ont dépassé la soixantaine et sont désormais retraités. Le pourcentage a augmenté de plus de 20 % depuis 7 ans.

Avec le déclin inéluctable des dernières générations de bretonnants de naissance, la non-transmission de la langue entre les générations s'accentue. Il devient donc urgent de sauver ce qui peut l'être de la mémoire orale de la langue, sans négliger toutefois toutes sources écrites. Et ce rôle incombe

à tout centre documentaire en tant que lieu de la mémoire collective. Quand Yves Le Gallo témoigne en 1975 et se remémore la création du CRBC: ille définit comme un organisme qui servît de MEMOIRE [à la Bretagne bretonnante j car susceptible de 1 'éclairer sur son passé et par

(12)

conséquent, sur son présent, voire sur son avenir et ajoute que ce terme de MEMOIRE n'est pas dépourvu de signification dans un pays dont la culture fut longtemps de tradition et de transmission orale.

C'est pourquoi, la bibliothèque du CRBC a procédé à la numérisation du fonds sonore D. Laurent et s'évertue, depuis 1969, à conserver et à renouveler son fonds documentaire breton et celtique, considéré comme le plus riche de l'hexagone. De plus, le centre documentaire entend rendre active, dynamique cette mémoire culturelle, linguistique, historique, en améliorant l'accessibilité aux documents en langue bretonne. Leur numérisation et leur mise en ligne pourraient être une solution et par cette opération, le centre documentaire affirmerait sa place dans un environnement informationnel nouveau.

2.2.2.

POLEMIQUE BRETONNE

Or, pour des raisons équivalentes de sauvegarde du patrimoine breton, un autre projet des plus ambitieux est annoncé par voie de presse, en décembre 1998. Ronan Le Coadic, initiateur du projet émet ce constat: aucune bibliothèque de Bretagne ne rassemble des textes en langue bretonne traités par des professionnels et ensuite communiqués au public en langue bretonne.

Il suggère l'implantation, au cœur de la Bretagne bretonnante, d'une médiathèque bretonne en Centre-Bretagne ; celle-ci fonctionnerait en langue bretonne et deviendrait le lieu d'accueil privilégié de la documentation bretonne.

La création d'une telle structure avait déjà été envisagée en 1993 par les membres de l'association Levraoueg Breizh (la Bibliothèque de Bretagne). Ces derniers appartiennent désormais à la fédération Levraoueg ar Vro (la Bibliothèque du pays), menée parR. Le Coadic, regroupant 7 associations actives dans la promotion de la langue et de la culture bretonnes, dont Diwan Breizh pratiquant l'enseignement du breton en immersion, Dastum Bro-Dreger et Dastum Kreiz-Breizh, 2 antennes de l'association Dastum dans le Trégor et en Centre-Bretagne.

Née le 31 octobre 1998, cette association d'intellectuels bretonnants s'est donné comme premier objectif, écrit Fanch Olivier dans son article Une « breizhothèque » pour garder la mémoire du Télégramme du 18 novembre 1998, de faire étudier par un cabinet spécialisé la faisabilité et le coût prévisible de l'opération.

Le bilan des 4 mois et demi d'enquêtes menées en 1999 est exposé dans un rapport intitulé Langue bretonne: étude de préfiguration d'une médiathèque.

Cette annonce a suscité certaines craintes, réticences et interrogations dans le monde des bibliothèques dans la mesure où existent déjà des structures documentaires disposant d'importants fonds breton et de renommée régionale, comme la Bibliothèque Municipale à Vocation Régionale (BMVR) de Rennes et le CRBC.

2.2.3.

L'INTEGRATION REGIONALEDUCRBC

En effet, le Centre fait autorité dans la région en tant que partenaire local et acteur culturel, soutenu par les collectivités locales et territoriales qui fournissent 50 % des crédits de fonctionnement: le Conseil Général du Finistère finance fréquemment des opérations ponctuelles effectuées par le Centre, comme l'informatisation de la bibliothèque en 1986, des restaurations d'ouvrages ou encore la prise en charge de colloques. De son côté, le laboratoire aide le Conseil

(13)

Général ou la ville de Brest en leur transmettant des documents en vue d'expositions par exemple

ou en collectant l'information nécessaire à la rédaction d'articles de journaux locaux.

Le Centre de Recherche Bretonne et Celtique collabore depuis 1987 avec le Musée départemental breton et s'est aussi associé en 1999 à Hermine 8, réseau régional de dépouillement

de périodiques offrant via l'Internet l'accès facile à des articles sélectionnés pour découvrir le patrimoine culturel breton. Plus récemment, il s'est investi dans le projet Britalis, futur portail documentaire breton, reposant sur le protocole de communications Z 39.50 (ouverture en octobre

2002).

2. 2. 4. LA

RECONNAISSANCE NATIONALE ET INTERNATIONALE

De plus, il a acquis un rayonnement national et international en collaborant avec des

équipes de recherche de France ou de l'étranger, notamment d'Europe centrale ou du Royaume-Uni. Aussi, le développement des collections est rendu possible grâce au soutien financier du Ministère de l'Education Nationale et du Centre National de la Recherche Scientifique auquel il est associé depuis maintenant 19 ans, le label de laboratoire associé au CNRS étant renouvelé tous 1 es quatre ans.

Il participe également au réseau documentaire des bibliothèques d'ethnologie du CNRS, à la base de données BN-OPALINE de la Bibliothèque Nationale de France 9 et au Système

Universitaire de Documentation (SUDOC) 10, le catalogue commun des bibliothèques

universitaires de France.

Le catalogue du CRBC figure dans le portail des Maisons de la Recherche du Département des Sciences Humaines et Sociales du CNRS.

Ainsi, le Centre de Recherche Bretonne et Celtique est de plus en plus consulté et sollicité

à mesure que la prise de conscience de l'enjeu que représente le patrimoine culturel breton s'accroît et que s'affirme la force de l'identité régionale.

2

.

3

OBJECTIFS DU PROJET

Le programme de numérisation que le CRBC souhaite lancer devra satisfaire plusieurs

eXIgences.

Une des missions de ce Centre est de mettre en valeur ses collections de manière à

participer à la promotion du patrimoine breton non seulement au niveau régional mais également

au niveau national. La numérisation d'ouvrages exclusivement en langue bretonne et leur mise en

ligne garantiront la diffusion à l'échelle planétaire d'un savoir breton écrit, accessible librement et à distance. Cette technique solutionne simultanément les problèmes de conservation et de consultation qui préoccupent toutes les bibliothèques.

8

http:/1\\>nv.hcnnine.org

9

http://ww\v.bnf.fr/pagcs/catalog/opalinc.htm (catalogue des manuscrits littéraires français du

xx

·

siècle)

10

(14)

En effet, copiés sur des supports de substitution, les documents originaux, parfois fragiles, seront épargnés, restant confinés à l'intérieur des murs de la bibliothèque.

La concrétisation de ce projet permettra de préserver non seulement les collections difficilement manipulables (documents précieux par leur ancienneté, leur originalité, rares comme les incunables) et souvent écartés du fonds général, enfermés dans le coffre fort ou exclus du prêt, mais aussi les collections très sollicitées et déjà dégradées à cause de l'acidité du papier.

Des documents anciens jusque là mal mis en valeur ou méconnus seront rendus visibles et accessibles par le biais de l'Internet, mode de diffusion rapide de l'information, ce qui sera profitable aux enseignants-chercheurs en linguistique, en ethnologie, en histoire ... et étudiants qui constituent la population majoritaire et courante du CRBC, implanté sur le site de l'Université de Bretagne Occidentale.

Par ailleurs, l'intérêt scientifique et pédagogique de ce projet n'est pas négligeable.

Toutefois, le CRBC ne souhaite pas constituer un produit exclusivement destiné aux chercheurs ou spécialistes bretonnants mais souhaite mettre l'accent sur 1' ouverture au grand public, de manière à mettre la culture bretonne à la disposition du plus grand nombre français ou étranger : particuliers amateurs ou professionnels, curieux, élèves, professeurs, documentalistes, journalistes, éditeurs, associations culturelles ou autres.

Le recours aux nouvelles technologies permet de donner à tous, quelle que soit leur localisation, les mêmes chances documentaires.

Dans la mesure où les usagers actuels de la bibliothèque ne constitueront pas l'ensemble des utilisateurs futurs de la collection numérisée, le CRBC a pour objectif de proposer en ligne un corpus de documents variés représentatif du patrimoine culturel breton. Pour en assurer sa cohérence, il est impératif que chaque pièce numérisée se rapporte à un thème central déterminé au préalable.

Le projet initial porte ce titre générique« La mémoire du breton». L'ambition du CRBC est de constituer, à long terme, un portail documentaire renfermant le trésor du breton écrit (pour pasticher Jules Gros, auteur du Trésor du breton parlé). Il sera étoffé au fur et à mesure des acquisitions de son centre de documentation, à raison de 2.000 nouveautés chaque année.

Mais, la mise en place d'un projet de numérisation est conditionnée par des facteurs juridiques, patrimoniaux, financiers et techniques que toute équipe de projet doit prendre en compte.

(15)

3.

PRELIMINAIRES : PARAMETRES A DETERMINER

3. 1

ASPECTS JURIDIQUES

Un programme de numérisation soulève des questions juridiques non négligeables.

Conformément aux articles L 123-1, L 123-8, L 123-9 et L123-10 du Code de la propriété intellectuelle, les œuvres sont protégées du vivant de 1 'auteur et pendant une période de 70 ans à compter du 1er janvier qui suit la mort de cet auteur. Ses droits accordés aux héritiers ou ayants droit peuvent être prorogés pour années de guerre. En ce qui concerne les œuvres de collaboration, elles sont encore protégées 70 ans après la mort du dernier auteur; 70 ans après la publication, pour une œuvre collective.

Le simple fait de posséder un document ne suffit pas pour décider de sa numérisation et de sa diffusion. Seuls les documents tombés dans le domaine public sont libres de droit : ils peuvent être librement exploités lorsque la durée des droits patrimoniaux a été respectée. Mais, il faut veiller à ne pas porter atteinte au droit moral de l'auteur, droit perpétuel, inaliénable (mention du nom de l'auteur obligatoire, droit au respect de l'œuvre, à son intégrité).

Au contraire, les documents protégés par le droit d'auteur sont eux inexploitables, au regard de la propriété littéraire et artistique afin de ne pas léser de leurs droits patrimoniaux les héritiers d'auteurs. Dans certains cas, les droits de reproduction et de diffusion peuvent être accordés après négociation avec les titulaires des droits d'exploitation.

30 %du fonds des 86.000 ouvrages de la Bibliothèque Nationale de France sont soumis au droit d'auteur. Pour cette raison, un protocole a été signé avec le Syndicat National de l'Edition (SNE), suivi de conventions avec chaque éditeur : la bibliothèque verse annuellement la somme d'environ 60.980 euros, répartie entre les ayants droit, par l'intermédiaire du Centre Français d'exploitation du droit de Copie (CFC).

Ainsi, avant de procéder à la numérisation, le détenteur des pièces à numériser doit impérativement s'en remettre à leur(s) propriétaire(s) afin de s'assurer qu'il dispose de tous les droits d'exploitation des images. Cela impose une minutieuse vérification de chaque article et illustration.

3. 2

DESCRIPTION DU FONDS A NUMERISER

3.2.1.

QUENUMERISER?

Outre le respect des lois précédemment énoncées, les critères suivants seront respectés pour effectuer la sélection des documents à soumettre à la numérisation :

(16)

- Pour satisfaire une demande« grand public», il est primordial de constituer un corpus cohérent de textes représentatifs du patrimoine historique et linguistique des Bretons - Les documents inédits, précieux et fragiles seront privilégiés.

En réponse à ces exigences, ont été sélectionnés 5 types de documents écrits en breton : x Chansons populaires profanes ou religieuses, cantiques

x Tracts électoraux x Sermons

x Manuscrits

x Plaquettes ou imprimés de quelques pages

3.2.2.

EVALUATION QUANTITATIVE ET QUALITATIVE DES DOCUMENTS

Toutes les méthodes énoncent une première étape de chiffrage de la collection à numériser. Le projet du CRBC ne concerne qu'une partie infime du fonds documentaire.

~ LA TOTALITE DU FONDS BRETON

Le catalogue de la bibliothèque contient 3.610 notices correspondant aux documents écrits en langue bretonne.

Sur cet ensemble, 1.500 enregistrements concernent des imprimés libres de droit antérieurs à 1930, soit 168 petits imprimés de 20 pages ou moins et 790 documents de plus de 20 pages.

Le tableau ci-dessous classe les documents, suivant leurs formats (G : Grand, M : Moyen, C-D: Petit) et leur nombre de pages.

G>35cm 30 cm < M< 35 cm 20cm<C<30cm D <20cm

< 20 p_a_g_es

-

43 32 65

> 20 pages 2 22 110 340

Nombre de pages

-

1 3 + 1 pag.mult. 1 + 1 pag. mult.

indéterminé

Concernant le fonds Even Francis 11 écarté du fonds général, on compte 352 imprimés antérieur à 1930.

EG>35cm 30cm<EM <35cm EP<30cm

<20 pages

-

6 22

> 20pages_

-

14 302

Nombre de pages

-

-

4

indéterminé

Les documents en langue bretonne dont la date est inconnue représente un corpus de 4 71 imprimés dont 10 mentions 19?? (9 Cet 1 D).

11

(17)

EM EP 12 3 42 G>35cm 30 cm< M< 35 cm 20 cm< C < 30 cm D<20cm <20 pa2es

-

185 34 46 > 20pages

-

41 41 57

Le nombre de pages de 60 documents non datés reste indéterminé.

G M

c

D EG EM EP

1 26 15 6 3 3 6

Ainsi, 41,5 % des documents écrits en langue bretonne peuvent être numérisés conformément aux lois concernant les droits d'auteurs.

~ CONFORMEMENf AUX CRITERES PREDE1ERMINES

Parmi les 1.500 documents retenus, figurent 6 ouvrages qui correspondent à nos besoins documentaires ( 4 recueils de chansons, 1 mélange de cantiques et un autre de tracts électoraux), soit 221 pièces à traiter représentant un volume de 646 pages. A ceux-ci, s'ajoutent les ouvrages non-saisis (dans le détail) dans le catalogue de la bibliothèque : ils comptabilisent 523 pages.

Les chiffres du tableau récapitulatif ci-dessous ont été obtenus après une minutieuse analyse de chaque feuillet.

x Chansons populaires profanes ou religieuses, Cantiques

Titre de l'ouvrage Cote Ouvrage saisi dans le Nombre de pièces et de

détail? pages

Chansons bretonnes D-00184-00 Oui 48/49 soit 285 pages

Chansons populaires M-01776-00 ClA Oui 31 1 40 soit 62 p.

bretonnes M-01776-01-40

Chansons bretonnes ll M-01774-00 Oui 59 1 94 soit 92 p.

Chansons populaires M-01776-00 ClC Oui 31/32 soit 63 p.

bretonnes M-01776-41 -71

Cantiques bretons M-01777-00 ClA Non 37 1 31 soit 97 p. M-01777-01 -37

(18)

Cantiques bretons M-01777-00 ClC Non 29 1 34 soit 87 p. M-01777-38 -71

827 pages

Une collection non dépouillée de chansons et cantiques sur feuilles volantes est conservée dans la salle d'écoute des bandes sonores du Centre: 5 boîtes contenant approximativement 200 pièces chacune. Les % environ de ces 1. 000 unités sont des chansons ou cantiques de 3 pages en moyenne, soit 2250 pages. On obtient donc un total de 3.077 pages lorsque l'on ajoute le chiffre obtenu dans le tableau précédent.

x Tracts électoraux

Titre de l'ouvrage Cote Ouvrage saisi dans le Nombre de pièces et de

détail? pages

Tracts électoraux en C-0 1660-00 Non 21 121 soit 299 p. breton de 1869 à 1917

Tracts électoraux en breton M-01778-00 Non 26 1 28 soit 40 p.

Tracts électoraux en M-04165-00 Oui 1 1 22 soit 3 p. breton et français

342 pages

Le V4 restant des pièces sur feuilles volantes conservées à part est constitué de tracts à caractère politique. En estimant qu'un tract compte en moyenne 7 pages, on en déduit un total de 2.092 pages (un peu moins de 300 feuillets), destinées à la numérisation.

Ce chiffre reste très approximatif dans la mesure où le nombre de pages d'une unité à une autre est très variable.

Hormis le premier et le dernier livre cités, rangés dans le rayonnage mobile de type compactus de la salle de lecture, les 10 ouvrages décrits ci-dessus appartiennent au fonds ancien et patrimonial du Centre et sont conservés dans le coffre fort (d'où la mention C, en fin de cote: ClA). Il s'agit de mélanges de textes constitués, semble t-il, par leur propriétaire et donateur Daniel Bernard 12 qui les a réunis dans des reliures artisanales de sa fabrication.

(19)

Leur mise à l'écart se justifie par leur caractère précieux et fragile : chaque manipulation est source de nouvelles détériorations du papier jauni et déjà en mauvais état, en raison de l'âge du document.

C'est pourquoi, à l'observation et selon mon appréciation, sur un total de 410 pièces (chansons, cantiques et tracts), seules 334 méritent la mention bon état de conservation car exemptes de froissures, déchirures ou tâches. Lors de la sélection, d'un point de vue qualitatif, le degré de lisibilité a aussi pesé lourd et regrettable reste le problème trop souvent remarqué de la reliure qui déborde sur le texte, le masquant et le rendant donc inexploitable.

x Sermons

Dans ce champ, est retenue la thèse de Fafich Roudaut soutenue en 1975 pour le Doctorat de III e cycle, intitulée La prédication en langue bretonne à la jin de 1 'Ancien Régime, soit 2 volumes représentant un total de 640 pages. La première partie expose son étude sur les protagonistes de la prédication et leurs méthodes, le contenu des sermons et leur influence. Le second volume est constituée de textes dactylographiés en breton avec traduction française.

Aucun problème juridique ne se pose ici, malgré la date d'édition du document relativement récente car son auteur, en sa qualité de directeur du CRBC, cède au Centre ses droits d'auteur.

x Archives

A l'occasion du 20e anniversaire du CRBC, Pierre-Jakez Hélias, célèbre auteur breton du Cheval d'orgueil, déclare à la presse qu'il lèguera au Centre, ses manuscrits et sa bibliothèque bretonne. C'est chose faite en 1996. Le fonds Hélias est composé de 596 manuscrits, 666 tapuscrits, 1.137 imprimés, 533 lettres, 753 articles de dossiers de presse et 68 iconographies (cartes postales, photos, peintures, dessins ... ). Cet inventaire, réalisé par Mannaïg Thomas, documentaliste vacataire au CRBC, référence tous les documents écrits en breton, français, allemand et anglais de ce fonds.

Nous retiendrons uniquement les pièces en langue bretonne (bre) dont le tableau suivant récapitule le nombre de pages, écrites par :

Pierre-Jakez Hélias lui-même

bre bre/fre

Date d'édition antérieure à 1930 25

-Aucune date d'édition 3.169 776

TOTAL 3.194 776

Des travaux de Pierre-Jakez Hélias non datés et co-écrits avec René Abjean, Anjela Duval, Jef Le Penven, Polig Montjarret et Guillevic sont aussi référencés, à savoir 6 pages en breton (bre) et 51 en breton et en français (bre/fre).

des personnes de son entourage, des amis auteurs, des personnalités (Jacques Chancel, François Mitterrand), des journalistes ...

(20)

bre brelfre

Date d'édition antérieure à 1930 38 53

Aucune date d'édition 586 167

TOTAL 624 220

En dehors des pièces écrites en langue française et/ou celles dont la date d'édition est postérieure à 1930, le fonds Hélias est constitué de 3.824 pages écrites en langue bretonne et 1.047 en breton et en français (dont 30 chansons, soit 101 pages).

x Plaquettes ou imprimés de quelques pages

Au nombre de 168, les documents, antérieurs à 1930, répertoriés dans cette rubrique,

représentent un volume de 840 pages à numériser.

Si l'on ajoute les 277 autres références du catalogue dont la date d'édition est inconnue, ce chiffre avoisine les 2.225 pages.

Néanmoins, une vérification des doublons serait nécessaire car ce chiffre inclut également les chansons, cantiques et tracts de 20 pages ou moins.

Globalement, la numérisation du fonds en langue bretonne concernerait dans 1 'immédiat un total estimé à 11.800 pages.

Cependant, ce chiffre inclut une part du contenu des fonds Hélias et Bernard. Or, pour que ces documents protégés par le droit d'auteur deviennent exploitables, le CRBC devra d'abord obtenir l'accord des descendants héritiers des auteurs.

Les documents destinés à la numérisation, au même titre que les autres ouvrages de la bibliothèque, sont catalogués sous C 2 au format USMarc et indexés selon le thésaurus Mémo Base, édité par le CRDP de Poitiers. Les 40.000 notices bibliographiques du catalogue informatisé comportent les champs suivants :

Code Exemple 001 RID M-04165-00 008 Date de saisie 07/04/1988 020 ISBN 022 ISSN 041 Langue a: fre a: bre 100 Auteur a: DUCHATELLIER A.

245 Titre a: Cultivateurs et chers concitoyens

= Labourerien ha quenvroïs-quer.

250 Edition

260 Adresse bibliographique e: Morlaix e: lieu d' impression f: lmpr. de Lédan f: nom de l' imprimeur g: 1842

g: année d' impression

300 Collation a: 3 p.

a : nombre de pages c: 27 cm

(21)

c: format 440 Collection

500 Note

502 Note de thèse 593 Alimentation réseau

595 Type document Ouvrage

599 Auteurs

651 Sujet (commune)

690 Vedette matière HISTOIRE XIXEME SIECLE

(descripteur)

691 Vedette ma ti ère (mot clé) 700 Auteurs supplémentaires

760 Périodique

773 Ouvrage hôte

3

.

3

ASPECTS FINANCIERS

Nombre de projets envisagés antérieurement sont abandonnés ou interrompus faute de ressources budgétaires suffisantes ou pour cause de sous-estimation du coût de l'opération. C'est pourquoi au préalable une estimation du coût prévisionnel de l'opération est impérative afin de déterminer le montant des aides à acquérir par le biais des partenaires du projet.

3.3

.

1.

SURLEPLAN NATIONAL

Depuis 1996, la MRT (Mission Recherche et Technologies) du Ministère de la Culture et de la Communication lance, tous les ans, 1 ou 2 appels à projets, dans le cadre d'un programme d'aide à la numérisation des contenus culturels. En 2000, cette prise en charge à 100% des frais techniques de numérisation qui ne concernait jusqu'alors que les collections d'Etat s'est étendue aux fonds des collectivités locales et a déjà permis la production de plus de 2 millions de documents numérisés. L'année dernière, le ministère a consacré à la numérisation du patrimoine de l'Etat 1.22 MEuros et des collectivités, 0.61 Meuros.

3.3.2.

AU NIVEAU REGIONAL

Une aide financière des Conseils régionaux peut être accordée.

En 2000, les régions Bretagne et Pays de la Loire 13 lancent le premier appel à projets interrégional Mégalis. L'objectif de cette opération est de susciter la création d'applications et de services à hauts débits, basés sur les technologies de l'information et de la communication.

C'est ainsi que par exemple, le projet de mise en ligne de cartes postales du Conservatoire régional de la carte postale de Baud a été retenu pour la section Culture et a bénéficié d'une subvention de 31 252.05 Euros H.T.

13

(22)

Fin mars 2002, le CRBC a adressé son dossier de candidature, La mémoire du breton,

pour participer au second appel à projets, doté d'un fonds d'1.200.000 Euros. Les besoins financiers du CRBC sur 2 ans seraient estimés à 78.048 Euros.

Voici dans le détaille coût prévisionnel des investissements, en Euros :

Matériels et logiciels nécessaires à la production 30.000 de documents numériques et à la mise à jour des

bases de données

Production de documents numériques 45.000 (soit an CRBC, soit en sous-traitance)

Droits patrimoniaux 1.524

(frais à régler auprès des descendants des auteurs, libraires, imprimeurs, éditeurs)

Frais de communication, publicité 1.524 (élaboration d'une plaquette, d'affiches)

Néanmoins, dans l'immédiat, le projet n'a pas été sélectionné par les régions Bretagne-Pays de Loire mais le réexamen du dossier par le jury interrégional est prévu en décembre prochain.

Le montage financier du projet de l'opération se présente de la façon suivante:

);> Part des prestations fournies par le CRBC (Personnels CNRS, MEN) Etablissement du budget de 1 'opération

Conception du projet et suivi

~ Part des prestations fournies par le CRI de l'UBO Installation du matériel informatique

Hébergement des données ~ Aide financière apportée par le CMB

Dans le cadre de sa politique de mécénat et de ses engagements en faveur de la culture régionale, il s'est engagé à leur verser 4.575 F net par an sur 3 ans.

~ Aide financière demandée aux régions Bretagne - Pays de Loire

(23)

4.

SOLUTIONS TECHNIQUES POUR LES FONDS EN LANGUE

BRETONNE DU CRBC

4. 1

REVUE DES ASPECTS TECHNIQUES

La numérisation consiste en un processus de transformation d'un document primaire en un fichier informatique par la conversion d'une information analogique, continue, en une information numérique, digitale, codée en mode binaire (0 ou 1).

Pour intégrer dans l'ordinateur les valeurs d'un signal analogique, on utilise un signal comprenant des valeurs indépendantes les unes des autres, dites discrètes.

Ce principe de création d'un document électronique peut s'effectuer à partir de différents supports:

papter

microformes (microfiches, microfilms) photographies

documents audiovisuels films

Il existe 2 manières d'aborder le document écrit que l'on souhaite numériser, en adoptant le mode de numérisation image ou texte.

4.1.1.

LEMODEIMAGE

La surface du document, considéré comme une image formée par le dessin des caractères d'imprimerie, est balayée par un faisceau photoélectrique qui analyse la page vue comme une grille de points élémentaires auxquels on a attribué une valeur numérique. Ces carrés blancs, noirs ou de couleurs sont appelés pixels (pour picture element) et constituent la plus petite unité d'une image. Le pixel est codé suivant une unité de mesure binaire : le bit, contraction de binary digit (nombre binaire) dont la valeur est 0 ou 1. Le codage du pixel est déterminé en fonction du degré de gris ou de couleur désiré :

- Le pixel est codé en machine sur 1 bit, correspondant au noir ou au blanc. Ce mode bitonal est adapté pour les documents textuels récents.

- Le pixel est codé sur plusieurs bits. Un octet (soit 8 bits) permet de représenter 256 caractères ou niveaux de gris différents. Ce mode niveaux de gris est utilisé plus particulièrement pour les documents anciens.

- Le pixel est codé sur 2 octets ou plus (3 octets en général ou 24 bits soit 16 millions de couleurs). Le pixel couleur est codé à partir des 3 couleurs élémentaires: rouge, vert, bleu ou mode RVB. Ce codage sert pour les documents photographiques couleurs.

La numérisation en mode image fournit ainsi une image bitmap qui est la copie conforme du document original en fac-similé électronique, en langage binaire.

(24)

~ Avantages et inconvénients du mode image

La technique est simple à mettre en œuvre. Elle est peu onéreuse.

Cette procédure génère des fichiers encombrants.

Ce mode interdit toute recherche sur le texte. Sans indexation, ni mot-clés, le texte ne peut être que feuilleté.

4.1.2.

LE MODE TEXTE OU ALPHANUMERIQUE

La page à numériser est considérée comme du texte, c'est-à-dire une combinaison de signes alphabétiques. Afm que les 26 lettres constituant notre alphabet (ainsi que les caractères spéciaux, les notations mathématiques, les chiffres ou symboles courants ... ) soient identifiées par des ordinateurs ne manipulant que des données binaires, un système de codage, appelé table ou jeu de caractères leur attribue une valeur numérique. A chaque caractère correspond une suite distincte de 0/1.

Le code ASCII (American Standard Code for Information Interchange) est le premier jeu de caractères à avoir été normalisé, d'abord par l'ANSI (American National Standards Institute) en 1968, puis par l'ISO (International Standardization Organization), le plus grand organisme de normalisation, qui a son siège à Genève. Il permet de représenter toutes les composantes textuelles d'un document, la ponctuation et des éléments de présentation rudimentaires. C'est la manière la plus élémentaire de concevoir la numérisation d'un document.

Plus récente, la table Unicode, publiée en 1991, constitue aussi une excellente base d'encodage, adaptée tout particulièrement aux exigences des bibliothèques.

Ainsi, le codage d'un document, en mode texte, abstrait totalement le contenu de son support, et ce n'est que dans le but de le rendre lisible à nouveau qu'il est restitué sur écran.

Ce type de document en mode texte est obtenu soit par saisie directe par des outils de traitement de texte (la saisie s'effectue manuellement), soit par reconnaissance optique de caractères. Pour cette dernière méthode, la page est numérisée en mode image pour être ensuite traitée à l'aide d'un logiciel d'OCR (Optical Character Recognition: Reconnaissance Optique de Caractères)

~ Avantages et inconvénients du mode texte

- La numérisation en mode texte permet une recherche en « plein texte » et une navigation au sein du document. Il est possible, par exemple, de naviguer d'un document à un autre, ou d'une table des matières à un chapitre particulier. La saisie manuelle des tables des matières, des sommaires, des bibliographies facilite la recherche sur le contenu.

Cette technique rend possible une interrogation en langage naturel, facilitant l'accès à

(25)

Cette procédure génère un coût élevé (achat du logiciel d'OCR, main d'œuvre pour la saisie manuelle, pour la relecture et les corrections qui sont, de plus, des opérations longues et fastidieuses).

La saisie du texte engendre une transformation de la présentation initiale du document. Il est donc obligatoire d'obtenir des ayants droit ou de 1 'auteur du document, 1 'autorisation de sa reproduction et de sa représentation.

Les logiciels d'OCR ne sont pas complètement satisfaisants. Les plus performants affichent un taux de reconnaissance de 99,8 %pour des documents imprimés de bonne qualité. Exigeant une régularité dans la typographie et l'encre, ils ne sont pas adaptés aux documents originaux anciens.

Ainsi, le mode texte et le mode image répondent chacun à des attentes complémentaires. La Bibliothèque Nationale de France a numérisé 90.000 ouvrages en mode image et 2.600 en mode texte. Les ressources en mode texte proviennent de la base Frantext de l'Institut National de la Langue Française (INALF) et d'une coopération avec les éditeurs Acamédia, Bibliopolis et Honoré Champion. Une petite partie des imprimés numérisés en mode image pourraient être traduite ultérieurement en texte intégral en utilisant les logiciels de reconnaissance optique de caractères.

Le CRBC opterait aussi pour l'option « mixte » : mode image et mode texte pour les tables des matières et éléments péritextuels, afin de rendre possible l'interrogation à partir d'un moteur de recherche. Le volet novateur de l'opération sera l'utilisation d'un logiciel d'OCR reconnaissant le breton ancien avec ses variantes dialectales, typographiques. L'emploi de cet outil impose le suivi et la validation de la procédure par un opérateur bretonnant.

4.1.3.

LA

RESOLUTION DEL 'IMAGE

La résolution de l'image ou échantillonnage est la précision de la numérisation; elle est définie par le nombre de pixels par pouce ou dpi (dot per inch ou ppp = points par pouce ; 1 pouce= 2,54 cm). Plus le nombre de dpi est élevé, meilleure est la qualité de l'image.

La résolution dépendra de la qualité de l'original (support, caractères, encre, couleurs ... ) et du type d'exploitation désiré (feuilletage rapide, lecture ou travail de recherche à l'écran ... ). La numérisation n'améliore jamais la qualité du document source.

Pour la numérisation de ses imprimés, la BNF a retenu une résolution moyenne d'environ 300 dpi, suffisante pour une bonne lisibilité.

Un taux de 400 dpi convient pour les caractères originaux très petits ou de mauvaise qualité, alors que les manuscrits nécessitent un taux de 600 dpi.

La Maison de l'Orient méditerranéen- Jean Pouilloux à Lyon, qui a expérimentée une plate-forme de production de numérisation, conçue en interne, a procédé à une diminution de la résolution de ces pages numériques de 600 dpi à 300 dpi et cette opération a réduit de moitié le poids de ses fichiers (de 600 Ko à 300 Ko).

(26)

4.1.4.

LA

COMPRESSION DEL 'IMAGE

Il est impératif de compacter les fichiers numériques constitués afin de minimiser 1' espace de stockage et d'accélérer l'accès aux documents numérisés. Un fichier image ne doit pas avoir un poids supérieur à 150 octets pour s'afficher dans des délais corrects.

Les modes de compression les plus utilisés n'induisent aucune perte d'information.

Pour les fichiers de type texte, il est primordial que le document décompressé soit parfaitement identique à 1' original. Les méthodes CCI1T groupe III et IV sont conseillées par l'UIT-T (anciennement CCITT, Comité Consultatif International Télégraphique et Téléphonique) .

./ Une page de taille A 4 contenant du texte et numérisée à 200 dpi occupe, avant la compression, un volume de 500 Ko. Après compression suivant la norme CCJ1T groupe IV, elle n 'occupe plus qu'un volume compris entre 20 et 50 Ko.

Pour un taux de 300 dpi, le volume de la page diminue de 1 Mo à 70 Ko.

Pour les images en noir et blanc ou en couleurs, la norme JPEG (Joint Photographie Expert Group) est la plus utilisée. La compression s'accompagne d'une perte d'information (nuances, lisibilité) invisible à l'œil nu. Le principe consiste à diviser l'image en carrés de 8 x 8 pixels et à supprimer dans chacun d'eux, les occurrences les moins informatives .

./ La technique DjVu est une méthode récente qui permet de compresser des documents mixtes (textes et images fixes), évitant ainsi tout sacrifice de 1 'un ou 1 'autre type de documents. Elle code séparément le texte et l'image. La comparaison avec les autres méthodes connues fait apparaître une perte d'information inforieure et une qualité finale 5 à 10 fois supérieure.

Le taux de qualité d'un mode de compression se définit en fonction de sa fidélité au document original. Il faut toujours conserver l'original des fichiers car le fait de compresser et de décompresser use le fichier.

4. 2

PLUSIEURS OPTIONS POSSIBLES

4.2.1.

LEMATERIELDENUMERISATION

Sur le marché, sont disponibles de multiples scanners :

Le modèle de scanners le plus simple est adapté à la numérisation des feuilles volantes. Le modèle flat bed ou « scanner livre ouvert » numérise les ouvrages à plat, texte dirigé vers le haut. Le dispositif de numérisation est soit fixe et s'apparente à la photographie de studio et surtout au microfilmage, soit mobile, parcourant la surface du document, à la façon des scanners bureautiques.

Il existe aussi des scanners spécialisés qui traitent les microformes, les diapositives et les transparents.

(27)

Par ailleurs, l'opération est également possible à l'aide d'un appareil photographique numérique, plus adapté pour les ouvrages précieux ou de grande dimension. Il est important de signaler que des logiciels comme Adobe Exchange permettent de retraiter l'image.

Ainsi, le matériel à utiliser dépend de la présentation physique du document que 1' on va traiter.

En 1990 et 1991, des études et tests ont été menés pour la Bibliothèque Nationale de France sur 600 puis sur 8.000 ouvrages pour expérimenter 3 solutions techniques, à savoir la numérisation par un opérateur des livres originaux reliés, la numérisation de livres massicotés et la numérisation de livres stockés sur des supports de substitution, photographies et microformes.

Les 2 dernières filières ont été retenues après des résultats concluants au niveau du coût de 1 'opération et de la qualité du résultat obtenu. Ces 2 méthodes non seulement rapides ont pour précieux avantage également d'éviter toute manipulation des supports originaux qui auraient été endommagés. Il s'agit alors d'acheter les livres pour les massicoter 14

et les numériser page par page. La numérisation a été réalisée par 2 prestataires, chacun prenant en charge 50.000 ouvrages (40% sous forme papier et 60% sur microformes).

Un dispositif informatique de grande ampleur a été spécialement mis sur pied dans le cadre d'une opération de numérisation de masse lancée par la Maison de l'Orient méditerranéen-Jean Pouilloux 15 à Lyon.

La formule expérimentée par la M.O.M est inédite de par le montage, en interne, d'une plate-forme de production de numérisation destinée à traiter des lots importants de documents. Cette méthode plate-forme technologique est testée sur les publications de l'Ecole française d'Athènes regroupant plus de 750 volumes à numériser, courant 2002.

Parmi les revues de l 'EF A à numériser, figure la collection complète du Bulletin de

correspondance hellénique (BCH) qui se compose aujourd'hui de 181 volumes soit 82.846 pages (sans compter les 3 volumes de tables d'indexation).

Matériellement, la plate-forme se compose de 2 chaînes de production, d'un serveur de base de données, d'outils de calibrage (pour assurer une reproduction cohérente des couleurs originales), d'un système de gravure (pour l'archivage sur CD-ROM).

La première chaîne reproduit les livres en noir et blanc. Elle dispose d'un scanner de livres précieux, d'un scanner de microfilms, d'un lecteur reproducteur de microfilms et d'un appareil photo numérique haute définition.

La seconde traite tout document couleur, employant : un appareil photo numérique et

8 scanners (à plat format A3 et A4, format A3 recto/verso bitmap dédié à la reproduction de publications, format A3 recto/verso couleur, format 0 pour cartes et plans, de diapositives, un second de diapositives et formats moyens avec chargeur permettant une automatisation de la numérisation, un troisième de diapositives avec chargeur et films en bandes et en rouleaux).

14

Rogner Je papier au massicot 15

(28)

Ces périphériques d'acquisitions sont connectés à des stations configurées pour supporter les flux de numérisation et les traitements associés. Elles sont sur système Windows NT/2000, MacOS et UNIXILINUX.

La plate-forme est montée sur un réseau informatique à 100 Mbits/s, avec une liaison l Gbits/s sur le serveur de base de données.

Pour constituer son fonds numérique angevin, composé de documents anciens sur la littérature et l'histoire locale, la Bibliothèque Universitaire d'Angers a utilisé un photocopieur scanner, sur lequel est créé un répertoire. Cet appareil convient bien à la numérisation des feuilles volantes. ll faut, néanmoins, au préalable, procéder à la photocopie du document intégral pour qu'ensuite, l'ensemble des pages soit traité mécaniquement et numérisé en continu. Cette méthode de numérisation dite à la volée a aussi été choisie par la Médiathèque de l'Agglomération Troyenne 16 qui a numérisé un livre de chœur du XVr siècle et un livre d'heures 17 du XV" siècle, soit au total 169 feuillets sur parchemin.

Le Centre de Ressources Informatiques (C.R.I) de l'Université de Bretagne Occidentale assiste le CRBC dans la réalisation de la phase technique du projet et gère l'achat du matériel informatique. Le choix d'une numérisation en interne implique l'achat ou la location du matériel adéquat. La dernière solution évoquée est celle qui semble correspondre le mieux aux besoins du CRBC, qui dispose, pour le moment, d'un scanner bureautique.

4.2.2.

LESLOGICIELS

Le CNRS a accordé à la Maison de 1 'Orient Méditerranéen (MOM) de Lyon le label de Centre de Compétences Thématiques «Banques d'images et données textuelles », en 1997. Le CTT bénéficie des travaux engagés depuis 1988, dans ce domaine des banques d'images, qui ont abouti à la construction d'un Système de Gestion de Banques d'Images.

Le serveur de base de données (de la plate-forme de production de numérisation dont il est question précédemment) héberge le SGBI. Commercialisé sous le nom de Trans Vision, il a été développé par la société SGBI Entreprise et par le Service Informatique & Image de la MOM. Ce logiciel assure le stockage des données dans une banques d'images et propose des outils de traitement des documents numérisés, soit des outils de recherche rapides et efficaces afin d'exploiter au mieux les bases documentaires, soit des outils de retouches d'images.

Robot Trans Vision, notamment, conçu aussi à la Maison de l'Orient méditerranéen- Jean Pouilloux, comprend 3 types de modules : les modules d'acquisition d'images, les modules de traitements, et les modules d'insertion.

La châme automatisée de traitement des pages numériques comprend donc :

le module «répertoire d'entrée » qui permet de récupérer les images sur le disque dur d'un PC

les 3 modules de traitement «conversiOn du mode et du format de l'image », «changement de résolution et de taille de l'image » et « repagination » (génère la pagination physique des pages)

16 http:/ /ww,v. bm-troycs. fr/dcfault03 .asp 17

Figure

Table  des matières  Table des matières

Références

Documents relatifs

Des escouades d’instituteurs français sont envoyés dans les écoles bretonnes, avec des directives précises réitérées par les préfets et les sous-préfets : « assassiner la

Ce  bilan  chifré  de  la  production  de  la  décennie  nous  permet  de constater que la publication d’ouvrages en langue bretonne est indépendante  de 

The mandate of Xi Jinping, the Chinese premier has since its beginnings at the end of 2012, known its share of geostrategic tensions (the nascent.. crisis with Japan,

Vous pouvez aussi taper, dans une cellule, par exemple :=Permutation(45,7) pour les permutations et :=Combin(45,7) pour les

al Lanv a traduit des œuvres qui sont  surtout  des  classiques  ou  des  chefs-d’œuvre  de  la  littérature  mondiale : les Fables de La Fontaine, La Métamorphose de Franz

bien : il n’est évidemment pas question de faire ici le procès d’un livre ou – à plus forte raison – de son auteur mais simplement, à l’occasion d’une

De plus, les réformes économiques algériennes traduisent une certaine volonté de changement de système économique et social ; véhiculée par les nouvelles orientations de

Le présent travail dont le thème est «Influence de la nature du sol et de la topographie sur la distribution spatiale de Julbernardia seretii (De Wild) Troupin et de