• Aucun résultat trouvé

Le projet ARELDA des Archives fédérales suisses

N/A
N/A
Protected

Academic year: 2022

Partager "Le projet ARELDA des Archives fédérales suisses"

Copied!
14
0
0

Texte intégral

(1)

fédérales suisses

Quelques pièces dans une mosaïque immense

Thomas Zürcher Thrier — Stephan Heuscher

Archives fédérales suisses Projektteam ARELDA Archivstrasse 24 CH-3003 Berne

thomas.zuercher@bar.admin.ch stephan.heuscher@bar.admin.ch

RÉSUMÉ. Le projet ARELDA des Archives fédérales suisses a pour objectif l’archivage des données et documents électroniques produits par les services de l’administration de la Confédération suisse. Il est l’un des projets-clés de l’initiative appelée « cyber- administration », une initiative dont l’ambition est d’améliorer la coopération entre l’administration et le public par le biais de l’utilisation des nouvelles technologies de l’information. L’article éclaire quelques aspects du problème de l’archivage des données électroniques à long terme, notamment le traitement des enregistrements sonores des débats du Parlement. Un groupe de logiciels pour la prise en charge des bases de données est présenté ainsi que quelques aspects de l’évaluation archivistique des systèmes d’information.

Le texte se comprend comme un rapport intermédiaire sur les résultats du projet.

ABSTRACT. The goal of the Swiss Federal Archives’ ARELDA project is to find long-term solutions for the archiving of digital records created by the Swiss Federal administration. It is one of the key e-government projects, designed to improve the cooperation between citizens and the administration using new information technologies. The article describes some aspects of the problem of long-term archiving of electronic records, more specifically, the audio recordings of the Swiss parliament’s debates. The article also presents a collection of tools to archive relational databases as well as some principles for the appraisal of information systems; it should be understood as an interim report of the results achieved by the project.

MOTS-CLÉS : archivage de données numériques, OAIS, enregistrement sonores, XML, bases de données, évaluation archivistique.

KEYWORDS: digital preservation, OAIS, audiorecording, XML, data base, appraisal.

(2)

1. Les Archives fédérales

Les Archives fédérales sont responsables de l’archivage de tous les documents qui sont produits au sein de la Confédération. C’est-à-dire : les documents du législatif et de l’exécutif – donc du Parlement, du gouvernement et surtout de l’administration. Celle-ci comprend environ 300 services versants occupant près de 34 000 personnes1. Pour remplir leur mandat, les Archives se basent sur la loi fédérale sur l’archivage qui est en vigueur depuis 1999. Elle oblige l’administration à proposer tous les documents produits dans ses services aux Archives. C’est aux Archives fédérales de sélectionner ce qui va être archivé ou détruit. Et c’est aux services de préparer les documents pour l’archivage2.

Aujourd’hui les Archives fédérales représentent environ 42 kilomètres linéaires de fonds sous forme papier, et ces fonds augmentent annuellement d’environ 1 000 mètres, ce qui pose de grands problèmes car les magasins sont presque pleins.

Depuis 1982, les Archives fédérales reçoivent des données numériques.

Aujourd’hui, elles stockent 12 tera-octets (1 tera-octet représente environ 1 000 giga-octets) de données (originales et copies). Une augmentation annuelle de 20 tera-octets, deux fois ce que nous avons maintenant !, est attendue dès 2004.

Une grande partie des données était stockée sur de vieilles bandes IBM qui ont depuis été migrées sur des bandes magnétiques de type AIT-2 de Sony. Une bande moderne a une capacité sans compression de 50 giga-octets et peut stocker environ 1 000 fois plus que les anciennes. On estime que la capacité des bandes double environ tous les 18 mois. L’avantage d’un stockage plus efficace est cependant lié à un risque beaucoup plus important : imaginez la perte d’informations, si l’une de ces nouvelles bandes était détruite.

L’année passée les Archives fédérales ont lancé le projet ASTOR (ARELDA- Storage-Basisinfrastruktur, infrastructure de base pour l’archivage de longue durée des documents numériques sous forme électronique). L’appel d’offres qui a été lancé pour deux robots de gestion des bandes magnétiques avec une capacité totale de 60 tera-octets a abouti. Des copies identiques des données seront stockées sur deux systèmes techniques différents à deux endroits différents. Ce projet et réalisé en collaboration avec la Bibliothèque nationale, qui sauvegardera ces fonds numériques sur le même système3.

1. http://www.personal.admin.ch/themen/bupers/f/kennz.htm (cons. 24.3.04) 2. Loi fédérale du 26 juin 1998 sur l’archivage (LAr). SR 152.1,

http://www.admin.ch/ch/f/rs/1/152.1.fr.pdf.

3. Feuille Officielle Suisse du Commerce (FOSC) n° 104 du 3.6.2003, http://www.shab.ch/DOWNLOADPART/N936756/N2003.00039651.pdf

(3)

2. ARELDA

2.1. Le projet « cyber-administration » et le projet ARELDA

ARELDA s’est lancé dans la réalisation d’un archivage numérique selon le modèle OAIS4. Ce modèle a été créé par la NASA pour la communication entre ses services et ses archives. Complété par le Consultative Committee for Space Data Systems5, il a été accepté comme norme ISO en 2003. OAIS sert de base à de nombreux projets d’archives numériques.

L’acronyme ARELDA signifie : Archivierung elektronischer Daten und Akten, en français : Archivage de données et documents numériques. Il faut préciser que le mot allemand Akten ne peut pas être traduit directement en français. Il correspond au mot anglais records et il qualifie plus ou moins un groupe de documents officiels et enregistrés.

Nos documents sont d’une part des documents issus d’outils bureautiques.

D’autre part, nous avons des documents sonores (par exemple les enregistrements numériques des discussions parlementaires) et des images (par exemple une collection de photographies de l’époque de la Seconde Guerre mondiale). Cette collection a été numérisée pour protéger les originaux des dégâts dus à leur utilisation. Mais la majeure partie de nos documents sont des documents d’origine numérique, donc créés au moyen d’ordinateurs. Et il va de soi que la masse de documents créés par les ordinateurs va augmenter rapidement dans un futur proche.

L’utilisation du mot « données » suggère que ce ne sont pas seulement des documents que nous archivons, mais aussi des bases de données. Aux informaticiens, il faut habituellement préciser le terme « archivage » : ils ont tendance à ne le comprendre que dans le sens de back-up de sécurité. Or, ces back- up ne doivent exister que quelques mois, alors que nous devons archiver nos données des dizaines ou même centaines d’années.

Le projet ARELDA a débuté dans les années 1990. En 2000, le projet était relancé sur une nouvelle base. Il a reçu des ressources complémentaires importantes grâce au projet du gouvernement fédéral dit « cyber-administration », dont ALREDA est un des projets-clés. Le projet cyber-administration s’est fixé pour but d’améliorer la coopération entre l’administration et les citoyens par le recours aux nouvelles technologies de l’information et de communication6. Pour cela, l’Etat a mis à disposition plusieurs crédits spéciaux. ARELDA a reçu 6 millions de francs suisses (4,5 mio €) jusqu’en 2004. Le projet durera jusqu’en 2008 et devrait coûter

4. ISO 14721, Space data and information transfer systems, Open archival information system, Reference mode, Genève, ISO, 2003.

5. http://www.ccsds.org (cons. 24.3.2004).

6. Stratégie de la Confédération en matière de cyber-administration (eGovernment), http://www.isb.admin.ch/internet/egovernment/00677/index.html?lang=fr

(4)

globalement 12 millions de francs (8 mio €)7. ARELDA étant un projet-clé, les Archives fédérales ont pu engager des informaticiens et acquérir ainsi des connaissances dans le domaine informatique. L’équipe ARELDA se compose de quatre informaticiens et d’un archiviste. Mais ce ne sont pas seulement les ressources humaines renouvelées et le savoir-faire gagné qui ont amélioré les chances du projet, c’est aussi le fait que l’équipe peut expérimenter librement avec sa propre infrastructure technique.

2.2. Les problèmes de l’archivage des données

L’archivage des données numériques à long terme doit respecter les quatre conditions suivantes (Keller, 2003) :

– La persistance : l’objet archivé sous forme numérique doit pouvoir exister plus longtemps que chaque équipement technique le rendant accessible. Il y a d’abord le problème de la durabilité des supports. Les prévisions sérieuses tablent sur une durée de vie des cédéroms de trois à trente ans. Pour les bandes magnétiques utilisées aux Archives fédérales, on estime la durée minimale à 10 ans et la durée maximale à 30 ans. Mais il ne faut pas seulement garantir la durabilité des supports, il faut pouvoir aussi disposer des appareils de lecture, ainsi que des logiciels et des plates-formes permettant de lire les données dans un futur lointain ;

– L’intégrité physique : la conservation doit être sûre, fidèle et intégrale : c’est-à- dire que la suite de bits ne doit pas être changée sauf par des personnes ou machines autorisées à le faire, et à la condition expresse que ce changement soit documenté ;

– L’authenticité : il s’agit là de l’intégrité intellectuelle. L’authenticité est la garantie que l’objet archivé est bien ce qu’il prétend être. (Ce n’est pas une question de vérité : si un fonctionnaire malhonnête a enregistré un document faux, celui-ci reste quand même authentique) ;

– L’accessibilité : toutes ces conditions ne servent à rien si les données archivées ne restent pas accessibles pour une période raisonnable et si elles ne restent pas compréhensibles. Pour garantir la compréhensibilité, il faut documenter leur contexte d’origine. A la différence des documents papier, les fichiers numériques ne sont pas compréhensibles directement. Qu’est-ce qu’un document ou une donnée électronique ? C’est une suite de bits, donc de zéros (0) et de uns (1), enregistrée sur un certain support et représentée à un certain moment par certains outils. Telle suite de bits peut être interprétée de plusieurs façons. La même suite de bits peut signifier : un nombre entier, une lettre, un son, une suite de valeurs, un image ou un

7. Archivage des données et documents numériques sur supports électroniques de l’administration fédérales suisse (ARELDA), Exposé du projet, [Berne], 2001, et : même titre : Management Focus, [Berne], 2001,

http://www.bar.admin.ch/webserver-static/docs/f/arelda_expose_0401_f.pdf]

(5)

nombre réel. Il faut donc aussi archiver les informations sur le codage des données, les métadonnées. Sans celles-ci, on ne pourrait plus comprendre ce qui a été archivé.

Il y a deux approches fondamentalement différentes pour résoudre le problème de l’archivage des données électroniques : l’approche de l’émulation et celle de la migration (Thibodeau, 2000). Vu l’hétérogénéité de l’administration fédérale, qui se retrouve aussi en miroir dans les environnements informatiques, ARELDA a opté pour une approche de migration spécifique : une migration indépendante de l’application. Nous n’acceptons dans nos archives que des fichiers dans des formats standard ouverts, donc non propriétaires et bien documentés. Ce sont des fichiers- plats, de texte pur, en codage ASCII, et des images en format TIFF. Les deux formats sont publiés par l’Organisation internationale de normalisation (ISO). De plus, nous n’archivons aucune partie de logiciel. C’est-à-dire que nous acceptons le risque de perdre un peu de la représentation originale. Par contre, nous essayons de documenter tout ce que nous ne pouvons pas archiver. Ainsi, et grâce à l’utilisation de formats ouverts et publiés, un informaticien sera demain en mesure de reconstruire l’application. Nous comptons devoir migrer toutes nos données tous les 15 ans environ.

Le projet est divisé en plusieurs sous-projets, dont quelques-uns sont présentés dans les chapitres suivants.

3. AMDA

3.1. Situation initiale

AMDA (Audio Metadaten Akquisition) est un système pour l’acquisition des métadonnées des enregistrements sonores des débats du Parlement. Les métadonnées dérivant de différentes sources sont harmonisées et traitées pour l’importation dans le système de recherche centrale des Archives à l’aide de XML.

AMDA permet de saisir les métadonnées pendant le traitement des données primaires.

Depuis 1891 tous les discours tenus dans le Parlement ont été enregistrés et publiés in extenso dans le Bulletin officiel de l’assemblée fédérale. Pour mieux saisir et contrôler la rédaction des textes les services du Parlement enregistrent les discours depuis 1982. Jusqu’en 2001, cet enregistrement était fait sur des bandes magnétiques analogiques. Depuis 2002 le son est pris directement sous forme numérique et publié avec des séquences vidéo. Les discours des séances sont accessibles sur la page web des services sous forme vidéo et texte8.

Ces bulletins sont archivés par les Archives, tout comme les enregistrements sonores analogiques. Les enregistrements numériques des services du Parlement, par

8. http://www.parlament.ch/ab/frameset/f/index.htm

(6)

contre, ne peuvent pas être archivés en tant que tels. Pour atteindre une qualité suffisante pour l’archivage à long terme les Archives fédérales enregistrent le son via une installation différente de celle utilisée par les services du Parlement.

Les bandes analogiques des années quatre-vingts sont d’abord de très mauvaise qualité, le support magnétique (1/4 de pouce) pour l’enregistrement de longue durée est très mince, la vitesse d’enregistrement est très faible (2,48 cm/sec) et la structure de l’enregistrement est en quatre pistes mono. Ces caractéristiques fragilisent considérablement les enregistrements. Ces bandes ont subi encore une dégradation due à la démagnétisation. Pour la numérisation le service de conservation des Archives a fait développer un magnétophone spécial, un Nagra T-Audio équipé de 4 têtes de lecture. Après la numérisation les enregistrements sont découpés en morceaux correspondant aux objets traités par les deux conseils et complétés par les métadonnées (titre, nom, fonction des parlementaires, etc.). Avant le développement d’AMDA, ces métadonnées étaient saisies manuellement à l’aide des bulletins imprimés avec l’application Augias, une base de données basées sur MS Access.

Les copies d’archivage sont faites en format WAV, 48kHz/24bit pour la voix humaine et 96 KHz/24 bits pour l’enregistrement de timbres complexes. La première copie de sécurité ne subit aucune retouche, est dite « brute ». C’est finalement une deuxième copie de sécurité qui sera retouchée, normalisation et élimination des bruits et du souffle, afin de rendre le son audible et ceci sans grande cosmétique ! Sont ensuite générées automatiquement deux copies pour la communication, en format MPEG 1 layer 3, l’une à 48 kbps/44 kHz (basse qualité) pour le streaming avec un modem analogique, l’autre à 128 kbps/44.1 kHz (haute qualité) pour une qualité équivalente à celle d’un CD audio. Tous les fichiers sont stockés sur les bandes AIT-2 dans l’infrastructure d’ARELDA.

3.2. Le systeme AMDA

Pour pouvoir exporter les données dans le système de recherche des Archives (une adaptation du produit scopeArchive), AMDA doit garantir une homogénéité des données. Cela signifie qu’AMDA doit être capable d’intégrer aussi les métadonnées des anciens enregistrements de la rétro-numérisation, donc les métadonnées saisies par Augias.

Les services du Parlement mettent à disposition leurs données en format XML sur un serveur web selon un schéma défini par eux. Leur schéma a été accepté comme interface. Le choix d’XML permet de présenter les données dans n’importe quel format à l’aide des feuilles de style XSLT intercalées.

Après le déblocage des données par les services, ces dernières sont transférées aux Archives. Là, leur conformité et leur consistance sont contrôlées à l’aide d’une DTD. Cette étape est cruciale pour la sécurité des archives numériques car, une fois acceptées, des données fausses seraient très difficiles à supprimer des archives.

(7)

Après le contrôle, les métadonnées sont complétées par une application web en XHTML. Il suffit alors d’ajouter à chaque séance des informations sur les fichiers créés comme la longueur et le nom des fichiers ainsi que le numéro des bandes magnétiques lorsqu’il s’agit de bandes rétro-numérisées.

AMDA permet aussi d’afficher des paroles en détail avec l’indication du time- code, ce qui est une grande aide pour décrire les débats. Ainsi on peut couper les séquences et ajouter des métadonnées en même temps, ce qui augmente énormément la productivité de la prise en charge.

Figure 1. Le système AMDA, schéma de flux des données

3.3. Bilan

Dans la phase de test d’AMDA on a pu profiter du fait que le contrôle de consistance était intégré. Plusieurs fois la DTD a empêché AMDA d’importer des

Base de données ACCESS

Interface XML Commun

Archives électroniques

Données audio Interface web Entrée manuelle Métadonnées des

débats du Parlement (online)

AMDA Base de données de Métadonnées XML XML-Input

XHTML

Données binaires (Wave) XML-Input (Cocoon)

Données XML

(8)

données périmées. Grâce à XML il est possible d’uniformiser les interfaces, ce qui permet d’importer simultanément les données actuelles et anciennes. La productivité de la prise en charge des données a pu ainsi augmenter de 400 % environ. Cette augmentation est due au fait qu’on a pu soit éviter, soit mettre en parallèle plusieurs étapes intermédiaires de l’ancien processus, et au fait qu’on peut effectuer le travail de saisie sur le même poste de travail. Les économies les plus importantes ont été atteintes dans le domaine de l’assurance qualité : il ne nous reste qu’à vérifier les métadonnées. Le contrôle même est fait par les services du Parlement, il est donc

« avant-posé », dans l’« avant-archive ».

4. Les bases de données

Bien qu’en termes de « volume de stockage » les bases de données ne représentent qu’une quantité négligeable, ARELDA s’est focalisé, dans un premier temps, sur le traitement des bases de données. Deux raisons motivent ce choix. Les bases de données exigent beaucoup de traitement pour être prises en charge et elles deviennent de plus en plus importantes dans l’administration moderne : on peut même dire que les bases de données sont devenues omniprésentes. Elles forment des outils de travail (gestion d’adresse, etc.) et sont utilisées à des fins statistiques. Mais, de plus en plus, elles sont également utilisées pour le contrôle du déroulement des affaires. Des bases de données sont à la base de chaque système de gestion des documents et elles sont sous-jacentes à chaque site web interactif. Les bases de données sont composées de deux parties : une collection de données sur un thème spécifique et l’application qui permet de les traiter. Dans notre contexte, on entend par données des informations structurées et codées en vue de leur traitement par des ordinateurs. La partie application du système de gestion des données facilite la saisie et permet un accès efficace selon différents critères de recherche.

Techniquement, les données sont groupées dans des tables : les lignes représentent l’ensemble des informations enregistrées relativement à un objet, les colonnes les différents attributs qu’on peut associer à cet objet.

Pour traiter des bases de données plus complexes d’une façon automatique, ARELDA a développé – en collaboration avec une société privée – trois logiciels.

Ce groupe de logiciels s’appelle SIARD (Software Invariant Archiving of Relational Databases, ou archivage des bases de données relationnelles indépendamment de l’application).

Le premier logiciel – module A0 – fait une analyse automatique de la base de données que nous avons choisie. Nous pouvons nous connecter avec n’importe quelle base de données possédant une certaine interface. Le logiciel montre toutes les tables, les contraintes, les vues, les types de données et aussi la structure ; il montre donc comment les tables sont liées. Le module A0 affiche s’il y a une violation du codage SQL3. SQL (Structured Query Language) est un langage pour construire et interroger des bases de données. C’est un standard reconnu et publié

(9)

par l’ISO9. Et beaucoup de logiciels de gestion des bases de données (comme par exemple Oracle, SQL-Server) utilisent SQL, ou plutôt une version de SQL.

Donc, le module A0 examine la base et vérifie sa conformité à la norme SQL.

S’il détecte des violations, il le signale et propose de les corriger, par exemple en ajoutant une clé ou – si la correction ne paraît pas possible – il propose d’exclure l’objet de l’archivage. Dans ce cas, un fichier sera écrit, qui nous laisse les traces de l’objet exclu. Le reste sera archivé dans trois groupes de fichiers texte : un fichier qui décrit la structure en codage SQL, des fichiers qui contiennent les données en texte brut, et un fichier en codage XML qui contient encore une fois la structure de la base de données et tous les renseignements relatifs au processus d’archivage ainsi que les indications générales sur la base de données archivée. Ce fichier XML contient avant tout des champs de métadonnées vides pour la description

« manuelle » de la base de données.

Ces champs vides sont remplis avec notre module A1, l’instrument pour la saisie des métadonnées. Tout ce qui peut être fait automatiquement a déjà été fait à l’étape précédente. Mais il faut ajouter encore les métadonnées de contexte et des explications supplémentaires, comme par exemple la provenance ainsi que la description en texte clair des noms de tables, des mots-clés, des listes de codes etc.

Le module A2, enfin, permet de reconstruire une nouvelle base de données avec ces trois groupes de fichiers archivés. Cette nouvelle base peut être consultée en SQL comme l’ancienne.

Actuellement, SIARD est en phase de test. Ces tests sont également effectués par nos collègues hollandais du digital testbed. Plus tard, probablement vers la fin 2004, nous mettrons SIARD à disposition des autres services d’archives. Le projet SIARD est aussi intéressant sous l’aspect de la coopération entre un service public et une firme privée. Nous avons effectué toute la conception des logiciels, tandis que la firme privée faisait la programmation. Les droits de ces logiciels nous appartiennent donc aussi.

5. L’évaluation et la description des systèmes d’information 5.1. L’évaluation/la sélection

En principe, ARELDA ne s’occupe pas de l’évaluation archivistique des données. Mais nous avons remarqué que le groupe responsable de l’évaluation a de grandes incertitudes concernant la façon de procéder avec les fonds numériques.

C’est la raison pour laquelle un membre d’ARELDA collabore avec l’équipe d’évaluation, qui s’occupe principalement de la question de définir comment la

9. ISO/IEC 9075 : Information technology - Database languages - SQL, Genève, ISO, 1999, Amendment: 2001.

(10)

stratégie d’évaluation prospective peut s’appliquer aux fonds numériques. Pour répondre à cette question, il faut tenir compte du fait que le cycle de vie d’un système d’information numérique est très différent de celui des documents papier.

Habituellement un document papier est conçu et écrit par la même personne dans un même processus. Une base de données, par contre, est conçue par un service externe ou par un informaticien selon les prescriptions du service qui l’utilisera plus tard. Le contenu, c’est-à-dire les données, n’existe pas encore. Aussi la phase d’exploitation d’une base de données diffère-t-elle de celle du document papier.

Normalement la phase d’utilisation d’un document papier s’étend sur une ou plusieurs lectures alors que les bases de données ont deux phases d’utilisation séparées mais parallèles : la phase de saisie des données et celle de la consultation.

Pour s’assurer qu’un système puisse être archivé plus tard, il faut le concevoir de telle manière qu’il permette cet archivage. Seul ce qui est défini dès le début et ce qui est saisi en période d’exploitation peut être transféré ultérieurement comme données ou métadonnées aux Archives.

Ainsi la solution idéale est l’historicisation : les nouvelles données doivent être ajoutées aux données préexistantes et non pas se substituer aux enregistrements existants. Le système devrait également documenter, à travers des log-files, qui a modifié quels enregistrements et à quel moment. Ces log-files sont très techniques et souvent trop cryptés pour une compréhension spontanée. Mais s’ils sont bien structurés et documentés, ils peuvent être analysés par des algorithmes de recherche à développer.

Enfin, les interfaces pour l’archivage devraient être définies à l’avance pour permettre la prise en charge des données. Dans ce sens, les offices de l’administration fédérale sont invités à accueillir la collaboration des Archives dès la phase de conception d’un nouveau système informatique10. Malheureusement il y a encore un grand fossé entre la législation et la pratique.

5.2. Typologie des systèmes d’information

Mais comment évaluer quelque chose qui n’existe pas encore ? Nous essaierons de résoudre ce problème en établissant une typologie des systèmes d’information.

Les systèmes sont souvent classés par catégories techniques (banques de données relationnelles, orientées objet, etc.) ou selon leur contenu (banques de données personnelles, systèmes d’information géographique, etc.). Pour évaluer les bases de données d’un point de vue archivistique il est recommandé de les considérer comme des systèmes d’information développés pour un certain objectif. Dans ce sens, le

10. Instructions concernant l’obligation de proposer et le versement des documents aux Archives fédérales suisses, du 28 septembre 1999, Art. 4, § 3 (accessible seulement en allemand sur le site http://www.bundesarchiv.ch).

(11)

groupe d’évaluation des Archives fédérales propose une typologie fondée sur les critères suivants :

– pertinence pour les affaires : est-ce que le système a pour objectif premier de documenter le déroulement des affaires ou sert-il plutôt de boîte à outils ? Ce critère se base sur la valeur d’évidence, telle que l’a définie Theodore Schellenberg11 ;

– originalité et provenance des données : s’agit-il de données produites par le service lui-même ou sur sa demande ? ou bien les données sont-elles des copies des données d’un autre système ? Ce critère reprend ce que Schellenberg a appelé valeur d’information. Des documents peuvent avoir une valeur historique même s’ils ne donnent pas la preuve d’une activité étatique : c’est le cas des sources typiques d’une époque ;

– structuration du document : est-ce que le système gère des documents entiers (fichiers texte, images, pages web) ou bien contient-il surtout des données structurées de manière homogène (codes sous forme chiffrée, mots ou abréviations) ?

De ces trois critères principaux on peut dériver une série de types de systèmes d’information numériques :

– RMS (Records Management System ou système de gestion des affaires) : ils servent au contrôle des affaires. Le système intègre un plan de classement et une composante « workflow », qui permettent de documenter complètement le cours des affaires. Dans l’administration fédérale il existe des systèmes qui ne gèrent que les métadonnées des dossiers. Quelques services utilisent des RMS avec une fonction de gestion des documents (appelé GEVER, Geschäftsverwaltung, gestion des affaires).

Les systèmes de gestion des affaires ont normalement une grande valeur de preuve (evidential value), ce qui les rend particulièrement archivables ;

– DMS (Document Management System ou système de gestion électronique des documents, GED) : l’administration utilise aussi des systèmes de gestion électronique des documents sans gestion d’affaires. Ces derniers ne permettent pas de documenter explicitement le déroulement des affaires. Ils ont une valeur de preuve seulement si les documents sont classés selon un plan de classement.

Autrement, la valeur archivistique de ces documents est douteuse. Les DMS peuvent éventuellement être utilisés comme instruments de recherche pour retrouver efficacement certains documents (indexation);

– bases de données de mesure et d’enquête : à ce type appartiennent les premières bases de données transférées aux Archives fédérales. Elles servent à mesurer des processus quantifiables ou comptables pour une publication ou une exploitation interne. De manière générale, leur valeur de preuve est faible tandis que leur valeur d’information est élevée. Elles sont intéressantes en particulier pour la recherche en sciences sociales grâce aux accès variés que ces bases de données

11. Sur la différence entre valeur d’évidence et valeur d’information voir (Schellenberg, 1956).

(12)

offrent par opposition aux statistiques publiées sur papier (Bütikofer, 1990). Dans ce cas-là, c’est l’originalité des données qui décidera de leur valeur archivistique ;

– données de travail : il existe un grand nombre de bases de données, petites ou moyennes, qui sont censées faciliter certaines tâches (inventaires, carnet d’adresse, etc.). Elles n’ont pour la plupart pas de valeur archivistique à l’exception des bases de données contenant des numéros de dossiers. Ces dernières peuvent éventuellement être utilisées comme instruments de recherche. Il peut arriver que de telles bases puissent avoir une grande valeur de preuve, cela lorsqu’elles prouvent l’existence de dossiers « disparus ».

5.3. Description des systèmes d’information

Pour rester compréhensibles dans un futur lointain les bases de données archivées doivent être documentées avec soin. Différentes approches existent pour décrire une base de données (Shepherd, 2000). Ces pratiques de description – basées sur l’ISAD(G) et le Dublin Core – pour les bases de données présentent trois inconvénients importants.

Premièrement, ils les traitent au même niveau de description et elles ne sont pas intégrées aux autres fonds. Pour intégrer les bases de données dans la systématique des fonds de façon adéquate, il faut les considérer en premier lieu en fonction de leurs objectifs et non de leurs techniques. La décision de savoir si une base de données sera traitée comme sous-fonds ou comme dossier dépend de sa position dans le service versant.

Deuxièmement, les descriptions existantes sont surtout orientées vers des bases de données de mesure. Pour cette raison, les documentations contiennent des informations détaillées sur les enquêtes qui ont produit les données primaires (les instructions pour la saisie des données, des spécimens de questionnaires, etc.). Pour la description des systèmes de gestion d’affaires, il est pertinent de connaître l’histoire de leur utilisation. Ainsi il serait très instructif de savoir quel fonctionnaire a pu saisir ou consulter des données et quelles données sont nécessaires pour reconstituer le déroulement d’une affaire.

Le troisième inconvénient : une grande partie du contenu est toujours saisie par une personne au lieu d’être capturé automatiquement par l’ordinateur. Mais, même quand la majorité des métadonnées sera saisie automatiquement, la main de l’archiviste restera indispensable pour compléter et coordonner les données. Il ne s’agit pas seulement de questions de classement et de normalisation. Il faudra aussi créer des index secondaires car les fonds seront mis à disposition d’usagers non familiers avec les coutumes de l’administration ou qui n’ont pas le temps d’étudier et de se plonger dans des documentations approfondies.

(13)

6. Conclusion

Le projet AELDA a pour objectif la résolution d’un problème sérieux. Comment archiver des données et des documents numériques sur le long terme ? Le problème est d’autant plus complexe qu’il s’agit de fonds produits par une administration très hétérogène. Jusqu’à aujourd’hui ARELDA a développé des instruments et des stratégies qui peuvent contribuer à résoudre ce problème complexe. Il s’agit surtout d’éléments que l’on pourrait placer dans le domaine de la prise en charge des données pour l’archivage, ou, pour emprunter les termes du modèle de référence OAIS, on peut les qualifier d’outils « d’ingestion ». Plus on avance, plus on se rend compte que la tâche est encore loin d’être accomplie et qu’il reste beaucoup de questions ouvertes. Ce sont là d’ailleurs des questions auxquelles une institution nationale ne peut pas répondre seule. Il y a une nécessité de partager nos connaissances, bien qu’encore très partielles, avec le public intéressé, en espérant que ces quelques pièces participeront à la confection de cette ambitieuse mosaïque qu’est l’archivage des données électroniques.

Remerciements

Les auteurs remercient toutes les personnes qui ont contribué à cet article : notamment Joël Aeby du service de conservation des Archives fédérales, Myriam Erwin des Archives fédérales et Dieter Zeller de l’Association des archivistes suisses pour la leur soutien dans la traduction du texte et mon ami Romain Bochatay pour la relecture finale.

7. Bibliographie, webographie

Archivage des données et documents numériques sur supports électroniques de l’administration fédérales suisse (ARELDA), Exposé du projet, (Berne), 2001, et : même titre : Management Focus, (Berne), 2001, http://www.bar.admin.ch/webserver- static/docs/f/arelda_expose_0401_f.pdf

Bütikofer N., « Archivierung von statistischen Daten », Etudes et Sources - Revue des Archives Fédérales Suisses, vol. 16/17, 1990-1991, p. 263-293.

Chiquet S., « Die Bewertung im Schweizerischen Bundesarchiv », Etudes et Sources (Revue des Archives Fédérales Suisse), vol. 29, 2003, p. 263-401, avec un bref résumé français.

Feuille Officielle Suisse du Commerce (FOSC) n° 104 du 3.6.2003,

http://www.shab.ch/DOWNLOADPART/N936756/N2003.00039651.pdf

Instructions concernant l’obligation de proposer et le versement des documents aux Archives fédérales suisses, du 28 septembre 1999, Art. 4, § 3. (accessible seulement en allemand sur le site http://www.bundesarchiv.ch).

(14)

ISO 14721, Space data and information transfer systems - Open archival information system - Reference mode, Genève, ISO, 2003.

ISO/IEC 9075, Information technology - Database languages - SQL, Genève, ISO, 1999, Amendment : 2001.

Keller P., « L’archivage numérique aux Archives fédérales suisse - un rapport d’experience », Arbido, vol. 10, 2003, p. 16-19, http://www.staluzern.ch/vsa/ag_earchiv/docs/keller.pdf, (traduction de Keller, P., « Die digitale Archivierung im Bundesarchiv - ein Erfahrungsbericht », Arbido, vol. 3, 2003, p. 13-15.

Loi fédérale du 26 juin 1998 sur l’archivage (LAr). SR 152.1, http://www.admin.ch/ch/f/rs/1/152.1.fr.pdf

Message relatif à la loi fédérale sur la transparence de l’administration. (Loi sur la transparence, LTrans) du 12 février 2003,

http://www.ofj.admin.ch/themen/oeffprinzip/bot-f.pdf

Musgrave S., Winstanley B., « Archiving Statistical Data : The Data Archive at the University of Essex », RLG DigiNews, vol. 2, n° 6, 1998,

http://www.rlg.org/preserv/diginews/diginews2-6.html-essex (cons. 5.2.2003).

Schellenberg Th., « The Appraisal of Modern Records », Bulletins of the National Archives, n° 8 (Washington, D.C., October 1956).

Shepherd E. Smith, C., « The application of ISAD(G) to the description of archival datasets », Journal of the Society of Archivists, vol. 21, n° 1, 2000, p. 55-86, voir aussi :

http://ndad. ulcc.ac. uk/ (cons. 5.2.2003),

et http://www.icpsr.umich.edu/DDI/CODEBOOK/index.htrnl (cons. 5.2.2003).

Thibodeau K., « Overview of Technological Approaches to Digital Preservation and Challenges in Coming Years », The State of Digital Preservation : An International Perspective (Clir Reports pub 107), 2000, p. 4-31,

http://www.clir.org/pubs/reports/pub107/pub107.pdf

Références

Documents relatifs

Elopak veut croquer SIG pour rivaliser avec Tetra Pak P.38 MACHINISMEAGRICOLE. Le

SKLAB Youcef Administration de Bases de Données May 21, 2017 2 / 40... Optimisation

• On peut imaginer que le projet permette à Sofiane de s’approprier les notions en lien avec sa question de grand oral :. o Critères de choix

Au contraire, il nous paraît davantage pertinent de réfléchir globalement aux relations qui existent entre le tutorat, le scénario pédagogique et le contexte global dans

Beaucoup de livres pour enfants présentent aussi les blaireaux et renards, animaux très souvent inféodés à la forêt dans les représentations, comme les « amis du hérisson »..

Le Dr PESENTI du service de Chirurgie orthopédique pédiatrique de l’Hôpital de la Timone, dirigé par le Pr JOUVE, a reçu le prix de la meilleure étude de recherche fondamentale

virus herpétique: infection mucocutanée chronique avec ulcération persistant au-delà d’un mois, infection pulmonaire, ou infection gastro-intestinale (débordant la

enfin il existe une masse médiastinale postérieure en communication avec l'infiltration pré et péri rachidienne.. le contenu est faiblement hypodense par rapport aux