• Aucun résultat trouvé

Le modèle de référence pour les systèmes ouverts d’archivage

N/A
N/A
Protected

Academic year: 2022

Partager "Le modèle de référence pour les systèmes ouverts d’archivage"

Copied!
19
0
0

Texte intégral

(1)

ouverts d’archivage

L’étonnant parcours d’une norme unificatrice

Claude Huc

Centre national d’Etudes spatiales (CNES) 18, avenue Edouard Belin

F - 31401 Toulouse Cedex 4 claude.huc@cnes.fr

RÉSUMÉ. Au départ, en 1995, il s’agit d’élaborer une norme dans le domaine de l’archivage des informations techniques et scientifiques produites et gérées par les agences spatiales. Or la question n’est pas spécifique au monde spatial ; elle a une portée beaucoup plus générale.

Il est donc nécessaire d’intégrer dans la réflexion des représentants d’autres domaines professionnels concernés par l’archivage. C’est sur ces bases que le modèle de référence pour les systèmes ouverts d’archivage, dont nous donnons une description synthétique, a été conçu, valide aussi bien pour les archives d’entreprises que pour les organisations patrimoniales, applicable aussi bien pour les données scientifiques issues des expériences spatiales que pour les grandes bibliothèques. C’est une future norme internationale qui entame la dernière étape du processus de normalisation.

ABSTRACT. It was, initially in 1995, a question of preparing a standard in the field of the archiving of technical and scientific information produced and managed by the Space Agencies. But the question was not specific to the space world and had a far more general scope. Representatives of other professional domains concerned by archiving had therefore to be integrated in the reflection. These were the bases used to design the Reference Model for an Open Archival Information System, of which a synthetic description is given, valid for corporate archives as for public heritage organizations, as applicable to scientific data from space experiments as to major libraries. This is now a future international standard about to undertake the last step of the standardization process.

MOTS-CLÉS : archives, information numérique, préservation, migration, modèle, normes.

KEY WORDS: archives, digital information, préservation, migration, model, standards.

(2)

1. Introduction

L’augmentation considérable de la puissance des ordinateurs, la progression constante de la capacité des réseaux à haut débit et des moyens de stockage, l’émergence de progiciels, de protocoles de communication, d’interfaces utilisateurs, etc., mettant à la disposition de tous des moyens simples, puissants et conviviaux permettant la création et la diffusion de documents textuels ou d’information de toute nature sous forme numérique, ont entraîné une mutation profonde et durable dans la gestion, la mise à disposition et la pérennisation de l’information. La forme numérique tend inéluctablement à remplacer les formes plus traditionnelles telles que le papier. Cette forme numérique devient peu à peu le mode principal de transaction au sein des entreprises et entre les entreprises.

Dans ce contexte, au cours des 20 dernières années, une quantité d’informations impressionnante a déjà été produite sous forme numérique. Tous les secteurs d’activités de la société sont aujourd’hui touchés par cette mutation : industrie, recherche, défense, services, administration, etc.

L’envers du décor se trouve néanmoins dans le fait qu’une part importante de ces informations – et en particulier celles qui aujourd’hui ont plus de dix ans – n’est plus facilement accessible, voire définitivement inaccessible. La préservation à long terme des informations sous forme numérique pose en effet des problèmes nouveaux et critiques.

Il est extrêmement difficile d’évaluer combien de données, de documents utiles, parfois uniques, ont déjà été perdus, mais il est clair qu’il y a un besoin urgent d’analyser en profondeur les causes des difficultés dans ce domaine. Nous ne pouvons en aucun cas nous satisfaire d’une société incapable de préserver sa mémoire : qu’est-ce qui rend les documents numériques plus vulnérables que nos anciens documents papier ? Qu’est-ce qui explique l’absence d’offre matérielle et logicielle complète et crédible dans le domaine de la pérennisation de l’information ?

Le modèle de référence pour les systèmes ouverts d’archivage (appelé aussi modèle OAIS en raison de sa dénomination anglaise : Reference Model for an Open Archival Information System), future norme de l’ISO (International Standard Organization), constitue la première analyse complète de la problématique de l’archivage à long terme des informations sous forme numérique. Cette perception et cette compréhension globales que nous offre le modèle nous permettent de nous poser toutes les questions indispensables à la résolution du problème et nous mettent sur la piste de choix d’implémentation valides. Ce modèle sera présenté plus en détails dans la suite de cet article.

Depuis déjà quelques années, ce modèle joue un rôle étonnant de réunification de communautés professionnelles qui n’avaient jusqu’alors que peu ou pas de contacts.

C’est notamment dans ce cadre qu’un groupe de travail « Pérennisation des informations numériques » s’est constitué au sein de l’association Aristote [ARI 01].

(3)

Cette sensibilisation internationale et multiprofessionnelle à la question, cette prise de conscience progressive et générale constituent aujourd’hui les leviers par lesquels des solutions techniques et organisationnelles seront mises en place.

2. Quelques-unes des multiples difficultés rencontrées

Les difficultés rencontrées dans la pérennisation des informations numériques ont des causes multiples. Nous insisterons ici plus particulièrement sur les aspects organisationnels et techniques.

Organisationnels parce que la mesure de la spécificité et de la complexité de la question et de toutes ses conséquences n’est pas toujours évaluée à son véritable niveau, et parce que les compétences ainsi que les moyens nécessaires pour la résoudre ne sont pas mis en place.

Il est fréquent que la responsabilité de la préservation des documents numériques ne soit pas clairement définie. Il arrive aussi que cette responsabilité soit confiée à des services de documentation auxquels tous les moyens logistiques et humains pour prendre en charge les nouvelles tâches n’ont pas été donnés.

En outre, il est clair aujourd’hui pour tout le monde que les documents numériques ne peuvent être pérennisés dans de bonnes conditions et à moindre coût que si ce besoin est pris en compte avant même la production des documents en question.

Parmi les multiples difficultés techniques rencontrées, citons en particulier : – la non-indépendance des informations archivées par rapport aux systèmes et aux logiciels utilisés pour créer ces informations ;

– le caractère totalement fermé du format des fichiers produits par bon nombre de progiciels (par exemple Microsoft Word) ;

– la compatibilité ascendante tout à fait limitée des progiciels en question, et notamment des outils de traitement de texte ;

– la fréquence des changements technologiques de toute nature, lesquels sont d’autant plus difficiles à gérer que les documents sont structurellement dépendants des calculateurs, des systèmes d’exploitation et des progiciels utilisés ;

– l’insuffisance des informations de représentation (au sens de l’OAIS) ; en liaison avec la complexité des données, il est absolument nécessaire de disposer d’une description syntaxique et sémantique complète, détaillée et valide de ces données ; il s’agit là d’une condition nécessaire à toute pérennisation qui est loin d’avoir toujours été satisfaite ;

– la multiplication des opérations de migration qui auraient pu être évitées ou simplifiées si certains principes de base avaient été respectés ;

– etc.

(4)

Tous ces facteurs généraux sont généralement renforcés par des facteurs spécifiques au domaine ou au contexte de travail.

3. Le modèle de référence OAIS 3.1. Historique

Le Reference Model for an Open Archival Information System (OAIS) est un projet de norme ISO relative à l’archivage long terme des informations existant sous une forme digitale. Dans ce qui suit, nous parlerons plus simplement de modèle de référence ou de modèle OAIS.

Il est le résultat d’un travail normatif approfondi entrepris depuis 1995 par le CCSDS (Consultative Committee for Space Data Systems) à la demande de l’ISO (International Standard Organization). Le CCSDS [CCS 01] constitue un groupe international mis en place par les agences spatiales et dont la fonction est de développer des standards et des recommandations dans le domaine des données. Le CCSDS a été créé en 1982 et il a, depuis cette date, élaboré un ensemble de recommandations techniques générales pour encourager et faciliter l’échange des données spatiales. Il est depuis 1990 un groupe de travail (working body) pour l’ISO TC20/SC13 (Technical Committee 20 : Aircraft and Space Vehicles ; Sub- Committee 13 : Space Data and Information Transfer Systems).

3.1.1. Un processus de développement original

L’originalité particulière du modèle OAIS repose sur les deux éléments de départ suivants :

– sachant qu’il n’existait pas de cadre largement reconnu permettant de concevoir immédiatement des standards pour l’archivage à long terme d’information sous forme numérique, il a été décidé de développer en premier lieu un modèle de référence pour définir le vocabulaire et les concepts indispensables à ce domaine ;

– la question de l’archivage des informations numériques n’étant pas spécifique au domaine spatial, le travail d’élaboration du modèle a été très largement ouvert avec en particulier la participation de représentants des archives traditionnelles et des bibliothèques.

De multiples réunions et ateliers nationaux et internationaux ont été tenus depuis 1995 aux Etats-Unis et en Europe dans le cadre de l’élaboration de ce modèle. Un atelier a été organisé en France par le CNES dès 1996 sur le thème de l’archivage à long terme des données scientifiques et techniques. Le travail dans ce domaine s’est poursuivi pendant cinq ans et a abouti à la publication d’un livre rouge CCSDS qui a le statut aujourd’hui de « Draft International Standard ». Ce document s’intitule Reference Model for an Open Archival Information System (OAIS) [OAI 99].

(5)

Le modèle constitue le fruit d’un grand travail collectif. Deux personnes, Donald Sawyer (NASA/NSSDC) et Lou Reich (CSC) ont assuré la coordination de ce travail collectif et la majeure partie de la rédaction du modèle. Le site web [NAS 01]

du NASA Office of Standards and Technologies donne une idée significative de l’ampleur du travail réalisé.

Fondamentalement, le modèle de référence OAIS présente la problématique de l’archivage à long terme sous deux aspects complémentaires qui sont le modèle d’information d’une part, et le modèle fonctionnel, d’autre part. Il propose également une classification des différents types de migration. Enfin, il aborde les différents types de coopération entre les Archives.

Soulignons enfin que le modèle OAIS ne constitue pas une spécification d’implémentation. Il se situe toujours au niveau d’abstraction nécessaire pour appréhender le problème dans sa globalité sans aborder les questions de choix d’architecture, de technologies et d’implémentation qui ne peuvent être que temporaires.

3.1.2. Pour quels lecteurs ?

Le modèle de référence vise quatre catégories distinctes de lecteurs :

– les concepteurs de systèmes d’archivage, la pertinence des choix techniques passant nécessairement par une compréhension complète du problème,

– les dirigeants et gestionnaires des entreprises ou des organismes qui doivent pérenniser certaines informations sous forme numérique : l’évaluation de la valeur des informations acquises, la connaissance des risques de perte de ces informations, la mesure de la complexité du problème posé sur le long terme constituent autant de facteurs qui doivent être connus des décideurs afin qu’ils affectent à la mise en place des archives les ressources qui sont nécessaires,

– les utilisateurs d’archives, qui sont partenaires indispensables des archives, – les institutions en charge de l’élaboration des normes ; le modèle OAIS constitue effectivement une base de travail indispensable pour le développement de normes générales ou spécialisées dans le domaine de l’archivage d’informations numériques.

3.2. Quels objectifs ?

Les objectifs poursuivis par le modèle OAIS sont nombreux et variés. En premier lieu, il s’agit d’offrir un cadre permettant de comprendre les concepts archivistiques nécessaires à la pérennisation de l’information numérique. Il propose une vue active et vivante des archives, acteurs essentiels de la valorisation de l’information qui vient redresser une vision dormante communément répandue.

(6)

Mais le modèle identifie aussi un certain nombre d’objectifs complémentaires parmi lesquels on peut citer :

– la définition des concepts nécessaires aux organisations non spécialisées dans l’archivage, afin qu’elles prennent part efficacement au processus de préservation ;

– la fourniture des éléments permettant la description et la comparaison de l’architecture et du mode de fonctionnement des archives existantes et futures ;

– l’établissement des bases d’un système qui pourra être élargi par des travaux complémentaires sur la préservation à long terme d’informations qui ne sont pas sous forme numérique (par exemple des échantillons physiques) ;

– l’établissement d’un large consensus sur les processus de préservation et d’accès à long terme de l’information numérique, afin de favoriser le développement d’un marché auquel les fournisseurs pourront apporter leur support ;

– la constitution d’un guide pour l’identification et la production de normes dans ce domaine.

3.3. La terminologie

Les termes utilisés dans le modèle de référence ont été définis avec précision.

Une section du modèle a donc été dédiée à la terminologie.

Le modèle étant applicable à toutes les disciplines et à toutes les organisations qui préservent et fournissent de l’information sous forme numérique (ou prévoient de le faire), les termes définis dans le modèle peuvent parfois ne pas être compatibles avec ceux d’un domaine particulier. L’approche suivie a consisté à choisir des termes qui n’étaient pas déjà trop chargés de signification, afin d’éviter de véhiculer involontairement des acceptions différentes de celles souhaitées. Il sera probablement nécessaire, dans chaque domaine d’activité spécifique, d’établir des correspondances entre le vocabulaire propre et les termes définis dans le modèle de référence OAIS.

Rappelons simplement ici la signification de quelques-uns uns des termes essentiels à notre propos :

– Open signifie que ce modèle a été développé dans le cadre d’un processus public et qu’il est disponible et utilisable par ce public. Il n’implique pas que l’accès aux informations archivées se fasse sans restriction ;

– par Information, nous entendons toute connaissance qui peut être échangée, indépendamment de la forme (physique ou numérique) que prendra cette information. Cette définition est relativement proche de celle du DLM-Forum [DLM 98] selon laquelle, une information est « une indication ou un événement porté à la connaissance d’une personne ou d’un groupe » ;

– une donnée est définie comme une forme de représentation de l’information ;

(7)

– un système d’archivage est constitué par un ensemble de moyens matériels, logiciels et humains en charge de l’acquisition, de la conservation et de la distribution de l’information archivée.

Enfin, le long terme correspond à une période suffisamment longue pour que soient pris en compte les impacts éventuels des évolutions de la technologie.

3.4. Le modèle d’information

3.4.1. Les différentes catégories d’informations

Sans entrer dans les détails techniques, indiquons ici que le modèle d’information nous conduit en premier lieu à identifier de façon claire, quelle est l’information principale que nous voulons préserver. Partant de cette information principale, nous pourrons déduire un certain nombre d’autres informations nécessaires à la préservation de notre information principale mais qui ne doivent pas être confondues avec elle.

3.4.2. Information de représentation, objet de données et information contenue Comme nous l’avons vu précédemment, l’information est définie comme un ensemble de connaissances pouvant être échangées. Dans le contexte du monde numérique, cette information est toujours exprimée, et plus précisément représentée par des données. On peut donc dire que « les données interprétées à l’aide de leur information de représentation engendrent de l’information ».

Prenons le cas d’un document contenant un texte en français constitué de caractères codés conformément à la norme AFNOR NF Z 62-022 [AFN 84].

L’information de représentation est constituée en premier lieu par la définition du mode de codage des caractères tel qu’il est spécifié dans cette norme. Les modes de codage étant susceptibles d’évoluer au cours du temps, il convient donc d’assurer la préservation de cette norme ou de sa référence et d’un pointeur vers un organisme officiellement en charge de la préservation des normes. Si ce texte est appelé à être préservé de façon définitive, il conviendra aussi de lui associer un dictionnaire français et une description grammaticale valides pour ce texte car ces dernières informations vont aussi évoluer au cours du temps et la signification du texte pourrait ne plus être compréhensible avec un dictionnaire français en l’an 2100.

Prenons maintenant un autre exemple emprunté au Centre des Archives contemporaines [CAC 01] de Fontainebleau, exemple dans lequel l’information principale à pérenniser est constituée par un ensemble de résultats d’enquêtes statistiques, stockés sous forme de fichiers contenant des nombre entiers et réels. La description de la structure d’un tel fichier de données, incluant l’identification des champs qu’il contient, la position de ces champs à l’intérieur du fichier et le mode de codage du nombre contenu dans ce champ, est entièrement contenue dans un

(8)

autre fichier appelé fichier de structure. La description de la sémantique associée à chaque champ est réalisée à l’aide d’un troisième fichier appelé dictionnaire des données. Fichiers de structure et dictionnaire des données constituent donc les informations de représentation de nos fichiers de données statistiques. Nous pouvons observer que ces fichiers de structure et ce dictionnaire de données contenant eux- mêmes des informations numériques à préserver, il convient de leur associer leur propre information de représentation. Nous voyons apparaître le caractère récursif du réseau des représentations de l’information qui nous permet de mesurer la complexité du problème lorsqu’il est posé de façon formelle.

Si l’on définit par « objet d’information », une entité abstraite contenant l’information à préserver et par objet de données, l’objet numérique (par exemple le fichier) contenant cette information, alors on pourra dire que, pour que la pérennité de cet objet d’information soit garantie, il est indispensable que l’on identifie clairement et que l’on préserve :

– l’objet de données qui contient notre information principale, – l’information de représentation qui lui est associée.

C’est ce qu’exprime la figure 1 ci-après :

Objet de Données

Information de Représentation

Objet d'Information Interprété à

l'aide de son donne

Figure 1. Comment obtenir l’information à partir des données ?

L’objet de données et l’information de représentation correspondante constituent donc un tout indissociable qui sera appelé information contenue.

3.4.3. Les informations complémentaires à la pérennisation

L’information contenue étant définie, sa préservation dans un cadre compréhensible, organisé, sécurisé va impliquer que l’on préserve également d’autres informations que nous appellerons ici informations complémentaires à la pérennisation. Ces informations complémentaires nous permettent de comprendre l’environnement dans lequel l’information contenue a été créée, elles nous permettent également d’identifier cette information de façon unique et de contrôler son intégrité.

Les informations complémentaires à la pérennisation se classent en quatre catégories précises : les informations de provenance, de contexte, de référence et de fixité :

(9)

– la provenance décrit la source de l’information contenue, indique qui détient l’information depuis sa création et quel est son historique ;

– le contexte décrit le rapport entre l’information contenue et des informations externes. Par exemple, il explique les raisons pour lesquelles l’information contenue a été engendrée et il peut inclure une description de ses rapports avec un autre objet d’information contenue archivé ;

– la référence fournit un ou plusieurs identificateurs, ou systèmes d’identification, qui permettent d’identifier l’information contenue de façon unique (par exemple le numéro ISBN d’un livre) ;

– la fixité fournit un wrapper ou une enveloppe de protection qui protège l’information contenue contre un changement non consigné. Il peut s’agir par exemple, d’une checksum au niveau de l’information contenue d’un paquetage d’information numérique. L’information de fixité garantit l’intégrité de notre information contenue.

Il est à noter que les informations complémentaires à la pérennisation ne proviennent pas toutes nécessairement du producteur de données :

– après avoir pris livraison et validé l’information contenue livrée par le producteur, les informations de référence et de fixité peuvent être créées par le système d’archivage ;

– certaines informations contextuelles peuvent avoir des provenances multiples.

3.4.4. Le paquetage d’information d’archives, l’information d’empaquetage et l’information de description

Le paquetage d’information d’archives (Archival Information Package, AIP) est un conteneur conceptuel comprenant deux types d’information qui sont : l’information contenue (information principale que nous voulons préserver) et les informations complémentaires à la pérennisation qui lui sont associées.

Cet AIP sera localisé, au sein du système d’archivage, par l’information d’empaquetage (packaging information), précisant par exemple où et sous quels noms de fichiers sont stockés les différents éléments constituant l’AIP.

Enfin, l’AIP sera décrit, au sein du système, par une information de description.

L’information de description est l’information utilisée pour identifier les paquetages renfermant l’information contenue intéressante. Il peut s’agir d’un simple titre décrivant le paquetage d’information ou d’un jeu complet d’attributs qui peuvent être recherchés dans un service catalogue. Il est courant que ces informations soient dans certains contextes appelées métadonnées.

(10)

Information de description du

paquetage Informations complémentaires à

la pérennisation Information

contenue

Information d'empaquetage

Paquetage d’information d’archives

Figure 2. Représentation schématique du paquetage d’information d’archives

3.5. Le modèle fonctionnel

Le modèle fonctionnel permet en premier lieu de délimiter clairement le système d’archives par rapport à son environnement extérieur : c’est le modèle d’environnement de l’OAIS. Il propose ensuite une description et une analyse détaillées des six grandes fonctions qui le constituent.

3.5.1. Le modèle d’environnement

Ce premier modèle simple, schématisé sur la figure 3, permet d’identifier les trois acteurs avec lesquels l’archive est en relation :

– le producteur de données, qui fournit l’information à pérenniser ;

– le management, qui fixe les règles générales applicables à l’OAIS (les décideurs) ;

– le consommateur de données, qui est en relation avec les services de l’OAIS pour chercher et se procurer des informations.

(11)

OAIS (archive)

Consommateur de données Producteur

de données

Management

Figure 3. Le modèle d’environnement

3.5.2. Les fonctions

– la fonction d’ingestion prend en charge l’ensemble des objets de données livrés par le producteur, les organise conformément au modèle d’information retenu et en extrait les informations de description qui seront introduites dans la base de données des archives ;

la fonction de stockage assure la préservation, la maintenance et la récupération des paquetages d’informations d’archive ;

– la fonction de gestion des données organise les informations de description indispensables aux fonctionnalités de recherche d’information offertes aux utilisateurs ;

– la fonction d’accès propose aux utilisateurs les moyens adéquats de connaître l’existence, la disponibilité et les caractéristiques des informations archivées, ainsi que les mécanismes permettant de sélectionner et de commander les informations utiles ;

– la fonction d’administration assure un ensemble de fonctions de gestion et de coordination d’ensemble ;

– la fonction de planification de la préservation permet d’identifier les actions à entreprendre en fonction des évolutions de l’environnement.

Un schéma de l’ensemble est présenté sur la figure 4 ci-après. Chacune de ces fonctions fait l’objet d’une description et d’une analyse approfondies.

La fonction de planification de la préservation mérite une attention particulière : elle consiste à définir une stratégie permettant à l’OAIS d’assurer ses responsabilités de préservation, dans un contexte constamment évolutif :

– identifier suffisamment tôt les technologies en voie d’obsolescence qui pourraient, à terme, empêcher l’accès aux données archivées, afin de préparer et mettre en œuvre les migrations nécessaires ;

(12)

– prendre connaissance et évaluer les technologies émergentes, les normes nouvelles susceptibles d’être utilisées par l’OAIS ;

– adapter les évolutions du service aux besoins changeants de la communauté des utilisateurs : (nouveaux mécanismes de communication, nouveaux supports et nouveaux formats pour la diffusion des données, etc.) ;

– définir un ensemble de procédures et une politique d’application des normes permettant à l’OAIS d’anticiper sur les changements de toute nature dans son environnement ;

– mettre en œuvre une politique de migration.

SIP = Submission Information Package / Paquetage d’Information de Soumission AIP = Archival Information Package / Paquetage d’Information d’Archive DIP = Dissemination Information Package / Paquetage d’Information de Diffusion

SIP DIP

AIP AIP

Administration

P R O D U C T E U R

C O N S O M M A T E U R

Demandes autres informations

MANAGEMENT

Ingestion Accès

Gestion des données

Stockage description

Preservation

description description

Figure 4. Extrait du RM OAIS - les entités fonctionnelles

3.6. Les migrations

Le modèle OAIS propose une classification pertinente des différentes catégories de migration en fonction de l’impact de ces migrations sur les diverses catégories d’information :

– le rafraîchissement est la migration la plus simple. Il n’a aucun impact sur les informations gérées par l’OAIS : ce sera le cas par exemple lorsqu’une cartouche magnétique usagée sera remplacée par une cartouche neuve, strictement identique à la précédente (copie bit à bit) ;

– la duplication n’implique pas non plus de changement dans l’information d’empaquetage, mais le paquetage d’information d’archives peut être recopié sur un

(13)

autre média, de même type ou non. Cela implique que la correspondance entre l’identifiant du paquetage et son média de stockage physique soit mise à jour ;

– le ré-empaquetage entraîne quelques changements dans l’information d’empaquetage, sans que l’information contenue soit modifiée. Ce type de migration peut être nécessaire lorsqu’on passe de supports physiques séquentiels, comme les bandes ou les cartouches magnétiques, à des supports non séquentiels, comme les disques de toute nature. Il peut alors s’avérer utile de regrouper différemment, au sein d’une arborescence, les différents éléments constituant le paquetage d’informations d’archives ;

– la transformation est la migration la plus critique parce qu’elle implique un changement de l’information contenue, changement qui doit être validé avec un luxe de précautions. Dans le passé, de telles migrations ont souvent été causées par des choix initiaux de structures de données non conformes à la perspective de préservation à long terme. Dans le futur, on peut imaginer également qu’il pourra être un jour nécessaire de passer du codage actuel des caractères sur 8 bits à un codage universel à 16 bits de type Unicode.

Les trois premières catégories n’entraînent aucune modification de l’information contenue. Le remplacement d’un support usagé par un support neuf ou le transfert de fichiers vers une nouvelle technologie de supports physique peuvent et doivent pour l’essentiel, être mis en œuvre au niveau de la fonction de stockage. Ces opérations sont aujourd’hui bien maîtrisées et prennent un caractère de routine.

3.7. Les responsabilités des archives OAIS

Les archives conformes au modèle de référence OAIS sont définies comme un service dont les responsabilités peuvent être résumées comme suit :

conduire les négociations avec les producteurs de données afin de parvenir à un accord sur le contenu et la forme des informations qui seront transmises par le producteur,

– disposer d’un niveau de contrôle de l’information fournie suffisant pour garantir la préservation à long terme de cette information,

– déterminer, directement ou conjointement avec des tiers, les communautés qui devraient composer la communauté des utilisateurs,

– veiller à ce que l’information à préserver soit directement compréhensible pour cette communauté des utilisateurs. En d’autres termes, tout utilisateur doit pouvoir comprendre l’information sans devoir recourir à l’aide des experts qui l’ont produite, – mettre en place et appliquer un ensemble de règles et de procédures dans le but de protéger l’information contre tous les risques raisonnablement prévisibles et de diffuser celle-ci sous forme de copies dont la conformité par rapport à l’original peut être établie sans ambiguïté,

(14)

– mettre l’information pérennisée à la disposition de la communauté des utilisateurs.

C’est à partir de cet ensemble de responsabilités qu’il sera possible, dans le futur, de mettre en œuvre un processus de certification des archives, validant ainsi leur conformité par rapport au modèle de référence.

4. Les premières retombées 4.1. Une analyse unificatrice

Ce qui constitue l’intérêt tout particulier du modèle OAIS, c’est le caractère unificateur des concepts qu’il définit et de l’analyse de la question de l’archivage qu’il propose. Ces concepts et cette analyse peuvent s’appliquer aux institutions d’archivage patrimoniales (Archives, Bibliothèques), aux archives scientifiques gérées par les agences spatiales ou encore aux archives transactionnelles, c’est-à- dire d’ordre juridique (industrie, défense, judiciaire).

Aux Etats-Unis, le serveur du NASA Office of Standards and Technologies [NAS 01] donne une idée assez éloquente du caractère multidisciplinaire et totalement ouvert de la réflexion qui a été conduite. En cinq ans, une vingtaine d’ateliers de travail ont été organisés. Les listes des participants, les contributions préparatoires, les comptes-rendus des débats sont tous accessibles sur le serveur précité. On y trouve une collaboration surprenante entre des organismes publics comme la NASA (National Aeronautic and Space Administration) ou la NOAA (National Oceanic and Atmospheric Administration), les archives américaines (National Archives and Records Administration), des bibliothèques universitaires, des industriels (Boeing), des musées, des représentants de la Défense...

Plus près de nous, en Europe, plusieurs projets, dont le projet britannique CEDARS [CED 01] ont pris en compte les concepts définis dans le modèle de référence. Cependant, c’est surtout le projet NEDLIB [NED 01] qui a trouvé, dès 1998, dans la version préliminaire du modèle, une réponse cohérente à ses interrogations, et qui a décidé de l’utiliser comme base conceptuelle globale.

L’objectif du projet est la définition et la construction d’une infrastructure à partir de laquelle une bibliothèque européenne résultant de la mise en réseau des différentes bibliothèques nationales pourrait être construite. Le but poursuivi est de faire en sorte que les documents électroniques publiés aujourd’hui soient disponibles et utilisables dans le futur. NEDLIB est un projet financé par la Commission européenne auquel ont participé la plupart des bibliothèques nationales des pays de l’Union européenne.

Cette mise en application du modèle par NEDLIB, a constitué une mise à l’épreuve de l’OAIS face à des situations réelles. Elle a été riche d’enseignements tant pour le projet que pour les promoteurs de l’OAIS avant l’approbation définitive de la norme. Plusieurs documents [FEE 00], [LUP 00], [ROT 00], témoignent du

(15)

travail d’approfondissement de l’OAIS qui a, dans ce contexte, été conduit par ce projet. à la suite de cette expérimentation, plusieurs responsables de NEDLIB ont participé aux réunions de travail internationales pour l’élaboration de la norme, afin d’apporter leur contribution, leurs critiques et leurs propositions. Ils sont à l’origine d’une série d’améliorations prises en compte dans la version du RM soumise aujourd’hui à l’ISO.

En France, il a suffi d’une réunion de présentation du modèle de référence OAIS organisée conjointement par le CNES, pour qu’un groupe de travail inter- organismes se mette spontanément en place. Il s’agit du groupe PIN (Pérennisation des informations numériques) [PIN 01] créé au sein de l’association Aristote [ARI 01].

Ce groupe rassemble des représentants d’un ensemble très varié d’institutions ou d’entreprises qui sont confrontées à la question de l’archivage long terme de données numériques :

– des organismes à caractère scientifique ou technique comme le Commissariat à l’Energie atomique, le Centre national d’Etudes spatiales, l’Institut Pasteur ;

– des services publics comme EDF et la SNCF ;

– des institutions à vocations patrimoniales comme les Archives de France ou l’Institut national de l’Audiovisuel ;

– des bibliothèques comme la Bibliothèque nationale de France ;

– des groupes privés comme EADS, Médéric (retraites, prévoyance, santé) ; des experts indépendants.

Ce groupe est un révélateur significatif de la diversité des domaines d’activités préoccupés par la préservation des informations sous forme numérique. Il est aussi un lieu fructueux d’échange et de synergie des expériences diverses des uns et des autres.

4.2. Les retombées techniques

Le modèle ne fournit pas directement de solutions pratiques ; néanmoins, il nous donne des concepts clairs qui peuvent orienter notre recherche de solutions. Il est certainement trop jeune pour qu’on puisse en mesurer en profondeur toutes les retombées dans ce domaine. Quelques premiers éléments peuvent néanmoins être soulignés dans ce cadre.

Plusieurs voies sont en cours d’exploration :

– l’une d’entre elles concerne l’architecture des systèmes d’archivage : comment sur ces systèmes, minimiser les impacts des évolutions de la technologie ? Ce domaine de réflexion n’est pas encore suffisamment mûr pour le développer dans le présent article ;

(16)

– une autre concerne l’ensemble des principes et des normes qu’il conviendrait d’appliquer aux informations que nous créons sous forme numérique.

La non-indépendance des informations sous forme numérique par rapport aux systèmes et par rapport aux logiciels a conduit à une multiplication coûteuse des opérations de migration, voire dans certains cas à la perte des informations stockées.

Il est donc impératif de rendre les informations sous forme numérique indépendantes des technologies, des systèmes et des logiciels utilisés pour créer ou gérer ces informations.

Dans cette perspective, les fichiers contenant des nombres, des documents textuels, des images, etc., sont vus comme un « train de bits » abstrait, totalement indépendant des machines. En aucun cas, on ne créera des fichiers dont la structure ne serait pas totalement connue.

Ces questions se posent de façon tout aussi cruciale dans le domaine documentaire. Il nous est arrivé, en dix ans, de devoir saisir le même document trois fois : une première fois pour un système de traitement de texte propriétaire totalement fermé, système qui a disparu du marché, une deuxième fois sous Microsoft Word au début des années 90, une troisième fois sous Microsoft Word en 1998 (en raison de la non-compatibilité des versions successives de Word sur cette période).

Dans le cas des documents textuels, le choix des formats d’archive est encore problématique : les standards SGML (Standard Generalized Markup Language) [SGM 90] et XML (Extensible Markup Language) offrent d’excellentes solutions, mais l’absence de passerelles adéquates entre les outils de traitement de texte les plus utilisés et ces langages limite encore considérablement cette voie.

Le format PDF (Portable Document File), largement utilisé pour la diffusion et l’archivage, offre aujourd’hui une solution d’attente acceptable dans la mesure où le format des fichiers PDF est public et où le logiciel de lecture est diffusé gratuitement. Ce n’est cependant qu’une solution d’attente pour différentes raisons :

– les conditions d’utilisation du format PDF peuvent changer en fonction de la politique commerciale du propriétaire du format et du logiciel ;

– le format ne permet pas de séparer le contenu de l’information de la présentation de cette information ;

– le format PDF n’est pas conçu pour gérer un balisage sémantique du document.

Cette limitation réduira largement dans le futur les possibilités de recherche d’informations.

Certaines organisations comme le Public Record Office en Grande-Bretagne [PUB 99] recommandent l’usage du format PDF, d’autres au contraire, comme le DLM- Forum, le déconseillent [DLM 98]. En France, la Mission interministérielle de soutien technique pour le développement des technologies de l’information et de la communication dans l’administration (MTIC), a publié début 2001 un Guide pour

(17)

la conservation des informations et des documents numériques [MTI 01]. Ce guide exprime un point de vue à la fois très ouvert vers XML et pragmatique par rapport à l’usage aujourd’hui répandu du format PDF.

La règle énoncée plus haut est nécessaire mais elle n’est pas suffisante. Nous avons déjà perdu des données parce que les informations de représentation de ces données n’étaient pas complètes ou encore inexactes et parfois même perdues.

Les informations de représentation associées à toute donnée ou à tout document archivé doivent fournir une description de l’information exacte et exhaustive sur les plans syntaxique et sémantique : tous les bits des fichiers d’archive doivent appartenir à des champs dont on connaît le codage et la signification.

Dans le cas d’informations textuelles directement compréhensibles, l’information de représentation pourra être limitée à la conservation du standard utilisé : XML ou autre.

Dans le cas des fichiers de données créées par des applications informatiques (fichiers contenant des nombres, par exemple, des données statistiques, des mesures scientifiques), nous disposons actuellement de techniques formelles de description de données nous permettant de nous assurer de la cohérence entre cette description et les données :

– le langage EAST (Enhanced Ada SubseT) pour la description syntaxique [ISO 00] [EAS 00] ;

– le langage DEDSL (Data Entity Dictionary Specification Language) pour la partie sémantique [DED 00].

5. Conclusion

La pérennisation des informations numériques est encore très loin d’être résolue de façon satisfaisante, mais elle entraîne déjà avec elle un élargissement des concepts, et une révision des principes et des pratiques en vigueur pour l’archivage des documents papier. Au-delà de sa pertinence intrinsèque, le modèle OAIS a déjà eu des conséquences bénéfiques étonnantes par la réunification, sur le thème de l’archivage long terme des données numériques, de communautés autrefois séparées.

Cette réunification va renforcer le poids des normes et va exercer une pression significative sur le marché des matériels et des logiciels, pression susceptible de faire émerger des offres commerciales adaptées à ces besoins.

Les expériences pratiques entreprises nous montrent que les solutions techniques sont possibles et que leur coût pourra être maîtrisé.

Nous ne devons pas pour autant nous bercer d’illusions. Le chemin à parcourir est encore très long. Les préoccupations à court terme prennent trop souvent le dessus par rapport aux investissements à long terme. Cette observation concerne aussi bien les entreprises que les institutions publiques. De nombreux documents

(18)

sous forme numérique seront perdus dans les années à venir. Ces pertes seront, espérons-le, les événements déclencheurs de la prise de conscience nécessaire qui s’impose aux sociétés modernes qui veulent garder leur mémoire. Il y a là un véritable pari sur l’homme : pouvoir conserver, pour l’éternité, tout ce qui constitue sa mémoire et son histoire, avec des technologies dont la durée de vie dépasse rarement dix ans !

6. Bibliographie

[AFN 84] Norme AFNOR NF Z 66-022, Jeux de caractères codés pour la transmission de texte, AFNOR Paris, 1984.

[ARI 01] Site web de l’association Aristote, http://www.aristote.asso.fr (consulté en mars 2001).

[CAC 01] Site web du Centre des Archives contemporaines, (consulté en mars 2001) http://www.archivesnationales.culture.gouv.fr/cac/fr/index.html

[CCS 01] Site web du CCSDS, http://www.ccsds.org/ccsds/ccsds_home (consulté en mars 2001).

[CED 01] Site web du projet CEDARS, http://www.leeds.ac.uk/cedars/index.htm (consulté en mars 2001).

[DED 00] CCSDS 647.1-R-2, Data Entity Dictionary Specification Language (DEDSL) - Abstract Syntax (CCSD0011). Red Book. Issue 2. June 2000, (consulté en mars 2001), http://www.ccsds.org/red_books.html

[DLM 98] DLM-Forum, Guide de l’information numérique, (consulté en mars 2001), http://europa.eu.int/ISPO/dlm/documents/gdlines-fr.pdf

[EAS 00] Site web du langage et des outils EAST, http://east.cnes.fr:8170 (consulté en mars 2001).

[FEE 00] FEENSTRA B., Standards for the Implementation of a Deposit System for Electronic Publications, Nedlib Report Series 4, Koninklijke Bibliotheek, La Haye, 2000.

[ISO 00] ISO 15889 et CCSDS 644.0-B-1, The Data Description Language EAST Specification, Issue 1. May 1997, http://www.ccsds.org/blue_books.html (consulté en mars 2001).

[LUP 00] LUPOVICI C., MASANÈS J., Metadata for the Long Term Preservation of Electronic Publications, Nedlib Report Series 2, Koninklijke Bibliotheek, La Haye, 2000.

[MTI 01] MTIC, Guide pour la conservation des informations et des documents numériques pour les téléprocédures, les intranets et les sites internets : format, support, métadonnées, organisation, XML et normalisation, (consulté en mars 2001),

http://www.mtic.pm.gouv.fr/programmes/teleprocedures/conservation.shtml [NAS 01] Site web du NASA Office of Standards and Technologies,

http://ssdoo.gsfc.nasa.gov/nost/isoas (consulté en mars 2001).

(19)

[NED 01] Site web du projet NEDLIB, http://www.konbib.nl/nedlib/(consulté en mars 2001).

[OAI 99] CCSDS 650.0-R-1, Reference Model for an Open Archival Information System Issue 1. May 1999, http://www.ccsds.org/red_books.html(consulté en mars 2001).

[PIN 01] Site web du groupe Pérennisation des Informations numériques http://sads.cnes.fr:8010/pin/welcome.html(consulté en mars 2001).

[PUB 99] Public Record Office, Management, appraisal and preservation of electronic records, 1999, http://www.pro.gov.uk/recordsmanagement/eros/guidelines/default.htm (consulté en mars 2001).

[ROT 00] ROTHENBERG J., An Experiment in Using Emulation to Preserve Digital Publications, Koninklijke Bibliotheek, La Haye, 2000.

[SGM 90] Norme AFNOR NF EN 28879, Traitement de l’information, systèmes bureautiques : langage normalisé de balisage généralisé, AFNOR, Paris, 2000.

[XML 98] Norme W3C, Extensible Markup Language, http://www.w3.org/XML (consulté en mars 2001), février 1998.

Références

Documents relatifs

·Retours d’expérience RESPONSABLE PÉDAGOGIQUE Pierre-Frédéric ROUBERTIES Enseignant à l’École Centrale Paris, Responsable Scientifique du MS Architecture des

•  Exploiter les informations médicales archivées sous forme numérique dans les bases de données. ─  Aide à la décision diagnostique

Le but d’une Société de Service en Ingénierie en Informatique est de vendre un service à un client. Dans notre cas, le client a bien précisé sa demande, mais laisse à CSI le

• pouvoir utiliser des techniques d’expression des exigences et de modélisation qui aident à rédiger le cahier des charges et à analyser le système d’information.

Ne pas oublier non plus que le mode SaaS comprend dans son prix les mises à jour, contrairement à l’ASP (Assistance Service Provider), qui se présente lui aussi comme un abonne-

Vous serez chargé notam- ment des missions suivantes : analyser et définir les besoins de l’entreprise, des utilisateurs en matière d’organisation et de systèmes d’informa- tion

(Par exemple, une personne vivant à cette adresse qui a un autre domicile, une personne temporairement absente,

Tell your doctor before surgical anaesthesia that you are using [Invented name] as timolol may change effects of some medicines used during anaesthesia.. [Invented name] may cause