Documents numériques : à la recherche d’une typologie perdue…

(1)

à la recherche d’une typologie perdue…

Jean-Daniel Zeller

Hôpitaux universitaires de Genève 24, rue Micheli-du-Crest

1211 Genève 14, Suisse [email protected]

RÉSUMÉ. L’auteur s’attache à développer les prérequis d’une typologie des documents numériques à partir de ses composantes : données, forme de codage, structure, forme de validation et métadonnées. Cette typologie ne se veut pas académique mais pratique, en vue du processus d’ingestion de ces documents dans des systèmes d’archivage électroniques tels qu’ils sont définis par la norme ISO 14721:2003 - Open Archival Information System (OAIS). Après une analyse des différentes typologies existantes on définit les critères qualitatifs pour une typologie praticable. Chacune des composantes du document fait l’objet d’une typologie propre qui est examinée pour sa pertinence discriminatoire. En conclusion, il apparaît que les notions de données et de documents ne sont actuellement pas assez précises pour permettre une typologie univoque.

ABSTRACT. The author attempts to develop the requirements for a typology of the digital documents from his constituents: data, shape of coding, structure, kind of validation and metadata. This typology does not want to be academic but practical, with the scope of the process of ingestion of these documents in electronic systems of archiving, such they are defined by the ISO standard 14721:2003 - Open Archival Information System (OAIS). After an analysis of the various existing typologies, man defined the qualitative criteria for an usable typology. Each of the constituents of the document is the object of a proper typology which is examined for its discriminatory aptness. In conclusion it seems that the notions of data and documents are not, at time, rather precise to allow an unambiguous typology.

MOTS-CLÉS : document numérique, archives, typologie.

KEYWORDS: digital document, archives, typology.

(2)

1. Introduction

La littérature spécialisée et les projets en cours concernant l’archivage de documents numériques s’accordent actuellement sur les grandes phases de mise en œuvre de ce processus¹. On peut brièvement les résumer comme suit. En amont, il s’agit de documenter les applications produisant ces documents, de constituer et/ou de récupérer des métadonnées contextuelles, tant en ce qui concerne les systèmes de gestion que les producteurs des données. En aval, le consensus converge vers une conservation des données la plus indépendante possible des logiciels, dans des formats normalisés, et avec une gestion documentaire de leurs métadonnées. Ces principes s’appliquent à tous les documents numériques, quel que soit leur type. Par contre le processus de collecte et de préparation dans de tels système de gestion (en anglais : ingest), tel que le décrit le modèle OAIS², nécessite l’établissement de procédures particulières, adaptées à chaque type de document. Cette contribution explore la possibilité d’établir une typologie qui permette la construction ultérieure de telles procédures.

2. Contexte

2.1. Les typologies existantes

La plupart des typologies de documents existantes se basent sur l’activité qui en assure la production. A titre d’exemple, on peut citer l’ouvrage relativement récent de Louise Gagnon-Arguin, qui présente une liste de documents en fonction de leur domaine d’activité³. Plus récemment, elle a développé le concept de « cybergenre » de document, pour tenter d’adapter cette typologie à la nouveauté des documents numériques⁴. Cette tentative intéressante, dans la mesure où elle essaie de développer une typologie générique, indépendante de l’origine de production du document, se révèle néanmoins dans son état actuel sans utilité pratique pour le traitement des documents numériques existants (et à venir).

Une autre tentative d’établir une typologie des documents numériques a eu lieu dans le cadre des travaux du projet InterPares, en particulier de sa Task Force sur l’authenticité des documents électroniques. Cette dernière a cependant récemment livré un constat d’échec sous la plume de Heather McNeil qui constatait en mai 2002 : « Notre échec pour développer une typologie des documents électroniques suggère certaines limites de la diplomatique contemporaine comme outil d’analyse.

1. On peut trouver une revue de la littérature actuelle sur le sujet sur le site http://www.erpanet.org, (rubriques ErpaAssessements et ErpaTraining).

2. Norme ISO 14721:2003, Space data and information transfer system – Open archival information system – Reference model.

3. Gagnon-Arguin et al., 1998.

4. Gagnon-Arguin, 2002.

(3)

Bien que nous ayons essayé de l’adapter aux réalités de la conservation du document contemporain, la diplomatique reste enracinée dans une conception très traditionnelle de ce qu’est un document et est donc limitée dans sa capacité d’étendre la palette de compréhension de la nature des différentes sortes de systèmes électroniques et de la variété des entités contenues dans ceux-ci. Si elle est tout à fait efficace dans l’analyse de systèmes électroniques contenant des objets numériques qui se comportent comme des documents traditionnels, c’est-à-dire, des systèmes dans lesquels les objets numériques sont stables et circonscrits, elle est considérablement moins utile dans l’analyse de systèmes électroniques contenant des objets numériques qui se comportent différemment, c’est-à-dire, des systèmes dans lesquels les entités numériques sont fluides et moins faciles à circonscrire. » On peut penser qu’au regard de l’objectif de pérennisation, il est précisément indispensable de pouvoir, à un moment donné, circonscrire les documents auxquels on s’intéresse et considérer que c’est cet état « instantané », cette « photographie » que nous voulons préserver. Cependant, on peut douter que cela soit entièrement réalisable (voir Boydens, 1999).

Heather McNeil en esquisse plus loin une cause possible en disant : « Les études de cas de systèmes électroniques suggèrent que nous vivions dans une ère qui est analogue à l’ère des manuscrits médiévaux, où la variation documentaire était la norme plutôt que l’exception⁵. » On peut supposer une autre raison de cet échec, qui est le choix de se placer principalement du point de vue de l’authenticité, ce qui introduit une contrainte forte ; alors que les documents, anciens ou contemporains, ne sont de loin pas tous conçus et/ou utilisés en fonction d’une authenticité, ou d’une validation quelconque.

2.2. Qualités des typologies

Pour qu’une typologie soit utilisable de manière efficace, elle doit répondre, à mes yeux, aux caractéristiques suivantes :

– simplicité, – cohérence,

– nombre limité de catégories et de types.

La simplicité d’une typologie réside dans le fait que les catégories qui la composent doivent être facilement identifiables par un utilisateur non spécialiste.

Les définitions doivent être univoques et permettre l’attribution d’un document à un type sans difficulté de réflexion majeure.

La cohérence d’une typologie se manifeste par le fait qu’elle couvre le champ choisi de manière exhaustive et qu’elle est suffisamment générique pour permettre

5. McNeil, 2002 (traduction de l’original en anglais par l’auteur).

(4)

de catégoriser de nouveaux items sans difficultés (on pourrait parler ici de robustesse du modèle conceptuel).

Le nombre limité de catégories est une condition de la convivialité du système.

Si une typologie est trop volumineuse elle n’est pas maîtrisable dans le cadre d’un travail quotidien. Cela implique en général une structuration en classe et en sous- classes de manière à ce qu’un nombre limité de critères détermine de manière simple et évidente l’appartenance à une sous-classe. Empiriquement, un niveau devrait idéalement se subdiviser en environ cinq niveaux de rang inférieur (au maximum dix).

3. Structuration de la typologie

Contrairement à une typologie de documents classiques, qui s’attache en général à décrire les documents en fonction de leur utilisation administrative ou fonctionnelle, la typologie examinée prend prioritairement en compte les caractéristiques techniques des documents numériques. La grille de description utilisée s’inspire des travaux récents du groupe Pédauque, qui s’est attaché à construire une nouvelle définition du document pour tenir compte de la dématérialisation de celui-ci dans l’environnement informatique actuel⁶. Ce travail commun propose plusieurs équations tentant de définir les composantes du document analogique et/ou numérique. Je résume personnellement ces équations par la formule suivante :

Document = données + forme(s) + support + sens <-> contexte (métadonnées) dans laquelle les formes se décomposent dans les catégories subséquentes suivantes :

– forme de codage (alphabet, Unicode, pixel, etc.),

– forme physique (modalité d’inscription sur un support quelconque), – forme de structure (organisation interne du document),

– forme de validation (signature, sceau, filigrane, etc.).

La particularité du document numérique par rapport au document analogique réside dans le fait que dans un document analogique ces différents éléments sont en général intrinsèquement reliés entre eux par l’intermédiaire du support (la forme physique), alors qu’ils sont le plus souvent disjoints dans un document numérique.

Dans la mesure où l’hypothèse de la conservation à long terme des documents numériques implique la migration périodique des données, rendue à la fois possible mais également nécessaire, entre autres par cette dissociation d’avec le support, on peut admettre que la forme physique n’est pas une donnée typologique

6. Pédauque et al., 2003, accessible sur :

http://archivesic.ccsd.cnrs.fr/documents/archives0/00/00/05/11/index_fr.html

(5)

déterminante. Par conséquent, on examinera les caractéristiques suivantes : le type de données, les types de formes (de codage, de structure, de validation), et le type de métadonnées. Si le modèle est cohérent, une variation d’une de ces caractéristiques définira un type de manière univoque. A contrario, une caractéristique trop commune deviendrait non discriminante et par là sans intérêt pour une typologie.

3.1. Typologie des données a) Données strictement structurées

Seules les banques de données, définies comme des collections de données factuelles validées, répondent à cette catégorisation. En effet, la plupart des bases de données permettent la saisie de champs en texte libre qui sont par ce fait non strictement structurés et appartiennent à la catégorie b. Par ailleurs, les documents définis comme des « transactions » tels que ceux décrits par la norme EDIFACT⁷ sont également strictement structurés ; cependant, toutes les transactions ne sont pas aussi strictement définies et peuvent donc également appartenir au type ci-dessous.

b) Données fortement structurées

A cette catégorie appartiennent les bases de données au sens habituel. Il faut remarquer dans ce contexte qu’une base de données (ainsi que les banques de données définies ci-dessus) n’a une forme de document que par la production

« d’état ». Cette remarque est également valable en ce qui concerne les tableurs, dans la mesure où ils sont la plupart du temps utilisés en tant que mini-bases de données dont on extrait des états périodiques (journalier, mensuel, annuel).

c) Données faiblement structurées

Il s’agit de ce que les informaticiens définissent habituellement sous le nom de données documentaires (documentary data) en leur attachant la qualification de

« non structuré ». Cependant, cette non-structuration fait référence à une structure

« explicite » telle qu’elle se rencontre dans les bases de données (définition univoque du triplet : entité, attribut, valeur)⁸ alors que la plupart des documents ont une structuration « implicite » exprimée le plus souvent par la position des données dans le document. Se pose alors la question de la progressivité de la structuration.

Les documents de cette catégorie sont « plus ou moins » structurés, sans que l’on puisse établir de limites claires entre les différents niveaux de structuration. Dans un environnement électronique, cette structure « souple » fait problème. L’émergence et le succès rapide des langages de balisage (la famille *ML) semblent apporter une solution partielle à ce problème, dans la mesure où le balisage d’un document en

7. Norme ISO 9735:1988.

8. Redman, 1998, plus particulièrement le chapitre 12 : « Qu’est-ce qu’une donnée ? »

(6)

XML, permettrait potentiellement de « réduire » les données balisées pertinentes à une base de données.

Cette classification ne porte que sur des documents de type alphanumérique et fait l’impasse sur les documents sonores ou audiovisuels, qui pourraient éventuellement être déversés dans le grand fourre-tout des données faiblement structurées. Cependant, cet écueil pourrait nous fournir une piste vers une classification d’un ordre supérieur. En effet, tant les banques ou bases de données que les documents textuels faiblement structurés sont potentiellement structurables par un langage de balisage (un *ml). Les documents purement graphiques également par le GML (Geometric Markup Language). Par contre, les documents sonores et audiovisuels ne rentrent pas (ou pas encore) dans un cadre de balisage, entre autres parce qu’ils doivent intégrer une dimension temporelle. On retrouve cette même difficulté dans les formes de codage (voir ci-dessous section 3.2).

Un balisage approprié des documents semble permettre la production plus ou moins automatique des métadonnées intrinsèques (voir ci-dessous section 3.5) avec pour conséquence la possibilité d’une automatisation des traitements ultérieurs. Ce serait par exemple le fait que tout document XML intègre dans sa définition de type de document (DTD) les rubriques descriptives du Dublin Core⁹.

3.2. Typologie des formes de codage

On a traditionnellement différencié les codages en fonction de types de documents préexistants à leur transcription sous forme numérique. Le caractère codant le mot prononcé, les couleurs fondamentales codant l’image perçue, la note codant une partie du spectre sonore, etc. Empiriquement, on peut retenir les codages suivants¹⁰ :

a) codage numérique¹¹,

9. Le Dublin Core est récemment devenu la Norme ISO 15836:2003 Information et documentation – L’ensemble des éléments de métadonnées Dublin Core. Description interdisciplinaire de ressources.

10. C’est en partie les catégories également retenues par Tony Henley (1998).

11. Dans le domaine scientifique mais aussi pour des données statistiques, démographiques, on utilise une représentation dite « binaire » des nombres (un nombre entier est alors défini par sa représentation binaire – sur 8, 16 ou 32 bits – et d'une convention de signe, un nombre réel sera représenté par la juxtaposition d'une mantisse (nombre entier positif ou négatif) et d'un exposant (nombre entier positif ou négatif). Ce type de représentation ne rentre généralement pas dans la catégorie alphanumérique ou l'on a pour habitude de coder un nombre par la représentation des chiffres qui le constituent dans le système décimal.

Le nombre entier 128 sera (en ISO Latin) représenté par 3 octets contenant respectivement les codages ISO correspondant à 1, puis à 2 puis à 8. Ce même nombre pourra aussi être représenté par un octet contenant 11111110 constituant la valeur en base 2 du nombre 128 en base 10.

(7)

b) codage alphanumérique,

c) codage graphique (pixel ou vecteur + compression),

d) codage sonore (notes/timbres + échantillonnage/compression), e) codage audiovisuel (mélange de code graphique et sonore).

Ces types de codage renvoient la plupart du temps à ce qu’il est convenu d’appeler des formats. Cependant, la figure ci-dessous montre que cette typologie n’est pas uniforme ni univoque puisque certaines zones se recouvrent et que, d’autre part, l’évolution technologique tend à les faire se transformer les unes vers les autres. Ceci semble même être une caractéristique intrinsèque du codage, qui est sa capacité d’être « traduit » dans un autre code, en tout cas sous sa forme numérique.

Code alphanumérique

Code vectoriel Code bit-map

Code graphique Code numérique

Code audio-visuel (temporel & graphique) Code sonore

(temporel) Lettre (caractère) Nombre (caractère)

Nombre (fonction)

Texte (pixel)

Son

Image (pixel)

Image (vecteur)

Film/

Vidéo Reconnais-

sance vocale Reconnais- sance vocale

Synthèse vocale Synthèse vocale Notes (caractère)

Numérisation Numérisation

Reconnais- sance des caractères Reconnais-

sance des caractères

Vectori- sation Vectori-

sation

Rasteri- sation Rasteri-

sation Code musical

Notes (ADSR)

Synthèse sonore Synthèse sonore

Figure 1. Relation entre les formes de codage

(8)

3.3. Typologie des formes de structure

Cette typologie semble recouvrir la typologie des données exposée à la section 3.1 ci-dessus. En fait, elle doit en préciser les contours. Les structures des banques et des bases de données ne nécessitent pas de différenciation supplémentaire, si ce n’est celle de l’historicisation des données ou non. On peut alors différencier les bases ou banques de données historicisées (chaque valeur ayant un attribut temporel), non historicisées, ou mixtes (bases contenant à la fois des données historicisées et d’autres non)¹².

Par contre, les données faiblement structurées semblent être modulées par leur forme de codage. Dans ce sens on peut distinguer :

– les textes, – les images, – les sons,

– les documents audiovisuels.

Cette dernière catégorie devrait normalement appartenir à la catégorie des documents composites tels que définis à la section 4 ci-dessous, cependant le lien entre les sons et les images ayant été établi préalablement dans des documents analogiques préexistants (film, vidéo), leur transcription numérique a fait l’objet d’un développement spécifique, qui justifie (provisoirement pour le moment) un traitement ad hoc.

3.4. Typologie des formes de validation

a) Validation de l’identité (auteur/émetteur/destinataire)

La validation de l’identité implique que les acteurs (physiques ou moraux) soient corrélés avec le document de manière univoque (par exemple une signature)¹³. b) Validation de la propriété (ayant-droit)

La validation de la propriété implique, en plus de la validation d’identité une validation empêchant un usage non approprié du document. Il peut s’agir d’un

12. Pour l’analyse de cette problématique, on lira avec profit l’ouvrage magistral d’Isabelle Boydens (2003).

13. Dans le cadre du débat actuel sur la signature électronique, et de la nécessité de sa conservation à long terme, il y aurait toute une réflexion à mener sur la différence entre une authentification a priori des signatures (ordre de paiement vérifié par des listes de signatures bancaires, par exemple, qui implique un rejet de la transaction en cas de non conformité), et une authentification a posteriori des signatures (identification d’une personne apposée sur un document, opposable en cas de conflit éventuel mais pas systématiquement contrôlée). Mais cette réflexion déborde largement le cadre de cet article.

(9)

filigrane identifiant l’origine du document (droit d’auteur), mais également d’un niveau de confidentialité (droit d’accès).

c) Validation de l’intégrité (non-modification)

La validation de l’intégrité implique la mise en œuvre de systèmes empêchant la modification du document. C’est une condition nécessaire pour que les autres formes de validation puissent s’exercer.

L’authenticité n’est pas une forme de validation en tant que telle dans la mesure où elle résulte de la combinaison des autres formes décrites ci-dessus (identité + intégrité, éventuellement + propriété). De même, la véracité ne peut être validée au niveau du document lui-même (il existe des faux authentiques), c’est un critère qui doit être défini en amont et qui est en général lié à une fonction personnalisée (c’est la présence du notaire qui valide l’acte notarié, c’est la revue par les pairs qui confère l’autorité à un article scientifique).

Du point de vue de l’archivage, le type de validation est indifférent. La variable significative est l’existence ou non de la nécessité d’une validation. Cette nécessité est indépendante de la forme électronique du document. La forme électronique peut assez facilement assurer la validation de l’identité ; elle peut répondre à la validation de propriété à travers les métadonnées ; la validation de l’intégrité demande, par contre, des systèmes de garantie de non modification que l’électronique rend difficiles (mais pas impossible) à mettre en œuvre. Il faut cependant remarquer à cet égard, que ce n’est pas tant le support qui est une garantie d’authenticité mais plutôt les systèmes de tiers de confiance qui les entourent (les notaires, les banques, les postes, et, pourquoi pas, les archivistes ?)¹⁴.

3.5. Typologie des métadonnées

a) Métadonnées intrinsèques (identification)

De manière générale, les métadonnées intrinsèques se rapportent à des informations factuelles qui permettent de différencier un document d’un autre document (numéro, version, auteur, date, format, etc.). La plupart du temps (mais malheureusement pas toujours) elles sont intégrées au document lui-même à sa création.

b) Métadonnées extrinsèques (description)

Les métadonnées extrinsèques sont celles qui décrivent les contenus conceptuels du document, ou leurs liens avec des modèles de description pré-établis (dictionnaires, ontologies, etc.) afin d’en documenter le contexte. Dans la plupart

14. Voir à ce sujet dans ce même numéro, l’article de Thibaut Girard, « Les tiers de confiance sont-ils les archivistes de l’avenir ? »

(10)

des cas, il s’agit d’une indexation ou d’une classification qui demande l’intervention d’un opérateur humain et peut donc difficilement être automatisable.

c) Métadonnées structurelles

Ce type de métadonnées n’est pas décrit dans la littérature actuelle. Il m’apparaît cependant nécessaire de le développer, car c’est justement ce qui devrait permettre de caractériser le niveau de structuration d’un document « souplement structuré » (voir 3.1.c ci-dessus). Il est entendu que cette typologie de niveaux n’existe pas à ce jour. Potentiellement, une DTD d’XML permet de définir une structure propre à un type de document mais sa versatilité constitue en soi un obstacle à une typologie, puisqu’on peut définir une DTD par document.

Tous les documents possèdent un minimum de métadonnées intrinsèques, autrement ils ne seraient ni identifiables ni même différentiables. On peut par contre se poser la question de la fonction discriminante de l’existence de métadonnées extrinsèques. La problématique est complexe dans la mesure où l’on a établi à ce jour de nombreux jeux de métadonnées en fonction d’objectifs particuliers. On a ainsi des métadonnées pour la gestion des droits d’auteurs, pour la gestion de la conservation, pour la gestion de la communication, etc.¹⁵ Cette situation tendrait à démontrer que les métadonnées sont nécessaires pour permettre la conservation des documents électroniques mais que leurs caractéristiques ne sont pas un élément discriminant pour une typologie des documents¹⁶.

4. Les documents composites

Par hypothèse, les documents composites sont constitués d’éléments définis dans les types simples. Ils seraient donc théoriquement archivables si leurs composantes le sont également. Ils répondent à la définition de « digital object » telle qu’elle est définie par la norme OAIS¹⁷. Cependant ils exigent la plupart du temps la maîtrise supplémentaire d’un autre niveau qui est celui du lien entre leurs différentes composantes. Pour des types de même nature (pièces jointes textuelles d’un courriel, par exemple), ces liens peuvent être gérés par des métadonnées extrinsèques telles que décrites plus haut, ce sont les context information définies

15. Pour se faire une idée de la complexité de ce monde, on peut utilement consulter le site Meta Matters, maintenu par un consortium animé par la National Library of Australia, qui recense nombre de schémas de métadonnées (http://dcanzorg.ozstaging.com/mb.aspx).

16. Par contre, à l’inverse, on peut penser qu’un type de document donné nécessite un jeu spécifique de métadonnées, comme exposé dans au paragraphe 1.5.2 de (Parent et al., 1999).

17. « Digital Object: An object composed of a set of bit sequences » (Norme ISO 14721:2003).

(11)

par OAIS¹⁸. Par contre les documents composites regroupant des documents de types différents posent d’autres problèmes. Ils sont brièvement résumés ci-dessous, et ils restent à explorer plus avant.

4.1. Les systèmes d’information géographique (SIG)

Ces systèmes associent une ou des banques de données à des représentations spatiales en couches superposées. Pour la navigation à différentes échelles, ces représentations devraient idéalement être sous forme vectorielle, mais par héritage historique elles sont souvent aussi en mode bit-map. En général, les banques de données sous-jacentes sont historicisées (c’est-à-dire que chaque valeur à un début et une fin) mais par contre les représentations spatiales ne supportent pas forcément une datation. Dans les cas où la chronologie est maîtrisée sur un plan spatial, elle n’est par forcément strictement corrélée avec les changements temporels de la banque de données associée, ni avec les différentes couches spatiales du système.

4.2. Les pièces jointes des courriels

La plupart des documents joints à des courriels sont des documents de suite bureautique qui peuvent être gérés en tant que documents séparés avec une gestion de leurs métadonnées pour les associer aux courriers. Cependant ces courriers peuvent n’être qu’une « enveloppe de métadonnées » ne contenant que des pièces jointes, n’ayant pas forcément un lien logique ou organique entre elles.

Par ailleurs, dans le cas où le type de document attaché n’est pas maîtrisable par un système d’archivage, il faut alors mettre en place une procédure qui documente la non-prise en compte de ces documents.

4.3. Les workflow

Pour l’essentiel, un workflow associe des documents avec une suite de transactions. Chacun de ces deux types peut évoluer parallèlement dans le temps.

Une transaction peut ne pas impliquer la modification interne d’un document transmis, elle consiste alors à modifier les métadonnées extrinsèques liées à ce document. La modification d’un document implique pour sa part la plupart du temps la maîtrise de ses versions. Dans un tel système, la création d’un document est une transaction.

18. « Context Information: The information that documents the relationships of the Content Information to its environment. This includes why the Content Information was created and how it relates to other Content Information objects. » (Norme ISO 14721:2003).

(12)

4.4. Les sites web

Dans le contexte de la conservation, il n’y a pas lieu de différencier un site internet d’un site intranet sur le plan technologique car ils sont élaborés sur les mêmes bases logicielles. Leur différence repose par contre sur leur finalité de production et leurs métadonnées. En effet, les sites internet présentent une modalité qui ressort en général de l’édition, et leur conservation rentre alors dans une logique de dépôt légal. Par contre les sites intranet associent le plus souvent à la fois un aspect éditorial (journal d’entreprise), un aspect réglementaire (directives et procédures internes), et un aspect informatif (documents divers publiés par les services). Par ailleurs, l’apparition des web-services, tend à transformer les sites web en support de workflows internes ou externes.

4.5. Les documents « multimédias »

Au départ, ce terme recouvrait l’idée d’un « paquet » dans lequel des médias différents étaient physiquement rassemblés autour d’un thématique de sens/contenu commune (livre et disque, diapositives et bande sonore, etc.) et le terme était parfaitement approprié. L’apparition du codage numérique universel (l’alphabit, qui veut qu’un même octet puisse représenter un nombre, une lettre, une note, un pixel, ou une valeur logique) et d’un support normalisé (le cédérom) a permis de fusionner ces mêmes contenus sur un seul support, un « Unimédia », mais l’ancienne dénomination, installée dans l’usage, y est restée attachée. Actuellement on appelle multimédia plutôt des documents qui incorporent dans une même entité (mais à des degrés « d’encapsulation » divers) plusieurs types de codage différents, dans ce sens, quasi tous les types de documents composites cités ci-dessus sont des multimédias.

5. Conclusions… provisoires

5.1. Un découpage conceptuel inopérant

L’examen des différentes catégorisations présentées montre que le découpage proposé ne permet pas la constitution d’une typologie répondant aux critères fixés à la section 2.2. Cela tient à la polysémie sous-jacente des termes données¹⁹ et documents, qui proviennent chacun d’un monde de production informationnel différent : les bases de données pour les données et les textes papier pour les documents. A cela s’ajoute une troisième modalité qui traverse les deux premières,

19. L’ambiguïté du terme de données est soulignée par Redman, qui ne recense pas moins de six types de définitions de ce terme dans le chapitre « Mais au fait, une donnée, c’est quoi ? » de l’ouvrage cité.

(13)

qui est celle de la transaction, soit l’action réciproque entre plusieurs intervenants.

Or dans une base de données, la modification d’une donnée est considérée comme une transaction, le plus souvent homme-machine, bien qu’elle sous-tende une relation machine-homme ultérieure ; tandis qu’un document analogique est considéré comme la preuve d’une transaction, qui a lieu per se en dehors du document. C’est d’ailleurs l’origine de la définition actuelle du document comme preuve par écrit. Il existe néanmoins des transactions non documentées, qui peuvent être prouvées par témoin mais même pas forcément (l’échange d’un paiement contre un objet, qui est une transaction commune, ne fait pas a priori l’objet d’un document, par exemple).

Cette dernière définition du document renvoie à une autre difficulté sémantique, dans le sens où parler de documents sonores ou audiovisuels est un abus de langage.

La définition primitive²⁰ (et mentalement sous-jacente pour beaucoup d’entre nous) du document renvoyant à sa nature textuelle. Les enregistrements sonores ne sont à la base que des évidences, ce n’est que leur contexte (qui est aussi un « hors-texte ») qui leur confère une valeur de preuve (comme les enregistrements du Watergate, par exemple). Les données enregistrées d’une image ou d’un son renvoient à un percept, tandis que les données d’une base ou d’un texte renvoient à un concept. Bien entendu, la séparation n’est pas aussi évidente et simple, puisque la donnée de couleur RGB de valeur 0/0/215 renvoie aussi au concept de couleur bleue, et que le mot « liberté » renvoie à des réalités qui peuvent être très différentes.

Une piste de réflexion intéressante pour mieux catégoriser un « hyper-type » de document est proposée dans des travaux initiés par le Conseil du trésor canadien sur les composantes du document électronique²¹ qui, dans le but de mieux systématiser les métadonnées utiles et comparables, distingue, entre autres :

– les documents de référence, incluant :

- les documents acquis (déposés en bibliothèque),

- les documents publiés (édités publiquement y compris sur internet), - les documents diffusés (destinés à un public restreint et sélectionné), – les documents de transaction,

– les messages.

20. La définition du document comme preuve par écrit est relativement récente et issue du langage juridique. L’usage initial est celui de « leçon » de documentum : ce qui sert à instruire, usage qui dura du XII^e au XVIII^e siècle (Dictionnaire Grand Robert). Une

« histoire » du document et du document électronique est développée par (Buckland, 1997 ; 1998), mais les différentes conceptions présentées ne permettent pas de développer une typologie pertinente.

21. Parent et al., 1999.

(14)

5.2. Une option pragmatique : vers les formats en tant que type

Pour obvier à la difficulté de catégorisation, surtout si l’on ne considère que l’aspect pragmatique de la question, la tentation est grande de traiter les documents uniquement sous l’aspect de leur format, au sens informatique du terme. C’est l’option choisie par certains records managers américains²². On peut également s’interroger sur la pérennité des formats, puisque l’objectif de notre analyse est

« l’archivabilité » à long terme des documents numériques. Le caractère plus ou moins pérenne de tel ou tel format permettant éventuellement de dégager une nouvelle typologie ; tentative qui me semble plus simple que celle suivie par InterPares pour l’authenticité mais néanmoins pas sans écueil, dans la mesure où un format considéré comme pérenne actuellement ne le sera peut-être plus dans dix ou vingt ans²³.

Dans cette direction, on peut citer le projet PRONOM du Public Records Office anglais, qui est un compendium des formats existants et ayant existé, qui devrait être complet d’ici fin 2005. Il s’agit d’un répertoire qui indique pour chaque format sa provenance et ses principales caractéristiques techniques et surtout quels sont les formats antérieurs qu’il peut traiter et quels sont les formats ultérieurs qui le traitent.

Ces informations sont principalement collectées dans le but d’assurer une migration des données à temps et dans de bonnes conditions, en fonction de l’obsolescence des formats²⁴. Une autre étude anglaise tente une typologie basée sur les formats en essayant de les regrouper en fonction de caractéristiques communes, liée aux types d’applications informatiques qui les utilisent. Cependant, l’objectif de cette étude étant l’analyse des coûts de conservation, ce dernier critère engendre un certain biais²⁵.

5.3. Définir un document ou un système documentaire ?

Les différents niveaux de recouvrement sémantique liés aux documents et aux données pourraient laisser supposer qu’une typologie de documents n’a plus de sens dans un monde hypertextuel. Le découpage en « documents » étant juste une phase dans un enchaînement de transactions et/ou de traitements successifs²⁶. De ce point de vue, pour l’activité courante, seule l’information compte (en tant que données +

22. Voir par exemple (Saffady, 2002), chapitre 3, « File formats for electronic records ».

23. C’est une piste qu’explore actuellement un certain nombre de membres du groupe PIN (Pérennisation de l’information numérique). Voir la présentation de ses travaux dans ce même numéro.

24. Voir le site http://www.records.pro.gov.uk/pronom/ et pour un article de synthèse, le RLG DigiNews, October 15, 2003, vol. 7, n° 5 ; accessible en ligne sous :

http://www.rlg.org/preserv/diginews/diginews7-5.html#feature2 25. Voir (Henley, 1998), particulièrement le chapitre 3.

26. Cette question est également discutée dans (Pédauque, 2003).

(15)

forme), l’existence documentaire ne semblant nécessaire que pour la preuve. Cela rejoint curieusement le concept de respect des fonds, cher aux archivistes, qui a, entre autres, pour conséquence que le document unique n’a pas (ou peu) de valeur par lui-même mais seulement par son intégration organique dans un ensemble plus vaste. Ce qui amène par exemple à cette question paradoxale et non résolue : une base de données est-elle un fonds d’archives²⁷ ?

5.4. Un approfondissement de la notion du document numérique

L’appellation document numérique, demande donc un approfondissement sémantique. En l’état, elle renvoie à trop de niveaux d’interprétation pour qu’elle puisse être correctement analysée. C’est par ailleurs également la conclusion des animateurs du groupe Pédauque qui, suite à la publication et aux réactions suscitées par leur document de synthèse²⁸, ont décidé de continuer à approfondir la définition du document numérique²⁹. L’auteur ayant la ferme intention de participer à ce nouveau débat, il espère que les clarifications qu’il apportera permettront de proposer à terme une structuration plus consistante à cette typologie.

6. Bibliographie

Boydens I., Informatique, norme et temps, Bruxelles, Ed. Bruyland, 1999.

Buckland M.K., « What is a "document" ? », Journal of the American Society of Information Science 48, n° 9 (Sept 1997): p. 804-809, également accessible sur http://www.sims.berkeley.edu/~buckland/whatdoc.html

Buckland M.K, « What is a "digital document" ? », Document Numérique (Paris) 2, n° 2 (1998): p. 221-230.

Gagnon-Arguin L., Vien H., Typologie des documents des organisations. De la création à la conservation, Québec, Presse de l’Université du Québec, 1998.

Gagnon-Arguin L., « Pour une typologie des archives électroniques » in : Les archives électroniques : une mémoire orpheline ou en mutation ?, Actes du 4ème symposium en archivistique du GIRA, Archives nationales du Québec, 2002.

Henley T., Comparison of Methods & Cost of Digital Preservation, British Library Research and Innovation Report 106, 1998. Accessible en ligne à l’adresse:

http://ukoln.bath.ac.uk/services/elib/papers/taviatock/henley.html McNeil H., Trusting Records in a Postmodern World, 2002,

http:/www.iath.virginia.edu/sds/macneil_text.htm

27. Voir également la typologie des systèmes proposée dans l’article de Thomas Zürcher dans ce même numéro (chap. 5.2 « Typologie des systèmes d’information »).

28. Voir (Pédauque, 2003).

29. Pour suivre ce débat, voir le site : http:/www.unice.fr/urfist/DOCNUM/

(16)

Norme ISO 9735:1988, Echange de données informatisées pour l’administration, le commerce et le transport – Règles de syntaxe au niveau de l’application (EDIFACT).

Norme ISO 14721:2003, Space data and information transfer system – Open archival information system –Reference model.

Norme ISO 15836:2003 Information et documentation – L’ensemble des éléments de métadonnées Dublin Core. Description interdisciplinaire de ressources.

Parent R., Boulet N., (coordonné par ), Conseil du trésor - Sous-secrétariat à l’inforoute gouvernementale et aux ressources informationnelles Les composantes d’un document électronique, Rapport du Groupe de travail sur les métadonnées et les structures logiques, Collection en ingénierie documentaire : 2, Janvier 1999, réalisé dans le cadre du Chantier en ingénierie documentaire, (http://www.tresor.gouv.qc.ca/doc/word/collection- 02.doc).

Pédauque R. T., Document : forme, signe et médium, les re-formulations du numérique, version du 08-07-2003, accessible sur :

http://archivesic.ccsd.cnrs.fr/documents/archives0/00/00/05/11/index_fr.html Redman T., La qualité des données à l’âge de l’information, Paris, InterEditions, 1998.

Saffady W., Managing Electronic Records, Lenexa, ARMA International, 3e ed. 2002.