Quelle normalisation pour les documents numérisés en vue d’une conservation et d’une consultation à long terme ?

(1)

numérisés en vue d’une conservation et d’une consultation à long terme ?

Frédérique Gaudin

Pôle universitaire Léonard de Vinci F-92916 Paris la Défense Cedex http://www.devinci.fr/

RÉSUMÉ. La croissance constante de l’information en entreprise, de sources et de types très différents, pose la problématique de son stockage et de sa communication à d’autres services ou à d’autres entreprises. Une normalisation s’impose pour permettre la réutilisation des documents de type complexe. De nombreux groupes de travail s’appliquent à faire converger tous les standards avec une similitude d’éléments de description. XML constitue une plate- forme d’échange, autour de laquelle vont s’articuler un ensemble d’autres normes adoptant le même modèle : MPEG 4 et 7, XTM, RDF et Dublin Core… Ces normes sont en perpétuelle évolution, et vont subir d’autres modifications ; mais dorénavant, les documents numérisés auront un cadre d’évolution clair, aisé et pérenne, grâce à une grammaire commune. Et cette convergence rendra possibles des migrations « sans douleur ».

ABSTRACT. The continuously growing amount of information in the organizations, of different types and from different sources, brings up the problem of its storage, exchange and reuse by other organizations. With the Internet, documents become more and more complex and require in consequence a strong standardization. A lot of working groups (or units) focus their efforts on writing standards with common descriptive (or basic) elements. XML becomes the main exchange standard, offering a grammar which other standards may join : MPEG 4 and 7, XTM, RDF, Dublin Core… These standards are going to be developed and modified but, from now on, digital documents will have a clear, easy to use and permanent frame, thanks to a common grammar, enabling painless migrations.

MOTS-CLÉS: information numérique, normalisation, structuration, métadonnées, XML, MPEG, internet.

KEY WORDS: digital information, standardization, structure, metadata, XML, MPEG, Internet.

(2)

1. Introduction

Devant l’accroissement constant de l’information en entreprise, de sources diverses et par conséquent de types très différents, devant la problématique de leur stockage, de leur communication à d’autres services de l’entreprise, voire à d’autres entreprises, le maître mot ou le mot-clé du succès de leur traitement est la rigueur.

Cette rigueur a deux objectifs :

– à la fois leur conservation « intelligente » pour une consultation ultérieure, – et l’échange, en vue d’une consultation dans des environnements bureautiques différents.

Cette rigueur se concrétise par l’adoption a priori d’une norme. Toutefois, il existe plusieurs normes pour les documents numérisés, qu’il convient d’analyser soigneusement avant d’effectuer un choix. Ces normes peuvent en effet s’attacher à la définition physique ou à la définition logique d’un document lui-même de plus en plus complexe, incluant des séquences audio, par exemple ou des liens hypertextes.

Elles sont plus ou moins interactives, ouvertes et évolutives.

La normalisation s’applique au document même comprenant plusieurs éléments : le texte, bien sûr, mais aussi les éléments non textuels : son, image fixe ou animée.

Mais certains autres éléments doivent être considérés en vue d’un archivage efficace. Ces éléments ne figurent pas dans le contenu du document lui-même ; ce sont :

– les éléments obligatoires d’authentification ou de traçabilité (traçabilité des procédures : date de production, de première ou deuxième modification, de décisions, d’application, ou d’intégration d’éléments de workflow), ou encore les liens avec des documents secondaires ;

– l’auteur de l’archivage et le(s) destinataire(s) ;

– l’appartenance de l’archive à un ensemble logique (dossier...) ; liens éventuels vers d’autres documents (URL directs dans le texte) ;

– des codes de classification de l’archive, selon les trois classes : actualité, usage occasionnel, archives définitives, ainsi que les éléments de confidentialité : droits d’accès, sécurité ;

– tout autre élément documentaire : résumé, mots-clés, et tout élément propre à un service ou à une société.

Ces éléments se retrouvent généralement dans la « notice bibliographique » des documents en question, dans les systèmes traditionnels et actuels de documentation, d’archivage ou les systèmes de « knowledge management », plus particulièrement ciblés pour les besoins de l’entreprise. Mais certaines normes ont déjà pris en compte ces éléments en tant que métadonnées dans le code source du document lui- même.

(3)

De fait, depuis qu’informatique et information sont devenues indissociables, que la mondialisation ou globalisation passe inexorablement par l’échange d’informations, on se retrouve à la convergence de plusieurs disciplines, savoir-faire et expertises, – telles que l’édition, les bibliothèques, les sciences de l’information, la linguistique, entre autres – qui se doivent désormais de réfléchir ensemble dans un intérêt commun, celui de maintenir les acquis et de les pérenniser.

2. Le contexte général

Les « autoroutes de l’information » ont officialisé depuis une dizaine d’années la participation des gouvernements des pays les plus développés à des projets menés jusqu’alors entre différents laboratoires de recherche et groupes industriels autour de la communication et de la conservation de la production industrielle, intellectuelle, et patrimoniale, et les ont impliqués dans une politique de collaboration, notamment au travers de la mise en place de normes internationales, parallèlement à la déréglementation des services de télécommunications, et de la suppression des monopoles publics.

La révolution technologique couplée à l’internationalisation de l’économie s’applique à tous les secteurs d’activités. Mais contrairement au sens commun, les autoroutes de l’information ne prennent pas en compte le seul réseau internet. Elle englobe plusieurs notions, dont :

– l’infrastructure électronique,

– la circulation des flux à haute vitesse, – les protocoles d’échange,

donc des transactions incluant l’accès, le transport, et le traitement de documents de toutes sortes, sous forme numérisée.

L’autre enjeu économique et social est la prospérité des pays impliqués, l’amélioration de la qualité de la vie et, ainsi, une libéralisation des marchés des télécommunications, une modification du cadre réglementaire et institutionnel ; et surtout « la possibilité de développer une stratégie de recomposition du champ des télécommunications, visant à y introduire de nouveaux acteurs et une nouvelle logique » (Thierry Vedel).

En Europe, le rapport Bangeman (L’Europe et la société de l’information planétaire, 1994) insiste sur le caractère fédératif qu’impose la Communauté européenne.

Ainsi, de nombreux groupes de réflexion conjuguent leur approche théorique ou leur expérience pour faire avancer les projets prenant notamment en compte les aspects pluriculturels ou les différences linguistiques ; les différents cadres juridiques et institutionnels ; et bien entendu, toutes les règles, normes et protocoles de chaque pays en matière d’information, télécommunications et documentation.

(4)

Ces différents organismes officiels ou groupes de travail dans le monde travaillent dans le même sens :

– les secteurs Information et documentation et Technologie de l’information de l’AFNOR et de l’ISO, impliqués dans l’ensemble des aspects ont été récemment réorganisés de sorte qu’ils aient des relations permanentes avec les grandes institutions de culture informatique, telles que W3C (World Wide Web Consortium), un des organismes de standardisation de l’internet ;

– le groupe CCSDS-ISO en charge de l’élaboration du modèle de référence OAIS (Open Archival Information System) qui propose un cadre conceptuel pour la compréhension de l’archivage à long terme des documents numériques ;

– IFLA (International Federation of Library Associations and Institutions), qui organise la veille autour des bibliothèques ;

– PICS et Dublin Core, qui s’attachent à l’inclusion d’informations de type bibliographique (de l’ISBD, International Standard for Bibliographic Description, à RDF, Resource Description Framework) dans les métadonnées ;

– Le comité MPEG (Moving Picture Expert Group) qui travaille en particulier sur MPEG-4 depuis 1992 et MPEG-7 depuis 1996 ;

– Le comité MHEG (Multimedia and Hypermedia Expert Group) qui s’intéresse à la fois à la représentation et au codage des applications et des documents multimédias, et les échanges dans un environnement réseau temps réel.

En France, des projets comme Solon (système d’organisation en ligne des opérations normatives en vue de la préparation des textes législatifs et réglementaires), piloté par le Secrétariat général du gouvernement, avec l’assistance de la MTIC (mission interministérielle de soutien technique pour le développement des technologies de l’information et de la communication dans l’administration), ou comme Constance (conservation et traitements des archives nouvelles constituées par l’électronique) pour le Centre des archives contemporaines des Archives nationales à Fontainebleau, suivent les préconisations de ces groupes.

3. Les différentes normes

Les normes ne s’attachent plus seulement à donner un cadre standard aux documents ; elles prennent en compte deux éléments :

– le document, avec toutes ses composantes multimédias ; – son application ou exploitation.

Pour la normalisation des documents numériques, on peut déterminer plusieurs niveaux.

(5)

3.1. Le codage des caractères (pour les documents écrits)

Les normes utilisées sont l’ASCII, l’ISO Latin 1 et l’Unicode (ou ISO 10646), code de caractères à 16 bits, qui a l’avantage de pouvoir couvrir tous les systèmes d’écriture du monde. Pour l’instant, il est assez peu répandu, mais les applications XML prennent en charge de nombreux types d’encodage des documents, dont le jeu de caractères codés sur deux octets Unicode (UCS-16) et une version compressée (UTF-8).

3.2. Les formats de fichiers

En dehors des formats de fichiers propriétaires (dont les plus utilisés sont Word et Wordperfect), il existe deux autres types de format normalisés :

3.2.1. Les formats de description de pages

Il s’agit de formats qui s’arrêtent à la description physique, à la présentation.

Mais ces formats ne s’intéressent ni au contenu ni à la structure. Deux exemples de formats utilisés sont le langage PostScript et le format PDF (Portable Document Format).

3.2.2. Les métalangages, ou syntaxe ou grammaire de documents

Les métalangages sont au nombre de trois, avec d’éventuelles normes intermédiaires, telles que Hytime, qui introduisent dans la norme SGML existante des notions de synchronisation spatiale et temporelle :

– SGML (Standard Mark Up Language), – HTML (Hypertext Mark Up Language), – XML (Extensible Mark Up Language).

SGML est le plus ancien, et s’adresse à l’édition traditionnelle. HTML en est une version très simplifiée, destinée au web. XML est un sous-ensemble du langage SGML. XML est à mi-chemin entre SGML et HTML. Il soutient les étiquettes et attributs comme dans SGML, permet l’emboîtement dans les documents à n’importe quel degré de complexité. XML et SGML sont compatibles. Il n’y a pas de rétrocompatibilité avec les documents au langage HTML, mais à partir de HTML 3.2, une conversion est possible. Le nouveau format XHTML est une réécriture conforme à XML du standard HTML 4.0.

SGML adopté comme norme ISO 8879 en 1986 a été la première tentative systématique de créer de réels documents électroniques, c’est-à-dire des documents qui n’étaient plus des documents imprimés sous forme électronique, mais de produire un cadre où l’on sépare le contenu (logique) d’un document de sa forme (matérielle/imprimée). L’intention finale est toujours de produire des documents imprimés.

(6)

SGML est très complexe et sa manipulation reste restreinte aux spécialistes (rédaction technique dans l’industrie ou textes officiels).

Il en est de même des normes ODA (Open Document Architecture) qui permet d’échanger des documents structurés indépendamment des systèmes utilisés, et HyperODA (Hypermedia Extension to ODA).

Parallèlement à ces évolutions dans l’imprimerie traditionnelle s’est effectué le développement de la documentation en ligne, interactive, la première forme de documentation purement électronique. Le World Wide Web est apparu avec des liens hypertextuels et depuis 1995, une révolution a eu lieu dans la recherche d’informations avec des moteurs incroyablement performants, basée non plus sur une logique booléenne, mais sur des outils sémantiques extrêmement puissants.

Toutefois, certaines insatisfactions subsistent. Le World Wide Web est trop vaste, et la recherche « en texte intégral » devient insatisfaisante. Ainsi entrent en fusion le document et sa notice bibliographique (dans la version maximaliste) ou une description documentaire plus sobre (dans une version minimaliste) dans une zone cachée, les métadonnées. Le standard XML développe particulièrement cet aspect.

XML répond aux interrogations, avec une perte d’information minimale, grâce à l’intégration des métadonnées où l’information interrogeable se trouve dans un cadre prédéfini. La convergence à l’intérieur d’un même fichier d’une information structurée et du texte intégral évite le bruit causé par les moteurs de recherche en langage naturel, et la lourdeur des systèmes bibliographiques¹.

3.2.3. Les formats d’images fixes et animées

Plusieurs formats existent correspondant aux différentes techniques de compression :

– TIFF (Tagged Image File Format) est un format intermédiaire, non applicable au web.

Le web utilise, pour les images fixes : – JPEG (Joint Photographics Expert Group), – GIF (Graphics Interchange Format),

– et PNG (Portable Network Graphics), de plus en plus répandu, en remplacement de GIF.

Le format vectoriel est le CGM (Computer Graphics Metafile) et quatre normes internationales précisent l’utilisation de CGM dans les courriers électroniques et sur le web.

Pour les images animées et le son, la norme est MPEG (Moving Picture Expert Group). MPEG est l’ensemble de normes qui répond le mieux aux questions de traitement du multimédia, notamment les normes MPEG-4 et MPEG-7.

1. Pour des exemples, voir http://www.w3schools.com/xml/xml_examples.asp

(7)

MPEG-4 et MPEG-7 s’attachent à décrire les bases de données et des objets multimédias, en donnant des solutions à la visualisation des documents vidéo.

MPEG-4 code le contenu des documents visuels (compression), MPEG-7 code la description du contenu (dans des métadonnées, pour qu’un document visuel et sonore soit retrouvé par un moteur de recherche. Les deux normes MPEG-4 et 7 sont complémentaires. Elles normalisent les interfaces et les échanges.

MPEG-4 code le contenu pour qu’il soit compris par de nouvelles applications.

C’est un standard orienté objet (construit en arborescence hiérarchique). Il est scindé en plusieurs parties : les codages des objets (vidéo, son, objets virtuels) et la description de scènes. La norme définit principalement :

– les flux,

– le modèle de décodage, – et en version 2 :

– l’intégration de Java (MPEG-J),

– la gestion des données de protection de la propriété intellectuelle.

Depuis octobre 1998, MPEG travaille à créer un standard de description des données multimédias en réponse aux exigences opérationnelles, qu’elles soient en temps réel ou non. Ce travail porte sur le « Multimedia Content Description Interface » (MPEG-7). MPEG-7 se veut suffisamment générique pour répondre aux besoins de plusieurs applications.

MPEG-7 s’attaque à la description standardisée des informations audiovisuelles, et seulement à cet aspect. La description doit permettre en particulier la recherche et le filtrage de données audiovisuelles. Elle devra être associée au contenu lui-même.

Elle comprend :

– des descripteurs (DS) qui présentent les parties distinctives ou des caractéristiques des données significatives à quelque chose ou quelqu’un (par exemple, un histogramme d’intensité lumineuse, la moyenne des composants fréquents, le texte d’un titre, etc.) ;

– des schémas de description (DSS) qui comportent en particulier des relations entre descripteurs permettant de spécifier des entités de plus haut niveau, pouvant aller jusqu’à un niveau sémantique ;

– un langage de définition de description (DDL) qui doit permettre la création des nouveaux schémas de description et, éventuellement, des descripteurs. Il doit permettre aussi la modification et l’extension des schémas de description et des descripteurs existants ;

– des formats de codage qui permettent de réaliser des fonctions comme la compression efficace, la correction d’erreur, l’accès direct, et autres ;

– la prise en compte des contraintes système et performance.

(8)

MPEG-7 vise à répondre aux besoins de toutes les applications. Elle va traiter notamment les fichiers son, sur lesquels aucune norme n’a été prévue jusqu’à maintenant.

Cette dernière étape de l’ensemble MPEG, appelé « Multimedia Content Description Interface » (MPEG-7) étendra les capacités de recherche, limitées aujourd’hui, à d’autres types d’information. MPEG-7 va spécifier une description standard de différents types d’informations multimédias.

La description standardisée des différents types d’information peut résider en un certain nombre de niveaux sémantiques :

– un premier niveau d’abstraction pourrait être la description de la forme, taille, texture, couleur et composition ;

– les plus hauts niveaux donneraient des informations sémantiques codées sous une forme efficace (descriptif documentaire d’une scène filmée, par exemple) ;

– le format : par exemple le type de compression utilisée (JPEG), ou la taille ; cette information aide à déterminer si le matériau peut être lu par l’utilisateur ;

– les conditions d’accès aux matériaux ; cela pourrait inclure des informations concernant le copyright et le prix ;

– les liens vers d’autres matériaux.

MPEG-7 est une description standardisée des divers types d’information multimédias associée au contenu des médias pour permettre aux matériels de rechercher rapidement et efficacement l’information demandée par les utilisateurs.

Actuellement, MPEG-7 est en phase de définition ; il reste encore de nombreux points en cours de discussion (analyse des besoins et des contraintes, format d’utilisation : RDF, XML DTD, C++, etc.). MPEG-7 se trouve au cœur de la plupart des travaux actuels pour la représentation et les applications de données audiovisuelles.

La dernière norme concerne l’image 3D. Il s’agit de VRML, Virtual Reality Modeling Language. VRML ou Web3D ont rejoint W3C et travaillent désormais avec HTML, XML, et MPEG-4.

3.2.4. Les supports

Pour l’archivage, plusieurs supports sont en lice :

– le premier est le WORM (Write Once Read Many) de nouvelle génération, à savoir le CD-R, variante réinscriptible du CD-ROM. Il a cependant plusieurs défauts : il ne peut enregistrer de données en continu, et ses performances sont limitées ;

– le DVD, qui se décline entre autres en DVD-R et DVD-RAM, avec une durée de vie égale aux CD-ROM, à savoir cent ans – pour ceux munis d’une couche de verre à la place du substrat de polyuréthane ;

– en alternative, le DON (disque optique numérique), réinscriptible lui aussi ;

(9)

– le CCW (Continuous Composite Worm), sécurisé grâce à un mécanisme de verrouillage logiciel des données, et non plus seulement grâce à une technique d’enregistrement irréversible des données. Cette solution n’est pas encore vérifiée.

Parallèlement, pour l’archivage nécessitant moins de sécurisation, les supports magnéto-optiques vont évoluer dans les deux prochaines années. Ils vont utiliser la technologie UDO (Ultra Density Optical) mise en place par Sony qui est le concepteur originel de cette technologie.

Pour l’archivage légal et sécurisé dans l’entreprise, seuls sont à retenir le DVD et le CCW.

4. XML

4.1. Les métadonnées

L’insertion de données descriptives à l’intérieur même du document révolutionne à lui tout seul le monde documentaire. Ces métadonnées ont d’ailleurs une double vocation :

– une description des contenus à un niveau de complexité raisonnable ;

– la protection des contenus (par exemple par l’aquamarquage pour les images, y compris dans les fichiers PDF d’un texte, ou par l’inclusion d’un bit conventionnel dans l’en-tête). Les informations de protection sont rendues indissociables du fichier lui-même.

Les métadonnées donnent une plus-value au contenu, auparavant apportée par la notice bibliographique. Les informations sont stockées de manière fine dans les bases de données grâce aux « tags » ou balises.

Les métadonnées répondent à une table de référence, comportant 10 classes, numérotées de 0 à 9 :

– la classe 0 identifie le transport des données ;

– la classe 1 inclut tous les identifiants communément trouvés dans l’ISBN ; c’est donc elle qui contient les métadonnées essentielles ou vitales, c’est-à-dire sans lesquelles l’application associée ne fonctionne pas) ;

– la classe 2 détermine les droits d’accès au contenu : restriction d’utilisation, accès payant, informations de copyright ou mentions obligatoires ;

– la classe 3 décrit les données paramétriques ;

– la classe 4 donne des informations sur la composition des objets à sources multiples et leurs multiples combinaisons en vue d’applications. Dans le cas de documents multimédias, le scénario est décrit, ainsi que les enchaînements de séquences. Cette classe décrit aussi les liens de parenté entre objets (par exemple l’appartenance à un dossier dans le cadre des services d’entreprise) ;

(10)

– la classe 5 est consécutive à la classe 4, dans la mesure où elle décrit les relations des objets eux-mêmes. Elle contient les métadonnées temporelles (time- code, par exemple) ;

– la classe 6 fournit les informations géospatiales, elle est utile notamment aux documents vidéo (MPEG) ;

– la classe 7 inclut toutes les métadonnées descriptives destinées à l’administration des contenus. Elle est au cœur de toute la problématique du RDF (Resource Description Framework). Les informations incluses peuvent être plus ou moins étendues. Elles sont destinées à la constitution des bases de données et à la recherche via différents moteurs. Elle contient au minimum :

- le nom de l’auteur, - le titre de l’œuvre, - la localisation,

- les conditions d’exploitation, - la mention obligatoire de copyright, - les mots-clés,

- le descriptif technique, - le type d’objet, - la date de création ;

– la classe 8 contient des données de référence externe ;

Une utilisation possible de XML, qui semble prometteuse quoiqu’elle n’ait pas été beaucoup mentionnée jusqu’ici, serait d’encoder spécifiquement les mots et locutions de la version originale (langue source) d’un texte de façon à en éliminer les ambiguïtés linguistiques (lexicales ou syntaxiques), pour faciliter ultérieurement sa traduction automatique dans n’importe quel autre langage cible.

– la classe 9, enfin, est une sorte de classe « fourre-tout » où l’utilisateur peut entrer des commentaires personnels. C’est « l’espace de créativité » de la zone des métadonnées. Toute entreprise peut y entrer des données propres à son application et à l’utilisation qu’elle va en faire.

Dans leur ensemble, la nécessité de ces métadonnées (les 10 classes), en dehors de meilleures performances dans la recherche d’information grâce à une structure, consiste donc en ce qui suit :

– les « agents intelligents » pourront travailler également sur des structures plus stables et surtout plus précises que HTML ;

– le contenu et les relations entre les différents fichiers d’un site web seront décrits selon une nomenclature universelle ;

– l’appartenance des collections de documents à un document logique unique sera prise en compte ;

(11)

– le contenu d’un document sera classé suivant un degré de difficulté ou un public cible ;

– les droits de propriété intellectuelle ou les droits d’accès à des pages web seront partie intégrante du document ;

– des signatures numériques seront incluses pour valider les textes circulant sur l’internet.

Le W3C normalise plusieurs applications qui permettront ces contrôles sur les documents électroniques et construit ces normes à l’aide du langage de balisage XML.

Parmi toutes les normes, XML est la seule qui accepte ces métadonnées, et qui permet donc un pas de géant par l’inclusion dans le corps du document, de manière transparente et sans détériorer l’aspect visuel original, de toutes les propriétés intrinsèques de ce document, eu égard à la propriété intellectuelle, la sécurisation, la traçabilité, la confidentialité et l’appartenance ou la relation inclusive du document à un autre.

4.2. Les avantages de XML, entre SGML et HTML, dans l’environnement de l’entreprise

XML est un langage issu de deux autres normes dont il a pris le meilleur de chaque : il conserve les points forts de SGML, tout en le simplifiant en prenant HTML en exemple.

Donc, il donne le cadre de :

– la description de la structure du document, – la description du contenu du document,

– le contrôle de la présentation du document à l’utilisateur.

XML et HTML sont tous deux issus du langage plus complexe SGML. C’est d’ailleurs la complexité et le coût d’implémentation élevé de SGML qui ont encouragé le développement de solutions de remplacement.

HTML est le langage de marquage le plus répandu pour les documents destinés au web. L’augmentation de sa popularité a également révélé ses limites. Ces dernières concernent notamment le nombre réduit d’ensembles de balises que l’utilisateur peut utiliser. Les auteurs des documents créés avec le langage HTML ne peuvent pas créer leurs propres balises car les navigateurs web disponibles ne connaissent que celles appartenant aux standards HTML supportés.

XML est une réponse aux limites des langages HTML, tout en apportant de nouvelles fonctionnalités.

(12)

4.2.1. Extensibilité

La première qualité de XML est son extensibilité. XML définit son propre ensemble de balises. La précision de ces descriptions revient à la personne en charge de la DTD (description de type de document). Par exemple, une implémentation va employer une balise <name> alors qu’une autre préférera une balise <city_name>.

4.2.2. Grammaire

XML a une grammaire. Le contenu et la structure d’un document XML sont définis par sa grammaire, comme dans SGML. Les implémenteurs XML déterminent les balises autorisées dans leurs documents. Ces balises sont définies officiellement dans une grammaire XML, telle qu’une définition de type de document (DTD). Une DTD peut se trouver à l’intérieur du document XML ou dans un fichier distinct référencé dans l’instruction <!DOCTYPE> du document. Cette grammaire aide à la manipulation du document et à l’échange entre applications. La grammaire décrit les balises valides, les attributs et autres contenus pour le document XML. Si un document XML est créé comme fichier statique ou généré dynamiquement (dans le cas de feuilles générées à la volée par un script PHP) l’auteur est responsable de sa conformité à la grammaire.

D’autres schémas basés sur XML sont en cours de développement.

4.2.3. Norme d’échange universel

XML se présente comme la norme d’échange universel de documents entre utilisateurs et applications. Le travail en réseau occasionne un besoin d’échanges d’informations entre utilisateurs internes et externes à l’entreprise. La taille des populations d’utilisateurs potentiels s’accroît avec l’internet et le développement de la messagerie électronique. XML n’est pas le premier format de document possible, mais il présente nettement des avantages comparés aux autres formats d’échange. Le contenu est transmis dans le format de sortie le plus approprié (HTML, PDF et PostScript) et dans des formats pour d’autres échanges entre applications (EDI, Electronic Data Interchange).

4.2.4. Recherche avancée

XML répond à la recherche avancée. La recherche dans un document XML est plus facile car la structure et le sens du contenu sont identifiés (en application de la grammaire).

Les grammaires déterminent la structure et le contenu des documents XML ; elles peuvent être utilisées pour effectuer des recherches plus poussées. Par exemple, les moteurs peuvent prendre en charge la recherche d’une collection de documents créés selon une grammaire particulière. La recherche par nom ou attribut de balise, contenu de données ou emplacement dans un document sont d’autres critères de recherche dont les documents XML facilitent l’implémentation.

(13)

4.2.5. Structure et présentation

XML distingue la structure du contenu de la présentation du document. Cette distinction a toute son importance lorsque le contenu de documents web doit être généré dynamiquement à l’aide de programmes. Elle permet aux auteurs de pages web, programmeurs et concepteurs graphiques de travailler en parallèle sans gêne mutuelle.

Tout comme les feuilles de styles en cascade (CSS, Cascading Style Sheets) en HTML, les feuilles de styles XSL contrôlent la présentation des documents XML.

Elles peuvent être en ligne ou dans un fichier distinct. Le fait de placer le contrôle de la présentation dans un fichier distinct du contenu permet aux implémenteurs XML de créer plusieurs vues pour un document XML sans changer ce dernier. Une des conséquences est que le contenu peut être présenté à plusieurs utilisateurs sous différentes formes.

4.2.6. Economie

XML est économique au niveau des ressources utilisateur, réseau et serveur.

Chaque feuille de styles XSL peut fournir une vue différente de tout ou partie des données du document. L’utilisateur sélectionne la feuille de styles à appliquer. Le passage d’une vue (feuille de styles) à l’autre n’implique pas l’envoi d’une autre requête au serveur.

4.2.7. Liaison avancée

XML prend en charge la liaison avancée de document. En HTML, la balise <A>

relie un document à un autre. C’est un lien unidirectionnel (du document source à la cible). XML, lui, prend en charge deux types de liaison avancée : XLink et Xpointer (voir la norme descriptive http://www.w3.org/XML/Linking). Les standards XLink et XPointer sont en pleine évolution. Avec XLink, toute balise peut servir de lien.

Les attributs facultatifs XLink fournissent des informations supplémentaires sur le lien et le document cible. Un lien simple (appelé lien étendu) peut également désigner plusieurs cibles.

4.2.8. Options

La structure de documents XML comporte des options. XML permet de ne pas utiliser de DTD. Toutefois, les possibilités de partage de ces documents entre utilisateurs et applications s’en trouvent limitées. Si l’analyseur ne trouve pas de DTD en ligne ou de référence à une DTD externe, il opère avec la structure des balises dans le document comme DTD impliquée. Le processeur évalue le document pour déterminer s’il est conforme aux règles de syntaxe.

Des DTD publiques existent : plusieurs sociétés et groupes d’intérêt développent des DTD pour des catégories de documents, telles que les instruments de recherche d’archives. La plupart de ces DTD appartiennent au domaine public et sont disponibles sur l’internet. S’il n’existe aucune DTD publique répondant aux besoins

(14)

d’une entreprise alors que la validité du document se révèle indispensable, XML permet de développer une DTD.

4.2.9. Statique ou dynamique

Le contenu d’un document XML est statique ou dynamique, ou les deux.

Le contenu d’un document XML est créé et stocké sur le serveur web comme fichier statique. L’auteur établit le document XML de manière à inclure des balises XML valides et des données, tout comme les auteurs HTML composent des fichiers statiques. Cette approche fonctionne très bien dans le cas de données peu susceptibles de modifications. Exemples : articles de presse, glossaires et littérature.

Le contenu d’un document XML peut être généré dynamiquement à partir d’une base de données et d’entrées utilisateur. Dans ce cas, les « servlets » prenant en charge XML, les JavaBeans et même le code Java en ligne dans une page JavaServer (JSP) peuvent être utilisés pour générer le contenu du document XML.

Le contenu peut aussi être à la fois statique et généré dynamiquement. Ce scénario implique une combinaison prudente entre les deux formes de contenu. Les documents XML peuvent être échangés entre applications intelligentes et sans intervention humaine.

XML prend indifféremment en charge :

– les feuilles de styles en cascade (CSS) développées pour HTML ;

– XSL conçu pour un formatage plus complexe. XSL prend en charge les caractéristiques avancées telles que l’insertion de JavaScript dans les feuilles de styles, le contrôle du formatage du contenu des balises et le masquage du contenu.

Les feuilles de style XSL gèrent l’affichage de tout ou partie du document et son apparence (polices, couleurs, alignement).

En attendant la disponibilité de navigateurs disposant de fonctions XML, la présentation de documents XML aux utilisateurs implique une conversion en HTML. Cette conversion peut être effectuée par des navigateurs compatibles XML, à savoir Netscape 6 ou Internet Explorer 5, ou encore Opera, moins répandu. L’autre solution consiste à utiliser des JavaScripts ou des contrôles ActiveX intégrés au document XML. Le contrôle ActiveX XLS Microsoft est un exemple de convertisseur XML-HTML pouvant être intégré à un document HTML.

HTML n’est pas le seul format dans lequel les documents XML peuvent être convertis. Il s’agit simplement du format le plus facile à implémenter, en fonction des éditeurs disponibles sur le marché. Il est également indépendant de la machine de lecture (environnement Mac ou PC). Il reste un format non-propriétaire utilisable librement.

(15)

4.3. Et XTM

XTM (XML Topic Maps) est le dernier développement après la sortie de la norme ISO/IEC 13250 : Topic Maps 2000. Il vient d’être publié (décembre 2000) et représente une étape supplémentaire dans la structuration et la recherche intelligente de l’information. « Topic Maps » est l’équivalent électronique des index imprimés, facilitant ainsi l’accès direct à la partie du document recherchée. Cette préstructuration va bien au-delà du document et permet de gérer les glossaires, les catalogues, les renvois, les synonymes et toute autre information liée à une information principale, et surtout les thésaurus.

Cet aspect est très intéressant. En effet, les thésaurus, invention très performante pour un accès véritablement structuré à l’information, n’ont jamais été vraiment exploités par les logiciels documentaires. En effet, les approches sémantiques habituelles ne prennent pas en compte une structuration arborescente de l’information, où les termes spécifiques dépendant d’un terme générique de niveau supérieur sont pris en compte en tant que sous-ensembles d’un ensemble supérieur quand on accède à celui-ci au cours d’une requête. Un thésaurus bien conçu en amont est un outil très puissant d’accès à l’information. Cette question revient au devant de l’actualité, avec la croissance chaotique de l’information sur les réseaux mondiaux, notamment pour prendre en compte les arborescences, parallèlement aux solutions développées sur les bases de données orientées objet, mieux conçues que les SGBD-R (systèmes de gestion de bases de données relationnelles).

Les « Topic Maps » sont des nœuds de connexion dans l’espace de l’information. Ils se reconfigurent automatiquement au fur et à mesure que l’information évolue. Notamment dans les liens supérieurs et inférieurs lorsqu’une occurrence est ajoutée ou ôtée. Cette reconfiguration est une des forces majeures de XTM.

XTM est comparable à SGML et XML : Il offre un métamodèle contenant une syntaxe commune dans laquelle toutes les variantes sont possibles. Les concepts sont créés en dehors de la source d’information et ils aboutissent collectivement à une carte des concepts nommée « topic map ».

XTM apporte aussi des réponses au multilinguisme et aux différentes écritures.

Une clé de tri peut être associée à chaque langue. Par exemple, en espagnol,

« ll » est une lettre comprise dans l’alphabet entre l et m. Topic Maps triera en sorte que « lo » apparaisse avant « ll ». L’utilisation de XTM dépend de son auteur, tout comme XML.

Autre avantage : un concept peut avoir plusieurs noms. On traite ainsi le problème des synonymies de manière très efficace. Chaque « topic » peut avoir plusieurs noms qualifiés par un contexte, qui permettent d’opérer des filtrages. XTM ainsi que XML tentent de résoudre les homonymies ainsi que les différentes acceptions d’un même terme, ce qui facilite bien évidemment la traduction d’un

(16)

terme par l’implémentation de plusieurs dispositifs sur l’environnement linguistique (scope ou contexte).

XTM se présente comme une enveloppe apte à accueillir des normes qui sont des applications de RDF (Resource Description Framework) utilisant des ensembles de mots-clés, où s’affrontent Marc (notice traditionnelle déclinée en plusieurs versions : LC Marc et Unimarc, pour les plus usités) et Dublin Core (forme allégée des formats Marc, donc des notices bibliographiques issues de l’OCLC (Library of Congress) en ne retenant que 15 éléments de description du contenu), et une partie

« descripteurs » ou mots-clés très allégée.

Là, deux philosophies s’affrontent, entre les anciens systèmes bibliographiques, très nomenclaturés et très rigides et les nouvelles approches documentaires plus fluides, ne suivant pas de classification, et évoluant vers des classes d’objets reliés.

Les deux systèmes coexistent. Seuls les types d’applications font la différence.

Pour des fonds patrimoniaux – bibliothèques institutionnelles ou Archives nationales –, une description bibliographique peut se justifier, dans un souci d’exhaustivité des détails, notamment pour des exemplaires uniques.

Pour les archives d’entreprise, l’approche documentaire paraît plus souple et plus adapté. En effet, la classification en dix grandes classes générales dont « littérature » ou « ouvrages usuels » ne convient pas à l’indexation des documents administratifs ou légaux.

Quelle que soit la solution retenue, les deux normalisations sont aussi difficiles à implémenter l’une que l’autre. Les entreprises vont retenir, du moins dans un avenir proche, la seule zone 7 des métadonnées, où on pourra rentrer des mots libres.

5. L’archivage en entreprise : l’application des différentes normes

Les entreprises ont jusqu’à maintenant négligé l’archivage de leurs documents administratifs ou légaux. C’est une des faiblesses de l’entreprise française, qui n’a pas su capitaliser de manière méthodique son savoir-faire. Or la discontinuité dans la chaîne informationnelle est très coûteuse.

Ce besoin d’archivage est apparu tout à coup avec une réflexion sur la légalité des documents numérisés. L’archivage en entreprise impose de plus en plus de contraintes de traçabilité des documents, compte tenu des contraintes légales. La loi du 29 février 1999 reconnaît le caractère probant des documents numériques et accepte le document numérique au même titre que l’écrit sur support papier « sous réserve que puisse être identifiée la personne dont il émane », et que ce document

« soit établi et conservé dans des conditions de nature à en garantir l’intégrité ».

L’AFNOR a donc rassemblé un certain nombre de recommandations visant à assurer la production d’archives électroniques fiables et intègres. Cette norme est la

(17)

Z42-013. Elle s’intéresse aux problèmes de collecte et de conversion des documents, en abordant l’indexation, la consultation et l’authenticité.

Elle s’applique à définir un cahier des charges à respecter par les logiciels d’archivage (traitement de l’horodatage, conservation des liens interdocuments).

Elle définit aussi un canevas de procédures définissant : – le choix des formats à utiliser ;

– la mise en œuvre des horodatages ;

– le contrôle d’intégrité des contenus (y compris un système de reconnaissance des signatures) ;

– les processus de certification des chaînes d’archivage.

Cette norme détermine une démarche « qualité » de l’archivage. Elle recommande l’utilisation de formats génériques tels que SGML, XML et PDF.

Il semble bien que les normes à implémenter, telles que XML ou XTM, MPEG-4 et MPEG-7, sur disques optiques UDO sont des normes lourdes à mettre en œuvre, bien que et parce qu’elles apportent les solutions les plus fiables.

En effet, elles requièrent en amont des systèmes très sophistiqués de bases de données en environnement UNIX. Et un remplacement des serveurs, de l’architecture, des réseaux, sans compter les équipes du service informatique, car on passe d’un profil de compétences à un autre totalement étranger.

Les bases de données objet (SGBD-O) sont privilégiées par rapport aux SGBD- R, systèmes de bases relationnelles. En effet, l’arborescence père-fils est optimisée dans le cadre des SGBD-O qui permet de naviguer de nœud en nœud de manière linéaire rapide, au lieu d’utiliser des recoupements de tables (très nombreuses). Les bases de données objet sont plus adaptées aux documents complexes, comportant de nombreux niveaux hiérarchiques dans l’arbre. Or les SGBD-O sortent à peine des laboratoires et sont encore loin d’être utilisés de manière quotidienne dans l’entreprise. XML et les SGBD-O fonctionnent avec les navigateurs Netscape 6, Opera ou (moins bien) sur IE5.

La seule facilité réside dans l’environnement de consultation : ces normes sont destinées à un environnement web, totalement indépendant de la machine de lecture, en accès flottant et non dédié à un poste attribué. Et, ainsi qu’on l’a vu, ces normes prévoient des passerelles avec différents outils, donc des utilisations finales multiples.

Bien entendu, ces technologies sont très peu répandues dans le monde des grandes et (encore moins) des moyennes entreprises du secteur tertiaire. Le monde UNIX est un monde de recherche avant tout et il est très peu implanté dans le monde de la bureautique. Le secteur tertiaire utilise les suites bureautiques, la plupart du temps propriétaires, dont les deux principaux antagonistes sont IBM (avec Lotus

(18)

Notes et Domino qui couvrent la presque totalité du parc) et Microsoft, ou des ERP (Enterprise Resource Planning).

Or, IBM, Lotus et Microsoft développent SOAP – Copyright© 2000 DevelopMentor, International Business Machines Corporation, Lotus Development Corporation, Microsoft, UserLand Software. Ils forment un groupe de travail du W3C. Quant aux ERP, XML répond aux problèmes de leur intégration dans l’ensemble du système d’information des entreprises.

SOAP (Simple Object Access Protocol) est un protocole très léger d’échange d’information en environnement distribué et décentralisé, basé sur XML. Il comporte trois parties :

– une enveloppe définissant un cadre pour décrire le contenu d’un message, les instructions pour l’exploiter ;

– un ensemble de règles d’encodage des types de données définies par une application donnée ;

– des appels à procédures distantes. SOAP peut se combiner avec d’autres protocoles dont le premier est le protocole HTTP.

SOAP prévoit la conversion des applications CORBA (Common Object Request Broker Architecture) qui définit une plate-forme informatique de support de l’exécution distribuée d’applications logicielles. Il assure l’interopérabilité entre plates-formes, mais il est très lourd pour l’internet.

Microsoft prévoit aussi l’intégration de XML dans Word 2000.

En dehors de la mise en place lourde de XML en standard, même si elle est facilitée par le téléchargement de DTD publiques, donc mises à disposition de l’ensemble du monde industriel et tertiaire, administratif, étatique ou privé, les nouvelles normes entraînent :

– des coûts élevés, dus aux migrations de documents jugés importants à archiver.

Les migrations ne sont possibles que pour les documents récents émanant de logiciels de traitement de texte propriétaires, ou des documents ayant antérieurement été produits et/ou stockés en format non-propriétaires ;

– la mise en place d’une discipline documentaire pour les documents administratifs (reprise d’un existant jamais prévu pour l’intégration de métadonnées). Pour les grosses ou moyennes entreprises, les choix lourds de type XTM et Dublin Core semblent utopiques dans un premier temps. Les métadonnées fonctionneront vraisemblablement avec une zone de mots-clés libres ;

– XML et d’autres normes émergentes (XTM, MPEG-4 et MPEG-7) imposent un environnement très technique avec des compétences tout à fait différentes de l’environnement bureautique habituel : SGBD-O, UNIX, Java (notamment pour le développement des programmes servant au commerce électronique), des servlets en XSQL, des éditeurs fonctionnant sur Mozilla (Netscape 6) – Xeena, XML Writer, XML Spy et bien d’autres.

(19)

L’intégration va donc se faire chez les constructeurs qui, on le voit, sont totalement impliqués dans cette course passionnée vers une normalisation qui représente un enjeu économique énorme. Elle sera intégrée « en standard » dans les versions des différents logiciels quels qu’ils soient. Et cette normalisation autour de XML pénétrera dans l’entreprise par le biais du e-business, car elle est la seule réponse à une vraie sécurisation des échanges. Le leitmotiv de Documation 2001 a été XML. Tous les logiciels représentés ont déjà intégré XML ou sont en train de l’intégrer. Certains sont engagés dans cette réflexion depuis longtemps, tels que Berger-Levrault, Arbortext, Plexus, Verity ; les gros cabinets de conseil en documentation et archivage, tels Van Dijk ou Serda le citent en premier lieu.

Cette profusion de travaux laisse émerger en fait la première étape cohérente dans la chaîne de valeurs électroniques, qui voit tout à coup converger tous les standards avec une similitude d’éléments de description. XML constitue une plate- forme d’échange. Les entreprises qui vont refuser ces normes vont s’exclure de la sphère internet, donc du monde des échanges. On peut dire qu’à dater de SGML- HTML-XML, et des normes qui gravitent autour pour les documents et formats non textuels, la chaîne documentaire aura une continuité. Certes, les normes sont en perpétuelle évolution et vont donc encore changer ; mais dorénavant, les documents numérisés auront un cadre d’évolution clair et aisé. Cela permettra des mutations

« sans douleur », contrairement aux migrations actuelles qui nécessitent un cahier des charges impressionnant… lorsque la migration est possible !

6. Bibliographie

[LEC 99] LECOMTE G., BARDA J., BELLEFONDS P. DE, Les Normes standards du multimédia, XML, MPEG-4 et 7, MP3, HTLM, Web3D et les autres, Dunod, 1999.

[HAR 00] HAROLD E. R., XML, le guide de l’utilisateur, OEM, 2000.

[JAC 01] JACQUOT T., « Le stockage numérique va s’imposer dans l’archivage légal de données », 01 Informatique, n° 1622, 23 février 2001, p. 30-31.

Normes ouvertes en technologies de l’information, Liste des normes (dernière mise à jour : 14 mars 2001) http://www.autoroute.gouv.qc.ca/publica/normes/liste.htm

Deuxième étape de l’action gouvernementale pour la société de l’information lancée en août 1999 http://www.internet.gouv.fr/francais/textesref/pagsi2/lsi.htm

XTM Version 1.0.1, March 15, 2001 http://www.topicmaps.net/

MPEG-7 http://www.darmstadt.gmd.de/mobile/MPEG-7/

RDF http://www.w3.org/RDF/

SOAP http://www.w3.org/TR/SOAP/

DOCUMATION 2001, 7ème éd., 6 et 7 mars 2001, Actes de conférence, « XML et la chaîne de valeur électronique », Internet professionnel et Groupe Tests, 28 février 2001.