La normalisation et la standardisation au cœur de la technologie du document.

UNICODE ET LA TEI, DEUX STANDARDS EMBLÉMATIQUES DES EXIGENCES DE NORMALISATION DANS L’ART D’ÉCRIRE EN LIGNE.

1.5. La normalisation et la standardisation au cœur de la technologie du document.

L’ingénierie du document est par définition une industrie du code. Il est logique de constater que les industriels du domaine, comme d’ailleurs les utilisateurs professionnels, considèrent ces normes et standards et les travaux d’optimisation symbolique et de partage des codes en consensus dont ils sont issus, comme la ressource primordiale de leur savoir-faire professionnel.

Aujourd’hui, les usagers, mais aussi les professionnels de l’information sont confrontés à un nombre de plus en plus grand de codes, normes, standards et formats qui se suradditionnent et s’articulent entre eux et sont devenus indispensables aux nouvelles exigences de fonctionnement des systèmes d’information et de communication : mise en réseaux, convergence des médias, multilinguisme.

Cette évolution a pour avantage de permettre l’inter compatibilité des langages et systèmes qui se généralise, mais cela nous confronte par contre à la nécessité absolue d’adopter les normes et standards en vigueur alors même qu’il est extrêmement difficile de s’orienter dans le foisonnement de leur émergence.

L’évolution de l’ASCII (American Standard Code for Information Interchange ) vers une norme de représentation des caractères sur 4 octets compatible avec toutes les écritures du monde (ISO/IEC10646 ), les normes de balisage des textes et documents SGML, XML, les normes d’échanges industriels, institutionnels et commerciaux (EDI), les normes d’échanges bibliothèconomiques, les normes et standards de réseaux et de protocoles de télécommunication (Ethernet, ATM , TCP-IP ...) les normes définissant les supports et formats logiques et matériels de l’information (disquettes, cédérom, Zip...), les standards de traitement de texte ou de codage industriel des textes... Il ne s’agit là que d’un faible échantillon du

153

foisonnement des normes et standards qui caractérisent aujourd’hui l’information et la communication informatique.

S’ajoutent bien sûr à cela les anciennes normes et standards du texte imprimé selon différents corps et dans des styles d’écritures (italiques, souligné, caractères gras) appartenant à des catalogues spécifiques de types de lettres, les polices typographiques normalisées « dans leur hauteur en papier » par le Régent en 1723154_{, sans parler de la standardisation du livre selon sa}

taille (in-folio, in quarto, in octavo, in 12, in 32...), correspondant à un mode de pliage de la feuille de papier elle-même définie par les producteurs de papier et les presses à imprimer. Ce raccourci rapide entre des normes et standards appartenant à des techniques nées au siècle dernier ou à la Renaissance, et celles des technologies les plus avancées nous pousse à nous interroger sur la fracture culturelle qui tend à s’aggraver entre technique et culture. L’honnête homme s’est trop souvent forgé des idées toutes faites et les normes et les standards sont perçus comme un ensemble de contraintes techniques auxquelles il faut bien se soumettre pour faire fonctionner les machines à communiquer.

Bien au contraire, les normes doivent pouvoir être comprises et utilisées, comme ce qui “percole” certainement le plus au cœur de la communication. Bien sûr, l’arbitraire du signe dans les langues naturelles n’est pas tout à fait de même nature que l’arbitraire issu par consensus d’un collectif de chercheurs industriels et universitaires rassemblés dans une commission de normalisation d’un format de langage multimédia. Cependant dans un cas comme dans l’autre, cet arbitraire du signe ouvre un potentiel créatif qui produit du sens.

À partir de SGML, norme ISO déjà ancienne mais qui n’a été utilisée que par une élite techno-documentaire à cause de sa difficulté d’appropriation, sont nés des formats beaucoup plus adaptés. Ce fut le cas de HTML qui fut relativement facile à assimiler par un large public, précisément parce qu’il ne retient de la norme SGML que des fonctionnalités touchant essentiellement à la mise en page (sur les réseaux) des documents auxquels s’ajoute la spécification commode de la logique des liens hypertextes. Ainsi conçu, le Web qui repose sur ce sous-ensemble de SGML eut le succès qu’on lui connaît ; mais ce premier « Web HTML », cette information qui n’est véritablement structurée que par ses aspects formels, touche

154_{« Veut Sa Majesté que six mois après la publication du présent règlement, tous les Caractères, Vignettes,}

Réglets et autres ornements de fontes servant à l’imprimerie, depuis le Gros-Canon jusqu’à la Nonpareille, soient fondus d’une même hauteur en papier fixée à dix lignes géométriques ». En effet la hauteur du « type » (le paralépipède de plomb qui constitue le caractère) pouvait varier d’une fonderie à l’autre. Un caractère plus grand risquant de crever le papier, un plus petit risquant de ne pas être imprimé.Extrait de A. Frei, Nouveau manuel complet de typographie, Manuel Roret, Paris 1857 ; Cité par Jacques André, De Chappe à Unicode, Caractères, textes, codage et normalisation, in Document numérique, sous la direction de Jacques André et Henri Hudrisier N°3-4/2002 Vol 6 Unicode, écriture pour les langues du monde, Hermès-Lavoisier, Paris.

maintenant ses limites. Pour que les utilisateurs du Web puissent traiter sémantiquement des données, ils doivent utiliser XML, mais surtout s’inscrire dans une nouvelle démarche normative générale de toute la réalité sociale potentiellement partageable en réseaux : le Web sémantique.

Très schématiquement, il s’agit de systématiser le référençage cohérent de toutes les ressources associées par des liens, c'est-à-dire sortir de la logique actuelle du lien hypertexte non défini pour un nouveau Web dans lequel chaque lien est qualifié, mais aussi lié à des vocabulaires, des ontologies, des typologies de procédures et des catalogues de tous ordres qui donnent du sens et de l’intelligence. Le Web sémantique permet ainsi que se définissent le contexte et le cercle des acteurs d’information concernés par un lien ce qui donne sens au « com-prendre » de deux pages Web que l’on choisit d’associer. C’est en cela que le Web sémantique procède d’une démarche « pré-humaniste » qui doit être absolument complétée par une démarche « néo-humaniste ».

Il ajoute de l’intelligence155_{au simple jeu technique de la mise en relation non qualifiée qui}

nous a tant fascinés dans l’hypertexte du Web HTML.

Le Web sémantique rend aussi potentiellement possible la constitution structurée, référencée, à tout moment perfectible, mais normalisée de tous les univers de données (entre autres, l’art et la littérature).

C’est à ce niveau que doivent s’associer les démarches culturelles et l’ingénierie du Web sémantique. Le Web HTML de 1ère_{génération ne pouvait en aucun cas être perçu comme}

donnant une plus grande intelligence, une plus grande compréhension de la culture. Il élargissait à l’échelle mondiale nos potentiels d’accès heuristiques (ce qui est beaucoup ), mais il rendait opaque par ailleurs ce qui n’était qu’une vue cavalière des univers consultables.

2.La normalisation universelle des écritures du monde.

« Un système d’écriture composée de vingt à quarante lettres

peut à la rigueur être remplacé par un autre. Il en serait de même pour la langue si elle renfermait un nombre limité d’éléments ; mais les signes linguistiques sont innombrables. »

Saussure156

155_{Étymologiquement c’est à la fois « lier ensemble les idées» et « lire ensemble » (puisque lire, c’est savoir}

lier les lettres entre elles pour donner sens au texte).

156

L'échange planétaire de texte numérique est devenu une réalité incontournable. Cependant l'informatique qui avait démarré il y a plus d'un demi-siècle en territoire anglophone ne s'était préoccupé au début que de codifier l'alphabet latin non accentué (norme ACII à 7 bits). L'industrie informatique s'était ensuite adaptée progressivement pour traiter au cas par cas les principales écritures alphabétiques du monde: écritures latine, arabe, hébraïque, grecque, thaï, etc. (normes à 8 bits ISO-8859 dont la plus connue est le « latin1 »). Vinrent ensuite les normes à 16 bits pour traiter les écritures idéographiques. Cette situation complexe devenait très difficile à gérer à l'ère d'Internet : d'une part cette multiplicité de normes de codification des caractères dédiés chacune à une écriture interdisait un co-fonctionnement de plusieurs écritures entre elles (sauf le cas particulier du latin non accentué -ASCII- présent dans toutes les normes de la famille ISO-8859) ; d'autre part les risques d'erreur dans l'interprétation des fichiers de texte transmis à distance depuis un autre territoire d'écriture que le sien devenaient critiques, sachant que la déclaration informatique des langues n'est pas faite systématiquement mais est trop souvent implicite. Par ailleurs, les normes chinoises ou japonaises qui avaient été nécessairement conçues sur 16 bits pouvaient en sus de ces écritures contenir toutes les écritures alphabétiques du monde. Devant une telle situation un chantier mondial de codification des caractères sur 32 bits (4 octets) a été entrepris. Il s'agit du standard Unicode et de la norme ISO/CEI 10 646. Ces travaux sont maintenant arrivés à maturité et une centaine de milliers de caractères, tant des écritures modernes du monde que des écritures anciennes, ou même d’autres codes scripturaux (musique, mathématiques) ont été définis et codifiés. Mais si cette technologie est maintenant complètement au point, il reste à développer industriellement le nouvel environnement informatique qui à partir de ce noyau essentiel fondera le nouveau système technique scriptural indispensable au XXIe siècle.

S’agissant du futur système omni-scriptural on devrait dans les années qui viennent voir se développer un choix conséquent de polices typographiques universelles, des traitements texte véritablement omni-lingues, des outils de mise en parallèle ou d’accès hypertextuels à des ressources multilingues, mais aussi des systèmes de bases de données adaptées à ces nouveaux enjeux ainsi que des moteurs de rendus d'écriture, des interfaces de saisie (claviers virtuels), etc. Au-delà de ce développement industriel, c'est aussi toute une nouvelle techno culture qui devrait se faire jour pour que les utilisateurs informaticiens (localisation des logiciels par exemple), mais aussi les utilisateurs finaux du monde commercial, institutionnel ou culturel puissent réellement tirer parti de cette nouvelle offre sachant que nous ne deviendrons pas pour autant tous polyglottes.

Si on évalue entre 5 et 10 000 le nombre des langues dans le monde, on s'accorde par contre sur quelques 25 familles principales d’écritures. C'est bien moindre et c’est sans doute un préalable au développement d'un environnement plurilingue planétaire.

Dans le document ÉCRITURES EN LIGNE: PRATIQUES ET COMMUNAUTÉS. Sous la dir de Brigitte Chapelain. (485 p.) (Page 82-86)