3.2 Le texte et sa représentation dans le livre
3.3.3 Une observation des publications numériques
Nous nous trouvons en quelque sorte à la croisée de chemins, dont certains semblent
déjà bien se dessiner, pour le domaine de l’édition scientifique. Dans les éditions de
sciences humaines, les orientations qui se présentent sont soumises à de nombreuses
interrogations, les écrits dans ce domaine étant généralement considérés comme moins
structurés que les textes dans les disciplines scientifiques « dures ». Nous comprenons ainsi
que les écrits des domaines des sciences dures ne posent pas de problèmes aux auteurs car la
forme qu’ils prennent relèvent d’un genre établi par la tradition, qui met tout le monde
d’accord et sur lequel ils ne s’interrogent pas, tant il relève de l’évidence. L’agencement
intérieur d’un article de mathématique, note Nordon, est standardisé avec une introduction
qui donne une justification technique au contenu, puis viennent une alternance dethéorèmes
(oulemmes, ou propositions, ou corollaires) et dedémonstrations. Le mode d’exposition est
qualifié de déductiviste580. Toute démonstration est implicitement présentée comme
démarche rigoureuse. Mais cette conception devra être soumise à l’observation des faits, et
elle pourra peut-être donner lieu, sinon à des révisions, du moins à des nuances.
Le livre est notre support d’enregistrement de la connaissance et de sa transmission,
mais il est évident que ce n’est plus, actuellement, le seul moyen qui est employé. Les
réseaux, le Web, jouent un rôle déterminant dans la circulation du savoir scientifique. Pour
les chercheurs, « il semble bien que la génération « clic » soit installée », ils utilisent de plus
en plus le Web pour rechercher des articles, des actes de congrès, échanger des articles
quelle que soit la discipline : ce phénomène est constaté par G. Chartron lorsqu’elle analyse
les pratiques informationnelles dans le milieu scientifique. Par contre, elle fait le constat
qu’ils ne semblent pas encore produire beaucoup d’écrits originellement pour le réseau, et
que les canaux traditionnels (revue, ouvrage, colloque) prévalent toujours car ils restent liés
à l’évaluation scientifique, pivot central du système de publication scientifique581.
On a maintenant des « médias informatisés », des « écrits d’écran », des « écrits de
réseau » comme le soulignent Souchier, Jeanneret & Le Marec. La diffusion du texte
imprimé, lorsqu’il circule sous forme numérisée, peut ainsi faire appel à des réseaux
électroniques. Dès lors, « les pratiques qui les mobilisent sont liées à des espaces et à des
statuts sociaux spécifiques ». Ces pratiques sont reliées à « des styles, des enjeux individuels
et des engagements sociaux et professionnels qui les relient à des systèmes normés », nous
rappellent Jeanneret, Le Marec & Souchier582. Le contexte, qu’il soit privé, public,
professionnel ou institutionnel, dans lequel elles sont mises en œuvre, peut changer la
signification qu’elles ont. Si de nombreuses études ont déjà été consacrées à la « mutation
des questionnements face à l’objet livre, à la lecture et à l’écriture considérés comme
pratiques culturelles »583, notre travail va chercher à cerner les phénomènes transitoires qui
marquent les différents types de passage d’une écriture destinée au livre de celle diffusée sur
le web.
Il faut ainsi noter le rôle que jouent les institutions dans l’emploi de documents
numériques, tels les maisons d’éditions, les grands organismes scientifiques, les presses
d’établissements, les bibliothèques universitaires. Baudry note ce fait : l'importance des
possibilités du texte sur support électronique est devenue évidente. Depuis quelques années,
580
Nordon 1981 : 70
581
Chartron 2002 : 12
582Jeanneret, Souchier & Le Marec 2003 : 30-31
583de nombreux projets de recherche sont consacrés à l'analyse de textes par ordinateur dans
des domaines comme la littérature, la philologie, la linguistique et les sciences de
l'information. Dans ce courant, plusieurs institutions se sont constituées des banques de
textes numérisés ; ces textes numérisés deviennent de plus en plus des ressources courantes.
Un sondage mené en 1989 et repris en 1991 démontre que, pour l'intervalle compris entre
ces deux années, le nombre de bibliothèques faisant l'acquisition de textes électroniques a
plus que doublé584.
Les types de documents numériques que l’on trouve en faisant des recherches sur
Internet pour trouver des discours scientifiques font apparaître une hétérogénéité qui signale
l’existence d’étapes dans l’élaboration du document numérique. On peut remarquer que les
documents échangés dans ce cadre sont soit très ressemblants aux formats traditionnels de
diffusion papier et en sont de simples transpositions, soit ils manifestent à des degrés divers
une organisation spécifique du support numérisé avec des traitements simples ou
complexes. Des institutions scientifiques, éditoriales, savantes, tels le CNRS ou la BNF par
exemple, se sont organisées pour maîtriser la diffusion de textes scientifiques par le web. On
assiste alors à la création de portails qui centralisent, canalisent et conditionnent le transit de
documents numériques scientifiques par Internet. Les portails deviennent ainsi les modes de
contrôle et les nouvelles institutions éditoriales mais pour le numérique. Par les technologies
qui les sous-tendent, le contrôle de leur contenu, de leur organisation et de leur
fonctionnement, les institutions mettent en place les modalités de validation et de diffusion
du discours scientifique mais en les adaptant aux caractéristiques spécifiques du document
numérique que nous avons vues plus haut.
Les portails eux-mêmes, qui servent de support à la diffusion de l’offre scientifique,
doivent faire appel à des technologies et à des ingénieries qui sont fonction du but
recherché, de l’environnement et du public ciblé. On aura ainsi des Learning Management
Systems (LMS) pour l’enseignement à distance, des Content Management Systems (CMS)
pour la diffusion de contenus, des portails pour un bouquet de revues contenant eux-mêmes
des portails des revues elles-mêmes, des plates-formes qui seront des organisations
complexes qui vont permettre de supporter les fonctions nécessaires à la mise en ligne, etc.
Les institutions peuvent se regrouper en consortia (comme Couperin par exemple, qui
regroupe des établissements du monde de la documentation) pour augmenter leur efficacité
face à la montée croissante, et des prix des documents qui sont maîtrisés par les éditeurs
traditionnels, et de la complexité des problématiques et des ingénieries qui doivent être
traitées avec le plus grand soin pour atteindre des résultats probants et efficaces.
Les portails pourront être élaborés et contrôlés par les maisons d’édition de référence
qui ont compris rapidement l’intérêt de maîtriser la diffusion numérique des articles de
science qui fondent le système de la communication scientifique comme « droit de propriété
intellectuelle des idées » comme le rappelle Guédon585. Les portails comme Jstor, Ingenta,
HighWire, par exemple sont les moyens de diffusion de la prestigieuse maison d’édition. Ce
sont des portails que l’on nomme « propriétaires » et l’accès aux articles sera réservé à des
membres qui auront réglé un abonnement individuel ou collectif dans le cadre d’une
bibliothèque ou d’un centre de documentation, sous la forme d’abonnement dont le prix
devient de plus en plus exorbitant et dont les enjeux sont commerciaux.
584
BaudryLa Text Encoding Initiative : les moyens pour ajouter de la valeur à un texte numérisé
http://www.ebsi.umontreal.ca/cursus/vol1no2/beaudry.html
585
Il y a le cas des revues existant déjà sur papier et dont on développe une édition
électronique sur Internet, note G. Chartron586. C’est le cas de la majorité des grands éditeurs
scientifiques, comme par exemple : Wiley, Elzevier, Springer, etc. Les documents qui sont
ainsi diffusés reprennent un format qui correspond à la tradition des articles imprimés par
une diffusion en format PDF, le plus souvent (qui permet de maîtriser sa lisibilité, la
protection du droit d’auteur, son accessibilité). Cependant il y a de la valeur ajoutée grâce à
de nouveaux services intégrés. On observe des services liés au « contenu » comme : la
visualisation des tables de sommaire, des archives ; la recherche documentaire sur les titres,
résumés, textes ; l’information sur les prochains numéros (articles acceptés ; des liens avec
les bases bibliographiques, avec les autres articles ; des liens avec les données factuelles587 ;
nécessité d'avoir déposé sa séquence au préalable dans les bases de séquences588 ; des
« contenus » complémentaires par rapport à la version papier589 ; des services d’actualités
scientifiques ; des services personnalisés (profils documentaires), services interactifs
(forums associés), services de « communauté ».
Le Web permet aux textes scientifiques de circuler rapidement via des portails
institutionnels comme HAL590 et le CCSD. Cependant, nous constatons que la qualité de
structuration du document n’est pas traitée : seul le contenu scientifique importe. « HAL est
un outil de communication scientifique directe entre chercheurs. Un texte déposé sur HAL
doit décrire un travail achevé de recherche, conforme aux usages scientifiques dans la
discipline ; le contenu doit être comparable aux manuscrits que les chercheurs soumettent
pour publication aux comités de lecture de revues scientifiques, d'actes de colloque, etc. Les
documents déposés sur HAL ne sont soumis à aucune évaluation scientifique détaillée. Seul
un examen rapide permet de s'assurer que le document proposé entre bien dans la catégorie
définie ci-dessus – le CCSD restant libre de mettre en ligne ou pas le document sans
justification591. » Le contenu est montré comme le plus important et il est même spécifié
qu’il doit être comparable aux manuscrits que les chercheurs soumettent aux comités de
lecture de revues scientifiques etc. C’est ici encore la tradition qui domine et continue à
s’imposer. Ce qui est à relever dans ce phénomène, c’est le rôle de l’institution dans l’usage
qui sera fait des technologies de diffusion du discours scientifiques. Le phénomène n’est pas
spécifique à la France, puisque l’on observe aux Etats-Unis un phénomène semblable au
MIT, dans le domaine des ressources pédagogiques. On a pu en effet constater que le MIT
avait en 2006-2007 décidé de mettre tous ses cours disponibles en ligne, gratuitement.
Cependant, le problème de la structuration du document n’apparaît nulle part dans la
démarche du MIT, pas plus que dans les institutions scientifiques françaises. La primauté va
à la diffusion la plus rapide du plus grand nombre de travaux scientifiques possibles. Sur les
portails HAL (sciences dures ou sciences humaines), et TEL592, les formats exigés pour le
dépôt de documents sont des fichiers postscript, rtf, word ou PDF. Ce sont vraiment les
formats de base. Sans doute cela vise-t-il l’efficacité car ce sont les formats les plus connus
et les plus répandus chez les chercheurs.
586
Chartron [2003] Revues scientifiques sur Internet voir
http://www.ext.upmc.fr/urfist/Versailles-revues.htm
587
"accession number" obligatoire pour les séquences de données en biologie
588voir par exemple la revuegenetics :http://www.genetics.org/ (instructions aux auteurs)
589données supplémentaires en biologie notamment
590voir le portail de diffusion de l’information scientifique en sciences humaines
http://halshs.archives-ouvertes.fr/
591
http://www.ccsd.cnrs.fr/?lang=fr
592
portail dédié à la diffusion des thèses en ligne sous une forme numérique ; on pourra voir un écran
sur TEL en ANNEXE THESES : résultat d’une requête d’interrogation pour une thèse de doctorat sur TEL
Un des pionniers dans la mise en ligne de documents patrimoniaux numérisés, c’est
la Bibliothèque nationale de France avec le projet Gallica. L’appellation « Gallica » depuis
1997 désigne l’offre numérique de la BNF destinée au public distant
593. Au 30 avril 2006,
Gallica offrait sur la Toile 90 000 volumes imprimés en mode image, 1 200 en mode texte,
500 documents sonores, 80 000 images fixes. Le taux mensuel de consultation des
documents a passé la barre du million en mars 2007. La BNF considère que c’est un succès,
dont il n’y a l’équivalent, pour le moment, dans aucune grande bibliothèque étrangère. Nous
voyons dans cette présentation de l’offre de Gallica que la majorité des documents est en
mode « image ». Il s’agit là de documents faiblement structurés et dont la consultation est
lourde et difficile. Les temps de chargement sont grands, la qualité des photos laisse parfois
à désirer et la recherche sur des parties de documents est limitée.
Gallica s’efforce de répondre aux demandes des internautes, formulés selon
l’enquête « BibUsages », qui a dégagé des constantes : désir d’accéder à des documents
difficiles à se procurer ou épuisés ; demande de mise à disposition de textes intégraux ou
des corpus importants composés d’images. Les fidèles de Gallica sont majoritairement des
chercheurs, professionnels ou amateurs. Les enseignants qui utilisent Gallica à des fins
pédagogiques peuvent y trouver du texte intégral comme des corpus étoffés d’images, pour
un patrimoine aisément disponible. Le succès de Gallica vient de ce que la numérisation de
documents difficilement accessibles a été organisée dès les années 1970, les mettant à
portée d’un public ne pouvant se déplacer : cela permet au moins de consulter des corpus de
textes et d’images issus du patrimoine qui sans cela ne seraient pas disponibles. Aussi dans
l’état actuel des choses où les processus de numérisation sont encore loin d’être
rationnellement pensés, cette offre rencontre les faveurs d’un public choisi. De plus, on peut
passer l’OCR sur ces documents Bnf : beaucoup de chercheurs veulent disposer aussi de la
mise en page originale et d’autres fonctions qui sont nécessaires pour le travail sur des
corpus.
Actuellement, alors que les problématiques liées au numérique ont un peu mûri et
que certaines difficultés ont pu être analysées et traitées, nous voyons avec les idées
apportées à la future « bibliothèque numérique européenne » Européana594, une évolution se
dessiner où le contenu et l’accessibilité aux informations pertinentes à l’intérieur du
document commencent à être pensés. Nous constatons ainsi une nette évolution entre
Gallica (dont nous parlions au début de ce travail) avec la mise en ligne de textes
photographiés, et Europeana où l’on peut pratiquer divers types de recherche sur le contenu
des documents. Divers services aux lecteurs sont aussi apportés au travers de fonctionnalités
étendues de recherche, et la possibilité de se créer sa propre bibliothèque virtuelle, alimentée
en textes que l’on aura archivés après les avoir enrichis en annotations s’ils le désirent.
D’autre part, des portails sont issus de la « communauté du libre », que l’on nomme
OpenSource qui a réagi face à cette situation qui créait des blocages et une difficulté de
circulation de l’information scientifique. Elle émane alors de l’Open Archive Initiative
(OAI). Le phénomène OAI peut être considéré comme trouvant son origine historique dans
la création, le 16 août 1991, par le physicienPaul Ginsparg d’une base de données nommée
hep-th (pour High Energy Physics – Theory) destinée à ce que les membres de la petite
communauté de chercheurs spécialisés dans la physique des Hautes Energies puissent
échanger rapidement leur production scientifique. En décembre 2001, à Budapest, les
chercheurs les plus présents dans le développement des archives ouvertes décident de lancer
un appel mondial destiné à encourager leurs confrères à participer au mouvement de mise à
593