• Aucun résultat trouvé

3.2 Le texte et sa représentation dans le livre

3.3.3 Une observation des publications numériques

Nous nous trouvons en quelque sorte à la croisée de chemins, dont certains semblent

déjà bien se dessiner, pour le domaine de l’édition scientifique. Dans les éditions de

sciences humaines, les orientations qui se présentent sont soumises à de nombreuses

interrogations, les écrits dans ce domaine étant généralement considérés comme moins

structurés que les textes dans les disciplines scientifiques « dures ». Nous comprenons ainsi

que les écrits des domaines des sciences dures ne posent pas de problèmes aux auteurs car la

forme qu’ils prennent relèvent d’un genre établi par la tradition, qui met tout le monde

d’accord et sur lequel ils ne s’interrogent pas, tant il relève de l’évidence. L’agencement

intérieur d’un article de mathématique, note Nordon, est standardisé avec une introduction

qui donne une justification technique au contenu, puis viennent une alternance dethéorèmes

(oulemmes, ou propositions, ou corollaires) et dedémonstrations. Le mode d’exposition est

qualifié de déductiviste580. Toute démonstration est implicitement présentée comme

démarche rigoureuse. Mais cette conception devra être soumise à l’observation des faits, et

elle pourra peut-être donner lieu, sinon à des révisions, du moins à des nuances.

Le livre est notre support d’enregistrement de la connaissance et de sa transmission,

mais il est évident que ce n’est plus, actuellement, le seul moyen qui est employé. Les

réseaux, le Web, jouent un rôle déterminant dans la circulation du savoir scientifique. Pour

les chercheurs, « il semble bien que la génération « clic » soit installée », ils utilisent de plus

en plus le Web pour rechercher des articles, des actes de congrès, échanger des articles

quelle que soit la discipline : ce phénomène est constaté par G. Chartron lorsqu’elle analyse

les pratiques informationnelles dans le milieu scientifique. Par contre, elle fait le constat

qu’ils ne semblent pas encore produire beaucoup d’écrits originellement pour le réseau, et

que les canaux traditionnels (revue, ouvrage, colloque) prévalent toujours car ils restent liés

à l’évaluation scientifique, pivot central du système de publication scientifique581.

On a maintenant des « médias informatisés », des « écrits d’écran », des « écrits de

réseau » comme le soulignent Souchier, Jeanneret & Le Marec. La diffusion du texte

imprimé, lorsqu’il circule sous forme numérisée, peut ainsi faire appel à des réseaux

électroniques. Dès lors, « les pratiques qui les mobilisent sont liées à des espaces et à des

statuts sociaux spécifiques ». Ces pratiques sont reliées à « des styles, des enjeux individuels

et des engagements sociaux et professionnels qui les relient à des systèmes normés », nous

rappellent Jeanneret, Le Marec & Souchier582. Le contexte, qu’il soit privé, public,

professionnel ou institutionnel, dans lequel elles sont mises en œuvre, peut changer la

signification qu’elles ont. Si de nombreuses études ont déjà été consacrées à la « mutation

des questionnements face à l’objet livre, à la lecture et à l’écriture considérés comme

pratiques culturelles »583, notre travail va chercher à cerner les phénomènes transitoires qui

marquent les différents types de passage d’une écriture destinée au livre de celle diffusée sur

le web.

Il faut ainsi noter le rôle que jouent les institutions dans l’emploi de documents

numériques, tels les maisons d’éditions, les grands organismes scientifiques, les presses

d’établissements, les bibliothèques universitaires. Baudry note ce fait : l'importance des

possibilités du texte sur support électronique est devenue évidente. Depuis quelques années,

580

Nordon 1981 : 70

581

Chartron 2002 : 12

582

Jeanneret, Souchier & Le Marec 2003 : 30-31

583

de nombreux projets de recherche sont consacrés à l'analyse de textes par ordinateur dans

des domaines comme la littérature, la philologie, la linguistique et les sciences de

l'information. Dans ce courant, plusieurs institutions se sont constituées des banques de

textes numérisés ; ces textes numérisés deviennent de plus en plus des ressources courantes.

Un sondage mené en 1989 et repris en 1991 démontre que, pour l'intervalle compris entre

ces deux années, le nombre de bibliothèques faisant l'acquisition de textes électroniques a

plus que doublé584.

Les types de documents numériques que l’on trouve en faisant des recherches sur

Internet pour trouver des discours scientifiques font apparaître une hétérogénéité qui signale

l’existence d’étapes dans l’élaboration du document numérique. On peut remarquer que les

documents échangés dans ce cadre sont soit très ressemblants aux formats traditionnels de

diffusion papier et en sont de simples transpositions, soit ils manifestent à des degrés divers

une organisation spécifique du support numérisé avec des traitements simples ou

complexes. Des institutions scientifiques, éditoriales, savantes, tels le CNRS ou la BNF par

exemple, se sont organisées pour maîtriser la diffusion de textes scientifiques par le web. On

assiste alors à la création de portails qui centralisent, canalisent et conditionnent le transit de

documents numériques scientifiques par Internet. Les portails deviennent ainsi les modes de

contrôle et les nouvelles institutions éditoriales mais pour le numérique. Par les technologies

qui les sous-tendent, le contrôle de leur contenu, de leur organisation et de leur

fonctionnement, les institutions mettent en place les modalités de validation et de diffusion

du discours scientifique mais en les adaptant aux caractéristiques spécifiques du document

numérique que nous avons vues plus haut.

Les portails eux-mêmes, qui servent de support à la diffusion de l’offre scientifique,

doivent faire appel à des technologies et à des ingénieries qui sont fonction du but

recherché, de l’environnement et du public ciblé. On aura ainsi des Learning Management

Systems (LMS) pour l’enseignement à distance, des Content Management Systems (CMS)

pour la diffusion de contenus, des portails pour un bouquet de revues contenant eux-mêmes

des portails des revues elles-mêmes, des plates-formes qui seront des organisations

complexes qui vont permettre de supporter les fonctions nécessaires à la mise en ligne, etc.

Les institutions peuvent se regrouper en consortia (comme Couperin par exemple, qui

regroupe des établissements du monde de la documentation) pour augmenter leur efficacité

face à la montée croissante, et des prix des documents qui sont maîtrisés par les éditeurs

traditionnels, et de la complexité des problématiques et des ingénieries qui doivent être

traitées avec le plus grand soin pour atteindre des résultats probants et efficaces.

Les portails pourront être élaborés et contrôlés par les maisons d’édition de référence

qui ont compris rapidement l’intérêt de maîtriser la diffusion numérique des articles de

science qui fondent le système de la communication scientifique comme « droit de propriété

intellectuelle des idées » comme le rappelle Guédon585. Les portails comme Jstor, Ingenta,

HighWire, par exemple sont les moyens de diffusion de la prestigieuse maison d’édition. Ce

sont des portails que l’on nomme « propriétaires » et l’accès aux articles sera réservé à des

membres qui auront réglé un abonnement individuel ou collectif dans le cadre d’une

bibliothèque ou d’un centre de documentation, sous la forme d’abonnement dont le prix

devient de plus en plus exorbitant et dont les enjeux sont commerciaux.

584

BaudryLa Text Encoding Initiative : les moyens pour ajouter de la valeur à un texte numérisé

http://www.ebsi.umontreal.ca/cursus/vol1no2/beaudry.html

585

Il y a le cas des revues existant déjà sur papier et dont on développe une édition

électronique sur Internet, note G. Chartron586. C’est le cas de la majorité des grands éditeurs

scientifiques, comme par exemple : Wiley, Elzevier, Springer, etc. Les documents qui sont

ainsi diffusés reprennent un format qui correspond à la tradition des articles imprimés par

une diffusion en format PDF, le plus souvent (qui permet de maîtriser sa lisibilité, la

protection du droit d’auteur, son accessibilité). Cependant il y a de la valeur ajoutée grâce à

de nouveaux services intégrés. On observe des services liés au « contenu » comme : la

visualisation des tables de sommaire, des archives ; la recherche documentaire sur les titres,

résumés, textes ; l’information sur les prochains numéros (articles acceptés ; des liens avec

les bases bibliographiques, avec les autres articles ; des liens avec les données factuelles587 ;

nécessité d'avoir déposé sa séquence au préalable dans les bases de séquences588 ; des

« contenus » complémentaires par rapport à la version papier589 ; des services d’actualités

scientifiques ; des services personnalisés (profils documentaires), services interactifs

(forums associés), services de « communauté ».

Le Web permet aux textes scientifiques de circuler rapidement via des portails

institutionnels comme HAL590 et le CCSD. Cependant, nous constatons que la qualité de

structuration du document n’est pas traitée : seul le contenu scientifique importe. « HAL est

un outil de communication scientifique directe entre chercheurs. Un texte déposé sur HAL

doit décrire un travail achevé de recherche, conforme aux usages scientifiques dans la

discipline ; le contenu doit être comparable aux manuscrits que les chercheurs soumettent

pour publication aux comités de lecture de revues scientifiques, d'actes de colloque, etc. Les

documents déposés sur HAL ne sont soumis à aucune évaluation scientifique détaillée. Seul

un examen rapide permet de s'assurer que le document proposé entre bien dans la catégorie

définie ci-dessus – le CCSD restant libre de mettre en ligne ou pas le document sans

justification591. » Le contenu est montré comme le plus important et il est même spécifié

qu’il doit être comparable aux manuscrits que les chercheurs soumettent aux comités de

lecture de revues scientifiques etc. C’est ici encore la tradition qui domine et continue à

s’imposer. Ce qui est à relever dans ce phénomène, c’est le rôle de l’institution dans l’usage

qui sera fait des technologies de diffusion du discours scientifiques. Le phénomène n’est pas

spécifique à la France, puisque l’on observe aux Etats-Unis un phénomène semblable au

MIT, dans le domaine des ressources pédagogiques. On a pu en effet constater que le MIT

avait en 2006-2007 décidé de mettre tous ses cours disponibles en ligne, gratuitement.

Cependant, le problème de la structuration du document n’apparaît nulle part dans la

démarche du MIT, pas plus que dans les institutions scientifiques françaises. La primauté va

à la diffusion la plus rapide du plus grand nombre de travaux scientifiques possibles. Sur les

portails HAL (sciences dures ou sciences humaines), et TEL592, les formats exigés pour le

dépôt de documents sont des fichiers postscript, rtf, word ou PDF. Ce sont vraiment les

formats de base. Sans doute cela vise-t-il l’efficacité car ce sont les formats les plus connus

et les plus répandus chez les chercheurs.

586

Chartron [2003] Revues scientifiques sur Internet voir

http://www.ext.upmc.fr/urfist/Versailles-revues.htm

587

"accession number" obligatoire pour les séquences de données en biologie

588

voir par exemple la revuegenetics :http://www.genetics.org/ (instructions aux auteurs)

589

données supplémentaires en biologie notamment

590

voir le portail de diffusion de l’information scientifique en sciences humaines

http://halshs.archives-ouvertes.fr/

591

http://www.ccsd.cnrs.fr/?lang=fr

592

portail dédié à la diffusion des thèses en ligne sous une forme numérique ; on pourra voir un écran

sur TEL en ANNEXE THESES : résultat d’une requête d’interrogation pour une thèse de doctorat sur TEL

Un des pionniers dans la mise en ligne de documents patrimoniaux numérisés, c’est

la Bibliothèque nationale de France avec le projet Gallica. L’appellation « Gallica » depuis

1997 désigne l’offre numérique de la BNF destinée au public distant

593

. Au 30 avril 2006,

Gallica offrait sur la Toile 90 000 volumes imprimés en mode image, 1 200 en mode texte,

500 documents sonores, 80 000 images fixes. Le taux mensuel de consultation des

documents a passé la barre du million en mars 2007. La BNF considère que c’est un succès,

dont il n’y a l’équivalent, pour le moment, dans aucune grande bibliothèque étrangère. Nous

voyons dans cette présentation de l’offre de Gallica que la majorité des documents est en

mode « image ». Il s’agit là de documents faiblement structurés et dont la consultation est

lourde et difficile. Les temps de chargement sont grands, la qualité des photos laisse parfois

à désirer et la recherche sur des parties de documents est limitée.

Gallica s’efforce de répondre aux demandes des internautes, formulés selon

l’enquête « BibUsages », qui a dégagé des constantes : désir d’accéder à des documents

difficiles à se procurer ou épuisés ; demande de mise à disposition de textes intégraux ou

des corpus importants composés d’images. Les fidèles de Gallica sont majoritairement des

chercheurs, professionnels ou amateurs. Les enseignants qui utilisent Gallica à des fins

pédagogiques peuvent y trouver du texte intégral comme des corpus étoffés d’images, pour

un patrimoine aisément disponible. Le succès de Gallica vient de ce que la numérisation de

documents difficilement accessibles a été organisée dès les années 1970, les mettant à

portée d’un public ne pouvant se déplacer : cela permet au moins de consulter des corpus de

textes et d’images issus du patrimoine qui sans cela ne seraient pas disponibles. Aussi dans

l’état actuel des choses où les processus de numérisation sont encore loin d’être

rationnellement pensés, cette offre rencontre les faveurs d’un public choisi. De plus, on peut

passer l’OCR sur ces documents Bnf : beaucoup de chercheurs veulent disposer aussi de la

mise en page originale et d’autres fonctions qui sont nécessaires pour le travail sur des

corpus.

Actuellement, alors que les problématiques liées au numérique ont un peu mûri et

que certaines difficultés ont pu être analysées et traitées, nous voyons avec les idées

apportées à la future « bibliothèque numérique européenne » Européana594, une évolution se

dessiner où le contenu et l’accessibilité aux informations pertinentes à l’intérieur du

document commencent à être pensés. Nous constatons ainsi une nette évolution entre

Gallica (dont nous parlions au début de ce travail) avec la mise en ligne de textes

photographiés, et Europeana où l’on peut pratiquer divers types de recherche sur le contenu

des documents. Divers services aux lecteurs sont aussi apportés au travers de fonctionnalités

étendues de recherche, et la possibilité de se créer sa propre bibliothèque virtuelle, alimentée

en textes que l’on aura archivés après les avoir enrichis en annotations s’ils le désirent.

D’autre part, des portails sont issus de la « communauté du libre », que l’on nomme

OpenSource qui a réagi face à cette situation qui créait des blocages et une difficulté de

circulation de l’information scientifique. Elle émane alors de l’Open Archive Initiative

(OAI). Le phénomène OAI peut être considéré comme trouvant son origine historique dans

la création, le 16 août 1991, par le physicienPaul Ginsparg d’une base de données nommée

hep-th (pour High Energy Physics – Theory) destinée à ce que les membres de la petite

communauté de chercheurs spécialisés dans la physique des Hautes Energies puissent

échanger rapidement leur production scientifique. En décembre 2001, à Budapest, les

chercheurs les plus présents dans le développement des archives ouvertes décident de lancer

un appel mondial destiné à encourager leurs confrères à participer au mouvement de mise à

593

voir sur http://www.bnf.fr

594

disposition gratuite de leurs travaux. Cet appel, connu sous le nom de Budapest Open

Access Initiative ou BOAI, est diffusé le 14 février 2002 par voie de presse et, évidemment,

par Internet. Dans le cadre du développement des archives ouvertes, cet appel définit deux

stratégies complémentaires qui, appliquées systématiquement par les chercheurs, doivent

permettre un libre accès de tous aux résultats de la recherche. Ces deux stratégies sont : 1)

l’auto-archivage des articles comme pré ou post-print (BOAI 1) et 2) la publication en

revues à libre accès (BOAI 2).

A la suite de cette initiative, on voit se développer très rapidement des portails, des

formats et des applications dont les codes étaient disponibles et ouverts à tous. Il est ainsi

possible de se les approprier et de les rendre les plus proches possibles des besoins des

utilisateurs et du public cible, moyennant des travaux menés par les ingénieurs spécialisés

dans le domaine alors concerné. Marin montre l’évolution de l'Open archive initiative avec

le nombre d’enregistrements identifiés. Octobre 2005, bilan sur le paysage des archives

ouvertes : il y avait 55 000 documents ; 20 octobre 2006 : le total est de 145 124

enregistrements. Dans la francophonie et en sciences humaines et sociales, voici les dépôts

ouverts au public et qu’il a pu identifier et moissonner sans problème. Les plus grosses

croissances sont celles de Persée, de HalSHS et de Cairn. Revues.org n’est pas en reste.

Cyberthèses a une croissance impressionnante. Mettre en ligne une thèse est une opération

lourde595.

On peut noter ainsi des initiatives des pouvoirs publics. La valorisation des revues

françaises en sciences humaines et sociales représente un enjeu stratégique pour la

communauté des chercheurs, soucieuse d’une meilleure diffusion de leurs publications. Des

attentes manifestes des chercheurs en sciences humaines et sociales est né, par exemple, le

projet PERSEE avec un objectif triple : 1) préserver et valoriser ce patrimoine ; 2) participer

au rayonnement de la recherche en langue française par la diffusion d’un vaste corpus

d'articles intégré dans l’offre scientifique internationale et 3) permettre une exploitation

enrichie de ces revues en termes de recherche et de consultation. Lancé à l'initiative du

Ministère de l’éducation nationale, de l’enseignement supérieur et de la recherche,

(Direction de l'enseignement supérieur), le projet PERSEE répond à une demande

clairement exprimée et propose un plan d'action. La réalisation d’une plate-forme intégrée

de production et de diffusion de collections rétrospectives de revues - de la numérisation à la

mise en ligne en texte intégral des articles - et le traitement, grâce à cet outil, d'un premier

corpus de revues. Ensuite la montée en charge et l’intégration de nouvelles revues dans le

souci de couvrir progressivement toutes les disciplines en sciences humaines et sociales.

Le projet est mené par des représentants de la direction de la recherche, de la

direction de la technologie et de la direction de l'enseignement supérieur du Ministère de

l'éducation nationale, de l'enseignement supérieur et de la recherche, des directeurs de

publication des revues « pionnières », du directeur du CINES, des représentants du

consortium piloté par l'Université Lumière Lyon 2 et du représentant du consortium

ERUDIT. Il a pour partenaires des revues en sciences humaines : Annales. Histoire,

Sciences sociales (éditions de l’EHESS), L’Homme (éditions de l’EHESS), Revue

économique (Presses de sciences Po), Revue française de science politique (Presses de

sciences Po), Bibliothèque de l’école des chartes (Société de l’écoledes chartes), Revue de

l’art (CNRS-périodiques), Matériaux pour l’histoire de notre temps (Association des amis

de la BDIC et du Musée). Mais aussi le consortium regroupant l’Université Lumière Lyon

595

Observatoire des usages en sciences humaines et sociales voir

http://www.homo-numericus.net/blog/Il-se-passe-quelque-chose.html

2, la Maison de l'Orient et de la Méditerranée - Jean Pouilloux et l’Université de

Nice-Sophia Antipolis, en partenariat avecl’Ecole Normale Supérieure (LSH) de Lyon , leCentre

Informatique National de l’Enseignement Supérieur (CINES) , le Ministère de l’éducation

nationale, de l'enseignement supérieur et de la recherche (direction de l'enseignement

supérieur en concertation avec la direction de la recherche et la direction de la technologie) ,

le consortium ERUDIT, chargé, entre autres activités, de la diffusion électronique des

revues universitaires canadiennes en sciences humaines et sociales. D’autres entreprises

visent à fédérer l’effort éditorial pour une communauté plus ou moins importante en la

dotant d’instruments modélisés, ainsi Revues.org596, l’Archive ENS LSH597,

Hyper-articles598, pour n’en citer que quelques-unes, car les entreprises de ce type connaissent un

vrai essor et répondent à un besoin d’association autour d’intérêts communs.

Dans un premier cas, les documents que l’on trouve sur le net sont toujours

tributaires d’une organisation à deux dimensions, dans la mesure où ils sont, le plus souvent,

la transposition de livres imprimés et d’articles. Nous pouvons examiner le cas, par

exemple, de la diffusion des articles scientifiques sous leur forme numérisée par le biais de