• Aucun résultat trouvé

L’ Enjeux des collectionsnumériques en bibliothèque

N/A
N/A
Protected

Academic year: 2022

Partager "L’ Enjeux des collectionsnumériques en bibliothèque"

Copied!
16
0
0

Texte intégral

(1)

numériques en bibliothèque

Création de nouveaux dispositifs d’accès aux savoirs ? Muriel Amar

internet, et le web en particulier, donnent aujourd’hui accès à des collections de textes numériques, qui, pour la plupart, n’émanent pas des bibliothèques (par exemple, [ABU 00] et [GUT 00]). Tous ces sites font-il pour autant de l’internet la plus grande bibliothèque du monde ?

Le propos de cet article est de contribuer à cerner ce qui constitue la spécificité d’une collection numérique offerte par les bibliothèques. Nous laisserons de côté, dans cette contribution, les aspects techniques et juridiques propres à la création de collections numériques1. Nous centrerons nos analyses sur l’enjeu que représente la disponibilité du texte intégral pour la constitution des dispositifs d’accès aux savoirs dont les bibliothèques ont la charge.

Nous indiquerons d’abord ce qui, de la collection imprimée à la collection numérique, demeure et se transforme ; nous examinerons ensuite la césure qu’introduit le document numérique dans l’accès et l’appropriation

1. Sur ces deux points, cf. [FRA 00, BEN 98].

L’

(2)

des savoirs, en privilégiant un point de vue linguistique2. Nous proposerons, enfin, des pistes pour la constitution des collections numériques en bibliothèque.

Ce dernier aspect se veut essentiellement programmatique. Il s’attache à dégager les conditions qui permettent de ne « perdre ni le savoir ni la raison », comme le formule Latour ([LAT 96], p. 43) : « On veut parfois se passer de bibliothèque, de laboratoire, de collection sans perdre ni le savoir ni la raison.

C’est croire à la “nature se dévoilant aux yeux de la science”. Les chercheurs font bien autre chose que de contempler le monde dans un dérisoire peep-show. » Les internautes aussi.

La collection et la bibliothèque face au numérique : rupture ou continuité ?

Les bibliothèques numériques3, qui peuvent être issues de la numérisation des fonds imprimés des bibliothèques, comportent-elles des spécificités ?

Bibliothèque traditionnelle et bibliothèque numérique : de l’implicite à l’explicite

Dans la littérature traitant de ce domaine, les relations entre bibliothèque traditionnelle4 et bibliothèque numérique sont diversement appréciées. Si pour les uns, la bibliothèque numérique est la continuation de la bibliothèque traditionnelle par d’autres moyens [JAC 99], elle constitue, pour d’autres, un véritable point de rupture [MAI 99]. Du point de vue de la notion de collection, retenue dans cette contribution, bibliothèque traditionnelle et bibliothèque numérique relèvent d’une même ambition – proposer un métadiscours – mais ne l’expriment pas de la même manière.

2. Ce point de vue limite nos analyses aux seuls documents textuels. Cependant, on peut montrer que les objets non textuels ne peuvent fonctionner comme

« documents » que s’ils sont accompagnés d’un texte (cf. [AMA 00a], p. 47-49).

3. En dépit d’une terminologie qui reste encore floue, on s’accorde de plus en plus à considérer une bibliothèque numérique comme une collection de documents numériques localisée en un seul point (consultable en ligne ou hors ligne) ; le terme bibliothèque virtuelle désigne plutôt une liste de points d’accès (adresses de sites web, le plus souvent) à des ensembles épars de documents numériques (accessibles uniquement en ligne). Le terme bibliothèque électronique renvoie, lui, à un espace numérique donnant accès à la fois à une (ou plusieurs) bibliothèque(s) numérique(s) et à une (ou plusieurs) bibliothèque(s) virtuelle(s).

4. Constituée de documents imprimés.

(3)

Comme le rappelle Maignien ([MAI 99], p. 289), la bibliothèque a toujours constitué un « métadiscours » dont le but est de « rendre lisible [la] production sociale aux yeux de lecteurs ».

Ce métadiscours s’énonce, classiquement, dans les collections imprimées, via les ensembles textuels que la bibliothèque propose dans ses espaces de lecture (exposition des documents grâce à un système de classement) et dans son catalogue (identification de thématiques communes par l’indexation).

Les bibliothèques cherchent par ces moyens à organiser les textes en ensembles intelligibles et à indiquer entre eux des voisinages et des frontières.

Ce métadiscours reste cependant implicite dans la bibliothèque traditionnelle ; ou plus exactement, si les dispositifs de métadiscours (plan de classement et langages d’indexation principalement) sont explicites, le contenu de ce métadiscours demeure, quant à lui, largement implicite pour les lecteurs.

En effet, on ne manifeste pas clairement pas aux lecteurs les critères qui président au rapprochement de documents dans un même espace ou sous un même terme d’indexation : quelle est la proximité que la bibliothèque veut indiquer entre plusieurs documents disposés dans un même espace, ou sous un même terme d’indexation ? Sont-ils tous équidistants au sujet tel qu’il est formulé par le terme de classement ou par le terme d’indexation ?

Le support imprimé rend difficile le maintien du lien entre la qualification des contenus et les contenus eux-mêmes ; médiatisé et différé dans le document secondaire5, ce lien reste ténu. Les accointances entre documents, leurs filiations, comme l’ensemble des raisons de leur mise en collection, ne se révèlent le plus souvent que fortuitement, au hasard des recherches effectuées dans le fonds des bibliothèques, a posteriori6.

Par contraste, le document numérique se caractérise par ce que Cotte nomme une intériorisation des dispositifs documentaires [COT 99]. Le document numérique peut porter en lui-même les éléments de sa description, d’un double point de vue physique et intellectuel. D’un point de vue physique, les informations bibliographiques peuvent être consignées dans le corps même du document (via les balises méta des langages de structuration de documents comme HTML). D’un point de vue intellectuel, il

5. « Document comportant des informations de nature signalétique et/ou analytique sur des documents primaires » ([SUT 97a], p. 194).

6. « Dans les bibliothèques, l’épaisseur historique est trop souvent inerte, dans une totalisation qui n’a de sens que dans l’attente du besoin d’interprétation et d’action » [MAI 96].

(4)

devient désormais possible, par la manipulation directe du texte lui-même, d’indiquer explicitement la base du rapprochement entre deux textes. C’est tout l’enjeu de l’hypertexte7.

Dès lors qu’elle s’appuie sur une sélection d’éléments textuels reliés par un système hypertextuel, la qualification du contenu devient non seulement un moyen de signalement précis des liens spécifiques entre documents mais relève aussi d’un travail de constitution a priori des collections : le traitement documentaire, lorsqu’il est fondé sur une démarche hypertextuelle, se réalise non plus document par document, mais dans la relation spécifique d’un document avec d’autres documents. C’est pourquoi le métadiscours de la bibliothèque devient plus perceptible : la mise en contexte de textes différents (i. e. les regroupements thématiques) est explicitement exposée comme telle aux yeux des lecteurs ; elle existe indépendamment de toute recherche. Alors même que les dispositifs documentaires (les instruments du métadiscours de la bibliothèque) s’intériorisent, le contenu du discours, lui, devient plus tangible ([COT 99], p. 272).

Enjeux de la collection numérique : une nouvelle organisation du savoir ? Avant même de solliciter de nouvelles formes de lecture, la collection numérique ouvre surtout des perspectives inédites d’appropriation des savoirs [BAZ 96].

En effet, on peut faire l’hypothèse que l’accès aux savoirs, et par suite leur appropriation, s’effectuent nécessairement de façon différente selon que les intermédiaires (les dispositifs documentaires) sont externes ou internes aux documents, ce qui varie en fonction des substrats (imprimé ou électronique) du texte : les mécanismes de référenciation8, qui assurent l’accès aux savoirs, et les mécanismes de thématisation9, qui en permettent l’appropriation, sont radicalement différents dans le cas des documents imprimés, où il y a des intermédiaires externes, et dans le cas des documents numériques, où les intermédiaires sont « intériorisés ».

Dans le cas des documents imprimés, les intermédiaires externes sont indispensables10. En l’absence du texte lui-même des documents, comment

7. « Procédé d’écriture et de lecture non linéaire permettant aux créateurs de lier les informations, de définir des chemins à travers un corpus » ([SUT 97b], p. 274).

8. Acte qui permet de renvoyer, via un signe linguistique, à un objet du monde extralinguistique, réel ou imaginaire.

9. Identification des thèmes d’un document.

10. C’est là une caractéristique de la bibliothèque moderne, qui apparaît entre le XVIe

et le XVIIe siècle : le document est situé dans un espace d’organisation qui appelle sa propre lecture avant de permettre la lecture même du document [COT 99].

(5)

y accéder ? L’intermédiaire textuel, la référence bibliographique, pallie cette première difficulté : il assure la référenciation. Sur quelle base regrouper les documents ? C’est ici l’intermédiaire humain, le professionnel de l’information, qui résout cette deuxième difficulté par l’indexation. Il dégage les thèmes communs à plusieurs documents en choisissant parmi eux dans les textes. Le choix est guidé par un langage documentaire qui joue le rôle de filtre thématique sur un corpus de documents. Ce filtrage, s’il réduit les thématiques d’un texte à une seule – celle autorisée par le langage documentaire –, représente aussi le seul moyen de rendre les documents commensurables.

Dans le cas des documents numériques, directement accessibles par l’utilisateur final, les intermédiaires externes (professionnels de l’information et références bibliographiques) ne sont plus ni pertinents ni adéquats [AMA 00b]. La « monothématisation prédéfinie », propre aux documents imprimés, trouve ici sa limite : à quoi bon disposer du texte intégral du document si ce n’est pas pour en explorer les thématiques multiples ? De la même façon, le mode de référenciation – unique dans le cas du document imprimé (la référence bibliographique) – entre en concurrence avec d’autres modes de référenciation aux documents numériques (par exemple, les liens externes en provenance d’autres sites qui pointent vers eux).

L’enjeu des collections numériques en bibliothèque consiste bien à concevoir de nouveaux modes de référenciation et de thématisation, susceptibles de garantir l’accès aux savoirs et leur appropriation, en exploitant les spécificités du document numérique (tant sa structuration logique que la disponibilité de sa textualité).

Ces spécificités appellent un paradigme conceptuel nouveau : celui du parcours, qui nécessite une mise à distance du paradigme de l’« accès lexical » comme mode d’appropriation des savoirs.

De l’accès lexical au parcours textuel : un nouveau paradigme pour l’appropriation des savoirs

Limites du paradigme de l’accès par les mots

L’accès aux collections imprimées se réalise, dans les bibliothèques, via des unités lexicales : libellé des indices de classement pour le libre accès, entrées lexicales d’index dans les catalogues. Ce mode d’accès tend à focaliser l’accès au savoir sur la recherche du « mot juste ».

(6)

Ce paradigme de l’accès au savoir rencontre un certain nombre de limites :

– il présuppose un savoir préalable portant à la fois sur les unités lexicales retenues dans l’indexation et le classement, et sur l’organisation sous-jacente des savoirs que ces unités révèlent [PEL 99] ;

– il présuppose que le lecteur peut encapsuler son besoin d’information dans une formulation lexicale. Or, d’un point de vue cognitif notamment, on peut montrer qu’un besoin d’information, d’une part, n’est pas constant au cours d’une même session de recherche [KOL 97] et, d’autre part, qu’il ne correspond pas nécessairement à un mot [DUB 95].

Alors qu’avec l’imprimé, le parcours à travers textes ne pouvait se réaliser que par le biais d’un parcours à travers des mots, pas toujours satisfaisant, la mise à disposition du texte intégral du document rend possible le parcours textuel direct.

Ce changement de paradigme, en desserrant l’étau du mot-clé, facilite la rencontre du lecteur avec les textes. En effet, les mots, le seul lexique, ne sont pas fondamentalement en jeu dans l’interprétation des textes. L’appropriation des contenus repose, en effet, moins sur le sens des mots que sur les conditions de production d’un discours, constituées d’un ensemble hétérogène d’autres textes [FOU 69] :

« L’affirmation que la terre est ronde et que les espèces évoluent, ne constituent pas le même énoncé avant et après Copernic, avant et après Darwin ; ce n’est pas pour des formulations aussi simples que le sens des mots est changé, ce qui est changé, c’est le rapport de ces affirmations avec d’autres propositions, ce sont leurs conditions d’utilisation et de réinvestissement, c’est le champ d’expérience, de vérifications possibles, de problèmes à résoudre auxquels on peut se référer. »

Nouveau paradigme : le parcours textuel

Ce changement de paradigme – des mots aux discours – introduit une césure profonde dans les modes de thématisation et de référenciation pratiqués en bibliothèque.

Déplacement des acteurs de la thématisation

D’un point de vue linguistique [MAR 88, PEC 90], la thématisation est une opération qui se réalise en deux phases : une phase initiale de construction du thème, qui est de nature discursive, et une phase finale de nomination du thème, qui est de nature lexicale.

(7)

Ces deux phases sont intimement liées dans la mesure où la construction d’un thème se réalise, au fil de la lecture, par la saisie multiple de différents référents discursifs (les nominations du thème) qui régulièrement « font séquence » pour reprendre les termes de Barthes11. Dans cette alternance de construction discursive et de nomination lexicale, « thématiser un texte revient à stabiliser un état du monde et se satisfaire d’un monde partiel » ([MAR 88], p. 71).

Dans cette approche, le thème n’est donc pas un nom sans lien au texte, issu du seul lexique, attribué de l’extérieur une fois pour toute : il est « un aspect du processus de compréhension ». A ce titre, la thématisation exploite les

« interstices » dont dispose un texte. En effet, dans un texte, il y a des mots et ces mots n’entrent jamais seuls dans le discours : ils ouvrent au contraire « la mémoire et l’anticipation d’autres textes ». C’est pourquoi la construction discursive d’un thème est nécessairement de nature interdiscursive, faisant intervenir d’autres textes [PEC 90].

Autrement dit, ce cadre linguistique permet d’envisager :

– qu’un même parcours thématique aboutisse à la nomination de thèmes différents ;

– qu’un même thème puisse être construit sur la base de parcours discursifs différents.

Pour illustrer ces deux aspects, je m’appuierai sur le résultat d’une expérience d’indexation menée dans le cadre d’une campagne d’évaluation d’outils d’aide à la construction de terminologies [ARC 00].

Cette expérience12 montre que deux indexeurs peuvent utiliser le même terme d’un texte pour construire des thèmes différents : ainsi le terme photopériode a-t-il permis d’identifier le thème technologie de la reproduction pour un indexeur (dans un parcours discursif qui le relie à insémination artificielle) et le thème production spermatique pour un autre indexeur (dans ce cas, photopériode se trouve lié au terme production permanente de semence au sein d’un autre parcours thématique). Un même terme peut donc permettre de construire des thèmes différents.

11. « Quiconque lit un texte rassemble certaines informations sous quelques noms génériques et c’est ce nom qui fait la séquence ; la séquence n’existe qu’au moment où et parce qu’on peut la nommer, elle se développe au rythme de la nomination qui se cherche et se confirme » ([BAR 70], p. 14).

12. On a demandé à cinq professionnels de l’information d’indexer un même texte scientifique, extrait d’un corpus de l’INRA (Institut national de la recherche agroalimentaire). Les consignes étaient les suivantes : « indexez le texte en choisissant les termes d’indexation dans le texte ; indiquez les termes du texte qui vous ont permis d’indexer le document ».

(8)

Inversement, un même thème peut être construit par deux indexeurs sur la base de parcours discursifs différents. Toujours dans le cadre de l’expérience précédemment citée, on peut noter que le même thème amélioration génétique a été construit sur la base des deux séquences thématiques suivantes, sensiblement différentes :

– traitement des embryons, gain génique, clonage, potentiel génétique ; – progrès génétique, gain génétique, gènes nouveaux, multiplication des meilleurs animaux d’une population.

Ce ne sont pas exactement les mêmes connaissances qui permettent de construire la même interprétation.

Ces variations thématiques (de construction comme de nomination), caractéristiques ici du travail des indexeurs, pourraient tout aussi bien apparaître dans le travail d’interprétation des lecteurs : tout dépend à quel aspect du processus de thématisation – construction discursive ou formulation lexicale – la bibliothèque choisit de donner prise.

La thématisation est captée, dans le cas de la collection imprimée, dans sa phase finale de formulation lexicale du thème. Les lecteurs ont accès à des thèmes construits et déjà nommés, autrement dit à des interprétations. La thématisation est, dans le cas des collections imprimées, le fait des bibliothécaires. Son processus de construction reste opaque aux lecteurs.

Dans le cadre de la collection numérique, le processus de thématisation peut être saisi, par le lecteur lui-même, dans sa phase initiale de construction discursive : c’est au lecteur que peuvent revenir les choix finaux du thème et de sa nomination.

Le rôle du bibliothécaire porte alors sur la constitution des contextes pertinents permettant la construction et la nomination des thèmes : il s’agit de déterminer différents parcours dans une collection textuelle qui permettent aux lecteurs de construire de proche en proche une séquence thématique.

Le passage de l’imprimé au numérique permet à la bibliothèque d’expliciter le choix des thèmes qu’elle propose en donnant accès aux parcours de connaissance qui ont permis de les constituer.

Modalités de la référenciation : d’un accès conjoint à un accès disjoint aux documents et aux savoirs

La référenciation, c’est-à-dire le fait qu’un mot permette de désigner un objet, en l’occurrence un document dans une bibliothèque, s’effectue d’un point de vue linguistique par le biais d’un type d’unité particulier : le groupe

(9)

nominal [MIL 89]. Dans les collections imprimées, ce n’est pourtant pas le groupe nominal qui est utilisé pour désigner des objets, ce sont des unités lexicales, et plus particulièrement des unités issues des lexiques spécifiques que sont les langages documentaires.

Du seul point de vue linguistique, ces unités lexicales sont dénuées de référence. Du point de vue documentaire, elles permettent pourtant de référer, c’est-à-dire de désigner des objets, grâce à leur ancrage qui est lui référentiel, dans les langages documentaires : l’appartenance d’un terme à une hiérarchie ou à un domaine stabilise la référence d’une unité lexicale (placer par exemple, comme dans le thésaurus de l’Unesco, le terme laser sous la dépendance hiérarchique du terme instrument de communication exclut d’emblée la construction de l’objet laser utilisé en ingénierie médicale).

Ce mode de référenciation fonctionne quand la stabilisation référentielle est connue, c’est-à-dire quand intervient un intermédiaire humain, le professionnel bibliothécaire expert des langages documentaires utilisés.

Dans le cadre des collections numériques, où les intermédiaires externes n’ont plus lieu d’être, le mode de référenciation ne pourra plus reposer sur des unités lexicales sans pouvoir référentiel, ou du moins dont l’ancrage référentiel nécessite une connaissance bibliothéconomique spécifique. La référenciation devra s’appuyer sur l’unité linguistique permettant de référer : elle devra donc s’appuyer sur le groupe nominal, l’unité extraite du discours et interprétable telle quelle par tous les sujets parlants.

Ce changement d’unité linguistique modifie sensiblement l’objectif que l’on peut assigner à la référenciation en bibliothèque : les descripteurs des langages documentaires, en même temps qu’ils permettaient de donner accès aux documents, indiquaient aussi les traits thématiques retenus de ces documents. Dans le cas des collections numériques, l’accès aux documents et l’accès aux savoirs sont disjoints : les thématiques sont (re)construites par le lecteur après qu’il a pu accéder à une collection, à un ensemble de documents cohérents et a priori intéressants pour lui. Les lecteurs ont d’abord accès à un ensemble de documents, puis à un ensemble de savoirs relatifs à cet ensemble clos de documents. Les problématiques de l’accès aux documents doivent donc être largement revisitées dans ce nouveau contexte.

Les deux modalités-clés permettant l’accès et l’appropriation des savoirs – la thématisation et la référenciation – se situent, dans les collections imprimées, du côté du lexique. Avec la collection numérique, elles passent résolument du côté des textes, des discours eux-mêmes et des expressions référentielles qui les composent.

(10)

Outils programmatiques pour la constitution des collections numériques en bibliothèque

Le paradigme du « parcours textuel » se distingue du paradigme de l’accès lexical sur deux plans :

– l’accès aux documents et l’accès aux savoirs ne sont plus conjoints mais disjoints ;

– le processus de thématisation est accessible du point de vue de sa construction et non plus du point de vue de sa nomination.

Ces deux aspects conduisent à inverser les rôles du bibliothécaire et du lecteur :

– dans le cas du document imprimé, c’est le bibliothécaire qui thématise et c’est le lecteur qui « construit » les collections, par le biais des recherches documentaires qu’il effectue ;

– dans le cas du document numérique, le bibliothécaire construit les collections documentaires a priori13 et c’est le lecteur qui thématise.

Le travail du bibliothécaire porte donc désormais sur deux aspects : – la constitution de collections numériques, c’est-à-dire d’ensembles textuels autorisant la construction de parcours thématiques ;

– la constitution de parcours textuels à l’intérieur de chaque ensemble textuel circonscrit.

Dans les deux cas de figure, il y a des règles de différents types à prendre en compte. Nous en retiendrons deux types : les règles relatives aux textes eux-mêmes – les règles de discursivité – pour rapprocher deux textes entre eux, et les règles linguistiques, relatives à la langue elle-même, pour choisir les unités de langue permettant le parcours raisonné d’un texte à l’autre.

Quel outil programmatique pour la mise en collection numérique des documents ?

Pour illustrer le propos, nous nous appuierons sur la réalisation Gallica de la Bibliothèque nationale de France [BNF 00] : les collections numériques proposées dans Gallica relèvent d’une mise en collection numérique de documents imprimés (ou plus exactement de documents non nativement numériques comme les photographies ou les enregistrements sur support analogique). L’entreprise de Gallica repose sur la numérisation d’un certain

13. Les bibliothécaires ont toujours eu la responsabilité de la constitution des collections. Les collections dont il s’agit renvoient plus précisément ici aux regroupements thématiques indiqués traditionnellement par les termes d’indexation ou de classement ; cf. supra la notion de métadiscours.

(11)

nombre de documents de différents types dans le but de proposer une nouvelle approche des savoirs. Ce projet répond bien à l’approche que nous avons jusqu’alors défendue de la spécificité des collections numériques en bibliothèque.

L’outil programmatique qui, comme le dit Maignien [MAI 99], caractérise le mieux le projet porté par la BNF, se trouve dans les propositions de Foucault [FOU 69]. Ce dernier insiste en effet sur le fait que le regroupement textuel ne peut s’effectuer impunément : au nom de quoi, dit-il, relie-t-on des auteurs qui ne se connaissent pas « dans une trame dont ils ne sont pas maîtres » ? La question de la légitimité du regroupement textuel ne peut pas se poser aussi crûment dans le contexte de la collection imprimée, où l’indexation, réalisée ouvrage par ouvrage, ne révèle ses effets qu’a posteriori, de façon fortuite, au hasard des interrogations des catalogues. En revanche, elle devient centrale dès lors que le bibliothécaire indique explicitement, via une navigation hypertextuelle, un parcours à travers textes.

Considérant l’œuvre de Foucault comme un outil programmatique, ou encore un « garde-fou théorique », on peut retenir les principes suivants :

– il y a toujours des raisons pour qu’un texte apparaisse à un moment donné ;

– ces raisons se trouvent dans d’autres textes, qui ne partagent pas pour autant avec lui une affinité évidente qui se trouverait du côté des notions de genre, d’auteur, de thème ou de domaine : cet ensemble de critères de regroupement est rejeté par Foucault ;

– les raisons qui peuvent permettre de comprendre l’apparition d’un texte tiennent à un ensemble de conditions hétérogènes qui autorisent l’émission et la réception d’un discours, ce que Foucault nomme les

« systèmes de discursivité14 ».

Gallica fait en effet écho aux propositions de Foucault en assurant une recontextualisation, historique et polyphonique, des textes, qui tient compte des conditions de production propres à une époque donnée15. On constate ainsi que, d’un siècle à l’autre, pour un domaine de savoir donné, les regroupements dominants ne sont pas de même nature.

14. « S’il y a des choses dites – et celles-là seulement – il ne faut pas en demander raison immédiate aux choses qui s’y trouvent dites ou aux hommes qui les ont dites, mais au système de discursivité, aux possibilités et aux impossibilités énonciatives qu’il ménage » [FOU 69].

15. L’exemple de Gallica retenu ici ne signifie pas que la mise en collection numérique de documents, comprise comme la mise en contexte de documents hétérogènes répondant à un système de discursivité, soit réservée aux parcours de lecture savants. Les parcours de lecture « vulgarisants » reposent tout autant sur cette nécessité de confrontation de sources discursives hétérogènes [MOR 88].

(12)

Moyen Age XVIIIe siècle XIXe siècle Pouvoirs et

sociétés La Cité de Dieu Physiocratie Code et

codification

Sciences Harmonie du

Cosmos

De la création à l’évolution

La science, du singulier au pluriel Philosophie Aristote, les Pères

de l’Eglise, le thomisme

Les philosophes des Lumières

Positivisme et éclectisme

A l’intérieur de ces séries de « collections numériques », les lecteurs ont accès à un ensemble de textes hétérogènes, qui font systématiquement sens, non parce qu’ils partagent à proprement parler une thématique commune (par exemple, « code et codification »), mais parce qu’ils contribuent à rendre sensibles les fondements, les enjeux et les incidences d’un nouveau type d’organisation civile . Ainsi, la collection numérique autour de « code et codification » permet-elle d’accéder à la fois à des documents juridiques (le Code civil de 1804, mais aussi les Codices de Justinien situés à deux siècles de distance), à des fictions (comme Les Œuvres complètes de Maria Deraismes), à des essais (Principes de politique de Benjamin Constant). A cette diversité de genres et de notoriétés se mêle une variété de nature documentaire : cette collection numérique s’ouvre aussi à des sites externes, comme celui de la Fondation Napoléon.

On note cependant que Gallica maintient, d’une certaine façon, le document secondaire comme la pierre angulaire de la démarche d’appropriation du savoir : les documents sont accessibles systématiquement via un document intermédiaire (un texte de présentation ou une chronologie par exemple), mais pas directement entre eux16.

Quel outil programmatique pour la constitution des parcours textuels ? La constitution des parcours textuels doit tenir compte de deux caractéristiques :

– l’une concerne les textes eux-mêmes. Les textes témoignent d’une plasticité17 qui exclut que l’on établisse des parcours sur la base de segments

16. Le choix technique de la numérisation en mode image y est pour beaucoup.

17. « Dans un texte en langue naturelle, la mention d’identité d’entités ou d’objets se réalise par la construction de chaînes d’identité ou d’association entre des segments formellement et interprétativement hétérogènes » [COR 95].

(13)

textuels formellement identiques : les textes exhibent au contraire une diversité de termes en situation de coréférence et d’anaphore18 ;

– l’autre caractéristique concerne les unités de langue. Toutes les unités de langue ne permettent pas au même titre de constituer un nœud hypertextuel : elles doivent être dotées d’une « rigidité désignative » qui leur assure un ancrage référentiel.

L’outil programmatique que l’on peut retenir pour prendre en compte la plasticité des textes est le modèle logique des chaînes de référence [CHA 75], mis au point dans une perspective linguistique par Corblin19. Ce modèle, qui repose sur l’analyse des termes d’un texte du point de vue de leur morphologie, de leur syntaxe, mais aussi de leur place et de leur position, permet de capter à travers une diversité lexicale une identité référentielle, c’est-à-dire un thème possible, les traces d’un objet de discours en construction. Dans les textes, plus précisément, deux types de chaînes coexistent :

– des chaînes anaphoriques qui établissent des connexions référentielles sur des bases linguistiques ;

– des chaînes référentielles qui établissent des connexions référentielles sur des bases communicatives.

Dans les chaînes anaphoriques, par exemple « Nixon réfléchissait. Il était dans une situation périlleuse », le calcul interprétatif qui permet d’établir l’identité référentielle est déclenché et régi par le contenu linguistique de la forme pronominale Il.

Dans les chaînes référentielles, par exemple « Nixon réfléchissait. Le président des USA était dans une situation périlleuse », les deux expressions Nixon et le président des USA sont référentiellement liées par des connaissances extralinguistiques, de type encyclopédique.

C’est particulièrement ce dernier type de chaînes qui mériterait d’être exploité dans les collections numériques. En effet, pour qu’un lecteur puisse établir une identité référentielle entre plusieurs expressions, encore faut-il qu’il sache que ces expressions sont liées : c’est bien une question de savoir plutôt qu’une question de compétence linguistique. La création de parcours textuels peut alors se donner pour objectif de fournir aux lecteurs d’un texte T1 un accès à un texte T2 qui explique en quoi des expressions sont liées :

18. Dans l’exemple suivant, « instituteurs » et « fonctionnaires » sont en situation de coréférence : Les instituteurs ont fait grève hier. Tous les mêmes, ces fonctionnaires.

19. Corblin ([COR 95], p. 254) définit une chaîne de référence comme « la suite d’expressions d’un texte entre lesquelles l’interprétation établit une identité de référence ».

(14)

dans l’exemple, très simple, précédemment donné, on pourrait concevoir un parcours textuel qui renverrait le lecteur à un texte qui dirait explicitement que Nixon a été élu président des USA en 1968.

Le parcours textuel dans les collections numériques repose donc sur la constitution des conditions d’interprétation des chaînes référentielles d’un texte, ces conditions d’interprétation se trouvant à l’intérieur d’un ensemble d’autres textes. Il se crée alors des chaînes de savoir prenant la forme d’un réseau d’expressions coréférentielles. Les unités de langue ne peuvent pas constituer les nœuds de telles chaînes de savoir.

Les expressions que l’on peut retenir doivent être dotées des propriétés linguistiques suivantes :

– elles doivent faire preuve de « rigidité désignative » [COR 95] : cette propriété assure que, d’un texte à l’autre, la référence d’une unité linguistique ne se dissout pas. Sans pouvoir entrer dans le détail, on dira que l’unité école est moins rigide que les unités école d’été ou école élémentaire ;

– elles doivent constituer le noyau d’un groupe nominal : cette propriété assure que les lecteurs peuvent, à n’importe quel endroit d’un parcours thématique, s’interrompre et nommer les thèmes qu’ils ont construits.

Ces deux types de propriété amènent à s’intéresser à un individu linguistique particulier que les linguistes nomment synapsie [BEN 74, DAV 93]. La synapsie, en outre, a fait l’objet de programmes de dépistage automatique (par exemple, le logiciel Termino [DAV 93]), qui peuvent permettre d’aider les bibliothécaires à sélectionner des types d’unités synaptiques pertinentes.

Conclusion

La problématique des collections numériques en bibliothèque pose, de façon cruciale, la question de la collection en bibliothèque : elle apparaît désormais moins comme le fruit d’un regroupement hasardeux de documents constitué a posteriori par les lecteurs que comme la mise en contexte a priori de documents hétérogènes répondant à un « système de discursivité ». Cette nouvelle exigence de la collection, commandée par les spécificités du document numérique, correspond à une « mise en discours » des documents dans laquelle le métadiscours de la bibliothèque, en se donnant à entendre, peut trouver une nouvelle légitimité.

La seule mise à disposition du texte intégral du document ne vaut rien si le document n’est ni mis en perspective (par la collection) ni rendu intelligible (par les chaînes de savoir) :

(15)

« On comprend alors que les institutions comme les bibliothèques, les laboratoires, les collections ne soient pas de simples moyens dont on pourrait se dispenser aisément sous prétexte que les phénomènes parleraient eux- mêmes à la seule lumière de la raison. Additionnés les uns aux autres, ils composent les phénomènes qui n’ont d’existence que par cet étalement à travers la série des transformations » ([LAT 96], p. 41).

Bibliographie

[ABU 00] ABU (Association des bibliophiles universels), <http://abu.cnam.fr>.

[AMA 00a] AMAR M., Les fondements théoriques de l’indexation : une approche linguistique, ADBS Editions, Paris, 2000.

[AMA 00b] AMAR M., « Indexation lexicale et indexation discursive : éléments de définition », Terminologies nouvelles, n° 21, 2000, à paraître.

[ARC 00] ARC A3 (Action de recherche concertée), Evaluation d’outils d’aide à la construction de terminologie et de relations sémantiques entre termes à partir de corpus [programme en cours], Fonds francophone pour la recherche (AUPELF-UREF), Université de Lille III, 2000.

[BAR 70] BARTHES R., S/Z, Seuil, Paris, 1970.

[BAZ 96] BAZIN P., « Vers une métalecture », Bulletin des bibliothèques de France, t. 41, n° 1, 1996, p. 8-15.

[BEN 74] BENVENISTE E., « Formes nouvelles de la composition nominale » in Problèmes de linguistique générale, t. 2, Gallimard, Paris, 1974 [1966], p. 163-176.

[BEN 98] BENSOUSSAN A., DEMNART-TELLIER I., Le multimédia et le droit, Hermès, Paris, 1998.

[BNF 00] BNF (Bibliothèque nationale de France), Gallica [s.d., consulté en septembre 2000], <http://gallica.bnf.fr>.

[CHA 75] CHASTAIN C., « Reference and Context », in K. GUNDERSON (dir.), Language, Mind and Context, 1975, p. 194-273.

[COR 95] CORBLIN F., Les formes de reprise dans le discours : anaphores et chaînes de référence, Presses universitaires de Rennes, 1995.

[COT 99] COTTE D., « Le texte numérique et l’intériorisation des dispositifs documentaires », Document numérique, vol. 2, n° 3-4, 1999, p. 259-279.

[DAV 93] DAVID S., Les unités polylexicales : éléments de description et reconnaissance automatique, Thèse de doctorat en linguistique formelle, Université Paris VII, 1993.

[DUB 95] DUBOIS D., « Interrogation documentaire : recherche d’information ou gestion des connaissances ? », Cahiers de linguistique sociale, 1995, p. 87-96.

[FOU 69] FOUCAULT M., Archéologie du savoir, Gallimard, Paris, 1969.

(16)

[GUT 00] PROJECT GUTENBERG, <http://promo.net/pg/>.

[JAC 99] JACQUESSON A., RIVIER A., Bibliothèques et documents numériques, Editions du Cercle de la Librairie, Paris, 1999.

[KOL 97] KOLMAYER E., Contribution à l’analyse des processus cognitifs en jeu dans l’interrogation d’une banque de données documentaires, Thèse de doctorat de psychologie, Université Paris V, 1997.

[LAT 96] LATOUR B., « Ces réseaux que la raison ignore : laboratoires, bibliothèques, collections », in Le Pouvoir des bibliothèques : la mémoire du livre en Occident, Albin Michel, Paris, 1996, p. 23-46.

[MAI 96] MAIGNIEN Y., VIRBEL J., « Encyclopédisme et hypermédia : de la difficulté d’être à la complexité du dire », Catalogue de l’exposition d’ouverture de la BnF Tous les savoirs du monde, Flammarion, Paris, 1996, p. 466-470.

[MAI 99] MAIGNIEN Y., « Chronique partielle d’une bibliothèque virtuelle », Document numérique, vol. 2, n° 3-4, 1999, p. 281-290.

[MAR 88] MARANDIN J.-M., « A propos de la notion de thème de discours. Eléments d’analyse dans le récit », Langue française, n° 78, 1988, p. 67-87.

[MIL 89] MILNER J.-C., Introduction à une science du langage, Seuil, Paris, 1989.

[MIN 00] Numérisation des bibliothèques, Ministère de la Culture, Direction du livre et de la lecture, [s.d., consulté en septembre 2000]

<http://www.culture.fr/culture/mrt/numerisation/fr/dll/index.htm>

[MOR 88] MORTUREUX M.-F., « La vulgarisation scientifique : parole médiane et redoublée », in Vulgariser la science : le procès de l’ignorance, Champ Vallon, Paris, 1988, p. 118-174.

[PEC 90] PÊCHEUX M., L’inquiétude du discours, Textes choisis et présentés par D. Maldidier, Editions des Cendres, Paris, 1990.

[PEL 99] PELOU P., L’usage des technologies de l’information et de la communication dans les professions de l’information et de la documentation,Conférence prononcée lors du salon Bibdoc en 1999 (pour se procurer le texte : cddp37@wanadoo.fr).

[SUT 97a] SUTTER E., « Document primaire », in Dictionnaire encyclopédique de l’information et de la documentation, Nathan, Paris, 1997, p. 194.

[SUT 97b] SUTTER E., « Hypertexte », in Dictionnaire encyclopédique de l’information et de la documentation, Nathan, Paris, 1997, p. 274-275.

Références

Documents relatifs

Cette subtile distinction, introduite dès les années soixante-dix par Piaget et ses équipes de recherche en psychologie de l’enfant [11], éclaire en effet la

Politique de l’université en matière de soutien à la réussite des étudiants et à la recherche, politique de la collectivité en matière de services à l’usager,

Une constante chaîne de caractères peut être définie par une suite de caractères délimitée par des guillemets, ou à l’aide d’une initialisation classique de tableau. Le

Cinq mod` eles spatiaux (param` etre θ) sont propos´ es pour le r´ esidu : les deux premiers sont du type AR sur r´ eseau, les trois suivants, g´ eostatistiques, sont associ´ es ` a

Pendant la seconde guerre mondiale, Vannevar Bush coordonne la recherche américaine et se trouve confronté à la gestion d'une colossale production scientifique. En 1945, au

On fortifie encore cette théorie par les idées de Darwin sur la lutte pour l’existence, et l’on conclut que les races usées ou imparfaitement armées sont

En fait, les pratiques de copyfraud témoignent à mon avis d’une grande méconnaissance des questions juridiques et du statut du domaine public (qui ne fait d’ailleurs

d’elle l’alliance d’une augmentation et d’une prolétarisation. Cette structure pharmacologique du web, sur le modèle du Phèdre, nous invite dès lors à envisager les outils