Bases textuelles sur le web - Une vaste encyclopédie

6. Une vaste encyclopédie

6.2. Bases textuelles sur le web

Bases textuelles payantes

Des programmes de recherche sur la langue française - principalement son vocabulaire – sont développés par l’INaLF (Institut national de la langue française), puis par l’ATILF (Analyse et traitement informatique de la langue française), qui lui succède en janvier 2001. Traitées par des systèmes informatiques spécifiques, les données lexicales et textuelles portent sur divers registres du français : langue littéraire du 14e au 20e siècle, langue courante écrite et parlée, langue scientifique et technique (terminologies) et régionalismes. L’ATILF gère plusieurs bases textuelles payantes, par exemple

Frantext, un corpus à dominante littéraire de textes français allant du 16e au 19e siècle, ou encore l’Encyclopédie de Diderot, réalisée en collaboration avec le programme

ARTFL (American and French Research on the Treasury of the French Language) de l’Université de Chicago. En accès libre, Dictionnaires est une collection de dictionnaires informatisés comprenant les dictionnaires de Robert Estienne (1552), Jean Nicot (1606) et Pierre Bayle (1740), plusieurs éditions des dictionnaires de l’Académie française (1694, 1798, 1835, 1932-35, 1992) et enfin le TLFi (Trésor de la langue française informatisé, 1971-1994).

Autre exemple, dû à une initiative individuelle, le site Rubriques à Bac. Créé en 1998 par Gérard Fourestier, diplômé en science politique et professeur de français à Nice, le site regroupe des bases de données à destination des lycéens et des étudiants. ELLIT (Eléments de littérature) propose des centaines d’articles sur la littérature française du 12e siècle à nos jours, ainsi qu’un répertoire d’auteurs. RELINTER (Relations internationales) recense 2.000 liens sur le monde contemporain depuis 1945. Ces deux bases de données sont accessibles par souscription, avec version de démonstration en accès libre. Lancé en juin 2001 dans le prolongement d’ELLIT, la base de données Bac- L (baccalauréat section lettres) est en accès libre.

Interviewé en octobre 2000, Gérard Fourestier relate : « Rubriques à Bac a été créé pour répondre au besoin de trouver sur le net, en un lieu unique, l’essentiel, suffisamment détaillé et abordable par le grand public, dans le but : a) de se forger avant tout une culture tout en préparant à des examens probatoires à des études de lettres - c’est la raison d’ELLIT (Eléments de littérature), base de données en littérature française ; b) de comprendre le monde dans lequel nous vivons en en connaissant les tenants et les aboutissants, d’où RELINTER (Relations internationales). J’ai développé ces deux matières car elles correspondent à des études que j’ai, entre autres, faites en leur temps, et parce qu’il se trouve que, depuis une dizaine d’années, j’exerce des fonctions de professeur dans l’enseignement public (18 établissements de la 6e aux terminales de toutes sections et de tous types d’établissements). (...)

Mon activité liée à internet consiste tout d’abord à en sélectionner les outils, puis à savoir les manier pour la mise en ligne de mes travaux et, comme tout a un coût et doit avoir une certaine rentabilité, organiser le commercial qui permette de dégager les recettes indispensables ; sans parler du butinage indispensable pour la recherche d’informations qui seront ensuite traitées. (...)

Mon initiative à propos d’internet n’est pas directement liée à mes fonctions de professeur. J’ai simplement voulu répondre à un besoin plus général et non pas étroitement scolaire, voire universitaire. Débarrassé des contraintes du programme, puisque j’agis en mon nom et pour mon compte et non "es-qualité", mais tout en donnant la matière grise qui me paraît indispensable pour mieux faire une tête qu’à la bien remplir, je laisse à d’autres le soin de ne préparer qu’à l’examen. »

Les recettes générées par Rubriques à Bac sont consacrées à la réalisation de projets éducatifs en Afrique. Par la suite, Gérard Fourestier aimerait développer des bases de données dans d’autres domaines, par exemple l’analyse sociétale, l’analyse sémantique ou l’écologie.

Bases textuelles gratuites

Emilie Devriendt, élève professeure à l’Ecole normale supérieure (ENS) de Paris, écrit en juin 2001 : « L’avenir me semble prometteur en matière de publications de ressources en ligne, même si, en France tout au moins, bon nombre de résistances, inhérentes aux systèmes universitaire et éditorial, ne risquent pas de céder du jour au lendemain (dans dix, vingt ans, peut-être ?). Ce qui me donne confiance, malgré tout, c’est la conviction de la nécessité pratique d’internet. J’ai du mal à croire qu’à terme, un chercheur puisse se passer de cette gigantesque bibliothèque, de ce formidable outil. Ce qui ne veut pas dire que les nouvelles pratiques de recherche liées à internet ne doivent pas être réfléchies, mesurées à l’aune de méthodologies plus traditionnelles, bien au contraire. Il y a une histoire de l’"outillage", du travail intellectuel, où internet devrait avoir sa place. »

Bases de données payantes à destination des organismes et des particuliers qui en ont les moyens, ou bases de données gratuites à la disposition de tous ? Les outils dont on dispose maintenant pour créer et gérer des bases textuelles à moindres frais permettent de pencher vers la deuxième solution, tout au moins quand il existe une véritable volonté dans ce sens.

Professeur au département d’études françaises de l’Université de Toronto, Russon Wooldridge est le créateur de ressources littéraires librement accessibles en ligne. En 2001, sa tâche se trouve grandement facilitée par TACTweb, un logiciel gratuit pouvant être paramétré pour gérer une base de données sur le web. En mai 2001, il explique : « La dernière version de TACTweb permet dorénavant de construire des bases interactives importantes comme les dictionnaires de la Renaissance (Estienne et Nicot ; base RenDico), les deux principales éditions du Dictionnaire de l’Académie française (1694 et 1835), les collections de la Bibliothèque électronique de Lisieux (base

LexoTor), les œuvres complètes de Maupassant, ou encore les théâtres complets de Corneille, Molière, Racine, Marivaux et Beaumarchais (base théâtre 17e-18e). À la différence de grosses bases comme Frantext ou ARTFL (American and French Research on the Treasury of the French Language) nécessitant l’intervention d’informaticiens professionnels, d’équipes de gestion et de logiciels coûteux, TACTweb, qui est un gratuiciel que l’on peut décharger en ligne et installer soi-même, peut être géré par le chercheur individuel créateur de ressources textuelles en ligne. » Autre exemple, pris cette fois dans les sciences humaines, le projet HyperNietzsche est lancé en 2000 sous la direction de Paolo d’Iorio, chargé de recherches à l’Institut des textes et manuscrits modernes (ITEM) du CNRS (Centre national de la recherche scientifique). Ce projet expérimental « vise à créer une infrastructure de travail collectif en réseau, lit-on sur le site web. Cette infrastructure sera d’abord appliquée et testée sur l’œuvre de Nietzsche, pour être ensuite généralisable à d’autres auteurs, à l’étude d’une période historique ou d’un fonds d’archive, ou à l’analyse d’un problème philosophique. Il ne s’agit donc pas seulement d’un projet de numérisation et de mise en réseau d’un ensemble de textes et d’études sur Nietzsche, ni d’une édition électronique conçue comme un produit confectionné et offert à la consultation, mais plutôt d’un instrument de travail permettant à une communauté savante délocalisée de travailler de façon coopérative et cumulative et de publier les résultats de son travail en réseau, à l’échelle de la planète. Il ne s’agit pas seulement d’une bibliothèque de textes électroniques en ligne, plus ou moins bien indexée, accompagnée d’un moteur de recherche par mots- clés ou en texte intégral. C’est un véritable système hypertextuel qui permet tout d’abord de disposer les textes et les manuscrits de Nietzsche selon des ordonnancements chronologiques, génétiques ou thématiques, et surtout d’activer un ensemble de liens hypertextuels qui relient les sources primaires aux essais critiques produits par les chercheurs. » Chose peu courante chez les éditeurs français, le texte intégral du Que

sais-je ? consacré à la présentation du projet est disponible pendant deux ans en accès

libre sur le site des PUF (Presses universitaires de France). Son équivalent imprimé est publié en octobre 2000 dans la série : Ecritures électroniques.

L’accès libre au savoir

Problème crucial qui suscite de nombreux débats, l’accès au savoir doit-il être gratuit ou payant ? Eduard Hovy, directeur du Natural Language Group de l’USC/ISI (University of Southern California / Information Sciences Institute), donne son sentiment à ce sujet en septembre 2000 : « En tant qu’universitaire, je suis bien sûr un des parasites de notre société (remarque à prendre au deuxième degré, ndlr), et donc tout à fait en faveur de l’accès libre à la totalité de l’information. En tant que co-propriétaire d’une petite start- up, je suis conscient du coût représenté par la collecte et le traitement de l’information, et de la nécessité de faire payer ce service d’une manière ou d’une autre. Pour équilibrer

ces deux tendances, je pense que l’information à l’état brut et certaines ressources à l’état brut (langages de programmation ou moyens d’accès à l’information de base comme les navigateurs web) doivent être disponibles gratuitement. Ceci crée un marché et permet aux gens de les utiliser. Par contre l’information traitée doit être payante, tout comme les systèmes permettant d’obtenir et de structurer très exactement ce dont on a besoin. Cela permet de financer ceux qui développent ces nouvelles technologies. » En ce qui concerne l’édition spécialisée, à l’heure de l’internet, il paraît assez scandaleux que le résultat des travaux de recherche – travaux originaux et demandant de longues années d’efforts – soit détourné au profit d’éditeurs s’appropriant ce travail et monnayant la diffusion de l’information, sans même une compensation financière pour les auteurs qu’ils publient, ou alors avec une compensation financière ridicule (entre 1 et 3% de droits d’auteur dans certains domaines en France). L’activité des chercheurs est souvent financée par les deniers publics, et de manière substantielle en Amérique du Nord. Il semblerait donc normal que la communauté scientifique et le grand public puissent bénéficier librement du résultat de ces recherches.

C’est ce que pense la Public Library of Science (PLoS), fondée en septembre 2000 par un groupe de chercheurs des universités de Stanford et de Berkeley (Californie) pour contrer les pratiques de l’édition spécialisée. L’association propose de regrouper tous les articles scientifiques et médicaux au sein d’archives en ligne en accès libre. Au lieu d’une information disséminée dans des millions de rapports et des milliers de périodiques en ligne ayant chacun des conditions d’accès différentes, un point d’accès unique permettrait de lire le contenu intégral de ces articles avec moteur de recherche multicritères et système d’hyperliens entre les articles.

Dès sa création, la Public Library of Science fait circuler une lettre ouverte demandant que les articles publiés par les éditeurs spécialisés soient distribués librement dans des services d’archives en ligne, et incitant les signataires de cette lettre à promouvoir les éditeurs prêts à soutenir ce projet. La réponse de la communauté scientifique internationale est remarquable. Au cours des deux années suivantes, la lettre ouverte est signée par plus de 30.000 chercheurs de 180 pays différents. Bien que la réponse des éditeurs soit nettement moins enthousiaste, plusieurs éditeurs donnent également leur accord pour une distribution immédiate des articles publiés par leurs soins, ou alors une distribution dans un délai de six mois.

Un des objectifs de la Public Library of Science est de devenir elle-même éditeur. L’association fonde une maison d’édition scientifique non commerciale qui reçoit en décembre 2002 une subvention de 9 millions de dollars de la part de la Gordon and Betty Moore Foundation. Une équipe éditoriale de haut niveau est constituée début 2003 pour lancer des périodiques de qualité selon un nouveau modèle d’édition en ligne basé sur la diffusion libre du savoir. Les deux premiers titres, PLoS Biology (lancement en octobre 2003) et PLoS Medicine (lancement en 2004) seront suivis d’autres titres couvrant la chimie, l’informatique, la génétique et l’oncologie. Ces périodiques seront également disponibles en version imprimée, cette dernière étant vendue par abonnement au prix coûtant (couvrant les frais de fabrication et de distribution).

La diffusion libre du savoir passe aussi par l’accès aux cours dispensés par les universités et les grands établissements d’enseignement. Interviewé en mai 2001,

Christian Vandendorpe, professeur à l’Université d’Ottawa, salue « la décision du MIT (Masachusetts Institute of Technology) de placer tout le contenu de ses cours sur le web d’ici dix ans, en le mettant gratuitement à la disposition de tous. Entre les tendances à la privatisation du savoir et celles du partage et de l’ouverture à tous, je crois en fin de compte que c’est cette dernière qui va l’emporter. » Mise en ligne en septembre 2002, la version pilote du MIT OpenCourseWare offre en accès libre le matériel d’enseignement de 32 cours représentatifs des cinq départements du MIT. Les cours (textes, vidéos, travaux pratiques en laboratoire, simulations, etc.) sont régulièrement actualisés. Le lancement officiel du site a lieu en septembre 2003, avec accès à plusieurs centaines de cours. La totalité des 2.000 cours dispensés par le MIT devrait être disponible en septembre 2007. Le MIT espère que cette expérience de publication électronique - la première du genre – permettra de définir un standard et une méthode de publication, et qu’elle incitera d’autres universités à créer des sites semblables pour la mise à disposition gratuite de leurs propres cours.

Dans le document Le livre 010101 (1998-2003) (Page 66-71)