• Aucun résultat trouvé

Bases textuelles

Quelques exemples

Le web favorise la création et la consultation de bases textuelles. Le laboratoire ATILF (Analyse et traitement informatique de la langue française) gère plusieurs bases textuelles payantes, par exemple Frantext, un corpus à dominante littéraire de textes français (16e-20e), ou encore l’Encyclopédie de Diderot, réalisée en collaboration avec le

programme ARTFL (American and French Research on the Treasury of the French Language) de l’Université de Chicago. En accès libre, la section « Dictionnaires » de l’ATILF est une collection de dictionnaires informatisés comprenant les dictionnaires de Robert Estienne (1552), Jean Nicot (1606) et Pierre Bayle (1740), plusieurs éditions des dictionnaires de l’Académie française (1694, 1798, 1835, 1932-1935, 1992) et enfin le Trésor de la langue française informatisé (TLFi, 1971-1994).

Débutée en 1995 par l’Institut national de la langue française (INaLF, remplacé par le laboratoire ATILF en janvier 2001), la base Frantext, en accès payant, comprend en janvier 1998 180 millions de mots-occurrences résultant du traitement informatique de 3 500 unités textuelles en arts, sciences et techniques, une collection représentative couvrant cinq siècles (16e-20e). 82 centres de recherche et bibliothèques universitaires

d'Europe, d'Australie, du Japon et du Canada y sont abonnés, ce qui représente 1 250 postes de travail, avec une cinquantaine d’interrogations de la base par jour.

L’ARTFL est un projet commun du CNRS (Centre national de la recherche scientifique, France) et de l’Université de Chicago (Illinois, Etats-Unis). L’ARTFL propose notamment une version en ligne exhaustive de la première édition (1751-1772) de l’Encyclopédie ou Dictionnaire raisonné des sciences, des métiers et des arts de Diderot et d’Alembert. 72 000 articles rédigés par plus de 140 collaborateurs (dont Voltaire, Rousseau, Marmontel, d’Holbach, Turgot, etc.) font de cette encyclopédie un monumental ouvrage de référence, avec 17 volumes de texte, 11 volumes de planches, 18 000 pages et 20,8 millions de mots. Destinée à rassembler puis divulguer les connaissances de l’époque, elle porte la marque des courants intellectuels et sociaux du Siècle des Lumières, dont elle aide à propager les idées.

En 1998, la base de données correspondant au premier volume est accessible sur le web en démonstration libre, à titre expérimental. La recherche est possible par mot, portion de texte, auteur ou catégorie, ou en combinant ces critères entre eux. On dispose de renvois d’un article à l’autre, et de liens permettant d’aller d’une planche au texte, ou d’aller du texte au fac-similé des pages originales. Il reste encore à corriger les erreurs typographiques et les erreurs d’identification dues à l’automatisation complète des procédures de saisie. Il reste aussi à compléter la recherche textuelle par la recherche d’images, envisagée par mot, portion de texte (légende) et catégorie. C'est chose faite dans les années qui suivent.

L’ARTFL propose également les versions en ligne du Dictionnaire de l’Académie française (1694-1935), de l’édition illustrée du Dictionnaire historique et critique de Philippe Bayle (1740), du Thresor de la langue française de Jean Nicot (1606), etc. Autre exemple, très différent, et dû cette fois à une initiative individuelle : le site Rubriques à Bac. Créé en 1998 par Gérard Fourestier, diplômé en science politique et professeur de français à Nice, le site regroupe des bases de données à destination des lycéens et des étudiants. ELLIT (Eléments de littérature) propose des centaines d’articles sur la littérature française du 12e siècle à nos jours, ainsi qu’un répertoire

d’auteurs. RELINTER (Relations internationales) recense 2 000 liens sur le monde contemporain depuis 1945. Ces deux bases de données sont accessibles par souscription, avec version de démonstration en accès libre. Lancé en juin 2001 dans le prolongement d’ELLIT, la base de données Bac-L (baccalauréat section lettres) est en accès libre.

En octobre 2000, Gérard Fourestier raconte : « Rubriques à Bac a été créé pour répondre au besoin de trouver sur le net, en un lieu unique, l’essentiel, suffisamment détaillé et abordable par le grand public, dans le but : a) de se forger avant tout une culture tout en préparant à des examens probatoires à des études de lettres - c’est la raison d’ELLIT (Eléments de littérature), base de données en littérature française ; b) de comprendre le monde dans lequel nous vivons en en connaissant les tenants et les aboutissants, d’où RELINTER (Relations internationales). J’ai développé ces deux matières car elles correspondent à des études que j’ai, entre autres, faites en leur temps, et parce qu’il se trouve que, depuis une dizaine d’années, j’exerce des fonctions de professeur dans l’enseignement public (18 établissements de la 6e aux terminales de

toutes sections et de tous types d’établissements). (...)

Mon activité liée à internet consiste tout d’abord à en sélectionner les outils, puis à savoir les manier pour la mise en ligne de mes travaux et, comme tout a un coût et doit avoir une certaine rentabilité, organiser le commercial qui permette de dégager les recettes indispensables ; sans parler du butinage indispensable pour la recherche d’informations qui seront ensuite traitées. (...) Mon initiative à propos d’internet n’est pas directement liée à mes fonctions de professeur. J’ai simplement voulu répondre à un besoin plus général et non pas étroitement scolaire, voire universitaire. Débarrassé des contraintes du programme, puisque j’agis en mon nom et pour mon compte et non "es- qualité", mais tout en donnant la matière grise qui me paraît indispensable pour mieux faire une tête qu’à la bien remplir, je laisse à d’autres le soin de ne préparer qu’à l’examen. »

Les recettes de Rubriques à Bac sont consacrées à la réalisation de projets éducatifs en Afrique. Par la suite, Gérard Fourestier aimerait développer des bases de données dans d’autres domaines, par exemple l’analyse sociétale, l’analyse sémantique ou l’écologie.

Payant versus gratuit

Bases de données payantes à destination des organismes et des particuliers qui en ont les moyens, ou bases de données gratuites à la disposition de tous ? Au début des années 2000, les outils dont on dispose pour créer et gérer des bases textuelles à moindres frais permettent de pencher vers la deuxième solution, tout au moins lorsqu’il existe une véritable volonté dans ce sens.

Emilie Devriendt, élève professeur à l’Ecole normale supérieure (ENS) de Paris, écrit en juin 2001 : « L’avenir me semble prometteur en matière de publications de ressources en ligne, même si, en France tout au moins, bon nombre de résistances, inhérentes aux systèmes universitaire et éditorial, ne risquent pas de céder du jour au lendemain (dans dix, vingt ans, peut-être ?). Ce qui me donne confiance, malgré tout, c’est la conviction de la nécessité pratique d’internet. J’ai du mal à croire qu’à terme, un chercheur puisse se passer de cette gigantesque bibliothèque, de ce formidable outil. Ce qui ne veut pas dire que les nouvelles pratiques de recherche liées à internet ne doivent pas être réfléchies, mesurées à l’aune de méthodologies plus traditionnelles, bien au contraire. Il y a une histoire de l’"outillage", du travail intellectuel, où internet devrait avoir sa place. »

Professeur au département d’études françaises de l’Université de Toronto, Russon Wooldridge est le créateur de ressources littéraires librement accessibles en ligne. En 2001, sa tâche se trouve facilitée par TACTweb (TACT : text analysis computing tools). Développé par John Bradley, informaticien au King’s College London (Royaume-Uni), et par Geoffrey Rockwell, professeur à la McMaster University (Canada), TACTweb est un logiciel de recherche de données textuelles en ligne. En mai 2001, Russon Wooldridge explique : « La dernière version de TACTweb permet dorénavant de construire des bases interactives importantes comme les dictionnaires de la Renaissance (Estienne et Nicot ; base RenDico), les deux principales éditions du Dictionnaire de l’Académie française (1694 et 1835), les collections de la Bibliothèque électronique de Lisieux (base LexoTor), les œuvres complètes de Maupassant, ou encore les théâtres complets de Corneille, Molière, Racine, Marivaux et Beaumarchais (base théâtre 17e-

18e). À la différence de grosses bases comme Frantext ou ARTFL nécessitant

l’intervention d’informaticiens professionnels, d’équipes de gestion et de logiciels coûteux, TACTweb, qui est un gratuiciel que l’on peut décharger en ligne et installer soi-même, peut être géré par le chercheur individuel créateur de ressources textuelles en ligne. »

Autre exemple, le projet HyperNietzsche, lancé en 2000 sous la direction de Paolo d’Iorio, chargé de recherches à l’Institut des textes et manuscrits modernes (ITEM) du CNRS. Ce projet expérimental « vise à créer une infrastructure de travail collectif en réseau, lit-on sur le site web. Cette infrastructure sera d’abord appliquée et testée sur l’œuvre de Nietzsche, pour être ensuite généralisable à d’autres auteurs, à l’étude d’une

période historique ou d’un fonds d’archive, ou à l’analyse d’un problème philosophique. Il ne s’agit donc pas seulement d’un projet de numérisation et de mise en réseau d’un ensemble de textes et d’études sur Nietzsche, ni d’une édition électronique conçue comme un produit confectionné et offert à la consultation, mais plutôt d’un instrument de travail permettant à une communauté savante délocalisée de travailler de façon coopérative et cumulative et de publier les résultats de son travail en réseau, à l’échelle de la planète. Il ne s’agit pas seulement d’une bibliothèque de textes électroniques en ligne, plus ou moins bien indexée, accompagnée d’un moteur de recherche par mots- clés ou en texte intégral. C’est un véritable système hypertextuel qui permet tout d’abord de disposer les textes et les manuscrits de Nietzsche selon des ordonnancements chronologiques, génétiques ou thématiques, et surtout d’activer un ensemble de liens hypertextuels qui relient les sources primaires aux essais critiques produits par les chercheurs. » Le texte intégral consacré à la présentation du projet est disponible pendant deux ans en accès libre sur le site des PUF (Presses universitaires de France). Son équivalent imprimé est publié en octobre 2000 dans la série « Ecritures électroniques » de la collection « Que sais-je ? ».

En février 2003, Emilie Devriendt fait à nouveau le point : « Dans ce domaine que l’on appelle parfois l’informatique littéraire, deux aspects du texte électronique m’intéressent plus particulièrement, dans une perspective d’enseignement ou de recherche : la publication de ressources textuelles, par exemple littéraires, sur le web au format texte ou au format image (exemple : Gallica ou la Bibliothèque électronique de Lisieux) ; la publication de bases de données textuelles interactives, c’est à dire d’outils de recherche et d’analyse linguistique appliqués à des textes électroniques donnés (exemple : la Nefbase du Net des études françaises ou, si l’on veut citer une banque de données payante, Frantext). Aujourd’hui ce type de ressources est relativement bien développé (même si aucune "explosion" ne semble avoir eu lieu si l’on compare la situation actuelle à celle d’il y a deux ou trois ans). En revanche, on ne peut véritablement mesurer les usages qui en sont faits. »