• Aucun résultat trouvé

Le CD-ROM Rabelais

N/A
N/A
Protected

Academic year: 2021

Partager "Le CD-ROM Rabelais"

Copied!
26
0
0

Texte intégral

(1)

HAL Id: hal-01569940

https://hal.archives-ouvertes.fr/hal-01569940

Submitted on 28 Jul 2017

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Le CD-ROM Rabelais

Étienne Brunet

To cite this version:

Étienne Brunet. Le CD-ROM Rabelais. Travaux du cercle linguistique de Nice, 1994, pp.43-79. �hal-01569940�

(2)

Étienne Brunet

LE CD-ROM RABELAIS

Dans un article, déjà ancien1 et intitulé Tous les chemins mènent-ils au CD-ROM,

nous nous interrogions sur l'avenir de ce nouveau support, qu'on proposait de nommer en France DOC (Disque Optique Compact) ou DON (Disque Optique Numérique). Ni l'une ni l'autre de ces appellations ne s'est imposée mais l'objet lui-même est bel et bien installé dans la réalité économique, au point d'y menacer les autres supports de l'information et les autres canaux de la diffusion. Et l'édition traditionnelle s'inquiète devant ce concurrent bon marché, comme les moines copistes au temps de Gutenberg. Le démarrage a pourtant été lent, donnant tort - provisoirement - aux prophètes de la première heure qui, il y a dix ans, annonçaient au CD-ROM le même succès éclatant que rencontrait son frère aîné, le disque laser audio. Et dans l'article précité, écrit il y a cinq ans, nous recommandions d'attendre encore. Nous n'étions certes satisfait d'aucun des systèmes de stockage et de distribution que proposait alors la technologie, parce qu'aucun n'offrait à la diffusion les qualités qui furent, pendant cinq siècles, l'apanage du papier: le faible coût et la standardisation. La guerre des standards a tué dans l'oeuf plusieurs procédés dont la qualité technique n'était pas en cause, par exemple les multiples types de WORM (ou disque laser inscriptible une fois), les différents formats de disques magnéto-optiques, les diverses variétés de cartouches Bernouilli ou SYQUEST. Tous ces supports subsistent encore à côté de l'ordinateur, avec leurs lecteurs dédiés et dépareillés, et remplissent encore leur rôle premier de mémoire de masse, associés à l'indétrônable disque dur. Mais on a renoncé pour eux au rôle second qu'ils devaient tenir: celui de diffusion. Il ne vient à l'idée de personne d'envoyer par la poste un WORM, car il faudrait un miracle pour que le correspondant dispose d'un appareil de lecture compatible avec le produit expédié. Ce miracle se produit parfois avec les cartouches SYQUEST (ou disques durs amovibles), qui circulent parfois d'une administration à l'autre, ou d'un laboratoire à l'autre. Cela est rarement le fruit du hasard, mais plus souvent le résultat d'une politique concertée des achats. Mais les SYQUEST sont des produits relativement chers et impropres à une distribution de masse. Et jusqu'à l'avènement du CD-ROM seule l'éternelle disquette a pu jouer ce rôle d'intermédiaire entre le producteur et le destinataire. La disquette est discrète, on peut la glisser dans une enveloppe et l'expédier au bout du monde, en étant certain que le correspondant ne sera guère embarrassé pour la lire, d'autant qu'on peut désormais sauter à pieds joints le ruisseau qui sépare les formats Apple et IBM. Mais les avantages de la disquette sont compensés par de graves handicaps. Elle est légère, mais aussi frivole et peu sûre: elle perd facilement la mémoire des messages qu'on lui confie. Elle se fatigue tôt et ne va ni vite ni loin. À peine peut-elle dépasser, en ahanant, le million de caractères. Aussi bien la disquette a-t-elle été jusqu'ici le support privilégié dans la transmission des logiciels, parce que taille du contenu et du contenant était accordée l'une à l'autre et qu'elle s'accordait aussi à celle de la mémoire vive des microordinateurs.

Mais en peu d'années tout a changé. La mémoire a vivement gonflé, et les logiciels ont pris de l'embonpoint, au point qu'une disquette, même si l'on a recours au compactage, ne suffit plus à les contenir. Et toute installation de logiciel se fait souvent au prix d'un

(3)

va-et-vient épuisant d'une disquette à l'autre. Même dans ce rôle de distribution spécifique, le CD-ROM tend à supplanter la disquette et cette pratique tentée par NEXT et devenue courante sur les stations de travail s'étend maintenant au système du PowerMac. Mais il y a tant d'autres choses à diffuser, qui échappent à la disquette et au papier et qui alimentent dans le monde d'aujourd'hui, le flot ininterrompu des textes, des images et des sons. Même les voies de télécommunications ne parviennent pas à écouler l'inondation. Le gigantesque réseau Internet est déjà victime des embouteillages trop prévisibles et le CD-ROM apparaît comme une alternative à la télématique, ou mieux comme son complément. Dans le torrent boueux de l'information, il peut jouer le rôle de bassin de régulation et de décantation et délivrer une eau plus pure et plus stable. Ce rôle lui était dévolu dès l'origine, vu sa stabilité inaltérable et sa capacité considérable. Mais le débit du CD-ROM restait insuffisant, en volume et en vitesse d'écoulement. Ces défauts de jeunesse ont été corrigés. L'accès est devenu plus rapide (de l'ordre de 300 millisecondes) et le taux de transfert a doublé (300 000 caractères par seconde). Déjà apparaissent sur le marché des appareils qui quadruplent les performances initiales et l'on annonce pour 1996 un nouveau standard HDCD qui contiendrait plus de 3 milliards de caractères et pourrait transférer 2 à 3 millions de caractères à la seconde. Les applications multimédia que freinent encore le débit insuffisant du CD-ROM actuel vont pouvoir se déployer sans retenue, comme la vidéo haute définition et la réalité virtuelle.

Mais d'ores et déjà le CD-ROM apparaît sans conteste comme le support adéquat pour la distribution des données volumineuses, qu'il s'agisse des brochures techniques, des encyclopédies, et des bases de données de toutes sortes, structurées ou non, qui contiennent du texte, des images, animées ou fixes, et des sons. À l'instar des documentations techniques, juridiques, administratives, industrielles, médicales, etc., les données artistiques, littéraires et linguistiques entrent désormais dans le champ d'application du CD-ROM. Et déjà un gigantesque affrontement oppose aux éditeurs traditionnels les promoteurs du CD-ROM, au premier rang desquels se trouvent les producteurs de logiciels et de bases de données. Des entreprises comme Microsoft s'emploient à faire une razzia sur les musées, les films, la musique et la littérature et acquérir, même au prix fort, les droits de reproduction, en vue d'une commercialisation sur CD-ROM. Alors que les premiers CD-ROM ont eu une diffusion restreinte sur un marché hésitant1 - leur prix était élevé et dissuasif -, ceux que le marché propose

aujourd'hui sont dix fois moins chers et cent fois plus variés. Comme le lecteur de CD-ROM tend à être le complément indispensable de l'ordinateur, au même titre que le lecteur de disquettes ou le modem, le marché se développe de façon exponentielle et il n'est plus besoin de prophète pour prévoir un avenir assuré. Il importe peu de vouloir démêler si l'outil crée le besoin ou le besoin l'outil, puisqu'on constate la présence de l'un et l'autre et leur développement mutuel.

Comme il arrive souvent dans les secteurs de pointe, la France a pris du retard. Les titres disponibles en français ne sont pas légion et le frein du copyright gêne plus qu'ailleurs le développement de la nouvelle technologie. Et une fois encore l'avancée technique prend de court la législation, la réflexion et l'initiative. Pourtant la France n'est pas démunie, si l'on considère son patrimoine culturel. Il y a là un gisement dont l'exploitation ne laisse pas indifférents les entrepreneurs américains ou japonais, et on a vu récemment Microsoft tenter de mettre la main sur les trésors du Louvre. Les réussites nationales comme le CD-ROM Léonard de Vinci, le Robert électronique, ou Discotext 1, sont encore trop clairsemées et certaines de ces réalisations datent déjà (leur prix aussi).

1 Par exemple le prix du Robert électronique était accordé à celui du Grand Robert en 9 volumes et

dépassait 5000 frs, comme celui de l'EOD d'Oxford, ou de DISCOTEXT 1, de l'Institut National de la langue française..

(4)

Tandis que les sociétés de logiciel occupent le terrain, les éditeurs français, mis à part Hachette, restent dans l'expectative, calculant le prix des investissements et les risques de la reconversion. S'ils ne vont pas très vite au CD-ROM, ils seront peut-être contraints d'aller bientôt à Canossa.

- I - L'exploration

Sans vouloir présenter le présent CD-ROM RABELAIS comme un exemple, encore moins comme un modèle, nous espérons montrer à travers cette réalisation les résultats, documentaires ou quantitatifs, auxquels on peut parvenir quand on exploite un si petit objet, qui, avec 15 grammes de matière, pèse autant qu'une bibliothèque, et une si petite surface , qui ne dépasse pas la taille d'une page et qui en contient pourtant un demi-million, chacune étant accessible en une demi-seconde. Ce CD-ROM a profité de l'expérience acquise au cours d'un projet précédent qui visait à offrir un hypertexte à partir de l'oeuvre de Julien Gracq. Cette réalisation a vu sa diffusion différée quelque temps pour des questions de copyright, en l'absence de législation claire sur ce point. Mais, s'agissant de Rabelais, les droits d'auteur ou d'éditeur ont perdu beaucoup de leur acuité, d'autant que le texte a été puisé à la source même du manuscrit1.

La base RABELAIS a été réalisée avec le logiciel HYPERBASE (version spéciale 2.4 orientée vers le CD-ROM). Quand on ouvre le présent CD-ROM on est en présence d'une quinzaine d'icônes, dont seule la première, RABELAIS, contient la base.

Il suffit de cliquer deux fois sur l'application RABELAIS pour lancer le programme d'exploitation. Il est toutefois prudent de lire au préalable les quelques lignes du fichier INSTALLER (ou du fichier A LIRE). Les utilisateurs les moins pressés et les mieux organisés pourront tirer profit aussi de la VISITE GUIDÉE qu'on a prévue à leur intention et qui décrit en séquences animées et sonores les principales fonctionnalités de la base. Prendre garde que ces animations nécessitent la présence de QUICKTIME (version 2.0) dans le dossier Système. Si QUICKTIME n'y est pas disponible, opérer d'abord le transfert de cette extension, en la puisant dans le dossier OUTILS du présent CD-ROM2.

1 Le maître d'oeuvre pour l'établissement du texte et l'ensemble du projet est Marie-Luce

DEMONET, qui a succédé à Guy DEMERSON à la tête du laboratoire EQUIL XVI (Équipe Informatique

et Lettres pour le XVIe siècle, Université Clermont II).

2 La base est double-cliquable ("standalone") et ne nécessite pas la présence d'HYPERCARD.

L'application s'accommode des systèmes 6 et 7 et des différents microprocesseurs utilisés depuis dix ans. Elle fonctionne sur toute la gamme APPLE (Mac Plus, SE, MAC II, LC, Quadra, Powerbook,

(5)

LES DOCUMENTS ANNEXES

Certains résultats longs à obtenir sont déjà disponibles sur la surface quasi illimitée du CD-ROM, notamment le Dictionnaire de Rabelais, l'Index synoptique de tout le corpus ou la Concordance complète, répartie en deux fichiers pour plus de commodité.

Ces fichiers sont au format WORD 5 de Microsoft. En voici quelques spécimens:

Dictionnaire des fréquences

écart total PANT GARG TIER QUAR CINQ Ines Admi Disc Prog Nouv beat 2.2 3 0 0 2 1 0 0 0 0 0 0 beates 1 0 0 0 1 0 0 0 0 0 0 beati 5.3 3 1 1 0 1 0 0 0 0 0 0 beatifiee 1 0 1 0 0 0 0 0 0 0 0 beatitude -0.9 1 0 1 0 0 0 0 0 0 0 0 beatius 1 0 0 1 0 0 0 0 0 0 0 beatum 1 0 0 0 0 0 0 0 0 1 0 beatus 1 0 0 0 1 0 0 0 0 0 0 beatz 9.6 6 1 0 3 2 0 0 0 0 0 0 beau 7.8 185 36 33 22 32 18 1 18 3 1 21 2.2 .9 -2.5 -.9 -1.4 -1.8 .3 -2.1 -.6 16.5 beaucop 1 0 0 0 0 0 0 0 0 1 0

Index synoptique

total PANT GARG TIER QUAR CINQ Ines Admi Disc Prog Nouv vray 96 5a 1b 14b 134a 5c - 212b 2c - - 21a 6b 19b 139a 18c - 227c 3c - - 43b 7c 37b 144e 25b - 228e 3e - - 77a 87c 44b 146b 25e - 237d 4f - - 86a 153b 88c 161d 29c - 263c 14a - - 94b 154c 98b 200c 41d - 266d 28b - - 98a 162b 100b 209a 43c - 268c 39e - - 105a 176c 114c 227d 58a - 278e 39j - - 111d 188a 126d 230a 69e - - - - - 147b 201a 138b 242b 74a - - - - - 255a 218c 138b 249b 118b - - - - - 256d 220a 146a 274a 122c - - - - - 257a 221c 159b 275c 129e - - - - - - 244a 164c 307c 147d - - - - - - - 170b 312b 152c - - - - - - - 174c 322b 184a - - - - - - - 181c - 186a - - - - - - - 231a - - - - - - 312d - - - - - - 318a - - - - vraybis 6 - - 45a 63a - - - - - - 121a 241d - - - - - - - 246c - - - - - - - 264d - - - - vraye 32 81d 88c 31a 274c 6d - 166a 3c 14c 57a 125b 121b 114c - 42d - 280b 5c - 57a - 136d 146a - 83c - - 44d - - - 224a 154c - 106b - - - - - - 235d 163c - 126d - - - - - - 279c 179a - 149b - - - - - - - 191b - - - - - - 210d - - - - - - 261c - - - - PowerMac), à condition que la mémoire soit suffisante (il faut 2 ou 3 Mo pour la base et 5 Mo si l'on

désire profiter pleinement des ressources de l'animation et du son, à quoi il faut ajouter 0,5 Mo pour certains programmes extérieurs et bien entendu la mémoire nécessaire au système). La vitesse dépend du microprocesseur utilisé (on recommande le 8030, le 8040 ou le PowerPC) et du lecteur de CD-ROM (les meilleurs résultats sont obtenus avec un lecteur double vitesse, comme le modèle AppleCD 300).

(6)

Concordance alphabétique

oraison 3.7 8 GA 222b| Et ce je appelle mocquedieu non oraison . Mais ainsi leurs ayde dieu GA 229a| . Toutesfoys je scay quelque oraison , que m' a baille le GA 300b| composer tant en carme que en oraison solue . ¶ Jamais ne feurent QU 41b| l' embarquement . ¶ Apres l' oraison feut melodieusement chanté le QU 123a| grand Dieu Servateur et faicte oraison publicque en fervente devotion QU 193b| Rome estant un jour seulet en oraison on temple de Serapis , a la CI 7c| Gallique , tant en vers qu' en oraison soluë plusieurs excellens DI 26d|ilz se missent tous en priere et oraison , et qu' ilz jeunassent trois oraisons 5 PA 138c|disoys mes menuz suffrages , et oraisons de saincte_Brigide : mais il GA 9b| reproche par un chagrin que ses oraisons sentoient comme la serpilliere TI 56b| petit , que Patenostres et oraisons Sont pour ceulx la qui les QU 21b| , invocquer Juppiter par oraisons moult disertes ( comme vous QU 220b| particulieres rouaisons et oraisons . ¶Et n' y sçavez vous , orange 5 PA 156c| avoit mis une belle pomme d' orange . ¶

PA 163c| de la dextre print sa pomme d' orange , et la gettant en l' air par PA 176c| gros comme une pomme d' orange : elles ne coustent que vingt et GA 43b| de la grosseur d' une pomme d' orange . ¶Car ( ainsi que dict Orpheus GA 294b|air , de satin , damas , velours orange , tanné , verd , cendré , bleu , oranges 1 GA 207a| Cigouingnes , Cannes petieres , Oranges , Flammans , ( qui sont

Les esprits curieux qui aiment faire le tour des choses avant d'y pénétrer peuvent ouvrir les dossiers d'animation ou d'illustration.

Dans les deux premiers ils trouveront à foison des documents illustrés qui sont en relation avec le texte de Rabelais. Mais cette relation n'est explicitée que par les commentaires contenus dans la base RABELAIS. Les illustrations sont néanmoins indépendantes de la base et peuvent être portées à l'écran et à l'imprimante grâce à l'éditeur SIMPLETEXT qu'on a fourni dans le dossier OUTILS.

Le nom choisi pour ces illustrations et l'icône même qui les représente donne un aperçu de ce qu'elles contiennent, comme dans l'extrait ci-dessous:

Quant au dossier ANIMATION, il fournit des séquences d'explication pour les principales fonctions de la base. Ce sont des fichiers QUICKTIME qui contiennent le son et l'image animée et qui peuvent être ouverts avec le même éditeur SIMPLETEXT ou avec un outil plus spécialisé PLAYER (présent dans le dossier OUTILS). Normalement

(7)

ces séquences sont appelées à partir de la VISITE GUIDÉE ou à partir de la base RABELAIS (quand on demande une aide, comme indiqué plus loin). Il suffit alors d'un clic à l'intérieur de la fenêtre pour interrompre la séquence et libérer l'écran. Quel que soit le mode d'accès, les aides animées et parlantes obéissent aux mêmes actions de pilotage, qu'on déclenche au bas de l'écran.

Réglage son Démarrage Curseur Arrière Avant LES AIDES

Sur toutes les cartes de la base RABELAIS une aide est disponible qu'on peut montrer à l'écran en sollicitant le bouton en forme de point d'interrogation, qui est généralement situé en haut et à droite. Cette aide se borne à expliquer les actions proposées par la carte correspondante. Elle se maintient à l'écran jusqu'au clic de la souris. S'il s'agit de la première carte, l'aide est beaucoup plus détaillée et correspond à l'essentiel du présent mode d'emploi. Un index alphabétique apparaît alors sur la marge droite de l'écran, qui permet de s'informer sur une action particulière. Si l'on choisit par un clic un des mots-clés de cet index, on est renvoyé au paragraphe qui traite de la question, et dans un second temps au manuel entier ouvert à la page concernée. Un clic avec touche OPTION permet de poser une autre question et de consulter à nouveau l'index. On peut obtenir une aide appropriée à chaque bouton en pressant la touche COMMANDE pendant qu'on clique sur ce bouton. Là encore, pour les fonctions essentielles, une explication plus détaillée est proposée sous forme de séquence animée.

LE MENU PRINCIPAL

Le menu principal est le carrefour où l'on revient généralement après une opération. C'est là qu'on est introduit quand on ouvre la pile. C'est là qu'on est conduit quand on sollicite le bouton RETOUR, qui apparaît sur toutes les cartes (sous la forme d'une flèche coudée). C'est là que mène l'ordre CMD 1 (appui simultané sur les touches COMMANDE et 1), que le langage a prévu pour faire apparaître la première carte de la pile. Avant d'y accéder toutefois un passage obligé par la carte d'accueil renseigne l'utilisateur sur la réalisation du présent CD-ROM et les obligations contractées par ses auteurs.

(8)

EXPLORATION LIBRE

L'exploration a recours aux méthodes de l'hypertexte, de deux façons symétriques: 1 - Dans une première démarche, en sollicitant le bouton DICTIONNAIRE, on peut parcourir la liste alphabétique des formes rencontrées, et, en cliquant sur l'une d'entre elles, on voit apparaître tous les passages où cette forme est employée. Le mot repéré apparaît encadré dans le texte et l'écran reste figé, en attendant un clic de la souris pour passer à l'occurrence suivante. Si la touche MAJUSCULE est sollicitée au moment du clic, la phrase où la forme a été relevée est entreposée dans un fichier qui pourra être imprimé à la fin de la session (c'est le fichier SESSION). On peut aussi à tout moment interrompre la recherche en appuyant sur la touche OPTION, qui restitue à l'écran la page du dictionnaire où la forme avait d'abord été observée. On peut aussi précipiter le mouvement en sollicitant la touche COMMANDE.

(9)

Le dictionnaire est réparti sur plusieurs colonnes et plusieurs cartes. Noter que les noms propres y ont été détachés en tête, devant le vocabulaire commun. Eux seuls sont dotés de la majuscule dans le dictionnaire, même si dans le texte la majuscule apparaît aussi en tête de phrase, sans qu'il s'agisse nécessairement d'un nom propre. La conséquence de ce traitement différencié est qu'on veillera, dans les dialogues qui réclament une forme, à utiliser la majuscule lorsqu'on a affaire à un nom propre et à s'en dispenser dans le cas contraire. Bien entendu dans ce dernier cas la recherche se fera en neutralisant l'opposition majuscule/minuscule, afin que les mots à l'initiale des phrases soient traités correctement. Chaque ligne du dictionnaire est consacrée à une forme (ou à un signe) et précise dans l'ordre:

a - la fréquence du mot dans le corpus de Rabelais b - la forme elle-même

c - l'adresse des cartes où l'on relève cette forme (pour économiser l'espace, sans trop perdre de temps, cette indication n'est pas donnée si la fréquence est supérieure à 30)

d - le résultat d'une comparaison avec le corpus de Trésor de la langue française ou plus précisément avec les textes du XVIe siècle qui ont été intégrés dans cet immense corpus (1610 étant la date limite).

e - enfin, séparée du reste par une virgule, la liste des sous-fréquences de la forme dans les différentes parties du corpus.

Le bouton SELECTION permet de préciser un mot ou une zone du dictionnaire et de voir apparaître en vidéo inverse la forme souhaitée dans le champ et la carte où elle se situe. Si la forme n'existe pas, on est renvoyé à la position qu'elle devrait occuper dans la liste alphabétique et où l'on observera les formes voisines. Le bouton CLASSE établit la liste des éléments du vocabulaire qui ont la même fréquence dans le texte et partagent la même classe. Il existe une présentation hiérarchique du dictionnaire, par fréquences décroissantes, à laquelle on a accès par le bouton TRI (voir le tableau ci-dessous). On peut imprimer tout ou partie du dictionnaire en sollicitant le symbole de l'imprimante (bouton EDITION, à l'extrême gauche) selon plusieurs présentations laissées au choix de l'utilisateur. Le modèle en colonnes synoptiques présenté plus haut peut faire place à un autre plus économique où seule compte la fréquence dans le corpus rabelaisien.

Ce listage peut même prendre la forme d'un véritable index, qui donne les références explicites des mots, avec leur numéro de page dans l'édition de référence et la localisation dans la page (grâce à un code alphabétique qui change au bout de 50 mots, le code a dési-gnant le début de la page, et le code e ou f la fin). Le bouton INDEX est prévu à cet effet. On prendra garde que cette édition, comme celle du dictionnaire, est un traitement long qui n'a lieu qu'une fois et dont les résultats sont déjà acquis dans les fichiers montrés plus haut. Diverses options sont proposées, qui diffèrent de la présentation synoptique et peuvent justifier le recours à ce programme, au moins pour un extrait limité à quelques mots.

NAVIGATION DANS LE TEXTE

La seconde démarche propre à l'hypertexte et symétrique de la précédente consiste à feuilleter les pages du texte (le bouton TEXTE permet d'ouvrir l'un des livres du corpus à la page qu'on veut), et à désigner un mot par un clic pour connaître sa fréquence et pour voir les autres contextes de ce mot dans le texte, avant et après la page lue. Dans cette exploration, on peut suivre la séquence des pages (en suivant les flèches DROITE ou GAUCHE) ou se porter directement à un endroit particulier (en sollicitant de nouveau le bouton TEXTE). On peut aussi s’interroger sur un mot, par adressage direct, même s’il ne figure pas dans la page présentée à l’écran (bouton CHERCHER).

(10)

Ces parcours peuvent être suspendus provisoirement (pression sur le bouton de la SOURIS) ou stoppés définitivement (pression simultanée sur la touche OPTION et la SOURIS) ou accélérés (SOURIS + touche COMMANDE).

Pour deux des textes de Rabelais, le Pantagruel et le Quart Livre, on dispose d'une version antérieure et originale à laquelle le texte définitif peut être comparé. Les boutons du haut de l'écran permettent de montrer ou de cacher l'édition originale. Si l'on sollicite le bouton supérieur, les deux versions sont proposées dans une présentation synoptique. En désignant un mot par un clic, on peut localiser ce mot, s'il existe, dans la version parallèle, cette action pouvant être conduite dans un sens ou dans l'autre. On a aussi la possibilité de lire en continu l'édition originale, sans se préoccuper de la correspondance terme à terme.

Choix du texte

Présentation synoptique

D'autres liens ont été établis pour certains mots qui appellent une définition et qui sont mis en rapport avec celle qu'en donnent, à l'époque de Rabelais, le Thresor de la

langue française, de Jean Nicot, ou l'auteur de la Brève déclaration. De tels mots, qui

(11)

Le Gargantua a bénéficié d'un traitement spécial. Grâce à l'abondante documentation réunie par la Bibliothèque Municipale de Lyon et microfilmée par ses soins, on a pu établir des liens, non avec une édition antérieure, mais avec les textes de l'époque, que Rabelais a pu connaître ou inspirer. Quand une page contient de tels liens, une icône apparaît en bleu au haut de l'écran. Et pareillement l'italique désigne à l'attention un ou plusieurs passages de la page.

En cliquant, soit sur l'icône en forme de personnage, soit un mot en italique, on rend active la liaison avec le document correspondant, dont le commentaire est d'abord montré à l'écran. Ces commentaires comportent toujours une zone en corps gras qu'on doit atteindre parfois par l'ascenseur et qui regroupe les illustrations disponibles. Un clic sur l'une d'elles fait apparaître l’image, qui elle-même obéit à son tour au clic de la souris, soit pour changer le format et provoquer alternativement agrandissement ou réduction (un format plus large est même disponible si l'on sollicite la touche COMMANDE), soit pour dissiper l'image, si l'on presse la case de fermeture, en haut à gauche.

(12)

- II -

L'exploitation documentaire

RECHERCHE MÉTHODIQUE

En dehors de la circulation libre à travers le texte et le dictionnaire, le logiciel propose dans la carte 1 les outils propres à assurer une exploitation méthodique de la documentation. Les deux programmes essentiels CONCORDANCE et CONTEXTE obéissent aux mêmes principes et ne se distinguent que par la présentation des résultats:

(13)

Résultats du programme CONTEXTE

1 - Si l'on met en oeuvre le bouton CONTEXTE (le résultat figure dans l'écran

ci-dessus), chaque occurrence de ce qu'on cherche est située et montrée dans le contexte naturel du paragraphe. Quand ce paragraphe est trop court, on restitue également le précédent. Pour permettre la reconnaissance aisée du mot (ou de l'expression) dans le contexte, ce mot (ou expression) peut être converti en lettres capitales dans le paragraphe où il est rencontré. En cliquant sur l'un des exemples relevés, on l'enregistre dans le fichier des résultats SESSION.

2 - Si l'on fait appel à CONCORDANCE (écran ci-dessous), on obtient un contexte

étroit qui tient en une ligne et qui montre la forme (ou l'expression) cherchée, en position centrale, avec une demi-douzaine de mots à gauche et à droite.

Lorsqu'on estime ce contexte trop étroit, un simple clic sur une ligne permet instantanément de retrouver le paragraphe où elle s'insère, et, si l'on maintient enfoncée la touche MAJUSCULE, la page tout entière. Le contexte reste exposé (avec encadrement du mot) jusqu'au moment où un nouveau clic le fait disparaître. On dispose donc d'une fonction de "zoom" capable d'agrandir instantanément le contexte d'un mot donné. Qu'il s'agisse du paragraphe ou de la page, l'indication du chapitre est également fournie afin que les usagers qui ne disposent pas de l'édition de référence puissent s'y retrouver.

(14)

Résultats du programme CONCORDANCE

CLIC SUR UNE LIGNE

Clic sur une ligne -> le paragraphe

(15)

Dans les deux procédures, CONTEXTE et CONCORDANCE, un dialogue rapide s'engage (voir ci-dessous) qui permet à l'utilisateur de préciser sa recherche, en choisissant les options proposées par les boutons

• présence ou non d'un filtre de sélection.

On suppose que le filtre est constitué par le premier mot au début du paragraphe, comme c'est l'usage dans la transcription des dialogues. Ce mot peut n'être qu'un code ou caractère particulier.

• visualisation ou non des contextes pendant la recherche

• présentation et tri des contextes

Le programme CONCORDANCE offre l'opportunité supplémentaire d'un tri des résultats. La présentation habituelle est séquentielle et suit l'ordre du texte. Mais on peut vouloir regrouper les contextes qui partagent une zone commune, soit à droite du mot ou de l'expression qui sert de pôle, soit à gauche. Les deux variétés de tri sont offertes, au départ de l'action, mais aussi à l'arrivée. Car il est encore temps quand la concordance est établie, de procéder au tri en sollicitant les boutons situés au haut et à droite de l'écran.

• portée de la recherche:

corpus entier ou texte particulier

• objet de la recherche.

La recherche peut porter non seulement sur une forme, mais aussi:

a - sur une EXPRESSION (une suite de mots ou de signes), par exemple vertus Dieu. b - sur les DÉBUTS DE MOT, ce qui résout en partie les problèmes de la lemmatisation ou du regroupement des formes. En fournissant la chaîne aim, on atteindra indirectement toutes les formes conjuguées du verbe aimer, mêlées il est vrai à des formes ou dérivés étrangers au paradigme proposé.

c - sur une CHAINE de caractères, où qu'elle se trouve dans un mot. Ainsi en recherchant la chaîne vain, on obtiendra vainqueur, convaincu, Gauvain, escrivains, outre l'adjectif vain et l'adverbe en vain.

d - sur les FINS DE MOT. Il s'agit là d'une forme particulière du cas précédent, un blanc étant ajouté - par le programme - à la chaîne recherchée. Ainsi en formulant une demande sous la forme ment, on filtrera tous les dérivés en -ment . Prendre garde qu'il n'y a pas de catégorisation grammaticale dans ce programme simplifié, et le suffixe en -ment récoltera les adverbes (aisement) aussi bien que les substantifs (advenement) et quelques verbes (afferment) ou adjectifs (clement).

e - sur les COOCCURRENCES. Seuls sont restitués les contextes qui contiennent la présence simultanée de deux formes choisies. Par contexte il faut entendre le paragraphe.

f - sur une LISTE DE MOTS, préalablement constituée. Solliciter d'abord le bouton LISTE de la carte principale, qui adresse l'utilisateur à une carte spéciale où divers modules de sélection sont proposés.

(16)

CONTRÔLE DE LA RECHERCHE

Quelle que soit la recherche engagée, l'utilisateur assiste en témoin privilégié aux opérations en cours. Chaque occurrence du mot cherché est montrée et encadrée dans la page même. Si l'apparition est jugée trop fugitive, on peut suspendre quelques secondes le défilement en appuyant sur le bouton de la SOURIS. Inversement on peut toujours précipiter les choses (touche COMMANDE) ou arrêter net l'opération en cours en appuyant sur la touche OPTION tandis qu'on sollicite la SOURIS. Si l'exemple relevé est jugé intéressant, la pression sur la touche MAJUSCULE (au moment du clic sur la souris) permet d'enregistrer dans le fichier des résultats SESSION le paragraphe qui contient l'exemple (ce fichier ASCII pouvant être modifié et imprimé par tout éditeur ou traitement de texte).

Bien entendu la commande COMMANDE : qui est inhérente à Hypercard interrompt tout programme de la pile, sauf dans les occasions où le contrôle est donné à une application extérieure, par exemple à un éditeur, ou à un programme du menu POMME. Si l'on se place volontairement dans une telle situation (où les automatismes prévus par HYPERBASE sont suspendus), un bouton en forme de flèche coudée (placé généralement dans le coin droit) permet toujours de revenir à la carte 1, qui sert de cabine de pilotage et qui permet la reprise du traitement normal.

Quoique les différents boutons aient un graphisme et une désignation suffisamment explicites, partout une AIDE est disponible, sur toutes les cartes. Il suffit de cliquer le bouton qui fait problème en maintenant enfoncée la touche COMMANDE.

Pour quitter l'application, solliciter le bouton QUITTER (symbole de la maison). Un adieu aimable apparaît alors à l'écran. À quelque endroit que l'on se trouve dans la pile, un départ précipité mais non incivil est possible quand on donne l'ordre au clavier COMMANDE Q. Si l'on a entreposé dans le fichier SESSION des résultats intéressants, on est invité, avant de quitter définitivement HYPERBASE, à les imprimer ou à les enregistrer sous une forme plus durable, en changeant le nom du fichier SESSION.

RESULTATS ET IMPRESSION

1 - Le symbole de l'imprimante laser apparaît sur toutes les cartes. Grâce à ce bouton,

on peut envoyer à l'organe d'impression le contenu de l'écran et plus généralement le champ entier dont l'écran ne montre souvent qu'une fenêtre étroite.

2 - Un bouton portant le symbole W (pour Word ou Write) apparaît en haut et à droite

de la carte 1. Il a pour fonction d'appeler un éditeur extérieur en lui fournissant le nom du fichier à éditer. Quand on le sollicite, on doit maintenir la pression sur le bouton de la souris pour dérouler le menu qui propose les choix préétablis (fichiers ANALYSE, CONCORDANCE, CONTEXTE, DICTIONNAIRE, INDEX, INDEXGENERAL, LISTE, SESSION, TEXTE, autre fichier). On peut modifier, éditer et imprimer après coup ces fichiers, à l'aide d'un traitement de texte ou d'un éditeur. Le choix de l'éditeur se fait par ce même bouton, touche majuscule enfoncée. Ceux qui ne disposent pas d'un tel outil (on recommande QUED pour sa puissance), pourront utiliser l'éditeur EDITH qu'on a réalisé spécialement pour accompagner la base et qui est fourni sur le CD-ROM (dans le dossier HYPERBASE). Cet éditeur, qui permet de choisir la police, le style et la taille des caractères, est cependant limité aux fichiers de moins de 32000 caractères. Ces fichiers sont des entrepôts provisoires, et les résultats y sont effacés dès que le programme correspondant en propose d'autres à leur place. Aussi convient-il soit d'imprimer les résultats dès qu'ils sont obtenus, en sollicitant le bouton EDITER (en forme d'imprimante), soit de terminer la session pour exploiter ces résultats avec un traitement de texte, soit d'appeler un traitement de texte ou un éditeur sans rompre la session en

(17)

cours, soit enfin de donner un nouveau nom au fichier des résultats grâce au Finder ou à un éditeur. Au moment où l'on abandonnera l'éditeur, le retour se fera sans problème dans HYPERBASE, et l'on retrouvera la carte de départ.

- III -

Le traitement statistique

Les fonctionnalités statistiques du CD-ROM RABELAIS sont celles du logiciel HYPERBASE. Comme elles ont été abondamment expliquées dans des publications antérieures, auxquelles on renvoie le lecteur1, on n'en donnera ici qu'un aperçu très rapide.

LA PARTITION DU CORPUS

Si les données étaient d'un seul tenant, la seule comparaison - et donc la seule opération statistique - qu'on pourrait faire serait extérieure (et c'est précisément celle qui prend appui sur le Dictionnaire du TLF et qui produit la liste des spécificités externes). En réalité, le corpus a des subdivisions naturelles, dûment jalonnées dans le fichier des données. Il s'agit des livres de Rabelais auxquels s'ajoutent cinq autres dont l'attribution pose problème. Le corpus comprend donc dix textes, de longueur inégale, que nous avons regroupés en deux sous-ensembles, le premier correspondant aux cinq textes de Rabelais (même si des doutes subsistent sur le Cinquième), le second au reste du corpus. Sur ces divisions sont établies les probabilités p et q qui servent à tous les calculs de pondération et permettent la mise en oeuvre des lois classiques de la statistique linguistique, principalement la loi normale et la loi binomiale.

LA CORRÉLATION CHRONOLOGIQUE

Lorsque les textes qui constituent le corpus s'échelonnent dans le temps, dans l'espace ou dans quelque succession logique, en suivant l'ordre imposé par une structure sérielle, le coefficient de corrélation peut être calculé, en comparant, pour chaque mot, les valeurs de l'écart réduit au rang de chaque élément. Tous les mots qui atteignent un seuil approprié au nombre de textes considérés sont catalogués dans deux champs d'une carte spéciale (la carte GRAPHIQUE) qu'on atteint par le bouton reproduisant la lettre grecque

, et où les résultats peuvent être lus dans l'ordre alphabétique ou dans l'ordre

hiérarchique. Deux colonnes sont alors visibles qui reproduisent, à gauche, la liste des mots dont l'usage progresse dans le corpus et, à droite, la liste des mots dont l'emploi se raréfie.

RICHESSE LEXICALE, HAPAX, ACCROISSEMENT

Le programme d'indexation, entre autres tâches, constitue le tableau de distribution des classes de fréquences et le relevé des hapax (ou mots employés une seule fois). Pour voir et imprimer ces tableaux, solliciter le bouton DISTR qui apparaît sur certaines cartes et qui conduit à une carte spéciale où sont consignés les résultats statistiques. Le bouton

1 "Hyperbase: logiciel documentaire et statistique pour l'exploitation des grands corpus", in Tools for

humanists, 1989, Toronto, p.33-36; "Hyperbase, an interactive software for large corpora", Colloque

INRIA Antibes sept 1989, Data Analysis, Learning Symbolic and Numeric Knowledge, Nova Science Publishers, New York, 1989, p. 207-214; "La recherche dans les textes avec HYPERBASE", Publications de l'Institut National de la langue française, Didier Érudition, 1993; "Un hypertexte statistique: HYPERBASE", in JADT 1993, TELECOM, PARIS, 1993, p. 1-16.

(18)

RICHESSE fait apparaître à gauche la gamme de distribution des fréquences, chaque ligne indiquant la classe de fréquence (de 1 à 100) et l'effectif observé dans le corpus. En même temps un champ en position centrale montre le dénombrement des formes différentes relevées dans chaque texte. Et en s'appuyant sur le tableau de distribution et sur l'étendue relative des textes, un calcul est exécuté par le programme, qui suit la loi binomiale (méthode de Charles Muller) et mesure la richesse lexicale des sous-ensembles du corpus.

Cette mesure est transformée en graphique si l'on sollicite le programme COURBE de la même carte.

Histogramme de la richesse lexicale

Un calcul particulier est appliqué aux hapax, c'est-à-dire aux formes qui ont été rencontrées une seule fois dans le corpus, et conséquemment dans un seul texte. La méthode est ici plus simple et se rattache à la loi normale. On aboutit pareillement à des écarts réduits qui servent d'ordonnées au programme de courbe.

C'est par contre une approximation qui rend compte au mieux de l'accroissement du vocabulaire (par un ajustement de fonction puissance, selon la formule : y = ax b). Cette fois la visée est dynamique, puisqu'on évalue le cumul progressif des formes et le renouvellement de plus en plus ralenti du vocabulaire. La direction naturelle est celle qui suit la chronologie mais le chemin inverse qui prend le temps à rebours peut révéler des ruptures également intéressantes. Une aide spécifique tente d'expliquer ces choses un peu ardues.

GRAPHIQUES

Des courbes semblables à celles qu'on vient de voir, à propos de la richesse lexicale, peuvent être produites pour n'importe quelle forme du corpus. Le bouton GRAPHIQUE, qui apparaît partout, réalise le calcul de pondération (qui aboutit à des écarts réduits), en tenant compte du volume relatif de chaque sous-ensemble, et présente une illustration gra-phique de la distribution, sous forme d'histogramme. Un dialogue s'établit avec l'utilisateur qui doit fournir le ou les mots à étudier.

Car il est possible de comparer deux distributions et de représenter deux séries sur le même graphique. Si tel est le cas, les deux séries d'écarts réduits seront visibles sur la marge droite de l'écran et voisineront avec une série de codes alphabétiques, qu'une légende en bas de l'écran traduit en clair. Les "bâtons" de l'histogramme se répartissent de

(19)

part et d'autre de la ligne médiane qui représente la valeur 0 de l'écart réduit. Chacun de ces "bâtons" est explicité par le titre du texte correspondant. Si la série représentée se limite à une seule forme, les effectifs absolus sont détaillés sur la marge droite. Ci-dessous un exemple qui montre le mélange de l'eau et du vin, et la distribution parallèle qui unit ces deux mots, malgré ou à cause de leur opposition.

Histogrammes de vin et eau

LE TRAITEMENT DES LISTES

On peut constituer des listes de mots, afin de disposer d'un matériau plus riche et d'engager des méthodes plus puissantes. Divers filtres sont proposés pour le choix des mots. Noter que cette liste est modifiable et provisoire. On peut effacer un de ses éléments par un clic. On efface la liste entière en en constituant une autre. Mais on peut aussi la compléter, la nouvelle liste s'ajoutant à la première. Un dialogue permet de choisir entre le remplacement ou le complément. Il faut veiller toutefois à ne pas constituer de listes trop volumineuses, la limite fixée par l'environnement d'HYPERCARD étant de 30000 caractères. En de tels cas on a tout de même une échappatoire: la possibilité de créer des listes sur fichier, ou de les rappeler à partir des fichiers, en les combinant entre elles. Les boutons à solliciter se trouvent à droite:

Le tableau à deux dimensions qui en résulte se prête à l'exploitation statistique. Tout d'abord il est loisible (grâce au bouton LIGNE) de représenter graphiquement une ou deux lignes (c'est à dire un ou deux mots) de ce tableau. En outre la totalisation complète ou partielle des lignes du tableau peut être réalisée, soit en répondant par le mot "total" au dialogue généré par le programme graphique, soit, lorsqu'il s'agit d'un sous-total, en agissant sur le bouton TOT.

(20)

La carte-liste

Le programme d'illustration graphique présente aussi une variante qui analyse les éléments d'une ou de deux colonnes, dans un tableau de fréquences où généralement les lignes désignent les mots et les colonnes les textes (bouton COLONNE). Un tel graphique permet non plus de suivre la distribution d'un mot à travers les textes, mais de dresser le profil d'un texte à travers les mots qui s'y trouvent employés. Dans cette approche comme dans la précédente c'est l'écart réduit qui sert d'ordonnée à l'histogramme.

La carte LISTE qui est le point de départ de presque toutes les randonnées statistiques, propose deux nouveaux boutons particuliers dont l'un (Grp) rend compte de la répartition des groupes de fréquences (des hapax jusqu'aux hautes fréquences) et l'autre (Long) des classes de mots établies d'après leur longueur.

ANALYSE FACTORIELLE

Quand une liste est affichée, il est possible de lui appliquer des procédures statistiques plus synthétiques que de simples histogrammes. Le programme FACTO-RIELLE permet de soumettre au calcul les formes réunies dans la carte-liste et traitées ensemble selon les méthodes multidimensionnelles. Noter que la taille de la liste - qui est fonction du nombre de lignes et de colonnes - ne peut dépasser la limite de 30000 caractères, ce qui peut réduire la portée des analyses factorielles. On peut pallier cet inconvénient soit en procédant à des regroupements de lignes (par le bouton TOT), soit en enregistrant des listes partielles dans des fichiers particuliers (grâce au bouton EXPORT qui est situé à droite de l'écran et qui est représenté par le symbole d'une disquette). Ces fichiers peuvent être rappelés sur l'écran (grâce au bouton IMPORT) et être soumis à l'analyse factorielle (bouton FACTOR) soit individuellement, soit collectivement. En désignant successivement plusieurs fichiers-liste (leur nom commence automatiquement par LISTE_), les données proposées à la même analyse factorielle peuvent avoir la taille que l'on veut, la seule limite étant celle de la mémoire dévolue, dans le dossier ADDAD, au programme Addad Apl.

On a prévu la distorsion que peut amener dans les données linguistiques l'effet de taille, c'est-à-dire une trop grande disproportion entre les lignes (les mots peuvent avoir des fréquences très inégales dont le rapport peut être de 1 à 1000), ou entre les colonnes (les textes - ou parties de texte - peuvent avoir des étendues fort déséquilibrées). Afin d'atténuer ces inégalités, on propose deux transformations qu'un dialogue soumet au choix

(21)

de l'utilisateur (en plus des fréquences absolues qu'on peut évidemment traiter comme telles).

- Soit l'analyse se fonde sur écarts réduits. Le programme les calcule d'abord, puis les translate dans la zone positive, le plus grand nombre négatif s'alignant sur zéro et les autres éléments gardant leurs distances respectives (car l'analyse n'accepte pas les données négatives).

- Soit les fréquences sont converties en logarithmes, selon la formule de transformation suivante (n étant la fréquence observée d'un mot dans un texte, log le logarithme népérien et round la fonction d'arrondi à l'entier le plus proche):

x = round (log (n+1)*10)+100

On obtient des nombres compris généralement entre 100 et 200 qui donnent à chaque série (c'est-à-dire à chaque mot) une importance mieux équilibrée et restituent une image plus juste de la république des mots, le vote censitaire ayant fait place à un système plus égalitaire qui se rapproche du suffrage universel et limite les écarts du simple au double.

Le programme utilisé a été fourni par l'association ADDAD, qui distribue un logiciel complet pour l'analyse des données. Le module ici mis en oeuvre est celui de l'analyse de correspondance, qui suit l'algorithme proposé par Jean-Paul Benzécri.

Premier et second facteurs de l'analyse factorielle

On trouvera ci-dessus un exemple d'analyse factorielle réalisée à partir du corpus de Rabelais. L'analyse est fondée sur la distribution des formes qui ont une fréquence supérieure à 1000 et dont les premiers éléments apparaissent dans le tableau ci-dessus. Ce n'est pas le lieu de la commenter. Mais les lignes de force y sont fort visibles, qui opposent le Tiers, le Quart et le Cinquième Livres aux Chronicques admirables et aux

Chronicques inestimables. Le programme d'impression prévoit plusieurs options qui

(22)

circonstanciés invitent à choisir les paramètres qui conviennent à l'analyse et qui con-cernent le type de type de données (fréquences absolues, logarithmes ou écarts réduits) et la présentation des résultats, notamment lorsque trop de points encombrent l'espace du graphique.

ANALYSE FACTORIELLE DU DICTIONNAIRE

Le champ ouvert par l'analyse factorielle est illimité. On peut souhaiter prendre en compte tous les mots du corpus, ou tout au moins tous ceux qui ont une fréquence suffisante pour autoriser les calculs. Le tableau à analyser comprend alors des centaines, voire des milliers de lignes. Cette éventualité a été prévue. Pour y faire face, un dialogue exige qu'on précise si l'objet de l'analyse se trouve dans le dictionnaire ou dans une liste. En choisissant la première proposition, on détourne le programme vers le dictionnaire où il va puiser ses données.

Le traitement est évidemment assez long, surtout si l'on impose la transformation en logarithme. Il aboutit à un résultat global dont la lecture risquerait d'être difficile si la représentation graphique des mots était maintenue. Dans un tel cas on se contente de représenter les variables ou colonnes, c'est à dire les textes du corpus. Et l'on acquiert ainsi une vue synthétique des alliances ou oppositions qui se manifestent parmi les textes à travers l'ensemble de leur vocabulaire.

Analyse factorielle du dictionnaire (mots de fréquence > 50)

+--- P.NOUVELLE----+---+ 0 01 | | | 0 01 | | | 0 01 | | | 0 01 | | | 0 01 | P. PROGNOST CINQ | 0 01 | | | 0 01 | | | 0 01 | | | 0 01 | | | 0 01 | | | 0 01 | | | 0 01 | | | 0 01 | | | 0 01 +---+---+ 0 01 | | | 0 01 | | TIERS| 0 01 | | QUART| 0 01 ADMIRABLES DISCIPLE | | 0 01 | | | 0 01 | | | 0 01 | | GARGANTUA | 0 01 | INESTIMABLES | | 0 01 | | PANTAGRUEL | 0 01 +---+---+ 0 01 LA CONNEXION LEXICALE

Comme dans l'analyse précédente, et plus radicalement encore, il s'agit de considérer le vocabulaire intégral de chacun des textes du corpus. Mais on ne se préoccupe plus de fréquence. Pour un mot donné seule compte sa présence - ou son absence - dans le texte considéré. Ou plus exactement, pour deux textes dont on cherche à apprécier la connexion, un mot contribue à rapprocher ces deux textes s'il est commun aux deux et à augmenter la distance s'il est privatif et ne se rencontre que dans un seul. La distance obtenue tient compte de l'étendue de l'un et l'autre vocabulaires, selon la formule: d = ((a-ab)/a) + ((b-ab)/b), où ab désigne la partie commune aux vocabulaires a et b ( a-ab et b-ab recouvrant les parties privatives). C'est cette distance que montre le tableau dans la partie supérieure de la carte DISTRIBUTION quand on sollicite le bouton DISTANCE.

(23)

Tableau de la distance lexicale des textes pris deux à deux

PANT GARG TIER QUAR CINQ Ines Admi Disc Prog Nouv PANTAGRUEL PANT 1239 1283 1399 1377 1427 1269 1317 1388 1393 1441 GARGANTUA GARG 1283 1252 1352 1322 1391 1282 1371 1376 1405 1421 TIERS TIER 1399 1352 1225 1255 1377 1396 1442 1449 1381 1350 QUART QUAR 1377 1322 1255 1225 1335 1332 1400 1404 1415 1368 CINQUIESME CINQ 1427 1391 1377 1335 1305 1416 1452 1445 1482 1373 Chron Inest Ines 1269 1282 1396 1332 1416 912 942 1343 1545 1533 Chroniq Adm Admi 1317 1371 1442 1400 1452 942 912 1370 1488 1453 Le Disciple Disc 1388 1376 1449 1404 1445 1343 1370 1313 1547 1501 Pantagr Pro Prog 1393 1405 1381 1415 1482 1545 1488 1547 1351 1480 Pronost Nou Nouv 1441 1421 1350 1368 1373 1533 1453 1501 1480 1320

Quand les distances lexicales sont visibles, le programme COURBE permet la représentation graphique de la distance variable qu'un texte établit avec tous les autres, tandis que le programme ANALYSE FACTORIELLE (FACTOR) envisage l'ensemble de ces distances et propose une typologie des textes selon ce critère, qui confirme largement les résultats précédents.

Analyse factorielle de la connexion lexicale

+---PANTAGRUEL---+ | | | | | GARGANTUA | | | P.Prognost| | | | | Disciple | | | | +---+---+ Inestimables | | | | | Admirables | TIERS| | | QUART | | | CINQ | | | Pr.Nouv| +---+---+ SPÉCIFICITÉS

1 - La spécificité du corpus (par rapport à la "norme" de l'époque) apparaît lorsque le bouton SPÉCIF (dans la carte 1) ou SPÉCIFICITÉ DU CORPUS (dans la carte SPÉCIFICITÉS) est activé. L'écran montre alors deux champs dont l'un à gauche livre les formes en excédent et l'autre à droite les formes déficitaires. On peut demander au programme (bouton CHERCHER) de vérifier si un mot figure parmi le vocabulaire spécifique, positif ou négatif. Les deux listes sont triées d'après la valeur absolue de l'écart réduit, de façon à mettre en relief ce qui est le plus significatif, dans un sens ou dans l'autre.

Rappelons que le seuil significatif généralement admis est aux alentours de la valeur 2 (en laissant 5 chances sur 100 au hasard). Nous nous sommes arrêté à la valeur 3 en adoptant un seuil plus sévère (moins de 3 chances sur 1000), pour ne pas encombrer les listes. Au reste la comparaison avec l'usage observé dans le Trésor de la langue française doit être interprétée prudemment. D'une part les textes dépouillés au TLF n'ont pas pour le XVIe siècle l'étendue et la représentativité qu'ils ont dans les siècles suivants. Et d'autre part la cohérence des éditions et des transcriptions orthographiques n'y est pas parfaite pour cette période, en sorte que la comparaison pour une même forme ne se justifie pas toujours, lorsque l'orthographe est flottante.

2 - En outre le programme d'indexation calcule le vocabulaire spécifique de chaque texte du corpus en se fondant sur la loi normale et en prenant pour norme l'ensemble du

(24)

corpus (sans procéder au calcul pour les mots de basse fréquence et en ne retenant que les écarts réduits supérieurs à 2 en valeur absolue). Dans ce cas, pour chaque texte on peut faire apparaître la colonne des excédents et celle des déficits (bouton SPECIFICITE D'UN TEXTE, sur lequel il faut maintenir la pression pour obtenir le menu "pop up" où l'on désignera le texte souhaité). Ci-dessous un extrait des spécificités du Quart Livre où l'on reconnaît sans peine certains des épisodes narrés et les thèmes traités.

Le vocabulaire spécifique du Quart Livre

Si l'on désire présenter ces résultats dans l'ordre alphabétique, on agira sur le bouton TRI ALPHA. Le bouton EDITER (symbole de l'imprimante) respectera la présentation choisie. Mais si l'on abandonne la carte, les champs reprendront leur classement d'origine, fondé sur la valeur décroissante de l'écart réduit.

On peut enfin consulter les listes de spécificités à propos d'une forme particulière. On dessine alors le profil du mot parmi les sous-ensembles, si du moins l'emploi de ce mot est suffisamment caractéristique pour franchir le seuil significatif dans au moins un des textes du corpus. Pour cette recherche on pressera le bouton SPECIFICITE D'UN MOT.

*****

Nous ne détaillerons pas davantage les possibilités d'exploitation documentaire ou statistique du CD-ROM Rabelais, le manuel qui accompagne la base (et qui reprend en grande partie celui du logiciel HYPERBASE) étant suffisamment explicite. Ce n'est pas le lieu non plus pour insister sur les caractéristiques propres au présent corpus et à aux données rabelaisiennes. Mais on évoquera pour finir les particularités des traitements qui font appel au CD-ROM et dont la spécificité se retrouve d'un corpus à l'autre.

(25)

La plus évidente des contraintes liées au CD-ROM est l'impossibilité d'ajouter quoi que ce soit sur la surface du disque optique. Les informations y sont fixées de façon définitive et tout complément ne peut prendre place que sur le disque dur de l'utilisateur. Tous les résultats générés par l'exploitation de la pile prennent donc place dans le dossier HYPERBASE du disque dur. Ce dossier, s'il n'existe pas, est créé automatiquement, et les outils indispensables ( ADDAD, EDITH) y sont transférés. Même la configuration particulière de la pile au moment de la dernière consultation est préservée dans un fichier qui prend le nom de la pile précédé du suffixe PRE (par exemple PRERABELAIS). Est entreposé là le contenu de certains paramètres ou de certains champs (CONCORDANCE, CONTEXTE, ou surtout LISTE) qu'on souhaite retrouver d'une séance à l'autre.

Des raisons de confidentialité peuvent conduire à l'utilisation de la version CD-ROM du présent logiciel. Les textes que l'on souhaite indexer sont en effet souvent soumis au copyright. Cette contrainte légale ne gêne guère la scannérisation, ni même l'usage individuel, à des fins de recherche, du texte enregistré. Mais la diffusion est exclue, sauf accord explicite de l'éditeur. Il ne sert à rien de crypter le texte, de le numériser, ou de le rendre seulement virtuel, par des procédures détournées d'indexation. Quel que soit l'accès au texte, simple ou technologiquement protégé, le producteur d'une telle base tombe sous le coup de la loi, dès que le texte est présent, en continuité et en intégralité, sous une forme ou sous une autre.

Pour protéger le copyright, il n'est qu'une solution, il est vrai radicale: l'effacement du texte. C'est celle que nous avons choisie sinon pour le présent produit, du moins pour le CD-ROM Julien GRACQ, qui contenait des données sensibles, étant trop conscient qu'on ne lutte pas à armes égales avec les professionnels du décryptage. L'attaque est tellement plus facile que la défense dans ce domaine. Et plutôt que de s'engager dans la spirale défavorable de l'épée et du bouclier, il est préférable de couper définitivement les ponts derrière soi, en supprimant intégralement le texte d'origine. Restent des bouts de texte, des contextes, de longueur limitée, qu'on peut assimiler au statut de la citation et qui, étant incomplets et désordonnés, ne permettent en aucune façon la restitution d'un texte suivi. En ce qui concerne Rabelais, nous n'en sommes pas venu à cette extrémité et les cartes-texte n'ont pas été vidées de leur contenu. Mais l'impression du cartes-texte est limitée à deux ou trois pages consécutives et l'on a cru devoir décourager par un verrou technique les tentatives de piratage.

Si donc les mesures de protection et de confidentialité ne nous ont pas imposé le traitement choisi, une autre caractéristique attachée au CD-ROM nous y a contraint: c’est la relative lenteur des accès, même si des progrès ont été faits dans ce domaine sur les lecteurs les plus récents du marché. Le logiciel d'exploitation doit tenir compte de cette lenteur en évitant les recherches séquentielles qui parcourent la surface entière de la pile, à la recherche d'une cooccurrence ou d'une expression. Partout l'adressage direct a été établi en tirant profit d'une opportunité que le support optique dispense largement: son étonnante capacité qui autorise non seulement l'enregistrement des adresses, mais aussi des contextes. Rien n'empêche de réaliser à l'avance, et de proposer à l'usager, un dictionnaire complet, convenablement formatté, ou un index exhaustif, de préférence synoptique, ou même une concordance non sélective où toutes les formes prennent place. Et pour ne pas s'arrêter en si bon chemin, on est allé jusqu'à l'enregistrement du contexte pour chaque forme rencontrée. Afin de fixer une limite à la démesure, on n'a pas dépassé toutefois la 360e occurrence des mots grammaticaux. Ainsi préparée la pile gonfle considérablement et son volume atteint celui du boeuf, tout en gardant l'agilité de la grenouille. Car la rapidité accompagne paradoxalement l'embonpoint et l'usager est conduit d'un coup à un endroit de la pile où sont entreposées, dans des champs cachés,

(26)

toutes les informations relatives au mot cherché. Comme les résultats ont été préparés à l'avance, ils sont délivrés à la seconde même, l'affichage suivant immédiatement le clic de la souris.

En réalité une base ainsi conçue, même si elle propose une démarche multimodale où le texte renvoie à un autre document, ou à une image, ou à une séquence animée, ne laisse pas de s'éloigner des procédures hypertextuelles mises en oeuvre dans la version standard d'HYPERBASE et rejoint les réalisations documentaires et traditionnelles qu'on a produites dans le passé: ces recueils encombrants d'index ou de concordances publiés sur papier ou sur microfiches. Le CD-ROM offre toutefois des avantages décisifs sur les produits anciens: sa légèreté, sa disponibilité, son énorme capacité, son faible coût, sa pérennité et surtout son adressage direct qui conditionne la rapidité de consultation.

Figure

Tableau de la distance lexicale des textes pris deux à deux

Références

Documents relatifs

Certains en déduisent que les répertoires des individus sont aujourd’hui partagés entre références étasuniennes et références à des biens culturels produits

De plus, si sur le volet médico-social, l’Etat, adoptait une posture partenariale avec les conseils généraux et les caisses de retraite, la reprise en main par l’ARS

Mais sans attendre que la BD Topo ou même la BD Carto soit disponible, I'IGN-F est engagé dans plusieurs pro- grammes qui fourniront, dans peu de mois, les premières générations

To assess the quality of groundwater foggaras of Timimoune used in the oasis, we used the Piper diagram for determining the chemical facies, and Richards (1954) - chart

Par exemple, au lieu d’attaquer le marché consommateur, ils auraient pu mettre l’emphase sur les petites et moyennes entreprises (GPME et PME), non desservies par les opérateurs

fran aise Arhiteture r eseau Linux : oneption et impl ementation des protooles. r eseau du noyau Linux, Vuibert Informatique, 2003, XV +

Manuel du jeune enseignant © Retz, 2017 Ritualiser et donner des repères pour la mise au travail. N.B : À imprimer

Nella fibra cardiaca a riposo le cariche positive si trovano all’esterno della membrana con all’interno cariche negative.. Se tra gli elettrodi A e B non si registrano differenze