• Aucun résultat trouvé

Programme

N/A
N/A
Protected

Academic year: 2021

Partager "Programme"

Copied!
9
0
0

Texte intégral

(1)

HAL Id: hal-01580842

https://hal.archives-ouvertes.fr/hal-01580842

Submitted on 2 Sep 2017

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Programme

Étienne Brunet

To cite this version:

Étienne Brunet. Programme. Céline Poudat. Ce qui compte. Ecrits choisis II, 2, Champion, pp.19-26, 2011, 978-2-7453-2225-8. �hal-01580842�

(2)

Programme

Etienne Brunet

Il peut sembler surprenant et presque inconvenant qu’un ‘littéraire’ s’engage dans un labyrinthe technique où toutes les chances de se perdre sont avec lui. Mais l’informatique a renversé tant de barrières qu’il n’est plus de domaine où ne s’exerce sa passion dévorante et peut être vaut-il mieux se jeter en avant qu’être englouti par le monstre. Et puis les fils conducteurs ne manquent pas pour guider les pères : c’est Icare qui conduit Dédale et de jeunes informaticiens de 20 ans enseignent la logique et l’art de raisonner à la génération des aînés.

Nous avons pensé que les littéraires ne devaient pas renoncer trop vite non seulement à utiliser mais à comprendre, à maîtriser ce puissant instrument de recherche. Les ‘scientifiques’ auxquels l’ordinateur n’était pas primitivement destiné – le but essentiel était alors commercial et tendait à la gestion, non au calcul théorique – ont vite compris l’intérêt de l’informatique pour la recherche fondamentale et orienté selon leurs vœux la technologie. Et déjà les constructeurs se soucient des sciences humaines, des études linguistiques ; de nouveaux matériels et un software mieux adapté apparaissent pour satisfaire ces demandes nouvelles. Aussi convient-il de saisir cette opportunité en se lançant dans une discipline qui loin d’être pure technologie, s’avance aux frontières des mathématiques et de la logique. Mais, dira-t-on, pourquoi forcer son talent et se faire programmeur quand des professionnels feraient mieux la besogne ? Outre qu’on n’a pas toujours un professionnel à son service l’expérience montre qu’un attelage qui unit chercheur et programmeur progresse d’autant mieux qu’il met en commun plus de connaissances et que l’osmose des deux compétences est plus avancée. Et on en arrive vite à une équipe indifférenciée et comme dédoublée. Pourquoi dès lors gaspiller les efforts de deux personnes quand une seule suffit ? Le cas n’est plus si courant qu’un automobiliste ait besoin d’un chauffeur ; le dépanneur lui suffit en cas de besoin. Ajoutons qu’on va plus exactement où on veut aller quand on tient le volant, et que dans les centres de calcul la plupart des chercheurs tiennent à concevoir eux-mêmes leurs propres programmes. Car le résultat dépend de la méthode et il est imprudent de confier la méthode à un tiers.

(3)

2 PROGRAMME

On trouvera dans les pages qui suivent un essai de méthode plutôt qu’un ensemble de résultats. Le seul résultat que nous ayons visé était de laisser derrière nous un fil, certes bien embrouillé et plein de nœuds, qui pût toutefois éviter à certains les détours, les piétinements ou les renoncements.

Nos programmes ont été destinés à l’ordinateur IBM 360. Ils ont été testés sur plusieurs modèles :

un 360-44 à Luminy ;

un 360-65 sous système HASP au centre IBM de

Réaumur, Paris ;

un 360-50 sous O.S. au C.E.R. de La Gaude ;

et même le tout récent modèle 370-155 dont la

compagnie IBM vient d’assurer le lancement. Pour

l’utilisation de machines moins puissantes, certaines

modifications devraient être apportées à ces programmes,

notamment en ce qui concerne le tri.

Parmi les langages possibles, nous avons choisi le PL/I, car ce langage, certes plus lourd et plus complexe que le Fortran ou le Cobol, est aussi plus souple et plus puissant, et apporte enfin aux linguistes l’instrument dont ils ont besoin. Nous l’avons également préféré à certains langages de traitement de caractères (notamment le Snobol), parce que son audience est plus large et ses possibilités plus étendues. Enfin nous n’avons pas cru devoir retenir l’A.P.L. car ce langage de télétraitement ne permet guère l’exploitation des gros fichiers.

Programme n°1

Ce programme d’initiation calcule la fréquence théorique et l’écart réduit d’un mot dont on connaît :

d’une part la fréquence absolue dans le corpus étudié (ici

12 pièces de théâtre et

4

romans de Giraudoux) ;

d’autre part la fréquence relative dans un corpus plus

large : la prose littéraire du XX

e

siècle (soit plus de 36

millions de mots, l’équivalent de 750

volumes de 200

pages).

Ces données, tant pour Giraudoux que pour le corpus du XXe siècle, nous ont été communiquées par le Centre de Recherche pour un Trésor de

(4)

la Langue Française de Nancy. Malheureusement si le dictionnaire de Giraudoux est complet (dans les limites du choix initial), celui du XXe siècle est actuellement sous presse et nous n’avons eu sous les yeux que les 24 premières pages qui ne vont pas au-delà du mot ‘actualisé’. C’est pourquoi la comparaison n’a pu porter que sur les 200 premiers mots, ce qui était suffisant pour un essai de méthode.

On trouvera ci-après une des premières pages du dictionnaire de Giraudoux et la page correspondante du corpus du XXe siècle.

Dictionnaire de Giraudoux CODE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 TOTAL Abeille 5 1 3 1 5 1 1 2 1 2 4 26 Aberration 1 1 Abhorré 1 1 Abjurer 1 1 Ablation 1 1 2 Ablette 2 3 5 Abnégation 1 1 Aboi 1 1 Aboiement 2 2 1 1 6 Abominable 1 1 2 Abondamment 1 1 2 Abondance 2 2 1 1 1 2 9 Abondant 1 2 1 4 Abonder 1 1 1 1 1 5 Abonnement 2 1 3 Abonner 1 1 Abonné 1 2 3 Abord 16 8 8 9 4 14 3 7 8 8 4 7 3 6 105 Abordage 1 1 Abordant 1 1

Précisons que dans ce dernier ouvrage toutes les fréquences relatives ont été multipliées par 100 millions pour la commodité : il fallait éviter les nombres fractionnaires peu lisibles dont les chiffres significatifs étaient précédés d’un trop grand nombre de 0. Ainsi voit-on que le mot ABOLI, par exemple, est employé 318 fois dans le corpus du XXe siècle, avec une fréquence relative en prose de 828, de 1 840 en vers et de 669 dans les poèmes en prose. Ces derniers nombres représentent un rapport entre la fréquence absolue d’un vocable dans un sous-ensemble (par exemple la prose du XXe siècle) et l’effectif total de ce sous-ensemble (36 553 411). 828 a donc été obtenu à partir de la fréquence réelle 303, corrigée par l’étendue du sous-corpus: 36 553 411. De même 1 840 représente le quotient 12/615 864, et 669 le quotient 3/403 569.

(5)

4 PROGRAMME

Dictionnaire des fréquences au XIXe et XXe (tableau page 10 – 10 premières entrées)

VOCABLE FRÉQUENCE ABSOLUE 1 – au XIXe 2 – au XXe FRÉQUENCE RELATIVE Prose Vers Poème en prose Aboi 132 164 236 383 3094 3374 393 446 Aboiement 194 147 540 388 1258 613 1969 223 Aboli 161 318 488 828 576 1840 393 669 Abolir 221 240 688 626 314 1534 223 Abolissant 13 8 39 21 52 Abolissement 2 1 6 2 Abolition 235 105 763 287 393 Abolitionniste 5 1 16 2 Abominable 651 1018 2088 2732 681 1787 393 1784 Abomination 149 209 462 560 314 306 787 446

Nous n’insisterons pas sur l’intérêt de la fréquence relative quand on compare des textes d’étendue inégale. Cela revient à réduire deux fractions au même dénominateur, condition nécessaire comme l’on sait à toute opération qui met en rapport ces fractions. Dans le cas présent, on peut soutenir que le mot ABOLI est relativement plus fréquent en poésie

qu’en prose, ce qui est confirmé par les fréquences relatives de ABOLIR

(626 en prose, 1 534 en vers) ; du moins peut-on le penser pour ce qui concerne le XXe siècle, car au XIXe la marque poétique du mot n’apparait pas encore (pour ABOLI 488 en prose, 576 en vers, pour ABOLIR 688 en prose, 314 en vers) ; peut-être le succès tardif des vers bien connus de Nerval

Je suis le ténébreux, – le veuf, – l’inconsolé,

Le prince d’Aquitaine à la tour abolie :

a-t-il contribué à orienter ce mot vers la poésie ?

En ce qui concerne la confrontation du vocabulaire de Giraudoux avec celui du corpus du XXe siècle, nous reconnaissons que cet exercice

(6)

peut être périlleux et qu’un corpus de référence ne saurait constituer une véritable norme. Pourtant certaines garanties ou précautions ont été prises qui limitent le champ des erreurs ou des incertitudes :

1- Les deux corpus ont été soumis à un traitement uniforme ; les normes de perforation, de regroupement et de comptage ont été rigoureusement identiques.

2- La taille considérable de l’un et l’autre corpus réduit les écarts dus aux seules différences de situation. Un ensemble qui réunit 52 œuvres de Claudel, toute la Recherche du temps perdu, 17 titres de Martin du Gard, 12 de R. Rolland, 7 de J. Romains, 31 de Gide, 13 de Bernanos, 22 de Montherlant, 14 de Mauriac, 17 de Camus..., peut raisonnablement être considéré comme représentatif de la littérature du XXe1. D’autre part un ensemble de 12 pièces de théâtre et 4 romans (et nous pouvons ajouter à cette liste deux titres dont nous avons assuré le dépouillement) constitue un corpus étendu – supérieur même aux relevés de Juilland (500 000 mots), du Français parlé (312 000), de Mammon (400 000) – qu’on peut tenir pour caractéristique de Giraudoux.

3- L’homogénéité des deux ensembles enfin est peut-être la meilleure assurance : il serait vain en effet de comparer un corpus à un autre – quelle que soit leur taille respective – si rien ne les liait l’un à l’autre. Au contraire, plus les contraintes seront fortes : même genre, même état de langue, plus les écarts éventuels seront significatifs.

Nous avons retenu comme significatif tout écart réduit qui dépasse 2 en valeur absolue, avec moins de 5 chances sur 100 pour qu’un tel écart soit dû au hasard seul. Un premier listing imprime les mots dont la fréquence chez Giraudoux est significativement élevée. Le second imprime ceux dont la fréquence est significativement basse. Un problème particulier concerne les mots qui ne sont pas employés par Giraudoux. Il était assez inutile de les faire entrer dans les données et de les livrer au calcul car un rapide examen les fait apparaître dans le corpus de référence, à la simple lecture : on connait en effet la formule de l’écart réduit :

𝑍 = 𝑓𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 𝑟é𝑒𝑙𝑙𝑒 − 𝑓𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 𝑡ℎé𝑜𝑟𝑖𝑞𝑢𝑒 √𝑓𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 𝑡ℎé𝑜𝑟𝑖𝑞𝑢𝑒

De ces 3 variables, 2 étant connues, la troisième est facile à calculer :

(7)

6 PROGRAMME

−2 = 0 − 𝑥 √𝑥

d’où x = 4 ;

L’absence d’un mot chez Giraudoux n’est donc significative que lorsque la fréquence attendue est supérieure à 4, c’est-à-dire lorsque la fréquence relative dans le corpus de référence est supérieure à :

4 × 100 000 000

485 000 = 825

Il suffit donc de relever dans le dictionnaire ceux des mots qui manquent chez Giraudoux et dont la fréquence relative dépasse 825. Ainsi le mot ABOLI manque chez Giraudoux et sa fréquence relative dans le corpus est de 828 ; son absence ne peut guère être imputée au hasard. Et si l’on cumule les valeurs de :

ABOLI 828 ABOLIR 628 ABOLISSANT 21 ABOLISSEMENT 2 ABOLITION 287 ABOLITIONNISTE 2 1768

toutes ces formes étant sinon ignorées de Giraudoux, du moins non réalisées dans son discours, le caractère significatif de cette lacune s’accentue :

𝑓𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 𝑡ℎé𝑜𝑟𝑖𝑞𝑢𝑒 = 1768 × 485 000

100 000 000 = 8,57

𝑧 = 0 − 8,57

8,57 = 2,96

La probabilité est alors très faible : p = 0,004, soit 4 chances sur 1 000 pour que cette lacune soit due au seul hasard.

Le programme proprement dit est ici d’une grande simplicité. Il se réduit à des opérations peu complexes (un produit, une racine carrée, un quotient), qu’une simple calculatrice de bureau eût pu exécuter. Nous l’avons également écrit en Fortran (avec des instructions à peu près

(8)

semblables) pour l’adapter aux possibilités du télétraitement à partir d’un RAX (machine à écrire reliée par téléphone à l’ordinateur). Les résultats ont naturellement été identiques. Notons toutefois que le RAX serait d’un emploi incommode pour les fichiers importants.

Programme

BRUNET1 : PROC OPTIONS (MAIN) :

/* DECLARATIONS */ DCL CARTES (203) CHAR (30) VAR ;

DCL FRE_ABS (203) DEC FIXED ; DCL FRE_REL (203) DEC FIXED ; DCL ESPER (203) DEC FIXED (8,3) ; DCL ECART (203) DEC FIXED (5,3) ; DCL N DEC FIXED INITIAL (0) ; /* TEST DE FIN DE FICHIER */ ON ENDFILE (SYSIN) GO TO ETIQ ;

/* LECTURE DES DONNÉES, REMPLISSAGE DES TABLEAUX (CARTES FRÉQUENCE ABSOLUE ET FRÉQUENCE RELATIVE) ET MISE EN MARCHE DU COMPTEUR (N) */ DO I = 1 TO 203 ;

GET LIST (CARTES(I), FRE_ABS(I), FRE_REL(I)) ; N = N + 1 ;

END ;

ETIQ : DO I = 1 TO N ;

/*LA FRÉQUENCE ATTENDUE OU THÉORIQUE (ESPER) EST CALCULÉE EU ÉGARD À LA DIMENSION DU CORPUS DE GIRAUDOUX (485 000 MOTS). OR LA FRÉQUENCE RELATIVE AYANT ÉTÉ MULTIPLIÉE PAR 100 MILLIONS ON DIVISE PAR CE MÊME NOMBRE LE PRODUIT : (FRE_REL(1)*485 000) OU PLUS SIMPLEMENT LE DEUXIÈME FACTEUR SEULEMENT. AINSI S’EXPLIQUE LE NOMBRE FRACTIONNAIRE 0,00495. */ ESPER(I) = FRE_REL(I) * 0,00485 ;

/* À PARTIR DE LA FRÉQUENCE THÉORIQUE, ON CALCULE L’ÉCART RÉDUIT EN DIVISANT LA DIFFÉRENCE ENTRE FRÉQUENCE ABSOLUE ET FRÉQUENCE THÉORIQUE PAR LA RACINE CARRÉE DE LA FRÉQUENCE THÉORIQUE */

ECART (I) = (FRE_ABS(I)-ESPER(I))/SQRT(ESPER(I)) ;

/* PREMIÈRE SORTIE IMPRIMANTE : LISTE DES MOTS DONT LA FRÉQUENCE EST POSITIVEMENT SIGNIFICATIVE. L’ÉCART RÉDUIT EST ALORS SUPÉRIEUR À 2. */ IF ECART(I) > 2

THEN PUT SKIP EDIT (CARTES(I), FRE_ABS(I), FRE_REL(I), ESPER(I), ECART(I)) (A(20), F(5), X(3), F(5), X(3), F(8,3), X(3), F(8,3)) ;

END ; PUT PAGE ;

(9)

8 PROGRAMME

DO I = 1 TO N ;

ESPER(I) = FRE_REL(I) * 0,00485 ;

ECART(I) = (FRE_ABS(I) – ESPER(I))/SQRT(ESPER(I)) ;

/* DEUXIÈME SORTIE IMPRIMANTE : LISTE DES MOTS DONT LA FRÉQUENCE EST NÉGATIVEMENT SIGNIFICATIVE : ÉCART RÉDUIT INFERIEUR A -2. */

IF ECART(I) <-2

THEN PUT SKIP EDIT(CARTES(I), FRE_ABS(I), FRE_REL(I), ESPER(I), ECART(I)) (A(20), F(5), X(3), F(5), X(3), F(8,3), X(3), F(8,3)) ;

END ; PUT PAGE ; DO I = 1 TO N ;

ESPER(I) = FRE_REL(I) * 0,00485 ;

ECART(I) = (FRE_ABS(I) – ESPER(1))/SQRT(ESPER(I)) ;

/* TROISIÈME SORTIE IMPRIMANTE : LISTE DES MOTS DONT LA FRÉQUENCE NE PEUT ÊTRE ESTIMÉE SIGNIFICATIVE SANS AVOIR PLUS DE 5 CHANCES SUR 100 DE SE TROMPER.*/

IF (ECART(I) >-2) & (ECART(I) <2)

THEN PUT SKIP EDIT(CARTES(I), FRE_ABS(I), FRE_REL(I), ESPER(I), ECART(I)) (A(20), F(5), X(3), F(5), X(3), F(8,3), X(3), F(8,3)) ;

END ;

Références

Documents relatifs

[r]

Le cercle de centre D et de rayon DA coupe la droite [BC] en un point P du même côté que B par rapport à D.. Le cercle circonscrit au triangle AEP coupe la droite [BC] en un

Si l’on colorie en bleu ou en rouge les quinze segments qui relient les six points deux à deux, il y a nécessairement au moins un triangle dont tous les trois côtés sont de la

Este dibujo no es una lista materiales This drawdrawing is not the bill of materials Ce schèma n'est pas laliste de materiaux Diese Zeichnung ist nicht die Stükliste Este disenho não

Ensuite, les élèves devaient créer leur sonnerie en débu- tant avec une note à la fois (monodie) et finir avec deux notes en même temps (polyphonie).. Par Jade P., 5 e

Pour les automobilisfesmoins for lunés, il e.riste toujours de très bons petits postes populaires (Philips, Centrum, etc ... SlIppressol's ou bougies antiparasitées

• Proposer une explication à partir de schémas des gestes et posi- tions correctes à rechercher (à adapter en fonction des activités de la personne) et une démonstration

Upon notification by customer to the nearest DIGITAL office that the computer system, including all required prerequisite hardware and software, is ready for the