HAL Id: hal-01464989
https://hal.archives-ouvertes.fr/hal-01464989
Submitted on 10 Feb 2017
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
L’hydre de l’urne
Étienne Brunet
To cite this version:
Étienne Brunet. L’hydre de l’urne : ou Réponse à un acte d’accusation. Cahiers de Lexicologie, Centre
National de la Recherche Scientifique, 1983, pp.3-31. �hal-01464989�
ou
Réponse à un acte d'accusation
Résumé
The Bernoulli box model provides the methodological foundation for most statistical research, particularly in the field of language and vocabulary. The binomial model publicized by Charles M U L L E R i s its best known ex-pression along with the normal law and Poisson's law.
This model, which was originally developed by mathematicians, parti-cularly B E R N O U L L I , and has long been applied to vocabulary ( Y U L E , H E R -D A N , G U I R A U -D ) has recently been challenged as inadequate and worthless in its linguistic applications. The challenge does not come from members of the Saint Cloud school, who, far from smashing the box, consolidate it with the hypergeometric model, but from a methodological controversy that arose at the ALLC Symposium in Pisa and has been developed in an article by Paul
B R A T L E Y to be published in Computers and the Humanities. According to the author, all the statistical research on vocabulary carried out in France lacks caution in that it fails to prove that the population under consideration is normally distributed.
1. The present paper endeavours to reject as totally inefficient both tools offered by B R A T L E Y as a consolation, namely M A R K O V's law and
C H E B Y S H E V ' s inequality.
2. It is then shown that lexical statistics makes intensive use of general methods (correlations, factor-analyses) which do not in the least rely on the normal law.
3. It is emphasized that, under certain conditions and on a certain scale, lexical units can be regarded as independent and that a normal distribution is the least unsatisfactory working hypothesis, a fact which has been experimen-tally confirmed many times.
4. Finally, the paper aims at proving that the results obtained by statis-tical means have a heuristic value, regardless of any probability outlook, and that, at worst, they make comparisons and classifications possible and often lead to conclusions.
CAHIERS DE LEXICOLOGIE
1 - Le débat qui va nous occuper pendant quelques instants a été engagé il y a un an à Pise, au dernier Colloque de l'ALLC. Paul B R A T LE Y y avait fait le procès de tous les travaux de statistique linguistique, en avançant que le schéma d'urne y était indûment appliqué et que personne n'avait la moindre idée des probabilités réelles qui gouvernent la distribution des mots. Depuis un an Paul BRATLEY a approfondi et radicalisé - s'il se peut - sa condamnation
fondamentale et une correspondance volumineuse que nous avons entretenue l'un et l'autre depuis le colloque de Pise me permet de préciser sa position et d'y répondre de façon circonstanciée. Je réponds par là même à deux ar-ticles qui vont paraître dans Computers and the Humanities et qui dévelop-pent le point de vue de BRATLEY sur cette question et aussi celui de Serge
LUSIGNAN dont la position, plus littéraire, est aussi plus nuancée.
Mais détaillons d'abord l'acte d'accusation, B R A T LE Y ne conteste pas la valeur des lois de la statistique classique, loi binomiale, loi normale, loi de Poisson. Il ne parle pas de la loi hypergéométrique, peu soucieux de suren-chérir et d'épurer le schéma d'urne. Car c'est l'application du schéma d'urne qu'il conteste radicalement, comme tout à fait inadéquat au domaine des mots. Le schéma d'urne suppose des tirages indépendants. Or les mots dans la chaîne du discours sont interdépendants. Ainsi l'article appelle un substantif subséquent et le mot chat une fois tiré exclut un second tirage immédiat du même mot (encore que dans la galerie des chats-pitres et des chats-loupés de Sempé, il
doit bien y avoir quelques chats-chats, comme on trouve des roses roses ou des pommes pommes chez Giraudoux). Le modèle est donc faux dans son principe. Et, qui pis est, ses résultats le condamnent : doutant de ce que MUL-LER appelle ses «réussites», car pour parler de réussite il faudrait qu'une autre méthode convergente apporte la preuve et le contrôle, B R A T LE Y fait par contre confiance aux échecs, qui selon lui ruinent la théorie sans autre forme de procès et sans qu'il soit nécessaire cette fois de confirmer l'échec par une autre méthode. Or ces échecs sont particulièrement éclatants dans mon
Vo-cabulaire français de 1 789 à nos jours. Et BRATLEY se plaît à relever le nombre
considérable d'écarts réduits qui dépassent le seuil habituel de 5 % et dont la valeur absolue est au-delà de 2. L'exception est si fréquente qu'elle en devient la règle : tout se passe comme si ayant donné une probabilité faible aux chutes de neige au mois d'août, le modèle était maintenu contre vents, neiges et marées, même si l'expérience cruelle apporte la neige chaque année au mois d'août. 2 - A cet endroit je ne puis m'empêcher de redresser quelques excès. Qui trop attaque, mal étreint. B R A T LE Y fait en effet une erreur de logique : si les exceptions frappaient systématiquement le même mois d'août, et toujours dans le même sens, il faudrait évidemment reconsidérer le modèle et réviser les probabilités. Mais rien de tel dans les résultats : pour le même mois les dé-ficits et les excédents se compensent et de plus les écarts se répartissent sur tous les mois de l'année. Mais abandonnons la comparaison climatique et re-prenons la liste citée par B R ATLE Y, qu'on trouve p. 19, t. II de notre ouvrage et que nous reproduisons dans le graphique 1. B R AT LE Y retient les 10 mots
qui précèdent le mot âme et pour chacun il choisit l'écart le plus significatif.
Et alignant ces 10 écarts il fait comme s'il les avait constatés dans la même tranche ou dans le même mot et il conclut au rejet systématique de l'hypothèse nulle. Avec le même raisonnement on pourrait très exactement prouver le contraire et choisir dans ces mêmes mots les 10 écarts les plus bas, soit la sé-rie .
altesse - 0,3 amabilité 0;0 amant - 0,6 amas - 0,1 amasser 0,5 amateur 0,0
ambassade 0,0 ambassadeur -0,9 ambitieux 0,2
ambition - 0,1
Au vu de ces chiffres qui ne conclurait à l'acceptation de l'hypothèse nulle ? En réalité pour chaque mot il y a des écarts faibles et des écarts significatifs répartis sur toutes les tranches, dans le sens positif comme dans le sens n égatif. L'hypothèse nulle elle-même n'interdit pas les écarts significatifs. Le seuil habituel de 5 % signifie que 95 % des cas doivent se situer en deçà de la valeur 2 de l'écart réduit. Et il est tout à fait conforme au schéma d'urne que dans 5 % des cas le seuil soit dépassé, c'est-à-dire 1 fois sur 20. Or pour chaque mot nous fournissons 15 écarts réduits (relativement à la chronologie). On doit donc s'attendre pour chacun à trouver à peu près un écart dépassant le seuil. Si on ne le trouvait pas c'est alors qu'il faudrait s'étonner. En réalité sous une formulation tendancieuse B R A T L E Y met le doigt sur un point que LUSI GNAN souligne avec insistance. Les écarts qui dépassent le seuil sont vraiment trop nombreux et dans l'exemple qui nous occupe il est bien vrai que leur nombre dépasse celui des écarts non significatifs. Il nous faut donc expliquer cette anomalie qui fait de la règle l'exception et de l'exception la règle.
3 - Ceux qui ont lu M ULLE R attentivement connaissent la réponse. Certes
M U L L E R n'a jamais rencontré de résultats de ce genre, dont l'apparence est
si aberrante. Dans ses études sur Corneille et dans diverses expériences, il a plus souvent obtenu la «réussite», c'est-à-dire la conformité au modèle, mais il sait que toute recherche statistique est toujours un combat contre l'hypo -thèse nulle. L'hypo-thèse nulle invite en effet au silence puisque les écarts ob-servés peuvent être aléatoires, et bien loin de se féliciter de la «réussite du modèle» le chercheur paralysé par l'hypothèse nulle ressent cela comme un échec. Mais il a un recours et M U L L E R explique qu'en cette situation on peut toujours faire appel. Il y a une dissymétrie fondamentale dans les jugements des tribunaux statistiques. L'hypothèse nulle quand elle est rejetée, l'est sans appel, mais quand elle est acceptée, elle ne peut jamais être prouvée. Quand donc on n'a pas réussi à atteindre le seuil de signification et à rejeter l'hypothèse nulle, on peut toujours recommencer le procès sur une base élargie, avec de nouvelles données, un échantillon plus vaste, plus de rigueur dans l'expérience. Ainsi élimine-t-on les variations aléatoires qui perturbent les observations li-mitées et à mesure que le champ s'élargit l'hypothèse nulle recule devant la loi des grands nombres. En réalité ce qu'on appelle l'hypothèse nulle désigne la part attribuée au hasard. Cette part est considérable quand les effectifs sont faibles, et elle est faible quand les effectifs sont considérables. Si je ne dispose
6 CAHIERS DE LEXICOLOGIE
que de deux observations, par exemple l 'échec de Mohammed et la réussite d'Isaac à un examen, je ne puis ni croire aux seuls mérites d'Isaac ni crier pré-maturément à l'injustice. Mais si la liste des résultats comporte 1000 Isaac reçus à l'examen et 1000 Mohammed ajournés, j'aurai à choisir entre plusieurs explications, dont certaines peu honorables, mais je ne pourrai plus invoquer le hasard. Que dire si l'étude porte non plus sur des milliers mais des millions de cas, sur 70 millions de mots et 300 millions de lettres ?
Supposons qu'un programmeur plaisantin, voulant sans doute éprouver la sagacité du linguiste qui l'emploie, ait transformé dans les données de ce dernier toutes les occurrences de petit en autant d'occurrences de grand. Comme
chacun sait, un linguiste qui compte les mots n'en comprend plus le sens et la supercherie passera inaperçue à la lecture du texte ainsi transformé. Mais échappera-t-elle à la vigilance de la statistique ? Tout d épend de la longueur du texte. Si le texte n'a qu'un millier de mots l'absence de petit et la
surabon-dance de grand ne seront pas décelables, l'hypothèse nulle faisant écran. Si le texte au contraire porte sur un million de mots et si l'on se réfère à la norme approximative du Trésor de la langue française, le point aveugle où le hasard
empêche toute conclusion va se rétrécir comme l'iris au soleil, laissant à dé-couvert la supercherie : l'écart réduit, avec des valeurs énormes, va servir de clignotant et attirer l'attention du chercheur sur l'excès des grands et l'écrase-ment des petits. Ainsi suivant l'étendue de l'enquête le même test peut être muet ou éloquent, alors même que les écarts sont proportionnellement sem-blables. Si l'on se fie à la probabilité du mot petit dans le corpus du Trésor
on estimera p à 102135/70273552 = 0,0015 (le dividende étant la fréquence
observée du mot petit dans le corpus, et le diviseur étant l'étendue de ce cor-pus). Si le texte où le mot petit a été subrepticement effacé n'a pas plus de mille mots, la fréquence attendue dépassant à peine l'unité, on ne fera même pas le calcul (ici peu légitime) de l'écart réduit qui de toute façon resterait sur une réserve prudente (- 1,21) et l'effacement de petit passera totalement inaperçu à la conscience du lecteur, comme à «celle» de la machine. Mais si le texte fait 1 million de mots c'est 1453 occurrences qui manqueront à l'appel et la machine, avec un écart réduit accusateur de - 38,40, réclamera des explications. En pourcentage la substitution de grand à petit sera
cons-tante (environ 1 pour 1000) mais en probabilité le fait, indécelable au début, va devenir criant. Faut-il l'avouer ? Dans un corpus énorme où diverses causes avaient produit nombre d'erreurs, l'écart réduit nous a été d'un précieux se-cours pour détecter non point encore les variations stylistiques ou th émati-ques mais tout simplement les anomalies flagrantes, les effacements accidentels du support magnétique, les incohérences du codage et bien d'autres défauts dont aucun n'était volontaire et imputable à quelque plaisantin. Voici, en décuplant à chaque fois l'étendue de texte envisagée, comment réagirait l'é-cart réduit à l'anéantissement des petits :
Etendue du texte : 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 Fréquence théorique
du mot petit : 1,45 14,53 145,34 1453,39 14533,92
Ecart réduit : (- 1,21) - 3,81 - 12,06 - 38,40 - 130,17 On voit donc que la valeur de l'écart réduit croît avec l'étendue du corpus.
Et LUSIGNAN a raison de souligner ce fait, mais tort de s'en étonner. Plus précisément - toutes choses étant semblables par ailleurs - à un rapport r d'éten-due de deux corpus correspond un rapport
√r
des écarts réduits (du moins dans la formule simplifiée). Ainsi quand l'étendue croît d'un facteur 100, passant de 1000 à 100000, l'écart réduit augmente du facteur 10 (√
100) et passe de - 1,21 à -12,06. On voit aussi comme il est facile d'obtenir des écarts réduits qui méritent peu leur nom et qui dépassent 100 en valeur absolue. Mais pourquoi se voiler la face devant des écarts si peu réduits qu'ils sont devenus monstrueux ? Ils correspondent à des probabilités infimes qu'il serait vain de mesurer et qui équivalent pour le chercheur à une certitude (c'est-à-dire au rejet définitif de l'hypothèse nulle). Bien entendu le chercheur n'en est pas quitte pour autant. Il sait qu'il y a quelque chose, mais il lui faut découvrir ce que c'est, et à cet endroit de la quête la statistique le laissera se débrouiller tout seul. Ces écarts réduits ont beau paraître monstrueux, ils suivent la règle sans sourciller. Les mêmes lois qui commandent les soulèvements terrestres produisent tantôt l'Everest, tantôt la colline de Montmartre. Et qu'on ne dise pas que les variations de l'écart réduit viennent de quelque biais mathématique, de quelque distorsion issue d'un vice de la formule. L'expérience, si on avait la patience de la tenter avec des boules, donnerait raison au calcul. Là-dessus je renvoie à mon collègue et ami DUBROCARD qui a pris la peine de construire une urne électronique, d'y jeter les 25 000 mots de son corpus de Juvénal, d'y simuler parfaitement le tirage aléatoire (en recourant à des nombres aléatoires fournis par la machine), pour récupérer finalement des résultats exactement superposables à ceux de la loi binomiale (et donc de la loi normale qui en est l'approximation). Je ne sache pas que dans beaucoup de laboratoires on ait poussé le scrupule aussi loin, jusqu'à éprouver des lois en qui tout le monde a confiance et qui remontent à Pascal.1 - Votre plaidoyer, me dira-t-on aimablement, est plein de bonne volonté mais il pèche au moins sur un point : vous vous enfermez dans le modèle pro-babiliste et vous le défendez du bec et des ongles mais de l'intérieur, en vous souciant seulement de cohérence interne. Ne faites-vous pas comme les sor-bonnards de jadis qui s'appuyaient sur le texte sacré pour défendre ce même texte sacré ? N'y a-t-il pas là-dedans une pétition de principe et ne voulez- vous pas voir que le modèle est remis en cause de l'extérieur et que certains se soucient peu de nettoyer l'urne et qu'ils veulent la casser tout simplement.
Je dirai tout d'abord qu'un littéraire n'a pas à se faire le gardien ou le grand-prêtre de l'urne. Cet objet de culte a été inventé par des mathématiciens, de Pascal à Bernoulli, et beaucoup des rêves mathématiques se sont épanchés dans ses flancs. Comme le mot est poétique les littéraires l'ont adopté, malgré les connotations électorales déplaisantes qu'il a acquises avec l'instauration des démocraties. Mais tout le monde admettra qu'il ne s'agit que d'une méta-phore. Si l'urne est fêlée, qu'on la jette. On n'en fera pas une affaire d'Etat, comme si c'était le vase de Soissons. Mais je crains qu'avec le jeu de cartes ou la course du tiercé on ait des substituts pédagogiques dégradés et le schéma
8 CAHIERS DE LEXICOLOGIE
d'urne a pour l'esprit qui veut comprendre le calcul des probabilités une puissance et une souplesse de représentation qu'on trouverait difficilement dans une autre métaphore. En particulier l'urne aide à saisir la différence qui existe entre tirage exhaustif et tirage non-exhaustif et qui sépare la loi hypergéométrique de la loi binomiale et de celles qui approximent cette dernière : loi normale ou loi de Poisson.
2 - Mais là encore, me dira-t-on, vous tournez autour de l'urne en feignant d'y voir une question de mot, une affaire pédagogique, alors que c'est le raison-nement même qui est en cause. Oui ou non, les phénomènes de discours (ou de langue) obéissent-ils à une loi aléatoire, à un schéma d'urne ? Ici force est de répondre non. Et sur cette lancée on ira jusqu'au bout de l'aveu : aucun phé-nomène humain n'obéit strictement au hasard et il ne serait pas besoin de longs tourments pour que nous reconnaissions aussi que même aucun phénomène naturel ne relève absolument du hasard. En réalité le mot hasard n'a guère plus de consistance que la
virtus dormitiva
de jadis, c'est le voile qui recouvre notre ignorance. Pierre G UI RA UD - dont la mort vient de nous atteindre - a bien dit que les événements individuels échappaient à la prévision statistique et que Durand se mariera dans l'armée, si bon lui semble, quoi qu'en disent les statis-tiques. Mais il pense qu'au niveau global et à une certaine échelle, tous les faits humains, si libres qu'ils puissent paraître individuellement, «ressortissent collectivement à un déterminisme statistique précis»2 . Or à une échelle plushaute encore on se rend compte que le modèle statistique, s'il n'explose pas, du moins se fendille, et dans les très- grands nombres le déterminisme arrive
toujours à se glisser dans une fente de l'urne et à limiter le jeu du hasard. Quand on franchit la barre du million d'observations, on entre dans un univers qui ressemble à celui de la relativité et où bien des formules qu'on croyait éprou-vées cessent de fonctionner (il en est ainsi par exemple de la «loi» de Zipf ou de la distribution de Waring-Herdan). Certes la loi binomiale n'est pas mise encore au rencart mais elle devient si chatouilleuse qu'elle souligne tout et met du rouge partout, comme il arrive aux vieux professeurs acariâtres. Ainsi dans les trop petits corpus l'urne est débonnaire et ne s'étonne d'aucun écart. Dans les très grands au contraire elle devient pointilleuse et voit la fraude par -tout. Faut-il s'en indigner ou s'en accommoder ? L U S I G N A N veut rejeter un instrument de mesure qui n'est pas stable, un «étalon élastique» qui se recroqueville ou se dilate selon la taille des corpus. Nous autres européens savons que certaines unités de mesure, dans le domaine de la monnaie, ne sont pas fixes et il a pourtant bien fallu s'accommoder d'un dollar qui bouge sans cesse (il n'est pas le seul à le faire). L'écart réduit est ainsi une balance variable et paradoxale qui est d'autant plus précise qu'elle pèse des objets plus lourds. Le chercheur doit le savoir et «relativiser» les valeurs qu'il obtient selon l'échelle où se place l'observation. Et cela se fait sans fausse honte par le choix du seuil, qui appartient en dernier ressort au chercheur. Quand on évolue dans les très grands corpus, il importe de choisir un seuil plus sévère (par exemple une va-leur 5 pour l'écart réduit au lieu de 2), afin de n'être pas écrasé par la masse des résultats «significatifs». Il y a probablement le même nombre de choses intéressantes à dire dans un petit et dans un gros corpus mais si l'on se sert du même filtre, du même seuil, la mesure statistique risque d'en repérer trop
peu dans le premier cas et trop dans le second. Au chercheur de choisir la maille du filet.
3 - Mais pourquoi donc s'obstiner à pêcher ainsi dans la mer des données ? Ne peut-on pas attirer les poissons - les faits significatifs - par quelque autre méthode, par exemple avec un filet acoustique qui, par des ondes sonores savamment dirigées, canaliserait le fretin dans les soutes du navire, comme jadis les animaux dans l'arche de Noé ? Le schéma d'urne est-il le seul modèle agréé ? Et sur ce point le réquisitoire de BRATLEY prend la forme de soup-çons douaniers : à tous ceux qui utilisent le schéma d'urne il demande d'ap-porter la preuve que leurs données sont agréées et bien conformes au modèle et il regrette que trop de chercheurs escamotent cette formalité initiale (et ici, l'auteur de ces lignes se trouve en bonne compagnie, parmi les accusés, au côté de Jacqueline HAMESSE et de Barron BRAINERD).
Avouons d'emblée que cette négligence est très générale et que dans les disciplines les plus diverses la distribution normale est toujours postulée mais rarement démontrée. Et cela tient au fait que cette preuve, comme celle de l'innocence, est souvent difficile à établir. Bien des tests ont été proposés, qui permettent de vérifier la normalité des données. Citons deux des plus puis-sants : celui de KO LM O GO RO V - SM I RN O V4 et le test plus connu du X2.
C'est sur ce dernier que s'appuie BRATLEY pour montrer que la distribution du mot âme dans les 15 tranches chronologiques du corpus ne suit pas la loi
normale, le X2 obtenu 4675 dépassant de loin la valeur 26,1 que proposent les tables du X2 pour le seuil de 1 % (en réalité pour 14 degrés de liberté c'est plutôt la valeur 29,1 qu'on lit dans ces tables). On pourrait chicaner sur le choix du mot âme qui n'est pas fait au hasard : de tout le vocabulaire français
le mot âme est l'un des plus irréguliers. Dans la 3ème tranche du corpus (1833-1841) l'âme arrive en effet en tête du vocabulaire significatif juste derrière le
mot duchesse, avec un écart réduit extrêmement fort (+ 51,86). Il suffirait de choisir un mot mieux réparti pour que le test laisse la liberté de conclure à la normalité des données. Dès lors appliquera-t-on le test à tous les mots ? Fera-t-on deux lots en rangeant d'un côté les mots où le test est favorable à la normalité et de l'autre ceux pour lesquels il l'exclut. Cela risque de conduire à l'impasse : on ne pourra rien faire du premier lot, par l'impossibilité d'y rejeter l'hypothèse nulle, à cause de la faiblesse des écarts. Et on ne pourra rien faire non plus du second, parce que l'importance des écarts y disqualifie le schéma d'urne et empêche toute conclusion probabiliste. Mais surtout le test du X2 ne donne pas les mêmes résultats selon qu'on l'applique à un mot rare ou fréquent, à un corpus de faible ou de grande dimension. Comme l'écart réduit, le X2, pour des écarts proportionnellement identiques, croît avec l'accroissement de l'étendue (du corpus) ou de la fréquence (du mot considéré). Et c'est pourquoi dans des corpus modestes où la statistique a d'abord été appliquée, le test du X2, peu exigeant en de pareilles conditions, a conduit à accepter le postulat de la normalité des données linguistiques. En réalité le test n'étant pas indépendant de la taille des échantillons, sa va-leur devient très relative. Et la normalité des données pour être prouvée doit faire appel à d'autres considérations, théoriques et expérimentales, linguisti-ques et mathématilinguisti-ques.
1 0 C A H I E R S D E L E X I C O L O G I E
1 - Voyons d'abord comment répondre du point de vue théorique à l'ob-jection majeure selon laquelle le discours est fait d'éléments liés, non d'évé-nements indépendants. L'objection vient des linguistes aussi bien que des ma-thématiciens. Les premiers constatent que la statistique isole des mots qui dans le discours ne prennent leur sens et leur valeur que dans l'enchaînement à d'autres mots, dans un rapport paradigmatique ou syntagmatique à d'autres unités. Les seconds constatent aussi le fait syntaxique qui brouille les proba-bilités et les empêche d'être fixes : le tirage d'un premier élément le (article) rend plus probable au coup suivant celui de chat (ou de quelque autre substantif)5
Il convient tout d'abord de reconnaître les faits : la statistique lexicale en effet n'étudie pas les mots dans leur déroulement discursif, mais seulement des uni-tés préalablement détachées. Son objet n'est pas un texte brut, mais un texte destructuré, mis à plat, non pas une voiture en état de marche, mais une voi-ture en pièces détachées. Et ce sont ces pièces détachées qu'on met dans l'urne. Cette opération réductrice est-elle légitime ? C'est au linguiste d'en juger. Obser-vons toutefois que c'est un usage constant de la science de ne considérer d'une réalité - ici le discours - qu'un point de vue particulier à la fois - ici les éléments lexicaux. Une étude par exemple sur des éléments chimiques du corps humain est légitime, même si elle n'épuise pas le sujet du fonctionnement physiologique. Quant à l'indépendance des tirages, elle n'est guère perturbée par le fait syn-taxique. Si l'on met dans l'urne un million de mots, chacun a des attaches directes avec une dizaine d'autres, ses voisins immédiats dans la chaîne du discours mais à l'égard du million qui reste chaque mot reste indifférent. La syntaxe laisse le premier et le dernier mot d'un texte, ou même d'une page, tout à fait étrangers l'un à l'autre. La syntaxe a seulement rendu les boules de l'urne un peu poisseuses, chacune ayant tendance à se coller aux boules qui la touchent immédiatement.
2 - Mais les perturbations stylistiques et thématiques sont beaucoup plus redoutables. Un texte a un sujet, une intention, il exerce des choix cohérents et systématiques dans la réalité et dans le vocabulaire. Et cette difficulté a été dès l'origine abordée par Charles M ULLER, qui recommande d'en mesurer l'ampleur et d'en limiter les effets en constituant des corpus homogènes, en établissant des lexiques de situation, en neutralisant les écarts trop considé-rables des données disparates. Avant d'accepter une norme, avant de choisir un corpus, avant de risquer une comparaison, il faut avoir pris la mesure de ces faits qui échappent en effet au jeu du hasard et que M U L L E R enveloppe sous le terme de «spécialisation lexicale». Mais l'objection peut tout aussi bien se retourner en faveur de la statistique lexicale. Car c'est précisément la spécificité d'un texte, d'un auteur, d'un état de langue, d'un genre littéraire qu'on cherche à définir et à mesurer, le schéma d'urne et le modèle proba-biliste fournissant la référence d'où procède la mesure. Si je veux vérifier qu'une ligne est droite ou non, qu'une surface est plane ou non, je me sers d'une règle. Si la surface a des creux et des bosses, ou si la ligne a des sinuosités, je ne vais pas casser la règle, sous le prétexte qu'elle ne convient pas aux données, que la nature est rebelle aux figures idéales et que la «prévisibilité» de la règle est
toujours démentie par des faits. Il y a beaucoup à dire sur la notion de prévisi-bilité : la règle dont je me sers ne permet pas de prévoir si la ligne que je suis va tourner à droite ou à gauche, pas plus que le thermomètre ne me permet de savoir quelle température il fera demain. En matière lexicale la règle statis-tique ne permet elle aussi que la mesure. Il ne s'agit que de décrire, nullement d'expliquer, moins encore de prévoir.
3 - Ainsi se justifie l'emploi du modèle probabiliste. Reste à savoir si ce n'est pas un pis-aller et si d'autres modèles ne seraient pas supérieurs. Si toutes les lignes de la nature étaient courbes, ne serait-il pas plus sage d'inventer des règles courbes et de renoncer aux droites ? Hélas, alors qu'il n'y a qu'un mo-dèle de droite, il y a mille figures de courbes et on risque bien de construire une tour de Babel si l'on s'ingénie à fabriquer des instruments qui suivent au coup par coup la réalité multiforme. C'est ce qu'on a vu maintes fois dans le domaine qui nous occupe : combien n'a-t-on pas inventé d'indices, de for-mules, de rapports, de coefficients de toutes sortes ? Leur propriété commune est de ne servir qu'une fois et de manquer singulièrement de généralité. Fondées sur l'approximation, non sur le raisonnement, ces formules épousent trop étroitement les données dont elles sont issues et se refusent aux autres. Si l'on veut éviter l'empirisme et le bricolage, force est de recourir à un modèle universel qui s'impose pareillement à toutes les données et à toutes les dis-ciplines. Le modèle probabiliste joue cette fonction de régulation et en at-tendant que naisse un nouvel Einstein il faudra bien s'en contenter. De toute façon l'obligation de découverte en ce domaine incombe aux théoriciens des mathématiques, non aux praticiens de la chose littérature - qui ne peuvent qu'attendre et souhaiter la venue du messie.
IV
-En attendant cet heureux mais improbable événement, le modèle classi-que, le seul dont nous disposons présentement, est-il aussi mal adapté aux données que B R A T L E Y le laisse entendre ? Ecartons le test, trop relatif, du X2 et la tentation de lui faire dire ce qu'on veut, selon la taille des données auxquelles on l'applique. Y-a-t-il d'autres critères qui permettent de justifier - expérimentalement - la loi normale ? Il y a chance d'avoir affaire à une po-pulation normalement distribuée quand le profil de la distribution est celui d'une courbe en cloche, ou courbe gaussienne, et que son dessin est symétri-que autour d'un axe où se confondent la moyenne, le mode et la médiane. Il faut encore que la dispersion soit caractéristique d'une distribution gaussienne, ce qui impose le calcul de l'écart-type expérimental. Et l'on doit constater qu'à une distance de un écart-type de part et d'autre de la moyenne, 68 % des observations se trouvent regroupées, et 95 % si la distance est portée à deux écarts-types. Afin de rendre la démonstration plus probante, je prendrai exprès les cas les plus défavorables, où le X2 invite à conclure à la non-normalité, c'est-à-dire le cas des mots fréquents, le cas des grands corpus, et, pire encore, le cas des mots fréquents dans les grands corpus. Dans cette situation-là, obéissant à la poussée des grands nombres, le X2 ne peut pas ne pas être élevé. Et pourtant la distribution, on va le voir, n'a rien qui puisse invalider à priori le schéma d'urne et la loi normale. Et pour permettre le contrôle nous choisirons de préférence des données déjà publiées et complètes.
12 CAHIERS DE LEXICOLOGIE
1 - Notre premier exemple sera emprunté à l'Emile de Rousseau. Ce corpus est certes limité (moins de 300 000 occurrences) mais l'objet de notre étude est constitué par la poussière des signes de ponctuation. La figure 2 montre la répartition de la virgule (13089 occurrences) et du point (7608) dans un texte préalablement découpé en tranches de 3000 mots6. On trouvera page
572 de notre Index de l'Emile les données observées à la suite de ce découpage. Ces données, soumises d'abord au tri, sont reproduites dans l'histogramme de la figure 3, où l'on peut reconnaître sans grande complaisance le profil à peine déformé de la distribution gaussienne. Pour les deux signes de ponc -tuation, mo yenne et médiane sont proches (respectivement 135 et 136, 78 et 79) et le nombre d'observations regroupées à moins d'un écart-type de part et d'autre de la moyenne n'est pas très éloigné du pourcentage attendu (res-pectivement 72 % et 75 %, quand le modèle propose 68 %). De même à une distance de 2 écarts-types on retrouve respectivement 96 et 94 % des tranches, ce qui concorde avec le modèle. La simple appréciation visuelle des deux histo-grammes invite à postuler une distribution proche de la normale, p uisque la courbe est celle d'une cloche unimodale, à peu près symétrique.
2 - Le s eco nd exemp le es t tiré de notre Index de Proust . Nous avons choisi là encore les plus hautes fréquences, cette fois parmi les substantifs, soit, dans l'ordre, les formes temps (1637 occurrences), femme (1404) et jour
(1358). Voir figures 4 et 5. Ici aussi moyenne et médiane coïncident à peu près, le lot normal d'observations comprises entre - 1 et + 1 écart-type avoisine la valeur théorique (entre 68 % et 75 %) et la symétrie est acceptable. Comme les effectifs sont plus faibles que précédemment (il s'agit ici des occurrences du mot considéré par tranche de 20 pages), les marches de l'escalier ont un relief plus accentué, qui s'adoucit cependant dans la courbe r écapitulative du tableau 5 où les trois mots sont regroupés (moitié inférieure de la figure). Dans ce dernier tableau la cloche s'arrondit et permet d'envisager la distribu -tion normale. On observera toutefois que la symétrie n'est pas parfaite : la pente montante (celle des déficits, à gauche) est plus douce et la pente descen-dante plus abrupte (celle des excédents, à droite). Et cette entorse à la symétrie se répète d'un graphique à l'autre, toujours dans le même sens. De plus la pente droite, quoique plus raide, est p lus régulière et conduit par dégradés aux valeurs extrêmes alors qu'à gauche la pente s'arrête à une falaise où sombrent les dernières valeurs. Il est facile d'expliquer cette derni ère anomalie la valeur zéro est la limite absolue que peut prendre la variable dans la réalité alors que le modèle normal invite à poursuivre jusqu'à l'infini, même parmi les valeurs négatives - ce qui est absurde. Quant à la première perturbation elle tient à la notion d'écart linguistique. L'écart, surtout l'écart thématique, est de signe positif. Ce qui distingue un texte d'un autre, ou une tranche d'une autre, réside moins dans les silences, les refus, les d éficits que dans l'insistance, la répétition, les excédents. Chaque discours privilégie une petite partie du lexique, celle qu'appelle la situation, ce qui rejette dans la zone déficitaire la partie restante, qui est la plus grosse. Du côté positif, les écarts sont plus rares mais plus violents, du côté négatif, ils sont plus nombreux mais plus tièdes. Et c'est ce qui a été observé depuis longtemps dans les calculs de vocabulaire spécifique (ou significatif) ; les plus fortes valeurs sont toujours parmi les exc é-dents.
3 - On trouvera dans la figure 6 la démonstration éclatante de cette caractéristique de beaucoup de distributions lexicales. Il s'agit d'un corpus plus vaste encore, gros de 20 millions d'occurrences, auquel les rédacteurs du Trésor de la langue française empruntent la plupart de leurs
exemples8. La distribution est celle du mot esprit dont les variations
d'emploi au cours de deux siècles sont presque aussi fortes que celles de l'âme. L'histogramme est établi ici sur les fréquences relatives, chacun
des 335 textes comparés étant ramené à une étendue égale (de 1 million). Il y aurait de la mauvaise foi à chercher, et plus encore à trouver, quelque symétrie dans ce graphique où la pente gauche, très douce, n'a rien de commun avec la pente droite, très abrupte. La tendance amorcée dans les exemples proustiens est ici tout à fait claire. Bien entendu le pourcentage d'observations à moins d'un écart-type de la moyenne est lui aussi peu compatible avec la distribution normale. Enfin médiane et mo yenne divergent fort nettement. L'histogramme qu'on a reproduit dans la moitié basse du graphique et qui porte sur le même mot, mais en distinguant cette fois les 259 auteurs du corpus, conduit aux mêmes conclusions, même s'il est établi sur la valeur de l'écart réduit. Même dessin irrégulier et même éloignement de la distribution normale. On saisit là l'effet de la spécialisation lexicale, d'autant plus puissant qu'on a affaire à un substantif à forte charge sémantique, qui a pris part aux querelles idéologiques des deux derniers siècles. Les ruptures sont en outre radicalisées par le fait qu'on ne distingue plus ici des tranches d'un même texte, mais des textes ou des auteurs différents. Cependant, il s'agit ici d'un cas limite que nous n'atteindrons plus dans les exemples qui suivent.
4 - On franchit pourtant une étape supplémentaire dans les graphiques 6 et 7 non seulement pour la taille du corpus (c'est ici le grand corpus de 70 millions de mots), mais aussi pour la fréquence des formes étudiées (ce sont les trois formes les plus fréquentes de, la, et, dont les données brutes sont reproduites dans notre Vocabulaire français,
tome 1, p. 8). L'écart-type, comme dans l'exemple précédent, a été calculé sur les fréquences relatives observées dans les 97 sous-ensembles qu'on distingue au croisement des tranches chronologiques et des genres littéraires9. L'oeil exercé aux belles régularités symétriques des
distributions normales sera sensible aux distorsions des trois histogrammes qui ont trop de bosses et de creux pour être des modèles ou des moules de la cloche de Gauss. La médiane se situe tantôt à gauche, tantôt à
14 CAHIERS DE LEXICOLOGIE
droite de la mo yenne et la fourchette qui embrasse l'espace entre - 1 et ÷ 1 écart-type a les doigts un peu trop écartés (jusqu'à 78 %). La distribution normale réapparaît pourtant dans une pureté surprenante quand on prend soin de mêler les trois mots et de procéder au tirage de 6 630 747 boules dans une urne qui en contient 70 millions. Le bas de la figure 7 montre en effet toutes les caractéristiques d'une distribution normale avec la symétrie attendue, la coïncidence de la moyenne et de la médiane et le respect de la fourchette théorique (67 % à 1 écart-type de la moyenne). Or telle est la propriété des distributions gaussiennes : les échantillons peuvent individuellement être imparfaits, leur cumul, pourvu qu'ils soient indépendants, tend vers la normale.
5 - Notre dernier exemple est encore un mot grammatical abord, qu'il faut
évidemment interpréter comme l'adverbe d'abord. Nous l'avons tiré d'un corpus en cours de traitement, celui de Zola, qui englobe la totalité des
Rougon-Macquart, soit 3 millions d'occurrences, et dont les premières pages seulement de l'Index ont été imprimées. Le mot d'abord semble a priori dénué d'intérêt mais la suite des fréquences obtenues dans 145 tranches de 50 pages montre une série croissante qu'on saisit à l'oeil nu dans les effectifs de la figure 9 et que corrobore un coefficient de corrélation chronologique tout à fait significatif (r = 0,78 pour les 22 textes, et r = 0,50 pour les 145 tranches)11. Et si l'on rapproche cette progression de celle qu'on constate pour ensuite et enfin, on a là l'indice de quelque évolution dans la technique narrative de Zola. Mais notre intérêt se situe présentement ailleurs. La distribution du mot relève-t-elle de la loi normale ? La figure 8 donne la réponse, qui paraît positive : courbe unimodale, symétrie acceptable, convergence de la médiane et de la moyenne.
Rappelons que tous nos exemples ont été choisis dans les grands nombres et qu'en de telles occasions le test du X2, trop sensible à l'effet de taille, eût amené à rejeter le schéma d'urne. Naturellement on ne peut prolonger à l'infini ces expériences. Il suffit de les avoir menées dans des corpus variés et sur des mots différents pour être raisonnablement assuré que le schéma d'urne est le moins mauvais modèle qu'on puisse appliquer aux données littéraires et linguistiques.
16 CAHIERS DE LEXICOLOGIE
V
-1 - BRATLEY recommande pourtant l'emploi de ce qu'on appelle la «loi faible». En rejetant la loi forte des grands nombres, c'est-à-dire le schéma d'urne, qu'on l'appelle binomial, hypergéométrique ou normal, il a le souci du moins de ne pas laisser les linguistes totalement démunis. Et il leur propose deux armes inventées à l'Est, le modèle MARKOV et le modèle CHEBYSHEV . Disons tout de suite que ces armes sont anciennes (à l'Est rien de nouveau...) et qu'elles ont à peu près l'efficacité des hallebardes ou des arbalètes du temps jadis. Leur mérite commun c'est, au dire de BRATLEY, de pouvoir servir en toute occasion, puisque ces deux modèles ne présupposent aucun postulat sur la forme de la distribution. Peu importe que la population soit ou ne soit pas normalement répartie, les deux tests en question gardent leur valeur intacte. Voici d'abord la formule de l'inégalité de MARKOV :
Prob ( x > t ) ≤ m/t , t > 0
ce qui s'énonce comme suit : la probabilité pour qu'un mot ait plus de t occur-rences est égale ou inférieure au rapport de la fréquence attendue (m) par la fréquence observée (t).
Appliquons le calcul au cas de l'âme dans la tranche chronologique
1833-1841 du corpus du TLF, m valant 3001 et t 5738 : p ( x > 5738) < 3001/5738
< 0,52
Ainsi un écart apparemment important, qui va du simple au double, et qui porte sur des milliers d'observations, ne semble pas émouvoir le test de
MARKOV qui lui accorde 1 chance sur 2. L'autre exemple, fictif, de BRATLEY
suppose un texte de 10000 occurrences où le mot chat a une fréquence attendue de 112.. Pour atteindre le seuil à 1 % il faudrait donc que le mot chat ait une
fréquence de 100, soit 1 occurrence pour 100 mots (100/10000). Cela ne peut se trouver dans aucun texte, même dans la Chatte de Colette, puisque le substantif le plus fréquent n'atteint dans aucun corpus un taux si élevé de répétition (le substantif homme, qui est le plus fréquent du corpus XIX-XX, n'apparaît qu'une fois sur 700 mots)13.. De tous les écarts observés dans le
corpus du XIX-XX, le plus monstrueux concerne le mot empereur dans la tranche 1816-1832 qui retient presque la moitié des occurrences du mot quand il devrait n'en contenir que 7 %. Alors que l'écart réduit atteint une valeur extrême (+140), le test de MARKOV est encore loin du seuil significatif (p = m/t = 647/4097 = 0,16). Ainsi des 70 000 mots contenus dans ce grand corpus aucun - st r i c t e m e n t aucun - ne serait significatif, même au seuil de 10 %, si l'on se fiait à l'inégalité de M ARKOV , ce bel instrument très pur,qui ne distille que le silence éternel14.
2 - L'inégalité de CHEBYSHEV semble plus intéressante. Mais elle est plus exigeante puisqu'on doit lui fournir non seulement la fréquence théorique m, mais aussi l'écart-type s. BRATLEY la formule ainsi :
P r o b (│ x - m │ > k s ) ≤ 1 / k2, k > 0
Si l'on choisit un seuil de 1 % (1/k2vaut alors 1/100 et k = 10), le mot devient significatif si l'écart observé entre fréquence réelle et fréquence observée dépasse
dix fois l'écart-type (au seuil de 5 %, il faudra atteindre 4,5 fois l'écart-type).
B R A T L E Y applique la formule C H E B Y S H E V au mot âme dans la tranche
1833-1841, là où l'écart réduit est très élevé ; il n'arrive pourtant pas au seuil de 5 %. Et même si l'on choisit le cas-limite du mot empereur, là où nous avons rencontré l'écart record (z = +140), le seuil de 5 % n'est pas atteint15. La conclu-sion est donc aussi désespérante que la précédente. Pas plus que la formule de M A R K O V , celle de C H E B Y S H E V ne permet d'extraire un seul mot significatif parmi les 70 000 du corpus. Ainsi, si la loi forte ne permet pas d'éviter toujours ce qu'on appelle les erreurs de premi ère espèce (c'est-à-dire le rejet de l'hypothèse nulle quand elle est vraie), la loi faible, dans le domaine qui nous occupe, tombe systématiquement dans l'erreur de seconde espèce (c'est-à-dire l'acceptation de l'hypothèse nulle, quand celle-ci est fausse).
3 - On s'explique d'ailleurs aisément la défaillance de l'inégalité de C H E B Y -S H E V , dont la portée s'affaiblit lorsque croît la variance. Or précisément les écarts les plus considérables élèvent la variance, si bien que le test ne peut plus les déclarer significatifs. L'exemple fictif du mot chat donne une illustration plaisante de cette aporie à laquelle B R A T L E Y n'a peut-être pas prêté assez d'attention. Rappelons les données proposées par B R A T L E Y : le mot chat
a été observé 100 fois dans un corpus de 100 textes de 10 000 mots, avec la distribution suivante : 1 texte a 20 occurrences du mot chat, 2 en ont 15,4 en ont 10, 10 n'en ont qu'une et 83 n'en ont pas. Observons en passant que l'exemple, étant fictif, ne prouve rien contre le schéma d'urne, et qu'à ce compte il eût été aussi facile d'inventer d'autres données, favorables cette fois au mo-dèle. B R A T L E Y à partir de cette distribution calcule la fréquence théorique (m 1) et l'écarttype (s = 3,42) et conclut que le seuil de 1 % est atteint lors -que chat a une fréquence de 36 dans l'un des textes. Donnons donc cette va-leur a l'un des 100 textes (par exemple en portant au compte du premier texte les 15 occurrences du second et en prélevant aussi une occurrence au troisième). On a alors la distribution : 1 x 36, 1 x 14, 4 x 10, 10 x 1, 84 x 0. L'écart-type s'élève alors à 4,3 et pour atteindre le seuil la barre est placée plus haut, à la fréquence 1 + 10 x 4,3 = 44. Mais si la fréquence observée est de 44, la variance va s'élever encore et nous n'atteindrons pas le seuil, qui nous échappera encore avec 50 occurrences et même 99. A la limite la distribution la plus irr égulière est celle qui concentre les 100 occurrences du mot chat dans un seul texte,
et qui exclut ce mot des 99 autres. L'écart-type est alors de : s= √ 992
+
99 = 1099
Et le seuil de 1 %, même alors, ne peut être atteint. Pour qu'il le soit, il faut que la fréquence soit de :
m + 10 s = 1+ (10 x 10) = 101
ce qui est absurde puisqu'il n'y a que 100 chats en tout. Ainsi comme Achille
impuissant à rattraper la tortue, B R A T L E Y ne peut franchir un seuil maléfique qui se hausse chaque fois qu'il soulève le pied16.
4 - L'inégalité de C H E B Y S H E V souffre d'une seconde faiblesse qui tient à la nécessité de calculer un écart-type sans disposer de sous-ensembles égaux.
18 CAHIERS DE LEXICOLOGIE
La plupart du temps les textes que l'on compare sont d'étendue inégale. Et si nous avons pu faire les calculs qui précèdent en découpant des tranches tantôt de 3000 mots, tantôt de 20 ou 50 pages, cela nécessite des efforts qu'on ne saurait répéter pour chaque mot. BRATLEY propose alors de faire les calculs de variance à partir des fréquences relatives - et nous avons procédé ainsi pour certains de nos exemples. Mais nous doutons que le procédé soit légitime. Les fréquences relatives et les pourcentages sont une transformation dangereuse des données, dont la taille est ignorée et dont les variations aléatoires ne sont pas prises en compte. Les deux séries 1, 4, 2, 3 et 1000, 4000, 2000, 3000 auront la même variance si l'on raisonne sur les fréquences relatives, alors que les deux distributions sont loin d'être équivalentes dans la réalité, la première étant banale et la seconde fort improbable. Pour en avoir le coeur net, nous avons calculé le coefficient de variation des 21 premiers mots de Zola, la variance étant tirée des fréquences relatives. Voici la suite des valeurs observées :
Visiblement la régularité augmente avec la fréquence et le coefficient des rangs est significatif (probabilité inférieure à 0,01). Encore avons-nous écarté les mots de basse fréquence où la distorsion aurait été plus forte encore. La variance ainsi calculée cesse donc d'être une mesure stable, puisqu'elle dépend étroite-ment de la fréquence et, dans ces conditions, l'inégalité de C H E B Y S H E V perd beaucoup de sa valeur.
5 - Les deux formules enfin sont incapables de retenir le vocabulaire négatif, et celle de MARKOV par définition : puisqu'une probabilité se situe toujours entre 0 et 1, le quotient m/t qui la mesure doit être inférieur à 1, ce qui ne peut se faire que lorsque la fréquence observée (t) est supérieure à la fréquence attendue (m). Quant à l'inégalité de C H E B Y S H E V , si la chose n'est pas tout à
fait impossible, elle ne concernerait au maximum que quelques dizaines de mots grammaticaux très fréquents - mais les écarts pour ces mots-là n'ont jamais l'importance requise - et tous les mots sémantiques sont hors d'atteinte. D'ailleurs dans l'exemple réel que cite B R A T L E Y , celui du mot âme, qui est
loin d'être un mot rare, le paramètre b, c'est-à-dire le seuil au-dessous duquel doit se situer la fréquence pour être significativement négative, est zéro - ce qui rend la réalisation impossible.
Il n'y a donc aucun profit à tirer des formules anciennes exhumées par
B R A T L E Y , quelque respect qu'on leur doive. L'inégalité de C H E B Y S H E V a beau être un bijou pur et dur, résistant à tout, inaltérable et universel, elle a beau être vénérée par les mathématiciens comme la pierre philosophale, sa rentabilité dans le domaine linguistique est nulle et son emploi coûteux et précaire quand les textes sont de longueur inégale. C'est comme si on proposait aux fermiers du Middle West une merveille de la technique : un soc de charrue, inusable et incassable, en diamant pur, mais pas plus long qu'une allumette !
C O N C L U S I O N
1 - Il y a tout de même quelque profit à tirer de l'avertissement de B R A T -L E Y . En matière de linguistique quantitative les mathématiciens sont les sorciers
et les linguistes les apprentis. Les premiers pratiquent le doute systématique, les seconds s'abandonnent volontiers à la confiance naïve. Il était opportun de rappeler que le schéma d'urne est une figure idéale, sans cesse démentie par la réalité du discours. Il était sage aussi d'enseigner les vertus des méthodes non paramétriques. Mais sur ce point, les linguistes n'ont pas attendu les conseils de
B R A T L E Y . Dans tous les travaux de statistique appliquée au discours, un usage
constant est fait du coefficient de S P E A R M A N qui est établi sur des rangs et
ne doit rien au schéma d'urne. L'étude de Corneille par M U L L E R est fondée en grande partie sur ce coefficient. Sans doute utilise-t-on aussi le coefficient de
B R A V A I S-P E A R S O N qui se rapproche de l'univers paramétrique. Mais souvent
les deux coefficients sont mis en parallèle et se portent garants l'un de l'autre. Précisons toutefois que certain argument utilisé par B R A T L E Y contre le schéma d'urne peut se retourner aussi contre les tests non-paramétriques. Dans les deux cas les tirages doivent être indépendants et les probabilités fixes. «Assumption 1, that the scores are independently drawn from the population, is an assumption which underlies all statistical tests, parametric or nonparametri c»17 .
Ajoutons aussi que bien des méthodes récentes échappent partiellement au schéma d'urne et qu'en particulier les analyses factorielles se situent dans un univers descriptif où le linguiste se soucie peu de probabilités. Il reste enfin que la meilleure garantie vient de la convergence des méthodes, paramétriques ou non. Nous en donnerons pour finir une illustration dans la figure 9 qui reprend l'exemple du mot abord chez Zola. La suite des 22 textes du corpus est reproduite dans l'ordre chronologique, de Thérèse Raquin au Docteur Pascal.
2 0 C A H I E R S D E L E X I C O L O G I E
selon la fréquence absolue du mot dans les 200 premières pages de chaque texte, selon les fréquences relatives, selon les écarts réduits. Si la première courbe s'écarte un peu, parce qu'elle repose sur des textes tronqués, les deux autres sont rigou-reusement parallèles et la querelle qui oppose les deux méthodes perd beaucoup de sa force.
2 - Je terminerai mon plaidoyer sur cette note d'apaisement, de compro mis, presque d'excuse. S'il fallait reprendre les différents points de notre défense contre l'accusation de viol, on y trouverait la cohérence habituelle aux plaidoyers de cette sorte :
1 - La loi normale n'a pas été violée. 2 - De toute façon tout le monde la viole. 3 - De toute façon elle n'est pas la seule. 4 - De toute façon, c'est sans importance.
Je demande donc un non-lieu : il n'y a pas eu viol mais accomplissement naturel. Car la statistique raffole des grands nombres comme les femmes faciles adorent les grandes fortunes. Et c'est en linguistique qu'elle rencontre le champ le plus favorable, comme le disait GUIRAUD, dans une formule souvent citée : «La linguistique est la science statistique type ; les statisticiens le savent bien ; la plupart des linguistes l'ignorent encore»18. Il semble pourtant que les choses ont évolué depuis
GUIRAUD et si quelques linguistes ont été convaincus, certains mathématiciens par contre ont cessé de l'être. Je ne sais si la statistique linguistique a gagné au change.
Quant à l'hydre elle s'est endormie, lovée au creux de l'urne, comme le serpent de mer au fond du Loch Ness ou la cantatrice chauve au fond des coulisses. Mais elle peut se réveiller. Courage, fuyons !
E. BRUNET INaLF NOTES
1. Quand la même question brutale leur est posée, tous les bons auteurs commencent par répondre de cette façon : «Comment pourrait-on assimiler la création littéraire à un problème de sac ? qui voudrait admettre que Baudelaire ait écrit les Fleurs du Mal en tirant les mots au hasard de sa mémoire, comme Dada piquait une épingle dans le dictionnaire ?», P. GUIRAUD, Problèmes et méthodes de la statistique linguistique, p. 20. De la même façon Ch. MULLER reconnaît d'emblée que la manipulation de l'urne «peut sembler au linguiste un jeu futile et même assez suspect : car il sait fort bien qu'un texte n'est pas fait seulement des N mots qui le composent et que l'index reclasse par ordre alphabétique, mais de l'ordre de ces mots, ordre sans lequel le texte n'a plus de sens». Initiation aux méthodes de la statistique linguistique, p. 42.
2. P. GUIRAUD, Problèmes et méthodes de la statistique linguistique, p. 20. On reliraavec admiration l'étonnant premier chapitre de cet ouvrage où sous le couvert d'un «bilan de la statistique linguistique» GUIRAUD dès 1959 ouvre les voies d'une discipline nouvelle que la venue opportune de l'informatique allait largement développer. Ce fut la chance de notre discipline d'avoir rencontré à sa naissance la réflexion d'un grand esprit.
3. Dans le combat que se livrent le hasard et la nécessité, le hasard n'a qu'une tactiquequi est de reculer toujours, comme l'armée russe devant Napoléon. Et il arrive au chercheur comme à Napoléon d'être si loin de ses bases, c'est-à-dire de ses données, que la liaison logistique trop distendue menace de rompre.
4. Ce test est longuement développé dans Sidney SIEGEL, Nonparametric Statistics for behavioral sciences, pp. 47-52.
5. Evitons ici de confondre deux combinatoires : celle où l'ordre compte et celle où les combinaisons sont acceptées dans le désordre. C'est évidemment la seconde qui est utilisée dans la statistique lexicale, puisqu'on jette les mots en vrac dans l'urne et qu'on ne se soucie pas de les retrouver dans l'ordre.
6. Ici, contrairement à l'habitude, on entend par mot toute unité graphique, qu'il s'agisse d'un vocable commun, d'un nom propre ou étranger, ou d'un signe de ponctuation.
7. Le vocabulaire de Proust suivi de l'Index complet et synoptique de la Recherche du temps perdu, Slatkine, 1983. Les données relatives aux mots temps, femme et jour figurent aux pages 1397, 617 et 807.
8. C'est ce qu'on appelle à Nancy le «sous-corpus XIX-XX», qui est plus aisé à traiterque le grand corpus, tout en donnant à peu près la même image du lexique littéraire.
9. Il y a 15 tranches de 1789 à 1964 et 7 genres littéraires, soit en principe 15 x 7 = 105 sous-ensembles, dont 8 toutefois ne sont pas représentés.
10. Deux romans antérieurs aux Rougon-Macquart figurent également dans ce corpus : Thérèse Requin et Madeleine Férat.
11. Le premier de ces coefficients est calculé à partir des écarts réduits, le second à partir des fréquences observées dans les tranches.
12. La fréquence relative du mot chat est de 0,43 pour 10 000 ce qui est proche de la fiction de BRATLEY.
13. Chez Proust c'est le mot jour qui se répète 1 fois sur 600, chez Zola femme revienttous les 530 mots, chez Giraudoux c'est encore le jour (1/400) et dans l'Émile nous retrouvons l'homme (1/320).
14. La faiblesse insigne du test de MARKOV n'est pas propre aux données linguistiques, son application aux faits sociologiques n'est pas plus satisfaisante. Imaginons par exemple que la population des Etats-Unis soit de 250 millions d'habitants, que les Noirs y représentent un sous-ensemble de 25 millions. Supposons qu'un des 50 Etats ait une population de 5 millions dont 1 million de Noirs, c'est-à-dire une proportion noire 2 fois supérieure à la moyenne. Devant cette distribution MARKOV reste imperturbable :
prob (x >t) ≤ m / t ≤ 500000 / 1000000 ≤ 0,5
.
Si j'observe 10 fois plus de Noirs que partout ailleurs, MARKOV reste inflexible, et conclut qu'en toute rigueur le seuil à 5 % n'est pas atteint. Si même toute la population noire, c'est-à-dire les 25 millions, est concentrée dans ce seul état, MARKOV commence enfin à s'étonner :
prob (x > 25 000 000) ≤ 500 000 / 25 000 000 ≤ 0,02
Mais le seuil à 1 % n'est pas encore atteint. Pour qu'il le soit il faudrait qu'il y ait dans ce seul état deux fois plus de noirs que dans la population totale et dix fois plus de noirs dans cet état que d'habitants, blancs et noirs réunis. MARKOV conclurait alors doctement que cette absurdité est peu vraisemblable mais non impossible.
15. On calcule d'abord les fréquences relatives du mot empereur rapportées à la taille du eorpus (d'où m = 8785). L'écart-type calculé sur ces fréquences relatives est de 13 633. Pour que le seuil de 5 % soit atteint il faudrait que l'écart entre fréquence relative observée (56659) et m (8785), soit 47874, dépasse la valeur de 4,472 écarts-types, soit 60965, ce qui ne se produit pas. Dans le cas du mot esprit - dont les variations selon les textes et les auteurs sont pourtant extrêmement fortes, comme le montre la figure 5 où l'esprit est, à égale étendue, 360 fois plus fréquent dans le premier texte (les Pensées de Joubert) que dans le dernier (L 'Espoir de Malraux) -
la probabilité du plus grand écart n'atteint pas non plus le seuil (p = 0,11). L'inégalité de CHEBYSHEV est tout aussi inefficace parmi les fréquences moyennes et basses : parmi les
22 CAHIERS DE LEXICOLOGIE
premières l'avion est l'un des mots les plus irrégulièrement distribués pour des raisons historiques évidentes : même avec 640 occurrences sur 1715 (soit plus du tiers), la 13e tranche est loin du seuil
à 5 %, comme le mot apophyse qui représente un record de spécialisation puisqu'il concentre 607 de ses 610 occurrences dans la 1è tranche et qui n'arrive pas non plus à franchir le seuil. 16. En réalité BRATLEY se tire d'affaire en excluant le texte déviant de la série, afin d'éviter les répercussions embarrassantes sur la variance. Mais est-ce bien légitime ? Pourquoi exclure les textes, tantôt l'un, tantôt l'autre, pour les besoins de la démonstration ? La règle démocratique veut que la variance soit calculée à partir de tous les textes du corpus, sans quoi il n'y a plus de mesure commune et de comparaison possible.
17. Sidney SIEGEL, Nonparametric statistics for the behavioral sciences, p. 21, Mc Graw-Hill, New York, 1956.
18.P. GUIRAUD, Problèmes et méthodes de la statistique linguistique, p. 15, D. Reidel, Dordrecht, 1959.