TESTS STATISTIQUES STANDARDS - IDENTIFICATION DE L’ÉCRIVAIN

IDENTIFICATION DE L’ÉCRIVAIN

I. TESTS STATISTIQUES STANDARDS

Puisque toutes les distances inter et intra semblent distribuées de manière normale, il est logique de recourir à un des tests paramétriques standards1_{utilisés pour comparer les moyennes}

et les dispersions observées dans des populations différentes afin de savoir si les écarts constatés permettent de conclure à des différences significatives entre ces populations : ici des auteurs différents puisque ce facteur est isolé.

Deux approches sont possibles. Les oeuvres sont comparées deux à deux ou la comparaison est généralisée.

Comparaison d’une œuvre à une autre

Le phénomène sous-jacent est le suivant : dans un laps de temps limité (ici une quinzaine d’années), les habitudes d’écriture peuvent être considérées comme "stables" et la diversité des thèmes imprime des différences limitées entre les textes (la réalité de ce phénomène a été

1_{Voir CISIA-CERESTA. Aide-mémoire statistique. Paris : CISIA-CERESTA, 1995 et Harris John W. &} Stocker Horst. Handbook of Mathematical and Computational Science. New-York – Heidelberg : 1998.

préalablement vérifiée grâce à la proximité des valeurs centrales et à la distribution normales des observations autour de leur moyenne).

Considérons le premier corpus (P. Corneille). Chacun des textes peut être représenté comme un ensemble de mots appartenant à une population parente homogène : "Tragédies de la dernière partie de la vie créatrice de P. Corneille" (dans le schéma ci-dessous : tragédies de P. Corneille ou TPC).

Tableau 1. Schéma de principe "tragédies de la dernière partie de la vie créatrice de P. Corneille"

La population parente est composée des 10 dernières tragédies et comporte NTPC mots

différents. Son vocabulaire est composé de VTPC vocables différents, chacun d’entre eux ayant

dans NTPC un effectif (F). Dans TPC, la distribution du caractère D, distance entre les pièces

appartenant à TPC, suit une loi normale de paramètres (DTPC, TPC). L’écart type donne la

variabilité normale du caractère entre les tragédies. Plus ces valeurs sont faibles plus la population est homogène (faibles distances et faible variabilité de celles-ci) et, dans le cas présent, plus l’on sera sûr que l’écrivain est le même puisque ce facteur a été isolé en minimisant ou en annulant les autres facteurs agissant sur la distance.

Considérons une tragédie contemporaine A, n’appartenant pas à TPC et calculonsD_(A_-TPC), moyenne des distances entre A et les 10 tragédies formant TPC.

Deux situations sont examinées selon le schéma de principe suivant. Population parente : Tragédies de P. Corneille (TPC) TPC D TPC B intra tragédies Oedipe Suréna DOedipe-Suréna ≈DTPC

Tableau 2 Schéma de principe du test statistique standard de comparaison des moyennes

-TPC) (A D u DTPC 1 2

Premièrement D_(A_-TPC)se situe dans la plage de variation normale autour de DTPC. On

retient l’hypothèse d’un écrivain unique (tragédie ignorée de P. Corneille). Cette hypothèse est notée Ho (hypothèse nulle). Elle signifie ici que, au seuil choisi, la différence entre D_(A_-_TPC) et

TPC

D est due au hasard (variabilité normale du caractère au sein de la population de référence).

Naturellement, dire qu'une hypothèse est acceptée ne signifie pas qu'elle est "vraie" mais seulement que les observations disponibles ne sont pas incompatibles avec elle et que l'on n'a pas de raison de lui préférer l'hypothèse contraire1_{. Si l’auteur de A est inconnu ou douteux, on}

accepte l’hypothèse P. Corneille (nous discutons plus loin la question de sa "véracité").

Deuxièmement, D_(A_-TPC) se situe en dehors de l’intervalle de variation normale. H0 est

rejetée et l’hypothèse inverse, notée H1 est acceptée : le texte n’appartient pas à TPC. Si l’auteur

de A est inconnu, peut-on affirmer qu’il ne s’agit pas de P. Corneille ? Il faut d’abord être certain qu’il s’agit bien d’une tragédie contemporaine, sur un thème pas trop éloigné de ceux traités par P. Corneille, dépouillée selon les normes indiquées au premier chapitre. Si ces conditions sont réunies, on rejette H0 (pièce de P. Corneille) et l’on accepte H1 (deux écrivains différents) avec un

risque d’erreur () d’autant plus faible que la différence entre les deux moyennes est grande. Pour choisir entre ces deux hypothèses, il faut calculer u = D_(A_-_TPC)- DTPC et rapporter

cette valeur à l’écart type TPC (écart réduit). Cet écart réduit répond à la question : de combien

d’écarts types les deux valeurs sont-elles séparées ? Sous réserve d’une distribution normale des distances dans la population de référence, ce calcul ramène le raisonnement dans le schéma de principe présenté au précédent chapitre (tableau 3).

1_{Desrosières Alain. La partie pour le tout : comment généraliser ? Cinq contributions à l'histoire de la}

Un cas limite

Nous allons illustrer ce raisonnement à l’aide d’un exemple limite. En effet, pour mettre à l’épreuve une théorie, il faut trouver des cas qui peuvent la mettre en défaut. Aussi a-t-on recherché dans le corpus du théâtre du XVIIe une tragédie particulièrement proche de celles de P. Corneille mais présentée par un autre écrivain (dont le corpus a été contrôlé selon les procédures du chapitre précédent). Il s’agit de Stilicon de son frère T. Corneille (1660). Le tableau 4 du chapitre II donne les distances entre cette tragédie et les autres de T. Corneille (moyenne intra : 0.189). Les distances entre cette pièce et les dix tragédies contemporaines de P. Corneille sont données dans le tableau 2.

Tableau 2. Distances de Stilicon (1660) de T. Corneille aux dix dernières tragédies de P. Corneille (classement chronologique). P. Corneille Stilicon (1660) Œdipe (1659) 0,220 Toison d'Or (1661) 0,233 Sertorius (1662) 0,245 Sophonisbe (1663) 0,245 Othon (1664) 0,236 Agésilas (1666) 0,252 Attila (1667) 0,244 Tite et Bérénice (1670) 0,243 Pulchérie (1672) 0,238 Suréna (1674 0,231 Moyenne 0,239

La probabilité pour que la différence entre D_(A_-_TPC)(0.239) et DTPC(0.181) ne soit pas

anormale est donnée par l’écart réduit :

) 1 ( 77 , 3 015 . 0 181 . 0 239 . 0  _    TPC TPC TPC) - (A D D u 

La table de l’écart réduit (loi normale centrée réduite) donne la probabilité α pour que l’écart-réduit égale ou dépasse, en valeur absolue, une valeur donnée. Ci-dessous les principales valeurs seuils (tableau 3).

Tableau 3. Extraits de la table de l’écart réduit1

 0,05 0.01 0.001 0.000 1 0.000 01 0.000 001 0.000 000 1 0.000 000 01 0.000 000 001

u 1.96 2.58 3.29 3.89 4.42 4.89 5.33 5.73 6.11

Un écart réduit de 3,77 indique qu’il y a moins d’une chance sur mille de se tromper en affirmant que Stilicon n’est pas une pièce de P. Corneille ou encore qu’elle est l’œuvre d’un autre écrivain.

Ce calcul appelle trois remarques

Premièrement, l’adoption de H1 (deux écrivains différents) ne permet pas d’écarter une

influence possible de Pierre sur cette pièce, voire une collaboration occasionnelle. Cette possibilité est suggérée par la proximité remarquable avec Œdipe, contemporaine de la composition de Stilicon (seule distance comprise dans l’intervalle à 99% pour les deux corpus).

Rappelons que les frères Corneille ont toujours vécu ensemble, qu’ils ont fait les mêmes études, qu’ils ont épousé deux sœurs, que les deux ménages ont fait bourse commune jusqu’au décès de Pierre (1684) et vécu sous le même toit. Il n’y a pas de conditions plus favorables à des influences mutuelles, voire à des collaborations. C’est pourquoi, ils ont été choisis comme "cas limite" (comme les sœurs Brontë pour la littérature anglaise). Ces cas définissent la proximité maximale entre écrivains différents dans le cadre d’influence de l’un envers l’autre ou de collaboration ponctuelle entre les deux2_{. En-dessous de cette limite, l’hypothèse de la}

collaboration ou de l’influence pourra donc être rejetée au profit de celle d’un auteur unique. Deuxièmement, il y a deux risques d’erreur. Le risque de rejeter H0 alors qu’elle est vraie,

ou "risque de première espèce" noté que nous venons de calculer. Mais il y a aussi le risque d’accepter H1 alors qu’elle est fausse, ou risque de "seconde espèce" (noté  Si l’on considère

que les deux hypothèses sont alternatives – un ou deux écrivains et rien d’autre - le risque de rejeter H0 alors qu’elle est vraie est le même qu’accepter H1 alors qu’elle est fausse, soit ici moins

de 1‰. En revanche, au moins une autre hypothèse est concevable étant donné les relations entre les deux écrivains (une ou plusieurs collaborations) : le fait de rejeter H0 n’implique pas que

l’on puisse conclure à deux écrivains travaillant indépendamment l’un de l’autre (il faut pouvoir rejeter l’hypothèse d’une collaboration). Nous présentons plus bas le calcul de cette erreur de second

1_{D’après Fisher & Yates. Statistical Tables for Biological, Agricultural and Medical Research (1949).}

type, dans le cas des hypothèses composites, calcul qui n’est pas possible pour un seul texte et un corpus de référence de moins de 30 textes1_.

Troisièmement, on peut souhaiter tester non pas les pièces une à une mais des corpus entiers. La question devient : toutes ces pièces peuvent-elles sortir d’un même moule ?

Dans le document Qui a écrit Aétius, Juba et Tachmas ? (Page 44-49)