• Aucun résultat trouvé

Problèmes de méthode et conditions techniques de l’enquête Philologie, analyse de corpus et statistique linguistique

Les noms de l’énigme

1. Problèmes de méthode et conditions techniques de l’enquête Philologie, analyse de corpus et statistique linguistique

Les conditions de la pratique philologique 3 ont été transformées, depuis un demi-siècle, par

la généralisation du traitement automatique des données. Grâce à l’ordinateur personnel et aux instruments commercialisés ou librement mis à la disposition de la communauté des chercheurs, la statistique linguistique n’est maintenant plus confinée aux laboratoires spécialisés. Or, les données numériques, que les notices des ouvrages lexicographiques traditionnels indiquent au mieux allusivement, contribuent indubitablement à notre compréhension des usages linguistiques. Afin de susciter une prise de conscience de cet état de fait, certains antiquisants, tenants de l’« informatique culturelle », proclament dans un article récent que « toute recherche philologique, qu’elle porte sur des textes classiques ou sur d’autres textes, est à présent un cas particulier de la linguistique de corpus 4 ».

Émile Benveniste remarquait pour sa part en 1954 que « le “sens” d’une forme linguistique se définit par la totalité de ses emplois, par leur distribution et par les types de liaison qui en résultent 5 » ; à juste titre, cette formule a été prise pour fondement théorique par des

— formation ;

— occurrences (tableau des occurrences dans le TLG) ;

— construction (syntaxe et associations remarquables — voir pour comparaison MOTTE & RUTTEN 2001) ; — sens (sommaire et commentaire des travaux lexicographiques).

Rappelons que l’examen des définitions et conceptions anciennes n’est pas l’objet de cette partie, mais de la suivante (cf. II). Pour le grec ancien, le dictionnaire étymologique d’Émile Boisacq (BOISACQ 1950 [1907- 1916]), celui de Hjalmar Frisk (FRISK 1973 [1954-1972]) et le DÉLG ont été consultés d’une manière systématique. Les dictionnaires de la langue grecque mis à profit sont le LSJ, le BAILLY et les tomes disponibles

du DGE, ainsi que celui de Dimitris Dimitrákos (DIMITRÁKOS 1936-1950) et, pour le grec tardif, d’Evangelinos Sophocles (SOPHOCLES 1975 [1870]). Pour le latin, les ouvrages lexicographiques utilisés sont les suivants : les dictionnaires d’Egidio Forcellini (FORCELLINI 1864-1887) et de Karl Ernst Georges (dans l’édition révisée par Heinrich Georges, GEORGES & GEORGES 1983 [1913-1918]), le TLL, l’OLD, le GAFFIOT et le DÉLL. Comme on le verra, nous avons recouru aux disques du TLG, du PHI et de la BTL, au TLG en ligne et au DGE en ligne.

3. Le terme « philologie » peut s’entendre ici dans sa plus grande extension, par exemple comme « toute sorte de procédure savante disciplinée, douée d’une conscience de sa méthode, dont le but est l’édition, l’explication et l’interprétation de toute sorte de texte » (MOST 2007, p. 61).

4. CRANE, BAMMAN & BABEU 2007 : « All philological inquiry, whether classical or otherwise, is now a

special case of corpus linguistics […]. » Ces auteurs, membres du projet Perseus (cf. 3), déclarent donc que les

indications « vagues » sont devenues insuffisantes et prônent une quantification systématique des phénomènes étudiés : « Vague statements such as “typical of Greek prose”, “common in early Greek”, etc. must give way to

dynamically generated measurements of well-mapped corpora. »

5. BENVENISTE 1966 [1954] (« Problèmes sémantiques de la reconstruction »), p. 290. Dans cette dialectique du discours et de la langue, le sens d’un lexème est perpétuellement ouvert, puisque chaque usage fait évoluer le résultat actuel des usages passés, mais doit être étudié comme une totalité close, à l’intérieur d’un système où toutes les relations sont significatives. En 1954, commence par noter le linguiste, « les notions sémantiques se présentent encore sous une forme si vague » qu’il préfère se borner à un « principe » immédiatement applicable ; cela explique les guillemets prudents dont il entoure le mot « sens ». L’idée est précisée dans la conclusion de l’article : « les notions sémantiques […], étant engagées dans la “substance” extra-linguistique, appellent d’abord

hellénistes qui visaient indissociablement l’histoire des mots et celle des idées 6. Le Thesaurus

linguae graecae informatisé tend assurément à la réalisation de cet idéal méthodologique, tout

en faisant apparaître de nouveaux problèmes. Lorsque l’on ne se contente pas d’exploiter le

TLG comme une bibliothèque virtuelle et portative, ce corpus gigantesque, où les textes sont

assortis de leur index et de leur table de concordance 7, est susceptible de multiples usages.

Selon la nature et le nombre des caractères observés et selon l’échelle de l’ensemble étudié, la comparaison raisonnée des faits linguistiques fournira les matériaux permettant de décrire un état de langue, les habitudes langagières d’un milieu ou d’un individu ou le style d’une œuvre. De ces matériaux, l’interprétation est étayée, mais n’est jamais dictée par les données numériques, car « il n’y a pas de correspondance biunivoque entre un résultat statistique et une affirmation de caractère historique ou littéraire 8 ».

Si la pratique des dénombrements et l’évaluation approximative de proportions d’emploi sont plus anciennes, ce n’est que dans les années 1950 que l’application des techniques statistiques à la linguistique et aux études littéraires s’est véritablement développée 9. La

statistique linguistique, ou lexicométrie si l’on désigne cette discipline d’un terme plus récent, a vu ses méthodes s’affiner, en même temps que les progrès de l’informatique et la constitution de bases de données permettaient d’observer des ensembles de textes de plus grande taille.

De la métaphore dont il est issu, le terme corpus hérite la notion d’un ensemble constitué, sinon organique et naturel 10. Tout d’abord utilisé pour désigner le recueil exhaustif des

documents d’un certain type 11, et ce notamment dans le domaine de la philologie 12, le mot

une description des emplois qui seuls permettent de définir un sens. Et cette description elle-même exige qu’on se délivre des fausses évidences, des références aux catégories sémantiques “universelles”, des confusions entre les données à étudier et celles de la langue du descripteur » (p. 307). Ce principe sera ensuite celui du

Vocabulaire des institutions indo-européennes, où il est ordonné à une explication génétique (voir BENVENISTE

1969, t. I, p. 9-12).

6. Voir, par exemple, les conséquences qu’en tirent M. Casevitz, pour son étude du vocabulaire grec de la colonisation (CASEVITZ 1985, « Avant-propos », p. 9), et M. Trédé, pour son histoire du mot et de la notion de 9!.'6% (TRÉDÉ 1992, « Introduction générale », p. 16).

7. Cette possibilité a évidemment une portée considérable : le travail de CASEVITZ 1985, par exemple, reposait sur la consultation des index, disponibles pour les auteurs classiques principalement, et sur un patient dépouillement des textes qui courait toujours le « risque » de laisser échapper des « exemples importants » (p. 10).

8. ÉVRARD 2002 [2000], p. 13.

9. Parmi les ouvrages les plus influents, on citera GUIRAUD 1960 et MULLER 1992 [1968]. Pour un bref historique, voir ÉVRARD & MELLET 1998, p. 112-115.

10. Usage spécial du paradigme corporel, cette métaphore a existé en grec comme en latin. CICÉRON

emploie, à propos de textes, aussi bien corpus (Correspondance, CXII = Lettres à ses proches, V, 12, 4 : le mot est traduit par « ouvrage » dans l’édition de la CUF) que ,:-! (XXVII = Lettres à Atticus, II, 1, 3 : « recueil »).

11. Les dictionnaires du français, le TLF par exemple, font remonter l’usage technique du mot au Code Justinien, ou Corpus juris civilis ; la référence juridique était encore la seule pour É. Littré, qui présente ce

s’applique à toute sorte de collections de données que l’on se propose d’examiner, quels que soient les critères de sélection adoptés (la seule disponibilité des témoignages ou encore, par exemple, l’appartenance à une classe chronologique ou thématique). L’étude d’un corpus a pour but, « à partir d’un ensemble clos et partiel de données », d’analyser « un phénomène

plus vaste que cet échantillon 13 ». La procédure d’objectivation par échantillonnage peut être

considérée comme un moment de toute méthode de connaissance dans laquelle l’induction ou l’expérimentation se voient reconnaître un rôle.

Sous la forme du traitement de corpus, cependant, cette démarche est particulièrement associée aux sciences du langage. L’observation d’une somme d’énoncés doit permettre des conclusions sur la langue, d’après ses usages attestés. C’est le cas notamment dans une perspective lexicographique ou lexicologique, mais il en est de même, à un niveau d’intégration supérieur au mot et à la phrase, pour l’analyse des discours, discipline plus récente au sein de laquelle l’emploi de la statistique et des moyens informatiques a reçu une grande attention 14. Son principe est donc que l’on postule la représentativité, à la fois

quantitative et qualitative, des éléments du corpus. Mais, puisque le système considéré est artificiel, le risque de circularité est permanent : si le mode de constitution du corpus détermine trop directement les résultats de l’analyse, celle-ci ne fait que confirmer les hypothèses antérieures, qu’elles soient conscientes ou subreptices. On a également reproché à l’analyse de corpus d’oblitérer les phénomènes d’intertextualité — ou d’interdiscours, si l’on nomme ainsi les formes de reprise plus diffuses et plus difficiles à isoler que la citation. Plus généralement, une telle méthode ne peut éviter de considérer le contexte d’énonciation comme un milieu extérieur aux énoncés dans lequel ceux-ci s’inséreraient au prix de quelques transformations manifestes.

Ces problèmes se présentent au spécialiste de l’Antiquité sous un aspect radical. Une langue qui n’est plus vivante n’est connue qu’à travers ses archives 15. Aussi nombreux et

lexème comme un nom propre non encore acclimaté à la langue française, puisque l’article qui lui correspond se limite à cette définition : « Terme latin employé pour signifier la collection du droit romain. Le corpus juris, ou, simplement, le corpus. » (LITTRÉ 1863-1877, sous ce mot.)

12. Un cas exemplaire est celui du Corpus des inscriptions grecques (Corpus inscriptionum graecarum), outil systématique de l’Altertumswissenschaft, dont A. Böckh fut, en 1828, le premier maître d’œuvre.

13. BEACCO & BRANCA-ROSOFF 2002, p. 148.

14. Les travaux de M. Pêcheux sur le traitement automatisé des données (à partir de PÊCHEUX 1969) sont regardés comme fondateurs d’un courant de recherche important ; voir TOURNIER 2002 et HABERT, NAZARENKO

& SALEM 1997. En évoquant la constitution et l’institutionnalisation de la philologie classique, D. Maingueneau a discuté d’une manière incisive la caractérisation de l’analyse du discours comme une « nouvelle philologie » (voir MAINGUENEAU 2005).

15. Voir par exemple les observations de F. Létoublon : le linguiste n’a d’autre choix que de considérer « un corpus donné comme un ensemble de réalisations (angl. performance dans la terminologie générative) attestant

aussi bien édités que soient les documents dont nous disposons pour le grec et le latin, comparativement à d’autres langues anciennes, nous devons toujours nous rappeler que toute étude de ce genre n’est qu’un sondage sur un corpus historiquement déterminé à la fois par les intérêts des groupes et des individus qui en ont été les relais et par le jeu du hasard. Ce qui ne pouvait pas être pensé, être dit et être transmis par des auteurs antiques a été rejoint dans le silence par les témoignages éteints. Il est ainsi possible qu’un hapax soit le seul vestige d’usages linguistiques dont la distribution sociale et géographique n’a pas favorisé la survie dans nos sources et dont les régularités se prêtent à peine à la conjecture. La tradition qui nous est connue est passée à travers le filtre d’institutions telles l’école et la religion, qui toutes deux ont commenté et préservé les textes.

Le TLG est le puissant vecteur de ce corpus historiquement préconstruit 16. Son utilisation

exige par ailleurs certaines précautions. La critique principale que l’on peut lui adresser est la contrepartie de son amplitude et de la relative rapidité avec laquelle il s’est développé depuis 1972. Ses concepteurs ont en effet pris le parti, dans des conditions techniques fort différentes des conditions actuelles, de proposer une archive idéalement intégrale de la littérature grecque conservée en ne retenant pour chaque œuvre qu’une édition unique. Puisque les textes qui entrent dans ce corpus sont dépouillés de l’appareil de notes qui rendait compte de leur transmission, l’analogie qui convient serait celle d’une bibliothèque où figurerait de chaque ouvrage un exemplaire non critique. En ce sens, le TLG, auxiliaire commode et doté de capacités de mémoire et de calcul humainement inaccessibles, risque de renvoyer le chercheur à un état préalexandrin de la philologie, en passant sous silence l’épaisseur de la tradition, et par conséquent les bases de toute discussion 17.

Un meilleur usage des possibilités informatiques demanderait que les textes interrogés véhiculent un contenu plus riche, c’est-à-dire que soient associés à chaque unité lexicale les renseignements que l’on attend d’une édition critique. Ne serait-ce que pour indiquer le statut d’un caractère ou d’une séquence de caractères, qui peuvent appartenir au texte établi, venir de la compétence de l’inaccessible locuteur du grec ancien » (LÉTOUBLON 1985, « Introduction », p. 11). Dans ses études sur les formes d’adresses en grec et en latin, E. Dickey pose d’une façon remarquable ce problème sociolinguistique de l’accès, par l’écrit, à la parole ordinaire (voir DICKEY 2002 et surtout DICKEY 1996,

p. 30-42).

16. Sur les problèmes liés à l’utilisation du TLG, voir HESLIN 2001, pour un compte rendu éclairé du TLG E, DICKEY 2007, sur la question du choix des éditions, et surtout CRANE, BAMMAN & BABEU 2007, sur les implications théoriques de ces questions techniques et les perspectives ouvertes dans le domaine du traitement automatisé des textes anciens.

17. Une édition diffusée par le TLG acquiert un statut particulier par le seul fait qu’elle est aisément accessible et immédiatement reproductible. Corrélativement, toute modification de la base (ou banque) de données consacre les mérites et les défauts d’une nouvelle version du texte.

d’une correction ou bien être une conjecture, etc., il s’agirait de constituer un hypertexte. En renversant la perspective, on peut dire aussi bien que tout apparat critique est un hypertexte mentalement actualisé par son lecteur.

Dans le cas d’une langue flexionnelle, le problème de la lemmatisation, c’est-à-dire de l’association des formes d’un même lexème, est particulièrement aigu. Une lemmatisation complète des textes permet la reconstitution automatique des paradigmes nominaux et

verbaux 18. Pour un corpus d’une telle envergure, on voit combien la conversion serait difficile

à réaliser. Afin de pallier ce grave inconvénient, plusieurs logiciels de consultation ont intégré depuis peu le programme d’analyse morphologique que propose le site Perseus : par la comparaison d’une liste de formes analysées et de l’index des bases de données, il est possible d’obtenir un dénombrement approximatif 19. Avant de pouvoir recourir à ce dispositif, nous

avions procédé à des recherches successives par formes graphiques — que nous nommerons des lemmes par commodité — afin de regrouper les occurrences en familles, en tenant compte des variations orthographiques habituelles. La concordance des résultats a été vérifiée et l’analyse a été poussée plus loin que ne le permet cet instrument, en discriminant certaines des formes convergentes qui appartiennent à des lexèmes distincts ou bien diffèrent par le genre, la personne ou le nombre 20.

L’interprétation des résultats a également soulevé une série de problèmes relatifs à ce que nous avons nommé plus haut l’interdiscours. Dans une enquête lexicale, le statut des citations anciennes est double, car, sans nous faire connaître ni forme ni construction nouvelles et en accroissant le nombre des occurrences, elles nous renseignent cependant sur la diffusion des textes et des mots et, par le commentaire et l’intégration des énoncés, sur leur réception. Le

18. Le Laboratoire d’analyse statistique des langues anciennes (LASLA) de l’université de Liège, fondé dès 1961, a d’emblée fait ce choix pour l’élaboration de ses bases de données. Sur la lemmatisation, voir MELLET

1996 et ÉVRARD & MELLET 1998, p. 125-127.

19. Sur le projet Perseus, cf. 3. La recherche des formes fléchies d’un même mot a été rendue possible par la version 3.1 de Diogenes (septembre 2007), tandis que le TLG en ligne propose et perfectionne depuis décembre 2006 ce même outil de lemmatisation emprunté au site Perseus, dont le taux de reconnaissance est actuellement supérieur à 90 %. L’analyse automatique est encore limitée par la convergence morphologique : toutes les occurrences de même forme sont intégrées à chacune des familles concernées. L’identité de certaines formes de ;1!+#<,.% et de ;1!.#=>, par exemple, entraîne la mention de 168 occurrences du substantif, dont 7 seulement lui appartiennent en réalité. Les difficultés soulevées par la morphologie d’un substantif comme 8?,.% sont plus graves encore, puisque s’ajoute à ce type d’ambiguïtés (celle de 8?,<.%, par exemple, qui est aussi une forme de 8?>) le problème des noms propres, que la distinction des casses ne suffirait pas même à résoudre, en raison de l’effacement des majuscules modernes dans les crases. Ainsi, le vocatif de @A,.% est inclus dans le paradigme de 8?,.% — à tort dans 13 des 14 occurrences citées, même si la base de données contient bien une forme 8?,., qui n’est pas l’hypothétique forme éolienne annoncée par l’analyse de Perseus, mais une faute d’orthographe, de saisie probablement, dans un texte du IVe siècle de notre ère (4B# 8C,. 9!D 0#E,4!,.#, chez Eustathe d’Antioche). Tout comme la supposition de formes dialectales, le traitement des préfixes et celui du duel fait surgir de simples fantômes lexicaux. Sur les exemples choisis, cf. 4.1.2 et l’annexe III.

20. Ces convergences morphologiques peuvent être nommées « homographies occasionnelles » (ÉVRARD &

goût de la rareté ou la volonté d’élucider les termes obscurs a fréquemment pour effet qu’un lexème ancien isolé s’accompagne d’un nuage d’occurrences exégétiques qui dissimulent sa nature au premier regard statistique. Ce phénomène d’écho se produit donc dans la large gamme des textes de type scholiastique et lexicographique, mais nous le rencontrons aussi lorsque la tradition d’un texte comporte une version abrégée ou plusieurs rédactions.

En revanche, le fait que le TLG n’autorise pas à distinguer les textes anciens de leur reprise dans un ou plusieurs recueils modernes entraîne une multiplication des occurrences que l’on ne qualifiera plus d’écho, mais, dans les termes de la théorie de l’information, de simple bruit. La redondance n’est pourtant pas parfaite, car il arrive que les éditeurs des fragments divergent, entre eux ou avec l’éditeur de la source, sur un passage appelé par la requête. Dans l’interrogation de la base de données, ce cas est l’unique trace du problème fondamental des variantes textuelles.

Le traitement automatique des citations et des témoignages réduit également d’une autre

façon la pertinence des réponses. Le cotexte 21 fourni par l’éditeur de fragments et de

testimonia est en effet pris en compte de la même façon que le texte de l’auteur. En particulier

dans le cas d’une paraphrase en prose, on retrouve alors le problème général de la délimitation des emprunts, plus ou moins explicites, et de la confiance que l’on doit avoir dans le caractère littéral des reprises, dont dépendent souvent la date et le contexte de première attestation d’un terme.

Ces divers types de répétition littérale occasionnent, en ce qui concerne les noms de l’énigme, des difficultés particulièrement sensibles. Prenons l’exemple des emplois

d’!*#+,,$-!. attestés antérieurement au IIIe siècle avant notre ère. Seules 30 des

73 occurrences enregistrées figurent dans des textes écrits à la période considérée, tandis que les autres sont des références incluses dans des recueils de fragments et de témoignages : plus de la moitié des données numériques sont sans pertinence. La raison de ces redoublements est que les passages cités dans les collections modernes sont introduits ou immédiatement commentés dans le texte du citateur au moyen du verbe. Il en est ainsi dans le cas de plusieurs philosophes archaïques, par exemple pour certains des fragments d’Anaxagore, Parménide ou Empédocle recueillis par Hermann Diels et Walter Kranz, et dans le cas des fragments

21. Au terme contexte, les spécialistes sont nombreux à préférer désormais cotexte pour désigner sans ambiguïté l’« environnement verbal » d’une « unité linguistique » (KERBRAT-ORECCHIONI 2002, p. 134). Lorsque la distinction technique est utile, on aura recours à cette appellation pour le sens restreint, tandis que le mot contexte conservera son sens plein, à la fois linguistique et socioculturel.

aristotéliciens publiés par Valentin Rose 22. C’est que le verbe appartient au groupe assez

étoffé des verbes d’énonciation et constitue, avec son sous-groupe lexical, une pièce maîtresse

du vocabulaire de la citation et du commentaire 23. La qualité d’opérateurs intertextuels et, plus

généralement, métadiscursifs entre pour beaucoup dans la progression numérique exponentielle de la famille d’!*#+,,$-!., qui accompagne la naissance et l’expansion de la culture du commentaire à laquelle nous devons la plus grande partie des textes anciens que nous lisons. Pour préciser cette observation, il suffira de mentionner la prépondérance, parmi