• Aucun résultat trouvé

Une approche qualitative en marge des linguistiques des corpus

3. Ancrages épistémiques

3.1 Une approche qualitative en marge des linguistiques des corpus

Le terme de corpus se voit associé aujourd’hui à un véritable gigantisme des observables, leur « ensemble limité » s’étant transformé, en raison de la mécanisation informatique qui se généralise au début des années 1990, en ensembles quasi illimités. L’accroissement de la taille des données sous format électronique ne cesse d’augmenter, en même temps qu’est facilitée leur mise à disposition (Habert 2000). À l’écrit, les bases textuelles de plus de 100

millions de mots sont devenues monnaie courante : Frantext comporte 251 millions de mots en français14, en allemand, DWDS-Korpora s’enorgueillit de pouvoir mettre 5,5 milliards de « Textwörter » à disposition15, etc. ; tandis que les banques de données consacrées à l’oral se multiplient : la Talkbank ou le Santa Barbara Corpus of American English pour l’anglais, le corpus FOLK de l’Institut für Deutsche Sprache pour l’allemand, ou encore, la plateforme CLAPI pour le français, développée et lancée à Lyon, au sein du laboratoire GRIC, devenu depuis ICAR (Groupe ICOR, Bert et al. 2010).

Le terme « linguistiques de corpus » (Habert et al. 1997, le pluriel exprime la diversité des champs concernés) renvoie donc nécessairement à de grands, voire de très grands corpus. Ce glissement sémantique reflète un bouleversement des pratiques en sciences du langage. Toute recherche linguistique de groupe qui se veut légitime se conjugue aujourd’hui avec l’ingénierie informatique. Il suffit de regarder les projets ANR acceptés en sciences du langage (je suis moi-même associée, pour une petite part, dans le projet Democrat, sur la modélisation et le TAL des chaînes de référence). Avec un indéniable revers : l’approche qualitative, sans être tombée dans un total discrédit, est considérée comme moins fiable, moins objective, moins confirmatoire, moins représentative 16 , en un mot moins « scientifique », que ne le sont les approches de la « linguistique instrumentée ». L’ordinateur est présenté par ceux qui l’utilisent comme un outil indispensable :

Seul l’ordinateur peut atteindre la précision, la systématicité, l’exhaustivité ou l’objectivité nécessaires dans une description scientifique. […] Nous estimons que les ordres de grandeur, les chiffres, sont les outils les plus fiables pour décrire les choses et le monde […]. (Mayaffre 2012 : 16)

Le jeune chercheur en sciences du langage qui voudrait aujourd’hui se passer des données quantifiées rendues possibles par les grands corpus court le risque de paraître dépassé17. C’est cette tendance que je récuse : le quantitatif n’a pas que des avantages. Comme il est impossible, dans le cadre d’un article, de revenir sur les implicites qui sous-tendent l’épistémologie des actuelles sciences du langage, cette synthèse me permet donc de revenir

14 Indication donnée sur la page d’accueil de Frantext, https://www.frantext.fr/, consulté le 29.08.2018.

15 Indication donnée sur la page d’accueil de DWDS-Korpora, https://www.dwds.de/d/korpora, consulté le 29.08.2018.

16 « Les données par corpus, moins susceptibles de manipulation, sont tenues pour plus objectives que les données par intuition », (Léon 2015 : 175).

17 « Il devient rare d’ailleurs qu’un linguiste, de quelque « obédience » qu’il soit, se passe totalement des possibilités offertes par les grands corpus. […] Il existe même des domaines, comme la prosodie ou la morphologie […] où il est impossible de ne pas les utiliser », (Léon 2015 : 157, 176).

sur ce que je n’ai moi-même jamais eu l’occasion de pouvoir revendiquer clairement : la pertinence d’une approche humaine non instrumentée.

On admet que le quantitatif seul ne suffit pas, mais l’idée que les deux sont nécessaires est donnée comme évidence. Les recherches « quanti-qualitatives », qui allient « la mesure et le grain » (titre de l’ouvrage de Rastier 2011), sont aujourd’hui les plus estimées. Le recours au quantitatif est vu comme une richesse parce qu’il permet d’accéder à des nouveaux observables qui seraient « inaccessibles autrement » (Rastier 2011 : 13, 19, 20, etc.), ou bien dont l’importance n’aurait pas été immédiatement perceptible. Le problème est qu’inversement, on fait de moins en moins valoir que l’approche qualitative permet de repérer des occurrences sur la base des propriétés complexes absolument irréductibles à des critères ou des règles formelles traitables par un ordinateur. La fascination pour le quantitatif, qui ne devrait être qu’une étape vers le qualitatif, conduit à des dérives, où les données brutes sont survalorisées. En Allemagne, la « Stilometrie » a ainsi le vent en poupe, qui développe le concept de « distant reading » et propose ainsi des études stylistiques d’auteurs dont on peut n’avoir jamais lu un texte en entier (la lecture humaine n’est que du « close reading »)18. Dans ma propre recherche, je maintiens une définition strictement qualitative du corpus et replace au centre la notion de texte, et avec elle, de contexte. Ce qui me paraît scientifiquement contestable, plus que l’absence de représentativité – quelle représentativité ? Pour une linguistique qui ne se veut ni prescriptive, ni normative, un exemple atypique semble tout aussi pertinent et intéressant qu’un exemple attesté mille fois –, est la

décontextualisation : le fait de travailler, jadis, sur des exemples fabriqués, aujourd’hui, sur

des exemples issus des co- et con-textes les plus divers dans « l’ensemble de la toile considérés par certains comme « le » corpus », (Léon 2015 : 173). Mon aune demeure, encore et toujours, le texte, soit des énoncés mis en texte, tissés, co(n)textualisés. « [L]e texte est pour une linguistique évoluée l’unité minimale et le corpus l’ensemble dans lequel cette unité prend son sens. » (Rastier 2011 : 33). D. Mayaffre, spécialiste en logométrie politique, définit le corpus comme « forme maximale du contexte » :

Le corpus peut être en effet conçu comme une forme privilégiée du contexte. Plus précisément, nous définissons le corpus comme la forme maximale du contexte. De la lettre au mot, du mot à la phrase,

18 Digital Humanities in der Literaturwissenschaft (Computerphilologie), https://www.digitalhumanities.tu-darmstadt.de/index.php?id=37

de la phrase au paragraphe ou à la partie, de la partie au texte, du texte au corpus. (Mayaffre 2010 : 13)

Nombre de phénomènes ne peuvent se comprendre qu’au-delà de la phrase (à commencer par les anaphores), mais toutes les unités ne sont pas au même niveau. Je maintiens, à l’instar de la linguistique traditionnelle, la phrase (ou l’énoncé) comme niveau-pivot, à l’articulation des unités de rang inférieur (les morphèmes, les mots, les syntagmes) et des unités de rang supérieur (les niveaux mésotextuel (Adam 2018) et macrotextuel). Le saut qualitatif ne se situe pas entre le texte et l’ensemble des textes, le corpus, mais entre la phrase et le texte. C’est la phrase qui nous fait entrer dans le domaine du « catégorématique » (Benveniste 1966 : 128). « Nous pouvons segmenter la phrase, nous ne pouvons pas l’employer à intégrer. Il n’y a pas de fonction propositionnelle qu’une proposition puisse remplir. […] Cela tient avant tout au caractère distinctif entre tous, inhérent à la phrase, d’être un prédicat » (Ibid.) Dans cette perspective, on peut considérer qu’un seul et même texte peut servir de corpus. À partir du moment où les données sont appréhendées dans le respect de leurs contraintes textuelles, qui sont typologiques, génériques, historiques, énonciatives, il suffit d’un ou de plusieurs « textes » pour les rassembler et les constituer en corpus.

J’ai salué comme une libération l’usage de l’ordinateur dans ma pratique de l’écriture, mais il m’est impossible, malgré les tentatives que j’ai pu faire, d’utiliser de manière pour moi pertinente la textométrie dans le traitement des données. Ma réserve vis-à-vis d’une approche outillée ne serait pas possible si j’étudiais des données orales, la prosodie, la communication gestuelle, tous phénomènes qui n’existent que sur le vif et doivent donc être enregistrés et /ou filmés.