L’art de la lecture distante - En lisant, en écrivant, en programmant

Corpus et méthodologies

3.1 En lisant, en écrivant, en programmant

3.1.1 L’art de la lecture distante

Distant Reading : tel est le titre d’une collection d’articles publiée en 2013 par un

chercheur en littérature comparée, Franco Moretti. La couverture annonce la couleur : elle reproduit un réseau des relations entre les personnages de la pièce de William Shakespeare, Hamlet. La contribution de Moretti se situe dans le sillage du mouvement des humanités numériques.

Paradoxalement, le cadre méthodologique prôné par Distant Reading ne procède pas d’une révolution technique — d’ailleurs les critiques de l’ouvrage se sont focalisées sur

l’absence d’incarnation concrète des pistes proposées1. Moretti souhaite tirer les consé-quences d’une révolution intellectuelle : l’avènement de la world history, de ces grandes synthèses historiques mondialisées de Fernand Braudel ou Immanuel Wallerstein. Dans ces ouvrages, la rédaction eﬀective ne représente qu’une petite partie du texte :

Écrivant sur l’histoire sociale comparée, Marc Bloch a forgé une jolie formule : « des années d’analyse pour un jour de synthèse » ; et si vous lisez Braudel ou Wallerstein vous saisissez immédiatement ce que Marc Bloch avait en tête. Le texte strictement rédigé par Wallerstein occupe un tiers de la page, peut-être un quart, ou moitié moins : le reste sont des citations (1400 dans le premier vo-lume du Système du monde du XVe siècle à nos jours). Des années d’analyses réalisées par des pairs, que la page de Wallerstein synthétise dans un système unique. Maintenant, si nous prenons ce modèle au sérieux, l’étude de la littéra-ture mondiale devra bientôt reproduire cette « page » — ce qui veut dire : la relation entre l’analyse et la synthèse — pour étudier la littérature. Mais, dans ce cas, l’histoire littéraire va rapidement devenir très diﬀérente de ce qu’elle est aujourd’hui : elle va devenir une « seconde main » : un patchwork des recherches menées par d’autres, sans aucune lecture directe. La programme de la littérature mondiale est toujours ambitieux, et peut-être plus que jamais ; mais cette ambi-tion est maintenant directement proporambi-tionnelle à la distance du texte ; plus le projet est ambitieux, plus il doit se distancier du texte2.

La conception d’une méta-synthèse n’est que l’une des pistes retenues par Moretti. Il préconise également la mise en œuvre d’une analyse stylistique quantitative

(quantita-tive stylistics). Les perspec(quantita-tives ouvertes par le projet Ngram Viewer et la culturonomics

le fascinent : « En matière de phénomène linguistique et stylistique, nous pouvons faire des choses dont les générations précédentes ne pouvaient que rêver »3. L’étude litté-raire se focalise sur un petit échantillon de chefs d’œuvres. L’exégèse précise (close

reading) ne permet pas de reconstituer la production textuelle d’une société : de 1750

à 1850, plusieurs dizaines milliers de romans se publient au Royaume-Uni. Les schémas narratifs, les formations discursives et les conceptions esthétiques les plus courantes ne correspondent pas nécessairement aux catégories canoniques élaborées par l’histoire littéraire. Pour Moretti, la fouille de texte automatisée à grande échelle constitue un

1Par exemple : Ruth-Ellen St. Onge, « Compte rendu de Moretti (Franco), Distant Reading »,

COnTEXTES. Revue de sociologie de la littérature, 2014

2Les italiques proviennent du texte original. Nous traduisons : Franco Moretti, Distant Reading, Verso Books, 2013, p. 48.

instrument subversif : il remet en cause les régimes de textualités qui s’interposent entre notre perception contemporaine et les conditions d’élaboration, de diﬀusion eﬀectives des textes étudiés.

Vous entrez dans l’archive et les coordonnées usuelles disparaissent ; vous ne voyez que des agrégats d’hybrides et d’étrangetés, pour lesquels les catégories consa-crées de la taxonomie littéraire n’oﬀrent qu’une aide limitée. C’est fascinant, de se perdre dans un univers dont nous ne soupçonnions pas l’existence ; mais nous peinons à extraire un tableau rationnel de cette Nuit de Walpurgis de voix dis-cordantes4.

La numérisation altère notre regard et nos approches. Même si les interfaces s’ef-forcent d’éluder cette vérité dérangeante en mimant la structure originale des pages, images et textes ne sont que des tables de nombres auxquelles de multiples combinai-sons peuvent être appliquées. Les documents peuvent être croisés, séparés et recoupés jusqu’au niveau de focalisation le plus infime qui soit (celui de la lettre ou du pixel). Ces parcours de lecture plus ou moins désaxés contribuent à enrichir et/ou amender nos interprétations initiales du texte. Selon Damon Mayaffre,« un texte n’a pas de si-gnification mais un sens (ou plutôt des sens) qu’il ne s’agit pas de re-trouver mais de co-construire dans des parcours de lecture contrôlés (…) la logométrie formalise moins des données que des parcours interprétatifs5. » La diversification des parcours de lec-ture démultiplie les regards et révèle des perspectives insoupçonnées : ce que le simple décompte des occurrences masque, la projection, en réseau, des affinités lexicales per-mettra peut-être de le découvrir.

Notre objet de recherche se prête à cette approche. En tant que forme périodique récurrente, la chronique boursière est fortement codiﬁée. Sous réserve d’avoir été propre-ment conﬁguré, un algorithme parvient à repérer automatiquepropre-ment les diverses incar-nations de ces routines. Il faut noter que l’analyse automatisée de la presse quotidienne reste peu usitée en France. La presse en ligne a fait l’objet d’un projet de relevé quanti-tatif ambitieux : le projet IPRI, « Internet, pluralisme et redondance de l’information » pour la MSH-Paris Nord. En 2015, il n’existe pas d’initiative comparable pour la presse ancienne. Le projet IPRI recense près de 5000 articles publiés pendant deux jours : le 6 et le 10 novembre 2008. L’analyse repose sur une méthode « semi-automatisée et

4Ibid., p. 180.

5Damon Mayaﬀre, « Vers une herméneutique matérielle numérique. Corpus textuels, Logométrie et Langage politique », op. cit., p. 11.

inductive », déclinée en deux phases : une détection statistique des principaux termes ou réseaux de termes communs à plusieurs sources, puis un aﬃnement manuel de ce défrichage6. En examinant le corpus ﬁnalisé, les chercheurs constatent que la répartition des sujets est très inégalitaire : « on observe ainsi une moyenne de 7 articles par sujet, avec d’immenses écarts à la moyenne et une médiane proche de 1 article par sujet7. »

Si la statistique libère, elle enferme aussi. Moretti n’ignore pas le conditionnement possible des instruments de mesure. La réduction des procédés linguistiques à une moyenne globale risque de générer une nouvelle vulgate : « en travaillant avec de grandes quantités, la moyenne devient une présence inévitable — et la moyenne implique un manque de distinction, la lenteur, l’ennui… Trop de polyphonie et trop de monotonie : les humanités numériques ont leur Charybde et leur Scylla. Lorsque nous parviendrons à développer une relation intelligible entre ces deux dérives, alors naîtra un nouveau paradigme de l’analyse littéraire8. »

L’avertissement de Moretti s’applique à l’étude des cultures textuelles. Pour saisir des réseaux discursifs et documentaires imbriqués, la lecture statistique des immenses corpus numérisés s’impose. C’est une voie royale pour s’émanciper des ﬁltres de lecture : par-delà la part visible des œuvres ayant passé le test de la postérité, il existe des voies de traverse, des lieux d’échange et de formulation privilégiés et, pourtant, occultés. Pour autant, le travail statistique reste un travail textuel. Les tableaux, les visualisations, les bases de données ont leurs propres règles, et préforment notre regard tout autant que le commentaire exclusif d’un corpus restreint, érigé en objet représentatif de toute une économie de la formation des textes.

3.1.2 Du langage au dialecte : l’élaboration d’un outillage

Dans le document La formation de la chronique boursière dans la presse quotidienne française (1801-1870) : Métamorphoses textuelles d'un journalisme de données (Page 113-116)