Modéliser digitalement la littérature : éléments d’introduction aux Humanités numériques

En guise d’introduction : peut-on modéliser la complexité ?

Chapitre 2 : Littérature, spatialité et modélisation

2.2. Modéliser la littérature

2.2.1. Modéliser digitalement la littérature : éléments d’introduction aux Humanités numériques

2.2.1.1. Petite histoire des littératures numériques

Le terme « Humanités numériques » regroupe les initiatives de recherche, d’ingénierie et d’enseignement à la rencontre entre les technologies numériques et les « Humanités », c’est-à-dire les sciences humaines et sociales. En ce sens, les recherches en Humanités numériques portent sur deux volets principaux : d’une part le fait d’utiliser des technologies numériques et les méthodes quantitatives pour étudier des matériaux et des phénomènes artistiques, littéraires, sociaux et plus généralement humains ; et d’autre part, le fait de prendre comme objet d’étude les contenus, les usages, les relations ou les phénomènes sociaux produits ou impliqués par le numérique507. Notre étude se place dans la première tendance citée, puisqu’elle consiste à utiliser les technologies géomatiques, et notamment les bases de données géographiques, pour aborder l’espace littéraire de Nedjma de Kateb Yacine. C’est sur cette tendance que nous nous focaliserons. La naissance des humanités numériques est habituellement fixée à 1949 lorsque Roberto Busa utilisa pour la première fois l’ordinateur dans un contexte littéraire : pour la numérisation des œuvres complètes de Thomas d’Aquin508. Aujourd’hui les domaines des Humanités numériques les plus féconds et remarquables sont la Digital Linguistic ou linguistique digitale509, la construction, la numérisation et la mise à disposition de base de données textuelles510, la

cette œuvre à son incomplétude, au frisson de l’indéfini, au souffle de l’imparfait. La Recherche n’est pas un objet clos : elle n’est pas un objet. » (GENETTE, Gérard, Figure III. Le Discours du récit, op. cit., p. 280). Enfin, Kateb Yacine affirme lui-même : « Toute œuvre est inachevée. Nos aventures n’ont pas de fin. Après la mort, l’œuvre commence une nouvelle vie », Le Poète comme un boxeur, op. cit., p. 184.

507 Cette partie sur l’histoire des Humanités numériques est notamment une synthèse du « Manifeste des digital humanities » par THATCamp Paris, ThatCamp Paris 2012 [En Ligne], mis en ligne le 21 mars 2011, consulté le 16 juillet 2016. URL : http://tcp.hypotheses.org/category/manifeste; et de BERRA, Aurélien, « Pour une histoire des Humanités numériques », Des chiffres et des lettres, Revue Critique, n°819-820, aout-septembre 2015.

508 La fin de cette entreprise et la publication de ces œuvres complètes numérisée datent de 1970. Corpus Thomisticum [En Ligne], mis en ligne entre 2000 et 2013, consulté le 14 Juillet 2016. URL : http://www.corpusthomisticum.org.

509 En linguistique, les méthodes numériques et quantitatives ont une vitalité particulière. Il est tout à fait répandu et normal d’avoir recourt à des logiciels informatiques en linguistique. Les différents domaines dans lesquels le numérique est utilisé en linguistique sont : le text mining, « fouille de texte » ou « extraction de connaissance », qui consiste à extraire de manière automatique d’un texte des informations selon un thème et des critères de similarité (par exemple la lemmatisation) ; la lexicométrie, la textométrie ou la logométrie (la production de statistiques quantitatives à partir des mots, phrases, etc., d’un texte) ; le topic modelling (à partir d’une modélisation probabiliste, le topic modelling ou « modélisation de sujet » permet de déterminer les sujets ou thèmes abstraits dans un texte) ; l’attribution automatique de texte à un auteur ; l’analyse de réseaux d’occurrence, etc.. Globalement, la linguistique digitale revient à transformer en algorithme des modèles simplifiés de la linguistique. Nous pouvons citer quelques logiciels répandus en France : par exemple, Hyperbase (logiciel développé par le CNRS pour l’exploration documentaire et statistique des textes et la constitution de bases de données hypertextuelles, Site de L’UMR 7320 : Bases, Corpus, Langage [En Ligne], mise en ligne le 13 février 2013, consulté le 14 juillet 2016. URL : http://bcl.cnrs.fr/rubrique38) ; IRaMuteQ (« Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires », développé au sein du LERASS, Le Laboratoire d’Études et de Recherches Appliquées en Sciences Sociales de l’Université de Toulouse 3, IRaMuteQ [En Ligne], mise en ligne et à jour entre 2008 et 2016, consulté le 14 juillet 2016. URL : http://www.iramuteq.org/) ; ou Lexico (pour l’analyse textométrique et de statistiques textuelles, développé par André Salem au sein de l’université Sorbonne Nouvelle-Paris 3. Lexi&Co, [En Ligne], mis à jour en 2016, consulté le 14 juillet 2016 URL : http://www.lexi-co.com). Cette liste n’est pas exhaustive. Il est néanmoins intéressant de constater l’importance de l’Opensource dans ces initiatives principalement universitaires.

510 La plupart des grandes bibliothèques et Universités ont des bases de données de textes mises en ligne et il existe des bases de données privées qui référencent et mettent à disposition, en général gratuitement, des textes variés. Pour ne citer que quelques sites : EBSCOhos Research Databases qui répertorie et centralise des grandes bases de données de textes, notamment de grandes universités et Musées (EBSCOhost [En Ligne], mis à jour en 2016, consulté le 14 juillet 2016. URL : https://www.ebscohost.com/) ; JSTOR, « JSTOR is a digital library of academic journals, books, and primary sources. » (JSTOR [En Ligne], mise à jour en 2016, consulté le 14 juillet 2016. URL : http://www.jstor.org/) ; Googlebook [En Ligne], mise à jour en

Géomatique, et plus généralement le développement de la visualisation511 et des statistiques appliqués aux sciences humaines et sociales. Dans ces deux derniers cas, les problématiques et les justifications heuristiques sont globalement les mêmes que celles qui régissent l’emploi de la graphique et des statistiques dans les sciences humaines et sociales et dont nous avons déjà beaucoup parlé jusqu’ici.

Figure 20: Visualisation de la récurrence des termes dans le chapitre 2 de cette thèse avec l’outil web Voyant Tools. En littérature particulièrement, certaines initiatives remarquables peuvent être dégagées. Une sorte de « manuel » des Humanités numériques appliquées à la littérature a été publié dès 2007, dans lequel sont résumés les problèmes épistémologiques – toujours d’actualité en 2016 – posés par la rencontre (« encounter ») ou les changements (« conversion ») – là est toute la question – qu’induit le rapprochement des deux média que sont la littérature et les technologies numériques512. Ce rapprochement questionne directement la quantification et la modélisation en littérature. Selon David Hoover, une des fonctions de la quantification numérique en littérature

2016, consulté le 14 juillet 2016. URL : https://books.google.fr/ ; Gallica, « des millions de documents en ligne », la base de données de la Bibliothèque Nationale de France (Gallica [En Ligne], mis à jour en 2016, consulté le 14 juillet 2016. URL : http://gallica.bnf.fr/). Certaines de ces bases de données mettent à disposition des documents en format texte, permettant ainsi d’effectuer des recherches thématiques, lexicales, etc., à l’intérieur des textes : par exemple la base de données de textes critiques en français de 1675 à 1950 proposée par le Labex Observatoire de la vie littéraire (Obvil) de l’Université Paris-Sorbonne (Paris 4) (Observatoire de la vie littéraire (Obvil) [En Ligne], mise à jour en 2016, consulté le 14 juillet 2016. URL : http://obvil.paris-sorbonne.fr/corpus/critique/).

511 Beaucoup de logiciels de visualisation de données sont développés et utilisés dans les sciences humaines et sociales. On peut citer le logiciel Gephi, un logiciel libre qui permet la visualisation de réseaux (Gephi [En Ligne], mis en ligne entre 2008 et 2016, consulté le 14 juillet 2016. URL : https://gephi.org/) (pour un exemple de visualisation de réseau avec Gephi, voir Annexe 1, Figure 1) ; ou l’outil web Voyant Tools qui permet de mesurer les récurrences des mots dans un texte (textométrie) et d’en donner une représentation graphique synthétique (Voyant Tools [En Ligne], mis à jour en 2016, consulté le 14 juillet 2016. URL : http://voyant-tools.org/) (voir Figure 20). Il faut ajouter à cela les logiciels de visualisation cartographique comme les Systèmes d’Informations Géographiques (comme ArcGIS, QuantumGIS, etc.) et les logiciels de cartographie assistée par ordinateur (comme Philcarto).

512 Voir l’introduction de l’ouvrage par Alan Liu, « Imagining the new media encounter », dans Companion to Digital Literary Studies [En Ligne], mis en ligne en 2007, consulté le 15 juillet 2016. URL : http://www.digitalhumanities.org/companion/view?docId=blackwell/9781405148641/9781405148641.xml&chunk.id=ss1-3-1&toc.depth=1&toc.id=ss1-3-1&brand=9781405148641_brand. Selon cet article, le rapprochement des différents media pose les questions générales suivantes : « How can literature be digital? And how can the digital (the home territory, after all, of office files, databases, and spreadsheets as well as mass entertainment special effects) be literary? Does literature really have a future in a new media ecology where the fiercest, deepest, and most meaningful identity tales of our young people seem to be beholden to iPods and other I-media of music, video, chat, and blogs? », p. 14. Cet article résume ainsi les changements ou « conversion » impliqués par le rapprochement des différents media, littéraires et numériques : « Writing » devient « Encoding » / « Reading »  « Browsing » / « Publishing »  « Transmitting » / « Preservation »  « Migration » / « Mimesis »  « Modeling » / « Absorption »  « Immersion » / « Imagination »  « Simulation ».

est de déterminer les éléments qui sont typiques d’un texte ou d’un auteur et ceux qui, au contraire, en constitue des exceptions, par exemple dans le but d’attribuer automatiquement un texte à un auteur, pour évaluer les évolutions dans le style d’un auteur ou dans l’usage d’une expression au cours du temps, etc.513. Quand il s’agit de « quantifier » un texte littéraire, il convient en amont de se demander que compter et comment le compter. Les questions du « quoi » et du « comment » se rejoignent dans celle de l’unité de mesure : que mesure-t-on dans un texte ? Les mots, les phrases, les paragraphes, les tirades, les chapitres, les éléments de l’intrigue, les personnages514 ? L’arbitrage doit aussi porter sur le corpus à mesurer. Cela doit toujours dépendre du « pourquoi » de l’étude. En aval de la mesure, le digital humanist doit se poser la question du traitement quantitatif à appliquer à la mesure, car « la quantification ne s’arrête pas au compte ou à la mesure, ni à leur présentation, bien sûr, et de nombreux types différents d’opérations mathématiques peuvent être appliqués aux nombres515 ». À propos des initiatives numériques en littérature, il convient enfin de citer les tentatives et les réflexions autour de la « modélisation » de la littérature qu’a menées Willard McCarty, notamment dans son entreprise de modélisation très fine des Métamorphoses d’Ovide516

2.2.1.2. La modélisation dans les Humanités numériques contemporaines

Les Humanités numériques, et particulièrement les initiatives en littérature, reprennent en fait nombre de questionnements que nous nous sommes déjà posés dans les deux premiers chapitres de cette thèse, puisqu’il s’agit concrètement d’utiliser des outils qui nécessitent un formatage strict des données en amont et qui appliquent des modèles forcément simplifiés par rapport aux modèles des sciences humaines et sociales, puisqu’algorithmiques517. Dans la plupart des cas, le recourt aux technologies numériques est justifié par le

513 HOOVER, David L., « Quantitative Analysis and Literary Studies », art. cit., p. 2 : « The unusual and the characteristic [in a text] must be validated by counting and comparison ». L’inhabituel et le caractéristique d’un texte peuvent donc être déterminés par des algorithmes qui les mesurent. Voir les pages 5 et 6 de cet article pour une liste indicative des applications et des objectifs de telles mesures en littérature. Nous pouvons citer l’étude « Cicero, Sigonio, and Burrows » de Forsyth, Holmes, and Tse en 1999 qui traite de la notion d’auteur, de l’évolution chronologique et du genre ; et l’étude de Erez Aiden et Jean-Baptiste Michel sur les changements linguistiques comme indices du changement des mentalités (par exemple l’évolution de l’utilisation des expressions « The United States is » et « The United States are » dans la littérature américaine serait un indice du sentiment d’unité de la nation au XIXe et début XXe siècle) (AIDEN, Erez and MICHEL, Jean-Baptiste, Uncharted. Big Data as a Lens on Human Culture, USA, Riverhead Books, 2013). Enfin, nous pouvons citer l’étude de Stewart, « Charles Brockden Brown: Quantitative Analysis and Literary Interpretation », en 2003, qui étudie comment Charles Brockden Brown change de style narratif entre deux de ses romans.

514 Voir par exemple l’étude de Franco Moretti dans Des Chiffres et des lettres qui comptabilise et schématise par des représentations de réseau le nombre de tirades et de vers par personnage dans Phèdre de Racine. MORETTI, Franco, « “L’opérationnalisation” ou, du rôle de la mesure dans la théorie littéraire. », Des Chiffres et des lettres, op. cit.. Nous développerons en détail la question de « que compter ? » au moment de définir les unités narratives que nous comptons dans notre méthodologie. Voir le Chapitre 7, la patrie « 7.2.3.2. Quelle donnée littéraire ? ».

515 HOOVER, David L., « Quantitative Analysis and Literary Studies », art. cit., p. 3-4. Traduction personnelle. Texte original : « Quantification does not end with counting or measurement and presentation, of course, and many different kinds of mathematical operations have been applied to the numbers. » À propos des opérations mathématiques appliquées aux mesures faites sur des textes, voir les pages 3-4 de cet article, qui dressent une liste indicative d’études d’Humanités numériques utilisant par exemple des techniques de statistiques bivariées pour déterminer les faits remarquables et signifiants dans les textes.

516 On peut citer l’article de McCarty publié dans le Companion to Digital Literary Studies et qui a influencé de manière profonde notre réflexion sur la modélisation en général et son application en littérature en particulier : MCCARTY, Willard, « Knowing : Modeling in Literary Studies », op. cit.. On peut également trouver un compte rendu de la modélisation des Métamorphose d’Ovide par Willard McCarty dans l’article : MCCARTY, Willard, « Analytical Onomasticon: Introduction »,

McCarty. Org [En Ligne], consulté le 15 juillet 2016. URL :

http://www.mccarty.org.uk/analyticalonomasticon/intro.htm#conditions.

volume des données à traiter518, comme se justifiait avant lui le recourt aux statistiques et à la graphique. En effet, les algorithmes informatiques automatisent des tâches complexes à appliquer sur un nombre de données important (les millions de mots d’une œuvre, les milliers de routes, de lignes de chemin de fer, de gares en France, etc.). Cette automatisation se fait forcément au prix d’une simplification des phénomènes et des œuvres d’une part et des processus d’analyse d’autre part (par exemple elle induit la prise en compte d’un nombre forcément limité de facteurs d’explication). L’enjeu est de savoir, comme dans le cas de toute modélisation, si le résultat obtenu vaut la simplification opérée.

Une autre question épistémologique se pose : est-ce que les média et outils qui apparaissent avec l’informatique impliquent d’autres façons de connaitre, ou est-ce seulement un changement quantitatif519 ? Nous croyons que cette question est légitime mais qu’elle se pose en fait à une étape antérieure : au moment du choix d’utiliser des méthodes quantitatives pour aborder des matériaux « qualitatifs ». L’apport principal de l’outil numérique est l’automatisation. Celle-ci induit deux sauts davantage quantitatifs que qualitatifs : d’une part, l’automatisation permet de traiter des quantités de données très importantes, d’autre part, elle oblige de simplifier et de schématiser encore un peu plus les chaines de traitement (ceux-ci devant être transformés en algorithmes et rendus reproductibles)520. De cette manière, c’est la question de la reproductibilité qui se pose : est-il possible

réductrice du progrès. Positivisme, scientisme, désir indu de mimer les sciences exactes, telles serait les tares de toutes méthodes recourant à la discrétisation et à la quantification. Dans une version résignée de cette vision, les digital humanities seraient une destruction créatrice inéluctable. », BERRA, Aurélien, « Pour une histoire des Humanités numériques », op. cit., p. 618.

518 C’est par exemple le critère qui est le premier mis en avant pour présenter le projet « Textométrie » développé par L’ENS Lyon consistant à fédérer les recherches et les développements en textométrie autour de la création d’une plateforme logicielle ouverte, le logiciel TXM. Ce logiciel « implémente la méthode [textométrique] à travers un ensemble d’outils qualitatifs (extraction de phénomènes textuels, contextualisation, navigation, lecture…) et quantitatifs (liste de fréquence de mots ou de phénomènes textuels, analyse factorielle, classification, cooccurrences…) utilisés de façon interactive avec le corpus. Ces outils s’appliquent à un corpus constitué en amont ». Texte de présentation de l’intervention de de Serge Heiden du séminaire « Texte et information géographique », organisé par Thierry Joliveau et Hélène Matthian, Laboratoire EVS, ENS Lyon, 4 mars 2016. Voir le site Textométrie [En Ligne], mis à jour le 29 janvier 2016, consulté le 14 juillet 2016. URL : http://textometrie.ens-lyon.fr/. À cet égard, on peut également citer l’article de Jean Gabriel Ganascia, « Les Big Data dans les Humanités numériques », Des chiffres et des lettres, op. cit. Selon une perspective inverse, on peut enfin citer la justification selon David Hoover de la nécessaire introduction des Humanités numériques dans la critique littéraire pour traiter la quantité immense de données, notamment d’archives, auxquelles cette dernière s’intéresse de plus en plus : « The recent increased interest in archives within literary criticism will almost necessarily lead to the introduction of quantitative methods to help critics cope with the huge amount of electronic text now becoming available. », HOOVER, David L., « Quantitative Analysis and Literary Studies », art. cit., p.13.

519 Cette question est posée dans l’article BERRA, Aurélien, « Pour une histoire des Humanités numériques », art. cit, p. 613-614. Le champ de recherche en tant que tel (et non seulement comme des initiatives marginales et isolées) est récent : dans les années 1980 apparaissent les premiers personnal Computors et dans les années 1990 se généralisent les ordinateurs en réseaux (internet). Depuis la fin des années 1970 et le début des années 1980, s’est engagée une institutionnalisation des Digital Humanities : revue, cursus à l’université, institutions interdisciplinaires, associations professionnelles, etc., surtout dans le monde universitaire anglo-saxon. Ainsi peut-on toujours se poser la question des conséquences de ce « nouveau » champ sur la connaissance et les sciences humaines et sociales en général en 2016. De son côté, Matthew Gold identifie les Humanités numériques non pas comme une révolution heuristique ou paradigmatique, mais comme une révolution de « l’écosystème académique » et pédagogique : « At stake in the rise of the digital humanities is not only the viability of new research methods (such as algorithmic approaches to large humanities data sets) or new pedagogical activities (such as the incorporation of geospatial data into classroom projects) but also key elements of the larger academic ecosystem that supports such work. ». Les Humanités numériques n’ont en effet pas vocation à se cantonner dans les études qui s’y spécialisent, mais à servir plus ponctuellement et plus généralement à des études d’humanités plus « traditionnelles ». GOLD, Matthew K., « The Digital Humanities Moment », dans GOLD, Matthew K. (dir.), Debates in the Digital Humanities, Minneapolis, University of Minnesota, [en ligne], mis en line en 2012, consulté le 14 juillet 2016. URL : http://dhdebates.gc.cuny.edu/debates/text/2.

520 Selon Jean-Gabriel Ganascia, la nouveauté des Humanités numériques réside dans l’« automatisation et [la] massification », GANASCIA, Jean Gabriel, « Les big data dans les humanités », art. cit., p. 628.

d’appliquer à différents textes, différentes œuvres d’art, différents comportements humains, les mêmes traitements préconçus, qui plus est lorsque ceux-ci sont aussi stricts que des algorithmes ? On constate ici que la question est la même que celle qui se pose dans le cas des modèles. La réponse que nous y donnerons sera également comparable : bien qu’il soit possible de s’inspirer d’outils conçus dans d’autres contextes, nous croyons qu’il est nécessaire d’adapter les outils à son objet d’étude lorsque celui-ci est artistique.

Dans le document Cartographie du Cycle de Nedjma de Kateb Yacine : modélisation spatiale d'un récit littéraire (Page 122-126)