La mise en circulation des données textuelles : Ngram Viewer et le

Reconnaissance textuelle

BOURSE DE PARIS Revue de la semaine

1.2.2.3 La mise en circulation des données textuelles : Ngram Viewer et le

Big Data

Pour le lecteur, le mode texte est moins ﬁdèle et, souvent, moins lisible que le mode image. Il possède pourtant une qualité rédemptrice : sa mobilité. En vertu du méca-nisme d’assignation, les caractères peuvent circuler dans des infrastructures logicielles radicalement distinctes : nous avons pu ainsi citer l’incipit de la chronique de Pereire en maintenant la police standardisée de notre thèse.

Cette mobilité autorise des formes de reprises et de calcul sophistiquées. Coordonné par deux chercheurs issus des sciences de l’ingénierie et des mathématiques appliquées, Jean-Baptiste Michel et Erez Aiden, le projet Ngram Viewer radicalise la promesse initiale de la numérisation : il prétend représenter l’évolution des occurrences d’un mot ou d’un groupe de mots sous formes de graphes dans plusieurs langues humaines à partir des corpus de Google Books. La présentation de Ngram Viewer dans la revue

Science en fait le fer de lance d’une nouvelle discipline : les culturonomics.

La lecture de petits corpus de travaux choisis avec soin permet de faire des in-férences puissantes sur les tendances de la pensée humaine. Cependant, cette approche autorise rarement des mesures précises de ces phénomènes sous-jacents. Les tentatives d’introduire des méthodes quantitatives dans le champ des études culturelles ont longtemps été bridées par l’absence de données suﬃsamment im-portantes69.

La base de données lexicales Ngram Viewer s’appuyait alors, en 2011, sur 5 195 769 livres numérisés, ce qui représenterait 4% de la totalité des livres publiés70. Nous retrouvons ici un argument circulant au cœur du débat intellectuel sur le big data : un très grand corpus devient de facto représentatif et dispense, en partie, le chercheur de procéder à des échantillonnages.

69Nous traduisons : Jean-Baptiste Michel et al., « Quantitative analysis of culture using millions of digitized books », Science (New York, N.y.) Vol. 331, no 6014, 2011, p. 179.

Originellement, la notion de big data ne désigne qu’un défi technique : concevoir des infrastructures logicielles capable de stocker et d’indexer de grands volumes d’informa-tions numérisées71. Elle se métamorphose en formation discursive triviale et circulante au cours de la fin de la décennie 2000, notamment sous l’impulsion d’un article du rédacteur en chef du magazine anglo-saxon Wired, Chris Anderson. Le titre du texte a des allures de manifeste : « La fin de la théorie : le déluge de données rend la méthode scientifique obsolète » (The End of Theory : The Data Deluge Makes the Scientific

Method Obsolete). Pour Anderson, les chiﬀres parlent d’eux mêmes. Il devient inutile

de concevoir des modèles pour expliquer tel ou tel comportement : la démultiplication des données, des mesures et des traces dans les environnements numériques permet déjà de tout mesurer.

C’est un monde où les quantité massives de données et de mathématiques ap-pliquées remplacent tout autre outil que nous pourrions envisager. Nous n’avons plus besoin de toutes les théories du comportement humain, de la linguistique à la sociologie. Oubliez la taxinomie, l’ontologie, la psychologie. Qui sait pourquoi les gens font ce qu’ils font ? Le fait est qu’ils le font et que nous pouvons le tracer et le mesurer avec une ﬁdélité sans précédent. Avec suﬃsamment de données, les nombres parlent d’eux-mêmes72.

Le manifeste d’Anderson représente, d’une certaine manière, l’idéal-type des discours sur le big data. Par-delà les innombrables incarnations de la notion dans la littérature entrepreneuriale, technique ou scientifique, nous retrouvons ces articulations fondamen-tales : le pouvoir d’évocation de la masse de données, le postulat d’une représentativité par le nombre, le recul des modèles statistiques ou de tout effort de conceptualisation au profit d’un simple constat des mesures effectuées, la focalisation sur les actes au détri-ment des motivations intrinsèques, l’appel à un rapprochedétri-ment entre les communautés scientifiques et les nouvelles industries du web.

Les culturonomics promues par les concepteurs de Ngram Viewer se situent dans le prolongement de cette formation discursive. Michel et Aiden publient en 2012 un ouvrage détaillé sur cette expérience, Uncharted. Le sous-titre inclut explicitement une référence au big data : « big data as lens on Human Culture », soit, littéralement, « les big data comme un outil d’observation » (lentilles de la culture humaine). Le début du

71Danah Boyd et Kate Crawford, Six Provocations for Big Data, SSRN Scholarly Paper ID 1926431, Rochester, NY : Social Science Research Network, 2011, p. 1.

72Chris Anderson, The End of Theory : The Data Deluge Makes the Scientiﬁc Method Obsolete, 2006, Nous traduisons.

texte reprend tous les tropes du discours sur le big data. Ngram Viewer est né d’une collaboration entre une industrie du web (Google) et un groupe de recherche.

Des chercheurs et même des universitaires venus des humanités, commencent à faire quelque chose de peu ordinaire : sortir de leur tour d’ivoire et amorcer des collaborations avec de grandes entreprises. En dépit de divergences parfois radicales d’objectifs et d’inspiration, ces associations débouchent sur des études que leurs prédécesseurs auraient pu diﬃcilement imaginer, utilisant des bases de données dont la magnitude n’a aucun précédent dans l’histoire de la recherche scientiﬁque73.

Michel et Aiden s’enthousiasment également pour l’expansion continue et exponen-tielle des données numériques et des traces laissées par les actes de communication :

Le big data d’aujourd’hui est juste la pointe émergée de l’iceberg. L’empreinte totale de l’humanité double tous les deux ans, dans un contexte où les techniques de stockages s’améliorent, la bande passante s’accroît et où nos vies migrent graduellement sur Internet. Le big data devient continuellement plus grand, plus grand et plus grand (bigger, bigger and bigger)74.

Cette expansion n’est pas limitée aux interactions contemporaines : elle aﬀecte ré-troactivement les documents du passé. À l’instar des historiens de l’École des Annales, les deux auteurs sont fascinés par la longue durée, ici rebaptisée long data :

Dans la mesure où ils contiennent des long data, les livres numérisés ne dépeignent pas seulement l’humanité contemporaine, comme le font la plupart des grandes bases de données. Les livres peuvent aussi représenter les évolutions de notre civilisation sur de longues périodes — plus longues que la durée d’une vie humaine, plus longues, même, que la vie de nations entières⁷⁵.

Pour autant, Michel et Aiden ne remettent pas en cause l’eﬃcacité des méthodes préexistantes en sciences sociales (la perspective d’une ﬁn de la théorie leur paraît « un peu dure à avaler ») mais proposent justement d’en élargir la portée : « Ces résultats constituent un nouveau terrain pour les humanités. À l’instar des fossiles

73Erez Aiden et Jean-Baptiste Michel, Uncharted : Big Data as a Lens on Human Culture, New York : Riverhead Books, déc. 2013, p. 28. Nous traduisons.

74Ibid., p. 26. Nous traduisons.

des créatures anciennes, leur interprétation est le principal déﬁ de la culturonomie (cultoronomics) »76.

Ngram Viewer a progressivement aﬃné son algorithme. Plusieurs erreurs issues de la reconnaissance des caractères77ont été corrigées a posteriori. La plupart des logiciels d’OCR interprètent les s longs (ou ſ) couramment employés jusqu’à la ﬁn du xviiie

siècle comme des f ; la translittération correcte est globalement restituée dans le corpus de 2012 (l’archaïsme bourſe devient Bourse) :

Fig. 1.7 : Occurrences de la graphie inexacte bourfe dans les corpus français de 2009 et de 2012 de Ngram Viewer (requête : « bourfe :fre_2009,bourfe :fre_2012 »)

Depuis 2012, le projet inclut également une forme de reconnaissance sémantique probabiliste (en fonction du contexte de la phrase, tel mot sera étiqueté comme un nom, un verbe ou un adjectif). L’acception d’une occurrence peut être clariﬁée en ciblant précisément sa fonction syntaxique. Le graphique suivant présente ainsi l’évolution des occurrences du terme « périodique » comme nom et comme adjectif dans le corpus :

76Jean-Baptiste Michel et al., « Quantitative analysis of culture using millions of digitized books »,

op. cit., p. 182. Nous traduisons.

Fig. 1.8 : Occurrences du mot périodique employé comme nom ou comme adjectif (requête : « périodique_NOUN,périodique_ADJ »)

Cet étiquetage demeure très approximatif : pour les corpus anciens, les coquilles générées par le logiciel d’OCR accroissent une marge d’erreur déjà conséquente. Le graphique n°1.9 est censé indiquer les verbes les plus souvent associés au mot « infor-mation » en français de 1800 à 1850. La principale occurrence est en réalité un article, « l’ », identiﬁé par erreur comme un verbe par l’analyseur syntaxique78.

Fig. 1.9 : Occurrences des verbes conjugués associés avec le mot information (requête : « *_VERB=>information »)

78Étienne Brunet a également signalé d’autres erreurs similaires : voir Etienne Brunet et Laurent Vanni, « GOOFRE version 2 », op. cit.

Chapitre 2

Une proposition théorique : la

Dans le document La formation de la chronique boursière dans la presse quotidienne française (1801-1870) : Métamorphoses textuelles d'un journalisme de données (Page 68-74)