Des biais en héritage - Google Books est un service de consultation de livres en ligne créé en

Reconnaissance textuelle

1. Google Books est un service de consultation de livres en ligne créé en 2004 par le

1.2.1.2 Des biais en héritage

Les bibliothèques numériques ne forment pas une génération spontanée. Elles re-conduisent des choix documentaires préexistants, sans pour autant les donner à lire. L’agrégation de collections formatées par des politiques de conservations distinctes ne débouche pas sur une représentation équilibrée ou mutuellement modérée de la produc-tion éditoriale d’une société, mais sur une boîte noire. Le projet intègre une porproduc-tion, certes, considérable des textes publiés dans les principales langues occidentales, mais c’est une portion tronquée, dont les contours demeurent totalement incertains.

Les architextes numériques procèdent à une assimilation forcée de collections hétéro-gènes, tout en présentant tous les simulacres de l’homogénéité. Tous les éléments d’une notice bibliographique doivent venir se glisser dans les champs d’une arborescence prédé-finie (le langage de balisage HTML). Cette conversion constitue une opération courante dans les médias numérisés. Yves Jeanneret pointe ainsi l’inflation des graphiques, des cartes et autres dataviz dans les classifications documentaires du web, et leur tendance à écraser, combiner et vectoriser des unités radicalement distinctes (souvent qualifées de « traces » ou de « contenus ») :

La cartographie des documents sur Internet, qui fabrique des courbes, des graphes, des grappes, donne à ces objets une réalité sémiotique homogène, qui devient l’image complexe et mobile de tout un monde. L’analyste des signes ne se laisse pas duper par ces opérations complètes de transformation, transmutation, traductions qui produisent toutes de la diﬀérence et témoignent de l’imposition d’un sens : en eﬀet, pour être intégrées à un même espace, toutes ces productions dont les modes d’expression, les langages, le statut sont hétérogènes doivent être contraintes à un même formalisme. Il s’agit simplement de la soumission forcée d’une sémiosphère, celle de la lecture à une autre, celle du calcul statistique57.

Les plate-forme numériques procèdent fréquemment à une mise en scène des données

56L’application de restrictions indues sur des publications du domaine public relève en eﬀet d’un « copyfraud ». Cf. notre article : Pierre-Carl Langlais, « Le domaine public consacré par la loi », Revue

de l’Association des bibliothèques de France, vol. 76, 2014, p. 25–28.

57Yves Jeanneret, « Complexité de la notion de trace : de la traque au tracé », L’Homme-trace, CNRS éditions, 2011, p. 68.

agrégées sous la forme de “visualisations”. Le programme de numérisation de la Digital

Public Library of America, dirigé par Robert Darnton, inclut ainsi des fonctionnalités

de recherche par date, exprimées sous la forme d’histogrammes intégrées à des frises chronologiques. Si ces dispositifs aspirent à faciliter la navigation d’un sous-ensemble à l’autre, ils suggèrent tacitement que les publications référencées forment des “entités” dénombrables et comparables.

Fig. 1.2 : Résultat de la requête « Journal des débats » sur la Digital Public Library of America. Page consultée le 12 septembre 2015

Tandis que les architextes créent une illusion de “comparabilité”, les discours d’es-corte des grandes plate-formes bibliographiques n’occultent pas l’hétérogénéité des col-lections. Dans certains cas, elles présentent cette dispersion comme un argument po-sitif : la diversité des sources permet d’annuler les choix documentaires individuels de chaque collection. Google Books invite le lecteur à « trouver le livre parfait pour ses besoins »58. Les concepteurs d’un projet dérivé de Google Books, Ngram Viewer, sont également conscients de ce déficit de représentativité. Le site Cultoronomics tient ainsi le « biais d’acquisition par les bibliothèques » (« library acquisition bias ») pour un facteur d’erreur majeur : « Ces livres proviennent de bibliothèques, ce qui signifie qu’ils reflètent le processus par lequel ces bibliothèques ont choisi d’acquérir et de préserver

58Page « Google Books About », consultée le 29 avril 2015 à l’adresse http ://-books.google.fr/googlebooks/about/.

ces livres (…) quand vous mesurez une évolution à la hausse, vous ne pouvez pas savoir si les gens sont réellement davantage intéressés par un mot, une phrase ou un sujet (…) ou si les bibliothèques prennent en réalité le sujet plus au sérieux et décident d’acquérir plus d’ouvrages qui en parlent59. »

Nous avons pu constater que la numérisation des journaux est directement concer-née par ce biais d’acquisition. Les périodiques économiques spécialisés font ﬁgure de parent pauvre : alors qu’ils commencent à se multiplier dès les années 1820, Google

Books ne recense quasiment aucun titre antérieur au Second Empire. Une recherche

ciblée sur une institution financière dans la période 1820-1850 génère ainsi un corpus déformé. Elle donne une fausse idée des sources disponibles, en suggérant que seules des formes “livresques” (annuaires, compilations) ont effectuées un travail d’identification systématique sur les structures entrepreneuriales.

Le lexicologue Étienne Brunet émet une autre hypothèse de sous-représentativité. Constatant que les signes de ponctuations perdent en diversité dans les corpus les plus récents, il suggère que les politiques documentaires se seraient initialement focalisées sur l’écrit littéraire, avant de se déporter graduellement sur l’écrit technique (en partie, à partir du moment où Google Books entreprend de numériser en masse les publications contemporaines) :

Les publications les plus récentes, qui sont aussi les plus nombreuses, n’ont pas été soumises au tri de l’histoire : c’est le tout-venant de l’édition, où pullulent les ouvrages d’information, les traités techniques et les sujets les plus divers. Les livres plus anciens ont survécu à l’oubli et à la perdition parce que, leur intérêt se maintenant, des rééditions ont eu lieu qui ont augmenté leur chance de survie. C’est là le privilège des œuvres littéraires, rarement le cas des publications techniques, que le progrès condamne très vite⁶⁰.

L’héritage des biais n’est pas limité aux collections ; il concerne aussi les “formats”. L’eﬀort d’indexation et de systématisation des données bibliographiques s’inscrit dans une histoire longue. Arlette Boulogne rappelle ainsi qu’une pluralité d’usages a graduel-lement laissé place à des normes uniﬁées : « pendant longtemps chaque bibliothèque fonctionne avec ses propres règles, autant pour le “catalogage” que pour le classement des notices et celui des livres. (…) C’est au xixe siècle et surtout au xxeque l’on arrive

59« FAQ », Culturonomics, http ://www.culturomics.org/Resources/faq. Nous traduisons.

60Etienne Brunet et Laurent Vanni, « GOOFRE version 2 : voir et traiter 600 milliards de mots »,

enﬁn à développer des règles communes allant jusqu’aux normes indispensables aux échanges de ﬁchiers61. »

Comme tout système de ﬁchage”organisé, la donnée bibliographique représente l’abou-tissement d’un processus de négociation complexe. Boulogne singularise concrètement le pouvoir de normalisation des acteurs suivants :

• Des institutions publiques : en France, l’État communique des “instructions” explicites à des “commissaires-bibliographes” dès 179162.

• Des communautés professionnelles : l’IFLA organise en 1961 une conférence déterminante sur les « principes de catalogage »63.

• Des contraintes techniques : l’émergence des “standards” du web se traduit par une série d’arbitrages entre la “grammaire” intrinsèque des langages de balisage et les usages bibliographiques préexistants64.

Dans le document La formation de la chronique boursière dans la presse quotidienne française (1801-1870) : Métamorphoses textuelles d'un journalisme de données (Page 58-61)