Les données, une cause matérielle

2.1 Dimension cognitive

2.1.1 Les données, une cause matérielle

Aujourd’hui, les bases de données informatisées jouent un rôle structurant dans le contexte journalistique, où il peut être considéré que les faits sont "vrais" dès lors qu’ils existent dans une base de données (Anderson 2018 : 31-32). Bien qu’elles ne donnent pas "à voir" de ma-nière complète une réalité donnée – leur représentation du réel observable sera donc toujours imparfaite (Boydens 1999) – les bases de données informatisées constituent une forme sym-bolique de cette réalité. En ce sens, elles sont "une manière de structurer notre expérience sur

nous-même et sur le monde" (Manovich 1999). Aussi, une approche par données dans le

jour-nalisme ne peut-elle être abordée autrement que sous l’angle de la compréhension profession-nelle de ce qu’est une base de données et de la manière dont celle-ci peut se déployer dans un contexte journalistique. Cela suppose une expertise qui dépasse largement des compétences journalistiques traditionnelles (Anderson 2018).

Les données sont devenues la matière première de l’information, que ce soit dans le cadre du traitement de l’actualité, d’un travail d’investigation ou du développement d’outils numériques dédiés à la mise en récit journalistique. Cette évolution des pratiques a entraîné dans son sillage de nouvelles collaborations entre des journalistes et des programmeurs, voire l’émergence de profils professionnels hybrides⁵. Cet essor, dans le monde du journalisme, est donc à la fois lié à des transformations techniques et sociales, attestant du fait que les bases de données "échappent de plus en plus aux intérêts des informaticiens. Celles-ci sont aujourd’hui au cœur

des pratiques et des représentations d’individus qui rencontrent cette forme sociotechnique, alors même qu’ils s’inscrivent dans les mondes sociaux les plus variés" (Flichy & Parasie 2013).

Dans toute approche par données dans le journalisme, qu’elle soit automatisée ou non, la né-cessité de disposer de données structurées sera une pré-condition pour une utilisation journa-listique. Cela suppose de traiter la source des données avec scepticisme (Bradshaw 2013), et de pouvoir bien en identifier l’origine (Dörr & Hollnbuchner 2016). Si l’on ne peut faire confiance au producteur ou au diffuseur des données, le risque est que l’on ne puisse pas davantage faire confiance aux données et donc à l’information. Cet aspect est d’autant plus important que l’un des plus grands défis actuels, pour les médias, est précisément de restaurer un rapport de confiance avec leurs audiences (Fink 2019). Comme n’importe quelle autre source d’informa-tions, les données doivent pouvoir être vérifiées : il s’agit là de satisfaire le principe journalis-tique de recherche de la vérité, lequel suppose des activités de vérification (Cornu 2009 :78).

Une information fiable et précise ne pourra s’appuyer que sur des données fiables et précises (Bradshaw 2015). C’est le principe du "garbage in, garbage out" largement reconnu dans le monde de l’informatique. La qualité de précision constituera "probablement la considération

éthique la plus fondamentale dans le journalisme de données. Elle consiste dans la nécessité d’être exact et dans celle de donner un contexte approprié aux histoires que nous racontons. Cela peut influencer la façon dont nous analysons les données et les récits s’appuyant sur des

nées"⁶. Dans le contexte de l’automatisation de la production d’informations, des données qui manquent de fiabilité et de précision pourront donner lieu à des contenus erronés (Dörr & Hollnbuchner 2016).

Il convient aussi de s’interroger sur la manière dont les données ont été récoltées ainsi que sur leur mise en contexte (Bradshaw 2015). Les métadonnées attachées à un jeu de données donneront, à ce propos, des indications importantes pour aider les utilisateurs à facilement évaluer et comprendre les données (Shanks 1999). Toutefois, celles-ci ne seront pas nécessai-rement attachées à un ensemble de données, ce qui signifie que celui-ci ne pourra pas toujours être bien compris et que certaines ambigüités liées à la nature des variables ou de leurs attri-buts sont susceptibles d’apparaître. De plus, la mise en disponibilité de données ne signifiera pas que celles-ci seront les plus pertinentes pour un usage journalistique, pas plus qu’elle ne garantira qu’elles soient exemptes d’anomalies dans leurs valeurs (Casswell & Dörr 2017). Pour toutes ces raisons, les données devraient d’abord faire l’objet d’une vérification humaine, et cela est d’autant plus important lorsque celles-ci sont destinées à nourrir un processus auto-matisé (Bradshaw 2015).

Il s’agit de bonnes pratiques qui témoignent de l’enjeu fondamental de la qualité de l’informa-tion numérique (Stray 2016). Cependant, celui-ci sera moins crucial lorsque les données pro-viendront de fournisseurs monnayant leurs services via des licences d’exploitation, qui en ga-rantissent normalement la qualité et mobilisent la confiance de leurs utilisateurs. Par exemple, dans le secteur économique et financier, certains prestataires pratiquent une tarification pro-gressive à mesure que l’on se rapprochera d’une fourniture de données en temps réel⁷. D’autres prestataires proposeront des tarifs progressifs, selon que leurs services incluent ou non un his-torique des données⁸. La valeur d’échange des données, souvent fournies à leurs utilisateurs finaux via des interfaces de programmation applicatives (API), explique que les professionnels de la vente de données n’affichent pas leurs tarifs de manière systématique sur leurs pages web : le client sera le plus souvent invité à solliciter un devis.

L’enjeu de la qualité des données reviendra au premier plan lorsque les données seront ex-traites de pages web, caractérisées par leur format potentiellement mouvant. Sont-elles à jour, y a-t-il une gestion des enregistrements et des versions ? (Batini et al. 2009 ). Dans ce contexte, la question de la crédibilité de la source d’informations devra aussi être posée, en tant que norme professionnelle constitutive du processus de sélection d’informations (Hermans et al. 2009). Cet enjeu sera aussi prégnant dans le contexte des données publiques ouvertes, que l’on désignera ici sous le vocable open data. Si leur objet est de servir la transparence de l’action publique, dans de nombreux cas, elles se limiteront à des données qui ne comportent pas de

6 "Ethics in data journalism : accuracy", Paul Bradshaw, Online Journalism Blog, 13/09/2013, consulté le 08/07/2017, URL : https://onlinejournalismblog.com/2013/09/13/ethics-in-data-journalism-accuracy/

7 Ce cas de figure sera constaté dans le quatrième chapitre, relatif à l’automatisation de l’information boursière pour les journaux du groupe Mediafin. Voir infra p.208

8 Par exemple, le site Polygon propose une fourchette d’abonnement oscillant entre 49 et 399 dollars par mois. Source : https://polygon.io/pricing

dimension politiquement sensible : la transparence de l’action publique ne serait donc pas né-cessairement l’effet recherché par la libération des données publiques (Goëta & Mabi 2014). De plus, leur qualité devrait être considérée comme potentiellement douteuse, "dans la mesure où

celles-ci prolifèrent dans l’environnement ouvert et non contrôlé du web" (Boydens 2014).

Considéré comme une opportunité pour les journalistes, le mouvement de l’open data n’a pas rencontré ses promesses dans le monde du journalisme de données – où le phénomène a été surestimé (Gray 2014) – et cela essentiellement pour trois raisons : (1) la non-prise en compte des journalistes en tant qu’utilisateurs finaux dans les politiques d’ouverture de don-nées (Stoneman 2015, Goëta & Mabi 2014) ; (2) le manque de pertinence pour conduire un pro-jet journalistique (Linden 2017b) ; (3) la nature des données, souvent obsolètes ou incomplètes (Stoneman 2015). De plus, la dépendance aux sources de données publiques influencera les sujets susceptibles d’être couverts. En conséquence, certains domaines sociaux pour lesquels les données ne sont pas produites ou accessibles régulièrement pourraient être négligés (Loo-sen 2018).

Sur le fond, il convient de garder à l’esprit que le mouvement de l’open data ne s’inscrit pas dans la perspective d’un outil de preuve relevant de l’argument statistique (Desrosières 2008), mais dans celle d’un dispositif de diffusion des connaissances (Courmont 2015). Considérant qu’une donnée est le résultat d’un réseau sociotechnique, il est dès lors "impossible de

disso-cier la donnée de son usage, de détacher l’instrument technique de l’environnement social dans lequel il s’inscrit" (Courmont 2015). Cette assertion renvoie aux modèles de gouvernance des

données et de leur corollaire, des politiques pertinentes et adaptées en matière d’open data. Si la figure du journaliste est peu – voire pas du tout – mise en avant dans les politiques d’ou-verture des données, la figure du développeur, elle, est omniprésente : c’est vers lui que sont destinés les encouragements à la réutilisation des données, via le développement d’applica-tions mobiles ou en ligne. L’un des principaux défis serait donc, aujourd’hui, de proposer aux journalistes des outils simples, de manière à leur permettre d’étudier les données (Colpaert et

al. 2013).

Dans le contexte de la production automatisée d’informations, le manque de qualité des don-nées accessibles en open data ne permet pas toujours de réaliser des objectifs de précision et d’actualité (Graefe 2016). S’il s’agit d’un frein à leur usage, cela ne signifie pas, pour autant, que les données publiques ouvertes soient totalement exclues du champ des possibles : plusieurs expériences journalistiques en attestent. Dans la majorité des cas, elles prennent la forme d’ap-plications automatisées, pouvant être considérées comme "des fenêtres sur les données d’une

histoire" (Stray et al. 2013). Leur objet est de faire gagner du temps aux journalistes dans le

traitement de l’information, d’élargir la zone de couverture médiatique du média ou de pro-poser un service supplémentaire aux lecteurs. Dans certains cas, elles porteront sur une colla-boration active entre les journalistes et le système d’automatisation. Les sept projets exposés ci-après illustrent ces possibilités.

— L.A. Crime Maps – Développée en 2007 pour le Los Angeles Times, il s’agit d’une carte interactive qui présente une information instantanée sur les homicides commis dans la ville. Les données publiques fournissent un contenu de base qui est susceptible d’être enrichi par les journalistes. Ce dispositif les alerte également à chaque nouvel homicide commis (Hermida & Young 2015). Chaque nouvelle entrée est rédigée de manière au-tomatique avant d’être publiée en ligne. Elle mentionne la date, l’heure, l’emplacement de l’incident et l’origine ethnique de la victime. Pour la rédaction, il s’agit d’un outil per-mettant de renforcer son rôle. Pour Ken Schwenke, son auteur, il s’agit d’un outil simple dont l’impact est disproportionné par rapport à la quantité de temps consacré au projet (Hermida & Young 2015). Avant cette automatisation, le L.A. Times couvrait seulement 10% des crimes commis dans la région (Graefe 2016). Ce projet a inspiré le Chicago

Tri-bune pour un projet similaire dans la ville de Chicago⁹.

FIGURE2.1 – L’application "Crime L.A." du L.A. Times

— Quakebot – Cette application consiste en un programme informatique développé, en 2014, par le journaliste-programmeur Ken Schwenke. S’appuyant sur les données géo-logiques du US Geological Geological Survey, elle alerte en temps réel sur les secousses sismiques enregistrées dans la région. Chaque texte généré de manière automatique fait l’objet d’une validation humaine avant sa diffusion sur le site web du Los Angeles Times (Antheaume 2016). En donnant l’alerte en temps réel, ce système permet d’accélérer le processus de publication de l’information en ligne, dans un format standardisé. Il a été construit à partir du même algorithme que celui de la carte des homicides à Los Angeles (lire ci-dessus). Graefe (2016) indique que "le travail de Schwenke marque une

étape importante dans l’ère du journalisme automatisé, démontrant combien les solu-tions internes simples peuvent aider à accroître à la fois la rapidité et la zone de couver-ture des informations".

9 "This application is based on Homicide Report, created for the Los Angeles Times by Ken Schwencke. It was adapted for use in Chicago", consulté le 14/09/2017, URL :

FIGURE2.2 – L’application "Quakebot" du L.A. Times

— Die Feinstaub-Monitor – Le "moniteur des particules fines" du Berliner Morgenpost traite de la qualité de l’air berlinois. Développé en interne, ce système automatisé est ca-pable de comparer des données actuelles avec des données antérieures (jusqu’à 2008) en vue d’adapter les titre, texte et visualisations interactives¹⁰. Les données publiées sont celles de la veille, et elles sont fournies par le ministère du développement urbain et de l’environnement. Cet objet du journalisme s’inscrit dans la logique d’une informa-tion servicielle qui se fonde sur l’impact sanitaire de ce type de polluant¹¹.

FIGURE2.3 – L’application "Fenstaub Monitor" du Berliner Morgenpost

— Données du Monde – Cette plateforme interactive est le fruit d’un partenariat entre le quotidien Le Monde et la start-up française Syllabs, spécialisée dans les technolo-gies sémantiques. Elle s’inscrit dans le prolongement de l’automatisation des résultats

10 "Le journalisme : vers une intelligence artificielle ?", Sophie Roche, Future.Arte.tv, 03/03/2017, consulté le 20/06/2017, URL : http://future.arte.tv/fr/le-journalisme-vers-une-intelligence-artificielle

11 "Alle Berliner Messstationen unter EU-Jahresgrenzwert", Berliner Morgenpost, consulté le 20/06/2017, URL : https://www.morgenpost.de/berlin/article127420411/Wo-die-Feinstaub-Belastung-in-Berlin-am-hoechsten-ist.html

des élections régionales de 2015¹², bien que la génération automatique de textes n’en constitue que l’un des aspects : l’application propose également des cartes et des gra-phiques. Pour ce faire, elle s’appuie sur des données électorales fournies par le minis-tère français de l’intérieur, et des données démographiques et économiques provenant de l’Institut national de la statistique et des études économiques (INSEE)¹³.

FIGURE2.4 – La plateforme en ligne "Données du Monde"

— JSA Figures – Ce dispositif génère, chaque mois, du texte et des graphiques relatifs au taux de chômage sur l’île de Wight (Royaume-Uni) pour le pure player On The Wight, à partir des de la caisse d’allocations de chômage (Jobseekers’ Allowance). L’objet de ce système est de décharger les journalistes d’un travail formel et, partant, de se consa-crer à d’autres types d’informations hyperlocales. L’initiative émane des journalistes, qui ont sollicité un développeur. Les contenus générés ne sont pas publiés tels quels : ils passent d’abord entre les mains d’un éditeur humain qui en vérifie la correction et la complétude, avant de procéder à la mise en ligne. Le seul bémol résiderait dans le temps de développement du générateur, qui s’est avéré "bien plus long que la rédaction

d’un premier article"¹⁴. Pour le développeur du programme, Tony Hirst, cette approche

data-to-text permet de "donner un sens humain aux données"¹⁵.

12 Il s’agit de la première expérience d’automatisation de la production d’informations menée, à grande échelle dans un média français : en l’espace d’une nuit, plus d’un million d’articles, mises à jour comprises, avaient été générés couvrir les résultats des votes dans plus de 30.000 communes et 2.000 cantons français. Pour le directeur des rédactions, Luc Bronner, il s’agissait "d’expérimenter de nouveaux outils susceptibles d’apporter

un nouveau service à nos lecteurs", mais aussi de rendre ces textes "plus repérables par les moteurs de

recherche". Source : "Des robots auMondependant les élections départementales ? Oui... et non", in

"Back-Office, les coulisses du Monde.fr", 23/03/2015, consulté le 20/04/2019, URL :

http ://makingof.blog.lemonde.fr/2015/03/23/des-robots-au-monde-pendant-les-elections-departementales-oui-et-non/

13 "Le Monde pousse sa data éditoriale", Thierry Wojciak, 14/10/2015, consulté le 20/05/2017, URL : http ://www.cbnews.fr/nl-Media/le-monde-et-la-data-editoriale-a1023121

14 "Isle of Wight innovates in a new area of Journalism", Simon Perry, On The Wight, 07/09/2015, consulté le 20/06/2017, URL : https://onthewight.com/isle-of-wight-innovates-in-new-area-of-journalism/

15 "Data Textualisation – Making Human Readable Sense of Data", 18/11/2013, consulté le 20/06/2017, URL : https ://blog.ouseful.info/2013/11/18/data-textualisation-making-human-readable-sense-of-data/

FIGURE2.5 – "JSA Figures", la rubrique automatisée de On The Wight

— RADAR (Reporters and Data and Robots) – Le projet RADAR consiste en un partenariat entre l’agence de presse britannique Press Association et la start-up technologique Urbs Media. Lancé dans une version bêta en juin 2018, il vise à produire de manière automa-tique jusqu’à 30.000 textes chaque mois, à une échelle locale, en utilisant des données publiques ouvertes. Les sujets traités sont susceptibles de couvrir une large palette de domaines : du taux de natalité au taux d’obésité, en passant par le taux de criminalité. Son approche consiste à associer des journalistes aux processus automatisés.

FIGURE2.6 – Premières productions de "RADAR" publiées dans la presse britannique À ses débuts, l’équipe éditoriale était composée de six journalistes. Ce projet a été fi-nancé par le Google Digital News Initiative, un fonds destiné à soutenir l’innovation dans les médias européens, à hauteur de 700.000 euros¹⁶. Il ne s’agit pas du premier

16 Sources : "Robots can save local journalism, but will they make it more biased ?", Alexander Fanta, DataJournalism.com, 16/03/2018, consulté le 13/07/2019, URL :

https://datajournalism.com/read/longreads/robots-can-save-local-journalism-but-will-they-make-it-more-biased ; "PA’s localised data journalism service Radar secures first paid customers", John McCarthy, The

Drum, consulté le 13/07/2919, URL :

projet d’automatisation s’appuyant sur de l’open data soutenu par le fonds Google : en 2016, il soutenait "Marple", un projet lancé par la start-up Journalism++¹⁷. En 2019, RA-DAR est devenue une agence de presse locale, accessible par abonnement, s’adressant aux éditeurs de presse locale (Linden et al. 2019).

— Tobi – S’il porte le nom d’un robot dont le graphisme affiche une mine sympathique, ce projet a été réalisé avec le logiciel de génération automatique WordSmith, commer-cialisé par la société américaine Automated Insights. Tobi est transversal au groupe de presse Tamedia, qui édite plus de trente quotidiens en Suisse (dont 20 minutes et la

Tribune de Genève). Il génère, de manière automatique, les résultats des votations

fédé-rales (sortes de consultations populaires) en fonction de la commune de résidence de l’internaute – la Suisse en compte 22.000. Lors de sa première mise en service, le 25 no-vembre 2018, il a généré environ 40.000 textes personnalisés en moins de cinq minutes. Le logiciel a été configuré par une équipe de cinq journalistes politiques expérimentés, ce qui représente deux à trois jours de travail par personne. Un journaliste de données y a apporté une couche d’analyse supplémentaire, en vue d’apporter des informations de contexte (Plattner & Orel 2019). Le système, multilingue, est nourri par des données publiques.

FIGURE2.7 – Premières productions de "Tobi" publiées sur les sites du groupe Tamedia Ces expériences témoignent de la mobilisation d’un savoir-faire correspondant à la manière dont les journalistes travaillent habituellement : choisir un sujet, choisir un angle, rechercher de sources fiables et vérifiables, choisir la manière dont sera traitée l’information : ces choix éditoriaux existent depuis que la presse existe (Gillespie 2013). Bien qu’elle fasse l’objet de controverses, la définition du travail journalistique présuppose une division particulière et une

consacré aux Data Journalism Awards, URL : https://datajournalismawards.org/projects/radar-data-journalism-and-automation-to-produce-local-news-at-scale/

17 "Journalism++ Stockholm gets Google funding to develop automated news service", 06/04/2016, consulté le 13/07/2019, URL : http://jplusplus.org/sv/blog/journalism-stockholm-gets-google-funding-to-develop-automated-news-service/

structuration du travail journalistique – incluant des activités de collecte et de recherche d’in-formations et des activités de sélection et de présentation de l’information – (Örnebring 2008) qui n’apparaît pas abordée de manière très différente à l’examen des différents projets présen-tés ci-dessus.

Les aspects relatifs à la qualité des données ont été très peu abordés dans la recherche en jour-nalisme, mais ils l’ont été davantage au milieu des années 2000, où il a été notamment souligné le manque d’expertise des journalistes pour eux reconnaître des données de qualité médiocre et en améliorer la qualité (Lowrey 2019). De nos jours, les journalistes de données n’ont pas plus tendance s’intéresser à ces aspects plus "profonds" : ils exprimeront davantage leurs critiques

Dans le document La production automatisée d’informations en appui aux pratiques journalistiques (Page 104-112)