• Aucun résultat trouvé

Les spécialistes des données sont les premiers à être critiques devant celles-ci : « Il est extrêmement facile […] de croire qu'à travers les données, tu vois le monde », dit Stéphane Guidoin (G02). « En fait, poursuit-il, les données que tu as sous le nez, premièrement, elles ont des erreurs; deuxièmement, elles ont été collectées pour un intérêt spécifique qui va cacher une certaine réalité. »

« A database reporter needs to check and double check and not be awed by what the computer provides just because it comes from a com- puter », conseillait Philip Meyer dans The New Precision Journalism (1991 : 201). Les praticiens rencontrés semblent avoir adopté cette recommandation puisque plusieurs m'ont dit être conscients que les données ne racontent pas tout : « Ça peut être un écran de fumée », concède Pasquale Harrison-Julien (P07), qui travaillait justement sur un dossier qui susci - tait chez elle des doutes au moment où je l'ai rencontrée : « Tu as d'énormes bases de données. Tu peux presque les regar- der et dire : " Voici. Il y a ici une vérité. […] C'est indéniable. " [...] Mais ça ne veut pas tout dire non plus. »

« Je ne serais jamais à l'aise d'aller en ondes avec quelque chose que j'ai trouvé en ayant juste des données, jamais », dit sa collègue Valérie Ouellet (P09). « Faut que tu ailles sur le terrain. Les données, parfois, ne reflètent pas ou ne reflètent plus la réalité. Ou elles la reflètent, mais sans nuances. Et les nuances, c'est ça qui fait de bonnes histoires. »

« On va être bien clair là-dessus, dit Olivier Bouchard (P03), le journalisme de terrain peut exister sans le journalisme de données; le journalisme de données ne peut pas exister sans le journalisme de terrain. »

Non seulement les données ne racontent pas tout, mais ce qu'elles racontent peut être discutable : « Je me suis rendu compte qu'on peut faire dire ce qu'on veut avec des données », rappelle Marie-Andrée Chouinard (R07), qui a longtemps couvert le domaine de l'éducation. « Le défi, c'est de vérifier si celui qui présente les données, en l'occurrence le ministère ou le syndicat des enseignants, a un intérêt particulier à me présenter telle ou telle conclusion. » Éric Larouche (P05), de son côté, se dit méfiant devant les données, comme il peut l'être devant n'importe quelle source. Il se demande toujours

quels sont les intérêts qui se cachent derrière : « Qu'est-ce qu'on prend comme données? Sont-elles de qualité? Il y a toute une réflexion à faire […] sur comment elles ont été produites. »

Par ailleurs, ce que les données racontent peut être carrément faux : « Souvent, je trouve des erreurs dans les grandes bases de données », indique Pierre-André Normandin (P16). « Juste des chiffres qui ne balancent pas. Au ministère des Affaires municipales, par exemple, ce sont les villes qui envoient les chiffres, et il n'y a aucune vérification à savoir si les chiffres font du sens, ou pas. » On ne parle pas, ici, de données qui ont besoin d'être nettoyées, comme on l'a évoqué plus tôt dans le chapitre sur les outils. On parle de données erronées, ou manquantes. Pasquale Harrison-Julien (P07) fournit un autre exemple. Elle s'intéressait à la circulation sur les pistes cyclables de la métropole : « Je me suis rendue compte, en important les données, qu'il y avait plein de problèmes », relate-t-elle. Sur une piste, le nombre de passages par jour pas - sait subitement d'environ 10 000 à cinq ou six cyclistes seulement. « Il y avait eu un chantier pendant quelques mois, explique-t-elle. Mais ce n'était pas écrit dans la fiche [...]. Ou certains jours, il n'y avait aucune donnée. Tu ne sais pas pourquoi. Et la personne avec qui je jasais à la Ville me disait : " On ne peut pas vraiment expliquer ça. Des fois, ça marche. Des fois, ça ne marche pas. " »

Les données qui sont moissonnées peuvent également contenir des erreurs ou des aberrations. La figure 9 en donne un exemple : selon un scraping du site de partage de logements Airbnb, en 2014, les coordonnées d'un des logements offerts le localisaient en plein milieu du chenal entre l'île des Sœurs et l'île de Montréal73. Plus difficile à repérer : le mois-

sonnage lui-même peut recueillir des données incomplètes. Je donne, à l'annexe 9.3, un exemple à partir d'une expérience personnelle.

Et cela, c'est sans compter les erreurs qui peuvent être introduites en cours de traitement. Si une faute d'orthographe se glisse dans un texte, cela n'empêche généralement pas d'en comprendre le sens. En informatique, une erreur ne par- donne pas. Un script qui contient une erreur ne fonctionne pas. Et dans un jeu de données, une erreur peut complète- ment changer les conclusions d'une analyse, comme l'ont démontré en 2013 deux professeurs et un étudiant du départe - ment d'économie de l'Université du Massachussetts. Ils se sont penchés sur les travaux de deux autres économistes et se sont rendus compte que ceux-ci avaient fait une erreur dans leur tableur : « A coding error in the [...] spreadsheet entirely excludes five countries, Australia, Austria, Belgium, Canada, and Denmark, from the analysis » (Herndon et al., 2013 : 7). Les deux économistes avaient simplement fait une moyenne en sélectionnant les lignes 30 à 44 de leur tableur, plutôt que les lignes 30 à 49, ce qui invalidait complètement les conclusions de leur recherche, populaire dans les rangs conservateurs aux États-Unis.

73 Données moissonnées par l'auteur en décembre 2014. Contexte sur ce billet de blogue : http://jhroy.ca/2014/12/airbnb-au- quebec/.

« J'ai vraiment une peur bleue des erreurs », dit Thomas de Lorimier (R03). « On essaie au maximum de vérifier ce qu'on fait. » Comment cette vérification s'effectue-t-elle? Son collègue Pierre-André Normandin (P16) a expliqué qu'il fai- sait « beaucoup de spot checks dans les données que je reçois » : il prend des échantillons aléatoires et vérifie si les données qu'ils contiennent sont exactes ou ont du sens. Il dit être, lui aussi, « habité par la crainte » de faire une erreur : « C'est notre nom, qui est au-dessus de l'article, et en journalisme, t'as pas mal juste ça, ton nom. »

Les journalistes informatiques semblent donc appliquer les mêmes idéaux, la même « discipline de vérification », pour reprendre l'expression de Kovach et Rosentiel (2004), que l'ensemble des journalistes. Mais j'ai senti qu'ils étaient encore plus méfiants à l'égard des données qu'ils pouvaient l'être à l'égard d'autres sources documentaires. D'où vient cette méfiance? Est-ce qu'ils considèrent que ce qui provient du monde de l'informatique leur est étranger, donc moins fami - lier? Est-ce parce qu'ils se sentent moins bien outillés pour faire les vérifications dans des ensembles de données?

C'est peut-être un peu des deux, car le journalisme informatique est non seulement relativement nouveau, c'est aussi une pratique plus exigeante sur le plan technique que les autres formes de journalisme (si on la compare au journalisme télé ou radio, par exemple). Les pionniers du journalisme informatique s'avancent en quelque sorte dans une terra incognita, dont on va maintenant examiner les difficultés plus en détail.