• Aucun résultat trouvé

5.3.3 SQL : le véritable langage des bases de données

L e Structured Query Language (SQL) est carrément le langage de requête de bases de données le plus utilisé dans le monde (Chamberlin, 2009 : 2753). Mis au point en 1974, il est aujourd'hui tellement commun qu'il est devenu une norme ISO (portant le numéro ISO 9075).

Le créateur du langage, Don Chamberlin, a voulu qu'il soit simple à utiliser, pour les locuteurs de l'anglais à tout le moins : « SQL is intended to be accessible to users without formal training in mathematics or computer programming. It is designed to be typed on a keyboard. Therefore it is framed in familiar English keywords, and avoids specialized mathematical concepts or symbols » (ibid. : 2754). C'est ainsi qu'on peut faire des requêtes SQL avec des mots ou des expression simples comme SELECT, GROUP BY, ORDER BY, JOIN ou COUNT, par exemple.

Force est de constater, cependant, qu'il n'a pas réussi à rendre son langage suffisamment simple pour des journalistes. Dans un ouvrage mentionné plus haut, Berret et Phillips ont analysé 63 syllabus de programmes universitaires qui enseignent le Data ou le Computational Journalism, aux États-Unis. Ils n'en ont trouvé que 13 où l'apprentissage des bases de données relationnelles (dont SQL fait partie) était indiqué (2016 : 35). Il semble que les programmes se concentrent prin- cipalement sur les tableurs : « Based on the analysis of syllabi and journalism programs, even some classes described as advanced prima- rily teach basic tenets of spreadsheet use » (ibid. : 36). Le portrait est semblable chez les journalistes québécois, car seuls cinq participants m'ont dit s'être déjà servi de SQL dans le cadre de leur travail.

49 Christophe Viau est un spécialiste de la visualisation de données qui travaille notamment pour PlanetOS, une entreprise californienne de services d'infonuagique géospatiale.

Benoît Michaud (P11), par exemple, utilise régulièrement le logiciel de base de données Access, de Microsoft, à l'inté- rieur duquel il est possible de faire des requêtes SQL. Il a confié à quel point il pouvait être difficile de s'y retrouver : « Malgré toutes les mises à jour qui ont pu se faire dans Access depuis les années, dit-il, […] il y a un petit manque de convivialité qui me surprend encore. » Selon lui, un logiciel semblable devrait être davantage « grand public » : « Mais je me retrouve [dans] des situations où il manque une parenthèse, ou il y en a une de trop, et ça empêche complètement [le logiciel] de fonctionner. Et [il ne] te dit pas quelle est la parenthèse qui est de trop! »

Olivier Bouchard (P03), adepte du logiciel de base de données FileMaker, semble également intimidé par SQL : J'ai des bases de données de 10 millions de lignes, dit-il. Tout le monde a toujours vu [ FileMaker] comme un système junior, mais c'est écœurant! […] J'ai souvent eu l'ambition de changer pour MySQL50, quelque

chose de plus hot. Mais j'ai réalisé finalement que j'allais le faire le jour où ça allait adonner. Autrement, je n'allais pas me casser la tête avec ça.

Ceux qui passent la courbe d'apprentissage du SQL en disent le plus grand bien. Philippe Gohier (R01) se sert de SQLite. Il l'a utilisé, par exemple, pour analyser des discours de Stephen Harper afin de vérifier si l'impression d'un col - lègue était juste. Le collègue en question avait cru remarquer qu'en 2015, le premier ministre s'était soudain mis à parler de terrorisme beaucoup plus souvent qu'avant. Le responsable a donc recueilli tous les discours en anglais de M. Harper, entre 2007 et 2015. Il les a ensuite intégrés dans un fichier CSV, puis « j'ai pris le CSV et je l'ai mis dans une base de don- nées SQLite », a-t-il raconté pendant qu'il pianotait sur son ordinateur pour me montrer la base de données en question :

Si on regarde, en 2015, là vraiment, il en a parlé énormément. En 2014, vraiment beaucoup, beaucoup. En 2011, presque pas. En 2010, presque pas non plus. En 2009, un peu. En 2008, pas du tout, ou presque pas; trois ou quatre fois. En 2007, il en reparle encore.

Donc, en effet, on voit que la perception que Stephen Harper parle plus de terrorisme et de sécurité natio- nale semble passer le test de la donnée. On ne va pas nécessairement bâtir un article autour du nombre de fois qu'il s'est servi des mots x, y ou z. C'est plate. Mais en soi, ça nous permet de dire que dans son équipe de rédacteurs de discours et dans son entourage de conseillers politiques, on semble penser que c'est une stratégie gagnante, à la veille d'une élection, de mettre ça sur la table plus souvent qu'en 2008 – qui était aussi une année électorale.

Cette analyse aurait également été possible dans un tableur, comme Excel, mais ce participant a pris l'habitude d'utili- ser un véritable système de gestion de base de données, une compétence que Nicolas Roberge (G03) attend, de nos jours, de la part de certains journalistes : « Tu sais, toutes les offres d'emploi où les gens doivent connaître les suites bureau- tiques? Eh bien je trouve que [SQL] fait partie de cette base-là. […] Connaître SQL, je pense, c'est le minimum. […] C'est ce niveau-là que j'attendrais d'un journaliste qui va travailler dans un domaine qui est plus financier, par exemple. »

50 Il existe plusieurs versions de SQL. Les journalistes qui ont participé à cette recherche se servent majoritairement de trois versions à code-source libre : PostgreSQL, MySQL et SQLite. Le dernier possède moins de fonctionnalités que les deux autres, mais a l'avantage de pouvoir, par exemple, prendre la forme d'un simple plugiciel qui peut être utilisé dans une fenêtre de navigateur web, ce qu'un responsable trouve pratique, car il peut s'en servir sur l'ordinateur que son employeur lui fournit sans avoir à demander une autorisation spéciale au département des TI (technologies de l'information) de son entreprise!

« Une fois que tu maîtrises bien Excel, les tableurs, le transfert à une base de données n'est pas si différent », dit l'in- formaticien Stéphane Guidoin (G02)51. « Donc, oui, je pense que ça fait partie des compétences qui peuvent amener

beaucoup [...] Je pense que c'est pertinent et tu peux vite arriver à des choses [...] assez avancées. » Il donne l'exemple d'une extension de PostgreSQL, appelée PostGIS, qui permet d'exploiter des données géospatiales :

C'est magique, dit-il. Tout ce que t'es capable de faire dans du SQL classique, t'es capable de le faire sur des distances. Tu […] peux demander : « Sélectionne-moi les enregistrements où la distance [avec] un point est inférieure à 50 mètres. » […] Je l'avais fait pour des intersections. J'avais des points et je disais : « Agrège- moi tous les accidents qui sont en-dedans de 50 mètres d'une intersection. » […] C'est super puissant.

« S'il y a une compétence qu'il va falloir qu'on ait tous, comme journaliste, c'est les bases de données », croit Olivier Bouchard (P03). « Parce que notre job, c'est de traiter de l'information, dit-il. Et à la base, il faut être capable de l'emma - gasiner, comme dans le temps les journalistes devaient avoir des classeurs, des calepins. [...] Est-ce que ça va être SQL, qui va s'imposer, ou des machins comme Mongo52, où tu peux mettre un tas d'information différentes, à la fois des fichiers

textes, audio, vidéo... je ne sais pas. »

D'autres participants ont cependant des doutes quant à la nécessité de l'apprentissage des systèmes de gestion de bases de données pour les journalistes. Quand j'ai demandé à des responsables s'il fallait enseigner ces systèmes à des étu- diants en journalisme, l'un, Steve Proulx (R02), m'a répondu un « non » sans équivoque. L'autre, Philippe Gohier (R01), a rétorqué : « Pas nécessairement. Fusion Tables, de Google, permet de faire [ce qui ressemble] à du SQL et c'est quand même assez visuel. »

Le problème réside peut-être dans le fait que la plupart des journalistes, même des journalistes d'enquête qui ont une aisance avec l'informatique, n'ont pas à plonger assez souvent, ni assez régulièrement, dans des bases de données SQL au cours de leur carrière. En ce sens, ce qu'une chercheure de l'Université de Syracuse a constaté dans les années 1990 est intéressant. Elle a testé un système de gestion de bases de données plus simple que SQL sur un groupe de journalistes et elle a conclu : « For the community of journalists [it] has been beyond the expertise of most members of the profession. Although it would certainly be possible to acquire the necessary skills, the sporadic nature of the use of those skills would call into question the acquisition cost and the relative advantage » (Roberge, 1993 : 174).

C'est ce qui fait qu'on peut se demander pourquoi certains journalistes se donnent la peine d'acquérir des compé- tences encore plus poussées en se mettant à la programmation.

51 Stéphane Guidoin était directeur du développement des produits chez Nord Ouvert, le plus grand groupe militant pour l'ouverture des données au Canada. Je l'ai rencontré à son dernier jour à ce poste. Il était sur le point de se joindre au Bureau de la ville intelligente et numérique de Montréal.

52 MongoDB est un système de gestion de bases de données dit « NoSQL » puisqu'il ne fonctionne pas du tout de la même manière que SQL. En gros, il permet de gérer des données non-structurées, ou dont la structure évolue dans le temps. Au début de la décennie 2010, des entreprises de presse, comme le Guardian et le New York Times, ont migré vers ce système pour gérer les données de leurs plateformes web.