HAL Id: hal-01621742
https://hal.archives-ouvertes.fr/hal-01621742
Submitted on 23 Oct 2017
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de
Data visualisation et enseignement de la statistique au travers d’exemples historiques en R
Jonathan El Methni
To cite this version:
Jonathan El Methni. Data visualisation et enseignement de la statistique au travers d’exemples
historiques en R. Cinquième Colloque Francophone International sur l’Enseignement de la Statistique,
Sep 2017, Grenoble, France. �hal-01621742�
Data visualisation et enseignement de la
statistique au travers d’exemples historiques en R
Jonathan El Methni
11
Universit´ e Paris Descartes, Sorbonne Paris Cit´ e, Laboratoire MAP5, UMR CNRS 8145, 75006 Paris, France
[email protected]
R´ esum´ e. Cette communication a pour but de pr´ esenter des exemples de grands moments de la visualisation de donn´ ees mettant en ´ evidence l’impact historique qu’ont pu avoir les statistiques, l’histoire de la statistique dans l’Histoire ainsi que le soul` evement de diverses questions ´ ethiques et les liens tiss´ es avec d’autres disciplines. Ces exemples seront illustr´ es par des graphiques statistiques r´ ealis´ es avec le logiciel R ` a partir de jeux de donn´ ees historiques contenus dans le package HistData. On mettra en correspondance les graphiques statistiques obtenus et leurs homologues historiques. Ces travaux permettent d’aborder la statistique sous un nouvel angle p´ edagogique ainsi que d’enrichir et d’illustrer des enseignements de statistiques.
Mots-cl´ es. Visualisation de donn´ ees, histoire de la statistique, enseignement, R, package HistData.
Abstract. The purpose of this communication is to present examples of data visual- ization highlighting the historical impact of statistics, the history of statistics in History, the raising of various ethical issues and links with other disciplines. These examples will be illustrated by statistical graphics made with the R software from historical data sets contained in the HistData package. The statistical graphics obtained will be matched to their historical counterparts. This work makes it possible to approach statistics in a new educational context and to enrich and illustrate lessons in statistics.
Keywords. Data visualization, history of statistics, education, R, HistData package.
1 Cheminement et questionnement
Ce travail est le fruit de mon exp´ erience, c’est pourquoi je commencerai par expliquer
le cheminement qui a men´ e ` a cette communication. A la suite de mon recrutement en
tant que maˆıtre de conf´ erences en 2014 ` a l’Universit´ e Paris Descartes, j’ai enseign´ e au
d´ epartement STatistique et Information D´ ecisionnelle (STID) de l’Institut Universitaire
de Technologie (IUT) Paris Descartes. Mes cours s’adressent ` a de jeunes ´ etudiants de
deuxi` eme ann´ ee en formation initiale. Il y a une diversit´ e dans les th` emes de cours que
je dispense, qui vont de la statistique descriptive au mod` ele lin´ eaire (r´ egression simple et multiple, anova, ancova). Afin de motiver ce public j’ai cherch´ e ` a illustrer mes cours
`
a l’aide d’exemples issus de lois physiques. En r´ egression lin´ eaire simple on peut citer l’exemple de la loi d’Ohm afin d’estimer la valeur de la r´ esistance, celui de la loi de Galil´ ee permettant d’estimer la constante de gravitation universelle ou encore la loi de Hubble dans le but d’estimer l’ˆ age de l’Univers.
Partant du fait qu’il y a de plus en plus de donn´ ees disponibles et accessibles (donn´ ees socio-´ economiques, data-journalisme, mobilit´ e, transports, sport, etc.) le d´ epartement STID a ouvert en 2015 un Diplˆ ome Universitaire (DU) s’intitulant DU DataViz. Ce diplˆ ome qui s’adresse ` a des personnes en formation continue porte sur la visualisation et l’aide ` a l’interpr´ etration des donn´ ees. D’une dur´ ee courte de 150 heures et conciliable avec une activit´ e professionnelle, il vise des ´ etudiants de niveau licence 3. L’´ equipe p´ edagogique est mixte, compos´ ee ` a la fois d’universitaires et de professionnels issus du monde socio-
´ economique. La data visualisation a pour principal objectif d’explorer des donn´ ees brutes et de les traduire en information interpr´ etable ` a l’aide de repr´ esentations graphiques.
Cette discipline est avant tout un outil d’analyse et de compr´ ehension, qui offre ´ egalement la possibilit´ e d’engager des strat´ egies, de faciliter la prise de d´ ecision, voire d’innover mais surtout de communiquer et de transmettre.
La premi` ere ann´ ee j’ai donn´ e un cours plutˆ ot “classique” avec quelques contextualisa- tions historiques. Or, ce public, plus ˆ ag´ e (que ceux de la formation initiale de l’IUT), a
´ et´ e tr` es int´ eress´ e et j’ai eu ` a r´ epondre ` a des questions concernant les enjeux sous-jacents aux techniques statistiques pr´ esent´ ees. Leurs questionnements ´ etaient du type : Dans quel but cette technique a-t-elle ´ et´ e d´ evelopp´ ee ? Quel ´ etait le contexte historique ? Dans le but d’enrichir mes cours avec des donn´ ees historiques j’ai d´ ecouvert un site enti` erement d´ edi´ e ` a la visualisation de donn´ ees. Ce site
1est l’oeuvre de Mickael Friendly professeur de psychologie ` a York University. Il est ` a l’origine du Milestone Project. Un projet sur l’histoire de la visualisation de donn´ ees qui a donn´ e lieu ` a diverses publications (voir Friendly (2007)). Ce site regorge de liens vers des livres, des galeries de visualisation de donn´ ees avec relecture de graphiques historiques, des cours, des articles, et des liens vers R et SAS. En particulier il renvoie vers un package de R, d´ evelopp´ e par les cr´ eateurs du site, s’intitulant HistData. On y trouve des jeux de donn´ ees historiques ainsi que des exemples de visualisation de donn´ ees possibles ` a r´ ealiser. A l’aide de ce package et du logiciel R j’ai pu reformuler mes cours en y ajoutant une dimension historique et illustrative.
A travers cette communication je vais pr´ esenter cinq exemples qui me paraissent per- tinents car ils mettent en ´ evidence l’impact historique qu’ont pu avoir les statistiques, l’histoire de la statistique dans l’Histoire ainsi que le soul` evement de diverses ques- tions ´ ethiques et les liens tiss´ es avec d’autres disciplines (permettant dans certains cas le d´ eveloppement de ces derni` eres). J’aimerais montrer ` a travers ces exemples quelques grands moments de la visualisation de donn´ ees et l’incidence qu’elle a pu avoir et qu’elle a
1