• Aucun résultat trouvé

Data visualisation et enseignement de la statistique au travers d'exemples historiques en R

N/A
N/A
Protected

Academic year: 2021

Partager "Data visualisation et enseignement de la statistique au travers d'exemples historiques en R"

Copied!
6
0
0

Texte intégral

(1)

HAL Id: hal-01621742

https://hal.archives-ouvertes.fr/hal-01621742

Submitted on 23 Oct 2017

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de

Data visualisation et enseignement de la statistique au travers d’exemples historiques en R

Jonathan El Methni

To cite this version:

Jonathan El Methni. Data visualisation et enseignement de la statistique au travers d’exemples

historiques en R. Cinquième Colloque Francophone International sur l’Enseignement de la Statistique,

Sep 2017, Grenoble, France. �hal-01621742�

(2)

Data visualisation et enseignement de la

statistique au travers d’exemples historiques en R

Jonathan El Methni

1

1

Universit´ e Paris Descartes, Sorbonne Paris Cit´ e, Laboratoire MAP5, UMR CNRS 8145, 75006 Paris, France

[email protected]

R´ esum´ e. Cette communication a pour but de pr´ esenter des exemples de grands moments de la visualisation de donn´ ees mettant en ´ evidence l’impact historique qu’ont pu avoir les statistiques, l’histoire de la statistique dans l’Histoire ainsi que le soul` evement de diverses questions ´ ethiques et les liens tiss´ es avec d’autres disciplines. Ces exemples seront illustr´ es par des graphiques statistiques r´ ealis´ es avec le logiciel R ` a partir de jeux de donn´ ees historiques contenus dans le package HistData. On mettra en correspondance les graphiques statistiques obtenus et leurs homologues historiques. Ces travaux permettent d’aborder la statistique sous un nouvel angle p´ edagogique ainsi que d’enrichir et d’illustrer des enseignements de statistiques.

Mots-cl´ es. Visualisation de donn´ ees, histoire de la statistique, enseignement, R, package HistData.

Abstract. The purpose of this communication is to present examples of data visual- ization highlighting the historical impact of statistics, the history of statistics in History, the raising of various ethical issues and links with other disciplines. These examples will be illustrated by statistical graphics made with the R software from historical data sets contained in the HistData package. The statistical graphics obtained will be matched to their historical counterparts. This work makes it possible to approach statistics in a new educational context and to enrich and illustrate lessons in statistics.

Keywords. Data visualization, history of statistics, education, R, HistData package.

1 Cheminement et questionnement

Ce travail est le fruit de mon exp´ erience, c’est pourquoi je commencerai par expliquer

le cheminement qui a men´ e ` a cette communication. A la suite de mon recrutement en

tant que maˆıtre de conf´ erences en 2014 ` a l’Universit´ e Paris Descartes, j’ai enseign´ e au

d´ epartement STatistique et Information D´ ecisionnelle (STID) de l’Institut Universitaire

de Technologie (IUT) Paris Descartes. Mes cours s’adressent ` a de jeunes ´ etudiants de

deuxi` eme ann´ ee en formation initiale. Il y a une diversit´ e dans les th` emes de cours que

(3)

je dispense, qui vont de la statistique descriptive au mod` ele lin´ eaire (r´ egression simple et multiple, anova, ancova). Afin de motiver ce public j’ai cherch´ e ` a illustrer mes cours

`

a l’aide d’exemples issus de lois physiques. En r´ egression lin´ eaire simple on peut citer l’exemple de la loi d’Ohm afin d’estimer la valeur de la r´ esistance, celui de la loi de Galil´ ee permettant d’estimer la constante de gravitation universelle ou encore la loi de Hubble dans le but d’estimer l’ˆ age de l’Univers.

Partant du fait qu’il y a de plus en plus de donn´ ees disponibles et accessibles (donn´ ees socio-´ economiques, data-journalisme, mobilit´ e, transports, sport, etc.) le d´ epartement STID a ouvert en 2015 un Diplˆ ome Universitaire (DU) s’intitulant DU DataViz. Ce diplˆ ome qui s’adresse ` a des personnes en formation continue porte sur la visualisation et l’aide ` a l’interpr´ etration des donn´ ees. D’une dur´ ee courte de 150 heures et conciliable avec une activit´ e professionnelle, il vise des ´ etudiants de niveau licence 3. L’´ equipe p´ edagogique est mixte, compos´ ee ` a la fois d’universitaires et de professionnels issus du monde socio-

´ economique. La data visualisation a pour principal objectif d’explorer des donn´ ees brutes et de les traduire en information interpr´ etable ` a l’aide de repr´ esentations graphiques.

Cette discipline est avant tout un outil d’analyse et de compr´ ehension, qui offre ´ egalement la possibilit´ e d’engager des strat´ egies, de faciliter la prise de d´ ecision, voire d’innover mais surtout de communiquer et de transmettre.

La premi` ere ann´ ee j’ai donn´ e un cours plutˆ ot “classique” avec quelques contextualisa- tions historiques. Or, ce public, plus ˆ ag´ e (que ceux de la formation initiale de l’IUT), a

´ et´ e tr` es int´ eress´ e et j’ai eu ` a r´ epondre ` a des questions concernant les enjeux sous-jacents aux techniques statistiques pr´ esent´ ees. Leurs questionnements ´ etaient du type : Dans quel but cette technique a-t-elle ´ et´ e d´ evelopp´ ee ? Quel ´ etait le contexte historique ? Dans le but d’enrichir mes cours avec des donn´ ees historiques j’ai d´ ecouvert un site enti` erement d´ edi´ e ` a la visualisation de donn´ ees. Ce site

1

est l’oeuvre de Mickael Friendly professeur de psychologie ` a York University. Il est ` a l’origine du Milestone Project. Un projet sur l’histoire de la visualisation de donn´ ees qui a donn´ e lieu ` a diverses publications (voir Friendly (2007)). Ce site regorge de liens vers des livres, des galeries de visualisation de donn´ ees avec relecture de graphiques historiques, des cours, des articles, et des liens vers R et SAS. En particulier il renvoie vers un package de R, d´ evelopp´ e par les cr´ eateurs du site, s’intitulant HistData. On y trouve des jeux de donn´ ees historiques ainsi que des exemples de visualisation de donn´ ees possibles ` a r´ ealiser. A l’aide de ce package et du logiciel R j’ai pu reformuler mes cours en y ajoutant une dimension historique et illustrative.

A travers cette communication je vais pr´ esenter cinq exemples qui me paraissent per- tinents car ils mettent en ´ evidence l’impact historique qu’ont pu avoir les statistiques, l’histoire de la statistique dans l’Histoire ainsi que le soul` evement de diverses ques- tions ´ ethiques et les liens tiss´ es avec d’autres disciplines (permettant dans certains cas le d´ eveloppement de ces derni` eres). J’aimerais montrer ` a travers ces exemples quelques grands moments de la visualisation de donn´ ees et l’incidence qu’elle a pu avoir et qu’elle a

1

http://www.datavis.ca

(4)

toujours. J’utiliserai plus particuli` erement le package HistData mais ´ egalement le package Guerry de R pour un cas particulier.

2 De l’utilit´ e de la statistique au travers d’exemples historiques

Cette partie a pour but de mettre en avant cinq cas historiques de l’utilisation et de l’utilit´ e de la statistique. Tous ces exemples seront illustr´ es par de nombreux graphiques r´ ealis´ es avec R et mis en correspondance avec leurs homologues historiques.

Le premier cas qui nous int´ eressera sera celui de Wiliam Playfair (1759–1823), ing´ enieur et ´ economiste ´ ecossais. Playfair fut un des pionniers de la repr´ esentation graphique de donn´ ees. Il est cr´ edit´ e de l’invention des s´ eries chronologiques, des histogrammes et des di- agrammes circulaires. Il a d´ evelopp´ e un des classiques de la visualisation de donn´ ees (voir Playfair (1821)) concernant l’´ evolution du salaire hebdomadaire d’un “bon m´ ecanicien”

et celle du prix du bl´ e de 1565 ` a 1821. Par ce travail, il a voulu montrer que le pouvoir d’achat d’un “bon m´ ecanicien” n’avait jamais ´ et´ e aussi ´ elev´ e qu’en 1821.

Le deuxi` eme cas (certainement le plus connu) que l’on pr´ esentera sera celui de Charles Joseph Minard (1781–1870), ing´ enieur civil fran¸cais. Minar fut l’un des premiers ` a utiliser des graphiques appliqu´ es au g´ enie civil et aux statistiques. Sa carte figurative des pertes successives en hommes de l’arm´ ee fran¸caise dans la campagne de Russie en 1812–1813 (voir Minard (1844)) est consid´ er´ ee comme un (si ce n’est le) chef d’oeuvre de visualisa- tion de donn´ ees. En effet cette carte en deux dimensions int` egre et synth´ etise parfaitement pas moins de six niveaux d’informations, elle donne la chronologie des ´ ev` enements, la lo- calisation et l’itin´ eraire de l’arm´ ee indiquant les points de s´ eparation et de regroupement des unit´ es, pertes humaines de l’arm´ ee (particuli` erement sensibles lors de la travers´ ee de la B´ er´ ezina) ainsi que les variations de la temp´ erature de l’air au cours de la retraite des troupes de Napol´ eon Bonaparte.

On s’int´ eressera par la suite ` a Florence Nightingale (1820–1910), infirmi` ere britan-

nique. De mˆ eme que ces deux pr´ ed´ ecesseurs Nightingale fut une pionni` ere dans l’utilisation

des statistiques dans le domaine de la sant´ e et plus particuli` erement dans la repr´ esentation

visuelle de l’information. A la suite de la guerre de Crim´ ee (1853–1856), elle se mit ` a

utiliser une version am´ elior´ ee des diagrammes circulaires de Playfair dans le but d’illustrer

les causes saisonni` eres de mortalit´ e des patients de l’hˆ opital militaire qu’elle g` erait. Ses

diagrammes (voir Nightingale (1857)) des causes de mortalit´ es dans les arm´ ees de l’Est

ont montr´ e que la plupart des soldats anglais morts durant la guerre de Crim´ ee l’ont ´ et´ e

de maladie plutˆ ot que de blessures ou d’autres causes. Ses rapports sur la nature et les

conditions de soins m´ edicaux permirent aux membres du parlement de r´ ealiser l’ampleur

(5)

du d´ esastre et men` erent ` a une r´ eforme m´ edicale. Ces derniers n’auraient probablement pas pu lire ou comprendre des rapports statistiques traditionnels.

Le cas suivant concernera Andr´ e-Michel Guerry (1802–1866), statisticien et juriste fran¸cais. Il est consid´ er´ e (avec Adolphe Quetelet) comme le fondateur de la “statistique morale”, discipline ` a l’origine du d´ eveloppement de la criminologie, de la sociologie et des sciences sociales. On s’int´ eressera particuli` erement ` a deux de ses cartes choropl` ethes de France (voir Guerry (1833)). Elles repr´ esentent les d´ epartements fran¸cais colori´ es selon le nombre de crimes contre les personnes pour la premi` ere et selon les atteintes ` a la pro- pri´ et´ e pour la seconde. Le but recherch´ e ´ etait d’apporter une r´ eponse cartographique aux questions sociales de l’´ epoque : Est-ce que le niveau d’instruction et de criminalit´ e sont li´ es ? Guerry souhaitait alors faire un lien entre deux variables.

Enfin notre dernier exemple sera celui de Sir Francis Galton (1822 –1911), anthropo- logue, explorateur, g´ eographe, inventeur, m´ et´ eorologue, proto-g´ en´ eticien, psychom´ etricien et statisticien britannique. Sir Francis Galton, cousin de Charles Darwin, cherchait ` a faire le lien entre la th´ eorie de la s´ election naturelle et la recherche en statistique. Il d´ efendit la th´ eorie de l’´ evolution, en se proposant de montrer qu’elle permettait des pr´ evisions suscep- tibles d’ˆ etre v´ erifi´ ees. Ses ´ etudes port` erent sur la transmission de caract` eres h´ er´ editaires (voir Galton (1869)), de ce fait il est consid´ er´ e comme le fondateur de l’eug´ enisme. En 1885, travaillant sur l’h´ er´ edit´ e, il chercha ` a expliquer la taille des enfants en fonction de celle de leurs parents. Il en conclura, ` a l’aide d’un graphique que l’on pr´ esentera, que bien qu’il y ait une tendance pour les parents de taille ´ elev´ ee ` a avoir des enfants de taille ´ elev´ ee et pour les parents de petite taille ` a avoir des enfants petits, la taille moyenne des enfants n´ es de parents d’une taille donn´ ee avait tendance ` a se rapprocher de la taille moyenne de la population g´ en´ erale. En d’autres termes, la taille des enfants n´ es de parents inhab- ituellement grands ou petits se rapprochait de la taille moyenne de la population. Dans les termes de Galton, il s’agissait d’une “r´ egression vers la m´ ediocrit´ e”, d’o` u l’origine du mot r´ egression en statistique.

3 Conclusions et perspectives

En conclusion, il me semble primordial de contextualiser l’apparition et/ou l’usage de

m´ ethodes statistiques. A l’aide des packages HistData et Guerry de R nous avons cette

possibilit´ e. Les donn´ ees disponibles abordent une tr` es grande diversit´ e de th` emes et de dis-

ciplines : sociologie, physique, commerce, psychologie, m´ edecine, militaire, ´ epid´ emiologie,

cartographie, biologie, etc. Il est ` a mes yeux essentiel de faire ce travail historique, de plus

ce dernier soul` eve de nombreuses questions ´ ethiques, qui peuvent faire ´ echo ` a l’actualit´ e,

telle que l’´ emergence du Big Data ou la cartographie de r´ eseaux sociaux.

(6)

Je me donne comme perspective d’ins´ erer un maximum d’exemples historiques dans mes cours ou tout du moins les contextualiser le plus possible. C’est d´ ej` a le cas dans mon cours de mod` ele lin´ eaire o` u je fais travailler les ´ etudiants sur les donn´ ees historiques de Sir Francis Galton. Ceci leur offre la possibilit´ e de reproduire les graphiques de nos illustres pr´ ed´ ecesseurs. Sous mon impulsion et celle de Xavier Sense, enseignant dans le DU DataViz, nous comptons monter un cours de visualisation de donn´ ees dans un contexte historique. Nous sommes en train de penser le cours afin que les ´ etudiants puissent aborder la statistique sous un nouvel angle p´ edagogique. Ils pourront dans un premier temps mettre en oeuvre des techniques statistiques vues en cours et par la suite d´ evelopper leurs propres outils de visualisation de donn´ ees.

Bibliographie

[1] Friendly, M. (2007) A Brief History of Data Visualization. In Chen, C., Hardle, W.

& Unwin, A. (eds) Handbook of Computational Statistics: Data Visualization, Springer–

Verlag, Vol. III, Ch. 1, 1–34.

[2] Galton, F. (1869). Hereditary Genius: An Inquiry into its Laws and Consequences.

London: Macmillan.

[3] Guerry, A–M. (1833). Essai Sur La Statistique Morale de la France. Paris: Crochard.

[4] Minard, C–J (1844), Tableaux graphiques et cartes figuratives. Biblioth` eque num´ erique patrimoniale des ponts et chauss´ ees.

[5] Nightingale, F. (1857). Mortality of the British Army. London: Harrison and Sons.

[6] Playfair, W. (1821). Letter on our Agricultural Distresses, Their Causes and Remedies.

London: W. Sams.

Références

Documents relatifs

A partir des outils de la recherche comme le logiciel de traitement de la parole PRAAT, le logiciel d’annotation automatique SPPAS et le corpus d’apprenants AixOx, cet

Plus concrètement, l’ARPP (cf. Fiche 34) recommande aux annonceurs de ne pas tromper sur la réalité de leurs actions en faveur du développement durable, ni sur les promesses de leurs

Dans la partie script vous écrivez les commandes et pour les faire marcher vous allez dans Code->Run Lines ou vous utilisez

Notons que si nous utilisons toutes les donn´ees pour la TOD inverse nous obtenons un PSNR de 37.62 dB pour la carte de texture et un PSNR infini pour la carte d’altitude puisque

Si vous le souhaitez vous pouvez faire l’exercice suivant qui montre que “faire de la g´ eon´etrie affine, c’est la mˆeme chose que faire de l’alg`ebre lin´eaire en dimension

Cet article a pour but de présenter des exemples de grands moments de la visualisation de données mettant en évidence l’impact historique qu’a pu avoir la diffusion des

Il s’agit dans cet article non pas de faire une revue des plate-formes d’e-learning de statistique comme cela est présenté dans d’autres articles (Härdle et al., 2006), mais de

Cet article a pour but de pr´ esenter des exemples de grands moments de la visualisation de donn´ ees mettant en ´ evidence l’impact historique qu’a pu avoir la diffusion