• Aucun résultat trouvé

Réaliser des graphiques

Dans le document Apprentissage des statistiques avec Jamovi (Page 87-92)

Par-dessus tout, affichez les données. -Edward Tufte31

La visualisation des données est l’une des tâches les plus importantes de l’analyste de données. C’est important pour deux raisons distinctes mais étroitement liées. Tout d’abord, il s’agit de dessiner des « représentations graphique », l’affichage de vos données d’une manière propre et visuellement attrayante facilite la compréhension de ce que vous essayez de leur dire par votre lecteur. Le fait que dessiner des graphiques vous aide à comprendre les données est tout aussi important, voire plus important encore. Pour ce faire, il est important de dessiner des « graphiques exploratoires » qui vous aideront à en apprendre davantage sur les données au fur et à mesure que vous les analysez. Ces points peuvent sembler assez évidents, mais je ne peux pas compter le nombre de fois où j’ai vu des gens les oublier.

Pour donner une idée de l’importance de ce chapitre, je veux commencer par une illustration classique de la puissance d’un bon graphique. Pour ce faire, la Figure 5‑1

présente une reproduction de l’une des visualisations de données les plus célèbres de tous les temps. C’est la carte des décès dus au choléra de John Snow en 1854. La carte est

élégante dans sa simplicité. En arrière-plan, nous avons un plan des rues qui aide à orienter le spectateur. En haut, on voit un grand nombre de petits points, chacun représentant l’emplacement d’un cas de choléra. Les plus grands symboles indiquent l’emplacement des pompes à eau, étiquetées par leur nom. Même l’inspection la plus superficielle du graphique montre très clairement que la source de l’éclosion est presque certainement la pompe de Broad Street. En montrant ce graphique, le Dr Snow a fait en sorte que la poignée soit retirée de la pompe et a mis fin à l’épidémie qui avait tué plus de 500 personnes. Telle est la puissance d’une bonne visualisation des données.

Les objectifs de ce chapitre sont doubles. Tout d’abord, discuter de plusieurs graphiques assez standard que nous utilisons beaucoup lors de l’analyse et de la présentation des données, et ensuite vous montrer comment créer ces graphiques en Jamovi. Les graphiques eux-mêmes ont tendance à être assez simples, de sorte qu’à certains égards, ce chapitre est assez simple. Là où les gens ont habituellement des difficultés, c’est pour apprendre à produire des graphiques et surtout d’apprendre à produire de bons graphiques.

Heureusement, apprendre à dessiner des graphiques avec Jamovi est assez simple tant que vous n’êtes pas trop pointilleux sur l’aspect de votre graphique. Ce que je veux dire en disant cela, c’est que Jamovi offre beaucoup de très bons graphiques par défaut, ou tracés,

31 L’origine de cette citation est le beau livre de Tufte, The Visual Display of Quantitative Information.

qui produisent la plupart du temps un graphique propre et de haute qualité. Cependant, dans les cas où vous voudriez faire quelque chose de non standard, ou si vous avez besoin d’apporter des changements très spécifiques à la figure, sachez que les fonctionnalités graphiques de Jamovi ne sont pas encore capables de supporter un travail avancé ou une édition détaillées.

Figure 5‑1 : Une reproduction stylisée de la carte originale de John Snow sur le choléra. Chaque petit point représente l’emplacement d’un cas de choléra et chaque grand cercle indique l’emplacement d’un puits. Comme le montre clairement le graphique, l’épidémie de choléra est centrée très étroitement sur la pompe Broad St.

Histogrammes

Commençons par l’humble histogramme. Les histogrammes sont l’un des moyens les plus simples et les plus utiles de visualiser les données. Ils sont plus pertinents lorsque vous disposez d’une variable sur une échelle d’intervalle ou de ratio (par exemple, les données de marges afl. du chapitre 4) et que vous voulez obtenir une impression générale de la

variable. La plupart d’entre vous savent probablement comment fonctionnent les

histogrammes, puisqu’ils sont largement utilisés, mais par souci d’exhaustivité, je vais les décrire. Tout ce que vous faites est de diviser les valeurs possibles en compartiments, puis de compter le nombre d’observations qui tombent dans chaque compartiment. Ce comptage est appelé fréquence ou densité du compartiment et est affiché sous la forme d’une barre verticale. Dans les données sur les marges gagnantes de l’AFL, il y a 33 jeux où la marge gagnante était inférieure à 10 points et c’est ce fait qui est représenté par la hauteur de la barre la plus à gauche que nous avons montrée précédemment au chapitre 4, Figure 4‑2. Avec ces graphiques précédents, nous avons utilisé un package de traçage avancé en R qui, pour l’instant, est au-delà des capacités de Jamovi. Mais Jamovi s’en rapproche, et dessiner cet histogramme en Jamovi est assez simple. Ouvrez les options « tracés » sous

la Figure 5‑2. Jamovi étiquette par défaut l’axe des y « density » et l’axe des x avec le nom de variable. Les compartiments sont sélectionnés automatiquement, et il n’y a pas

d’information sur l’échelle, ou de comptage, sur l’axe des y, contrairement à la Figure 4‑2

précédente. Mais cela n’a pas trop d’importance car ce qui nous intéresse vraiment, c’est notre impression sur la forme de la distribution : est-elle normalement distribuée ou y a-t-il une asymétrie ou un aplatissement ? Nos premières impressions sur ces caractéristiques proviennent du tracé d’un histogramme.

Figure 5‑2 : Ecran Jamovi montrant la case à cocher histogramme

Une caractéristique supplémentaire que Jamovi offre est la possibilité de tracer une courbe de « densité ». Vous pouvez le faire en cliquant sur la case à cocher « Density » sous les options « Graphiques » (et en décochant « Histogramme »), ce qui nous donne le graphique présenté dans la Figure 5‑3. Un graphe de densité visualise la distribution des données sur un intervalle continu ou une période de temps. Ce graphique est une variante d’un

histogramme qui utilise l’estimation par noyau pour tracer les valeurs, ce qui permet des distributions plus fines en lissant le bruit. Les pics d’un graphe de densité permettent d’afficher l’endroit où les valeurs sont concentrées sur l’intervalle. L’avantage des courbes de densité par rapport aux histogrammes est qu’elles sont plus aptes à déterminer la forme de distribution parce qu’elles ne sont pas affectées par le nombre de compartiments utilisés (chaque barre utilisée dans un histogramme typique). Un histogramme ne comprenant que 4 compartiments ne produirait pas une forme de distribution suffisamment distincte

comme le ferait un histogramme de 20 compartiments. En revanche, dans le cas les graphiques de densité, ce n’est pas un problème.

Figure 5‑3 : Un graphe de densité de la variable afl.margins tracé avec Jamovi Bien que cette image ait besoin de beaucoup de nettoyage pour faire une bonne

présentation graphique (c.-à-d. une présentation que vous incluriez dans un rapport), elle fait néanmoins un assez bon travail pour décrire les données. En fait, la grande force d’un histogramme ou d’un graphe de densité est qu’il montre (correctement utilisé) toute la dispersion des données, de sorte que vous pouvez avoir une idée assez précise de ce à quoi elle ressemble. L’inconvénient des histogrammes est qu’ils ne sont pas très compacts. Contrairement à d’autres graphiques, il faut souligner le fait qu’il est difficile d’entasser 20 à 30 histogrammes dans une seule image sans submerger le lecteur. Et bien sûr, si vos

données sont à l’échelle nominale, les histogrammes sont inutiles.

Boxplots

Une autre alternative aux histogrammes est un boxplot, que l’on appelle parfois un tracé « boîte et moustaches ». Comme les histogrammes, ils sont plus adaptés aux données sur une échelle d’intervalle ou de rapport. L’idée derrière un boxplot est de fournir une représentation visuelle simple de la médiane, de l’écart interquartile et de l’étendue des données. Et parce qu’ils le font d’une manière assez compacte, les boxplots sont devenus un graphique statistique très populaire, surtout pendant la phase exploratoire de l’analyse des données lorsque vous essayez de comprendre les données vous-même. Voyons comment ils fonctionnent, encore une fois en utilisant les données afl.margins comme exemple.

Figure 5‑4 : Un box plot de la variable afl.margins tracée dans Jamovi

La façon la plus simple de décrire à quoi ressemble un boxplot est d’en dessiner un. Cliquez sur la case à cocher « Box plot » et vous obtiendrez le graphique en bas à droite de la Figure 5.4. Jamovi a dessiné le boxplot le plus simple possible. Lorsque vous regardez ce

graphique, voici comment vous devez l’interpréter : la ligne épaisse au milieu de la boîte est la médiane ; la boîte elle-même s’étend du 25e centile au 75e centile ; et les « moustaches » vont jusqu’au point de données le plus extrême qui ne dépasse pas une certaine limite. Par défaut, cette valeur est 1,5 fois l’écart interquartile (IQR), calculé comme suit 25e percentile - (1,5*IQR) pour la limite inférieure, et 75e percentile + (1,5*IQR) pour la limite supérieure. Toute observation dont la valeur se situe en dehors de cette plage est tracée sous la forme d’un cercle ou d’un point au lieu d’être couverte par les moustaches, et est communément désignée comme une valeur aberrante. Pour nos données de marges AFL, il y a deux observations qui se situent en dehors de cette plage, et ces observations sont tracées sous forme de points (la limite supérieure est 107, et en regardant au-dessus de la colonne de données dans le tableur, il y a deux observations avec des valeurs supérieures, 108 et 116, ce sont ici les points).

Dans le document Apprentissage des statistiques avec Jamovi (Page 87-92)