• Aucun résultat trouvé

Les statistiques descriptives permettent de résumer de façon concise les caractéristiques principales de nos données. Ce chapitre introduit trois principaux types de statistiques descriptives : les mesures de cen- tralité, de dispersion et d’association bivariée. Une étude de cas illustre ensuite comment calculer ces statistiques à partir de vraies données, en utilisant un logiciel statistique.

Centralité

La moyenne, la médiane et le mode sont trois façons distinctes d’identifier les observations qui se trouvent « au centre » d’un échan- tillon. L’espérance mathématique est une généralisation du concept de moyenne, qui s’applique à l’étude de populations complètes plutôt que d’échantillons.

Moyenne

Pour un ensembleXde taillen, la moyenne est représentée parX¯

et se calcule : ¯ X = 1 n n X i=1 Xi (3.1)

Par exemple, siX contient 5 éléments{1, 3, 4, 8, 9}, la moyenne est :

¯

X = 1

Médiane

La médiane est la valeur qui sépare une série ordonnée de nombres en deux parties contenant le même nombre d’éléments.1Par exemple,

la médiane deXest 4 : 1, 3 |{z} 2 éléments 4 , 8, 9 |{z} 2 éléments

La médiane est plus « robuste » que la moyenne, au sens où elle est moins sensible aux valeurs extrêmes ou aberrantes. Considérez les deux ensembles suivants :

{1, 2, 3, 4, 5} Moyenne = 3 ; Médiane = 3

{1, 2, 3, 4, 100} Moyenne = 22 ; Médiane = 3 La moyenne est fortement affectée par l’introduction de la valeur extrême 100, alors que la médiane ne change pas.

Mode

Le mode est la valeur la plus fréquente d’un ensemble. Par exemple, dans l’ensemble suivant, le mode est 8 :

{1, 2, 2, 3, 4, 7, 8, 8, 8}

Espérance

Dans le chapitre 4, nous verrons qu’il y a une distinction importante entre les statistiques calculées à partir d’une « population » entière, ou à partir d’un « échantillon », c’est-à-dire à partir d’un sous-groupe de la population. L’espérance est un opérateur mathématique qui représente la moyenne d’une population entière, plutôt que d’un échantillon.2

1. Par convention, si un ensemble comprend un nombre pair d’éléments, la médiane est définie comme la moyenne des deux éléments centraux.

2. L’espérance peut également être vue comme une moyenne à « long terme », calculée après un grand nombre de répétitions de l’expérience qui produit la variable X. Par exemple, si je m’intéresse à la moyenne d’un lancer de dé, je pourrais théoriquement lancer mon dé un nombre infini de fois. Dans ce cas, l’espérance correspond à la moyenne que nous obtiendrions à partir d’un nombre infini de répétitions de l’expérience.

L’espérance deXs’écritE[X]et se calcule ainsi :

E[X] = X

∀x∈X

x· P (X = x) (3.2)

Pour toutes les valeursx possibles de la variableX, nous multi- plionsxpar la probabilité d’observerx, et nous prenons la somme.3 Par exemple, siX représente le lancer d’un dé ordinaire à six faces, l’ensembleX est composé des chiffres de 1 à 6. La probabilité d’ob- tenir n’importe lequel de ces chiffres est égale à 1/6. Par conséquent, l’espérance est : E[X] = 1·1 6 + 2· 1 6+ 3· 1 6+ 4· 1 6 + 5· 1 6 + 6· 1 6 = 3,5

Dans le chapitre 2, nous avons vu qu’une variable « binaire » ou « di- chotomique » peut prendre seulement deux valeurs : 0 et 1. SiZest une variable dichotomique avec cette probabilité :

P (Z) = ( P (Z = 0) = 3 5 P (Z = 1) = 2 5

alors l’espérance est égale à

E[Z] = 1·2

5+ 0· 3

5 = 40%

L’espérance d’une variable binaire est donc égale à la probabilité d’observer un 1.

Espérance conditionnelle et indépendance

Un autre concept important est l’espérance conditionnelle, qui s’écrit :

E[Y|X = x]

3. L’opérateur de somme∑est présenté en annexe au chapitre 19. L’expression∀x ∈ X se

dit « pour toutes les valeurs possibles x de l’ensemble X ». Notez que si X est une variable continue, l’espérance est définie par une intégrale.

Elle se dit « valeur attendue deY lorsqueXest égale àx». Cette équation nous indique qu’il faut calculer l’espérance de la variableY

en considérant seulement les observations pour lesquelles la variable

Xest égale àx.

Si deux variables sont indépendantes, alors l’espérance condition- nelle est égale à l’espérance :

Si X⊥ Y, alors E[Y|X] = E[Y ] (3.3) Cette règle est très importante. Dans les chapitres 5, 7, 8 et 9, c’est elle qui nous permettra de déterminer si on peut donner une interpré- tation causale à nos analyses statistiques.

Dispersion

Les mesures de dispersion nous aident à répondre à la question sui- vante : est-ce que beaucoup d’observations s’éloignent du centre de la distribution, ou est-ce que la plupart des observations sont concen- trées autour du centre ?

Le panneau de gauche de la figure 3.1 montre un échantillon d’in- dividus adultes. Le panneau de droite de la figure 3.1 montre un échantillon composé d’adultes et d’enfants. Les tailles des membres de l’échantillon de droite sont plus dispersées que les tailles dans l’échan- tillon de gauche.

FIGURE 3.1.

Tailles des individus dans deux échantillons. La variance des tailles est plus grande dans l’échantillon de droite que dans l’échantillon de gauche.

(A) (B)

Pour mesurer la dispersion, nous allons considérer trois statis- tiques : la variance, l’écart type et l’écart interquartile.

Variance

La variance d’un ensembleXcomposé denéléments s’écritσ2

Xou

Var(X)et se calcule ainsi :4

σ2X =Var(X) = 1 n n X i=1 (Xi− ¯X)2 (3.4)

Plus la variance est grande, plus les valeurs ont tendance à s’éloigner du centre de la distribution. Par exemple, l’ensembleX = {0,1,2}a une moyenne de 1 et une variance de :

σX2 = 1 3  (0− 1)2+ (1− 1)2+ (2− 1)2= 2 3

L’ensembleZ = {−2, 1, 4}a aussi une moyenne de 1, mais une plus grande variance :

σ2 Z = 1 3  (−2 − 1)2+ (1− 1)2+ (4− 1)2= 6 Écart type

Un problème de la variance est qu’elle ne peut pas être interprétée sur la même échelle que la variable originale. En effet, la formule 3.4 prend le carré des déviations par rapport à la moyenne ; la variance est donc une mesure des déviations par rapport à la moyenne, mais ces déviations sont élevées au carré, ce qui change l’unité de mesure. Pour ramener notre mesure de dispersion à la même échelle que la variable originale, il est courant de prendre sa racine carrée. Le résultat de cette transformation s’appelle un « écart type ». L’écart type deXs’écrit et se calcule ainsi : σX = q σ2 X = q Var(X)

4. Lorsque nous voulons estimer la variance d’une population à partir d’un échantillon, il est préférable d’appliquer la correction de Bessel et de modifier le dénominateur : Var(X) =

1

n−1n

Écart interquartile

Comme la moyenne, la variance et l’écart type peuvent être affec- tés par les valeurs extrêmes ou aberrantes. Pour obtenir une mesure de dispersion plus robuste, l’analyste peut se tourner vers une autre statistique : l’écart interquartile.

Pour comprendre comment calculer l’écart interquartile, il faut d’abord introduire le concept de « centile ». Les centiles sont les 99 va- leurs qui divisent une variableXen 100 groupes composés du même nombre d’observations. Pour identifier les centiles, l’analyste range toutes les observations d’une variableX en ordre croissant, et il di- vise celles-ci en 100 groupes de taille identique. Le 1er centile est la valeur qui sépare le 1 % des plus petites valeurs deXdu reste. Le 25e centile est la valeur qui sépare le 25 % des plus petites valeurs deX

du reste. Le 75ecentile est la valeur qui sépare le 75 % des plus petites

valeurs deXdu reste.

L’écart interquartile mesure la distance entre le 25ecentile et le 75e centile. Dans la figure 3.2, 25 % des valeurs deXse trouvent à gauche de la ligne pleine, et 75 % des valeurs deXse trouvent à gauche de la ligne pointillée. La distance entre les deux lignes mesure l’écart inter- quartile. La figure 3.2 montre que l’écart interquartile mesure la disper- sion du 50 % central des données. Plus l’écart interquartile est grand, plus les observations ont tendance à s’éloigner du centre de la distri- bution.

FIGURE 3.2.

Écart interquartile d’une variable X. Le quart des points se trouvent à gauche de la ligne pleine. Le trois quart des points se trouvent à gauche de la ligne pointillée. L’écart interquartile est la distance entre les deux lignes verticales.

Association

Toutes les statistiques que nous avons étudiées jusqu’à maintenant étaient univariées, c’est-à-dire qu’elles ne concernaient qu’une seule va- riable à la fois. Nous nous penchons maintenant sur trois approches

qui permettent de mesurer la force de l’association entre deux va- riables : la covariance, la corrélation, et les tableaux de contingence.

Covariance

La covariance mesure l’association linéaire entre deux variables. Cette statistique se calcule ainsi :

Cov(X, Y ) = 1 n n X i=1 (Xi− ¯X)(Yi− ¯Y ) (3.5)

nest le nombre d’observations,X¯ est la moyenne deX, etY¯ est la moyenne deY.

Lorsque la covariance est positive, les valeurs élevées deXsont as- sociées à des valeurs élevées deY. Lorsque la covariance est négative, les valeurs élevées deXsont associées à des valeurs faibles deY.

Par exemple, si une chercheuse calcule la covariance entre la taille et le revenu, et si elle découvre que Cov(Taille,Revenu) > 0, alors elle peut conclure que les grands ont tendance à avoir un revenu élevé. Si un chercheur calcule la covariance entre l’âge et le nombre de cheveux, et s’il découvre que Cov(Âge,Cheveux) < 0, alors il peut conclure que les vieux ont tendance à avoir moins de cheveux que les jeunes.

Corrélation

Un problème de la covariance est qu’elle dépend de l’échelle des va- riables qui entrent dans son calcul. Par exemple, si nous mesurons la covariance entre les tailles de parents et de leurs enfants en centimètres plutôt qu’en mètres, la covariance estimée sera 10 000 fois plus grande. Pour faciliter l’interprétation, il est donc utile de normaliser la co- variance en la divisant par le produit des écarts types des deux va- riables. Le résultat de cette opération est le coefficient de corrélation de Pearson5:

rXY =

Cov(X, Y )

σXσY

(3.6)

5. Karl Pearson (1857-1936) est un mathématicien anglais qui a fait de nombreuses contributions fondamentales au champ des statistiques. Il était aussi eugéniste et raciste.

Cette mesure d’association a plusieurs propriétés intéressantes. D’abord, la corrélation ne sera jamais inférieure à -1 ou supérieure à 1. Ensuite, lorsquerXY > 0, on dit que la relation linéaire entre

XetY est « positive », c’est-à-dire que des valeurs élevées pour la va- riable Xont tendance à être associées à des valeurs élevées pour la variableY. À l’inverse, lorsquerXY < 0, la relation linéaire entreX

etY est dite « négative » : les valeurs élevées deXsont associées à des valeurs faibles deY. Finalement, plus la corrélation approche les ex- trêmes (−1ou1), plus l’association entre les deux variables est forte ; quand la corrélation est égale à zéro, il n’y a pas d’association linéaire entre les deux variables.

La figure 3.3 montre quatre paires de variables. Dans le panneau (a), la relation entreXetY est forte et négative (rXY = −0,9). Le

panneau (b) montre une association positive, mais modérée. Dans le panneau (c), il n’y a aucune relation linéaire entreXetY; la relation est nulle (rXY = 0,0).

FIGURE 3.3.

Finalement, le panneau (d) de la figure 3.3 illustre un point impor- tant : la corrélation et la covariance sont des mesures d’association li-

néaire. Si la relation entre nos deux variables est non linéaire, cette as-

sociation risque de ne pas être saisie. Dans le panneau (d), la relation entreXetY est parfaitement quadratique (Y = X2

), mais le coeffi- cient de corrélation estimé estrXY = 0. Ce coefficient de corrélation

nul indique qu’il n’y a pas de relation linéaire entreXetY.

Variables catégoriques

La covariance et la corrélation sont utiles pour mesurer l’association linéaire entre des variables continues. Lorsque nous voulons étudier l’association entre deux variables catégoriques (binaires, ordinales, ou nominales), nous pouvons employer un tableau de contingence.

Par exemple, le tableau de contingence 3.1 montre le nombre de morts et de survivants suite au naufrage du Titanic : 154 femmes sont mortes et 308 ont survécu ; 709 hommes sont morts et 142 ont survécu. Ces chiffres donnent la nette impression que le taux de survie est plus élevé pour les femmes que pour les hommes.

TABLEAU 3.1.

Taux de survie pour différents groupes de passagers suivant l’accident du

Titanic.

Mort Vivant Femme 154 308 Homme 709 142

Pour vérifier les intuitions dérivées d’un tel tableau de contingence, il est utile de donner une expression numérique à l’association entre les deux variables binaires ou ordinales qui nous intéressent. Plu- sieurs statistiques ont été proposées pour accomplir cette tâche.6Par

exemple, une des statistiques les plus courramment employées dans ce contexte est le tau de Kendall (τ).

Comme la corrélation, la valeur deτ est contenue dans l’intervalle

[−1,1], le signe deτ indique la direction de la relation entre les deux

6. Parmi celles-ci, on compte le Gamma de Goodman et Kruskal, et le D de Somers. Les chapitres 4 et 5 introduisent le test de signification statistique autour de l’estimé d’une moyenne ou d’un coef- ficient de régression linéaire. Il est possible d’exécuter un test d’hypothèse nulle analogue lorsque les variables sont catégoriques, notamment à l’aide du χ2ou du test exact de Fisher.

variables, et une valeur deτ = 0suggère qu’il n’y a pas d’association entre les deux variables.

Études de cas

Avant de conclure ce chapitre, il est utile d’illustrer le calcul des sta- tistiques descriptives et de tableaux de contingence avec un logiciel statistique et de vraies données. Pour commencer, nous importons la banque de données d’André-Michel Guerry (voir le chapitre 1) dans le logiciel R :

dat <- read.csv('data/Guerry.csv')

La variable ville mesure la taille de la plus grande ville de chaque département en trois catégories : Petite, Moyenne et Grande. Pour trouver le mode, nous utilisons la fonction table, qui compte la fré- quence de chaque catégorie. Sans surprise, les villes de taille moyenne sont les plus communes (c.-à-d. le mode) :

table(dat$ville) ##

## Grande Moyenne Petite ## 10 65 10

La variable population1831 mesure la population de chaque dé- partement en milliers d’habitants. Nous calculons la moyenne, la mé- diane, la variance et l’écart type ainsi :

mean(dat$population1831) ## [1] 380,7842 median(dat$population1831) ## [1] 346,3 var(dat$population1831) ## [1] 21993,84 sd(dat$population1831) ## [1] 148,3032

Comme nous l’avons vu précédemment, l’écart type est égal à la ra- cine carrée de la variance :

sd(dat$population1831) ## [1] 148,3032

sqrt(var(dat$population1831)) ## [1] 148,3032

Pour calculer l’écart interquartile, il suffit d’utiliser la fonction quantile et de soustraire le 25epercentile du 75e:

quantile(dat$population1831, probs = c(.25, .75)) ## 25% 75%

## 283,83 445,25

La variable alphabetisation mesure le taux d’alphabétisation dans chaque département (0-100). La variable commerce mesure le rang national de chaque département en fonction du nombre de bre- vets enregistrés par la population locale. Nous mesurons la covariance et la corrélation entre ces deux variables ainsi :

cov(dat$commerce, dat$alphabetisation) ## [1] -260,1899

cor(dat$commerce, dat$alphabetisation) ## [1] -0,6020805

Ces deux statistiques suggèrent que la relation entre nos variables est négative : les départements où la population est très éduquée se classent près du premier rang en termes d’innovation.

Conformément aux équations 3.5 et 3.6, la corrélation est égale à la covariance, divisée par le produit des écarts types :

cor(dat$commerce, dat$alphabetisation) ## [1] -0,6020805

cov(dat$commerce, dat$alphabetisation) / (sd(dat$commerce) * sd(dat$alphabetisation)) ## [1] -0,6020805

Pour illustrer la construction des tableaux de contingence et le cal- cul duτ de Kendall, nous nous tournons maintenant vers les données du Titanic que nous avons déjà inspectées dans le chapitre 1 :

Chaque rangée de cette banque de données correspond à un indi- vidu qui était à bord du navire lors de son dernier voyage. La variable « femme » est égale à 1 si l’individu était une femme et 0 autrement. La variable « survie » est égale à 1 si l’individu a survécu et 0 s’il est mort. La commande head() du logiciel R nous permet d’inspecter ces données :

head(dat)

## nom classe age femme survie ## 561 Coutts, Master William Leslie 3 9 0 1 ## 321 Herman, Miss Kate 2 24 1 1 ## 153 Payne, Mr Vivian Ponsonby 1 22 0 0 ## 74 Evans, Miss Edith Corse 1 36 1 0 ## 228 Abelson, Mrs Samuel (Anna) 2 28 1 1 ## 146 Newell, Miss Madeleine 1 31 1 1

Pour créer un tableau de contingence, nous utilisons la fonction table : table(dat$femme, dat$survie) ## ## 0 1 ## 0 709 142 ## 1 154 308

Pour calculer leτde Kendall, nous utilisons la fonction cor, en mo- difiant l’argument method :

cor(dat$femme, dat$survie, method = 'kendall') ## [1] 0,5028911

Ceτ positif suggère qu’il y a bel et bien une association positive entre la variable « survie » et la variable « femme ».

Chapitre 4