L’´et´e 2010 Cours 8 — le 27 mai
8.1. Histogrammes. L’histogramme peut ˆetre construit soit avec l’aide de R commander (Graphs→histogram ; veuillez notez qu’il s’applique au jeu de donn´ees actif (active data- set)), soit avec une commande `a l’invite de commandes de R directement. Supposons que le jeu de donn´ees pps070.rda a ´et´e t´el´echarg´e et import´e vers R. La commande
> hist(pps070$area,col="2") produira l’histogramme `a gauche de la figure 1.
Histogram of pps070$area
pps070$area
Frequency
0 5 10 15 20 25
05101520
Histogram of pps070$dist
pps070$dist
Frequency
0 2 4 6 8 10 12
012345
FIG. 1. Les histogrammes des v.a. area et dist du jeu de donn´ees pps070.
La variable area est l’aire de l’ˆılot correspondant. Cet histogramme est visiblemenet d´es´equilibr´e vers la droite (o`u se trouvent toutes les valeurs atypiques et extrˆemes). En statistique, la plu- part des distributions des jeux de donn´ees sont d´es´equilibr´ees vers la droite, comme temoign´e par les histogrammes des variables dens (la densit´e des singes) et S (la richesse des esp`eses d’oiseau) du mˆeme jeu de donn´ees pps070, voir la figure 2.
L’autre histogramme dans la figure 1 montre la distribution de la variable dist qui signifie la distance de la terre. Cette distribution est presque sym´etrique, tout comme la distribution de la variable UTMeast (`a la droite de la figure 3), qui correspond `a la longitude g´eographique
1
Histogram of pps070$dens
pps070$dens
Frequency
0 2 4 6 8 10
05101520
Histogram of pps070$S
pps070$S
Frequency
0 5 10 15 20
02468101214
FIG. 2. Les histogrammes des v.a. dens et S du jeu de donn´ees pps070.
de l’ˆıle. La variable de latitude, UTMnorth (`a la gauche de la figure 3), est en quelque sort interm´ediaire entre une distribution sym´etrique et l’une d´es´equlibr´ee vers la droite.
Histogram of pps070$UTMnorth
pps070$UTMnorth
Frequency
795000 800000 805000 810000 815000 820000
0246810
Histogram of pps070$UTMeast
pps070$UTMeast
Frequency
515000 516000 517000 518000 519000 520000
0123456
FIG. 3. Les histogrammes de 2 v.a. du jeu de donn´ees pps070.
Les distributions des variables area, dens, et S sont visiblement unimodales (il n’y a qu’un seul mode, la valeur de fr´equence maximale), tandis que dist et les deux coordonn´ees g´eographiques sont plutˆot bimodales.
On peut contrˆole le nombre des classes (des groupements) des valeurs, en utlisant le pa- ram`etre breaks. G´en´eralement, le sugg`ere l’introduction excellente aux histogrammes sur les pages 20–23 de R pour les sociologues par Julien Barnier. De plus, la commande help() et example() sont tr`es efficaces, par exemple :
>help(hist) ou bien
>example(hist)
8.2. Comparaisons interquartiles. Pour faire la comparaison de deux ´echantillons tir´es de la mˆeme population, on peut comparer les quartiles correspondants. Un outil visuel utile pour cette tˆache est offert par la boˆıte `a moustaches.
Comme une illustration, produisons deux vecteurs de valeurs num´eriques qui corres- pondent `a la croissance du radis sans lumi`ere,
> radis = c(15,20,11,30,33,20,29,35,8,10,22,37,15,25)
> radis
[1] 15 20 11 30 33 20 29 35 8 10 22 37 15 25 ainsi que apr`es avoir expos´e `a la lumi`ere pendant12heures par jour :
> radis2 = c(4, 9, 10, 10, 11, 15, 15, 20, 20, 20, 21, 22, 25, 27) Maintenant produisons deux boˆıtes `a moustache cˆote `a cˆote avec la commande suivante `a
l’invite de commandes de R : boxplot(radis,radis2)
obscurite 12 heures de lumiere
5101520253035
lumiere
croissance
FIG. 4.
En effet, la commande ´etait l´eg`erement plus compliqu´ee car elle comprenait aussi les annotations :
boxplot(radis,radis2,xlab="lumiere",ylab="croissance", + names=c("obscurite","12 heures de lumiere"))
Maintenant on peut comparer les valeurs Q1, Q2, Q3, ainsi que les valeurs minimale et maximale, dans tous les deux cas, afin de tirer une conclusion sur la croissance avec et sans la lumi`ere.
8.3. Quantiles. Les quantiles offrent plus de flexibilit´e. On divise l’ensemble des valeurs d’une variable al´eatoireXavecq−1quantiles enqregions de mˆeme taille, o`uqest un entier quelconque. Pour q = 2, on obtient la m´ediane, pour q = 4les quartiles, pour q = 100ce qu’on appelle les centiles (“percentiles” en anglais), et cetera.
Formellement : le p-i`eme q-quantile de la distribution de la variable al´eatoire X est la valeur (pas n´ecesasirement unique)xtelle que :
P[X ≤x]≥ p
q etP[X ≥x]≥ 1− p q.
Par exemple, siq = 4etp= 1, on obtient pr´ecisement la d´efinition du premier quartileQ1, qui est donn´e par les conditions
P[X≤ x]≥ 1
4 etP[X ≥x]≥ 3 4.
En plus de la m´ediane et des quartiles, la valeur depla plus souvent employ´ee estq= 100.
Les100-quantiles s’appellent centiles (percentiles, en anglais). Ils sont les nombres qui divise l’ensemble de valeurs d’une variable al´eatoire en100parties de la mˆeme taille.
8.4. ´Echantillons al´eatoires et la normalit´e. La question que nous allons aborder est la sui- vante : ´etant donn´e un ´echantillonx1, x2, . . . , xnquelconque, est-ce que la variable al´eatoire X qui correspond `a cet ´echantillon a la loi de distribution normale ?
Par exemple, pour les 5 variables de jeu de donn´ees pps070, jugeant par leurs histo- grammes, quelles d’entre eux semble d’ˆetre distribu´ees selon la loi normale ?
Une fac¸on de faire la comparaison avec la loi normale est la suivante. Considerons par exemple la variable area, c.`a.d., l’´echantillon pps070$area. Notons-la parX.
> mean(pps070$area) [1] 2.875862
> sd(pps070$area) [1] 4.689933
La moyenne de notre variableXest doncµ= 2.876..., et l’´ecart-typeσ = 4.67.... Pour cette raison, si la loi deX et normale, alors il s’agit deN(2.88,4.67). On surimpose le graphe de cette distribution sur l’histogramme de densit´e deX pour obtenir la figure 5.
> Hist(pps070$area, scale="density", breaks=6, col="3")
> x <- seq(0,25,length=100)
> y <- dnorm(x,mean(pps070$area),sd(pps070$area))
> lines(x,y)
pps070$area
density
0 5 10 15 20 25
0.000.050.100.15
FIG. 5.
Est-il raisonnable d’en conclure queX ∼N(2.88,4.67)? De mˆeme, pour la variable al´eatoire sous-jacante de de distance.
pps070$dist
density
0 2 4 6 8 10 12
0.000.020.040.060.080.100.12
FIG. 6.
Ici peut-ˆetre l’hypoth`ese de normalit´e est moins vraisemblable.
La question n’est pas facile `a repondre. Mˆeme pour un ´echantillon tir´e au hasard de la distribution normale, les histogrammes seront ambigu¨es !
Pour tirer au hasardn points d’une distribution normale, on peut utiliser R commander et choisir Distributions→. . .→normal distribution→sample from normal distribution.
Peut-on reconnaˆıtre l’origine normale de deux ´echantillons suivants ? `A la gauche, nous avons un ´echantillon de la taille29(le mˆeme nombre d’observations que de jeu des donn´ees pps070), `a la droite la taille d’´echantillon al´eatoire estn = 100.
Histogram of NormalSamples$obs
NormalSamples$obs
Frequency
−2 −1 0 1 2
02468
Histogram of NormalSamples$obs
NormalSamples$obs
Frequency
−2 −1 0 1 2 3
010203040
FIG. 7. La histogramme des n = 29 et n = 100 valeurs tir´ees au hasard d’une distributionX ∼N(0,1).
8.5. Test quantile-quantile de la normalit´e. ´Evidemment, on a besoin des tests de nor- malit´e plus puissants qu’une simple inspection visuelle. On obtient un test de ce type en d´eveloppant l’id´ee de la comparaison interquartile. Si
x1, x2, . . . , xn
est un ´echantillon ordonn´e, il est naturellement divis´e enn parties (intervalles) de la mˆeme taille1chacune. Donc, en supposant queXsuit la loi normale, lesn-quantiles de l’´echantillon seront proches auxn-quantiles de le loi normale.
Le test quantile-quantile, ou le test QQ, trace les points xi contre les n-quantiles cor- respondantes yi de la loi normale ayant la mˆeme moyenne et le mˆeme ´ecart-type que la distribution deX.
Pour appliquer le test QQ, on lance R commander et choisit Graphs→ quantile compa- rison test. On choisit la distribution normale. Le test s’applique toujours au jeu de donn´ees actif.
Voici le r´esultat du test QQ pour l’´echantillon pps070$area.
Les points sur le graphe sont les paires(xi, yi),i = 1,2, . . . ,29, o`uxi est lai-i`eme plus petite valeur de l’aire, et yi est la i-i`eme 29-quantile de la distribution normale ayans la
−2 −1 0 1 2
05101520
norm quantiles
pps070$area
FIG. 8. Le r´esultat du test quantile-quantile pour pps070$area.
mˆeme moyenne et le mˆeme ´ecart-type que l’´echantillon pps070$area. La ligne droite est la plus proche `a la collection des paires den-quantiles(xi, yi)(elle est obtenue par la regression lin´eaire que nous allons discuter plus tard dans le cours).
Les deux courbes sur deux cˆot´es de la ligne encadrent la r´egion avec la propr´et´e suivante.
Si l’´echantillon est tir´e d’une distribution normale, alors, avec la probabilit´e 95%, tous les paires(xi, yi)seront contenues dans cette r´egion. En d’autres mots, s’il y a des points(xi, yi) au-dehors de la r´egion, alors, avec la probabilit´e au moins 95%, la distribution n’est pas normale.
Dans notre cas, nous avons 5 points (correspondants aux ˆıles) au-dehors de la r´egion entre deux courbes. Avec une haute probabilit´e, la distribution de l’aire des ˆıles ne suit pas donc la loi normale.
Maintenant, analysons la variable dist, la distance d’une ˆıle (figure 9).
Il est donc vraisemblable que la loi suivie par la variable al´eatoire est normale dans ce cas.
De moins, le test ne refute pas cette hypoth`ese.
Enfin quelque chose qu’on ne peut pas faire avec une calculette simple !
−2 −1 0 1 2
024681012
norm quantiles
pps070$dist
FIG. 9. Le r´esultat du test quantile-quantile pour pps070$dist.