Introduction `a la biostatistique – Mat 2779

(1)

L’´et´e 2010 Cours 8 — le 27 mai

8.1. Histogrammes. L’histogramme peut être construit soit avec l’aide de R commander (Graphs→histogram ; veuillez notez qu’il s’applique au jeu de données actif (active data- set)), soit avec une commande à l’invite de commandes de R directement. Supposons que le jeu de données pps070.rda a été téléchargé et importé vers R. La commande

> hist(pps070$area,col="2") produira l’histogramme `a gauche de la figure 1.

Histogram of pps070$area

pps070$area

Frequency

0 5 10 15 20 25

05101520

Histogram of pps070$dist

pps070$dist

Frequency

0 2 4 6 8 10 12

012345

FIG. 1. Les histogrammes des v.a. area et dist du jeu de donn´ees pps070.

La variable area est l’aire de l’ˆılot correspondant. Cet histogramme est visiblemenet déséquilibré vers la droite (où se trouvent toutes les valeurs atypiques et extrêmes). En statistique, la plu- part des distributions des jeux de données sont déséquilibrées vers la droite, comme temoigné par les histogrammes des variables dens (la densité des singes) et S (la richesse des espèses d’oiseau) du même jeu de données pps070, voir la figure 2.

L’autre histogramme dans la figure 1 montre la distribution de la variable dist qui signifie la distance de la terre. Cette distribution est presque symétrique, tout comme la distribution de la variable UTMeast (à la droite de la figure 3), qui correspond à la longitude géographique

1

(2)

Histogram of pps070$dens

pps070$dens

Frequency

0 2 4 6 8 10

05101520

Histogram of pps070$S

pps070$S

Frequency

0 5 10 15 20

02468101214

FIG. 2. Les histogrammes des v.a. dens et S du jeu de donn´ees pps070.

de l’ˆıle. La variable de latitude, UTMnorth (à la gauche de la figure 3), est en quelque sort intermédiaire entre une distribution symétrique et l’une déséqulibrée vers la droite.

Histogram of pps070$UTMnorth

pps070$UTMnorth

Frequency

795000 800000 805000 810000 815000 820000

0246810

Histogram of pps070$UTMeast

pps070$UTMeast

Frequency

515000 516000 517000 518000 519000 520000

0123456

FIG. 3. Les histogrammes de 2 v.a. du jeu de donn´ees pps070.

Les distributions des variables area, dens, et S sont visiblement unimodales (il n’y a qu’un seul mode, la valeur de fréquence maximale), tandis que dist et les deux coordonnées géographiques sont plutôt bimodales.

(3)

On peut contrôle le nombre des classes (des groupements) des valeurs, en utlisant le pa- ramètre breaks. Généralement, le suggère l’introduction excellente aux histogrammes sur les pages 20–23 de R pour les sociologues par Julien Barnier. De plus, la commande help() et example() sont très efficaces, par exemple :

>help(hist) ou bien

>example(hist)

8.2. Comparaisons interquartiles. Pour faire la comparaison de deux échantillons tirés de la même population, on peut comparer les quartiles correspondants. Un outil visuel utile pour cette tâche est offert par la boˆıte à moustaches.

Comme une illustration, produisons deux vecteurs de valeurs numériques qui corres- pondent à la croissance du radis sans lumière,

> radis = c(15,20,11,30,33,20,29,35,8,10,22,37,15,25)

> radis

[1] 15 20 11 30 33 20 29 35 8 10 22 37 15 25 ainsi que après avoir exposé à la lumière pendant12heures par jour :

> radis2 = c(4, 9, 10, 10, 11, 15, 15, 20, 20, 20, 21, 22, 25, 27) Maintenant produisons deux boˆıtes à moustache côte à côte avec la commande suivante à

l’invite de commandes de R : boxplot(radis,radis2)

obscurite 12 heures de lumiere

5101520253035

lumiere

croissance

FIG. 4.

(4)

En effet, la commande était légèrement plus compliquée car elle comprenait aussi les annotations :

boxplot(radis,radis2,xlab="lumiere",ylab="croissance", + names=c("obscurite","12 heures de lumiere"))

Maintenant on peut comparer les valeurs Q1, Q2, Q3, ainsi que les valeurs minimale et maximale, dans tous les deux cas, afin de tirer une conclusion sur la croissance avec et sans la lumi`ere.

8.3. Quantiles. Les quantiles offrent plus de flexibilité. On divise l’ensemble des valeurs d’une variable aléatoireXavecq−1quantiles enqregions de même taille, oùqest un entier quelconque. Pour q = 2, on obtient la médiane, pour q = 4les quartiles, pour q = 100ce qu’on appelle les centiles (“percentiles” en anglais), et cetera.

Formellement : le p-ième q-quantile de la distribution de la variable aléatoire X est la valeur (pas nécesasirement unique)xtelle que :

P[X ≤x]≥ p

q etP[X ≥x]≥ 1− p q.

Par exemple, siq = 4etp= 1, on obtient précisement la définition du premier quartileQ1, qui est donné par les conditions

P[X≤ x]≥ 1

4 etP[X ≥x]≥ 3 4.

En plus de la m´ediane et des quartiles, la valeur depla plus souvent employ´ee estq= 100.

Les100-quantiles s’appellent centiles (percentiles, en anglais). Ils sont les nombres qui divise l’ensemble de valeurs d’une variable al´eatoire en100parties de la mˆeme taille.

8.4. Échantillons aléatoires et la normalité. La question que nous allons aborder est la sui- vante : étant donné un échantillonx1, x2, . . . , xnquelconque, est-ce que la variable aléatoire X qui correspond à cet échantillon a la loi de distribution normale ?

Par exemple, pour les 5 variables de jeu de données pps070, jugeant par leurs histo- grammes, quelles d’entre eux semble d’être distribuées selon la loi normale ?

Une façon de faire la comparaison avec la loi normale est la suivante. Considerons par exemple la variable area, c.à.d., l’échantillon pps070$area. Notons-la parX.

> mean(pps070$area) [1] 2.875862

> sd(pps070$area) [1] 4.689933

La moyenne de notre variableXest doncµ= 2.876..., et l’´ecart-typeσ = 4.67.... Pour cette raison, si la loi deX et normale, alors il s’agit deN(2.88,4.67). On surimpose le graphe de cette distribution sur l’histogramme de densit´e deX pour obtenir la figure 5.

> Hist(pps070$area, scale="density", breaks=6, col="3")

> x <- seq(0,25,length=100)

> y <- dnorm(x,mean(pps070$area),sd(pps070$area))

(5)

> lines(x,y)

pps070$area

density

0 5 10 15 20 25

0.000.050.100.15

FIG. 5.

Est-il raisonnable d’en conclure queX ∼N(2.88,4.67)? De mˆeme, pour la variable al´eatoire sous-jacante de de distance.

pps070$dist

density

0 2 4 6 8 10 12

0.000.020.040.060.080.100.12

FIG. 6.

Ici peut-être l’hypothèse de normalité est moins vraisemblable.

La question n’est pas facile à repondre. Même pour un échantillon tiré au hasard de la distribution normale, les histogrammes seront ambiguës !

(6)

Pour tirer au hasardn points d’une distribution normale, on peut utiliser R commander et choisir Distributions→. . .→normal distribution→sample from normal distribution.

Peut-on reconnaˆıtre l’origine normale de deux échantillons suivants ? À la gauche, nous avons un échantillon de la taille29(le même nombre d’observations que de jeu des données pps070), à la droite la taille d’échantillon aléatoire estn = 100.

Histogram of NormalSamples$obs

NormalSamples$obs

Frequency

−2 −1 0 1 2

02468

Histogram of NormalSamples$obs

NormalSamples$obs

Frequency

−2 −1 0 1 2 3

010203040

FIG. 7. La histogramme des n = 29 et n = 100 valeurs tir´ees au hasard d’une distributionX ∼N(0,1).

8.5. Test quantile-quantile de la normalité. ´Evidemment, on a besoin des tests de nor- malité plus puissants qu’une simple inspection visuelle. On obtient un test de ce type en développant l’idée de la comparaison interquartile. Si

x1, x2, . . . , xn

est un échantillon ordonné, il est naturellement divisé enn parties (intervalles) de la même taille1chacune. Donc, en supposant queXsuit la loi normale, lesn-quantiles de l’échantillon seront proches auxn-quantiles de le loi normale.

Le test quantile-quantile, ou le test QQ, trace les points xi contre les n-quantiles cor- respondantes yi de la loi normale ayant la même moyenne et le même écart-type que la distribution deX.

Pour appliquer le test QQ, on lance R commander et choisit Graphs→ quantile compa- rison test. On choisit la distribution normale. Le test s’applique toujours au jeu de donn´ees actif.

Voici le r´esultat du test QQ pour l’´echantillon pps070$area.

Les points sur le graphe sont les paires(xi, yi),i = 1,2, . . . ,29, oùxi est lai-ième plus petite valeur de l’aire, et yi est la i-ième 29-quantile de la distribution normale ayans la

(7)

−2 −1 0 1 2

05101520

norm quantiles

pps070$area

FIG. 8. Le r´esultat du test quantile-quantile pour pps070$area.

même moyenne et le même écart-type que l’échantillon pps070$area. La ligne droite est la plus proche à la collection des paires den-quantiles(xⁱ, yi)(elle est obtenue par la regression linéaire que nous allons discuter plus tard dans le cours).

Les deux courbes sur deux côtés de la ligne encadrent la région avec la proprété suivante.

Si l’échantillon est tiré d’une distribution normale, alors, avec la probabilité 95%, tous les paires(xi, yi)seront contenues dans cette région. En d’autres mots, s’il y a des points(xi, yi) au-dehors de la région, alors, avec la probabilité au moins 95%, la distribution n’est pas normale.

Dans notre cas, nous avons 5 points (correspondants aux ˆıles) au-dehors de la r´egion entre deux courbes. Avec une haute probabilit´e, la distribution de l’aire des ˆıles ne suit pas donc la loi normale.

Maintenant, analysons la variable dist, la distance d’une ˆıle (figure 9).

Il est donc vraisemblable que la loi suivie par la variable al´eatoire est normale dans ce cas.

De moins, le test ne refute pas cette hypoth`ese.

Enfin quelque chose qu’on ne peut pas faire avec une calculette simple !

(8)

−2 −1 0 1 2

024681012

norm quantiles

pps070$dist

FIG. 9. Le r´esultat du test quantile-quantile pour pps070$dist.