• Aucun résultat trouvé

Introduction `a la biostatistique – Mat 2779

N/A
N/A
Protected

Academic year: 2022

Partager "Introduction `a la biostatistique – Mat 2779"

Copied!
8
0
0

Texte intégral

(1)

L’´et´e 2010 Cours 8 — le 27 mai

8.1. Histogrammes. L’histogramme peut ˆetre construit soit avec l’aide de R commander (Graphshistogram ; veuillez notez qu’il s’applique au jeu de donn´ees actif (active data- set)), soit avec une commande `a l’invite de commandes de R directement. Supposons que le jeu de donn´ees pps070.rda a ´et´e t´el´echarg´e et import´e vers R. La commande

> hist(pps070$area,col="2") produira l’histogramme `a gauche de la figure 1.

Histogram of pps070$area

pps070$area

Frequency

0 5 10 15 20 25

05101520

Histogram of pps070$dist

pps070$dist

Frequency

0 2 4 6 8 10 12

012345

FIG. 1. Les histogrammes des v.a. area et dist du jeu de donn´ees pps070.

La variable area est l’aire de l’ˆılot correspondant. Cet histogramme est visiblemenet d´es´equilibr´e vers la droite (o`u se trouvent toutes les valeurs atypiques et extrˆemes). En statistique, la plu- part des distributions des jeux de donn´ees sont d´es´equilibr´ees vers la droite, comme temoign´e par les histogrammes des variables dens (la densit´e des singes) et S (la richesse des esp`eses d’oiseau) du mˆeme jeu de donn´ees pps070, voir la figure 2.

L’autre histogramme dans la figure 1 montre la distribution de la variable dist qui signifie la distance de la terre. Cette distribution est presque sym´etrique, tout comme la distribution de la variable UTMeast (`a la droite de la figure 3), qui correspond `a la longitude g´eographique

1

(2)

Histogram of pps070$dens

pps070$dens

Frequency

0 2 4 6 8 10

05101520

Histogram of pps070$S

pps070$S

Frequency

0 5 10 15 20

02468101214

FIG. 2. Les histogrammes des v.a. dens et S du jeu de donn´ees pps070.

de l’ˆıle. La variable de latitude, UTMnorth (`a la gauche de la figure 3), est en quelque sort interm´ediaire entre une distribution sym´etrique et l’une d´es´equlibr´ee vers la droite.

Histogram of pps070$UTMnorth

pps070$UTMnorth

Frequency

795000 800000 805000 810000 815000 820000

0246810

Histogram of pps070$UTMeast

pps070$UTMeast

Frequency

515000 516000 517000 518000 519000 520000

0123456

FIG. 3. Les histogrammes de 2 v.a. du jeu de donn´ees pps070.

Les distributions des variables area, dens, et S sont visiblement unimodales (il n’y a qu’un seul mode, la valeur de fr´equence maximale), tandis que dist et les deux coordonn´ees g´eographiques sont plutˆot bimodales.

(3)

On peut contrˆole le nombre des classes (des groupements) des valeurs, en utlisant le pa- ram`etre breaks. G´en´eralement, le sugg`ere l’introduction excellente aux histogrammes sur les pages 20–23 de R pour les sociologues par Julien Barnier. De plus, la commande help() et example() sont tr`es efficaces, par exemple :

>help(hist) ou bien

>example(hist)

8.2. Comparaisons interquartiles. Pour faire la comparaison de deux ´echantillons tir´es de la mˆeme population, on peut comparer les quartiles correspondants. Un outil visuel utile pour cette tˆache est offert par la boˆıte `a moustaches.

Comme une illustration, produisons deux vecteurs de valeurs num´eriques qui corres- pondent `a la croissance du radis sans lumi`ere,

> radis = c(15,20,11,30,33,20,29,35,8,10,22,37,15,25)

> radis

[1] 15 20 11 30 33 20 29 35 8 10 22 37 15 25 ainsi que apr`es avoir expos´e `a la lumi`ere pendant12heures par jour :

> radis2 = c(4, 9, 10, 10, 11, 15, 15, 20, 20, 20, 21, 22, 25, 27) Maintenant produisons deux boˆıtes `a moustache cˆote `a cˆote avec la commande suivante `a

l’invite de commandes de R : boxplot(radis,radis2)

obscurite 12 heures de lumiere

5101520253035

lumiere

croissance

FIG. 4.

(4)

En effet, la commande ´etait l´eg`erement plus compliqu´ee car elle comprenait aussi les annotations :

boxplot(radis,radis2,xlab="lumiere",ylab="croissance", + names=c("obscurite","12 heures de lumiere"))

Maintenant on peut comparer les valeurs Q1, Q2, Q3, ainsi que les valeurs minimale et maximale, dans tous les deux cas, afin de tirer une conclusion sur la croissance avec et sans la lumi`ere.

8.3. Quantiles. Les quantiles offrent plus de flexibilit´e. On divise l’ensemble des valeurs d’une variable al´eatoireXavecq−1quantiles enqregions de mˆeme taille, o`uqest un entier quelconque. Pour q = 2, on obtient la m´ediane, pour q = 4les quartiles, pour q = 100ce qu’on appelle les centiles (“percentiles” en anglais), et cetera.

Formellement : le p-i`eme q-quantile de la distribution de la variable al´eatoire X est la valeur (pas n´ecesasirement unique)xtelle que :

P[X ≤x]≥ p

q etP[X ≥x]≥ 1− p q.

Par exemple, siq = 4etp= 1, on obtient pr´ecisement la d´efinition du premier quartileQ1, qui est donn´e par les conditions

P[X≤ x]≥ 1

4 etP[X ≥x]≥ 3 4.

En plus de la m´ediane et des quartiles, la valeur depla plus souvent employ´ee estq= 100.

Les100-quantiles s’appellent centiles (percentiles, en anglais). Ils sont les nombres qui divise l’ensemble de valeurs d’une variable al´eatoire en100parties de la mˆeme taille.

8.4. ´Echantillons al´eatoires et la normalit´e. La question que nous allons aborder est la sui- vante : ´etant donn´e un ´echantillonx1, x2, . . . , xnquelconque, est-ce que la variable al´eatoire X qui correspond `a cet ´echantillon a la loi de distribution normale ?

Par exemple, pour les 5 variables de jeu de donn´ees pps070, jugeant par leurs histo- grammes, quelles d’entre eux semble d’ˆetre distribu´ees selon la loi normale ?

Une fac¸on de faire la comparaison avec la loi normale est la suivante. Considerons par exemple la variable area, c.`a.d., l’´echantillon pps070$area. Notons-la parX.

> mean(pps070$area) [1] 2.875862

> sd(pps070$area) [1] 4.689933

La moyenne de notre variableXest doncµ= 2.876..., et l’´ecart-typeσ = 4.67.... Pour cette raison, si la loi deX et normale, alors il s’agit deN(2.88,4.67). On surimpose le graphe de cette distribution sur l’histogramme de densit´e deX pour obtenir la figure 5.

> Hist(pps070$area, scale="density", breaks=6, col="3")

> x <- seq(0,25,length=100)

> y <- dnorm(x,mean(pps070$area),sd(pps070$area))

(5)

> lines(x,y)

pps070$area

density

0 5 10 15 20 25

0.000.050.100.15

FIG. 5.

Est-il raisonnable d’en conclure queX ∼N(2.88,4.67)? De mˆeme, pour la variable al´eatoire sous-jacante de de distance.

pps070$dist

density

0 2 4 6 8 10 12

0.000.020.040.060.080.100.12

FIG. 6.

Ici peut-ˆetre l’hypoth`ese de normalit´e est moins vraisemblable.

La question n’est pas facile `a repondre. Mˆeme pour un ´echantillon tir´e au hasard de la distribution normale, les histogrammes seront ambigu¨es !

(6)

Pour tirer au hasardn points d’une distribution normale, on peut utiliser R commander et choisir Distributions→. . .→normal distributionsample from normal distribution.

Peut-on reconnaˆıtre l’origine normale de deux ´echantillons suivants ? `A la gauche, nous avons un ´echantillon de la taille29(le mˆeme nombre d’observations que de jeu des donn´ees pps070), `a la droite la taille d’´echantillon al´eatoire estn = 100.

Histogram of NormalSamples$obs

NormalSamples$obs

Frequency

−2 −1 0 1 2

02468

Histogram of NormalSamples$obs

NormalSamples$obs

Frequency

−2 −1 0 1 2 3

010203040

FIG. 7. La histogramme des n = 29 et n = 100 valeurs tir´ees au hasard d’une distributionX ∼N(0,1).

8.5. Test quantile-quantile de la normalit´e. ´Evidemment, on a besoin des tests de nor- malit´e plus puissants qu’une simple inspection visuelle. On obtient un test de ce type en d´eveloppant l’id´ee de la comparaison interquartile. Si

x1, x2, . . . , xn

est un ´echantillon ordonn´e, il est naturellement divis´e enn parties (intervalles) de la mˆeme taille1chacune. Donc, en supposant queXsuit la loi normale, lesn-quantiles de l’´echantillon seront proches auxn-quantiles de le loi normale.

Le test quantile-quantile, ou le test QQ, trace les points xi contre les n-quantiles cor- respondantes yi de la loi normale ayant la mˆeme moyenne et le mˆeme ´ecart-type que la distribution deX.

Pour appliquer le test QQ, on lance R commander et choisit Graphsquantile compa- rison test. On choisit la distribution normale. Le test s’applique toujours au jeu de donn´ees actif.

Voici le r´esultat du test QQ pour l’´echantillon pps070$area.

Les points sur le graphe sont les paires(xi, yi),i = 1,2, . . . ,29, o`uxi est lai-i`eme plus petite valeur de l’aire, et yi est la i-i`eme 29-quantile de la distribution normale ayans la

(7)

−2 −1 0 1 2

05101520

norm quantiles

pps070$area

FIG. 8. Le r´esultat du test quantile-quantile pour pps070$area.

mˆeme moyenne et le mˆeme ´ecart-type que l’´echantillon pps070$area. La ligne droite est la plus proche `a la collection des paires den-quantiles(xi, yi)(elle est obtenue par la regression lin´eaire que nous allons discuter plus tard dans le cours).

Les deux courbes sur deux cˆot´es de la ligne encadrent la r´egion avec la propr´et´e suivante.

Si l’´echantillon est tir´e d’une distribution normale, alors, avec la probabilit´e 95%, tous les paires(xi, yi)seront contenues dans cette r´egion. En d’autres mots, s’il y a des points(xi, yi) au-dehors de la r´egion, alors, avec la probabilit´e au moins 95%, la distribution n’est pas normale.

Dans notre cas, nous avons 5 points (correspondants aux ˆıles) au-dehors de la r´egion entre deux courbes. Avec une haute probabilit´e, la distribution de l’aire des ˆıles ne suit pas donc la loi normale.

Maintenant, analysons la variable dist, la distance d’une ˆıle (figure 9).

Il est donc vraisemblable que la loi suivie par la variable al´eatoire est normale dans ce cas.

De moins, le test ne refute pas cette hypoth`ese.

Enfin quelque chose qu’on ne peut pas faire avec une calculette simple !

(8)

−2 −1 0 1 2

024681012

norm quantiles

pps070$dist

FIG. 9. Le r´esultat du test quantile-quantile pour pps070$dist.

Références

Documents relatifs

Vue sous cet angle, la d´efinition se rend facilement `a une g´en´eralisation pour toutes les variables al´eatoires discr`etes qui ne sont plus forc´ement ´equiprobables : on

Apr`es la variable est centr´ee et r´eduite, la loi de distribution converge vers la fonction N (0, 1) mˆeme dans le cas asym´etrique o`u p 6 = 0.5.. La fogure 8 illustre la loi

Par exemple, si on rajoute `a l’´echantillon des valeurs deux valeurs extrˆemes telles que 50 et 70 par exemple, on peut voir ce qu’on obtiendra comme boˆıte `a moustache sur

Quant `1a moi, je pr´ef`ere fortement la d´efinition des quartiles comme dans (7.1), car elle est plus facile `a m´emoriser et `a utiliser.. Quand mˆeme, on a toujours, de

Par contre, les r´esultats pour la distribution de la dur´ee du sommeil sans rˆeve (figure 2) favourisent l’hypoth`ese de normalit´e de la distribution. La normalit´e de

On a besoin d’un objet du type data.frame et pas une matrice parce que la fonction mean calcule la moyenne d’un data.frame colonne par colonne, en d’autres mots, pour

Par cons´equent, l’intervalle de confiance obtenu comme dans (11.8) sera plus long que l’intervalle (11.7), ce qui nous donne un esti- mateur conservatif.... G´en´eralement, le

Mais la structure du test d’hypoth`ese, d´etermin´ee par le choix de H 0 et de H 1 , est telle que, mˆeme s’il est vrai que le moyen du tour de taille s’est r´eduit,