Introduction `a la biostatistique – Mat 2779

(1)

L’´et´e 2010 Cours 7 — le 25 mai

7.1. Lecture sugg´er´ee. R pour les sociologues par Julien Barnier, pages 7–20.

7.2. Encore sur la loi normale. SoitXune variable aléatoire dont la loi de distrubution est normale de moyenneµ= 2et l’écart-typeσ = 3. Quelle est la probabilité de l’évènement

[3≤X ≤4]?

−5 0 5 10

0.000.040.080.12

Loi de distribution normale: µ = 2, σ = 3

x

densité

x=3 x=4

FIG. 1. La loi normaleN(3,4)deµ= 3etσ = 4et les valeursX = 3,X = 4.

La probabilité en question est égale à l’aire sous la courbeN(3,4)entre les valeursX = 3 etX = 4, c.à.d. :

P[3≤X ≤4] = Z ⁴

3

N(3,4)dx.

Il est claire que cette valeur est la diff´erence des deux aires sous la courbe : de −∞de4et de−∞de3: Z ⁴

3

N(3,4)dx= Z ⁴

−∞

N(3,4)dx− Z ³

−∞

N(3,4)dx.

1

(2)

La valeur Z ^b

−∞

N(3,4)dx

est bien sûr la valeurF(b)de la fonction de répartition deX àx=b.

Cette valeur est aussi connue comme la queue inf´erieure de la loi normaleN(3,4)(lower tail), et peut ˆetre calculer en utilisant R, ou — ce qui est plus commode — R commander.

Lancer R commander en tapant

> library(Rcmdr)

Dans le menu de la boˆıte de R commander, choisissez Distributions→normal distribution

→Normal Probabilities. Mettez les valeursµ = 2, σ = 3, et choisissez3comme Variable value. Dans la output window vous verrez :

> pnorm(c(3), mean=2, sd=3, lower.tail=TRUE) [1] 0.6305587

De mˆeme fac¸on, pourX = 4, on a

> pnorm(c(4), mean=2, sd=3, lower.tail=TRUE) [1] 0.7475075

D’ici on conclut :

P[3≤X ≤4] =F(4)−F(3) = 0.7475075−0.6305587 = 0.1169488...≈11.7%.

7.3. Sur les quartiles. Voici un petit ´echantillon des valeurs de la pression art´erielle systo- lique des 7 sujets :

151 124 132 170 146 124 113 D´eterminez les quartiles de cet ´echantillons.

D’abord, on ordonne les donn´ees num´eriques :

113 124 124 132 146 151 170

Notons X la variable al´eatoire en question (la pression arterielle). Examinons toutes les valeurs de la gauche `a la droite pour trouverQ1. Est-ce queQ1 = 113? Non, parce que

P[X ≤113] =P{113}= 1

7 = 0.142... < 1 4. Le prochain candidat pourQ1est124. On a

P[X ≤124] =P{113,124,124}= 3

7 = 0.428... > 1 4, et de plus

P[X ≥124 =P{124,124,132,146,151,170}= 6

7 = 0.857... > 3 4. Alors, la valeur124v´erifie la d´efinition du premier quartile. On a

Q1 = 124.

(3)

PourQ2, il n’y a aucun probl`eme carQ2 est la valeur m´edianne, et le nombre des sujets,7, est impaire. Le seule choix pourQ2, c’est donc la valeur centrale :

Q2 = 132.

Et on peut voir que

P[X ≤132] =P{113,124,124,132}= 4

7 = 0.571... > 1 2, et de mˆeme

P[X ≥132] = 4 7 > 1

2. Enfin, un argument pareil ´etablit que

Q3 = 151.

Qu’est-ce que R nous dit ? On cr´ee le vecteur des valeurs deX, en le nommant par exemple x:

> x <- c(151, 124, 132, 170, 146, 124, 113)

(La lettre “c” provient de concatenation, il est nécessaire pour créer un vecteur de valeurs dans R.) On peut vérifier que le vecteur a été créé correctement :

> x

[1] 151 124 132 170 146 124 113

Maintenant la commande statistique parmi les plus utiles est summary, elle nous donne le sommaire statistique du vecteur :

> summary(x)

Min. 1st Qu. Median Mean 3rd Qu. Max.

113.0 124.0 132.0 137.1 148.5 170.0

On obtient l’élément minimal (113), le 1e quartile, la valeur médianne (ou le 2e quartile), la valeur moyenne, le 3e quartile, et le maximum de l’échantillon. Pourtant, la valeurQ3 = 148.5est différente de la nôtre. Pourquoi ? Les sources différentes utilisent les définitions légèrement différentes des quartiles. Par exemple, de toute évidence, la définition de R exige que le troisième quartile satisfasse

P[X ≤Q3]≥ 3

4 etP[X > Q³]≥ 1 4, tandis que la mienne exige :

(7.1) P[X≤Q3]≥ 3

4 etP[X ≥Q3]≥ 1 4.

Pour cette raison, au sens de R, n’importe quelle valeur strictement interm´ediaire entre146 et151estQ3, par exemple, la moyenne arithm´etique

146 + 151

2 = 148.5, qui a ´et´e choisie par le logiciel.

(4)

Cette manque de l’uniformité n’importe pas, puisque pour les échantillons de données plus importante la différence est toute petite. Quant `1a moi, je préfère fortement la définition des quartiles comme dans (7.1), car elle est plus facile à mémoriser et à utiliser.

Quand même, on a toujours, de façon informelle : – Q2est la médiane des données,

– Q1est la médiane de la moitié inférieure des données, et – Q3est la médiane de la moitié supérieure des données.

Définition 7.1. L’intervalle interquartile (I.I.Q., ou bien I.Q.R.) d’une variable aléatoire X est la différence entre le troisème et le premier quartiles :

IIQ=Q3 −Q1.

Pour notre ´echantillon, on a donc (au sens de notre d´efinition des quartiles) : IIQ= 151−124 = 27.

Créerons enfin une boˆıte à moustaches pour notre échantillon, dont la signification est maintenant devenue plus claire. On tape à l’invite de commandes

> boxplot(x, horizontal=TRUE) pour obtenir le diagramme familier (la figure 2).

120 130 140 150 160 170

FIG. 2. La pression arterielle systolique de7sujets.

Exercice 7.2. Trouvez dans le diagramme 2 les valeurs de tous les quartiles, ainsi que les valeurs maximum et minimum. O`u se cache l’intervalle interquartile ? Y a-t-il des valeurs atypiques ?

Remarque 7.3. La boˆıte à moustaches (box plot), aussi connue sous le nom de boˆıte à pattes, est une invention relativement récente : elle a été inventée en 1977 par John Tukey.

(5)

7.4. La structure des données principale utilisée par le logiciel R s’appelle data frame. On peut créer ces structures de façons différentes. Voici une façon possible. On veut créer un data frame pour l’échantillon de données sur la pigmentation de poissons. On tape à l’invite de commandes :

> pigm = data.frame(effectif=c(13,68,44,21,8),

+ row.names=c("aucune","legere","moderee","forte","noir solide")) Maintenant, on peut voir le r´esultat :

> pigm

effectif

aucune 13

legere 68

moderee 44

forte 21

noir solide 8

Veuillez noter que la colonne des noms de lignes n’est pas de nom lui-mˆeme.

La seule colonne num´erique s’appelle effectif (c’est le nom que nous avons choisi). Pour voire cette colonne, on tape :

> pigm$effectif [1] 13 68 44 21 8

Pour voir les noms de toutes les lignes, on tape :

> row.names(pigm)

[1] "aucune" "legere" "moderee" "forte" "noir solide"

Le diagramme en bˆtons nous aide de visualiser l’´echantillon :

> barplot(pigm$effectif,names.arg=row.names(pigm)) (Voir la figure 3).

La distribution est visiblement unimodale, le mode est unique, avec la classe modale

“l´eg`ere”.

Le commande summary est parmi les plus utiles, elle nous donne le sommaire statistique de l’´echantillon, y compris les quartiles :

> summary(pigm) effectif Min. : 8.0 1st Qu.:13.0 Median :21.0 Mean :30.8 3rd Qu.:44.0 Max. :68.0

On peut sauvegarder l’´echantillons dans deux format principaux : le format texte,

> write.table(pigm, file="pigm.txt")

(6)

aucune legere moderee forte noir solide

0102030405060

FIG. 3. La pigmentation noire de poissons : diagramme en bˆatons.

ainsi qu’en format R data format, ou .rda :

> save(pigm,file="pigm.rda")

Afin d’acc´eder au jeu de donn´ees au format .txt, on utilise la commande :

> z<- read.table("pigm.txt")

Pour le format .rda, c’est plutôt load. De plus, on peut accéder à tous les deux formats en utilisant R commander.

R peut télécharger les jeux de données. Par exemple, voici le jeu de données concernant la densité de singes contre la richesse des espèces d’oiseaux :

> download.file("http://pbil.univ-lyon1.fr/R/donnees/pps069.rda", + destfile="pps069.rda")

trying URL ’http://pbil.univ-lyon1.fr/R/donnees/pps069.rda’

Content type ’text/plain’ length 52619 bytes (51 Kb) opened URL

==================================================

downloaded 51 Kb

Maintenant on acc`ede au jeu de donn´ees :

> load("/Users/vova/Classes/2779/pps069.rda")

La commande ls (toujours suivie par deux parenth`eses) montre tous les jeux de donn´ees actuellement dans la memoire de R, par exemple, voici ce que j’ai sur mon MacBook Pro au moment de rediger les notes :

> ls()

[1] "cols" "funcs" "i" "n" "oldpar"

[6] "pigm" "pps069" "pps070" "RegModel.1" "w"

[11] "x" "x1" "y" "y1" "y2"

(7)

On peut assigner un nom diff´erent, plus commode, au jeu de donn´ees :

> w<- pps070

La commande dim montre les dimensions de data frame :

> dim(w) [1] 29 7

Au cas de jeux de donn´ees relativement petits, on peut les voir :

> w

name area dist UTMnorth UTMeast dens S

1 Afuera 0.2 2.2 812846 516892 0.0 2

2 Reinita 0.2 9.0 800929 518932 0.0 1 3 Chig\xfcire 0.3 8.0 799823 518013 7.1 9

4 Facil 0.3 9.0 800763 518896 0.0 0

5 Baya 0.6 9.0 799934 518785 3.3 7

6 Colon 0.6 9.2 801058 519043 3.4 0

7 Miedo 0.6 8.1 806291 519795 3.3 2

8 Densa 0.6 6.2 799731 517000 0.0 2

9 Paloma 0.6 11.7 796175 518603 0.0 5

10 Rocas 0.6 6.6 804466 518029 1.7 8

11 Sudor 0.6 3.5 812930 515200 0.0 1

12 Bumeran 0.7 1.3 811246 516592 0.0 7 13 Iguana 0.7 7.6 800099 517865 8.6 12 14 Matajei 0.8 11.2 796322 518335 0.0 3

15 Cola 1.0 8.2 799731 518105 4.1 10

16 Palizada 1.1 0.2 808371 516900 0.0 0

17 Quina 1.1 0.3 810508 515250 0.0 0

18 Aguila 1.3 11.0 796322 518235 0.0 4 19 Tucucito 1.5 9.3 798810 518547 3.3 14 20 Perimetro 1.5 3.8 812940 515475 0.0 4 21 Triangulo 2.3 2.6 812940 515525 0.0 3 22 Chotacabra 2.3 6.6 798920 518547 1.7 16 23 Solitario 2.4 0.5 810674 516188 0.4 10 24 Galbilon 2.6 4.7 801858 517383 0.0 6

25 Coral 7.6 0.4 810730 515949 0.0 8

26 Ambar 8.3 7.7 800189 519975 1.0 15 27 Panarama 10.2 1.5 812246 516792 0.0 19

28 Lomo 11.4 2.0 810730 517450 0.0 7

29 Sombrero 21.4 3.9 817550 515949 0.5 13

Dans ce cas-là, la taille de l’échantillon estn= 29, et il s’agit de6variables aléatoires dont les valeurs sont calculées pour tous les sujets. le paramètre S designe le nombre d’espèces

(8)

d’oiseaux sur l’ˆıle corr´espondante, tandis que UTMnorth est la latitude nord. Dist est la distance de la terre. Dens est la fameuse densit´e des singes qui habitent l’ˆıle.

Exercice 7.4. Décrire la nature de toutes les variables aléatoires de l’échantillon ci-dessus.