• Aucun résultat trouvé

Introduction `a la biostatistique – Mat 2779

N/A
N/A
Protected

Academic year: 2022

Partager "Introduction `a la biostatistique – Mat 2779"

Copied!
8
0
0

Texte intégral

(1)

L’´et´e 2010 Cours 7 — le 25 mai

7.1. Lecture sugg´er´ee. R pour les sociologues par Julien Barnier, pages 7–20.

7.2. Encore sur la loi normale. SoitXune variable al´eatoire dont la loi de distrubution est normale de moyenneµ= 2et l’´ecart-typeσ = 3. Quelle est la probabilit´e de l’´ev`enement

[3≤X ≤4]?

−5 0 5 10

0.000.040.080.12

Loi de distribution normale: µ = 2, σ = 3

x

densité

x=3 x=4

FIG. 1. La loi normaleN(3,4)deµ= 3etσ = 4et les valeursX = 3,X = 4.

La probabilit´e en question est ´egale `a l’aire sous la courbeN(3,4)entre les valeursX = 3 etX = 4, c.`a.d. :

P[3≤X ≤4] = Z 4

3

N(3,4)dx.

Il est claire que cette valeur est la diff´erence des deux aires sous la courbe : de −∞de4et de−∞de3: Z 4

3

N(3,4)dx= Z 4

−∞

N(3,4)dx− Z 3

−∞

N(3,4)dx.

1

(2)

La valeur Z b

−∞

N(3,4)dx

est bien sˆur la valeurF(b)de la fonction de r´epartition deX `ax=b.

Cette valeur est aussi connue comme la queue inf´erieure de la loi normaleN(3,4)(lower tail), et peut ˆetre calculer en utilisant R, ou — ce qui est plus commode — R commander.

Lancer R commander en tapant

> library(Rcmdr)

Dans le menu de la boˆıte de R commander, choisissez Distributionsnormal distribution

Normal Probabilities. Mettez les valeursµ = 2, σ = 3, et choisissez3comme Variable value. Dans la output window vous verrez :

> pnorm(c(3), mean=2, sd=3, lower.tail=TRUE) [1] 0.6305587

De mˆeme fac¸on, pourX = 4, on a

> pnorm(c(4), mean=2, sd=3, lower.tail=TRUE) [1] 0.7475075

D’ici on conclut :

P[3≤X ≤4] =F(4)−F(3) = 0.7475075−0.6305587 = 0.1169488...≈11.7%.

7.3. Sur les quartiles. Voici un petit ´echantillon des valeurs de la pression art´erielle systo- lique des 7 sujets :

151 124 132 170 146 124 113 D´eterminez les quartiles de cet ´echantillons.

D’abord, on ordonne les donn´ees num´eriques :

113 124 124 132 146 151 170

Notons X la variable al´eatoire en question (la pression arterielle). Examinons toutes les valeurs de la gauche `a la droite pour trouverQ1. Est-ce queQ1 = 113? Non, parce que

P[X ≤113] =P{113}= 1

7 = 0.142... < 1 4. Le prochain candidat pourQ1est124. On a

P[X ≤124] =P{113,124,124}= 3

7 = 0.428... > 1 4, et de plus

P[X ≥124 =P{124,124,132,146,151,170}= 6

7 = 0.857... > 3 4. Alors, la valeur124v´erifie la d´efinition du premier quartile. On a

Q1 = 124.

(3)

PourQ2, il n’y a aucun probl`eme carQ2 est la valeur m´edianne, et le nombre des sujets,7, est impaire. Le seule choix pourQ2, c’est donc la valeur centrale :

Q2 = 132.

Et on peut voir que

P[X ≤132] =P{113,124,124,132}= 4

7 = 0.571... > 1 2, et de mˆeme

P[X ≥132] = 4 7 > 1

2. Enfin, un argument pareil ´etablit que

Q3 = 151.

Qu’est-ce que R nous dit ? On cr´ee le vecteur des valeurs deX, en le nommant par exemple x:

> x <- c(151, 124, 132, 170, 146, 124, 113)

(La lettre “c” provient de concatenation, il est n´ecessaire pour cr´eer un vecteur de valeurs dans R.) On peut v´erifier que le vecteur a ´et´e cr´e´e correctement :

> x

[1] 151 124 132 170 146 124 113

Maintenant la commande statistique parmi les plus utiles est summary, elle nous donne le sommaire statistique du vecteur :

> summary(x)

Min. 1st Qu. Median Mean 3rd Qu. Max.

113.0 124.0 132.0 137.1 148.5 170.0

On obtient l’´el´ement minimal (113), le 1e quartile, la valeur m´edianne (ou le 2e quartile), la valeur moyenne, le 3e quartile, et le maximum de l’´echantillon. Pourtant, la valeurQ3 = 148.5est diff´erente de la nˆotre. Pourquoi ? Les sources diff´erentes utilisent les d´efinitions l´eg`erement diff´erentes des quartiles. Par exemple, de toute ´evidence, la d´efinition de R exige que le troisi`eme quartile satisfasse

P[X ≤Q3]≥ 3

4 etP[X > Q3]≥ 1 4, tandis que la mienne exige :

(7.1) P[X≤Q3]≥ 3

4 etP[X ≥Q3]≥ 1 4.

Pour cette raison, au sens de R, n’importe quelle valeur strictement interm´ediaire entre146 et151estQ3, par exemple, la moyenne arithm´etique

146 + 151

2 = 148.5, qui a ´et´e choisie par le logiciel.

(4)

Cette manque de l’uniformit´e n’importe pas, puisque pour les ´echantillons de donn´ees plus importante la diff´erence est toute petite. Quant `1a moi, je pr´ef`ere fortement la d´efinition des quartiles comme dans (7.1), car elle est plus facile `a m´emoriser et `a utiliser.

Quand mˆeme, on a toujours, de fac¸on informelle : – Q2est la m´ediane des donn´ees,

– Q1est la m´ediane de la moiti´e inf´erieure des donn´ees, et – Q3est la m´ediane de la moiti´e sup´erieure des donn´ees.

D´efinition 7.1. L’intervalle interquartile (I.I.Q., ou bien I.Q.R.) d’une variable al´eatoire X est la diff´erence entre le trois`eme et le premier quartiles :

IIQ=Q3 −Q1.

Pour notre ´echantillon, on a donc (au sens de notre d´efinition des quartiles) : IIQ= 151−124 = 27.

Cr´eerons enfin une boˆıte `a moustaches pour notre ´echantillon, dont la signification est maintenant devenue plus claire. On tape `a l’invite de commandes

> boxplot(x, horizontal=TRUE) pour obtenir le diagramme familier (la figure 2).

120 130 140 150 160 170

FIG. 2. La pression arterielle systolique de7sujets.

Exercice 7.2. Trouvez dans le diagramme 2 les valeurs de tous les quartiles, ainsi que les valeurs maximum et minimum. O`u se cache l’intervalle interquartile ? Y a-t-il des valeurs atypiques ?

Remarque 7.3. La boˆıte `a moustaches (box plot), aussi connue sous le nom de boˆıte `a pattes, est une invention relativement r´ecente : elle a ´et´e invent´ee en 1977 par John Tukey.

(5)

7.4. La structure des donn´ees principale utilis´ee par le logiciel R s’appelle data frame. On peut cr´eer ces structures de fac¸ons diff´erentes. Voici une fac¸on possible. On veut cr´eer un data frame pour l’´echantillon de donn´ees sur la pigmentation de poissons. On tape `a l’invite de commandes :

> pigm = data.frame(effectif=c(13,68,44,21,8),

+ row.names=c("aucune","legere","moderee","forte","noir solide")) Maintenant, on peut voir le r´esultat :

> pigm

effectif

aucune 13

legere 68

moderee 44

forte 21

noir solide 8

Veuillez noter que la colonne des noms de lignes n’est pas de nom lui-mˆeme.

La seule colonne num´erique s’appelle effectif (c’est le nom que nous avons choisi). Pour voire cette colonne, on tape :

> pigm$effectif [1] 13 68 44 21 8

Pour voir les noms de toutes les lignes, on tape :

> row.names(pigm)

[1] "aucune" "legere" "moderee" "forte" "noir solide"

Le diagramme en bˆtons nous aide de visualiser l’´echantillon :

> barplot(pigm$effectif,names.arg=row.names(pigm)) (Voir la figure 3).

La distribution est visiblement unimodale, le mode est unique, avec la classe modale

“l´eg`ere”.

Le commande summary est parmi les plus utiles, elle nous donne le sommaire statistique de l’´echantillon, y compris les quartiles :

> summary(pigm) effectif Min. : 8.0 1st Qu.:13.0 Median :21.0 Mean :30.8 3rd Qu.:44.0 Max. :68.0

On peut sauvegarder l’´echantillons dans deux format principaux : le format texte,

> write.table(pigm, file="pigm.txt")

(6)

aucune legere moderee forte noir solide

0102030405060

FIG. 3. La pigmentation noire de poissons : diagramme en bˆatons.

ainsi qu’en format R data format, ou .rda :

> save(pigm,file="pigm.rda")

Afin d’acc´eder au jeu de donn´ees au format .txt, on utilise la commande :

> z<- read.table("pigm.txt")

Pour le format .rda, c’est plutˆot load. De plus, on peut acc´eder `a tous les deux formats en utilisant R commander.

R peut t´el´echarger les jeux de donn´ees. Par exemple, voici le jeu de donn´ees concernant la densit´e de singes contre la richesse des esp`eces d’oiseaux :

> download.file("http://pbil.univ-lyon1.fr/R/donnees/pps069.rda", + destfile="pps069.rda")

trying URL ’http://pbil.univ-lyon1.fr/R/donnees/pps069.rda’

Content type ’text/plain’ length 52619 bytes (51 Kb) opened URL

==================================================

downloaded 51 Kb

Maintenant on acc`ede au jeu de donn´ees :

> load("/Users/vova/Classes/2779/pps069.rda")

La commande ls (toujours suivie par deux parenth`eses) montre tous les jeux de donn´ees actuellement dans la memoire de R, par exemple, voici ce que j’ai sur mon MacBook Pro au moment de rediger les notes :

> ls()

[1] "cols" "funcs" "i" "n" "oldpar"

[6] "pigm" "pps069" "pps070" "RegModel.1" "w"

[11] "x" "x1" "y" "y1" "y2"

(7)

On peut assigner un nom diff´erent, plus commode, au jeu de donn´ees :

> w<- pps070

La commande dim montre les dimensions de data frame :

> dim(w) [1] 29 7

Au cas de jeux de donn´ees relativement petits, on peut les voir :

> w

name area dist UTMnorth UTMeast dens S

1 Afuera 0.2 2.2 812846 516892 0.0 2

2 Reinita 0.2 9.0 800929 518932 0.0 1 3 Chig\xfcire 0.3 8.0 799823 518013 7.1 9

4 Facil 0.3 9.0 800763 518896 0.0 0

5 Baya 0.6 9.0 799934 518785 3.3 7

6 Colon 0.6 9.2 801058 519043 3.4 0

7 Miedo 0.6 8.1 806291 519795 3.3 2

8 Densa 0.6 6.2 799731 517000 0.0 2

9 Paloma 0.6 11.7 796175 518603 0.0 5

10 Rocas 0.6 6.6 804466 518029 1.7 8

11 Sudor 0.6 3.5 812930 515200 0.0 1

12 Bumeran 0.7 1.3 811246 516592 0.0 7 13 Iguana 0.7 7.6 800099 517865 8.6 12 14 Matajei 0.8 11.2 796322 518335 0.0 3

15 Cola 1.0 8.2 799731 518105 4.1 10

16 Palizada 1.1 0.2 808371 516900 0.0 0

17 Quina 1.1 0.3 810508 515250 0.0 0

18 Aguila 1.3 11.0 796322 518235 0.0 4 19 Tucucito 1.5 9.3 798810 518547 3.3 14 20 Perimetro 1.5 3.8 812940 515475 0.0 4 21 Triangulo 2.3 2.6 812940 515525 0.0 3 22 Chotacabra 2.3 6.6 798920 518547 1.7 16 23 Solitario 2.4 0.5 810674 516188 0.4 10 24 Galbilon 2.6 4.7 801858 517383 0.0 6

25 Coral 7.6 0.4 810730 515949 0.0 8

26 Ambar 8.3 7.7 800189 519975 1.0 15 27 Panarama 10.2 1.5 812246 516792 0.0 19

28 Lomo 11.4 2.0 810730 517450 0.0 7

29 Sombrero 21.4 3.9 817550 515949 0.5 13

Dans ce cas-l`a, la taille de l’´echantillon estn= 29, et il s’agit de6variables al´eatoires dont les valeurs sont calcul´ees pour tous les sujets. le param`etre S designe le nombre d’esp`eces

(8)

d’oiseaux sur l’ˆıle corr´espondante, tandis que UTMnorth est la latitude nord. Dist est la distance de la terre. Dens est la fameuse densit´e des singes qui habitent l’ˆıle.

Exercice 7.4. D´ecrire la nature de toutes les variables al´eatoires de l’´echantillon ci-dessus.

Références

Documents relatifs

Le test quantile-quantile, ou le test QQ, trace les points x i contre les n-quantiles cor- respondantes y i de la loi normale ayant la mˆeme moyenne et le mˆeme ´ecart-type que

Par contre, les r´esultats pour la distribution de la dur´ee du sommeil sans rˆeve (figure 2) favourisent l’hypoth`ese de normalit´e de la distribution. La normalit´e de

On a besoin d’un objet du type data.frame et pas une matrice parce que la fonction mean calcule la moyenne d’un data.frame colonne par colonne, en d’autres mots, pour

Par cons´equent, l’intervalle de confiance obtenu comme dans (11.8) sera plus long que l’intervalle (11.7), ce qui nous donne un esti- mateur conservatif.... G´en´eralement, le

Mais la structure du test d’hypoth`ese, d´etermin´ee par le choix de H 0 et de H 1 , est telle que, mˆeme s’il est vrai que le moyen du tour de taille s’est r´eduit,

On veut rejeter l’hypoth`ese nulle H 0 , et avec ce but on en d´eduit une chose quasi impossible, improbable, en calculant la valeur p, qui est la probabilit´e d’observer une

Notons π 1 la proportion des employ´es qui arrˆetent de fumer chaque an de tous les entreprises (disons nord-am´ericaines) avec l’interdiction de fumer, et π 2 la proportion

Chaque ´echantillon est extrait d’une population dans laquelle la variable qui nous int´eresse a une valeur moyenne (la moyenne de la population) inconnue µ 1 , resp... Comme