• Aucun résultat trouvé

Introduction `a la biostatistique – Mat 2779

N/A
N/A
Protected

Academic year: 2022

Partager "Introduction `a la biostatistique – Mat 2779"

Copied!
6
0
0

Texte intégral

(1)

L’´et´e 2010

Cours 9 — le jeudi 1 juin

9.1. Sur le test QQ de normalit´e de distribution. Le jeu de donn´eessleepfait une partie du package psy de R. En utilisant package installer deR, installez psy. Apr`es, on importe sleep,

> library(psy)

> data(sleep}

On peut donner un nom plus courte au data.frame sleep, par exemple,

> d <- sleep

Si on ne planifie pas d’utiliser l’invite de commandes, alors on peut importer le jeu de donn´ees directement dans R commander en utilisant R commanderDatadata in pa- ckagesload data set from an atached package.

Pour une description d´etaill´ee de ce jeu de donn´ees, voir la description sous le titre Le sommeil chez les mammif`eres par Yannick Wurm, trouv´ee sur le site

http ://pbil.univ-lyon1.fr/R/enseignement.html (suivez le lien Donn´eesprobl`emes divers), ou acc´edez directement le lien

http ://pbil.univ-lyon1.fr/R/pdf/pps005.pdf

En bref, les donn´ees portent sur la morphilogie et la composition de sommeil des62mam- mif`eres. Les donn´ees sont issues d’une ´etude publi´ee en 1976 dans Science.1 Voici l’une des conclusions de l’´etude : des grandes quantit´es du sommeil sans rˆeve d´esavantagent les animaux de grande masse corporelle...

Les dimensions de sleep sont

> dim(sleep) [1] 62 11

Les lignes correspondent aux esp`eces d’animaux, et les colonnes aux variables. Pour obtenir les variables (les noms des colonnes), on tape

> names(sleep)

[1] "Species" "Body.weight" "Brain.weight"

[4] "Slow.wave.sleep" "Paradoxical.sleep" "Total.sleep"

[7] "Maximum.life.span" "Gestation.time" "Predation"

1Allison T, Cicchetti DV., Sleep in mammals : ecological and constitutional correlates. Science, 1976 Nov 12 ; 194 (4266) :732-4.

1

(2)

> row.names(sleep)

[1] "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13" "14"

+ ....

On en conclut que les lignes sont numerot´ees. Mais cela n’est pas int´eressant, car les num´eros en eux-mˆemes ne nous disent rien. Donc, au lieu de cela, on retrouve la colonne “Species” :

> sleep$Species

[1] African.elephant African.giant.pouched.rat

[3] Arctic.Fox Arctic.ground.squirrel

[5] Asian.elephant Baboon

[7] Big.brown.bat Brazilian.tapir

[9] Cat Chimpanzee

[11] Chinchilla Cow

[13] Desert.hedgehog Donkey

...

Pour voir les donn´ees d’une esp`ece particuli`ere, on cherche le nombre de la ligne corr´espondante (c’est9pour le chat, ou bien6pour le babouin), et on tape

> sleep[6,]

Species Body.weight Brain.weight Slow.wave.sleep Paradoxical.sleep

6 Baboon 10.55 179.5 9.1 0.7

Total.sleep Maximum.life.span Gestation.time Predation Sleep.exposure

6 9.8 27 180 4 4

Pour une valeur particuli`ere de la matrice, il suffit d’indiquer les coordonn´ees (le num´ero de la ligne et le num´ero de la colonne). Par exemple, la longueur du sommeil sans rˆeve (slow wave sleep), en heures par jour, du babouin2est retrouv´ee par

> sleep[6,4]

[1] 9.1

Maintenant on applique le test Q-Q de normalit´e de distribution `a quelques variables al´eatoires de cette ´etude, sans aucun but particulier.

Par exemple, choisissons le poids du cerveau comme la variable. On peut produire le graphe avec R commander, ou bien directement :

> qq.plot(sleep$Brain.weight, dist= "norm", labels=FALSE) La distribution sur la figure 1, `a gauche, est d´ecidement non normale. Plus pr´ecisement : on dit qu’avec la confiance 95 %, la distribution sous-jacente n’est pas normale. L’histogramme (`a droite) confirme cette conclusion.

2J’avais fait la connaissance de cet ˆetre charmant en Afrique du Sud.

(3)

−2 −1 0 1 2

010002000300040005000

norm quantiles

sleep$Brain.weight

sleep$Brain.weight

frequency

0 1000 2000 3000 4000 5000 6000

01020304050

FIG. 1. Le test Q-Q de normalit´e (`a gauche) et l’histogramme (`a droite) pour la variable sleep$Brain.weight.

−2 −1 0 1 2

51015

norm quantiles

sleep$Slow.wave.sleep

sleep$Slow.wave.sleep

density

0 5 10 15

0.000.020.040.060.080.10

FIG. 2. Le test Q-Q de normalit´e (`a gauche) et l’histogramme (`a droite) pour la variable sleep$Slow.wave.sleep.

Par contre, les r´esultats pour la distribution de la dur´ee du sommeil sans rˆeve (figure 2) favourisent l’hypoth`ese de normalit´e de la distribution. La normalit´e de la distribution est consistente avec les r´esultats du test.

(4)

histogramme a ´et´e produit avec :

> Hist(sleep$Slow.wave.sleep, scale="density", breaks="Sturges", + xlim=c(-1,19), ylim=c(0,0.11), col="darkgray")

> x<-seq(-2,20,length=100)

> y<-dnorm(x,mean=mean(sleep$Slow.wave.sleep,na.rm=TRUE), + sd=sd(sleep$Slow.wave.sleep,na.rm=TRUE))

> points(x,y)

La valeur du param`etre na.rm=TRUE sert `a ce que le logiciel ignore les valeurs num´eriques manquantes (qui sont remplac´ees par le symbole NA, d’o`u le nom ; “rm” signifie “remove”).

9.2. Estimation ponctuelle. Notre but prochain est de raffiner davantage la relation entre la th´eorie des probabilit´es et la statistique. Rappellons-nous que le sujet de la statistique est de faire les conclusions g´en´erales sur le comportement des variables al´eatoiresX, Y, . . .sur un ensemble fondamentalS `a partir des valeurs connues de ces variables sur un sous-ensemble fini s1, s2, . . . , sn de l’ensemble fondamental,S. Les conclusions doivent rester valables si l’´echantillons1, . . . , snest remplac´e par un autre, tir´e deSau hasard.

La mani`ere de faire les conclusions sur une v.a.X consiste en estimation d’un param`etre deX, not´e d’habitude par la lettre grecqueθ:

θ =θ(X).

Les exemples des param`etres sont :

– l’esperance math´ematique deX,µ=E(X); – la variance deX, var(X);

– l’´ecart-type deX,σ(X); – la m´ediane deX,

– chaqu’un desq-quantiles deX, par exemple, le troisi`eme quartileQ3(X), ....

Donc, un param`etre deX est un nombre r´eel associ´e `a la v.a.X.

Car on ne peut par acc´eder `a la valeur deθdirectement, on estimeθen calculant la valeur d’un param`etre d’´echantillon, not´et.

Notons l’´echantillon

x1 =X(s1), x2 =X(s2), . . . , xn=X(sn).

Voici quelques exemples des param`etres d’´echantillon, dans le mˆeme ordre.

Exemple 9.1. La moyenne d’´echantillon,

¯

x= x1+x2+. . .+xn

n .

La moyenne est le param`etre statistique qui est utilis´e pour estimer la valeur de E(X). On dit quex¯est un estimateur deE(X).

(5)

X

l’ensemble fondamental, S s1

s2 s3

... s n

x1

x2 . . . l’echantillon de donnees

xn R

θ = θ(X) ??

inconnu

t, le parametre d’echantillon estimateur

deθ v.a.

FIG. 3. Un estimateur statistique.

Exemple 9.2. Pour estimer la valeur de la variance varX, on peut utliser la variance de la restriction deX surs1, . . . , sn, qui est bien sˆur une v.a. sur l’espace fondamental plus petit,

´equiprobable{s1, . . . , sn}. Cette variance est donn´ee par l’expression bien connue `a nous : (9.1) (x1−x¯)2+ (x2−x¯)2+. . .+ (xn−x¯)2

n .

Pourtant, dans la statistique on utilise les plus souvent un autre estimateur de variance, appel´e la variance d’´echantillon (sample variance, en anglais). La variance d’´echantillon est not´ee s2. On obtient cet estimateur en remplac¸antndans le d´enominateur parn−1:

s2 = (x1−x)¯ 2+ (x2−x)¯ 2+. . .+ (xn−x)¯ 2

n−1 .

La raison d’ˆetre de cette d´efinition, c’est qu’il y a une relation de la d´ependance lin´eaire entre les ´ecarts

x1−x, x¯ 2−x, . . . , x¯ n−x,¯ dont seulementn−1sont libres.

Par exemple, sin = 1, alors le seule ´ecart en existence,x1−x¯=x1−x1 = 0, ne contient aucune information sur la variance deX. Donc c’est tout `a fait raisonnable que l’estimateur s2n’est pas d´efini quandn= 1.

Cette explication est vague, mais en effet la variance d’´echantillon donne un meuilleur estimateur de la variance th´eorique σ2 = var(X) que la variance th´eorique donn´ee par la formule 9.1.

La valeur de l’estimateur d’´echantillon, t, d´epend de l’´echantillon, o`u, plus exactement, de sous-ensembles1, s2, . . . , sn tir´e de l’ensemble fondamentalS au hasard. Pour cette rai- son, on peut regardert, `a son tour, comme une variable al´eatoire. Cette variable est not´eeT.

(6)

approximation `aθ.

Références

Documents relatifs

Le test quantile-quantile, ou le test QQ, trace les points x i contre les n-quantiles cor- respondantes y i de la loi normale ayant la mˆeme moyenne et le mˆeme ´ecart-type que

On a besoin d’un objet du type data.frame et pas une matrice parce que la fonction mean calcule la moyenne d’un data.frame colonne par colonne, en d’autres mots, pour

Par cons´equent, l’intervalle de confiance obtenu comme dans (11.8) sera plus long que l’intervalle (11.7), ce qui nous donne un esti- mateur conservatif.... G´en´eralement, le

Mais la structure du test d’hypoth`ese, d´etermin´ee par le choix de H 0 et de H 1 , est telle que, mˆeme s’il est vrai que le moyen du tour de taille s’est r´eduit,

On veut rejeter l’hypoth`ese nulle H 0 , et avec ce but on en d´eduit une chose quasi impossible, improbable, en calculant la valeur p, qui est la probabilit´e d’observer une

Notons π 1 la proportion des employ´es qui arrˆetent de fumer chaque an de tous les entreprises (disons nord-am´ericaines) avec l’interdiction de fumer, et π 2 la proportion

Chaque ´echantillon est extrait d’une population dans laquelle la variable qui nous int´eresse a une valeur moyenne (la moyenne de la population) inconnue µ 1 , resp... Comme

(a) Si une personne est tir´e au hasard de cette population, quelle est la probabilit´e qu’elle soit test´ee positive pour cette type de cancer.. (b) Calculez la probabilit´e que