Introduction `a la biostatistique – Mat 2779

(1)

L’´et´e 2010

Cours 9 — le jeudi 1 juin

9.1. Sur le test QQ de normalité de distribution. Le jeu de donnéessleepfait une partie du package psy de R. En utilisant package installer deR, installez psy. Après, on importe sleep,

> library(psy)

> data(sleep}

On peut donner un nom plus courte au data.frame sleep, par exemple,

> d <- sleep

Si on ne planifie pas d’utiliser l’invite de commandes, alors on peut importer le jeu de donn´ees directement dans R commander en utilisant R commander→ Data→data in pa- ckages→load data set from an atached package.

Pour une description détaillée de ce jeu de données, voir la description sous le titre Le sommeil chez les mammifères par Yannick Wurm, trouvée sur le site

http ://pbil.univ-lyon1.fr/R/enseignement.html (suivez le lien Données→problèmes divers), ou accédez directement le lien

http ://pbil.univ-lyon1.fr/R/pdf/pps005.pdf

En bref, les données portent sur la morphilogie et la composition de sommeil des62mam- mifères. Les données sont issues d’une étude publiée en 1976 dans Science.¹ Voici l’une des conclusions de l’étude : des grandes quantités du sommeil sans rêve désavantagent les animaux de grande masse corporelle...

Les dimensions de sleep sont

> dim(sleep) [1] 62 11

Les lignes correspondent aux esp`eces d’animaux, et les colonnes aux variables. Pour obtenir les variables (les noms des colonnes), on tape

> names(sleep)

[1] "Species" "Body.weight" "Brain.weight"

[4] "Slow.wave.sleep" "Paradoxical.sleep" "Total.sleep"

[7] "Maximum.life.span" "Gestation.time" "Predation"

1Allison T, Cicchetti DV., Sleep in mammals : ecological and constitutional correlates. Science, 1976 Nov 12 ; 194 (4266) :732-4.

1

(2)

> row.names(sleep)

[1] "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13" "14"

+ ....

On en conclut que les lignes sont numerotées. Mais cela n’est pas intéressant, car les numéros en eux-mêmes ne nous disent rien. Donc, au lieu de cela, on retrouve la colonne “Species” :

> sleep$Species

[1] African.elephant African.giant.pouched.rat

[3] Arctic.Fox Arctic.ground.squirrel

[5] Asian.elephant Baboon

[7] Big.brown.bat Brazilian.tapir

[9] Cat Chimpanzee

[11] Chinchilla Cow

[13] Desert.hedgehog Donkey

...

Pour voir les données d’une espèce particulière, on cherche le nombre de la ligne corréspondante (c’est9pour le chat, ou bien6pour le babouin), et on tape

> sleep[6,]

Species Body.weight Brain.weight Slow.wave.sleep Paradoxical.sleep

6 Baboon 10.55 179.5 9.1 0.7

Total.sleep Maximum.life.span Gestation.time Predation Sleep.exposure

6 9.8 27 180 4 4

Pour une valeur particulière de la matrice, il suffit d’indiquer les coordonnées (le numéro de la ligne et le numéro de la colonne). Par exemple, la longueur du sommeil sans rêve (slow wave sleep), en heures par jour, du babouin²est retrouvée par

> sleep[6,4]

[1] 9.1

Maintenant on applique le test Q-Q de normalité de distribution à quelques variables aléatoires de cette étude, sans aucun but particulier.

Par exemple, choisissons le poids du cerveau comme la variable. On peut produire le graphe avec R commander, ou bien directement :

> qq.plot(sleep$Brain.weight, dist= "norm", labels=FALSE) La distribution sur la figure 1, à gauche, est décidement non normale. Plus précisement : on dit qu’avec la confiance 95 %, la distribution sous-jacente n’est pas normale. L’histogramme (à droite) confirme cette conclusion.

2J’avais fait la connaissance de cet ˆetre charmant en Afrique du Sud.

(3)

−2 −1 0 1 2

010002000300040005000

norm quantiles

sleep$Brain.weight

frequency

0 1000 2000 3000 4000 5000 6000

01020304050

FIG. 1. Le test Q-Q de normalité (à gauche) et l’histogramme (à droite) pour la variable sleep$Brain.weight.

−2 −1 0 1 2

51015

norm quantiles

sleep$Slow.wave.sleep

density

0 5 10 15

0.000.020.040.060.080.10

FIG. 2. Le test Q-Q de normalité (à gauche) et l’histogramme (à droite) pour la variable sleep$Slow.wave.sleep.

Par contre, les résultats pour la distribution de la durée du sommeil sans rêve (figure 2) favourisent l’hypothèse de normalité de la distribution. La normalité de la distribution est consistente avec les résultats du test.

(4)

histogramme a ´et´e produit avec :

> Hist(sleep$Slow.wave.sleep, scale="density", breaks="Sturges", + xlim=c(-1,19), ylim=c(0,0.11), col="darkgray")

> x<-seq(-2,20,length=100)

> y<-dnorm(x,mean=mean(sleep$Slow.wave.sleep,na.rm=TRUE), + sd=sd(sleep$Slow.wave.sleep,na.rm=TRUE))

> points(x,y)

La valeur du paramètre na.rm=TRUE sert à ce que le logiciel ignore les valeurs numériques manquantes (qui sont remplacées par le symbole NA, d’où le nom ; “rm” signifie “remove”).

9.2. Estimation ponctuelle. Notre but prochain est de raffiner davantage la relation entre la théorie des probabilités et la statistique. Rappellons-nous que le sujet de la statistique est de faire les conclusions générales sur le comportement des variables aléatoiresX, Y, . . .sur un ensemble fondamentalS à partir des valeurs connues de ces variables sur un sous-ensemble fini s1, s2, . . . , sn de l’ensemble fondamental,S. Les conclusions doivent rester valables si l’échantillons1, . . . , snest remplacé par un autre, tiré deSau hasard.

La manière de faire les conclusions sur une v.a.X consiste en estimation d’un paramètre deX, noté d’habitude par la lettre grecqueθ:

θ =θ(X).

Les exemples des param`etres sont :

– l’esperance math´ematique deX,µ=E(X); – la variance deX, var(X);

– l’´ecart-type deX,σ(X); – la m´ediane deX,

– chaqu’un desq-quantiles deX, par exemple, le troisi`eme quartileQ3(X), ....

Donc, un paramètre deX est un nombre réel associé à la v.a.X.

Car on ne peut par accéder à la valeur deθdirectement, on estimeθen calculant la valeur d’un paramètre d’échantillon, notét.

Notons l’´echantillon

x1 =X(s1), x2 =X(s2), . . . , xⁿ=X(sⁿ).

Voici quelques exemples des paramètres d’échantillon, dans le même ordre.

Exemple 9.1. La moyenne d’´echantillon,

¯

x= x1+x2+. . .+xn

n .

La moyenne est le param`etre statistique qui est utilis´e pour estimer la valeur de E(X). On dit quex¯est un estimateur deE(X).

(5)

X

l’ensemble fondamental, S s1

s2 s3

... s n

x1

x2 . . . l’echantillon de donnees

xn R

θ = θ(X) ??

inconnu

t, le parametre d’echantillon estimateur

deθ v.a.

FIG. 3. Un estimateur statistique.

Exemple 9.2. Pour estimer la valeur de la variance varX, on peut utliser la variance de la restriction deX surs1, . . . , sn, qui est bien sˆur une v.a. sur l’espace fondamental plus petit,

équiprobable{s¹, . . . , sn}. Cette variance est donnée par l’expression bien connue à nous : (9.1) (x1−x¯)²+ (x2−x¯)²+. . .+ (xn−x¯)²

n .

Pourtant, dans la statistique on utilise les plus souvent un autre estimateur de variance, appelé la variance d’échantillon (sample variance, en anglais). La variance d’échantillon est notée s². On obtient cet estimateur en remplaçantndans le dénominateur parn−1:

s² = (x1−x)¯ ²+ (x2−x)¯ ²+. . .+ (xⁿ−x)¯ ²

n−1 .

La raison d’être de cette définition, c’est qu’il y a une relation de la dépendance linéaire entre les écarts

x1−x, x¯ 2−x, . . . , x¯ n−x,¯ dont seulementn−1sont libres.

Par exemple, sin = 1, alors le seule écart en existence,x1−x¯=x1−x1 = 0, ne contient aucune information sur la variance deX. Donc c’est tout à fait raisonnable que l’estimateur s²n’est pas défini quandn= 1.

Cette explication est vague, mais en effet la variance d’échantillon donne un meuilleur estimateur de la variance théorique σ² = var(X) que la variance théorique donnée par la formule 9.1.

La valeur de l’estimateur d’échantillon, t, dépend de l’échantillon, où, plus exactement, de sous-ensembles1, s2, . . . , sn tiré de l’ensemble fondamentalS au hasard. Pour cette raison, on peut regardert, à son tour, comme une variable aléatoire. Cette variable est notéeT.

(6)

approximation `aθ.