• Aucun résultat trouvé

Introduction `a la biostatistique – Mat 2779

N/A
N/A
Protected

Academic year: 2022

Partager "Introduction `a la biostatistique – Mat 2779"

Copied!
10
0
0

Texte intégral

(1)

L’´et´e 2010 Cours 6 — le 20 mai

6.1. Lecture sugg´er´ee. Tout en esperant que la librairie Cosmos va recevoir la cargaison de livres sous peu (si tel est le probl`eme), je recommende Biostatistique sous la direction de Beuscart, 1.4.3, 3.1, 3.2.

6.2. Encore sur la loi normale. La loi de distribution normale est sans aucune doute la plus importante qui y est en th´eorie de probabilit´es, ainsi que dans ses applications. Voici le graphe de la fonction gausienne (=une courbe en cloche)N(0,1) = (1/√

2π) exp(−x2/2) de densit´e de la loi normale centr´ee (µ= 0) et r´eduite (σ = 1).

−3 −2 −1 0 1 2 3

0.00.10.20.30.4

Densité de distribution normale: µ = 0, σ = 1

x

densité

FIG. 1. La fonction de densit´e de la loi de distribution normale centr´ee r´eduite.

R Afin de produire les graphes de la fonction de densit´e avec R commander, choisissez dans le menu : distributionscontinuous distributionsnormal distributionplot normal distribution.

Choisissez les valeurs exig´ees de la moyenne µet de l’´ecart-typeσ. Dans le cas du graphe 1,µ= 0, σ = 1, car il s’agit de la loi normale centr´ee r´eduite. R

Le graphe 2 suivant montre deux fonctions de densit´e dont les moyennes sont diff´erentes (0 et2respectivement), et les ´ecart-types sont diff´erents aussi (1et2). Ce choix des param`etres a l’effet imm´ediat et facile `a interpreter sur la forme de la courbe en question.

1

(2)

−5 0 5 10

0.00.10.20.30.4

Densités de la loi normale avec des moyennes et écart−types diff

x

densité

−−− N(0,1) oo N(2,2)

FIG. 2. Les fonctions de densit´e de la loi normale centr´ee r´eduite versusN(2,2).

R Le graphe 2 a ´et´e produit avec

> .x <- seq(-5, 10, length.out=100)

> plot(.x, dnorm(.x, mean=0, sd=1), xlab="x", ylab="densite", + main=expression(paste("Densite de la loi normale avec des moyennes et ecart-types differents")), type="l")

> points(.x,dnorm(.x,mean=2,sd=2))

> legend(6,0.4, c("--- N(0,1)", "oo N(2,2)"), col = c(3,4), + bg = ’gray90’)

> abline(h=0, col="gray")

> remove(.x)

Je vous encourage d’experimenter librement avec les graphes. R

SoitX une variable al´eatoire dont la loi est normale. On s’int´eresse surtout par la proba- bilit´e de l’´ev`enement

[a ≤X ≤b].

Cette probabilit´e est ´egale `a l’aire sous la courbeN(µ, σ)entreaetb: P[a ≤X ≤b] =

Z b

a

N(µ, σ)dx.

Car on peut ´ecrire

P[a≤X ≤b] =P[X ≤b]−P[X ≤a],

il suffit de d´eterminer les probabilit´e des “queues inf´erieures” (“lower tails”), et on peut le faire de fac¸on la plus efficace en utilisant un logiciel statistique tel que R commander.

(3)

Exemple 6.1. SoitXune variable al´eatoire dont la distribution est normale avec la moyenne µ= 4et l’´ecart-typeσ= 11. Quelle est la probabilit´e de l’´ev`enement queXprend sa valeur entre−1et7?

R Dans R commander, choisissez dans le menu : Distributionscontinuous distributionsnor- mal distributionnormal probabilities. Chosissez lower tail, and mettezµ= 4,σ = 11, et choisis- sez la valeur de la variable (variable value) ´egale `a−1:

> pnorm(c(-1), mean=4, sd=11, lower.tail=TRUE) [1] 0.3247181

Cela veut dire queP[X ≤ −1] = 0.3247181.... Pareillement, pour la valeurx= 7, on obtient :

> pnorm(c(7), mean=4, sd=11, lower.tail=TRUE) [1] 0.6074686

Il ne reste que de soustraire deux valeurs l’une de l’autre. On peut le faire `a l’invite de commande de R, ou bien en tapant dans le Script window :

0.6074686 - 0.3247181

Mettez le curseur sur cette signe, et cliquez sur le Submit. Vous obtiendrez dans la fenˆetre Output window :

> 0.6074686 - 0.3247181 [1] 0.2827505

La r´eponse au probl`eme :

P[−1≤X≤7] = 28.3%.

R

Remarque 6.2. Les observations suivantes sont utiles.

– Environ2/3des valeurs deXse trouvent `a moins d’un ´ecart-type de la moyenne : P[µ−σ≤X ≤µ+σ]≈ 1

3.

– Environs95% des valeurs deXse trouvent `a moins de deux ´ecart-types de la moyenne : P[µ−2σ ≤X ≤µ+ 2σ]≈0.95.

– Environs99.7% des valeurs deXse trouvent `a moins de trois ´ecart-types de la moyenne : P[µ−3σ ≤X ≤µ+ 3σ]≈0.997.

Remarque 6.3. Au mˆeme temps, veuillez noter que la probabilit´e de l’´ev`enement qu’une variable normaleXprend une valeur particuli`ere quelconque, est toujours nulle :

P[X =a] = 0.

Il est facile `a comprendre pourquoi : on a toujours Z a

a

N(µ, σ)dx= 0.

(4)

6.3. Fonction de r´epartition (loi cumulative). Soit X une variable al´eatoire r´eelle. On d´efinit la fonction de r´epartition deXcomme suit : quel que soitt ∈R, on pose

F(t) =P[X ≤t].

En d’autres mots,

F(t) = Z t

−∞

f(x)dx, o`uf est la fonction de densit´e de la v.a.X.

On peut dire1que la fonction de densit´ef(x)est la d´eriv´ee de la fonction de r´epartition : f(x) = d

dxF(x).

La fonction de r´epartition est aussi dite la loi cumulative de distribution deX.

0 2 4 6 8 10

0.00.20.40.60.81.0

fonction de répartition de la distribution binômiale, N = 10, p = 0.5

x

probabilité cumulative

−3 −2 −1 0 1 2 3

0.00.20.40.60.81.0

Fonction de répartition de la distribution normale centrée réduite

x

probabilité cumulative

FIG. 3. Les fonctions de r´epartition (lois cumulatives) de la distribution binˆomiale (N = 10,p= 0.5), `a gauche, et normale centr´ee r´eduite, `a droite.

R Dans R commander, choisissez distributions →. . . → plot distribution, suivi par l’option Plot

distribution function dans la boˆıte de dialogue. R

La valeurF(t)est donc ce qu’on appelle la queue inf´erieure (lower tail) de la distribution deX `at.

Quels que soienta, b∈Rtels quea≤b, on a donc

P[a≤X ≤b] =F(b)−F(a).

Quelques propri´et´es de la fonction de r´epartition (distribution function, en anglais).

– On a toujours0≤F(t)≤1.

1En r´ed´efinissant la notion de la d´eriv´ee de fac¸on un peu plus raffin´ee que dans le cours de calcul...

(5)

– Sit ≤s, alorsF(t)≤F(s), c.`a.d., la fonctionF est croissante.

– Quandt ↓ −∞, on aF(t)↓0.

– Quandt ↑ ∞, on aF(t)↑1.

6.4. La statistique comme une science distincte de la th´eorie de probabilit´es. En th´eorie de probabilit´es, le cadre th´eorique consiste de l’espace fondamental, S, muni d’une famille de variables al´eatoiresX, Y, Z, . . ., d´efinies surS.

...

l’ensemble fondamental, S

R les variables aleatoires

X Y

Z

FIG. 4. Le cadre de la th´eorie de probabilit´es.

L’ensemble fondamentalS mod´elise la totalit´e de tous les ´ev`enements ´el´ementaires pos- sibles. Pourtant, dans la situation r´eelle, la plupart des valeurs des v.a. aux ´el´ements de S sont inaccessibles.

On a l’acces `a une collection — plus ou moins petite — des valeurs des variables al´eatoires en question aux points quelconquess1, s2, . . . , sn ∈Stir´e au hasard.

Une telle collection finie

s1, s2, . . . , sn, x1 =X(s1), x2 =X(s2), . . . , xn=X(sn), y1 =Y(s1), . . . , yn =Y(sn), . . . , s’appelle un ´echantillon des donn´ees. (Voir la figure 5).

On peut regarder l’´echantillon comme un espace fondamental “tout petit”. Mais c’est prin- cipalement le probl`eme dont la statistique s’occupe qui la met `a part de la th´eorie de la probabilit´es. Le probl`eme central de la statistique, c’est celui-ci : en ´etudiant l’´echantillon de donn´ees, en faire les conclusions plausibles concernant les propri´et´es des variables al´eatoires X, Y, Z, . . .sur la totalit´e de l’ensemble fondamentalS.

Bien ´evidemment, la statistique emploie des concepts, des r´esultats et le language mˆeme de la th´eorie de probabilit´e. N´eanmoins, c’est une science `a part de la th´eorie de probabilit´es.

Donc, on peut dire qu’on commence `a quitter la th´eorie des probabilit´es et `a penetrer le domaine de la statistique d`es lors qu’on parle d’´echantillons.

6.5. Deux exemples d’´echantillons.

(6)

l’echantillon de donnees

l’ensemble fondamental, S

R X

Y

Z ...

s1 s2

s3

... s n

y1x1 z 1 x2 . . . zn

FIG. 5. Le cadre de la statistique.

6.5.1. Voici les r´esultats d’une ´etude de la croissance de radis apr`es 3 jours `a l’obscurit´e totale (en millim`etres).

15 20 11 30 33

20 29 35 8 10

22 37 15 25

La taille de l’´echantillon est n = 14. Les valeurs de la variable al´eatoire X qui mesure la croissance sont

x1 = 15, x2 = 20, x3 = 11, . . . , x13= 15, x14= 25.

Cet ´echantillon est dit quantitative, ou num´erique, car il correspond `a une v.a. r´eelle.

6.5.2. On ´etudie la pigmentation noire en poissons. L’´echantillon consiste den = 154pois- sons, class´es selon le degr´e de la pigmentation noire pr´esente.

degr´e de la pigmentation nombre de sujets

aucune 13

l´eg`ere 68

mod´er´ee 44

forte 21

noire solide 8

total 154

La taille de cet ´echantillon est n = 154sujets (poissons). Cet ´echantillon n’est pas visi- blement quantitative. Plutˆot, c’est un exemple d’un ´echantillon qualitative, ou cat´egorique.

Cela veut dire que des valeurs possibles de la variable al´eatoire ne sont pas des nombres r´eels, mais plutˆot les classes dont la nature n’est pas num´erique. Au mˆeme temps, dans cet exemple il y a un ordre entre les classes, qui sont rang´ees de mani`ere naturelle comme suit :

aucune pigmentation≺pigmentation l´eg`ere≺mod´er´ee≺forte≺noire solide.

(7)

Dans ce cas, on dit que l’´echantillon est semi-quantitative, ou bien ordinale. Les tailles des classes sont appel´ees les effectifs.

Si les valeurs d’une variable sont, par exemple, Garc¸ons et Filles, alors il n’y a aucun ordre possible entre eux, et dans ce cas-l`a il s’agit d’un ´echantillon qualititative non-ordinale.

6.6. Param`etres statistiques des variables cat´egoriques. L’´echantillon de pigmentation noire en poissons peut ˆetre repr´esent´e par un diagramme en bˆatons (bar chart) suivant.

aucune legere moderee forte noire solide

010203040506070

FIG. 6. Le diagramme en bˆatons repr´esentant le degr´e de pigmentation.

R Pour cr´eer le diagramme, j’ai utilis´e l’invite de commande de R plutˆot que R commander. D’abord, j’ai cr´e´e le vecteur des effectifs que j’ai appel´e effectifs :

> effectifs =c(13,68,44,21,8)

Apr`es quoi, j’ai cr´e´e le vecteur des noms des classes (modalit´es) :

> noms =c("aucune", "legere","moderee","forte","noire solide") Finalement, la commande suivante produit le diagramme :

barplot(effectifs,names.arg = noms)

R La hauteur ni les bˆatons correspond `a la taille de chaque classe (o`u de la modalit´e) cor- respondante, i. Chaque nombreni est appel´e l’effectif de la classe. L’effectif de la classe de

(8)

pigmentation l´eg`ere, par exemple, est ´egal `anl´eg`ere = 68. Cette classe est la plus nombreuse.

Elle est dite la classe modale. La classe modale est la classe dont l’effectif est le plus ´elev´e.

On ne peut pas associer `a une variable cat´egorique les param`etres comme la moyenne, la variance, et cetera.

6.7. Param`etres statistiques des variables quantitatives (num´eriques). Pour les variables quantitatives, les param`etres statistiques sont nombreux.

6.7.1. Moyenne, variance, ´ecart-type. D’abord, on a la notion de la moyenne et de la va- riance de l’´echantillon. Elles sont calcul´ees en traitant l’´echantillon comme un ensemble fondamental muni des variables al´eatoires.

Par exemple, dans l’exemple 6.5.1 la moyenne est ´egale `a la moyenne arithm`etique des valeursxi,i= 1,2, . . . ,14.

R Pour calculer la moyenne avec R, on cr´ee d’abord le vecteur de toutes les14valeurs, et utilise la commande mean :

> x = c(15, 20,11,30,33,20,29,35,8,10,22,37,15,25)

> mean(x) [1] 22.14286

De mˆeme fac¸on, la variance est calcul´ee avec l’aide de la commande var, et l’´ecart-type, avec la commande sd (de standard deviation) :

> var(x) [1] 92.5934

> sd(x) [1] 9.622547

R 6.7.2. M´ediane. La valeurM est dite m´ediane pour une variable al´eatoireX, si la probabi- lit´e de l’´ev`enement[X ≤M]est plus grande ou ´egale `a0.5, et la probabilit´e de l’´ev`enement [X ≥M]est aussi plus grande ou ´egale `a0.5.

Pour calculer la m´ediane d’une suite de valeurs x1, x2, . . . , xn, on range les valeurs en ordre grandissant.

R Par exemple, avec R, on utilise la commande sort :

> sort(x)

[1] 8 10 11 15 15 20 20 22 25 29 30 33 35 37

R Si la taillende l’´echantillon est impaire,n= 2m+1, alors la m´ediane est ´egale au nombre au milieu de la liste :

M =xm+1.

Si n est paire, n = 2m, alors la m´ediane n’est pas unique. D’habitude, on choisit comme M la moyenne arithm´etique dexm et xm+1. Dans notre cas, n = 14, m = 7, m+ 1 = 8, x7 = 20,x8 = 22, donc la m´edianeM = (20 + 22)/2 = 21.

(9)

R Bien sˆur, on peut toujours calculer la m´ediane directement avec R :

> median(x) [1] 21

R 6.7.3. Quartiles. Il y en a trois, not´es Q1, Q2, Q3. Le deuxi`eme quartile, Q2, est tout sim- plement la m´ediane. La premi`ere,Q1, est un nombre tel que

P[X ≤Q1]≥ 1 4 et

P[X ≥Q1]≥ 3 4.

Une fois de plus, ce nombre-l`a n’est pas unique, et le choix est fait semblablement au choix deM.

Le troisi`eme quartileQ3 est un nombre tel que P[X ≥Q3]≥ 1

4 et

P[X ≤Q3]≥ 3 4.

Exemple 6.4. Trouvons les quartiles du radis, en utilisant le rangement de l’´echantillon. On a14/4 = 3.5, doncQ1 = 15:

P[xi ≤15] =P{810111515}= 5

14 = 35.7%> 1 4, et aussi

P[xi ≥15] =P{1515202022252930333537}= 11

14 = 78.6%> 3 4. On sait d´ej`a que

Q2 =M = 21, et on trouve facilement que

Q3 = 30.

La boˆıte `a moustaches (boxplot) est une repr´esentation visuelle utile des quartiles.

R Pour le radis, on obtient la boˆıte `a moustaches en tapant `a l’invite de commandes :

> boxplot(x, horizontal = TRUE)

C’est sous la forme horisontale que le nom s’explique — il n’y a pas de moustaches si on mettre la

boˆıte verticalement, comme on le fait d’habitude ! R

En bref, le carr´e au centre du diagramme est d´elimit´e par les premi`ere et troisi`eme quar- tiles, avec la ligne au milieu repr´esentant la m´ediane (le deuxi`eme quartile). Les “mousta- ches” vont jusqu’`a la valeur le plus proche `a la valeur `a la distance 1.5 fois la largeur du

(10)

10 15 20 25 30 35

10 20 30 40 50 60 70

FIG. 7. La boˆıte `a moustache pour la croissance de radis (en haut) ; de mˆeme, avec deux valeurs extrˆemes rajout´ees (en bas).

carr´e. Toutes les valeurs au-dehors de “moustache” sont repr´esent´ees par les ronds vides, et sont g´en´eralement consider´ee comme extrˆemes (outliers). Par exemple, si on rajoute `a l’´echantillon des valeurs deux valeurs extrˆemes telles que50et70par exemple, on peut voir ce qu’on obtiendra comme boˆıte `a moustache sur le diagramme 7, en bas.

Veuillez lire une explication excellente de la signification de la boˆıte `a moustaches dans le manuel R pour les sociologues du M. Barnier, sur les pages 24–26.

Références

Documents relatifs

Le test quantile-quantile, ou le test QQ, trace les points x i contre les n-quantiles cor- respondantes y i de la loi normale ayant la mˆeme moyenne et le mˆeme ´ecart-type que

Par contre, les r´esultats pour la distribution de la dur´ee du sommeil sans rˆeve (figure 2) favourisent l’hypoth`ese de normalit´e de la distribution. La normalit´e de

On a besoin d’un objet du type data.frame et pas une matrice parce que la fonction mean calcule la moyenne d’un data.frame colonne par colonne, en d’autres mots, pour

Mais la structure du test d’hypoth`ese, d´etermin´ee par le choix de H 0 et de H 1 , est telle que, mˆeme s’il est vrai que le moyen du tour de taille s’est r´eduit,

On veut rejeter l’hypoth`ese nulle H 0 , et avec ce but on en d´eduit une chose quasi impossible, improbable, en calculant la valeur p, qui est la probabilit´e d’observer une

Notons π 1 la proportion des employ´es qui arrˆetent de fumer chaque an de tous les entreprises (disons nord-am´ericaines) avec l’interdiction de fumer, et π 2 la proportion

(a) Si une personne est tir´e au hasard de cette population, quelle est la probabilit´e qu’elle soit test´ee positive pour cette type de cancer.. (b) Calculez la probabilit´e que

(a) [1 point] Donner le nombre attendu des grenouilles poss`edant ce trait, ainsi que l’´ecart-type du nombre des grenouilles avec ce trait.. (b) [1 point] Calculer la