Introduction `a la biostatistique – Mat 2779

(1)

L’´et´e 2010 Cours 6 — le 20 mai

6.1. Lecture suggérée. Tout en esperant que la librairie Cosmos va recevoir la cargaison de livres sous peu (si tel est le problème), je recommende Biostatistique sous la direction de Beuscart, 1.4.3, 3.1, 3.2.

6.2. Encore sur la loi normale. La loi de distribution normale est sans aucune doute la plus importante qui y est en th´eorie de probabilit´es, ainsi que dans ses applications. Voici le graphe de la fonction gausienne (=une courbe en cloche)N(0,1) = (1/√

2π) exp(−x²/2) de densité de la loi normale centrée (µ= 0) et réduite (σ = 1).

−3 −2 −1 0 1 2 3

0.00.10.20.30.4

Densité de distribution normale: µ = 0, σ = 1

x

densité

FIG. 1. La fonction de densité de la loi de distribution normale centrée réduite.

R Afin de produire les graphes de la fonction de densit´e avec R commander, choisissez dans le menu : distributions →continuous distributions→normal distribution →plot normal distribution.

Choisissez les valeurs exigées de la moyenne µet de l’écart-typeσ. Dans le cas du graphe 1,µ= 0, σ = 1, car il s’agit de la loi normale centrée réduite. R

Le graphe 2 suivant montre deux fonctions de densité dont les moyennes sont différentes (0 et2respectivement), et les écart-types sont différents aussi (1et2). Ce choix des paramètres a l’effet immédiat et facile à interpreter sur la forme de la courbe en question.

1

(2)

−5 0 5 10

0.00.10.20.30.4

Densités de la loi normale avec des moyennes et écart−types diff

x

densité

−−− N(0,1) oo N(2,2)

FIG. 2. Les fonctions de densité de la loi normale centrée réduite versusN(2,2).

R Le graphe 2 a ´et´e produit avec

> .x <- seq(-5, 10, length.out=100)

> plot(.x, dnorm(.x, mean=0, sd=1), xlab="x", ylab="densite", + main=expression(paste("Densite de la loi normale avec des moyennes et ecart-types differents")), type="l")

> points(.x,dnorm(.x,mean=2,sd=2))

> legend(6,0.4, c("--- N(0,1)", "oo N(2,2)"), col = c(3,4), + bg = ’gray90’)

> abline(h=0, col="gray")

> remove(.x)

Je vous encourage d’experimenter librement avec les graphes. R

SoitX une variable aléatoire dont la loi est normale. On s’intéresse surtout par la proba- bilité de l’évènement

[a ≤X ≤b].

Cette probabilité est égale à l’aire sous la courbeN(µ, σ)entreaetb: P[a ≤X ≤b] =

Z ^b

a

N(µ, σ)dx.

Car on peut ´ecrire

P[a≤X ≤b] =P[X ≤b]−P[X ≤a],

il suffit de déterminer les probabilité des “queues inférieures” (“lower tails”), et on peut le faire de façon la plus efficace en utilisant un logiciel statistique tel que R commander.

(3)

Exemple 6.1. SoitXune variable aléatoire dont la distribution est normale avec la moyenne µ= 4et l’écart-typeσ= 11. Quelle est la probabilité de l’évènement queXprend sa valeur entre−1et7?

R Dans R commander, choisissez dans le menu : Distributions→continuous distributions→nor- mal distribution→normal probabilities. Chosissez lower tail, and mettezµ= 4,σ = 11, et choisis- sez la valeur de la variable (variable value) ´egale `a−1:

> pnorm(c(-1), mean=4, sd=11, lower.tail=TRUE) [1] 0.3247181

Cela veut dire queP[X ≤ −1] = 0.3247181.... Pareillement, pour la valeurx= 7, on obtient :

> pnorm(c(7), mean=4, sd=11, lower.tail=TRUE) [1] 0.6074686

Il ne reste que de soustraire deux valeurs l’une de l’autre. On peut le faire `a l’invite de commande de R, ou bien en tapant dans le Script window :

0.6074686 - 0.3247181

Mettez le curseur sur cette signe, et cliquez sur le Submit. Vous obtiendrez dans la fenˆetre Output window :

> 0.6074686 - 0.3247181 [1] 0.2827505

La r´eponse au probl`eme :

P[−1≤X≤7] = 28.3%.

R

Remarque 6.2. Les observations suivantes sont utiles.

– Environ2/3des valeurs deXse trouvent `a moins d’un ´ecart-type de la moyenne : P[µ−σ≤X ≤µ+σ]≈ 1

3.

– Environs95% des valeurs deXse trouvent `a moins de deux ´ecart-types de la moyenne : P[µ−2σ ≤X ≤µ+ 2σ]≈0.95.

– Environs99.7% des valeurs deXse trouvent `a moins de trois ´ecart-types de la moyenne : P[µ−3σ ≤X ≤µ+ 3σ]≈0.997.

Remarque 6.3. Au même temps, veuillez noter que la probabilité de l’évènement qu’une variable normaleXprend une valeur particulière quelconque, est toujours nulle :

P[X =a] = 0.

Il est facile `a comprendre pourquoi : on a toujours Z ^a

a

N(µ, σ)dx= 0.

(4)

6.3. Fonction de répartition (loi cumulative). Soit X une variable aléatoire réelle. On définit la fonction de répartition deXcomme suit : quel que soitt ∈R, on pose

F(t) =P[X ≤t].

En d’autres mots,

F(t) = Z ^t

−∞

f(x)dx, o`uf est la fonction de densit´e de la v.a.X.

On peut dire¹que la fonction de densitéf(x)est la dérivée de la fonction de répartition : f(x) = d

dxF(x).

La fonction de r´epartition est aussi dite la loi cumulative de distribution deX.

0 2 4 6 8 10

0.00.20.40.60.81.0

fonction de répartition de la distribution binômiale, N = 10, p = 0.5

x

probabilité cumulative

−3 −2 −1 0 1 2 3

0.00.20.40.60.81.0

Fonction de répartition de la distribution normale centrée réduite

x

probabilité cumulative

FIG. 3. Les fonctions de répartition (lois cumulatives) de la distribution binômiale (N = 10,p= 0.5), à gauche, et normale centrée réduite, à droite.

R Dans R commander, choisissez distributions →. . . → plot distribution, suivi par l’option Plot

distribution function dans la boˆıte de dialogue. R

La valeurF(t)est donc ce qu’on appelle la queue inf´erieure (lower tail) de la distribution deX `at.

Quels que soienta, b∈Rtels quea≤b, on a donc

P[a≤X ≤b] =F(b)−F(a).

Quelques propriétés de la fonction de répartition (distribution function, en anglais).

– On a toujours0≤F(t)≤1.

1En rédéfinissant la notion de la dérivée de façon un peu plus raffinée que dans le cours de calcul...

(5)

– Sit ≤s, alorsF(t)≤F(s), c.`a.d., la fonctionF est croissante.

– Quandt ↓ −∞, on aF(t)↓0.

– Quandt ↑ ∞, on aF(t)↑1.

6.4. La statistique comme une science distincte de la théorie de probabilités. En théorie de probabilités, le cadre théorique consiste de l’espace fondamental, S, muni d’une famille de variables aléatoiresX, Y, Z, . . ., définies surS.

...

l’ensemble fondamental, S

R les variables aleatoires

X Y

Z

FIG. 4. Le cadre de la th´eorie de probabilit´es.

L’ensemble fondamentalS modélise la totalité de tous les évènements élémentaires possibles. Pourtant, dans la situation réelle, la plupart des valeurs des v.a. aux éléments de S sont inaccessibles.

On a l’acces à une collection — plus ou moins petite — des valeurs des variables aléatoires en question aux points quelconquess1, s2, . . . , sⁿ ∈Stiré au hasard.

Une telle collection finie

s1, s2, . . . , sⁿ, x1 =X(s1), x2 =X(s2), . . . , xⁿ=X(sⁿ), y1 =Y(s1), . . . , yⁿ =Y(sⁿ), . . . , s’appelle un ´echantillon des donn´ees. (Voir la figure 5).

On peut regarder l’échantillon comme un espace fondamental “tout petit”. Mais c’est prin- cipalement le problème dont la statistique s’occupe qui la met à part de la théorie de la probabilités. Le problème central de la statistique, c’est celui-ci : en étudiant l’échantillon de données, en faire les conclusions plausibles concernant les propriétés des variables aléatoires X, Y, Z, . . .sur la totalité de l’ensemble fondamentalS.

Bien évidemment, la statistique emploie des concepts, des résultats et le language même de la théorie de probabilité. Néanmoins, c’est une science à part de la théorie de probabilités.

Donc, on peut dire qu’on commence à quitter la théorie des probabilités et à penetrer le domaine de la statistique dès lors qu’on parle d’échantillons.

6.5. Deux exemples d’´echantillons.

(6)

l’echantillon de donnees

l’ensemble fondamental, S

R X

Y

Z ...

s1 s2

s3

... s n

y1x1 z 1 x2 . . . zn

FIG. 5. Le cadre de la statistique.

6.5.1. Voici les résultats d’une étude de la croissance de radis après 3 jours à l’obscurité totale (en millimètres).

15 20 11 30 33

20 29 35 8 10

22 37 15 25

La taille de l’´echantillon est n = 14. Les valeurs de la variable al´eatoire X qui mesure la croissance sont

x1 = 15, x2 = 20, x3 = 11, . . . , x13= 15, x14= 25.

Cet échantillon est dit quantitative, ou numérique, car il correspond à une v.a. réelle.

6.5.2. On étudie la pigmentation noire en poissons. L’échantillon consiste den = 154pois- sons, classés selon le degré de la pigmentation noire présente.

degr´e de la pigmentation nombre de sujets

aucune 13

l´eg`ere 68

mod´er´ee 44

forte 21

noire solide 8

total 154

La taille de cet échantillon est n = 154sujets (poissons). Cet échantillon n’est pas visi- blement quantitative. Plutôt, c’est un exemple d’un échantillon qualitative, ou catégorique.

Cela veut dire que des valeurs possibles de la variable aléatoire ne sont pas des nombres réels, mais plutôt les classes dont la nature n’est pas numérique. Au même temps, dans cet exemple il y a un ordre entre les classes, qui sont rangées de manière naturelle comme suit :

aucune pigmentation≺pigmentation légère≺modérée≺forte≺noire solide.

(7)

Dans ce cas, on dit que l’´echantillon est semi-quantitative, ou bien ordinale. Les tailles des classes sont appel´ees les effectifs.

Si les valeurs d’une variable sont, par exemple, Garçons et Filles, alors il n’y a aucun ordre possible entre eux, et dans ce cas-là il s’agit d’un échantillon qualititative non-ordinale.

6.6. Paramètres statistiques des variables catégoriques. L’échantillon de pigmentation noire en poissons peut être représenté par un diagramme en bâtons (bar chart) suivant.

aucune legere moderee forte noire solide

010203040506070

FIG. 6. Le diagramme en bâtons représentant le degré de pigmentation.

R Pour créer le diagramme, j’ai utilisé l’invite de commande de R plutôt que R commander. D’abord, j’ai créé le vecteur des effectifs que j’ai appelé effectifs :

> effectifs =c(13,68,44,21,8)

Après quoi, j’ai créé le vecteur des noms des classes (modalités) :

> noms =c("aucune", "legere","moderee","forte","noire solide") Finalement, la commande suivante produit le diagramme :

barplot(effectifs,names.arg = noms)

R La hauteur nⁱ les bâtons correspond à la taille de chaque classe (où de la modalité) cor- respondante, i. Chaque nombrenⁱ est appelé l’effectif de la classe. L’effectif de la classe de

(8)

pigmentation légère, par exemple, est égal ànlégère = 68. Cette classe est la plus nombreuse.

Elle est dite la classe modale. La classe modale est la classe dont l’effectif est le plus ´elev´e.

On ne peut pas associer à une variable catégorique les paramètres comme la moyenne, la variance, et cetera.

6.7. Paramètres statistiques des variables quantitatives (numériques). Pour les variables quantitatives, les paramètres statistiques sont nombreux.

6.7.1. Moyenne, variance, écart-type. D’abord, on a la notion de la moyenne et de la va- riance de l’échantillon. Elles sont calculées en traitant l’échantillon comme un ensemble fondamental muni des variables aléatoires.

Par exemple, dans l’exemple 6.5.1 la moyenne est égale à la moyenne arithmètique des valeursxⁱ,i= 1,2, . . . ,14.

R Pour calculer la moyenne avec R, on cr´ee d’abord le vecteur de toutes les14valeurs, et utilise la commande mean :

> x = c(15, 20,11,30,33,20,29,35,8,10,22,37,15,25)

> mean(x) [1] 22.14286

De même façon, la variance est calculée avec l’aide de la commande var, et l’écart-type, avec la commande sd (de standard deviation) :

> var(x) [1] 92.5934

> sd(x) [1] 9.622547

R 6.7.2. Médiane. La valeurM est dite médiane pour une variable aléatoireX, si la probabi- lité de l’évènement[X ≤M]est plus grande ou égale à0.5, et la probabilité de l’évènement [X ≥M]est aussi plus grande ou égale à0.5.

Pour calculer la m´ediane d’une suite de valeurs x1, x2, . . . , xⁿ, on range les valeurs en ordre grandissant.

R Par exemple, avec R, on utilise la commande sort :

> sort(x)

[1] 8 10 11 15 15 20 20 22 25 29 30 33 35 37

R Si la taillende l’échantillon est impaire,n= 2m+1, alors la médiane est égale au nombre au milieu de la liste :

M =x^m+1.

Si n est paire, n = 2m, alors la médiane n’est pas unique. D’habitude, on choisit comme M la moyenne arithmétique dex^m et xm+1. Dans notre cas, n = 14, m = 7, m+ 1 = 8, x7 = 20,x8 = 22, donc la médianeM = (20 + 22)/2 = 21.

(9)

R Bien sˆur, on peut toujours calculer la m´ediane directement avec R :

> median(x) [1] 21

R 6.7.3. Quartiles. Il y en a trois, notés Q1, Q2, Q3. Le deuxième quartile, Q2, est tout sim- plement la médiane. La première,Q1, est un nombre tel que

P[X ≤Q1]≥ 1 4 et

P[X ≥Q1]≥ 3 4.

Une fois de plus, ce nombre-l`a n’est pas unique, et le choix est fait semblablement au choix deM.

Le troisi`eme quartileQ3 est un nombre tel que P[X ≥Q3]≥ 1

4 et

P[X ≤Q3]≥ 3 4.

Exemple 6.4. Trouvons les quartiles du radis, en utilisant le rangement de l’´echantillon. On a14/4 = 3.5, doncQ1 = 15:

P[xⁱ ≤15] =P{810111515}= 5

14 = 35.7%> 1 4, et aussi

P[xⁱ ≥15] =P{1515202022252930333537}= 11

14 = 78.6%> 3 4. On sait d´ej`a que

Q2 =M = 21, et on trouve facilement que

Q3 = 30.

La boˆıte `a moustaches (boxplot) est une repr´esentation visuelle utile des quartiles.

R Pour le radis, on obtient la boˆıte `a moustaches en tapant `a l’invite de commandes :

> boxplot(x, horizontal = TRUE)

C’est sous la forme horisontale que le nom s’explique — il n’y a pas de moustaches si on mettre la

boˆıte verticalement, comme on le fait d’habitude ! R

En bref, le carré au centre du diagramme est délimité par les première et troisième quartiles, avec la ligne au milieu représentant la médiane (le deuxième quartile). Les “moustaches” vont jusqu’à la valeur le plus proche à la valeur à la distance 1.5 fois la largeur du

(10)

10 15 20 25 30 35

10 20 30 40 50 60 70

FIG. 7. La boˆıte à moustache pour la croissance de radis (en haut) ; de même, avec deux valeurs extrêmes rajoutées (en bas).

carré. Toutes les valeurs au-dehors de “moustache” sont représentées par les ronds vides, et sont généralement considerée comme extrêmes (outliers). Par exemple, si on rajoute à l’échantillon des valeurs deux valeurs extrêmes telles que50et70par exemple, on peut voir ce qu’on obtiendra comme boˆıte à moustache sur le diagramme 7, en bas.

Veuillez lire une explication excellente de la signification de la boˆıte `a moustaches dans le manuel R pour les sociologues du M. Barnier, sur les pages 24–26.