• Aucun résultat trouvé

Introduction `a la biostatistique – Mat 2779 Solutionnaire au devoir 2

N/A
N/A
Protected

Academic year: 2022

Partager "Introduction `a la biostatistique – Mat 2779 Solutionnaire au devoir 2"

Copied!
9
0
0

Texte intégral

(1)

Solutionnaire au devoir 2

1e devoir 2e devoir

101520

notes sur 20

FIG. 1. Les boˆıtes `a moustaches des r´esultats des devoirs 1 et 2.

Exercice : faire l’analyse comparative des r´esultats de deux premiers devoirs.

∗ ∗ ∗

(1) `A partir de donn´ees obtenues ces derni`eres ann´ees, on peut supposer que l’ˆage auquel un enfant commence `a marcher suit une loi normale de moyenne µ = 13 mois et d’´ecart-typeσ= 1.5mois.

(a) Quelle est la probabilit´e qu’un enfant commence `a marcher (i) [1 point] avant11mois ?

(ii) [1 point] avant15mois ?

(b) [1 point] Quelle est la probabilit´e qu’un enfant marche entre11et15mois ? (c) [1 point] Quelle est la probabilit´e qu’un enfant commence `a marcher exactement

`a13mois ?

(d) [1 point] Quel risque de se tromper prend-on en pariant qu’un enfant marchera entre12et15mois ?

(2)

Remarque : utilisez R. Par exemple, dans (a), la probabilit´e qu’un enfant com- mence `a marcher avent 11 mois, c’est-`a=dire,

P[X ≤11],

est exactement la “lower tail” de la distribution normale `a X = 11, et peut ˆetre trouver avec R commander. (N’oubliez pas de mettre les valeurs correctes deµet de σ). Pour (b), il s’agit deP[11≤X ≤15], et cetera...

⊳(a1) Il s’agit de la probabilit´e de l’´ev`enement [X ≤11],

qui est la queue inf´erieure de la loi normale avecµ = 13etσ = 1.5. Dans R com- mander, choisissez Distributionscontinuous distributionsnormal distribution

normal probabilities, mettezµ = 13etσ = 1.5, et posez variable value ´egale `a 11. Choisissez Lower Tail. Voici la r´eponse que vous obtiendrez :

> pnorm(c(11), mean=13, sd=1.5, lower.tail=TRUE) [1] 0.09121122

Cela veut dire : la probabilit´e qui nous int´eresse est ´egale `a9.1%.

(a2) De mˆeme fac¸on, le calcul pareil fait pour la valeur de la queue inf´erieure corr´espondante `a la valeur de variableX = 15nous apporte :

> pnorm(c(15), mean=13, sd=1.5, lower.tail=TRUE) [1] 0.9087888

On en conclut : la probabilit´e qu’un enfant commence `a marcher avant15mois est

´egale `a90.9%.

(b) Ici nous nous occupons de la probabilit´e de l’´ev`enement [11 ≤X ≤15].

On a

P[11≤X ≤15] = P[11< X ≤15]

= P[X ≤15]−P[X ≥11]

= 0.9087888−0.09121122

= 0.8175776.

On en d´eduit : la probabilit´e qu’un enfant commence `a marcher entre11et15mois est81.8%.

(c) La probabilit´e de l’´ev`enement [X = 13]

est nulle.

(3)

(d) D’abord, on calcule la probabilit´e de l’´ev`enement favourable : P[12≤X ≤15] = P[X ≤15]−P[X ≥12]

= 0.9087888−0.2524925

= 0.6562963.

L’´ev`enement defavourable, o`u on se trompe, c’est l’´ev`enement compl´ementaire au l´ev`enement

[12 ≤X ≤15], donc sa probabilit´e est ´egale `a

1−P[12 ≤X ≤15] = 1−0.6562963 = 0.3437037.

En pariant qu’un enfant marchera entre12et15mois on prend la risque de34.4%.⊲ Remarque : mˆeme en supposant que vous n’avez pas d’acces au logiciel statis- tique, on peut toujours trouver les tables statistiques sur le web, par exemple, en

“googlant” tables statistiques usuelles. Elles ne donnent que les valeurs des queues pour la loiN(0,1). Pourtant, car la variable

Y = X−µ σ est centr´ee r´eduite, on en obtient facilement

X =σY +µ, d’o`u

X ≤a ⇐⇒ σY +µ≤a ⇐⇒ Y ≤ a−µ σ . Par cons´equent,

P[X ≤a] =P

Y ≤ a−µ σ

.

La derni`ere valeur est d´ej`a trouvable dans une table statistique usuelle...

∗ ∗ ∗

(2) Un biologiste de la faune sauvage examine les grenouilles au sujet d’un trait g´en´etique possiblement associ´e `a la sensivit´e ´elev´ee `a des toxines industrielles. Lors de la re- cherche pr´ecedante on a ´etabli que le trait en question est pr´esent chez 10 % des grenouilles environ. Le biologiste ramasse et examine douze grenouilles. En suppo- sant qu’une grenouille ait ce trait avec la probabilit´e de0.10, r´epondre aux questions suivantes.

(a) [1 point] Donner le nombre attendu des grenouilles poss`edant ce trait, ainsi que l’´ecart-type du nombre des grenouilles avec ce trait.

(b) [1 point] Calculer la probabilit´e qu’aucune grenouille n’ait pas ce trait.

(c) [1 point] Calculer la probabilit´e qu’au moins2grenouilles auront le trait.

(4)

l’histogramme des résultats du devoir 2

notes

effectif

8 10 12 14 16 18 20

012345

FIG. 2. L’histogramme des r´esultats du devoir 2.

(d) [1 point] Calculer la probabilit´e que 3 ou 4 grenouilles auront le trait.

(e) [1 point] Maintenant supposons que le nombre des grenouilles s´electionn´ees est n = 300. Calculer la probabilit´e que30grenouilles au maximum poss`ederont le trait g´en´etique.

Remarque : ici il s’agit d’une variable al´eatoire dont la loi est binˆomiale, avec N = 12etp= 0.1. Pour une telle variable, on sait calculer la moyenne (l’esperance math´ematique), ainsi que l’´ecart-type... Pour(e), R devient indispensable, c’est la

“lower tail” probabilit´e, mais de la loi binˆomiale. Choisissez les valeurs deN et dep correctes...

⊳(a) Notons notre variable al´eatoire par X. On a donc µ = EX = N p = 12· 0.1 = 1.2. Tel est le nombre attendu des grenouilles poss`edant le trait g´en´etique.

Pareillement, la formule pour l’´ecart-type d’une variable binˆomiale est σX =p

N pq =p

N p(1−p) =√

12·0.1·0.9 =√

1.08 = 1.039230.

(b) Il s’agit de la probabilit´eP[X = 0]. On peut calculer la probabilit´e directe- ment, sans l’aide de R (n’importe quelle calculette simple suffirait). Notamment, on sait des notes de cours que

P[X =i] =CNi piqN−i,

(5)

o`uN = 12eti= 0. Par cons´equent,

P[X = 0] =C120 (0.1)0(0.9)12= 1·1·(0.9)12 = 0.2824295.

La route plus simple, c’est de choisir le menu de dans R commander : Distribu- tionsdiscrete distributionsBinomial distributionbinomial tail probabilities.

Posez variable value= 0, binomial trials= 12, probability of success= 0.1, lower tail. On obtient :

> pbinom(c(0), size=12, prob=0.1, lower.tail=TRUE) [1] 0.2824295

Pa probabilit´e qu’aucune grenouille n’ait pas ce trait est28.2%.

(c) Ici le calcul direct devient un peu g´enant, et l’usage de R est presque in´evitable.

Pour calculer la probabilit´e en question,P[X ≥2], choisissez dans R commander : Distributionsdiscrete distributionsBinomial distributionbinomial tail pro- babilities. Posez variable value = 1, binomial trials = 12, probability of success

= 0.1, upper tail. Prenez la note que R calcule la queue sup´erieure comme suit : P[X > x],

et c’est pour cette raison qu’on choisitX = 1et pasX = 2, car on a P[X ≥2] = P[X >1].

La r´esponse :

> pbinom(c(1), size=12, prob=0.1, lower.tail=FALSE) [1] 0.3409977

La probabilit´e qu’au moins2grenouilles auront le trait est34.1%.

(d) Ici je sugg`ere l’usage de R. Par exemple, on peut noter que P[X= 3ou4] =P[X ≤4]−P[X ≤2],

et maintenant on trouve deux queues inf´erieures comme ci-dessus :

> pbinom(c(4), size=12, prob=0.1, lower.tail=TRUE) [1] 0.9956707

> pbinom(c(2), size=12, prob=0.1, lower.tail=TRUE) [1] 0.88913

et enfin

P[X = 3ou4] = 0.9956707−0.88913 = 0.1065407.

La probabilit´e que 3 ou 4 grenouilles auront le trait est10.7%.

(e) Exactement la mˆeme situation, le mˆeme genre de calcul. Ici on a N = 300, i= 30,p= 0.1. R commander nous donne la r´eponse :

P[X ≤30] = 0.5484187.

(6)

> pbinom(c(30), size=300, prob=0.1, lower.tail=TRUE) [1] 0.5484187

Si le nombre des grenouilles s´electionn´ees estn= 300, alors avec la probabilit´e54.8

%30grenouilles au maximum poss`ederont le trait g´en´etique. ⊲ Remarque : dans (e), on peut estimer l’ordre de magnitude de la r´eponse correcte- ment sans utiliser aucun logiciel, ni mˆeme la calculette, comme suit. La loi binˆomiale B(300,0.1) peut ˆetre approxim´ee par la loi normale avec la mˆeme moyenne et le mˆeme ´ecart-type. La moyenne µ = N p = 30, l’´ecart-type est ´egal `a √

N pq =

√300·0.1·0.9 = 3√

3. Pourtant, la valeur deσpeu importe, car la moyenne est30, et car la courbe gausienne est sym´etrique autour de sa moyenne, on a ´evidemment P[X ≤ µ] = 0.5(pour la loi normale !) On en conclut : la r´eponse est approximati- vement0.5. En effet, cette approximation dans notre cas n’est pas tr`es pr´ecise. Elle devient raisonnable siN p >100.

−2 −1 0 1 2

101520

norm quantiles

dev1

−2 −1 0 1 2

101214161820

norm quantiles

dev2

FIG. 3. Le test quantile-quantile de normalit´e des r´esultats des devoir 1 (`a gauche) et 2.

Exercice : qu’est-ce qu’on peut en d´eduire au sujet de la normalit´e possible des r´esultats des devoirs 1 et 2 ? N’est-il pas surprenant, en vue de l’histogramme des r´esultats du devoir 1 ? Comment peut-on expliquer cette conclusion ?

∗ ∗ ∗

(3) [5 points] Regardez l’´echantillon suivant des sujets atteints du cancer de la prostate.

Ils ont ´et´e suivis pendant30ans. Ils sont class´es selon la consommation de poisson.

(7)

Consommation de poisson Nombre des personnes

Jamais/rarement 14

Parfois 2420

Souvent 2978

Partie importante du r´egime 42

∗ ∗ ∗

(a) Est-ce que la variable est cat´egorique, ordinale, et/ou num´erique ?

(b) Cr´eer un sommaire graphique des donn´ees montrant les effectifs de chaque classe.

(c) Trouver les fr´equences de chaque classe.

(d) Trouver la classe modale.

⊳(a) La variable et cat´egorique ordinale (semi-quantitative) : ses valeurs ne sont pas r´eelles, mais au mˆeme temps elles sont ordonn´ees de mani`ere naturelle :

jamais ≺ parfois ≺ souvent ≺ font partie importante du r´egime alimentaire (b) Par exemple, comme expliqu´e dans les notes de cours, on peut le faire en utilisant R. Cr´eerons l’objet data frame :

> conspoiss <- data.frame(effectif = c(14,2420,2978,42), + row.names = c("jamais/rarement","parfois","souvent", + "partie importante"))

> conspoiss

effectif

jamais/rarement 14

parfois 2420

souvent 2978

partie importante 42

Maintenant on produit le diagramme en bˆatons :

> barplot(conspoiss$effectif)

(En v´erit´e, la commande qui a produit le diagramme 4 ´etait l´eg`erement plus com- pliqu´ee :

> barplot(conspoiss$effectif,col="5",names=

+ row.names(conspoiss), ylim=c(0,3000)) )

(c) La fr´equence de la classeiest donn´ee par la formule fi = ni

n,

(8)

jamais/rarement souvent

050010001500200025003000

FIG. 4.

o`un=n1+n2+. . .+nkest la fr´equence totale. Dans notre cas, la fr´equance totale est ´egale `a

n = 14 + 2420 + 2978 + 42 = 5454, d’o`u on conclut : le fr´equences des4classes sont

– njamais = 545414 = 0.002566923 – nparf ois = 24205454 = 0.443711038 – nsouvent = 29785454 = 0.546021269 – nimportant = 545442 = 0.007700770

Avec R, on peut trouver le vecteur des fr´equences comme suit :

> conspoiss$effectif/sum(conspoiss$effectif)

[1] 0.002566923 0.443711038 0.546021269 0.007700770

(d) La classe modale est la classe “souvent”, car l’effectif de cette classe est le plus

´elev´e. ⊲

∗ ∗ ∗

(4) [5 points] Dans une enquˆete sur les otites aigu¨es, on recueille chez un enfant les informations suivantes :

(a) ˆAge : 5 ans (b) Sexe : masculin

(9)

(c) Profession du p`ere : artisan

(d) Ant´ec´edent familial d’allergie (oui/non) : oui

(e) Consommation du tabac du p`ere (en sig /j : 0-9 ; 10-19 ;≥20) :10`a19 (f) Nombre d’otites depuis1an :2

(g) D´eficit auditif moyen :11.5 dB

(h) Douleur articulaire (absente, mod´er´ee, intense) : mod´er´ee

Lire les notes de cours 6 et classer chaque information dans l’une des cat´egories sui- vantes (correspondant au type de variable al´eatoire) : qualitative binaire, qualitative nominale, qualitative ordinale, quantitative discr`ete, quantitative continue.

Remarque : une variable qualitative binaire est une variable dont les valeurs possibles sont deux, et il n’y a pas de relation d’ordre entre eux. “Nominale” c’est la mˆeme chose, mais le nombre des valeurs possibles d’´epasse deux. Une variable est dite qualitative ordinale s’il y a un ordre naturel entre les classes (“aucune pigmentation” “l´eg`ere” ”mod´er´ee” etc.) Discr`ete, comme toujours, indique que les valeurs possibles sont isol´ee l’une de l’autre, tandis que les valeurs possibles d’une variable continue remplissent un continu de la ligne droite (par n´ecessairement la ligne enti`ere, mais par exemple un intervalle).

⊳(a) Quantitative discr`ete (ou bien continue, cela d´epend du point de vue).

(b) Qualititative binaire.

(c) Cat´egorique (=qualititative nominale).

(d) Qualititative binaire.

(e) Qualitative ordinale.

(f) Quantitative discr`ete.

(g) Quantitative continue.

(h) Qualitative ordinale.

Correction :5−xpoints pour8−xr´eponses correctes, jusqu’`ax= 5, quand3r´eponses correctes valent0points.

Exercice : estimez la probabilit´e qu’on obtient au moins3r´eponses correctes en choisis-

sant les r´eponses au hasard. ⊲

Références

Documents relatifs

Par exemple, si on rajoute `a l’´echantillon des valeurs deux valeurs extrˆemes telles que 50 et 70 par exemple, on peut voir ce qu’on obtiendra comme boˆıte `a moustache sur

Quant `1a moi, je pr´ef`ere fortement la d´efinition des quartiles comme dans (7.1), car elle est plus facile `a m´emoriser et `a utiliser.. Quand mˆeme, on a toujours, de

Le test quantile-quantile, ou le test QQ, trace les points x i contre les n-quantiles cor- respondantes y i de la loi normale ayant la mˆeme moyenne et le mˆeme ´ecart-type que

Par contre, les r´esultats pour la distribution de la dur´ee du sommeil sans rˆeve (figure 2) favourisent l’hypoth`ese de normalit´e de la distribution. La normalit´e de

On a besoin d’un objet du type data.frame et pas une matrice parce que la fonction mean calcule la moyenne d’un data.frame colonne par colonne, en d’autres mots, pour

Mais la structure du test d’hypoth`ese, d´etermin´ee par le choix de H 0 et de H 1 , est telle que, mˆeme s’il est vrai que le moyen du tour de taille s’est r´eduit,

On veut rejeter l’hypoth`ese nulle H 0 , et avec ce but on en d´eduit une chose quasi impossible, improbable, en calculant la valeur p, qui est la probabilit´e d’observer une

Notons π 1 la proportion des employ´es qui arrˆetent de fumer chaque an de tous les entreprises (disons nord-am´ericaines) avec l’interdiction de fumer, et π 2 la proportion