Introduction `a la biostatistique – Mat 2779 Solutionnaire au devoir 2

(1)

Solutionnaire au devoir 2

1e devoir 2e devoir

101520

notes sur 20

FIG. 1. Les boˆıtes `a moustaches des r´esultats des devoirs 1 et 2.

Exercice : faire l’analyse comparative des r´esultats de deux premiers devoirs.

∗ ∗ ∗

(1) À partir de données obtenues ces dernières années, on peut supposer que l’âge auquel un enfant commence à marcher suit une loi normale de moyenne µ = 13 mois et d’écart-typeσ= 1.5mois.

(a) Quelle est la probabilit´e qu’un enfant commence `a marcher (i) [1 point] avant11mois ?

(ii) [1 point] avant15mois ?

(b) [1 point] Quelle est la probabilité qu’un enfant marche entre11et15mois ? (c) [1 point] Quelle est la probabilité qu’un enfant commence à marcher exactement

`a13mois ?

(d) [1 point] Quel risque de se tromper prend-on en pariant qu’un enfant marchera entre12et15mois ?

(2)

Remarque : utilisez R. Par exemple, dans (a), la probabilité qu’un enfant com- mence à marcher avent 11 mois, c’est-à=dire,

P[X ≤11],

est exactement la “lower tail” de la distribution normale `a X = 11, et peut ˆetre trouver avec R commander. (N’oubliez pas de mettre les valeurs correctes deµet de σ). Pour (b), il s’agit deP[11≤X ≤15], et cetera...

⊳(a1) Il s’agit de la probabilité de l’évènement [X ≤11],

qui est la queue inf´erieure de la loi normale avecµ = 13etσ = 1.5. Dans R com- mander, choisissez Distributions→continuous distributions→normal distribution

→normal probabilities, mettezµ = 13etσ = 1.5, et posez variable value égale à 11. Choisissez Lower Tail. Voici la réponse que vous obtiendrez :

> pnorm(c(11), mean=13, sd=1.5, lower.tail=TRUE) [1] 0.09121122

Cela veut dire : la probabilité qui nous intéresse est égale à9.1%.

(a2) De même façon, le calcul pareil fait pour la valeur de la queue inférieure corréspondante à la valeur de variableX = 15nous apporte :

> pnorm(c(15), mean=13, sd=1.5, lower.tail=TRUE) [1] 0.9087888

On en conclut : la probabilit´e qu’un enfant commence `a marcher avant15mois est

´egale `a90.9%.

(b) Ici nous nous occupons de la probabilité de l’évènement [11 ≤X ≤15].

On a

P[11≤X ≤15] = P[11< X ≤15]

= P[X ≤15]−P[X ≥11]

= 0.9087888−0.09121122

= 0.8175776.

On en déduit : la probabilité qu’un enfant commence à marcher entre11et15mois est81.8%.

(c) La probabilité de l’évènement [X = 13]

est nulle.

(3)

(d) D’abord, on calcule la probabilité de l’évènement favourable : P[12≤X ≤15] = P[X ≤15]−P[X ≥12]

= 0.9087888−0.2524925

= 0.6562963.

L’évènement defavourable, où on se trompe, c’est l’évènement complémentaire au lévènement

[12 ≤X ≤15], donc sa probabilité est égale à

1−P[12 ≤X ≤15] = 1−0.6562963 = 0.3437037.

En pariant qu’un enfant marchera entre12et15mois on prend la risque de34.4%.⊲ Remarque : mˆeme en supposant que vous n’avez pas d’acces au logiciel statis- tique, on peut toujours trouver les tables statistiques sur le web, par exemple, en

“googlant” tables statistiques usuelles. Elles ne donnent que les valeurs des queues pour la loiN(0,1). Pourtant, car la variable

Y = X−µ σ est centr´ee r´eduite, on en obtient facilement

X =σY +µ, d’o`u

X ≤a ⇐⇒ σY +µ≤a ⇐⇒ Y ≤ a−µ σ . Par cons´equent,

P[X ≤a] =P

Y ≤ a−µ σ

.

La dernière valeur est déjà trouvable dans une table statistique usuelle...

∗ ∗ ∗

(2) Un biologiste de la faune sauvage examine les grenouilles au sujet d’un trait génétique possiblement associé à la sensivité élevée à des toxines industrielles. Lors de la re- cherche précedante on a établi que le trait en question est présent chez 10 % des grenouilles environ. Le biologiste ramasse et examine douze grenouilles. En supposant qu’une grenouille ait ce trait avec la probabilité de0.10, répondre aux questions suivantes.

(a) [1 point] Donner le nombre attendu des grenouilles poss`edant ce trait, ainsi que l’´ecart-type du nombre des grenouilles avec ce trait.

(b) [1 point] Calculer la probabilit´e qu’aucune grenouille n’ait pas ce trait.

(c) [1 point] Calculer la probabilit´e qu’au moins2grenouilles auront le trait.

(4)

l’histogramme des résultats du devoir 2

notes

effectif

8 10 12 14 16 18 20

012345

FIG. 2. L’histogramme des r´esultats du devoir 2.

(d) [1 point] Calculer la probabilit´e que 3 ou 4 grenouilles auront le trait.

(e) [1 point] Maintenant supposons que le nombre des grenouilles sélectionnées est n = 300. Calculer la probabilité que30grenouilles au maximum possèderont le trait génétique.

Remarque : ici il s’agit d’une variable aléatoire dont la loi est binômiale, avec N = 12etp= 0.1. Pour une telle variable, on sait calculer la moyenne (l’esperance mathématique), ainsi que l’écart-type... Pour(e), R devient indispensable, c’est la

“lower tail” probabilit´e, mais de la loi binˆomiale. Choisissez les valeurs deN et dep correctes...

⊳(a) Notons notre variable aléatoire par X. On a donc µ = EX = N p = 12· 0.1 = 1.2. Tel est le nombre attendu des grenouilles possèdant le trait génétique.

Pareillement, la formule pour l’´ecart-type d’une variable binˆomiale est σX =p

N pq =p

N p(1−p) =√

12·0.1·0.9 =√

1.08 = 1.039230.

(b) Il s’agit de la probabilit´eP[X = 0]. On peut calculer la probabilit´e directe- ment, sans l’aide de R (n’importe quelle calculette simple suffirait). Notamment, on sait des notes de cours que

P[X =i] =C_Nⁱ pⁱq^N⁻ⁱ,

(5)

o`uN = 12eti= 0. Par cons´equent,

P[X = 0] =C12⁰ (0.1)⁰(0.9)¹²= 1·1·(0.9)¹² = 0.2824295.

La route plus simple, c’est de choisir le menu de dans R commander : Distribu- tions→discrete distributions→Binomial distribution→binomial tail probabilities.

Posez variable value= 0, binomial trials= 12, probability of success= 0.1, lower tail. On obtient :

> pbinom(c(0), size=12, prob=0.1, lower.tail=TRUE) [1] 0.2824295

Pa probabilit´e qu’aucune grenouille n’ait pas ce trait est28.2%.

(c) Ici le calcul direct devient un peu g´enant, et l’usage de R est presque in´evitable.

Pour calculer la probabilit´e en question,P[X ≥2], choisissez dans R commander : Distributions→discrete distributions→Binomial distribution→binomial tail pro- babilities. Posez variable value = 1, binomial trials = 12, probability of success

= 0.1, upper tail. Prenez la note que R calcule la queue sup´erieure comme suit : P[X > x],

et c’est pour cette raison qu’on choisitX = 1et pasX = 2, car on a P[X ≥2] = P[X >1].

La r´esponse :

> pbinom(c(1), size=12, prob=0.1, lower.tail=FALSE) [1] 0.3409977

La probabilit´e qu’au moins2grenouilles auront le trait est34.1%.

(d) Ici je sugg`ere l’usage de R. Par exemple, on peut noter que P[X= 3ou4] =P[X ≤4]−P[X ≤2],

et maintenant on trouve deux queues inf´erieures comme ci-dessus :

et enfin

P[X = 3ou4] = 0.9956707−0.88913 = 0.1065407.

La probabilit´e que 3 ou 4 grenouilles auront le trait est10.7%.

(e) Exactement la même situation, le même genre de calcul. Ici on a N = 300, i= 30,p= 0.1. R commander nous donne la réponse :

P[X ≤30] = 0.5484187.

(6)

Si le nombre des grenouilles sélectionnées estn= 300, alors avec la probabilité54.8

%30grenouilles au maximum possèderont le trait génétique. ⊲ Remarque : dans (e), on peut estimer l’ordre de magnitude de la réponse correcte- ment sans utiliser aucun logiciel, ni même la calculette, comme suit. La loi binômiale B(300,0.1) peut être approximée par la loi normale avec la même moyenne et le même écart-type. La moyenne µ = N p = 30, l’écart-type est égal à √

N pq =

√300·0.1·0.9 = 3√

3. Pourtant, la valeur deσpeu importe, car la moyenne est30, et car la courbe gausienne est symétrique autour de sa moyenne, on a évidemment P[X ≤ µ] = 0.5(pour la loi normale !) On en conclut : la réponse est approximati- vement0.5. En effet, cette approximation dans notre cas n’est pas très précise. Elle devient raisonnable siN p >100.

−2 −1 0 1 2

101520

norm quantiles

dev1

−2 −1 0 1 2

101214161820

norm quantiles

dev2

FIG. 3. Le test quantile-quantile de normalité des résultats des devoir 1 (à gauche) et 2.

Exercice : qu’est-ce qu’on peut en déduire au sujet de la normalité possible des résultats des devoirs 1 et 2 ? N’est-il pas surprenant, en vue de l’histogramme des résultats du devoir 1 ? Comment peut-on expliquer cette conclusion ?

∗ ∗ ∗

(3) [5 points] Regardez l’´echantillon suivant des sujets atteints du cancer de la prostate.

Ils ont été suivis pendant30ans. Ils sont classés selon la consommation de poisson.

(7)

Consommation de poisson Nombre des personnes

Jamais/rarement 14

Parfois 2420

Souvent 2978

Partie importante du r´egime 42

∗ ∗ ∗

(a) Est-ce que la variable est cat´egorique, ordinale, et/ou num´erique ?

(b) Cr´eer un sommaire graphique des donn´ees montrant les effectifs de chaque classe.

(c) Trouver les fr´equences de chaque classe.

(d) Trouver la classe modale.

⊳(a) La variable et catégorique ordinale (semi-quantitative) : ses valeurs ne sont pas réelles, mais au même temps elles sont ordonnées de manière naturelle :

jamais ≺ parfois ≺ souvent ≺ font partie importante du régime alimentaire (b) Par exemple, comme expliqué dans les notes de cours, on peut le faire en utilisant R. Créerons l’objet data frame :

> conspoiss <- data.frame(effectif = c(14,2420,2978,42), + row.names = c("jamais/rarement","parfois","souvent", + "partie importante"))

> conspoiss

effectif

jamais/rarement 14

parfois 2420

souvent 2978

partie importante 42

Maintenant on produit le diagramme en bˆatons :

> barplot(conspoiss$effectif)

(En vérité, la commande qui a produit le diagramme 4 était légèrement plus com- pliquée :

> barplot(conspoiss$effectif,col="5",names=

+ row.names(conspoiss), ylim=c(0,3000)) )

(c) La fr´equence de la classeiest donn´ee par la formule f_i = n_i

n,

(8)

jamais/rarement souvent

050010001500200025003000

FIG. 4.

oùn=n1+n2+. . .+n_kest la fréquence totale. Dans notre cas, la fréquance totale est égale à

n = 14 + 2420 + 2978 + 42 = 5454, d’o`u on conclut : le fr´equences des4classes sont

– n_jamais = ₅₄₅₄¹⁴ = 0.002566923 – n_{parf ois} = ²⁴²⁰5454 = 0.443711038 – n_souvent = ²⁹⁷⁸₅₄₅₄ = 0.546021269 – n_important = 5454⁴² = 0.007700770

Avec R, on peut trouver le vecteur des fr´equences comme suit :

> conspoiss$effectif/sum(conspoiss$effectif)

[1] 0.002566923 0.443711038 0.546021269 0.007700770

(d) La classe modale est la classe “souvent”, car l’effectif de cette classe est le plus

´elev´e. ⊲

∗ ∗ ∗

(4) [5 points] Dans une enquˆete sur les otites aigu¨es, on recueille chez un enfant les informations suivantes :

(a) ˆAge : 5 ans (b) Sexe : masculin

(9)

(c) Profession du p`ere : artisan

(d) Ant´ec´edent familial d’allergie (oui/non) : oui

(e) Consommation du tabac du p`ere (en sig /j : 0-9 ; 10-19 ;≥20) :10`a19 (f) Nombre d’otites depuis1an :2

(g) D´eficit auditif moyen :11.5 dB

(h) Douleur articulaire (absente, modérée, intense) : modérée

Lire les notes de cours 6 et classer chaque information dans l’une des catégories suivantes (correspondant au type de variable aléatoire) : qualitative binaire, qualitative nominale, qualitative ordinale, quantitative discrète, quantitative continue.

Remarque : une variable qualitative binaire est une variable dont les valeurs possibles sont deux, et il n’y a pas de relation d’ordre entre eux. “Nominale” c’est la même chose, mais le nombre des valeurs possibles d’épasse deux. Une variable est dite qualitative ordinale s’il y a un ordre naturel entre les classes (“aucune pigmentation” “légère” ”modérée” etc.) Discrète, comme toujours, indique que les valeurs possibles sont isolée l’une de l’autre, tandis que les valeurs possibles d’une variable continue remplissent un continu de la ligne droite (par nécessairement la ligne entière, mais par exemple un intervalle).

⊳(a) Quantitative discr`ete (ou bien continue, cela d´epend du point de vue).

(b) Qualititative binaire.

(c) Cat´egorique (=qualititative nominale).

(d) Qualititative binaire.

(e) Qualitative ordinale.

(f) Quantitative discr`ete.

(g) Quantitative continue.

(h) Qualitative ordinale.

Correction :5−xpoints pour8−xréponses correctes, jusqu’àx= 5, quand3réponses correctes valent0points.

Exercice : estimez la probabilit´e qu’on obtient au moins3r´eponses correctes en choisis-

sant les r´eponses au hasard. ⊲