Introduction à la biostatistique – Mat 2779 Solutionnaire à l’examen final

(1)

Solutionnaire `a l’examen final

note de cours

fréquence

30 40 50 60 70 80 90 100

012345

−1 0 1

405060708090

norm quantiles

la note finale pour le cours, sur 100

FIG. 1. Les r´esultats du cours.

I. Questions `a choix multiple

(1) [1 point] Une companie pharmaceutique teste un analgique chez 6 patients qui souffrent des migraines vestibulaires. Parmi les membres de ce groupe, 4ont été guéri. Sachant que 20% des migraines s’abaissent de toute façon sans médicament, trouvez la probabilité que4 personnes ou plus seront guéri sans l’aide de l’analgique.

A) 0.0016 B) 0.25343 C) 0.35232 D) 0.01696 E) 0.99921

⊳SoitX le nombre des malades guéris sans l’aide de l’analgique dans un échantillon de6 personnes. La v.a.Xsuit la loi binômiale avecp= 0.2. On a :

P(X≥4) = P[X = 4] +P[X = 5] +P[X = 6]

= C6⁴0.2⁴0.8²+C6⁵0.2⁵0.8¹+C6⁶0.2⁶

= 0.01696

(2)

dev 1 mi−session dev 4 note

020406080100

résultats normalisés sur 100

FIG. 2. R´esultats comparatifs des tous les devoirs et les examens, ainsi que la note finale, normalis´es sur 100.

> choose(6,4)*0.2ˆ4*0.8ˆ2+choose(6,5)*0.2ˆ5*0.8+

+ choose(6,6)*0.2ˆ6 [1] 0.01696

La r´eponse correcte est D. ⊲

(2) [1 point] Vous vous rendez à Las Vegas le jour de votre 25^ème anniversaire et vous pariez donc sur le numéro25de la roulette. Vous gagnez. Vous pariez une seconde fois, tou- jours sur lr numéro25, et vous gagnez encore ! Une roue de roulette a38cases (1à36,0et 00) ; il y a donc une chance sur38qu’un tour se termine sur le25. Supposant que la roulette n’est pas biaisée, quelle est la probabilité que deux tours conséqutifs s’arrêtent à sur le25? A)1/38 = 0.026;

B)C38² /38² = 0.487; C)1/(38)² =0.0007;

(3)

D)1/(25)² = 0.0016; E)1/(25×38) = 0.0011.

⊳SoirAil’évènement d’observer un25sur lei-ème essai. CarA¹etA²sont indépendants, on a

P(A¹∩A²) =P(A¹)P(A²) = 1/(38)²= 0.0007.

La bonne r´eponse est C. ⊲

(3) [1 point] Parmi les espèces des arbres qui peuplent un forêt 20%sont l’érable et15%

des arbres d’érable ont entre 10 et 15 années. Nous choisissons un arbre au hasard dans cette forêt. Quelle est la probabilité à choisir un arbre d’érable qui a entre 10 et 15 ans d’âge ?

A) 0.03 B) 0.15 C) 0.20 D) 0.75 E) 0.175

⊳ SoirM=“lérable” etA=“entre 10 et 15 ans”. On sait quep(M) = 0.2etP(AkM) = 0.15. D’après le théorème de multiplication, on en déduit

P(M∩A) = P(M)P(AkM) = 0.2×0.15 = 0.03. ⊲ La bonne r´eponse : A.

(4) [1 point] Un article rapporte que les membranes cellulaires ont en moyenne1201fmol de récepteurs par milligramme de protéine membranaire, avec l’écart type d’échantillon de 64fmol. Ces données proviennent de9expériences. Calculez l’intervalle de confiance pour la moyenne de population de récepteurs à95%. (Supposez la population normale).

A)[1077,1329] B)[1139,1267] C)[0,1322] D)[1055,1351] E)[1098,1308]

Remarque : la formulation du problème est inexact, c’est ma faute, il s’agit ici de l’écart type de la moyenne de la population observée. Donc, la réponse est D, mais j’ai accepté toutes les réponses où 64 a ’eté traité litteralement, comme l’écart type d’échantillon, est divisé par√

3.

⊳L’intervalle de confiance au95%est voici :

x±t⁹_.025⁻¹sM = 1203±2.306 (64) = [1055.416,1350.584]. ⊲

(5) [1 point] Des mutations génétiques ont été trouvées chez des patients avec la dystro- phie musculaire. Dans une étude, on a trouvé des défauts dans le codage de gène qui code pour le complexe des sarcoglycanes chez 23 sur 180 patients atteint de la myopathie des ceintures. Construisez un intervalle de confiance au 90 % pour la proportion de la population des défauts de ce type chez les sujets atteints de la myopathie des ceintures.

(4)

A) [0.087,0.169] B) [0.187,0.269] C) [0.130,0.325] D) [0.179,0.277] E) [0.079,0.177]

⊳Voici l’intervalle de confiance pourπ au 90% : p±z.05

rp(1−p)

n = 23

180 ±1.645

r(23/180)(1−23/180)

180 = [0.087,0.169] ⊲

(6) [1 point] Vinght cochons ont été groupés en 10 couples de telle sorte que les deux cochons d’un même couple soient de poids similaires. Un cochon a été choisi aléatoirement dans chaque couple pour récevoir le régimeX, alors que le second recevait le régimeY. Les gains moyens de poids observés par jour sont les suivants :

couple 1 2 3 4 5 6 7 8 9 10

r´egimeX 21 21 19 16 26 19 18 29 27 19 r´egimeY 30 25 25 16 29 18 18 19 24 22

Peut-on dire que deux régimes sont statistiquement différents ? Testez l’hypothèse perti- nente. Supposez que la différence du gain de poids des cochons appariés suit la loi normale.

A) les échantillons sont appariés, on échoue à rejeterH⁰, et le non rejet deH⁰ne permet pas dire que les régimes sont statistiquement différents ;

B) les échantillons sont appariés,H⁰ est rejetée et on en conclut que les régimes sont statistiquement différents ;

C) les échantillons sont indépendants, on échoue à rejeterH⁰, et le non rejet deH⁰ne permet pas dire que les régimes sont statistiquement différents ;

D) les échantillons sont indépendants, on rejette l’hypothèse nulle et conclut que deux régimes sont statistiquement différents ;

E) les échantillons sont appariés,H0n’est pas rejetée, d’où on conclut que deux régimes sont statistiquement différents.

⊳Les deux échantillons sont appariés. On calcule le vecteur des différences :

> x=c(21,21,19,16,26,19,18,29,27,19)

> y<-c(30,25,25,16,29,18,18,19,24,22)

> d <- x-y

> d

[1] -9 -4 -6 0 -3 1 0 10 3 -3

On cherche la moyenne d’échantillon dedet l’écart type d’échantillon ded:

> dbar [1] -1.1

> s <- sd(d)

> s

[1] 5.258855

(5)

(Bien sˆur que vous cherchez tout c¸ a avec une calculette).

L’hypoth`ese nulle nous dit que D = 0, l’hypoth`ese alternative que D 6= 0. Le test est bilateral.

La statistique du test :

> z0 <- dbar/(s/sqrt(length(d)))

> z0

[1] -0.6614568

Car n = 10, il faut utiliser la loi de Student avec 10−1 = 9 degrés de liberté. De cette fac con, on ne peut pas determiner la valeur p. La valeur critique donnée par la table3 qui correspond àα= 5%est2.2622. C’est la valeur pour le test bilateral. Car

z⁰ =−0.6614568>−2.2622,

on ne peut pas rejeter l’hypoth`ese nulle. Il n’y a pas assez d’´evidence pour conclure que les

deux r´egimes sont statistiquement diff´erents. ⊲

(7) [1 point] L’échelle de QI (= IQ) d’une certaine population a été crée de sorte que la moyenne égale 100 et l’écart type15. On sait que la distribution de QI suit la loi normale.

Quelle proportion de la population a un QI sup´erieur `a135?

A)1%; B)2%; C)2.3%; D)35%; E) les donn´ees sont insuffisantes.

⊳ La valeur de la variable centrée réduite Z est égale à z⁰ = (135−100)/15 = 2.333, donc

> pnorm(2.3333, lower.tail=FALSE) [1] 0.009816203

Bien sûr que vous cherchez la valeur avec la table 1, d’oùF(z⁰) = 0.9901et par conséquent la réponse est

1−F(z⁰) = 1−0.9901 = 0.0099,

arrondie `a1%. ⊲

(8) [1 point] Les taux de cholestérol (mg/dl) suivants ont été mesurés chez10personnes : 260 150 160 200 210 240 220 225 210 240

Calculez l’´ecart-type d’´echantillon.

A)1200.3 B)34.6 C)236.2 D)32.9 E)211.5

(6)

⊳ s = v u u t

10

X

i=1

(xi−x)¯ ²/(10−1)

= v u u t

10

X

i=1

(xi−211.5)²/9

= p

10802.5/9

= √

1200.278

= 34.64503 ⊲

(9) [1 point] Les tailles d’une certaine population des plantes de ma¨ıs ont la moyenne de 145.0 cm et l’écart type de 22.0 cm. On choisit un échantillon aléatoire den= 15plantes de ma¨ıs. Calculez l’écart type de la moyenne d’échantillon de15plantes.

A) 22.0 B) 1.47 C) 15 D) 12.5 E) 5.68

⊳L’écart type de la moyenne d’échantillon (l’erreur standard) est égal àσ/√

n= 22/√ 15 =

5.68. ⊲

(10) [1 point] Soit la variable al´eatoireXprenant les valeurs0,1,2,5et8telle que : F(0) = 0.5;F(5) = 15/16;P[X= 2] =P[X = 8];P[X = 1] =P[X = 2] +P[X= 8].

(IciF note la fonction de r´epartition deX).

CalculezP[X = 5].

A)1/16; B)1/8; C)1/4; D)1/2; E)3/16.

⊳On a

0.5 =F(0) =P[X ≤0] =P[X = 0].

De plus,

P[X = 8] = 1−P[X≤5] = 1−F(5) = 1−15/16 = 1/16.

Par cons´equent,

P[X = 2] =P[X = 8] = 1/16, d’o`u on conclut :

P[X = 1] =P[X = 2] +P[X = 8] = 1/16 + 1/16 = 1/8.

(7)

Maintenant on sait les probabilit´es de toutes les valeurs sauf 5. Cela permet de calculer P[X = 5]:

P[X = 5] = 1−P[X = 0]−P[X = 1]−P[X = 2]−P[X= 8]

= 1−1/2−1/8−1/16−1/16

= 1/4.

⊲

(11) [1 point] Les tailles d’une certaine population des plantes de ma¨ıs ont la moyenne de 145.0 cm et l’écart type de 22.0 cm. Considérez un échantillon aléatoire de n = 15 plantes de ma¨ıs. Supposez que la distribution de tailles suit la loi normale. Trouvezcde façon que

P

X−145.0 s/√

15 > c

= 0.05,

oùXetSsont respectivement la moyenne d’échantillon et l’écart type d’échantillon.

A) 1.761 B) 1.753 C) 1.96 D) 1.645 E) 2.145

⊳Puisque la variable al´eatoire

X−145.0 s/√

15

suit la loit¹⁴de Student avecn−1 = 14degrés de liberté, on ac=t¹⁴0.05= 1.761. ⊲ (12) [1 point] Dans une lettre parue dans Nature (365 :992, 1992), on suggérait que les artistes avaient plus de garçons que de filles. Pour vérifier cette hypothèse, en cherchant dans Who is Who in Art, les chercheurs a trouvé que les artistes avaient1834fils et1640filles. En guise de groupe de comparaison, les chercheurs ont porté leur attention sur les4002enfants de non-artistes repris dans Who’s Who et ont trouvé que le nombre des fils valait2046contre 1956pour les filles. Est-ce que l’exces de fils dans la descendence des artistes est une co¨ınci- dence au niveau de confiance de95%?

A) c’est une co¨ıncidence ; B) nous avons une forte évidence que la chance de avoir un garçon est plus grande dans la communauté des artistes ; C) les données sont insuffisantes.

(8)

⊳On veut tester l’hypothèse nulle H : π −π = 0contre l’hypothèse alternativeH : π1−π2 >0. ”Voici la valeur observée de la statistique du test :

z⁰ = p1−p2

pp(1−p)p

1/n1+ 1/n2

= 1834/3474−2046/4002

p(1834 + 2046)/(3474 + 4002)[1−(1834 + 2046)/(3474 + 4002)]p

1/3474 + 1/4002

= 1.43.

Au95%, la valeur critique pour le test unilateral esta = 1.64, et car z⁰ = 1.43<1.64 =a,

on ne peut pas rejeterH⁰. Donc il semble ˆetre une co¨ıncidence. ⊲

(13) [1 point] Un chercheur voudrait savoir si la plupart des hommes nés en 1946 sont plus grands que leur père. D’un groupe de 250 sujets, on a découvert que 130 d’entre eux sont plus grands que leur père, 100 sont plus court et 20 ont une taille égale à celle de leur père. Au niveau de confiance de 5 %, pouvons-nous dire que plus de 50 % des hommes nés en 1946 ont une taille plus grande que celle de leur père ?

Soitpla proportion des hommes nés en 1946 qui sont plus grands que leur père. Indiquez l’hypothèse nulle et l’hypothèse alternative et la conclusion correctes.

A) H0 : π = 0.5, H1 : p > 0.5. Il y a assez d’évidence pour rejeter l’hypothèse nulle et conclure que plus de50%des hommes nés en 1946 sont plus grands que leur père.

B) H₀ :π=0.5,H₁ :π > 0.5. Il n’y a pas assez d’évidence pour rejeter l’hypothèse nulle et conclure que plus de 50% des hommes nés en 1946 sont plus grands que leur père.

C) H⁰ : π = 0.5, H¹ : π 6= 0.5. Il y a assez d’évidence pour rejeter l’hypothèse nulle et conclure que plus de50%des hommes nés en 1946 sont plus grands que leur père.

D)H⁰ :π = 0.5, H¹ :π 6= 0.5. Il n’y a pas assez d’évidence pour rejeter l’hypothèse nulle et conclure que plus de50%des hommes nés en 1946 sont plus grands que leur père.

E) H⁰ : π = 0.5, H¹ : π < 0.5. Il y a assez d’évidence pour rejeter l’hypothèse nulle et conclure que plus de50%des hommes nés en 1946 sont plus grands que leur père.

⊳On veut testerH⁰ : π = 0.5, H¹ :π > 0.5. Voici la valeur observ´ee de la statistique du test :

z⁰ = p−0.5

p0.5(1−0.5)/n = 130/250−0.5

p0.5(1−0.5)/250 = 0.632.

(9)

Car la valeur critique estz.05 = 1.645, la valeur observée n’est pas dans le région critique. Il n’y a pas d’assez d’évidence pour conclure que plus de 50%des hommes nés en 1946 sont

plus grands que leur p`ere. ⊲

(14) [1 point] Des études antérieures laissent supposer que le pourcentage de sujets de groupe sanguinAestπ = 40%dans une population déterminée. On se propose de s’en as- surer par un sondage portant sur un échantillon aléatoire. Combien aurait-il fallu de sujets pour d’eterminer, au risque de5%, ce pourcentage avec un précision (=incertitude) de2%? (Note : ici il s’agit d’une précision absolue).

A)2305; B)1614; C)47; D)1613; E)2304.

⊳On a :

n =z.025

i ²

p(1−p) =

1.96 0.02

²

(0.4)(0.6) = 2304.96.

On en conclut : on a besoin den= 2305observations. ⊲

II. Questions `a r´eponse courte

(15) [4 points] Vous trouverez ci-dessous la longueurX du thorax (en millim`etres) d’un

´echantillon de mouches `a fruit masculines.

0.72 0.90 0.84 0.68 0.84 0.90 0.92 0.84 0.64 0.84 0.76 0.77 On peut v´erifier que :

12

X

i=1

xi = 9.65 et

12

X

i=1

x²_i = 7.8497.

a) Donnez l’estimation ponctuelle de la longueur moyenne de la population.

b) Calculez l’´ecart type de la moyenne de la population estim´ee.

c) En supposant que la distribution de la longueur du thorax suit la loi normale, calculez un intervalle de confiance au95%pour la longueur du thorax moyenne de la population.

⊳(a) C’est la moyenne d’´echantillon : m= 1

12

X

i=1

xi = 9.65

12 = 0.8041667.

(10)

(b) On a, pour l’´ecart type de la moyenne d’´echantillon, sM = s

√n.

Donc, d’abord on calcule l’´ecart type d’´echantillon : s² =

P¹²

i=1(xi−x)¯ ² n−1

= P¹²

i=1x²_i −12(¯x)² n−1

= 7.8497−0.8041667×9.65 11

= 0.008135577, d’o`u

s=√

s² =√

0.008135577 = 0.09019743.

Maintenant on a

s_M = s

√n = 0.09019743

√12 = 0.02603780.

(c) La valeur critique

a=zα/2 =z⁰.025 = 1.959964, et voici l’intervalle de confiance :

m±as_M = 0.8041667±1.959964×0.02603780

= 0.8041667±0.05103316

= [0.7531335,0.8551998].

⊲ (16) [4 points] Des études antérieures ont montré que 25% des infections graves sont dûes à des infections nosocomiales, que15%des infections graves non dûes à des infections nosocomiales provoquent un décès tandis que cette proportion sélève à30% quand il s’agit d’une infection grave dûe à une infection nosocomiale.

Dans un service hospitalier, un décès survient suite à une infection grave. Qulle est la probabilité que le décès soit dû à une infection nosocomiale ?

⊳Soient :

Dlévènement “un décès après une infection grave”, IN lévènement “infection nosocomiale”.

D’après les données du problème on a :

P(IN) = 0.25 P(IN^c) = 0.75 P(DkIN) = 0.15 P(DkIN) = 0.3

(11)

La probabilité que le décès observé à la suite d’une infection grave soit dû à une infection nosocomiale s’exprime par :

P(INkD) L’application du th´eor`eme de Bayes donne :

P(INkD) = P(IN)·P(DkIN)

P(IN)·P(DkIN) +P(IN)·P(DkIN)

= 0.25·0.3 0.25·0.3 + 0.75·0.15

= 0.4.

⊲ (17) [4 points] Un agronome mesure le pourcentage de la teneur en eau dans un échantillon de 20 boisseaux de blé soumis à une technique de séchage spéciale. Voici le sommaire numérique des données :

mean sd 0% 25% 50% 75% 100% n 7.26 0.303315 6.7 7 7.3 7.425 7.8 20

Si la teneur en eau moyenne dépasse7.1, le processus de séchage devrait être continué.

Répondez aux questions trouvées ci-dessous afin de décider : “Devrions-nous continuer le séchage de la population du blé de laquelle l’échantillon a été tiré ?”

a) La figure 3 donne le r´esultat du test de comparaison quantile-quantile des teneurs en eau.

Quel est le but de ce test ? Discutez.

b) Formulez l’hypothèse nulle et l’hypothèse alternative concernant un paramètre de popula- tion pour répondre à la question : “Devrions-nous continuer le séchage de la population du blé de laquelle l’échantillon a été tiré ?”

c) Testez l’hypoth`ese de la partie (b) auα= 5%.

⊳(a) Le test est utilisé pour décider s’il est raisonnable de supposer que la teneur en eau est distributée normalement. Car tous les points sur le diagramme se trouvent entre les bandes de confiance, une telle hypothèse semble être raisonnable.

(b) Notonsµla teneur en eau de la population. On veut tester H⁰ :µ= 7.1 contre H¹ :µ >7.1.

(c) La valeur observ´ee de la statistique du test est voici : t⁰ = x−7.1

s/√

n = 7.26−7.1 0.303315/√

20 = 2.36.

La valeurpest égale àP[T >2.36], oùT suit la loitde Student avecn−1 = 19degrés de liberté. Puisque

t¹⁹_.025 = 2.093 et t¹⁹_.01= 2.539,

(12)

−2 −1 0 1 2

6.87.07.27.47.67.8

norm quantiles

humidity$humidity

FIG. 3.

on a 0.01 < p-value < 0.025. Auα = 5%, nous avons une forte ´evidence que la teneur en eau surpasse 7.1.

Donc, le séchage du blé devrait être continué. ⊲

(18) [4 points]

Dans un article publié en 1994, Pullan et collaborateurs ont étudié l’utilisation de nicotine transdermique pour traiter la colite ulcérieuse. Le niveau de nicotine plasmatique du groupe de contrôle den¹ = 45sujets sans traitement valait0.5±1.1ng/ml (moyenne±l’écart-type de la moyenne d’échantillon). Le niveau plasmatique de n² = 40sujets du groupe de traitement après6semaines de traitement valait8.2±7.1ng/ml. L’augmentation de niveau de nicotine plasmatique après le traitement est-elle statistiquement significative au99%? a) Quel test d’hypothèse utiliserez-vous ?

b) Formulez l’hypoth`ese nulle et l’hypoth`ese alternative.

c) Calculez la statistique du test.

(13)

d) Testez l’hypoth`ese et formulez votre conclusion.

⊳a) Les populations sont ind´ependantes et on a choisi deux grands ´echantillons, donc on va utiliser la statistiquez,

Z = X¹ −X² ps²1/n¹+s²2/n² afin de tester l’hypoth`ese sur deux moyennes :µ¹ −µ². b) On va tester

H⁰ :µ¹−µ² = 0 contre HA :µ¹−µ² <0,

o`u µ¹ et µ² sont les moyennes de population des niveaux de nicotine plasmatique dans le groupe de contrˆole et le groupe de traitement, respectivement.

c) La valeur de la statistique de test observ´ee est ’egale `a : z⁰ = 0.5−8.2

p(1.1)²+ (7.1)² =−1.07.

d) La valeurpest voici :

P = 2P(Z >1.07) = 2 (1−F(1.07)) = 2 (1−.8577) = 0.2846.

Car la valeur pest grande, on ne peut pas rejeterH⁰. L’augmentation de niveau de nicotine plasmatique apr`es le traitement n’est pas statistiquement significative au99%.

Remarque : Veuillez noter que les tailles des ´echantillons ne servent que pour d´eterminer la loi de distrubtion de la statistique de test,Z (normale). ⊲