Solutionnaire au devoir 2
1e devoir 2e devoir
101520
notes sur 20
FIG. 1. Les boˆıtes `a moustaches des r´esultats des devoirs 1 et 2.
Exercice : faire l’analyse comparative des r´esultats de deux premiers devoirs.
∗ ∗ ∗
(1) `A partir de donn´ees obtenues ces derni`eres ann´ees, on peut supposer que l’ˆage auquel un enfant commence `a marcher suit une loi normale de moyenne µ = 13 mois et d’´ecart-typeσ= 1.5mois.
(a) Quelle est la probabilit´e qu’un enfant commence `a marcher (i) [1 point] avant11mois ?
(ii) [1 point] avant15mois ?
(b) [1 point] Quelle est la probabilit´e qu’un enfant marche entre11et15mois ? (c) [1 point] Quelle est la probabilit´e qu’un enfant commence `a marcher exactement
`a13mois ?
(d) [1 point] Quel risque de se tromper prend-on en pariant qu’un enfant marchera entre12et15mois ?
Remarque : utilisez R. Par exemple, dans (a), la probabilit´e qu’un enfant com- mence `a marcher avent 11 mois, c’est-`a=dire,
P[X ≤11],
est exactement la “lower tail” de la distribution normale `a X = 11, et peut ˆetre trouver avec R commander. (N’oubliez pas de mettre les valeurs correctes deµet de σ). Pour (b), il s’agit deP[11≤X ≤15], et cetera...
⊳(a1) Il s’agit de la probabilit´e de l’´ev`enement [X ≤11],
qui est la queue inf´erieure de la loi normale avecµ = 13etσ = 1.5. Dans R com- mander, choisissez Distributions→continuous distributions→normal distribution
→normal probabilities, mettezµ = 13etσ = 1.5, et posez variable value ´egale `a 11. Choisissez Lower Tail. Voici la r´eponse que vous obtiendrez :
> pnorm(c(11), mean=13, sd=1.5, lower.tail=TRUE) [1] 0.09121122
Cela veut dire : la probabilit´e qui nous int´eresse est ´egale `a9.1%.
(a2) De mˆeme fac¸on, le calcul pareil fait pour la valeur de la queue inf´erieure corr´espondante `a la valeur de variableX = 15nous apporte :
> pnorm(c(15), mean=13, sd=1.5, lower.tail=TRUE) [1] 0.9087888
On en conclut : la probabilit´e qu’un enfant commence `a marcher avant15mois est
´egale `a90.9%.
(b) Ici nous nous occupons de la probabilit´e de l’´ev`enement [11 ≤X ≤15].
On a
P[11≤X ≤15] = P[11< X ≤15]
= P[X ≤15]−P[X ≥11]
= 0.9087888−0.09121122
= 0.8175776.
On en d´eduit : la probabilit´e qu’un enfant commence `a marcher entre11et15mois est81.8%.
(c) La probabilit´e de l’´ev`enement [X = 13]
est nulle.
(d) D’abord, on calcule la probabilit´e de l’´ev`enement favourable : P[12≤X ≤15] = P[X ≤15]−P[X ≥12]
= 0.9087888−0.2524925
= 0.6562963.
L’´ev`enement defavourable, o`u on se trompe, c’est l’´ev`enement compl´ementaire au l´ev`enement
[12 ≤X ≤15], donc sa probabilit´e est ´egale `a
1−P[12 ≤X ≤15] = 1−0.6562963 = 0.3437037.
En pariant qu’un enfant marchera entre12et15mois on prend la risque de34.4%.⊲ Remarque : mˆeme en supposant que vous n’avez pas d’acces au logiciel statis- tique, on peut toujours trouver les tables statistiques sur le web, par exemple, en
“googlant” tables statistiques usuelles. Elles ne donnent que les valeurs des queues pour la loiN(0,1). Pourtant, car la variable
Y = X−µ σ est centr´ee r´eduite, on en obtient facilement
X =σY +µ, d’o`u
X ≤a ⇐⇒ σY +µ≤a ⇐⇒ Y ≤ a−µ σ . Par cons´equent,
P[X ≤a] =P
Y ≤ a−µ σ
.
La derni`ere valeur est d´ej`a trouvable dans une table statistique usuelle...
∗ ∗ ∗
(2) Un biologiste de la faune sauvage examine les grenouilles au sujet d’un trait g´en´etique possiblement associ´e `a la sensivit´e ´elev´ee `a des toxines industrielles. Lors de la re- cherche pr´ecedante on a ´etabli que le trait en question est pr´esent chez 10 % des grenouilles environ. Le biologiste ramasse et examine douze grenouilles. En suppo- sant qu’une grenouille ait ce trait avec la probabilit´e de0.10, r´epondre aux questions suivantes.
(a) [1 point] Donner le nombre attendu des grenouilles poss`edant ce trait, ainsi que l’´ecart-type du nombre des grenouilles avec ce trait.
(b) [1 point] Calculer la probabilit´e qu’aucune grenouille n’ait pas ce trait.
(c) [1 point] Calculer la probabilit´e qu’au moins2grenouilles auront le trait.
l’histogramme des résultats du devoir 2
notes
effectif
8 10 12 14 16 18 20
012345
FIG. 2. L’histogramme des r´esultats du devoir 2.
(d) [1 point] Calculer la probabilit´e que 3 ou 4 grenouilles auront le trait.
(e) [1 point] Maintenant supposons que le nombre des grenouilles s´electionn´ees est n = 300. Calculer la probabilit´e que30grenouilles au maximum poss`ederont le trait g´en´etique.
Remarque : ici il s’agit d’une variable al´eatoire dont la loi est binˆomiale, avec N = 12etp= 0.1. Pour une telle variable, on sait calculer la moyenne (l’esperance math´ematique), ainsi que l’´ecart-type... Pour(e), R devient indispensable, c’est la
“lower tail” probabilit´e, mais de la loi binˆomiale. Choisissez les valeurs deN et dep correctes...
⊳(a) Notons notre variable al´eatoire par X. On a donc µ = EX = N p = 12· 0.1 = 1.2. Tel est le nombre attendu des grenouilles poss`edant le trait g´en´etique.
Pareillement, la formule pour l’´ecart-type d’une variable binˆomiale est σX =p
N pq =p
N p(1−p) =√
12·0.1·0.9 =√
1.08 = 1.039230.
(b) Il s’agit de la probabilit´eP[X = 0]. On peut calculer la probabilit´e directe- ment, sans l’aide de R (n’importe quelle calculette simple suffirait). Notamment, on sait des notes de cours que
P[X =i] =CNi piqN−i,
o`uN = 12eti= 0. Par cons´equent,
P[X = 0] =C120 (0.1)0(0.9)12= 1·1·(0.9)12 = 0.2824295.
La route plus simple, c’est de choisir le menu de dans R commander : Distribu- tions→discrete distributions→Binomial distribution→binomial tail probabilities.
Posez variable value= 0, binomial trials= 12, probability of success= 0.1, lower tail. On obtient :
> pbinom(c(0), size=12, prob=0.1, lower.tail=TRUE) [1] 0.2824295
Pa probabilit´e qu’aucune grenouille n’ait pas ce trait est28.2%.
(c) Ici le calcul direct devient un peu g´enant, et l’usage de R est presque in´evitable.
Pour calculer la probabilit´e en question,P[X ≥2], choisissez dans R commander : Distributions→discrete distributions→Binomial distribution→binomial tail pro- babilities. Posez variable value = 1, binomial trials = 12, probability of success
= 0.1, upper tail. Prenez la note que R calcule la queue sup´erieure comme suit : P[X > x],
et c’est pour cette raison qu’on choisitX = 1et pasX = 2, car on a P[X ≥2] = P[X >1].
La r´esponse :
> pbinom(c(1), size=12, prob=0.1, lower.tail=FALSE) [1] 0.3409977
La probabilit´e qu’au moins2grenouilles auront le trait est34.1%.
(d) Ici je sugg`ere l’usage de R. Par exemple, on peut noter que P[X= 3ou4] =P[X ≤4]−P[X ≤2],
et maintenant on trouve deux queues inf´erieures comme ci-dessus :
> pbinom(c(4), size=12, prob=0.1, lower.tail=TRUE) [1] 0.9956707
> pbinom(c(2), size=12, prob=0.1, lower.tail=TRUE) [1] 0.88913
et enfin
P[X = 3ou4] = 0.9956707−0.88913 = 0.1065407.
La probabilit´e que 3 ou 4 grenouilles auront le trait est10.7%.
(e) Exactement la mˆeme situation, le mˆeme genre de calcul. Ici on a N = 300, i= 30,p= 0.1. R commander nous donne la r´eponse :
P[X ≤30] = 0.5484187.
> pbinom(c(30), size=300, prob=0.1, lower.tail=TRUE) [1] 0.5484187
Si le nombre des grenouilles s´electionn´ees estn= 300, alors avec la probabilit´e54.8
%30grenouilles au maximum poss`ederont le trait g´en´etique. ⊲ Remarque : dans (e), on peut estimer l’ordre de magnitude de la r´eponse correcte- ment sans utiliser aucun logiciel, ni mˆeme la calculette, comme suit. La loi binˆomiale B(300,0.1) peut ˆetre approxim´ee par la loi normale avec la mˆeme moyenne et le mˆeme ´ecart-type. La moyenne µ = N p = 30, l’´ecart-type est ´egal `a √
N pq =
√300·0.1·0.9 = 3√
3. Pourtant, la valeur deσpeu importe, car la moyenne est30, et car la courbe gausienne est sym´etrique autour de sa moyenne, on a ´evidemment P[X ≤ µ] = 0.5(pour la loi normale !) On en conclut : la r´eponse est approximati- vement0.5. En effet, cette approximation dans notre cas n’est pas tr`es pr´ecise. Elle devient raisonnable siN p >100.
−2 −1 0 1 2
101520
norm quantiles
dev1
−2 −1 0 1 2
101214161820
norm quantiles
dev2
FIG. 3. Le test quantile-quantile de normalit´e des r´esultats des devoir 1 (`a gauche) et 2.
Exercice : qu’est-ce qu’on peut en d´eduire au sujet de la normalit´e possible des r´esultats des devoirs 1 et 2 ? N’est-il pas surprenant, en vue de l’histogramme des r´esultats du devoir 1 ? Comment peut-on expliquer cette conclusion ?
∗ ∗ ∗
(3) [5 points] Regardez l’´echantillon suivant des sujets atteints du cancer de la prostate.
Ils ont ´et´e suivis pendant30ans. Ils sont class´es selon la consommation de poisson.
Consommation de poisson Nombre des personnes
Jamais/rarement 14
Parfois 2420
Souvent 2978
Partie importante du r´egime 42
∗ ∗ ∗
(a) Est-ce que la variable est cat´egorique, ordinale, et/ou num´erique ?
(b) Cr´eer un sommaire graphique des donn´ees montrant les effectifs de chaque classe.
(c) Trouver les fr´equences de chaque classe.
(d) Trouver la classe modale.
⊳(a) La variable et cat´egorique ordinale (semi-quantitative) : ses valeurs ne sont pas r´eelles, mais au mˆeme temps elles sont ordonn´ees de mani`ere naturelle :
jamais ≺ parfois ≺ souvent ≺ font partie importante du r´egime alimentaire (b) Par exemple, comme expliqu´e dans les notes de cours, on peut le faire en utilisant R. Cr´eerons l’objet data frame :
> conspoiss <- data.frame(effectif = c(14,2420,2978,42), + row.names = c("jamais/rarement","parfois","souvent", + "partie importante"))
> conspoiss
effectif
jamais/rarement 14
parfois 2420
souvent 2978
partie importante 42
Maintenant on produit le diagramme en bˆatons :
> barplot(conspoiss$effectif)
(En v´erit´e, la commande qui a produit le diagramme 4 ´etait l´eg`erement plus com- pliqu´ee :
> barplot(conspoiss$effectif,col="5",names=
+ row.names(conspoiss), ylim=c(0,3000)) )
(c) La fr´equence de la classeiest donn´ee par la formule fi = ni
n,
jamais/rarement souvent
050010001500200025003000
FIG. 4.
o`un=n1+n2+. . .+nkest la fr´equence totale. Dans notre cas, la fr´equance totale est ´egale `a
n = 14 + 2420 + 2978 + 42 = 5454, d’o`u on conclut : le fr´equences des4classes sont
– njamais = 545414 = 0.002566923 – nparf ois = 24205454 = 0.443711038 – nsouvent = 29785454 = 0.546021269 – nimportant = 545442 = 0.007700770
Avec R, on peut trouver le vecteur des fr´equences comme suit :
> conspoiss$effectif/sum(conspoiss$effectif)
[1] 0.002566923 0.443711038 0.546021269 0.007700770
(d) La classe modale est la classe “souvent”, car l’effectif de cette classe est le plus
´elev´e. ⊲
∗ ∗ ∗
(4) [5 points] Dans une enquˆete sur les otites aigu¨es, on recueille chez un enfant les informations suivantes :
(a) ˆAge : 5 ans (b) Sexe : masculin
(c) Profession du p`ere : artisan
(d) Ant´ec´edent familial d’allergie (oui/non) : oui
(e) Consommation du tabac du p`ere (en sig /j : 0-9 ; 10-19 ;≥20) :10`a19 (f) Nombre d’otites depuis1an :2
(g) D´eficit auditif moyen :11.5 dB
(h) Douleur articulaire (absente, mod´er´ee, intense) : mod´er´ee
Lire les notes de cours 6 et classer chaque information dans l’une des cat´egories sui- vantes (correspondant au type de variable al´eatoire) : qualitative binaire, qualitative nominale, qualitative ordinale, quantitative discr`ete, quantitative continue.
Remarque : une variable qualitative binaire est une variable dont les valeurs possibles sont deux, et il n’y a pas de relation d’ordre entre eux. “Nominale” c’est la mˆeme chose, mais le nombre des valeurs possibles d’´epasse deux. Une variable est dite qualitative ordinale s’il y a un ordre naturel entre les classes (“aucune pigmentation” “l´eg`ere” ”mod´er´ee” etc.) Discr`ete, comme toujours, indique que les valeurs possibles sont isol´ee l’une de l’autre, tandis que les valeurs possibles d’une variable continue remplissent un continu de la ligne droite (par n´ecessairement la ligne enti`ere, mais par exemple un intervalle).
⊳(a) Quantitative discr`ete (ou bien continue, cela d´epend du point de vue).
(b) Qualititative binaire.
(c) Cat´egorique (=qualititative nominale).
(d) Qualititative binaire.
(e) Qualitative ordinale.
(f) Quantitative discr`ete.
(g) Quantitative continue.
(h) Qualitative ordinale.
Correction :5−xpoints pour8−xr´eponses correctes, jusqu’`ax= 5, quand3r´eponses correctes valent0points.
Exercice : estimez la probabilit´e qu’on obtient au moins3r´eponses correctes en choisis-
sant les r´eponses au hasard. ⊲