Universit´ e de Strasbourg Ann´ ee 2020/2021
M2 - Statistique S´ egolen Geffray
Mod` eles lin´ eaires g´ en´ eralis´ es geffray@math.unistra.fr
TD 1 : mod` eles ` a effets fixes
Exercice 1.
Soit (ε i ) i=1,..,n une suite de v.a.i.i.d. de loi N (0, σ 2 ). Parmi les mod` eles suivants, quels sont ceux qui correspondent (´ eventuellement apr` es transformation) ` a un mod` ele de r´ egression lin´ eaire ?
1. Y i = β 0 + β 1 X i + β 2 X i 2 + ε i
2. Y i = β 0 + β 1 (X i − α) 2 + ε i 3. Y i = β 0 + exp(β 1 )X i + ε i 4. Y i = β 0 + β 1 exp(X i ) + ε i 5. Y i = β 0 exp(β 1 X i ) |ε i |, β 0 > 0, 6. Y i = β 0 exp(β 1 X i ) + ε i
7. Y i = β 0
1 + β 1 X i + ε i 8. Y i = α exp(β 0 + β 1 X i )
1 + exp(β 0 + β 1 X i ) + ε i 9. Y i
X i (1) = β 0 + β 1 X i (2) + ε i
Exercice 2.
1. Ecrire l’´ equation et les hypoth` eses d´ efinissant un mod` ele de r´ egression pour la variable r´ eponse Y repr´ esentant le prix d’une bouteille d’un certain vin AOC en fonction de variables climatologiques : quantit´ e cumul´ ee de pluie durant l’hiver, temp´ erature diurne journali` ere moyenne pendant l’´ et´ e, quantit´ e cumul´ ee de pluie pendant le mois pr´ ec´ edant les vendanges et l’ann´ ee de r´ ecolte.
2. Ecrire l’´ equation et les hypoth` eses d´ efinissant un mod` ele de r´ egression pour la variable r´ eponse Y repr´ esentant l’occurrence d’un cancer de l’œsophage incluant diff´ erents pr´ e- dicteurs : le taux sanguin de s´ el´ enium (en mg/L), la prise chronique d’aspirine, l’ˆ age, le sexe, la consommation hebdomadaire moyenne d’alcool (exprim´ ee en verres de vin).
Exercice 3.
Dans le contexte de la recherche agronomique, on mesure le rendement ` a l’hectare de champs plant´ es de pommes de terre obtenu dans trois conditions exp´ erimentales diff´ erentes. Dix par- celles de 1 ha servent de contrˆ ole et ne re¸coivent aucun fertilisant. Dix autres parcelles de 1 ha re¸coivent un fertilisant A tandis que dix autres parcelles de 1 ha re¸coivent un fertilisant B.
On recueille les donn´ ees suivantes : en dessous des rendements figure la pluviom´ etrie mensuelle
correspondante exprim´ ee en mm × (30j )
rendement : contrˆ ole 4.17 5.58 5.18 6.11 4.50 4.61 5.17 4.53 5.33 5.14 pluviom´ etrie 52.3 58.1 62.1 59.0 55.3 48.9 62.5 50.1 57.6 54.2 rendement : fertilisant A 4.81 4.17 4.41 3.59 5.87 3.83 6.03 4.89 4.32 4.69 pluviom´ etrie 52.4 57.1 59.1 39.0 55.0 48.2 62.6 51.1 55.6 52.2 rendement : fertilisant B 6.31 5.12 5.54 5.50 5.37 5.29 4.92 6.15 5.80 5.26 pluviom´ etrie 51.3 57.8 60.1 49.2 52.3 47.9 60.5 58.6 57.7 56.2 On se demande si le rendement est influenc´ e par le traitement du sol. Quelle est votre d´ emarche ? Que se passe-t-il si cette exp´ erience est effectu´ ee avec une plante fourrag` ere ` a croissance rapide de sorte qu’il y a trois r´ ecoltes sur chaque parcelle au cours de la belle saison ?
Exercice 4.
Dans le contexte de la recherche agronomique, on ´ evalue l’effet des fertilisations potassique et magn´ esienne sur le rendement du bl´ e. Le dispositif exp´ erimental comporte quatre doses de potassium et quatre doses de magn´ esium (en kg/ha). L’allocation des doses sur les diff´ erentes parcelles de plantation a ´ et´ e effectu´ ee par tirage au sort. Les r´ esultats de rendement (en kg/ha) sont les suivants. Quelle est votre analyse ?
Dose K
0 80 160 240
Dose Mg
0 203 253 257 261 20 206 247 270 267 40 204 244 266 276 80 179 252 265 259
Exercice 5.
Un agronome ´ etudie un fertilisant d’origine naturelle pour plantes d´ ecoratives ou potag` eres. Il souhaite en ´ evaluer l’efficacit´ e et l’universalit´ e afin d’´ emettre des recommandations ` a destina- tion des futurs utilisateurs de ce fertilisant. Pour cela, il mesure le rendement (en kg) obtenu en plantant diff´ erentes parcelles d’une surface d’1 m 2 de plantes d´ ecoratives ou potag` eres, avec ou sans fertilisant. Les plantes d´ ecoratives sont de trois types possibles : violac´ ees (cat´ egorie A, par exemple pens´ ees), g´ eraniac´ ees (cat´ egorie B, par exemple g´ eranium) ou ast´ erac´ ees (ca- t´ egorie C, par exemple soucis). Les l´ egumes sont de trois types possibles : apiac´ ees (cat´ egorie A, par exemple carottes), ch´ enopodiac´ ees (cat´ egorie B, par exemple ´ epinards) ou cucurbitac´ ees (cat´ egorie C, par exemple concombres). Il recueille les donn´ ees suivantes :
plantes d´ ecoratives plantes potag` eres
cat´ egorie A cat´ egorie B cat´ egorie C cat´ egorie A cat´ egorie B cat´ egorie C sans/avec sans/avec sans/avec sans/avec sans/avec sans/avec
1.0 / 1.2 1.2 / 1.5 4.1 / 4.3 8.4 / 9.1 6.2 / 6.9 3.0 / 4.1 0.9 / 0.9 1.1 / 1.4 5.1 / 5.3 9.3 / 9.6 5.3 / 5.8 2.0 / 3.8 0.9 / 1.3 1.5 / 1.8 5.2 / 5.6 7.2 / 8.2 7.1 / 7.3 2.3 / 3.8 0.9 / 1.4 2.1 / 2.4 4.8 / 4.8 9.0 / 9.1 7.0 / 7.4 3.2 / 3.3 1.1 / 1.0 2.0 / 3.2 / 3.1 8.2 / 8.2 6.8 / 7.1 4.5 / 5.6
1.2 / 1.8 3.6 / 3.9 5.1 / 5.9 / 6.8 / 6.2
0.9 / 1.8 / 5.2 7.0 / 7.1 / 7.4 / 5.6
Comment tester l’efficacit´ e du fertilisant et l’universalit´ e du terreau ?
Exercice 6.
Dans le contexte de la recherche en biologie cellulaire, on ´ evalue l’effet de deux nutriments A et B sur le nombre de colonies de cellules se d´ eveloppant dans une boˆıte de P´ etri. Le dispositif exp´ erimental comporte quatre doses de nutriment A et quatre doses de nutriment B (en µg).
Les nombres associ´ es de colonies de cellules sont les suivants.
dose A 0 20 40 80
Dose B
0 2 2 3 5
20 0 2 0 1
40 1 0 2 2
80 1 2 2 4
Quelle est votre analyse ? Ecrire l’´ equation et les hypoth` eses d´ efinissant un mod` ele que l’on pourrait ajuster sur ces donn´ ees. Comment tester H 0 : les nutriments ont des effets similaires ? Comment tester H 0 : les nutriments A et B ont un effet sur le nombre de colonies apparues ?
Exercice 7.
La scl´ erose en plaques (SEP) est une affection inflammatoire chronique du syst` eme nerveux central (SNC) survenant chez l’adulte jeune. Le comptage des zones c´ er´ ebrales apparaissant l´ es´ ees ` a l’IRM peut ˆ etre utilis´ e comme biomarqueur dans cettte affection. On r´ ealise une ´ etude chez 188 patients nouvellement diagnostiqu´ es et sans lien entre eux afin d’´ etudier l’influence potentielle des covariables suivantes sur les comptages obtenus :
— pr´ edisposition g´ en´ etique (oui/non),
— taux de vitamine D (en ng/mL),
— sexe (H/F),
— ˆ age,
— exposition au tabac (nulle, mod´ er´ ee, importante, tr` es importante).
On admettra qu’il n’y pas lieu de prendre en compte de termes d’interaction entre covariables, ni d’effectuer de transformation des covariables.
1. Ecrire les ´ equations et hypoth` eses d’un mod` ele adapt´ e ` a ce travail.
2. Comment ´ evaluer la qualit´ e de l’ajustement du mod` ele propos´ e aux donn´ ees ?
3. De quelle(s) alternative(s) au mod` ele initial de la question 1. dispose-t-on ? Pr´ eciser le probl` eme que tente de r´ esoudre la(les) alternative(s) propos´ ee(s).
4. Dans le cadre du mod` ele initial de la question 1., de quel(s) test(s) dispose-t-on pour
´
evaluer l’impact du tabagisme sur la r´ eponse ? Mettre en oeuvre.
5. Supposons maintenant que, dans le cadre du mod` ele initial de la question 1., on dispose de plusieurs observations distantes de quelques mois pour chacun des patients. Comment r´ e-´ ecrire le mod` ele ?
Exercice 8.
Consid´ erons la loi gaussienne inverse dont la loi admet la densit´ e suivante par rapport ` a la
mesure de Lebesgue :
f µ,σ 2 (y) = 1
p 2πσ 2 y 3 exp
− (y − µ) 2 2µ 2 σ 2 y
, y > 0, µ > 0, σ > 0 . 1. Montrer que la loi gaussienne inverse appartient ` a la famille exponentielle.
2. Ecrire les ´ equations et les hypoth` eses d´ efinissant un mod` ele de r´ egression lin´ eaire g´ en´ e- ralis´ e utilisant la loi gaussienne inverse et le lien canonique et incluant 4 pr´ edicteurs, X 1
et X 2 quantitatifs, X 3 et X 4 qualitatifs ` a respectivement 3 et 4 modalit´ es avec un terme d’interaction entre X 1 et X 3 .
3. De quel(s) test(s) d’ad´ equation dispose-t-on pour ´ evaluer l’ajustement du mod` ele ? Mettre en œuvre.
4. De quel(s) test(s) d’ad´ equation dispose-t-on pour ´ evaluer la n´ ecessit´ e de chacun des r´ egresseurs ? Mettre en œuvre.
5. Comment tester si l’impact de X (1) sur la variable r´ eponse Y est identique ` a l’impact de X (2) ?
Exercice 9.
Consid´ erons un mod` ele de r´ egression de Poisson avec le lien canonique incluant deux variables explicatives quantitatives X (1) et X (2) ainsi que deux variables explicatives qualitatives X (3) et X (4) comportant respectivement 3 et 4 modalit´ es. Consid´ erons dans le mod` ele une interaction entre X (2) et X (3) .
1. Ecrire l’´ equation et les hypoth` eses du mod` ele lin´ eaire g´ en´ eralis´ e correspondant.
2. De quel(s) test(s) dispose-t-on pour ´ evaluer la qualit´ e de l’ajustement d’un tel mod` ele ` a des donn´ ees ?
3. De quel(s) test(s) dispose-t-on pour ´ evaluer la n´ ecessit´ e de l’inclusion de X (3) ? Mettre en œuvre.
4. Supposons maintenant qu’` a la suite de l’analyse pr´ ec´ edente, on a ´ ecart´ e X (3) du mod` ele.
R´ e´ ecrire le mod` ele obtenu. De quel(s) test(s) dispose-t-on pour ´ evaluer la n´ ecessit´ e de l’inclusion de X (1) ? Mettre en œuvre.
5. Supposons maintenant que, dans le cadre du mod` ele initial, on dispose de 5 observations successives pour chacun des individus. Comment r´ e´ ecrire le mod` ele ?
Exercice 10.
Un m´ edecin souhaite essayer de pr´ evoir la r´ eponse ou la non-r´ eponse d’un patient ` a un trai- tement sur la base du dosage d’un ou deux taux sanguin(s). On admettra qu’il n’y a pas d’interaction entre ces deux taux sanguins. Le m´ edecin dispose d’un ´ echantillon de patients sur lesquels il effectue un pr´ el` evement sanguin pour mesurer chaque taux et auxquels il administre le traitement. Notons X (1) la variable al´ eatoire qui repr´ esente le premier taux sanguin et X (2) la variable al´ eatoire qui repr´ esente le second taux sanguin. Le m´ edecin souhaite comparer les trois m´ ethodes suivantes :
— pr´ evoir la r´ eponse au traitement sur la base de X (1) seulement,
— pr´ evoir la r´ eponse au traitement sur la base de X (2) seulement,
— pr´ evoir la r´ eponse au traitement sur la base de X (1) et X (2) .
Comment proc` ede-t-il ? Exercice 11.
D’apr` es le Dictionnaire de M´ edecine Flammarion, l’ob´ esit´ e est un ´ etat caract´ eris´ e par un exc` es de masse adipeuse r´ epartie de fa¸con g´ en´ eralis´ ee dans les diverses zones grasses de l’organisme.
L’ob´ esit´ e est souvent appr´ eci´ ee par le poids mais il n’y a pas de stricte ´ equivalence entre poids et ob´ esit´ e puisque dans le poids interviennent la masse grasse mais aussi le tissu osseux, l’eau et le muscle. Il existe diff´ erents tests diagnostiques pour caract´ eriser un seuil d’alerte relatif ` a l’ob´ esit´ e morbide ` a partir duquel on risque de voir apparaˆıtre une morbidit´ e secondaire li´ ee ` a diff´ erents types de complications, par exemple les m´ ethodes BMI (Body Mass Index) ou DEXA (Dual-Energy X-ray Absorptiometry).
1. Afin de comparer ces diff´ erentes m´ ethodes, sont trac´ ees sur un mˆ eme graphique les courbes ROC correspondant aux diff´ erentes m´ ethodes. Entre parenth` eses, sont indiqu´ ees les AUC (Area Under Curve) correspondantes. Y-a-t-il une m´ ethode plus performante que les autres ?
2. Curtin F., Morabia A., Pichard C. & Slosman D.O. dans un article paru en 1997 dans
la revue J. Clin. Epidemiol. ont travaill´ e ` a l’´ etablissement d’un seuil de BMI au del` a
duquel un patient est consid´ er´ e ob` ese. Que penser du commentaire de leurs r´ esultats
effectu´ e par un de leur confr` ere ?
Exercice 12.
Une ´ etude est r´ ealis´ ee afin de voir comment un nombre p de variables cliniques (mesur´ ees par un m´ edecin) affectent le ressenti de l’´ etat de sant´ e de patients diab´ etiques (pourcentage calcul´ e
`
a partir d’un questionnaire rempli par le patient). Afin de mod´ eliser la loi conditionnelle des pourcentages, le statisticien utilise une loi beta dont il param` etre ainsi la densit´ e par rapport ` a la mesure de Lebesgue :
f µ,φ (y) = Γ(φ)
Γ(µφ)Γ((1 − µ)φ) y µφ−1 (1 − y) (1−µ)φ−1 , 0 < µ < 1, φ > 0, y ∈ (0, 1), de sorte que E [Y ] = µ et que Var(Y ) = µ(1 − µ)
1 + φ . Il utilise ´ egalement la fonction de lien logit pour relier l’esp´ erance conditionnelle au pr´ edicteur lin´ eaire.
1. En supposant que toutes les variables cliniques recueillies par le m´ edecin sont quantita- tives et sans interactions entre elles et en supposant que les patients sont ind´ ependants entre eux, ´ ecrire les ´ equations et hypoth` eses d´ efinissant le mod` ele de r´ egression beta uti- lis´ e par le statisticien. S’agit-il d’un mod` ele GLM ? Comment peut-on faire de l’inf´ erence avec ce mod` ele ?
2. En r´ ealit´ e, le pourcentage quantifiant le ressenti de l’´ etat de sant´ e des patients est ` a valeurs dans (0, 1]. Proposer une solution pour que le mod` ele puisse prendre en compte la borne droite de l’intervalle (0, 1].
3. Le statisticien utilise ensuite son mod` ele pour une nouvelle ´ etude. Cette fois, les mˆ emes variables que pr´ ec´ edemment sont recueillies lors d’une ´ etude multicentrique sur des pa- tients hospitalis´ es dans 2 ou 3 services hospitaliers situ´ es dans 3 ou 4 hopitaux dans 4 villes diff´ erentes. Que fait le statisticien ?
Exercice 13.
Ecrire les ´ equations et hypoth` eses d´ efinissant les mod` eles suivants ajust´ es avec le logiciel R.
1. glm(y~x1+x2+log(x3),family=poisson) 2. glm(y~x1*x2+log(x3),family=poisson) 3. glm(y~x1+x2+x3,family=quasipoisson) 4. glm(y~x1+x2+log(x3),family=binomial)
5. glm(y~x1+x2+log(x3),family=binomial(link="probit")) 6. glm(y~x1+x2+log(x3),family=binomial(link="cloglog"))
7. glm(y~x1+x2+x3,family=quasi(link = "identity", variance = "constant")) 8. glm(y~x1+x2+x3,family=quasi(link = "identity", variance = "mu^3")) 9. glm(y~x1*x2+x3*x4),family=poisson)
10. glm(y~x1+x2+x3,family=quasi(link = "probit", variance = "mu(1-mu)"))
Exercice 14.
Consid´ erons le jeu de donn´ ees dicentric disponible dans le logiciel R qui contient 27 observa- tions ind´ ependantes de 4 variables :
— ca : nombre d’anomalies chromosomiques compt´ ees dans les cellules soumises au rayon-
nement Gamma,
— cell : nombre de cellules soumises au rayonnement Gamma,
— doserate : taux de rayonnement Gamma,
— doseamt : niveau de rayonnement Gamma.
1. Ecrire les ´ equations et hypoth` eses d´ efinissant les mod` eles ajust´ es ci-dessous avec le lo- giciel R apr` es avoir introduit les variables al´ eatoires n´ ecessaires ` a la formalisation du probl` eme. Quels sont leurs avantages/inconv´ enients compar´ es ?
(a) m<-lm(ca/cells~log(doserate)*factor(doseamt),data=dicentric)
(b) m<-glm(ca ~log(cells)+log(doserate)*factor(doseamt),family=poisson, data=dicentric)
(c) m<-glm(ca ~offset(log(cells))+log(doserate)*factor(doseamt),family=poisson, data=dicentric)
2. De quel(s) diagnostics/test(s) dispose-t-on pour ´ evaluer la qualit´ e de l’ajustement de tels mod` eles aux donn´ ees ?
3. De quel(s) diagnostics/test(s) dispose-t-on pour ´ evaluer la n´ ecessit´ e de l’inclusion de doserate ?
4. Afin d’augmenter la puissance de l’´ etude, on recommence l’´ etude en incluant la fratrie des 27 personnes initiales. Comment r´ e´ ecrire les mod` eles ?
Exercice 15.
Ecrire les ´ equations et hypoth` eses d´ efinissant le mod` eles ajust´ es ci-dessous avec le logiciel R apr` es avoir introduit les variables al´ eatoires n´ ecessaires ` a la formalisation du probl` eme. Quels sont les apports respectifs de ces mod` eles ?
myfit1 <- glm(art~fem+mar+kid5+phd+ment, family=poisson, data=bioChemists) myfit2 <- glm(art~fem+mar+kid5+phd+ment, family=quasipoisson, data=bioChemists) myfit3 <- glm.nb(art~fem+mar+kid5+phd+ment,data=bioChemists)
myfit4 <- zeroinfl(art~fem+mar+kid5+phd+ment|1, data=bioChemists)
myfit5 <- zeroinfl(art~fem+mar+kid5+phd+ment|1, dist="negbin", data=bioChemists) myfit6 <- zeroinfl(art~fem+mar+kid5+phd+ment|fem+mar+kid5+phd+ment, data=bioChemists) myfit7 <- zeroinfl(art~fem+mar+kid5+phd+ment|fem+mar+kid5+phd+ment, dist="negbin", data=bioChemists)
Exercice 16.
Pour i = 1, ..., n, on compte Y i le nombre d’hippopotames observ´ es en un site i donn´ e. On rel` eve
en mˆ eme temps un certain nombre de variables environnementales (extraction d’or ou autre
exploitation mini` ere ` a proximit´ e, fr´ equence annuelle moyenne des feux de brousse, d´ eversement
de substances polluantes dans l’air, le sol ou l’eau, surface de prairie dans un rayon de 1km
autour du point d’eau), dans le but d’expliquer Y i . Supposons que les mesures effectu´ ees en
n diff´ erents sites sont ind´ ependantes. On suspecte la pr´ esence de trop nombreux ‘0’ dans les
donn´ ees due au fait que l’observateur n’a pas vu les hippopotames car ils ´ etaient sous une eau
boueuse ou car seuls leurs yeux ´ emergeaient, les rendant indistinguables des crocodiles pour des
observateurs distants. Proposer des mod` eles susceptibles de s’ajuster sur ces donn´ ees. Quelle
est votre d´ emarche ?
Exercice 17.
On cherche ` a expliquer le nombre de fois par heure, not´ e Y , o` u une baleine bleue remonte ` a la surface pour respirer en fonction de plusieurs variables (temp´ erature de l’oc´ ean au lieu de mesure, pr´ esence de perturbateurs hormonaux au lieu de mesure, profondeur maximale moyenne atteinte lors des plong´ ees, pr´ esence de p´ eriode de repos d’un des deux h´ emisph` eres du cerveau pendant l’observation). Supposons que les diff´ erents individus, observ´ es chacun pendant une heure, sont ind´ ependants. Notons ´ egalement que la dur´ ee maximale de plong´ ee enregistr´ ee pour une baleine bleue est 36 minutes. Quel(s) mod` ele(s) proposer ? Quelle analyse effectuer ?
Exercice 18.
On r´ ealise une ´ etude sur 282 sujets masculins afin d’expliquer les alt´ erations cellulaires chez des individus expos´ es ` a des radiations gamma. L’alt´ eration cellulaire est caract´ eris´ ee par le nombre de micronuclei pr´ esents dans une cellule. Une cellule saine n’en comporte pas. A l’inverse, plus le nombre de micronuclei pr´ esents dans une cellule est ´ elev´ e, plus la cellule dysfonctionne.
Pour chacun des 282 sujets, sont relev´ ees les variables suivantes : nombre de cellules analys´ ees, nombre de cellules avec pr´ esence de micronuclei, dose cumul´ ee de radiation gamma re¸cue, ˆ age, IMC (indice de masse corporelle), carences nutritionnelles (aucune, moyennement, beaucoup), qualit´ e du sommeil (bonne, passable, mauvaise).
1. Proposer un mod` ele de r´ egression adapt´ e ` a ces donn´ ees en supposant qu’il y a potentiel- lement interaction entre la dose cumul´ ee de radiations gamma et les carences nutrition- nelles.
2. De quel(s) diagnostics(s) dispose-t-on pour ´ evaluer la qualit´ e de l’ajustement d’un tel mod` ele ` a des donn´ ees ?
3. De quel(s) test(s) dispose-t-on pour ´ evaluer l’impact de la dose cumul´ ee de radiations gamma sur l’alt´ eration cellulaire ? Mettre en œuvre.
4. D´ eterminer la dose associ´ ee ` a une probabilit´ e de 50% de risque que la moiti´ e de ses N 0 cellules analys´ ees soient alt´ er´ ees pour un homme de 50 ans, d’IMC ´ egal ` a 22, sans carences nutritionnelles et bon dormeur.
Exercice 19.
On dispose d’une solution contenant des bact´ eries dont la concentration en bact´ eries, not´ ee ρ 0 , est inconnue. On ´ elabore le dispositif suivant. On effectue n dilutions de la solution initiale, en diluant ` a chaque fois d’un facteur constant ´ egal ` a deux. A chaque it´ eration, on pr´ el` eve N volumes de solution, tous ´ egaux ` a v . Chacun de ces volumes est d´ epos´ e sur une plaque de g´ elose contenant un milieu nutritif propice au d´ eveloppement de ces bact´ eries. Au bout de 72h, on observe si une colonie de bact´ eries est apparue ou non. Estimer la concentration de la solution initiale.
Indication : s’inspirer du mod` ele de r´ egression binˆ omiale avec lien cloglog et utiliser le fait que la loi du nombre de bact´ eries d´ epos´ ees par plaque de g´ elose est une loi de Poisson.
Exercice 20.
Afin de d´ emontrer la toxicit´ e d’un herbicide sur la faune, des scarab´ ees sont soumis pendant 72h
`
a une certaine dose (exprim´ ee en mg, sur une ´ echelle logarithmique) de l’herbicide incrimin´ e.
Pour cela, on dispose de 10 boˆıtes contenant des scarab´ ees. Au bout de 72h, on compte le
nombre de scarab´ ees morts (ou amorphes ie ne r´ epondant pas ` a l’agitation d’une tapette) dans chacune des boites. On recueille les donn´ ees suivantes :
log(dose) nombre de scarab´ ees nombre de morts
1.3863 56 6
1.4881 62 13
1.5899 63 18
1.6917 60 28
1.7935 61 39
1.8953 59 45
1.9972 61 51
2.0990 61 55
2.2008 60 59
2.3026 64 64
Le travail pr´ esent´ e ci-dessous est effectu´ e sur ces donn´ ees au moyen du logiciel R.
NB : la variable dose dans le code ci-dessous est exprim´ ee sur l’´ echelle logarithmique.
> mymodel1<-glm(dead/nb~dose,family=binomial,weights=nb)
> summary(mymodel1) Call:
glm(formula = dead/nb ~ dose, family = binomial, weights = nb) Deviance Residuals:
Min 1Q Median 3Q Max
-0.73140 -0.30268 0.06081 0.41759 1.61176 Coefficients:
Estimate Std. Error z value Pr(>|z|) (Intercept) -11.3027 0.9097 -12.43 <2e-16 ***
dose 6.5969 0.5172 12.76 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 (Dispersion parameter for binomial family taken to be 1)
Null deviance: 296.1843 on 9 degrees of freedom Residual deviance: 5.0163 on 8 degrees of freedom AIC: 43.919
Number of Fisher Scoring iterations: 4
> mymodel2<-glm(dead/nb~dose,family=binomial(link="probit"),weights=nb)
> summary(mymodel2) Call:
glm(formula = dead/nb ~ dose, family = binomial(link = "probit"),
weights = nb) Deviance Residuals:
Min 1Q Median 3Q Max
-0.8284 -0.3673 0.1133 0.3595 1.2369 Coefficients:
Estimate Std. Error z value Pr(>|z|) (Intercept) -6.6009 0.4823 -13.69 <2e-16 ***
dose 3.8486 0.2716 14.17 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 (Dispersion parameter for binomial family taken to be 1)
Null deviance: 296.1843 on 9 degrees of freedom Residual deviance: 3.5314 on 8 degrees of freedom AIC: 42.434
Number of Fisher Scoring iterations: 4
> mymodel3<-glm(dead/nb~dose,family=binomial(link="cloglog"),weights=nb)
> summary(mymodel3) Call:
glm(formula = dead/nb ~ dose, family = binomial(link = "cloglog"), weights = nb)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.1391 -0.4374 -0.1628 0.5424 1.1181 Coefficients:
Estimate Std. Error z value Pr(>|z|) (Intercept) -7.2348 0.5530 -13.08 <2e-16 ***
dose 3.9378 0.2946 13.37 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 (Dispersion parameter for binomial family taken to be 1)
Null deviance: 296.1843 on 9 degrees of freedom Residual deviance: 5.2659 on 8 degrees of freedom AIC: 44.169
Number of Fisher Scoring iterations: 4
>
> rp1<-residuals(mymodel1, type="pearson")
> sum(rp1^2)/(10-2) [1] 0.4520803
> deviance(mymodel1)/(10-2) [1] 0.6270417
>
> rp2<-residuals(mymodel2, type="pearson")
> sum(rp2^2)/(10-2) [1] 0.3482475
> deviance(mymodel2)/(10-2) [1] 0.4414264
>
> rp3<-residuals(mymodel3, type="pearson")
> sum(rp3^2)/(10-2) [1] 0.6525673
> deviance(mymodel3)/(10-2) [1] 0.658232
>
>
> mean(rp1) [1] 0.08782847
> mean(rp2) [1] 0.05436226
> mean(rp3) [1] -0.04956657
>
>
> library(statmod)
> rq1<-qresiduals(mymodel1)
> rq2<-qresiduals(mymodel2)
> rq3<-qresiduals(mymodel3)
>
>
> x11()
> par(mfrow=c(1,3))
> plot(rq1,main="mymodel1")
> abline(h=0)
> plot(dose,rq1,main="mymodel1")
> abline(h=0)
> plot(dead/nb,rq1,main="mymodel1")
> abline(h=0)
>
> x11()
> par(mfrow=c(1,3))
> plot(rq2,main="mymodel2")
> abline(h=0)
> plot(dose,rq2,main="mymodel2")
> abline(h=0)
> plot(dead/nb,rq2,main="mymodel2")
> abline(h=0)
>
> x11()
> par(mfrow=c(1,3))
> plot(rq3,main="mymodel3")
> abline(h=0)
> plot(dose,rq3,main="mymodel3")
> abline(h=0)
> plot(dead/nb,rq3,main="mymodel3")
> abline(h=0)
>
>
> library(MuMIn)
> AICc(mymodel1) [1] 45.63359
> AICc(mymodel2) [1] 44.14867
> AICc(mymodel3) [1] 45.88311
Le trac´ e effectu´ e dans le code est pr´ esent´ e en figures 1, 2 et 3. On appelle dose l´ etale m´ ediane
●
●
●
●
●
●
●
●
●
●
2 4 6 8 10
−1.0−0.50.00.51.0
mymodel1
Index
rq1
●
●
●
●
●
●
●
●
●
●
1.4 1.6 1.8 2.0 2.2
−1.0−0.50.00.51.0
mymodel1
dose
rq1
●
●
●
●
●
●
●
●
●
●
0.2 0.4 0.6 0.8 1.0
−1.0−0.50.00.51.0
mymodel1
dead/nb
rq1
Figure 1 – Trac´ e des r´ esidus quantiles randomis´ es obtenus avec le 1 er mod` ele ajust´ e.
la dose de produit associ´ ee ` a une probabilit´ e de d´ ec` es de 50%. On la note ED 50 . Estimer ED 50 .
Exercice 21.
Cet exercice est librement inspir´ e d’un article de Deutsch et Piegorsch, paru dans Biometrics
en 2012. On souhaite ´ evaluer l’impact du DDT et des nanoparticules de dioxide de titane sur la
proportion de cellules h´ epatiques humaines pr´ esentant des micronuclei apr` es exposition ` a une
certaine dose de DDT (pesticide organochlor´ e largement utilis´ e et suspect´ e d’ˆ etre canc´ erig` ene)
et ` a une certaine dose de nanoparticules de dioxide de titane (agent fortement oxydant, suspect´ e
●
●
●
●
●
●
●
●
●
●
2 4 6 8 10
−1.0−0.50.00.51.0
mymodel2
Index
rq2 ●
●
●
●
●
●
●
●
●
●
1.4 1.6 1.8 2.0 2.2
−1.0−0.50.00.51.0
mymodel2
dose
rq2 ●
●
●
●
●
●
●
●
●
●
0.2 0.4 0.6 0.8 1.0
−1.0−0.50.00.51.0
mymodel2
dead/nb
rq2
Figure 2 – Trac´ e des r´ esidus quantiles randomis´ es obtenus avec le 2 ` eme mod` ele ajust´ e.
●
●
●
●
●
●
●
●
●
●
2 4 6 8 10
−1.0−0.50.00.51.0
mymodel3
Index
rq3
●
●
●
●
●
●
●
●
●
●
1.4 1.6 1.8 2.0 2.2
−1.0−0.50.00.51.0
mymodel3
dose
rq3
●
●
●
●
●
●
●
●
●
●
0.2 0.4 0.6 0.8 1.0
−1.0−0.50.00.51.0
mymodel3
dead/nb
rq3