Notons β le vecteur des paramètres de régression à estimer dans le cadre d’un modèle GLM et βbson estimateur

(1)

Universit´e de Strasbourg S´egolen Geffray

M2 Statistique geffray@math.unistra.fr

Modèles linéaires généralisés Année 2020/2021

TP : Modèle linéaire (mixte) et modèle linéaire généralisé (mixte)

Ces exercices seront effectu´es au moyen du logiciel R.

Exercice 1.

Notons β le vecteur des paramètres de régression à estimer dans le cadre d’un modèle GLM et βbson estimateur.

1. D´ecrire le sc´enario de simulations de Monte-Carlo permettant d’illustrer la convergence asymptotique de βbvers β dans le cadre de l’ajustement

(a) d’un mod`ele gaussien, (b) d’un mod`ele de Poisson,

(c) d’un mod`ele logistique binaire,

lorsque le modèle proposé s’adapte bien aux données. Mettre en oeuvre.

2. Décrire le scénario de simulations de Monte-Carlo permettant de comparer le comporte- ment des différents types de résidus introduits en cours dans le cadre de l’ajustement (a) d’un modèle gaussien,

(b) d’un mod`ele de Poisson, (c) d’un mod`ele logistique binaire.

Mettre en oeuvre.

3. Décrire le scénario de simulations de Monte-Carlo permettant d’illustrer la robustesse du modèle dans le cadre

(a) d’un mod`ele gaussien, (b) d’un mod`ele de Poisson,

(c) d’un mod`ele logistique binaire.

Mettre en oeuvre.

Vous veillerez notamment `a

— faire varier n, la taille de l’´echantillon,

— ´etudier l’impact d’´eventuelles interactions,

— étudier l’impact d’éventuelles transformations des prédicteurs quantitatifs,

— ´etudier l’impact du nombre de pr´edicteurs,

— ´etudier l’impact de l’inclusion de pr´edicteurs superflus,

— étudier l’impact d’une éventuelle colinéarité entre prédicteurs,

— ´etudier l’impact du choix de la fonction de lien.

Pensez également à quantifier votre analyse au moyen de critères objectifs tels que biais empi- rique, écart-type estimé, probabilité de couverture dans le cas d’intervalles de confiance, erreurs de type I et II dans le cas de tests.

(2)

Exercice 2.

Analyser les données contenues dans les jeux de données suivantes : gala (faraway), variable réponse : Species

SwissLabor (AER), variable réponse : participation RecreationDemand (AER), variable réponse : trips heart.data (glmpath), variable réponse : y

pulp (faraway), variable r´eponse : bright

Penicillin (lme4), variable réponse : diameter (à ne pas confondre avec le jeu de données penicillin du package faraway)

sleepstudy (lme4), variable r´eponse : Reaction gasoline (pls), variable r´eponse : octane

savings (faraway), variable r´eponse : savings

De nombreux autres jeux de donn´ees disponibles sans la distribution de R peuvent aussi servir d’entrainement :

dicentric (faraway), variable r´eponse : ca swiss (datasets), variable r´eponse : Fertility

esoph (datasets), variable r´eponse : nombre de cas de cancers rock (datasets), variable r´eponse : perm

mtcars (datasets), variable réponse : mpg attitude (datasets), variable réponse : rating prostate (faraway), variable réponse : lpsa teengamb (faraway), variable réponse : gamble bliss (faraway), variable réponse : statut =dead/alive hormone (faraway), variable réponse : orientation solder (faraway), variable réponse : skips

dvisits (faraway), variable réponse : doctorco wafer (faraway), variable réponse : resist mammalsleep (faraway), variable réponse : pdr eggs (faraway), variable réponse : Fat

abrasion (faraway), variable réponse : wear vision (faraway), variable réponse : acuity ctsib (faraway), variable réponse : stable epilepsy (faraway), variable réponse : seizures cake (lme4), variable réponse : angle

cbpp (lme4), variable r´eponse : incidence yarn (pls), variable r´eponse : density

(3)

Quelques fonctions utiles et quelques recommandations

Pour ajuster un modèle de régression linéaire, utiliser lm(formula,data)

Supposons que Y, X1, X2 et X3 sont des variables quantitatives (donc du type numeric), A est une variable qualitative (donc du type factor). Voici quelques formules possibles pour écrire un modèle linéaire.

Y∼X1 r´egression lin´eaire simple avec intercept implicite

Y∼1+X1 régression linéaire simple (identique au précédent) avec intercept explicite Y∼-1+X1 régression linéaire simple sans intercept

Y∼0+X1 régression linéaire simple sans intercept (identique au précédent) Y∼X1-1 régression linéaire simple sans intercept (identique au précédent) log(Y)∼X1+X2 régression linéaire multiple sur log(Y) (avec intercept implicite) Y∼X1*X2 régression linéaire multiple avec interaction d’ordre 2

Y∼X1*X2*X3-X1:X2:X3 r´egression lin´eaire multiple avec interaction d’ordre 2

Y∼(X1+X2+X3)b2 régression linéaire multiple avec interaction d’ordre 2 (identique au précédent) Y∼A analyse de la variance à un critère de classification

Y∼A+X1 analyse de la covariance

Y∼X2%in%X1 régression linéaire avec 2 covariables,X2 étant emboitée dansX1

L’ajustement d’un mod`ele GLM au moyen du logiciel R se fait au moyen de l’instruction suivante :

glm(y~x,family=myfamily(link=’’mylink’’),data=mydata)

où y désigne le vecteur du dataframe mydata contenant la réponse des n sujets, x désigne le vecteur du dataframe mydatacontenant le prédicteur desnsujets, myfamilyest à choisir parmi gaussian, binomial,poisson, Gamma etinverse.gaussian.

Avec le choix gaussian, les fonctions de lien sont `a choisir parmiidentity, loget inverse.

Avec le choixbinomial, les fonctions de lien sont `a choisir parmi logit,probit,cauchit,log et cloglog.

Avec le choix poisson, les fonctions de lien sont `a choisir parmilog,identity etsqrt.

Avec le choix Gamma, les fonctions de lien sont `a choisir parmiinverse, identityet log.

Avec le choix inverse.gaussian, les fonctions de lien sont `a choisir parmi 1/mu^2, identity, log etinverse.

Pour des données de proportion (qui ne sont pas dans le continuum [0; 1] mais qui sont is- sues d’un modèle binômial), l’ajustement d’un modèle GLM binômial (avec la fonction de lien canonique) au moyen du logiciel R se fait au moyen de l’instruction suivante :

glm(y~x, family=binomial(link=’’logit’’), weights=myN, data=mydata)

o`u myNd´esigne le vecteur du dataframe mydata contenant les poids Ni pouri= 1, ..., n.

(4)

set.seed (base) permet de r´ealiser des simulations reproductibles read.table / scan importe les donn´ees

str (utils) donne la structure d’un jeu de donn´ees

head (utils) permet de voir les premi`eres lignes d’un jeu de donn´ees rmvnorm (mvtnorm) simule des vecteurs gaussiens

xtabs (stats) réalise des tables de contingence scatter.smooth (stats) fournit des tracés exploratoires scatterplotMatrix (car) fournit des tracés exploratoires

ggPairs (GGally) idem avec estimation des coefficients de corr´elation lin´eaire pairs (graphics) trace les covariables 2 par 2

boxcox (MASS) transformation de Box-Cox dans le cas d’un LNM bcPower (car) transformation de Box-Cox, Yeo-Johnson ou puissance lm (stats) ajuste un modèle de régression linéaire gaussien standard gls (nlme) =lm.gls (MASS) ajuste un LNM par moindres carrés généralisés

glm (stats) ajuste un modèle de régression linéaire généralisé

glm2 (glm2) similaire `a glm mais plus stable en mati`ere de convergence de l’algorithme d’estimation

geeglm (geepack) similaire à glm avec “family=quasi” à ceci près que la méthode anova est ici disponible

glm.nb (MASS) ajuste un modèle de régression binomial négatif summary (base) renvoie les résultats de l’ajustement du modèle model.matrix (stats) renvoie la matrice expérimentale

deviance (stats) renvoie la d´eviance du mod`ele

logLik (stats) renvoie la log-vraisemblance du mod`ele

confint (stats) d´etermine un IC pour chaque coefficient d’un LNM confint (MASS) d´etermine un IC pour chaque coefficient d’un GLM shapiro.test (stats) effectue un test de Shapiro-Wilk

ks.test (stats) effectue un test de Kolmogorov-Smirnov qqPlot (car) effectue un QQ-plot avec bandes de confiance

qqnorm (stats) effectue un QQ-plot

qqline (stats) ajoute à un QQplot une droite qui passe par les 1êrs et 3^`êmes quartiles

influence.measures (stats) effectue un diagnostic d’individus influents hatvalues (stats) =hat (stats) renvoie les leviers

cooks.distance (stats) =cookd (car) calcule la distance de Cook

dffits (stats) calcule les dffits

dfbetas (stats) calcule les dfbetas

covratio (stats) calcule le covariance ratio

vif (car) calcule le variance inflation factor

coeftest (lmtest) effectue des tests z et (quasi-)t sur les coefficients anova (stats) comparaison de deux modèles emboités avec un F-test waldtest (lmtest) effectue un test de Wald pour modèles emboités dwtest (lmtest) effectue un test de Durbin-Watson

bgtest (lmtest) effectue un test de Breusch-Godfrey

bptest (lmtest) test d’hétéroscédasticité de Breusch-Pagan

leveneTest (car) test d’homogénéité des variances entre différents groupes linearHypothesis (car) effectue des tests linéaires d’hypothèses

outlierTest (car) test d’outliers de Bonferroni sur les residus studentis´es chisq.out.test (outliers) test d’outlier dans un vecteur de donn´ees

NB : rejette seulement les outliers extremes

(5)

crPlots (car) effectue un tracé des résidus partiels avPlots (car) effectue un tracéadded-variables plot ceresPlots (car) effectue un tracé des résidus CERES residuals (stats) renvoie les résidus de base

rstandard (stats) renvoie les résidus standardisés d’un LNM rstudent (stats) renvoie les résidus studentisés d’un LNM residualsAnscombe (wle) renvoie les résidus d’Anscombe

= anscresid (modtools)

qresiduals (statmod) calcule les r´esidus quantiles randomis´es

modplot (modtools) effectue le tracé de plusieurs graphiques utiles pour l’évaluation de l’adéquation

dispersiontest (AER) effectue un test de surdispersion halfnorm (faraway) effectue un halfnormal plot

pseudoR2 (modtools) calcule le pseudo R² de McFadden

Rsq.glm (binomTools) calcule un pseudoR² pour mod`eles binomiaux

AIC (stats) renvoie l’AIC du mod`ele

stepAIC (MASS) ou step (stats) proc`ede au choix automatique des covariables

HLtest.Rsq (binomTools) effectue un test d’ajustement du modèle de régression binomial negbin (aod) ajuste un modèle de régression binômial négatif

vglm (VGAM) permet d’ajuster des modèles de régression de Poisson et binomial négatifs tronqués

zeroinfl (pscl) ajuste un zero-inflated model hurdle (pscl) ajuste un modèle de Hurdle ncvTest (car) test d’hétéroscédasticité xyplot (lattice) tracé en treillis

dotplot (lattice) trac´e en treillis

lme (nlme) ou lmer (lme4) ajuste un modèle linéaire gaussien mixte glmer (lme4) ajuste un modèle linéaire généralisé mixte

glmmPQL (MASS) ajuste les GLMM au moyen de la technique PQL fixef (lme4) estimation des effets fixes dans un modèle mixte ranef (lme4) prévision des effets aléatoires dans un modèle mixte VarCorr (lme4) estime les composantes de la variance d’un modèle mixte princomp (stats) détermine les composantes principales

lm.ridge (MASS) effectue une r´egression ridge

linear.pls (plsdof) ajuste un modèle de régression PLS plsr (pls) ajuste un modèle de régression PLS

pcr (pls) = pcr (plsdof) ajuste un modèle de régression sur composantes principales lars (lars) solveur de la régression LASSO

glmnet (glmnet) ajuste un GLM avec m´ethode de LASSO ou elastic net

(6)

Utilisation du package sandwich : coeftest(model,vcov= vcovHC)

coeftest(model,vcov= vcovHC(model, type="HC4") coeftest(model,vcov= vcovHAC(model))

coeftest(model,vcov= NeweyWest(model)) avec

vcov (sandwich) renvoie la matrice de variance estim´ee (na¨ıve)

vcovHC (sandwich) renvoie la matrice de variance estim´eeheteroskedasticity-consistent vcovHAC (sandwich) renvoie la matrice de variance estim´ee

Heteroskedasticity and Autocorrelation Consistent NeweyWest (sandwich) renvoie la matrice de variance estim´ee

Heteroskedasticity and Autocorrelation Consistent, version Newey-West

lowess régression par polynômes locaux pour la régression simple avec erreur gaussienne

lowess = locally weighted scatterplot smoother

loess régression par polynômes locaux pour la régression multiple avec erreur gaussienne

smooth.spline estimation par spline de la r´egression simple

locfit (locfit) régression non-paramétrique généralisée estimée par vraisemblance locale (dont loess est un cas particulier) ; Loader (1999)

gam (gam) modèle généralisé additif ajusté par spline ou vraisemblance locale GAM = generalized additive model, Hastie & Tibshirani (1990) gam (mgcv) modèle généralisé additif dont le paramètre de lissage est choisi

par validation crois´ee