Régression sur variables qualitatives, modèle linéaire généralisé

(1)

UNIVERSITE DE BRETAGNE OCCIDENTALE

Année 2017-2018

Master EURIA 1ère ANNEE

Régression sur variables qualitatives, modèle linéaire généralisé

Exercice 1

Simuler un échantillon de 600 individus qui contient

— 100 cadres pour lesquels le montant des sinistres suit une loi normale de moyenne 100 euros et d’écart-type 20 euros.

— 200 ouvriers pour lesquels le montant des sinistres suit une loi normale de moyenne 90 euros et d’écart-type 20 euros.

— 300 retraités pour lesquels le montant des sinistres suit une loi normale de moyenne 80 euros et d’écart-type 30 euros.

On stockera les simulations dans un objet de typedata.frame avec une colonne qualitative nommée ’CSP’ et une colonne quantitative nommée ’Sinistre’. Ajuster un modèle de régression de linéaire pour expliquer les sinistres à partir de la CSP et vérifier si le modèle ajusté permet d’identifier une différence significative entre les différentes CSP. On ajustera le modèle de deux manières différentes

1. en utilisant directement la commandelm,

2. en re-codant la variable explicative avec des indicatrices comme expliqué dans le cours puis en utilisant la fonction lm

et on vérifiera que les résultats sont identiques.

Exercice 2

On s’intéresse dans cet exercice aux données "car" disponibles sur la page du livre “GLMs for Insurance Data” de Piet de Jong et Gillian Z. Heller.

1. Décrire rapidement le jeu de données : nombre de variables, nombre d’individus, nature des variables. Pour quel type de calcul actuariel peut-on être amené à considérer ce type de données ? Dans la suite, on notez le jeu de données importé sousR.

2. Que contient la variable nomméeclaimcst0? Pourquoi cette variable prend souvent la valeur 0? Créer un nouveau jeu de données, nomméz2 dans la suite, qui contient uniquement les individus pour lesquels la variableclaimcst0 est strictement positive. On donnera les commandesR utilisées.

3. Les questions suivantes sont relatives au jeu de données z2.

(a) Combien d’individus contient le jeu de donnéesz2?

(b) On notelogclaimcst0 la variable obtenue en prenant le logarithme de la variable claimcst0. Faire un histogramme des variablesclaimcst0 et logclaimcst0. Dans la suite, on propose de modéliser la variablelogclaimcst0 plutôt que la variableclaimcst0 dans le cadre d’un modèle linéaire gaussien : commenter.

(c) La variablegender a-t-elle un eﬀet significatif sur la variablelogclaimcst0? On répondra à cette question en ajustant un modèle linéaire. On décrira précisément le modèle ajusté, les commandesRutilisées et on discutera en détail les résultats numériques obtenus.

(d) La variable agecat a-t-elle un eﬀet significatif sur la variablelogclaimcst0? On répondra à cette question en ajustant un modèle linéaire. On comparera les résultats obtenus en considérant la variableagecat comme un variable quantitative puis une variable qualitative. On décrira précisément les modèles ajustés, les commandesR utilisées et on discutera en détail les résultats numériques obtenus.

1

(2)

(e) Ajuster un modèle de régression linéaire multipleavec interactionpermettant d’expliquer la variablelogclaimcst0 en fonction des variablesgender etagecat, considérée comme une variable qualitative puis quantitative. Le modèle avec

interaction est-il meilleur que le modèle sans interaction ? On décrira précisément les modèles ajustés, les commandesRutilisées et on discutera en détail les résultats numériques obtenus.

(f) Ajuster un modèle de régression linéaire multiple permettant d’expliquer la variable logclaimcst0 en fonction des variables veh_value,exposure,veh_body, veh_age,gender, area etagecat. On décrira précisément le modèle ajusté, les commandesR utilisées et on discutera en détail les résultats numériques obtenus. Est-ce que toutes les variables explicatives ont un eﬀet significatif sur la variablelogclaimcst0?

(g) Proposer un sous-modèle du modèle ajusté dans la question précédente dans lequel toutes les variables ont un eﬀet significatif sur la variablelogclaimcst0 et qui est

"meilleur" que le modèle complet. On décrira précisément les commandesR utilisées et on discutera en détail les résultats numériques obtenus.

(h) Reprendre les questions précédentes en utilisant des modèles GLM log-gamma et GLM log-normal pour la variableclaimcst0 et comparer les résultats obtenus avec ceux du modèle linéaire en utilisant la validation croisée. Pour la sélection de modèle, on pourra par exemple utiliser les packagesbestglmet glmnet.

4. Les questions suivantes sont relatives au jeu de données initial z.

(a) La variable veh_value a-t-elle un eﬀet significatif sur la variableclm? On répondra à cette question en ajustant un modèle linéaire généralisé approprié. On décrira précisément le modèle ajusté, les commandesR utilisées et on discutera en détail les résultats numériques obtenus.

(b) Ajuster un modèle de régression linéaire généralisé permettant d’expliquer la variable clm en fonction des variablesveh_value,exposure,veh_body,veh_age,gender,area et agecat. On décrira précisément le modèle ajusté, les commandesRutilisées et on discutera en détail les résultats numériques obtenus. Est-ce que toutes les variables explicatives ont un eﬀet significatif sur la variableclm? Sinon, quelles variables proposez-vous de conserver dans le modèle ?

Exercice 3

1. Simuler un échantillon de taillen= 1000d’un modèle de régression logistique avec

— une seule variable explicative (p= 1) simulée selon une loiN(0,1)

— β= (1,1)

2. Tracer le nuage de point(xi, yi). Comment peut-on interpréter les deux paramètres du modèle ?

3. Estimer les paramètres du modèle sur l’échantillon simulé à l’aide de la fonction glm.

4. Etudier la loi des estimateurs par simulation. Est-ce que les estimateurs sont sans biais ?

2