• Aucun résultat trouvé

UNIVERSITE DE BRETAGNE OCCIDENTALE

N/A
N/A
Protected

Academic year: 2022

Partager "UNIVERSITE DE BRETAGNE OCCIDENTALE"

Copied!
6
0
0

Texte intégral

(1)

UNIVERSITE DE BRETAGNE OCCIDENTALE

Année 2019-2020

Master EURIA 1ère ANNEE

Régression linéaire multiple

Exercice 1

On considère le jeu de données UNLifeExpectancy.csv disponible via ce lien :

http://instruction.bus.wisc.edu/jfrees/jfreesbooks/Regression%20Modeling/BookWebDec2010/CSVData/UNLifeExpectancy.csv Un descriptif des données est disponible ici (p28) :

http://instruction.bus.wisc.edu/jfrees/jfreesbooks/Regression%20Modeling/BookWebDec2010/DataDescriptions.pdf Le fichier contient les variables suivantes pour n = 185 pays.

— REGION : Categorical variable for region of the world

— COUNTRY : The name of the country

— LIFEEXP : Life expectancy at birth, in years

— ILLITERATE : Adult illiteracy rate, % aged 15 and older

— POP : 2005 population, in millions

— FERTILITY : Total fertility rate, births per woman

— PRIVATEHEALTH : 2004 Private expenditure on health, % of GDP

— PUBLICEDUCATION : Public expenditure on education, % of GDP

— HEALTHEXPEND : 2004 Health expenditure per capita, PPP in USD

— BIRTHATTEND : Births attended by skilled health personnel (%)

— PHYSICIAN : Physicians per 100,000 people

— SMOKING : Prevalence of smoking, (male) % of adults

— RESEARCHERS : Researchers in R & D, per million people

— GDP : Gross domestic product, in billions of USD

— FEMALEBOSS : Legislators, senior offcials and managers, % female L’objectif principal de cet exercice est d’étudier la variable LIFEEXP en fonction des autres variables.

1. Prétraitement des données.

(a) Importer les données sous R.

(b) Renommer les lignes en utilisant le nom des pays.

(c) Identifier la nature des différentes variables (qualitative/quantitative).

(d) Normaliser la variable GDP par la variable POP (pour obtenir le PIB par habitant).

(e) Quel est le pourcentage de valeurs manquantes ? 2. Régression linéaire simple.

(2)

(a) Ajuster un modèle de régression linéaire simple pour expliquer la

variable LIFEEXP à partir de la variable GPD. On stockera les résultats de l’ajustement dans un objet appelé fit.

(b) Interpréter les résultats donnés par la commande summary(fit). La variable GDP a t’elle un effet significatif sur le taux de LIFEEXP ? On répondra à l’aide d’un test statistique.

(c) Donner des intervalles de confiance à 95% pour les paramètres en utilisant la commande confint.

(d) Tracer sur le même graphique le nuage de points (GDP,LIFEEXP) et la droite des moindres carrés. Est-ce que les hypothèses du modèle linéaire semblent réalistes ?

(e) Taper les commandes par(mfrow=c(2,2) ; plot(fit) et interpréter les graphiques obtenus.

(f) Est-ce que vous avez des idées pour améliorer le modèle de régression linéaire simple discuté dans les questions précédentes ?

3. Régression linéaire multiple.

(a) Créer un nouveau jeu de données qui contient seulement les pays sans valeur manquante et les variables quantitatives. Sauf mention contraire, on travaillera sur ce jeu de données dans les questions ci-dessous.

(b) Représenter graphiquement la matrice de corrélation avec la fonction corrplot du packagecorrplot. Discuter les résultats obtenus en portant une attention spécifique à la variable LIFEEXP.

(c) Réaliser une analyse en composantes principales (on pourra utiliser la fonctionPCAdu packageFactoMineR). Discuter les résultats obtenus.

(d) Ajuster un modèle de régression linéaire multiple permettant d’expliquer la variable LIFEEXP à partir des autres variables (ce modèle sera

appelé modèle complet dans la suite).

(e) Analyser les résultats donnés par la fonctionsummary.lm.

(f) Analyser les résultats donnés par la fonction plot.lm.

(g) Ajuster à nouveau le modèle de régression linéaire multiple après avoir enlevé la France du jeu de données puis utiliser le modèle ajusté pour prédire la variable LIFEEXP en France. On pourra utiliser la fonction predict. Donner des intervalles de confiance et de prédiction.

L’espérance de vie en France est-elle dans ces intervalles ? Qu’est-ce qui attendu d’après la théorie ?

4. Ajuster un modèle de régression linéaire simple pour expliquer la variable LIFEEXP à partir de la variable GDP sur le jeu de données de la question précédente. Comparer le modèle obtenu à celui de la question précédente : quel est le meilleur modèle ? On répondra en utilisant les différents critères vus en cours. On écrira une fonction validation qui calcule ces différents critères.

(3)

5. Sélection de modèle.

(a) Sélectionner le meilleur sous-modèle du modèle complet "à la main" en déroulant l’algorithme d’élimination en arrière.

(b) Sélectionner le meilleur sous-modèle du modèle précédent en utilisant la fonction regsubsets du packageleaps. Quel algorithme utilise cette fonction ?

(c) Interpréter le modèle sélectionné.

(d) Vérifier que le modèle sélectionné est meilleur que le modèle complet en prédiction en utilisant la méthode de validation croisée.

(e) Implémenter les méthodes LASSO et RIDGE et discuter les résultats obtenus. On pourra utiliser les fonctions glmnet etcv.glmnet du package glmnet. Comparer les résultats obtenus avec les résultats obtenus dans la question précédente : quel modèle proposez-vous de conserver ?

6. Analyse de la variance à 1 facteur. Dans cette question on considère à nouveau le jeu de données complet de la question 2.

(a) Tracer le nuage de points (GDP,LIFEEXP) en utilisant des couleurs différentes pour les différentes modalités de la variable REGION. On rajoutera le nom des pays sur ce graphique. Comment sont définies les différentes régions ?

(b) Représenter la distribution de la variable LIFEEXP pour les différentes modalités de la variable REGION en utilisant la fonction boxplot.

(c) Ajuster un modèle d’analyse de la variance à 1 facteur pour expliquer la variable LIFEEXP à partir de la variable REGION. Ecrire précisément le modèle ajusté, interpréter les valeurs numériques obtenues avec la fonction summary et interpréter les résultats obtenus.

7. Analyse de la covariance. Dans cette question on considère à nouveau le jeu de données complet de la question 2.

(a) Créer un nouvelle variable qualitative, nommée GPD2, qui prend les valeurs suivantes :

— GPD2= 1 si GPD<2

— GPD2= 2 si 2<GPD<20

— GPD2= 3 si 20<GPD

(b) Ajuster un modèle d’analyse de la covariance pour expliquer la variable LIFEEXP à partir des variables GDP et GDP2. Interpréter les résultats obtenus.

(c) Tracer le nuage de points (GDP,LIFEEXP) en utilisant des couleurs différentes pour les différentes modalités de la variable GDP2.

Représenter le modèle d’analyse de la covariance ajusté sur le même graphique et discuter les résultats obtenus.

(4)

Exercice 2

1. Simuler un échantillon de 600 individus qui contient

— 100 cadres pour lesquels le montant des sinistres suit une loi normale de moyenne 100 euros et d’écart-type 20 euros.

— 200 ouvriers pour lesquels le montant des sinistres suit une loi normale de moyenne 90 euros et d’écart-type 20 euros.

— 300 retraités pour lesquels le montant des sinistres suit une loi normale de moyenne 80 euros et d’écart-type 30 euros.

On stockera les simulations dans un objet de type data.frame avec une colonne qualitative nommée ’CSP’ et une colonne quantitative nommée

’Sinistre’.

2. Ajuster un modèle de régression de linéaire (analyse de la variance à une facteur) pour expliquer les sinistres à partir de la CSP et vérifier si le modèle ajusté permet d’identifier une différence significative entre les différentes CSP. On ajustera le modèle de deux manières différentes (a) en utilisant directement la commande lm,

(b) en re-codant la variable explicative avec des indicatrices comme expliqué dans le cours puis en utilisant la fonction lm

3. Que fait la fonctionmodel.matrix?

Exercice 3

On s’intéresse dans cet exercice aux données "car" disponibles sur la page du livre

“GLMs for Insurance Data” de Piet de Jong et Gillian Z. Heller.

1. Décrire rapidement le jeu de données : nombre de variables, nombre

d’individus, nature des variables. Pour quel type de calcul actuariel peut-on être amené à considérer ce type de données ? Dans la suite, on note z le jeu de données importé sous R.

2. Que contient la variable nomméeclaimcst0 ? Pourquoi cette variable prend souvent la valeur 0? Créer un nouveau jeu de données, nommé z2 dans la suite, qui contient uniquement les individus pour lesquels la variable claimcst0 est strictement positive. On donnera les commandes R utilisées.

3. Les questions suivantes sont relatives au jeu de données z2.

(a) Combien d’individus contient le jeu de données z2?

(b) On note logclaimcst0 la variable obtenue en prenant le logarithme de la variable claimcst0. Faire un histogramme des variables claimcst0 et logclaimcst0. Dans la suite, on propose de modéliser la variable

logclaimcst0 plutôt que la variable claimcst0 dans le cadre d’un modèle linéaire gaussien : commenter.

(5)

(c) La variable gender a-t-elle un effet significatif sur la variable logclaimcst0 ? On répondra à cette question en ajustant un modèle linéaire. On décrira précisément le modèle ajusté, les commandes R utilisées et on discutera en détail les résultats numériques obtenus.

(d) La variable agecat a-t-elle un effet significatif sur la variable

logclaimcst0 ? On répondra à cette question en ajustant un modèle linéaire. On comparera les résultats obtenus en considérant la variable agecat comme un variable quantitative puis une variable qualitative. On décrira précisément les modèles ajustés, les commandes R utilisées et on discutera en détail les résultats numériques obtenus.

(e) Ajuster un modèle de régression linéaire multiple avec interaction permettant d’expliquer la variable logclaimcst0 en fonction des variables gender et agecat, considérée comme une variable qualitative puis

quantitative. Le modèle avec interaction est-il meilleur que le modèle sans interaction ? On décrira précisément les modèles ajustés, les

commandes R utilisées et on discutera en détail les résultats numériques obtenus.

(f) Ajuster un modèle de régression linéaire multiple permettant d’expliquer la variable logclaimcst0 en fonction des variables veh_value,

exposure,veh_body,veh_age, gender, area etagecat. On décrira

précisément le modèle ajusté, les commandes R utilisées et on discutera en détail les résultats numériques obtenus. Est-ce que toutes les variables explicatives ont un effet significatif sur la variable logclaimcst0 ?

(g) Proposer un sous-modèle du modèle ajusté dans la question précédente dans lequel toutes les variables ont un effet significatif sur la variable logclaimcst0 et qui est "meilleur" que le modèle complet. On décrira précisément les commandes R utilisées et on discutera en détail les résultats numériques obtenus.

(h) Reprendre les questions précédentes en utilisant des modèles GLM log-gamma et GLM log-normal pour la variable claimcst0 et comparer les résultats obtenus avec ceux du modèle linéaire en utilisant la validation croisée. Pour la sélection de modèle, on pourra par exemple utiliser les packages bestglmet glmnet.

4. Les questions suivantes sont relatives au jeu de données initialz.

(a) La variable veh_value a-t-elle un effet significatif sur la variable clm? On répondra à cette question en ajustant un modèle linéaire généralisé approprié. On décrira précisément le modèle ajusté, les commandes R utilisées et on discutera en détail les résultats numériques obtenus.

(b) Ajuster un modèle de régression linéaire généralisé permettant d’expliquer la variable clm en fonction des variables veh_value, exposure,veh_body,veh_age, gender, area etagecat. On décrira

(6)

précisément le modèle ajusté, les commandes R utilisées et on discutera en détail les résultats numériques obtenus. Est-ce que toutes les

variables explicatives ont un effet significatif sur la variable clm? Sinon, quelles variables proposez-vous de conserver dans le modèle ?

Exercice 4

1. Simuler un échantillon de taillen = 1000d’un modèle de régression logistique avec

— une seule variable explicative (p= 1) simulée selon une loi N(0,1)

β = (1,1)

2. Tracer le nuage de point(xi, yi). Comment peut-on interpréter les deux paramètres du modèle ?

3. Estimer les paramètres du modèle sur l’échantillon simulé à l’aide de la fonction glm.

4. Etudier la loi des estimateurs par simulation. Est-ce que les estimateurs sont sans biais ?

Références

Documents relatifs

rapprochées) et celles pour lesquelles l'éruption suivante se produit plus de 63 minutes après (éruptions éloignées)?. Partitionner votre fenêtre graphique en deux dans le

Sans utiliser une boucle, créer deux objets de type data.frame avec 6 colonnes, nommés swiss1 et swiss2, qui contiennent respectivement les données des cantons pour lesquels la

La conjecture de Syracuse est l’hypothèse selon laquelle la suite de Syracuse associée à n’importe quelle valeur initiale a atteint la valeur 1 à partir d’un certain rang..

Ecrire une boucle for qui détermine le maximum d’un vecteur V ainsi que le nombre d’occurrences et les positions du maximum (dans cette question, on n’utilisera pas la fonction min

Donner une estimation de la prime a posteriori pour les 5 assurés du tableau à l’aide du modèle de crédibilité linéaire (modèle de Bühlmann).. On rappellera rapidement (en

Donner une estimation de la prime pour l’année 6 pour les 7 assurés du tableau à l’aide du modèle de crédibilité linéaire (modèle de Bühlmann)?. Quel est la valeur du facteur

Analyser la série temporelle de vent avec la méthode POT et comparer avec les résultats obtenus avec ceux des questions précédentes.. Exercice 3 On considère la série temporelle

Analyser la série temporelle avec la méthode POT et comparer avec les résultats obtenus avec ceux des questions précédentes4. Exercice 3 On considère la série temporelle des