• Aucun résultat trouvé

UNIVERSITE DE BRETAGNE OCCIDENTALE

N/A
N/A
Protected

Academic year: 2022

Partager "UNIVERSITE DE BRETAGNE OCCIDENTALE"

Copied!
6
0
0

Texte intégral

(1)

UNIVERSITE DE BRETAGNE OCCIDENTALE Année 2020-2021 Master EURIA 1ère ANNEE

Régression linéaire multiple

Exercice 1

On considère le jeu de données UNLifeExpectancy.csv disponible via ce lien :

http://instruction.bus.wisc.edu/jfrees/jfreesbooks/Regression%20Modeling/BookWebDec2010/CSVData/UNLifeExpectancy.csv Un descriptif des données est disponible ici (p28) :

http://instruction.bus.wisc.edu/jfrees/jfreesbooks/Regression%20Modeling/BookWebDec2010/DataDescriptions.pdf Le fichier contient les variables suivantes pour n= 185pays.

— REGION : Categorical variable for region of the world

— COUNTRY : The name of the country

— LIFEEXP : Life expectancy at birth, in years

— ILLITERATE : Adult illiteracy rate, % aged 15 and older

— POP : 2005 population, in millions

— FERTILITY : Total fertility rate, births per woman

— PRIVATEHEALTH : 2004 Private expenditure on health, % of GDP

— PUBLICEDUCATION : Public expenditure on education, % of GDP

— HEALTHEXPEND : 2004 Health expenditure per capita, PPP in USD

— BIRTHATTEND : Births attended by skilled health personnel (%)

— PHYSICIAN : Physicians per 100,000 people

— SMOKING : Prevalence of smoking, (male) % of adults

— RESEARCHERS : Researchers in R & D, per million people

— GDP : Gross domestic product, in billions of USD

— FEMALEBOSS : Legislators, senior offcials and managers, % female

L’objectif principal de cet exercice est d’étudier la variable LIFEEXP en fonction des autres variables.

1. Prétraitement des données.

(a) Importer les données sousR.

(b) Renommer les lignes en utilisant le nom des pays.

(c) Identifier la nature des différentes variables (qualitative/quantitative).

(d) Normaliser la variable GDP par la variable POP (pour obtenir le PIB par habitant).

(e) Quel est le pourcentage de valeurs manquantes ? 2. Régression linéaire simple.

(a) Ajuster un modèle de régression linéaire simple pour expliquer la variable LIFEEXP à partir de la variable GPD. On stockera les résultats de l’ajustement dans un objet appelé fit.

(2)

(b) Interpréter les résultats donnés par la commande summary(fit). La variable GDP a t’elle un effet significatif sur le taux de LIFEEXP ? On répondra à l’aide d’un test statistique.

(c) Donner des intervalles de confiance à 95% pour les paramètres en utilisant la commandeconfint.

(d) Tracer sur le même graphique le nuage de points (GDP,LIFEEXP) et la droite des moindres carrés. Est-ce que les hypothèses du modèle linéaire semblent réalistes ?

(e) Taper les commandespar(mfrow=c(2,2)) ; plot(fit) et interpréter les graphiques obtenus.

(f) Est-ce que vous avez des idées pour améliorer le modèle de régression linéaire simple discuté dans les questions précédentes (on pourra par exemple appliquer des transformations sur les variables) ?

3. Régression linéaire multiple.

(a) Créer un nouveau jeu de données qui contient seulement les pays sans valeur manquante et les variables quantitatives. Sauf mention contraire, on travaillera sur ce jeu de données dans les questions ci-dessous.

(b) Représenter graphiquement la matrice de corrélation avec la fonctioncorrplot du packagecorrplot. Discuter les résultats obtenus en portant une attention spécifique à la variable LIFEEXP.

(c) Réaliser une analyse en composantes principales (on pourra utiliser la fonction PCA du packageFactoMineR). Discuter les résultats obtenus.

(d) Ajuster un modèle de régression linéaire multiple permettant d’expliquer la variable LIFEEXP à partir des autres variables (ce modèle sera appelémodèle complet dans la suite).

(e) Analyser les résultats donnés par la fonction summary.

(f) Analyser les résultats donnés par la fonction plot.

(g) Ajuster à nouveau le modèle de régression linéaire multiple après avoir enlevé la France du jeu de données puis utiliser le modèle ajusté pour prédire la variable LIFEEXP en France. On pourra utiliser la fonction predict. Donner des intervalles de confiance et de prédiction. L’espérance de vie en France est-elle dans ces intervalles ? Qu’est-ce qui est attendu d’après la théorie ? 4. Ajuster un modèle de régression linéaire simple pour expliquer la variable

LIFEEXP à partir de la variable GDP sur le jeu de données de la question

précédente. Comparer le modèle obtenu à celui de la question précédente : quel est le meilleur modèle ? On répondra en utilisant le test de Fisher. On écrira

également une fonctionvalidationqui calcule les critèresR2aj, AIC, BIC ainsi que la RMSE en validation croisée pour un modèle donné et on l’utilisera pour

comparer les deux modèles.

5. Sélection de modèle.

(a) Sélectionner le meilleur sous-modèle du modèle complet "à la main" en déroulant l’algorithme d’élimination en arrière.

(3)

(b) Sélectionner le meilleur sous-modèle du modèle précédent en utilisant la fonction regsubsets du packageleaps. Quel algorithme utilise cette fonction ? (c) Interpréter le modèle sélectionné.

(d) Vérifier que le modèle sélectionné est meilleur que le modèle complet en prédiction en utilisant la méthode de validation croisée.

(e) Ecrire une fonction qui réalise la recherche exhaustive des meilleurs modèles selon les critères calculés par la fonctionvalidation. On pourra utiliser la fonction RintToBits.

6. Analyse de la variance à 1 facteur.Dans cette question on considère à nouveau le jeu de données complet de la question 2.

(a) Représenter la distribution de la variable LIFEEXP pour les différentes modalités de la variable REGION en utilisant la fonctionboxplot.

(b) Ajuster un modèle d’analyse de la variance à 1 facteur pour expliquer la variable LIFEEXP à partir de la variable REGION. Ecrire précisément le modèle ajusté, interpréter les valeurs numériques obtenues avec la fonction summaryet interpréter les résultats obtenus.

7. Analyse de la covariance.Dans cette question on considère à nouveau le jeu de données complet de la question 2.

(a) Créer un nouvelle variable qualitative, nommée GPD2, qui prend les valeurs suivantes :

— GPD2= 1 si GPD<2

— GPD2= 2 si 2<GPD<20

— GPD2= 3 si 20<GPD

(b) Ajuster un modèle d’analyse de la covariance pour expliquer la variable LIFEEXP à partir des variables GDP et GDP2. Interpréter les résultats obtenus.

(c) Tracer le nuage de points (GDP,LIFEEXP) en utilisant des couleurs différentes pour les différentes modalités de la variable GDP2. Représenter le modèle d’analyse de la covariance ajusté sur le même graphique et discuter les résultats obtenus.

8. Analyse de la variance à 2 facteurs.Dans cette question on considère à nouveau le jeu de données complet de la question 2.

(a) Ajuster un modèle d’analyse à 2 facteurs pour expliquer la variable LIFEEXP à partir des variables REGION et GDP2.

(b) Interpréter les résultats obtenus et discuter la significativité de l’interaction Exercice 2

On considère le modèle d’analyse de la variance à un facteur Yi=µ+

p j=1

αj1l{j}(xi) +Wi

(4)

avec les hypothèses du cours. On note pournj =card{i∈ {1, ..., n}|xi=j} le nombre d’individus pour lesquels la variable explicative prend la valeurj∈ {1, ..., p}. On suppose que les individus sont numérotés de telle manière que

xi=









1 sii∈ {1, ..., n1}

2 sii∈ {n1+ 1, ..., n1+n2} ...

p sii∈ {n1+. . .+np1+ 1, ..., n1+n2+. . .+np}

1. Ecrire le modèle sous forme matricielleY =+W et expliciter la matrice X.

Quel est le rang de la matriceX?

2. On suppose dans cette question queµ= 0 et donc que Yi=

p j=1

αj1l{j}(xi) +Wi

(a) Ecrire le modèle sous forme matricielle Y = ˜˜+W et expliciter la matrice X. Quel est le rang de la matrice˜ X˜?

(b) Calculer l’estimateur des moindres carrés deβ˜. On pourra commencer par traiter le casp= 2 pour simplifier les calculs. Comment s’interprète l’estimateur deαj?

3. On suppose dans cette question queα1 = 0 et donc que Yi=µ+

p j=2

αj1l{j}(xi) +Wi

(a) Ecrire le modèle sous forme matricielle Y = ˜˜+W et expliciter la matrice X. Quel est le rang de la matrice˜ X˜?

(b) Expliciter l’estimateur des moindres carrés de β. Comment s’interprète˜ l’estimateur deαj pourj≥2?

(c) Expliciter un estimateur sans biais deσ2 =var(Wi).

(d) Expliciter la p-value du test de Fisher de l’hypothèseH0:α2 =...αp = 0.

4. Simuler un échantillon qui contient

— 100 cadres pour lesquels le montant des sinistres suit une loi normale de moyenne 100 euros et d’écart-type 20 euros.

— 200 ouvriers pour lesquels le montant des sinistres suit une loi normale de moyenne 90 euros et d’écart-type 20 euros.

— 300 retraités pour lesquels le montant des sinistres suit une loi normale de moyenne 80 euros et d’écart-type 30 euros.

On stockera les simulations dans un objet de typedata.frame avec une colonne qualitative nommée ’CSP’ et une colonne quantitative nommée ’Sinistre’.

5. Ajuster un modèle de régression de linéaire (analyse de la variance à une facteur) pour expliquer les sinistres à partir de la CSP et vérifier si le modèle ajusté permet d’identifier une différence significative entre les différentes CSP. On ajustera le modèle de deux manières différentes

(5)

(a) en utilisant directement la commandelm,

(b) en re-codant la variable explicative avec des indicatrices comme expliqué dans le cours puis en utilisant la fonction lm

puis on vérifiera qu’on retrouve les mêmes résultats avec les formules établies au début de l’exercice.

6. Que fait la fonctionmodel.matrix?

Exercice 3

On s’intéresse dans cet exercice aux données "car" disponibles sur la page du livre “GLMs for Insurance Data” de Piet de Jong et Gillian Z. Heller.

1. Décrire rapidement le jeu de données : nombre de variables, nombre d’individus, nature des variables. Pour quel type de calcul actuariel peut-on être amené à considérer ce type de données ? Dans la suite, on notez le jeu de données importé sousR.

2. Que contient la variable nommée claimcst0? Pourquoi cette variable prend souvent la valeur0? Créer un nouveau jeu de données, nommé z2 dans la suite, qui contient uniquement les individus pour lesquels la variableclaimcst0 est strictement positive. On donnera les commandesR utilisées.

3. Les questions suivantes sont relatives au jeu de donnéesz2.

(a) Combien d’individus contient le jeu de donnéesz2?

(b) On notelogclaimcst0 la variable obtenue en prenant le logarithme de la variableclaimcst0. Faire un histogramme des variables claimcst0 et

logclaimcst0. Dans la suite, on propose de modéliser la variablelogclaimcst0 plutôt que la variableclaimcst0 dans le cadre d’un modèle linéaire gaussien : commenter.

(c) La variable gender a-t-elle un effet significatif sur la variablelogclaimcst0? On répondra à cette question en ajustant un modèle linéaire. On décrira

précisément le modèle ajusté, les commandesR utilisées et on discutera en détail les résultats numériques obtenus.

(d) La variable agecat a-t-elle un effet significatif sur la variable logclaimcst0? On répondra à cette question en ajustant un modèle linéaire. On comparera les résultats obtenus en considérant la variable agecat comme un variable

quantitative puis une variable qualitative. On décrira précisément les modèles ajustés, les commandes R utilisées et on discutera en détail les résultats numériques obtenus.

(e) Ajuster un modèle de régression linéaire multiple avec interaction permettant d’expliquer la variablelogclaimcst0 en fonction des variables gender etagecat, considérée comme une variable qualitative puis quantitative.

Le modèle avec interaction est-il meilleur que le modèle sans interaction ? On décrira précisément les modèles ajustés, les commandes R utilisées et on discutera en détail les résultats numériques obtenus.

(6)

(f) Ajuster un modèle de régression linéaire multiple permettant d’expliquer la variablelogclaimcst0 en fonction des variablesveh_value,exposure,veh_body, veh_age,gender,area etagecat. On décrira précisément le modèle ajusté, les commandes R utilisées et on discutera en détail les résultats numériques obtenus. Est-ce que toutes les variables explicatives ont un effet significatif sur la variablelogclaimcst0?

(g) Proposer un sous-modèle du modèle ajusté dans la question précédente dans lequel toutes les variables ont un effet significatif sur la variablelogclaimcst0 et qui est "meilleur" que le modèle complet. On décrira précisément les

commandes R utilisées et on discutera en détail les résultats numériques obtenus.

(h) Reprendre les questions précédentes en utilisant des modèles GLM log-gamma et GLM log-normal pour la variableclaimcst0 et comparer les résultats obtenus avec ceux du modèle linéaire en utilisant la validation croisée. Pour la sélection de modèle, on pourra par exemple utiliser les packagesbestglm etglmnet.

4. Les questions suivantes sont relatives au jeu de données initialz.

(a) La variable veh_value a-t-elle un effet significatif sur la variableclm? On répondra à cette question en ajustant un modèle linéaire généralisé approprié.

On décrira précisément le modèle ajusté, les commandes R utilisées et on discutera en détail les résultats numériques obtenus.

(b) Ajuster un modèle de régression linéaire généralisé permettant d’expliquer la variableclm en fonction des variablesveh_value,exposure,veh_body,veh_age, gender,area etagecat. On décrira précisément le modèle ajusté, les commandes R utilisées et on discutera en détail les résultats numériques obtenus. Est-ce que toutes les variables explicatives ont un effet significatif sur la variableclm? Sinon, quelles variables proposez-vous de conserver dans le modèle ?

Exercice 4

1. Simuler un échantillon de taillen= 1000 d’un modèle de régression logistique avec

— une seule variable explicative (p= 1) simulée selon une loiN(0,1)

β = (1,1)

2. Tracer le nuage de point (xi, yi). Comment peut-on interpréter les deux paramètres du modèle ?

3. Estimer les paramètres du modèle sur l’échantillon simulé à l’aide de la fonction glm.

4. Etudier la loi des estimateurs par simulation. Est-ce que les estimateurs sont sans biais ?

Références

Documents relatifs

Sans utiliser une boucle, créer deux objets de type data.frame avec 6 colonnes, nommés swiss1 et swiss2, qui contiennent respectivement les données des cantons pour lesquels la

La conjecture de Syracuse est l’hypothèse selon laquelle la suite de Syracuse associée à n’importe quelle valeur initiale a atteint la valeur 1 à partir d’un certain rang..

Ecrire une boucle for qui détermine le maximum d’un vecteur V ainsi que le nombre d’occurrences et les positions du maximum (dans cette question, on n’utilisera pas la fonction min

Donner une estimation de la prime a posteriori pour les 5 assurés du tableau à l’aide du modèle de crédibilité linéaire (modèle de Bühlmann).. On rappellera rapidement (en

Donner une estimation de la prime pour l’année 6 pour les 7 assurés du tableau à l’aide du modèle de crédibilité linéaire (modèle de Bühlmann)?. Quel est la valeur du facteur

Analyser la série temporelle de vent avec la méthode POT et comparer avec les résultats obtenus avec ceux des questions précédentes.. Exercice 3 On considère la série temporelle

Analyser la série temporelle avec la méthode POT et comparer avec les résultats obtenus avec ceux des questions précédentes4. Exercice 3 On considère la série temporelle des

(b) Donner une estimation de la température centenale ainsi qu’un intervalle de confiance à 95% pour cette quantité en utilisant la méthode des maxima par blocs puis la méthode