• Aucun résultat trouvé

Régression linéaire multiple

N/A
N/A
Protected

Academic year: 2022

Partager "Régression linéaire multiple"

Copied!
2
0
0

Texte intégral

(1)

UNIVERSITE DE BRETAGNE OCCIDENTALE

Année 2018-2019

Master EURIA 1ère ANNEE

Régression linéaire multiple

Exercice 1

On considère dans cet exercice des données qui proviennent du Groupe d’Etude et de Réflexion Inter-régional (GERI). Elles décrivent quatre grands thèmes : la démographie, l’emploi, la fiscalité directe locale et la criminalité. Les indicateurs sont mesurés sur l’ensemble des

départements français métropolitains et la Corse (regroupée) pendant l’année 1990. Ils sont, pour la plupart, des taux calculés relativement à la population totale du département concerné. Voici la liste des paramètres :

— identificateur : numéro du département

— identificateur : code du département

— identificateur : code de la région

— TXCR: taux de croissance de la population sur la période intercensitaire 1982-1990

— ETRA : part des étrangers dans la population totale

— URBR : taux d’urbanisation

— JEUN: part des 0-19 ans dans la population totale

— AGE : part des plus de 65 ans dans la population totale

— CHOM : taux de chômage

— Parts de chaque profession et catégorie socio-professionnelle (PCS) dans la population active occupée du département :

— AGRI: agriculteurs

— ARTI: artisans

— CADR: cadres supérieurs

— EMPL: employés

— OUVR: ouvriers

— PROF: professions intermédiaire

— FISC : produit, en francs constants 1990 et par habitant, des quatre taxes directes locales (professionnelle, habitation, foncier bâti, foncier non bâti)

— CRIM : taux de criminalité : nombre de délits par habitant

— FE90 : taux de fécondité (pour 1000), égal au nombre de naissances rapporté au nombre de femmes fécondes (15 à 49 ans) en moyenne triennale

Les données sont disponibles sur la page web du cours : http ://pagesperso.univ-brest.fr/ailliot/M1EURIA.html

L’objectif principal de cet exercice est d’étudier la variableCRIMen fonction des autres variables.

1. Importer les données sousR.

2. Représenter graphiquement la matrice de corrélation avec la fonctioncorrplotdu package corrplot. Discuter les résultats obtenus en portant une attention spécifique à la variable CRIM.

3. Réaliser une analyse en composantes principales (on pourra utiliser la fonction PCAdu packageFactoMineR). Discuter les résultats obtenus en portant une attention spécifique à la variable CRIM.

1

(2)

4. Ajuster un modèle de régression linéaire simple permettant d’expliquer la variableCRIM à partir de la variable URBEqui est la plus corrélée avecCRIM(on pourra utiliser la commandelm).

(a) Donner des estimations ponctuelles de la valeur des paramètres ainsi que des intervalles de confiance à 95% (on pourra utiliser les commandessummaryet confint).

(b) La variable considérée a t’elle un effet significatif sur le taux de criminalité ? On répondra à l’aide d’un test statistique.

(c) Utiliser le modèle ajusté pour prédire la variable CRIM en fonction de la variable URBR. Représenter les résultats sur un graphique, avec en abscisse la variable URBR et en ordonnée la valeur prédite pour la variable CRIM avec un intervalle de prédiction à 95%. On représentera également sur le même graphique les observations (nuage de points).

5. Ajuster un modèle de régression linéaire multiple permettant d’expliquer la variable CRIM à partir des autres variables (modèle complet).

(a) Donner des estimations des paramètres. Vérifier qu’on retrouve les résultats donnés par la fonctionlmen utilisant les formules du cours sur la méthode des moindres carrés.

(b) Analyser les résultats donnés par la fonction summary.lm.

(c) Ajuster le modèle après avoir enlevé le département du Finistère (29) du jeu de données puis utiliser le modèle ajusté pour prédire le taux de criminalité dans le Finistère. On pourra utiliser la fonctionpredict. Donner des intervalles de confiance et de prédiction. La criminalité du Finistère est-elle dans ces intervalles ? Qu’est-ce qui attendu d’après la théorie ?

6. Comparer les modèles des questions 1 et 2 : quel est le meilleur modèle ? On répondra en utilisant les différents critères vus en cours.

7. Sélection de modèle.

(a) Sélectionner le meilleur sous-modèle du modèle précédent "à la main" en déroulant l’algorithme d’élimination en arrière.

(b) Sélectionner le meilleur sous-modèle du modèle précédent en utilisant la fonction regsubsetsdu package leaps. Quel algorithme utilise cette fonction ?

(c) Interpréter le modèle sélectionné.

(d) Vérifier que le modèle sélectionné est meilleur que le modèle complet en prédiction en utilisant la méthode de validation croisée.

8. Implémenter les méthodes LASSO et RIDGE et comparer les résultats obtenus avec les résultats obtenus dans la question précédente. On pourra utiliser les fonctions glmnetet cv.glmnet du packageglmnet.

9. Quel modèle proposez-vous de conserver ? Justifier la réponse puis vérifier si les hypothèses du modèle linéaire sélectionné sont réalistes ? On analysera les résultats donnés par la fonctionplot.lm.

2

Références

Documents relatifs

Ajuster un modèle de régression linéaire multiple permettant d'expliquer la variable CRIM à. partir des autres

La deuxième colonne ne nous intéressera que dans le chapitre suivant, sur la régression multiple.. Les éléments de la troisième colonne sont ceux de la première divisés par ceux de

On souhaite expliquer le chemin de freinage en mètres d’un véhicule (distance parcou- rue entre le début du freinage et l’arrêt total) (variable Y ) à partir de sa vitesse

On souhaite expliquer le nombre de survivants sur 10 6 bactéries (variable Y ) à partir du temps d’exposition en minutes d’un agent microbien (variable X)... Université de

Ce chapitre est une introduction à la modélisation linéaire par le modèle le plus élémentaire, la régression linéaire simple où une variable X est ex- pliquée, modélisée par

En régression multiple (toutes les variables expli- catives quantitatives), le modèle complet est considéré comme étant celui de faible biais mais en analyse de covariance quels

Les choix : présence ou non d’une interaction entre deux variables, présence ou non d’un terme qua- dratique se traitent alors avec les mêmes outils que ceux des choix de variable

Ces 20 dernières années, à la suite du développement des moyens de calcul, sont apparues des méthodes d’estimation dites fonc- tionnelles ou non-paramétriques qui