socio-économiques
P. Ailliot
29 septembre 2009
Onconsidère dansce TPdesdonnées quiproviennent duGrouped'Etude etdeRéexion
Inter-régional(GERI).Ellesdécrivent quatregrandsthèmes:ladémographie,l'emploi,la
scalité directelocaleetlacriminalité. Lesindicateurs sont mesuréssurl'ensemble des
départementsfrançaismétropolitains et laCorse(regroupée)pendant l'année 1990.Ils
sont, pour laplupart, destauxcalculés relativement àlapopulationtotaledu
département concerné.Voici lalistedesparamètres :
identicateur :numérodu département
identicateur :code dudépartement
identicateur :code delarégion
TXCR:tauxde croissancede lapopulation surlapériode intercensitaire1982-1990
ETRA :partdesétrangers danslapopulationtotale
JEUN :part des0-19ansdanslapopulationtotale
AGE:partdes plusde 65ansdanslapopulationtotale
CHOM :taux de chômage
Partsde chaqueprofession etcatégorie socio-professionnelle(PCS) danslapopulation
active occupée dudépartement :
AGRI:agriculteurs
ARTI:artisans
CADR:cadres supérieurs
EMPL :employés
OUVR:ouvriers
PROF :professions intermédiaire
FISC:produit, en francsconstants1990 etpar habitant,desquatretaxes directes
locales (professionnelle, habitation, foncierbâti, foncier non bâti)
CRIM :tauxde criminalité:nombre dedélits par habitant
FE90:taux defécondité (pour1000), égal aunombre denaissancesrapporté au
nombre defemmes fécondes(15 à 49 ans)en moyenne triennale
Onpourraimporter lesdonnées sourR enutilisant les commandes
>z=read.table("depart2.dat")
>attach(z)
Dans lasuite dece TP,ons'intéresseraprincipalement à lavariableCRIM,eton
cherchera àexpliquer cette variable àpartir desautres variables.
>r=cor(z[,3 :13])
Quelles variables sont corrélées positivement avec lavariableCRIM?Négativement?
Avec quellevariablelecoecient
R 2 est-ille plusélevé?Interpréter.
b. Aprèsavoirtéléchargé lepackage FactoMineR,taperles commandessuivanteset
interpréter les résultatsobtenus :
>library(FactoMineR)
>pca.result=PCA(z[,3 :17])
>barplot(pca.result$eig[,2])
c. Taper lacommande
> plot(z)
Larelation entrelavaribaleCRIMetlesautres variables voussemble-t-elleêtrelinéaire?
d. Pour chacunedesvariables disponibles, ajusterunmodèlederégressionsimple ande
prédire la variable CRIMà partirde cettevariable. Ondiscutera enparticulier la
validité deshypothèsesdu modèle, et,siceshypothèsesne sontpasvériées,on discutera
les remèdespossibles. Avec quellevariable obtient-on lemeilleur modèle?Quelles
variables ont un eetsignicatif surlavariableCRIM?Onrépondraà l'aided'untest
d'hypothèse.
e. Taperlescommandes suivantes :
>fit=lm(CRIM
∼
TXCR+ETRA+URBR+JEUN+AGE+CHOM+AGRI+ARTI+CADR+EMPL +OUVR+PROF+FISC+FE90)>summary(fit)
>plot(fit)
Discuter les résultatsobtenus.
f. Tester si lesdiérents paramètres dumodèleprécédent peuvent être supposéségaux à
0
, puisajuster unmodèle derégression linéaire enconservant uniquement lesvariablespour lesquelsleparamètre associéestsignicativement diérent de
0
.Réaliser untestan de vériersice nouveau modèle estsatisfaisant (on pourra utiliserlacommende
anova). Discuter.
g. Ajusterun modèle derégressionlinéaire en conservant uniquement les variablesqui
ont uneet signicatiflorsqu'onajuste unmodèle de régressionlinéaire simple (cf
question d.).Réaliser un testan de vériersice nouveau modèle estsatisfaisant.
Discuter.
h. Taperles commandes
>library(leaps)
>library(MASS)
>x=as.data.frame(cbind(TXCR,ETRA,URBR,JEUN,AGE,
CHOM,AGRI,ARTI,CADR,EMPL,OUVR,PROF,FISC,FE90))
>choix <- regsubsets(CRIM
∼
., int=T, nbest=1,nvmax=10, method="exhaustive", really.big=T,data=x)
>plot(choix,scale="adjr2")
Quel est lemeilleur modèle?Discuter.