UNIVERSITE DE BRETAGNE OCCIDENTALE
Année 2018-2019Master EURIA 1ère ANNEE
Examen sur le modèle linéaire
Polycopié distribué en cours, notes manuscrites et ordinateurs autorisés.
Exercice 1.
On considère dans cet exercice le modèle de régression linéaire simple dans lequel le nombre de variable explicative est p= 1. On utilise les notations du cours.
1. Exprimer le coefficientR2 en fonction des estimateurs des moindres carrés Bˆ0 et Bˆ1. En déduire que R2 =r2 avec r2 le coefficient de corrélation entre la variable à expliquer et la variable explicative.
2. On peut utiliser un test d’analyse de la variance (basé sur la loi de Fisher) pour tester l’hypothèse H0 :β1 = 0. Exprimer la statistique et la p-value de ce test en fonction du coefficient r2.
3. On peut également utiliser un test basé sur la loi de Student pour tester l’hypothèse H0 :β1 = 0. Vérifier que ce test est équivalent au test de la question précédente.
Exercice 2.
1. Pourquoi l’inclusion de variables explicatives inutiles peut dégrader la qualité d’un modèle de régression ?
2. Illustrer ce phénomène en réalisant des simulations avec R. On donnera les codes R ainsi que les résultats numériques obtenus.
3. Quelles méthodes ont été vues dans le cours pour résoudre ce problème (on ne demande pas de les implémenter avec R) ?
Exercice 3.
On considère dans cet exercice le jeu de données UNLifeExpectancy.csv (les
données ont été envoyées avant l’examen, contactez le surveillant si vous n’avez pas le jeu de données). Le fichier contient les variables suivantes pour n = 185pays.
— REGION : Categorical variable for region of the world
— COUNTRY : The name of the country
— LIFEEXP : Life expectancy at birth, in years
— ILLITERATE : Adult illiteracy rate, % aged 15 and older
1
— POP : 2005 population, in millions
— FERTILITY : Total fertility rate, births per woman
— PRIVATEHEALTH : 2004 Private expenditure on health, % of GDP
— PUBLICEDUCATION : Public expenditure on education, % of GDP
— HEALTHEXPEND : 2004 Health expenditure per capita, PPP in USD
— BIRTHATTEND : Births attended by skilled health personnel (%)
— PHYSICIAN : Physicians per 100,000 people
— SMOKING : Prevalence of smoking, (male) % of adults
— RESEARCHERS : Researchers in R & D, per million people
— GDP : Gross domestic product, in billions of USD
— FEMALEBOSS : Legislators, senior offcials and managers, % female 1. Importer les données dans R puis renommer les lignes en utilisant le nom
des pays. Enlever les pays avec des valeurs manquantes. Pour cela, on pourra par exemple utiliser la commande suivante
z=z[which( !is.na(apply(z,1,sum))),] .
Normaliser la variable GDP par la variable POP (on calculera donc le PIB par habitant). On donnera les commandes R utilisées.
2. Réaliser une ACP et proposer une interprétation des résultats obtenus (on portera une attention particulière à la variable LIFEEXP).
3. Proposer un modèle de régression permettant d’expliquer la variable
LIFEEXPà partir de la variable REGION. Vaut-il mieux considérer la variable REGION comme une variable qualitative ou quantitative ? On justifiera soigneusement la réponse en donnant les résultats numériques obtenus sur la copie (pas besoin de donner les codes R).
4. Question ouverte : proposer des modèles de régression qui permettent d’expliquer la variable LIFEEXPà partir des autres variables. On décrira précisément la démarche utilisée (on pourra comparer plusieurs méthodes vues en cours) pour choisir et valider le modèle et on discutera/interprétera les résultats obtenus. On donnera les valeurs numériques obtenues sur la copie et on reproduira schématiquement les graphiques obtenus (pas besoin de donner les codes R).
2