Examen sur le modèle linéaire

(1)

UNIVERSITE DE BRETAGNE OCCIDENTALE

Année 2018-2019

Master EURIA 1ère ANNEE

Examen sur le modèle linéaire

Polycopié distribué en cours, notes manuscrites et ordinateurs autorisés.

Exercice 1.

On considère dans cet exercice le modèle de régression linéaire simple dans lequel le nombre de variable explicative est p= 1. On utilise les notations du cours.

1. Exprimer le coeﬃcientR² en fonction des estimateurs des moindres carrés Bˆ₀ et Bˆ₁. En déduire que R² =r² avec r² le coeﬃcient de corrélation entre la variable à expliquer et la variable explicative.

2. On peut utiliser un test d’analyse de la variance (basé sur la loi de Fisher) pour tester l’hypothèse H₀ :β₁ = 0. Exprimer la statistique et la p-value de ce test en fonction du coeﬃcient r².

3. On peut également utiliser un test basé sur la loi de Student pour tester l’hypothèse H₀ :β₁ = 0. Vérifier que ce test est équivalent au test de la question précédente.

Exercice 2.

1. Pourquoi l’inclusion de variables explicatives inutiles peut dégrader la qualité d’un modèle de régression ?

2. Illustrer ce phénomène en réalisant des simulations avec R. On donnera les codes R ainsi que les résultats numériques obtenus.

3. Quelles méthodes ont été vues dans le cours pour résoudre ce problème (on ne demande pas de les implémenter avec R) ?

Exercice 3.

On considère dans cet exercice le jeu de données UNLifeExpectancy.csv (les

données ont été envoyées avant l’examen, contactez le surveillant si vous n’avez pas le jeu de données). Le fichier contient les variables suivantes pour n = 185pays.

— REGION : Categorical variable for region of the world

— COUNTRY : The name of the country

— LIFEEXP : Life expectancy at birth, in years

— ILLITERATE : Adult illiteracy rate, % aged 15 and older

1

(2)

— POP : 2005 population, in millions

— FERTILITY : Total fertility rate, births per woman

— PRIVATEHEALTH : 2004 Private expenditure on health, % of GDP

— PUBLICEDUCATION : Public expenditure on education, % of GDP

— HEALTHEXPEND : 2004 Health expenditure per capita, PPP in USD

— BIRTHATTEND : Births attended by skilled health personnel (%)

— PHYSICIAN : Physicians per 100,000 people

— SMOKING : Prevalence of smoking, (male) % of adults

— RESEARCHERS : Researchers in R & D, per million people

— GDP : Gross domestic product, in billions of USD

— FEMALEBOSS : Legislators, senior oﬀcials and managers, % female 1. Importer les données dans R puis renommer les lignes en utilisant le nom

des pays. Enlever les pays avec des valeurs manquantes. Pour cela, on pourra par exemple utiliser la commande suivante

z=z[which( !is.na(apply(z,1,sum))),] .

Normaliser la variable GDP par la variable POP (on calculera donc le PIB par habitant). On donnera les commandes R utilisées.

2. Réaliser une ACP et proposer une interprétation des résultats obtenus (on portera une attention particulière à la variable LIFEEXP).

3. Proposer un modèle de régression permettant d’expliquer la variable

LIFEEXPà partir de la variable REGION. Vaut-il mieux considérer la variable REGION comme une variable qualitative ou quantitative ? On justifiera soigneusement la réponse en donnant les résultats numériques obtenus sur la copie (pas besoin de donner les codes R).

4. Question ouverte : proposer des modèles de régression qui permettent d’expliquer la variable LIFEEXPà partir des autres variables. On décrira précisément la démarche utilisée (on pourra comparer plusieurs méthodes vues en cours) pour choisir et valider le modèle et on discutera/interprétera les résultats obtenus. On donnera les valeurs numériques obtenues sur la copie et on reproduira schématiquement les graphiques obtenus (pas besoin de donner les codes R).

2