• Aucun résultat trouvé

Examen sur le modèle linéaire

N/A
N/A
Protected

Academic year: 2022

Partager "Examen sur le modèle linéaire"

Copied!
2
0
0

Texte intégral

(1)

UNIVERSITE DE BRETAGNE OCCIDENTALE

Année 2018-2019

Master EURIA 1ère ANNEE

Examen sur le modèle linéaire

Polycopié distribué en cours, notes manuscrites et ordinateurs autorisés.

Exercice 1.

On considère dans cet exercice le modèle de régression linéaire simple dans lequel le nombre de variable explicative est p= 1. On utilise les notations du cours.

1. Exprimer le coefficientR2 en fonction des estimateurs des moindres carrés Bˆ0 et Bˆ1. En déduire que R2 =r2 avec r2 le coefficient de corrélation entre la variable à expliquer et la variable explicative.

2. On peut utiliser un test d’analyse de la variance (basé sur la loi de Fisher) pour tester l’hypothèse H0 :β1 = 0. Exprimer la statistique et la p-value de ce test en fonction du coefficient r2.

3. On peut également utiliser un test basé sur la loi de Student pour tester l’hypothèse H0 :β1 = 0. Vérifier que ce test est équivalent au test de la question précédente.

Exercice 2.

1. Pourquoi l’inclusion de variables explicatives inutiles peut dégrader la qualité d’un modèle de régression ?

2. Illustrer ce phénomène en réalisant des simulations avec R. On donnera les codes R ainsi que les résultats numériques obtenus.

3. Quelles méthodes ont été vues dans le cours pour résoudre ce problème (on ne demande pas de les implémenter avec R) ?

Exercice 3.

On considère dans cet exercice le jeu de données UNLifeExpectancy.csv (les

données ont été envoyées avant l’examen, contactez le surveillant si vous n’avez pas le jeu de données). Le fichier contient les variables suivantes pour n = 185pays.

— REGION : Categorical variable for region of the world

— COUNTRY : The name of the country

— LIFEEXP : Life expectancy at birth, in years

— ILLITERATE : Adult illiteracy rate, % aged 15 and older

1

(2)

— POP : 2005 population, in millions

— FERTILITY : Total fertility rate, births per woman

— PRIVATEHEALTH : 2004 Private expenditure on health, % of GDP

— PUBLICEDUCATION : Public expenditure on education, % of GDP

— HEALTHEXPEND : 2004 Health expenditure per capita, PPP in USD

— BIRTHATTEND : Births attended by skilled health personnel (%)

— PHYSICIAN : Physicians per 100,000 people

— SMOKING : Prevalence of smoking, (male) % of adults

— RESEARCHERS : Researchers in R & D, per million people

— GDP : Gross domestic product, in billions of USD

— FEMALEBOSS : Legislators, senior offcials and managers, % female 1. Importer les données dans R puis renommer les lignes en utilisant le nom

des pays. Enlever les pays avec des valeurs manquantes. Pour cela, on pourra par exemple utiliser la commande suivante

z=z[which( !is.na(apply(z,1,sum))),] .

Normaliser la variable GDP par la variable POP (on calculera donc le PIB par habitant). On donnera les commandes R utilisées.

2. Réaliser une ACP et proposer une interprétation des résultats obtenus (on portera une attention particulière à la variable LIFEEXP).

3. Proposer un modèle de régression permettant d’expliquer la variable

LIFEEXPà partir de la variable REGION. Vaut-il mieux considérer la variable REGION comme une variable qualitative ou quantitative ? On justifiera soigneusement la réponse en donnant les résultats numériques obtenus sur la copie (pas besoin de donner les codes R).

4. Question ouverte : proposer des modèles de régression qui permettent d’expliquer la variable LIFEEXPà partir des autres variables. On décrira précisément la démarche utilisée (on pourra comparer plusieurs méthodes vues en cours) pour choisir et valider le modèle et on discutera/interprétera les résultats obtenus. On donnera les valeurs numériques obtenues sur la copie et on reproduira schématiquement les graphiques obtenus (pas besoin de donner les codes R).

2

Références

Documents relatifs

(e) Ajuster un modèle de régression linéaire multiple avec interaction permettant d’expliquer la variable logclaimcst0 en fonction des variables gender et agecat, considérée comme

La deuxième colonne ne nous intéressera que dans le chapitre suivant, sur la régression multiple.. Les éléments de la troisième colonne sont ceux de la première divisés par ceux de

Ce chapitre est une introduction à la modélisation linéaire par le modèle le plus élémentaire, la régression linéaire simple où une variable X est ex- pliquée, modélisée par

En régression multiple (toutes les variables expli- catives quantitatives), le modèle complet est considéré comme étant celui de faible biais mais en analyse de covariance quels

Les choix : présence ou non d’une interaction entre deux variables, présence ou non d’un terme qua- dratique se traitent alors avec les mêmes outils que ceux des choix de variable

Le tableau donné dans le fichier exo1.txt donne les pourcentages de variation par rapport à la période précédente du PIB en volume et de la con- sommation privée en volume en

Le fichier exo2.txt contient les prix en euros d’un produit, P, lors de différentes dates, et le salaire moyen en euros des employés de l’entreprise fabricant ce produit, S (il

On ne s’attend donc pas à trouver un lien aussi simple entre les deux