UNIVERSITE DE BRETAGNE OCCIDENTALE Année 2019-2020 L3 MIASHS
Modèle linéaire, TD 1
Exercice 1.
On considère à nouveau le jeu de données UNLifeExpectancy.csv disponible sur la page du cours. On rappelle que le fichier contient les variables suivantes pour n= 185pays.
— REGION : Categorical variable for region of the world
— COUNTRY : The name of the country
— LIFEEXP : Life expectancy at birth, in years
— ILLITERATE : Adult illiteracy rate, % aged 15 and older
— POP : 2005 population, in millions
— FERTILITY : Total fertility rate, births per woman
— PRIVATEHEALTH : 2004 Private expenditure on health, % of GDP
— PUBLICEDUCATION : Public expenditure on education, % of GDP
— HEALTHEXPEND : 2004 Health expenditure per capita, PPP in USD
— BIRTHATTEND : Births attended by skilled health personnel (%)
— PHYSICIAN : Physicians per 100,000 people
— SMOKING : Prevalence of smoking, (male) % of adults
— RESEARCHERS : Researchers in R & D, per million people
— GDP : Gross domestic product, in billions of USD
— FEMALEBOSS : Legislators, senior offcials and managers, % female
1. Importer les données dans R dans un objet nomméz puis renommer les lignes en utilisant le nom des pays (fonctionR row.names).
2. Enlever les pays avec des valeurs manquantes.
3. Ajouter une variable nommée PIB obtenue en divisant la variable GDP par la variable POP (PIB par habitant).
4. Proposer un modèle de régression linéaire multiple pour expliquer la variable LIFEEXP à partir de la variable PIB et de transformations de la variable PIB (polynôme ou autres transformations).
(a) Donner une estimation des paramètres inconnues ainsi que des intervalles de confiance à95%.
(b) Tracer sur un même graphique le nuage de points, la droite des moindres carrés ainsi que la fonction de régression proposée.
(c) Comparer les valeurs du R2 et du R2 ajustés et discuter.
5. Ajuster un modèle de régression linéaire multiple pour expliquer la variable LIFEEXP à partir des autres variables quantitatives. Ce modèle est-il meilleur que le modèle de régression linéaire simple ?
6. Dans le modèle de régression linéaire multiple, certaines variables explicatives semblent ne pas avoir d’effet significatif sur la variable à expliquer. Lesquelles ? Ajuster le modèle de régression linéaire multiple après avoir enlevé toutes ces variables "inutiles" du
1
modèle. Ce modèle est il aussi bon que le modèle de régression linéaire multiple avec toutes les variables explicatives ? Comment peut-on expliquer ce résultat ?
7. Enlever successivement, une à une, les variables les moins significatives en partant du modèle complet avec toutes les variables explicatives. On arrêtera l’élimination lorsque toutes les variables sont significatives. Ce modèle est-il meilleur que les modèles ajustés dans les questions précédentes ?
Exercice 2. (extrait de l’examen de 2019)
On considère dans cet exercice le modèle de régression linéaire simple. On utilise les notations du cours.
1. Rappeler la définition du modèle ainsi que les expressions des estimateurs des différents paramètres vus dans le cours.
2. Rappeler la définition du coefficientR2 vu dans le chapitre sur la régression linéaire multiple. Montrer que R2 =r2 avec r le coefficient de corrélation.
3. On noteT la statistique du test H0:β1= 0. Montrer queT =√
n−2√ R 1−R2. 4. On a mesuré pour 16 malades atteints de leucémie :
— xi le logarithme décimal du nombre de globules blancs le jour du diagnostic de la maladie,
— yi le nombre de semaines de survie après le diagnostic.
On donne les résultats suivants∑n
i=1xi= 64.63,∑n
i=1yi = 1061,∑n
i=1x2i = 266.457,
∑n
i=1yi2= 113611,∑n
i=1xiyi = 3972.26
(a) Quel est la valeur de R2? On pourra utiliser le logiciel R pour faire l’application numérique. Comment s’interprète cette quantité ?
(b) Réaliser le test H0:β1= 0. On donnera le résultat du test pour un risque de
première espèceα= 5% ainsi que la p-value du test. On pourra utiliser les fonctions qt etptde R.
Exercice 3. (extrait de l’examen de 2018)
On reprend les notations du cours sur le modèle de régression linéaire simple et on considère le modèle sans constantedéfini par
Yi =βxi+Wi (0.1)
pouri∈ {1...n}.
1. Que représententYi,β,xi etWi dans (0.1) ? Quelles hypothèses sont faites dans le modèle de régression linéaire sur(W1, ..., Wn)? On fera ces hypothèses dans la suite de l’exercice.
2. Calculer l’estimateur des moindres carrés deβ. On notera B˜ cet estimateur.
3. Calculer l’espérance et la variance deB˜.
2