• Aucun résultat trouvé

UNIVERSITE DE BRETAGNE OCCIDENTALE

N/A
N/A
Protected

Academic year: 2022

Partager "UNIVERSITE DE BRETAGNE OCCIDENTALE"

Copied!
2
0
0

Texte intégral

(1)

UNIVERSITE DE BRETAGNE OCCIDENTALE Année 2019-2020 L3 MIASHS

Modèle linéaire, TD 1

Exercice 1.

On considère à nouveau le jeu de données UNLifeExpectancy.csv disponible sur la page du cours. On rappelle que le fichier contient les variables suivantes pour n= 185pays.

— REGION : Categorical variable for region of the world

— COUNTRY : The name of the country

— LIFEEXP : Life expectancy at birth, in years

— ILLITERATE : Adult illiteracy rate, % aged 15 and older

— POP : 2005 population, in millions

— FERTILITY : Total fertility rate, births per woman

— PRIVATEHEALTH : 2004 Private expenditure on health, % of GDP

— PUBLICEDUCATION : Public expenditure on education, % of GDP

— HEALTHEXPEND : 2004 Health expenditure per capita, PPP in USD

— BIRTHATTEND : Births attended by skilled health personnel (%)

— PHYSICIAN : Physicians per 100,000 people

— SMOKING : Prevalence of smoking, (male) % of adults

— RESEARCHERS : Researchers in R & D, per million people

— GDP : Gross domestic product, in billions of USD

— FEMALEBOSS : Legislators, senior offcials and managers, % female

1. Importer les données dans R dans un objet nomméz puis renommer les lignes en utilisant le nom des pays (fonctionR row.names).

2. Enlever les pays avec des valeurs manquantes.

3. Ajouter une variable nommée PIB obtenue en divisant la variable GDP par la variable POP (PIB par habitant).

4. Proposer un modèle de régression linéaire multiple pour expliquer la variable LIFEEXP à partir de la variable PIB et de transformations de la variable PIB (polynôme ou autres transformations).

(a) Donner une estimation des paramètres inconnues ainsi que des intervalles de confiance à95%.

(b) Tracer sur un même graphique le nuage de points, la droite des moindres carrés ainsi que la fonction de régression proposée.

(c) Comparer les valeurs du R2 et du R2 ajustés et discuter.

5. Ajuster un modèle de régression linéaire multiple pour expliquer la variable LIFEEXP à partir des autres variables quantitatives. Ce modèle est-il meilleur que le modèle de régression linéaire simple ?

6. Dans le modèle de régression linéaire multiple, certaines variables explicatives semblent ne pas avoir d’effet significatif sur la variable à expliquer. Lesquelles ? Ajuster le modèle de régression linéaire multiple après avoir enlevé toutes ces variables "inutiles" du

1

(2)

modèle. Ce modèle est il aussi bon que le modèle de régression linéaire multiple avec toutes les variables explicatives ? Comment peut-on expliquer ce résultat ?

7. Enlever successivement, une à une, les variables les moins significatives en partant du modèle complet avec toutes les variables explicatives. On arrêtera l’élimination lorsque toutes les variables sont significatives. Ce modèle est-il meilleur que les modèles ajustés dans les questions précédentes ?

Exercice 2. (extrait de l’examen de 2019)

On considère dans cet exercice le modèle de régression linéaire simple. On utilise les notations du cours.

1. Rappeler la définition du modèle ainsi que les expressions des estimateurs des différents paramètres vus dans le cours.

2. Rappeler la définition du coefficientR2 vu dans le chapitre sur la régression linéaire multiple. Montrer que R2 =r2 avec r le coefficient de corrélation.

3. On noteT la statistique du test H0:β1= 0. Montrer queT =

n−2 R 1−R2. 4. On a mesuré pour 16 malades atteints de leucémie :

xi le logarithme décimal du nombre de globules blancs le jour du diagnostic de la maladie,

yi le nombre de semaines de survie après le diagnostic.

On donne les résultats suivants∑n

i=1xi= 64.63,∑n

i=1yi = 1061,∑n

i=1x2i = 266.457,

n

i=1yi2= 113611,∑n

i=1xiyi = 3972.26

(a) Quel est la valeur de R2? On pourra utiliser le logiciel R pour faire l’application numérique. Comment s’interprète cette quantité ?

(b) Réaliser le test H0:β1= 0. On donnera le résultat du test pour un risque de

première espèceα= 5% ainsi que la p-value du test. On pourra utiliser les fonctions qt etptde R.

Exercice 3. (extrait de l’examen de 2018)

On reprend les notations du cours sur le modèle de régression linéaire simple et on considère le modèle sans constantedéfini par

Yi =βxi+Wi (0.1)

pouri∈ {1...n}.

1. Que représententYi,β,xi etWi dans (0.1) ? Quelles hypothèses sont faites dans le modèle de régression linéaire sur(W1, ..., Wn)? On fera ces hypothèses dans la suite de l’exercice.

2. Calculer l’estimateur des moindres carrés deβ. On notera B˜ cet estimateur.

3. Calculer l’espérance et la variance deB˜.

2

Références

Documents relatifs

— Les fonds de carte au format shapefile peuvent être téléchargés sur le site geofla, par exemple pour le découpage de la France en commune :..

la ième ligne du tableau (c’est à dire le ième individu) et X .,j la jème colonne du tableau (c’est à dire la jème variable).. On appelle Y le tableau de

2520 est le plus petit entier divisible par tous les entiers compris entre 1 et 10. Ecrire un programme permettant de vérier

La surface de carton disponible pour construire la boite est 2700cm 2 et la boîte construite doit être telle que la largeur est le double de la profondeur.. Quelle sont les

rapprochées) et celles pour lesquelles l'éruption suivante se produit plus de 63 minutes après (éruptions éloignées)?. Partitionner votre fenêtre graphique en deux dans le

Sans utiliser une boucle, créer deux objets de type data.frame avec 6 colonnes, nommés swiss1 et swiss2, qui contiennent respectivement les données des cantons pour lesquels la

Donner une estimation de la prime a posteriori pour les 5 assurés du tableau à l’aide du modèle de crédibilité linéaire (modèle de Bühlmann).. On rappellera rapidement (en

Donner une estimation de la prime pour l’année 6 pour les 7 assurés du tableau à l’aide du modèle de crédibilité linéaire (modèle de Bühlmann)?. Quel est la valeur du facteur