• Aucun résultat trouvé

UNIVERSITE DE BRETAGNE OCCIDENTALE

N/A
N/A
Protected

Academic year: 2022

Partager "UNIVERSITE DE BRETAGNE OCCIDENTALE"

Copied!
2
0
0

Texte intégral

(1)

UNIVERSITE DE BRETAGNE OCCIDENTALE Année 2020-2021 L3 MIASHS

Modèle linéaire, TD 1

Exercice 1.

Simuler un échantillon de taillen du modèle linéaire Gaussien Yi01xi+Wi

avec (W1, ..., Wn)des variables aléatoires indépendantes et identiquement distribuées de moyenne0 et de varianceσ2. On pourra prendre les valeursβ0= 0,β1 = 1,σ= 0.1,n= 50et xi = ni.

1. Calculer l’estimation des moindres carrés deβ0 etβ1 sur un échantillon simulé. Tracer sur une même figure le nuage de point et la droite des moindres carrés.

2. Recommencer la question précédenteN = 1000fois, en simulant à chaque fois un nouvel échantillon. Calculer la moyenne, la variance des estimations deβ0 etβ1 obtenues : les résultats obtenus par simulation sont-ils conformes aux résultats donnés dans le cours ? 3. Tracer un histogramme des estimations deβ0 etβ1 obtenues : les résultats obtenus par

simulation sont-ils conformes aux résultats donnés dans le cours ? Exercice 2.

On considère le jeu de données UNLifeExpectancy.csv disponible sur la page du cours. Le fichier contient les variables suivantes pourn= 185 pays.

— REGION : Categorical variable for region of the world

— COUNTRY : The name of the country

— LIFEEXP : Life expectancy at birth, in years

— ILLITERATE : Adult illiteracy rate, % aged 15 and older

— POP : 2005 population, in millions

— FERTILITY : Total fertility rate, births per woman

— PRIVATEHEALTH : 2004 Private expenditure on health, % of GDP

— PUBLICEDUCATION : Public expenditure on education, % of GDP

— HEALTHEXPEND : 2004 Health expenditure per capita, PPP in USD

— BIRTHATTEND : Births attended by skilled health personnel (%)

— PHYSICIAN : Physicians per 100,000 people

— SMOKING : Prevalence of smoking, (male) % of adults

— RESEARCHERS : Researchers in R & D, per million people

— GDP : Gross domestic product, in billions of USD

— FEMALEBOSS : Legislators, senior offcials and managers, % female

L’objectif est d’adapter les codes de la question précédente afin d’ajuster un modèle de

régression linéaire simple qui permet d’expliquer l’espérance de vie à partir du PIB. Pour cela, on répondra aux questions suivantes.

1. Importer les données dans R dans un objet nomméz puis renommer les lignes en utilisant le nom des pays (fonctionR row.names).

1

(2)

2. Enlever les pays avec des valeurs manquantes.

3. Ajouter une variable nommée PIB obtenue en divisant la variable GDP par la variable POP (PIB par habitant).

4. Ajuster un modèle de régression linéaire simple pour expliquer la variable LIFEEXP à partir de la variable PIB. On donnera une estimation des paramètres inconnues ainsi que des intervalles de confiance à95%.

5. Discuter les sorties de la fonction summary.

6. Tracer sur un même graphique le nuage de points et la droite des moindres carrés. Les hypothèses du modèle de régression linéaire simple sont elles réalistes ? Est-ce que vous avez des idées pour améliorer le modèle (par exemple en appliquant des transformations sur les variables) ?

Exercice 3.

On a calculé les droites des moindres carrés pour un nuage de points. Les équations obtenues sont les suivantes :

— quand on cherche à expliquer la variable y à partir de la variablex, on obtient la droite d’équationy=x+ 30.

— quand on cherche à expliquer la variable x à partir de la variabley, on obtient la droite d’équationx=y/4 + 60.

1. Calculer le coefficient de corrélation linéaire entre les deux séries.

2. Calculer les moyennes arithmétiques des deux séries.

Exercice 4.

1. Proposer et implémenter dansR un algorithme permettant de simuler une réalisation d’une loi duχ2 à pdegrés de liberté (on pourrait utiliser la fonction rnorm deR qui permet de simuler des réalisations indépendantes d’une loi normale).

2. Simuler un échantillon de taillen= 10000d’une loi du χ2 à p= 10degrés de liberté.

3. Tracer un histogramme des valeurs simulées et comparer à la densité de la loi duχ2 (fonctionR rchisq)

4. Trouver un intervalle qui contient 95%des valeurs simulées. Retrouver les bornes théoriques de l’intervalle de fluctuation à 95% à l’aide des quantiles de la loi duχ2 (fonctionR qchisq)

5. Recommencer les question précédentes avec la loi de Student.

Exercice 5.

On étudie la pollution de l’air dansn= 41villes américaines par la variableY, mesurant le volume de SO2 dans l’air en micro-grammes parm3, en fonction de la température moyenne annuelle X, exprimée en degrés F. On donne les résultats numériques suivant :Pn

i=1xi = 2286, Pn

i=1yi = 1232,Pn

i=1x2i = 129549,Pn

i=1y2i = 59050,Pn

i=1xiyi = 65698. On suppose que la relation entre les variablesX etY peut être décrite par un modèle de régression linéaire simple.

1. Décrire le modèle et donner une estimation des paramètres.

2. Est-ce que la température a un effet significatif sur la pollution de l’air ? On donnera la p-value du test réalisé.

2

Références

Documents relatifs

Sans utiliser une boucle, créer deux objets de type data.frame avec 6 colonnes, nommés swiss1 et swiss2, qui contiennent respectivement les données des cantons pour lesquels la

La conjecture de Syracuse est l’hypothèse selon laquelle la suite de Syracuse associée à n’importe quelle valeur initiale a atteint la valeur 1 à partir d’un certain rang..

Ecrire une boucle for qui détermine le maximum d’un vecteur V ainsi que le nombre d’occurrences et les positions du maximum (dans cette question, on n’utilisera pas la fonction min

Donner une estimation de la prime a posteriori pour les 5 assurés du tableau à l’aide du modèle de crédibilité linéaire (modèle de Bühlmann).. On rappellera rapidement (en

Donner une estimation de la prime pour l’année 6 pour les 7 assurés du tableau à l’aide du modèle de crédibilité linéaire (modèle de Bühlmann)?. Quel est la valeur du facteur

Analyser la série temporelle de vent avec la méthode POT et comparer avec les résultats obtenus avec ceux des questions précédentes.. Exercice 3 On considère la série temporelle

Analyser la série temporelle avec la méthode POT et comparer avec les résultats obtenus avec ceux des questions précédentes4. Exercice 3 On considère la série temporelle des

(b) Donner une estimation de la température centenale ainsi qu’un intervalle de confiance à 95% pour cette quantité en utilisant la méthode des maxima par blocs puis la méthode