• Aucun résultat trouvé

R´egressionlin´eairesimple FeuilledeTravauxDirig´esn 8 o

N/A
N/A
Protected

Academic year: 2022

Partager "R´egressionlin´eairesimple FeuilledeTravauxDirig´esn 8 o"

Copied!
2
0
0

Texte intégral

(1)

Fr´ed´eric Bertrand ESIEA 5`eme ann´ee - 2009/2010

Feuille de Travaux Dirig´ es n

o

8 R´egression lin´eaire simple

Exercice VIII.1. ´Etude de la pollution de l’air. Cet exercice est issu du livre « Statistiques avec R », Pierre-Andr´e Cornillon et autres, aux

´

editions PUR, 2008.

1. ecup´erer les donn´ees dans R en ex´ecutant les instructions suivantes :

>ozone<-read.table("...ozone.txt",header=T)

2. Quelles sont les diff´erentes variables ? Quelle est leur nature ? Obtenir les statistiques descriptives du jeu de donn´ees.

3. Nous allons nous int´eresser plus particuli`erement `a deux variables du jeu de donn´ees : la variable« max03 »et la variable« T12 ». Pour cela, nous allons calculer les statistiques ´el´ementaires sur ces deux variables, en utilisant la commande summary

>summary(ozone[,c(« maxO3 »,« T12 »)])

4. Nous allons maintenant repr´esenter le nuage de points (xi, yi). Pour cela, ex´ecuter la ligne de commande suivante :

>plot(max03∼T12,data=ozone,pch=15,cex=.5)

5. Nous allons maintenant estimer les param`etres du mod`ele de r´egression li- eaire. Pour cela, nous allons utiliser la fonction lm (lm pour linear model).

Cette fonction permet d’ajuster un mod`ele lin´eaire. Ex´ecuter les lignes de commande suivantes :

>reg.simple<-lm(maxO3∼T12,data=ozone)

>summary(reg.simple)

6. Nous pouvons consulter la liste des diff´erents r´esultats de l’objet reg.simple avec :

>names(reg.simple)

7. Nous pouvons r´ecup´erer les coefficients avec :

>reg.simple$coef

ou en utilisant la fonction coef, ce qui est la m´ethode recommand´ee :

>coef(reg.simple)

8. Remarque : Nous avons auparavant construit un mod`ele avec constante. Si jamais la constante n’´etait pas significative ou si encore le mod`ele ne doit pas contenir de constante, alors nous devons proc´eder de la mani`ere suivante pour le construire :

>reg.ss.constante<-lm(maxO3∼T12-1,data=ozone) >reg.ss.constante 9. Nous allons maintenant tracer la droite de r´egression. Nous pouvons simple- ment appliquer la commandeabline(reg.simple)mais nous pr´ef´erons nous restreindre au domaine d’observation de la variable explicative. Nous cr´eons donc une grille de points sur les abscisses et appliquons le mod`ele trouv´e sur

1

(2)

Fr´ed´eric Bertrand ESIEA 5`eme ann´ee - 2009/2010

cette grille :

>plot(max03∼T12,data=ozone,pch=15,cex=.5)

>grillex<-seq(min(ozone[,« T12 »]),max(ozone[,« T12 »]), +length=100)

>grilley<-reg.simple$coef[1]+reg.simple$coef[2]*grillex

>lines(grillex,grilley,col=2)

10. Nous allons maintenant analyser les r´esidus. Les r´esidus sont obtenus par la fonction residuals, cependant les r´esidus obtenus ne sont pas de mˆeme va- riance (h´et´erosc´edastiques). Nous allons utiliser alors les r´esidus studentis´es, qui eux sont de mˆeme variance.

>res.simple<-rstudent(reg.simple)

>plot(res.simple,pch=15,cex=.5,ylab=« esidus »,ylim=c(-3,3))

>abline(h=c(-2,0,2),lty=c(2,1,2))

11. Pour terminer nous allons donner la proc´edure pour pr´evoir une nouvelle valeur. Ayant une nouvelle observationxnew, il suffit d’utiliser les estimations pour pr´evoir la valeur deY correspondante. Cependant, la valeur pr´edite est de peu d’int´erˆet sans l’intervalle de confiance associ´e. Voyons cela sur un exemple. Nous disposons d’une nouvelle observation de la temp´erature T12

´egale `a 19 degr´es pour le 1er octobre 2001.

>xnew=19

>xnew<-as.data.frame(xnew)

>colnames(xnew)<-« T12 »

>predict(reg.simple,xnew,interval=« pred »)

Il faut noter que l’argument xnew de la fonction predict doit ˆetre un data- frame avec les mˆemes noms de variables explicatives (ici T12). La valeur pr´evueest 76.5 et l’intervalle de pr´evision `a 95% est [41.5,111.5]. Pour repr´esenter sur un mˆeme graphique l’intervalle de confiance d’une valeur liss´ee et l’intervalle de confiance d’une pr´evision, nous calculons ces intervalles pour l’ensemble des points ayant servi `a dessiner la droite de r´egression. Nous faisons figurer les deux sur le mˆeme graphique.

>grillex.df<-data.frame(grillex)

>dimnames(grillex.df)[[2]]<-« T12 »

>ICdte<-predict(reg.simple,new=grillex.df,interval=« conf », +level=0.95)

>ICprev<-predict(reg.simple,new=grillex.df,interval=« pred », +level=0.95)

>plot(max03∼T12,data=ozone,pch=15,cex=.5)

>matlines(grillex,cbind(ICdte,ICprev[,-1]),lty=c(1,2,2,3,3), +col=1)

>legend(« topleft »,lty=2 :3,c(« prev »,« conf »))

2

Références

Documents relatifs

On cherche ` a d´ eterminer un intervalle de confiance pour p au niveau de confiance 99% (1% de risque) 1.. Je pense donc que oui.. a) D i est la diff´ erence du nombre de p` eche

paramètre θ à l’aide d’un estimateur sans biais de θ Soit X une v.a.r... Ainsi, une marge d’erreur faible produit un niveau de risque élevé et un niveau de

Il s'agit d'une suite de 100 intervalles de confiance au niveau de confiance 0,95, dont chacun a été calculé sur un échantillon de taille 1000 simulé à partir de ce que fut le score

[r]

Si nous ne tenons pas compte du nombre d’instructions, quelle valeur pour- rions-nous utiliser comme estimation du temps moyen de programmation des projets.. Quelle

Ayant justement un arbre tout pr` es, le professeur lui dit, apr` es une expertise de quelques minutes que cet arbre a un volume de 0, 22 m 3. Sans plus tarder, l’´ etudiant

D´ eterminer la somme de carr´ es r´ esiduelle lorsque les variables explicatives X 2 et X 3 sont dans l’´ equation de r´ egression lin´

La statistique du test de Fisher observ´ ee est plus grande que le quantile de loi de Fisher critique. Donc on est dans la zone de rejet de l’hypoth` ese nulle H 0. Avec l’intervalle