• Aucun résultat trouvé

Cours de Modèle Linéaire, L3 maths-éco L3 maths-éco - UBO Pierre Ailliot Année 2020-2021

N/A
N/A
Protected

Academic year: 2022

Partager "Cours de Modèle Linéaire, L3 maths-éco L3 maths-éco - UBO Pierre Ailliot Année 2020-2021"

Copied!
15
0
0

Texte intégral

(1)

Cours de Modèle Linéaire, L3 maths-éco

L3 maths-éco - UBO

Pierre Ailliot Année 2020-2021

Contents

1 Introduction 1

2 Régression linéaire simple 2

2.1 Le modèle . . . 2

2.2 La méthode des moindres carrés (Gauss (1795), Legendre (1805)) . . . 4

2.3 Espérance et variance de l’estimateur des moindres carrés . . . 6

2.4 Loi de l’estimateur des moindres carrés pour le modèle linéaire gaussien . . . 8

2.5 Estimation deσ2 . . . 10

2.6 Loi de Student et intervalles de confiance pourβi lorsqueσest inconnu . . . 13

2.7 Tests d’hypothèses . . . 14

1 Introduction

L’objectif général de la régression est d’expliquer une variableY, dite variable à expliquer, réponse ou variable exogène, en fonction de pvariables x1, ..., xp, dites variables explicatives, de contrôle, endogènes ou régresseurs. Quelques exemples:

• Assurance : prévoir le montant des sinistres automobiles d’un assuré connaissant la cylindrée de la voiture, l’âge du conducteur, le bonus-malus,...

• Intelligence artificielle : détecter la présence d’un objet dans une image ou un texte.

• Econométrie : quelles variables économiques expliquent le taux de chômage d’un pays ou d’une région : croissance, démographie, prix des matières premières, politique fiscale, endettement,...?

• Environnement : quelle sera la température moyenne à Brest en 2050?

• Marketing : prévoir la probabilité d’acheter un produit donné à partir du genre, de l’age, de la catégorie socio-professionelle, etc ..., d’une personne.

En pratique, on dispose d’un jeu de données de la forme

y1 x1,1 · · · x1,p

... ... . .. ... yn xn,1 · · · nn,p

Chaque ligne correspond à un individu qui est caractérisé par les valeurs prises par les variables à expliquer et explicatives.

nest le nombre d’individus etple nombre de variables explicatives. Dans le cours d’analyse de données, toutes les variables ont un rôle symétrique alors dans le cours de modèle linéaire la variable à expliquer joue un rôle particulier.

Les différentes variables peuvent être quantitatives (i.e. à valeurs réelles comme taille, poids, âge,. . . ) ou qualitatives (ex : couleur, genre,. . . ), ce critère déterminant le type de méthode ou de modèle à mettre en ouvre : régression linéaire,

analyse de variance et covariance, analyse discriminante, régression logistique, etc.

(2)

Dans ce cours, nous allons nous intéresser uniquement à la régression linéaire, dans laquelle on suppose que la variable à expliquer et les variables explicatives sont quantitatives et que la relation entre ces variables est linéaire.

Dans le premier paragraphe, nous allons étudier de manière détaillée la régression linéaire simple, qui correspond au cas oùp= 1 (ex classique : prévoir le poids d’un individu à partir de sa taille). Ensuite, nous traiterons la régression multiple qui correspond au casp >1.

2 Régression linéaire simple

2.1 Le modèle

Pour illustrer ce chapitre, nous allons considérer les températures annuelles moyennes à Brest depuis 1945 (source https://www.ecad.eu/dailydata/index.php).

Commençons par importer les données avec R . library(readr)

Guip <- read_delim("~/Cours/Cours2020-2021/linMIASHS/Guip.txt", " ", escape_double = FALSE, col_names = FALSE, trim_ws = TRUE, skip = 29)

## Parsed with column specification:

## cols(

## .default = col_double(),

## X22 = col_logical()

## )

## See spec(...) for full column specifications.

z=data.frame(Guip[,2],Guip[,3]/100) names(z)=c("An","Temp")

tail(z) #Température inconnue en 2020

## An Temp

## 71 2015 12.18

## 72 2016 11.96

## 73 2017 11.95

## 74 2018 12.00

## 75 2019 11.99

## 76 2020 -9999.99 z=z[z$An<2020,]

Les commandes suivantes permettent de représenter l’évolution des températures moyennes. Dans la suite du cours, nous allons nous focaliser sur la période 1960-2019 où une tendance linéaire semble visible.

plot(z$An,z$Temp,type='l',xlab = 'Année',ylab='Température (°C)') ind=which(z$An>1960) #extraction des données depuis 1960

z=z[ind,]

lines(z$An,z$Temp,type='l',col='red') abline(v = 1960,col='blue')

(3)

Le graphique suggère le modèle suivant

yi=β0+β1xi+wi

wireprèsente “l’erreur” ou le “résidu”. Ces résidus décrivent les fluctuations de la température annuelle autour de la tendance linéaireβ0+β1xi et permettent de modéliser le caractère “aléatoire” des températures. On supposera alors quew1, ..., wn sont des réalisations de variables aléatoires.

Définition 1 Le modèle de régression linéaire simple s’écrit

Yi=β0+β1xi+Wi

avec

(x1, ..., xn) les valeurs prises par la variable explicative (supposée déterministe)

(W1, ..., Wn)desvariables aléatoiresi.i.d. vérifiant E[Wi] = 0etvar(Wi) =σ2<

β01 etσ2 desparamètres inconnus.

Si le résidu suit une loi normale ("résidu gaussien"), on parle alors demodèle linéaire gaussien.

Remarque 1 La définition précédente fait apparaître trois objets de nature différente : les observations, les variables aléatoires et les paramètres inconnus. Par exemple, le résiduWi est une variable aléatoire. L’observation yi est donc une réalisation de la variable aléatoireYi dont la loi de probabilité dépend des paramètres inconnus β01 etσ2. Dans la suite du cours, seules les variables aléatoires sont notées avec des lettres majuscules. Les observations et la variable explicative (supposée déterministe) seront notées avec deslettres minuscules. Les paramètres inconnus sont notés avec deslettres grecques.

Quelques questions auxquelles on saura répondre à la fin de ce chapitre:

Estimation. Comment estimer les paramètres inconnusβ0 etβ1à partir des observations? Quelle est la qualité des estimations obtenues?

Tests-intervalles de confiance. Peut-on conclure que les températures moyennes ont augmenté à Brest depuis 1960? Si oui, de combien de degré par siècle? Avec quelle précision peut-on estimer cette augmentation?

(4)

Prédiction. Quelle sera la température moyenne en 2100? Avec quelle incertitude?

2.2 La méthode des moindres carrés (Gauss (1795), Legendre (1805))

Rappel 1 Soient(x1, ..., xn)∈Rn et(y1, ..., yn)∈Rn deux séries statistiques (i.e. suites d’observations) réelles. On note

x¯= Pn

i=1xi

n la moyenneempirique dex.

vx=s2x= Pn

i=1(xi−¯x)2

n =

Pn i=1x2i

nx¯2. vx est lavariance empirique dexetsx l’écart type empirique dex.

• On définit de la même manièrey¯,vy etsy.

cx,y = Pn

i=1(xi−¯x)(yiy)¯

n =

Pn i=1xiyi

n¯y la covarianceempirique entrexety.

rx,y= scx,y

xsy lecoefficient de corrélation empirique. C’est une mesure de la relation linéaire entre deux séries statistiques. En utilisant l’inégalité de Cauchy-Schwartz, on peut montrer que ce coefficient est compris entre -1 et 1, avec les cas extrêmes,

sirx,y= 1, alors la relation entre les deux séries est parfaitement linéaire, i.e., il existeλ >0 tel que pour i∈ {1...n},yi=λxi;

de même pourrx,y =−1 avec λ <0;

rx,y= 0 signifie l’absence de relation linéaire, mais pas l’absence de relation (cf exemple ci-dessous).

Illustration avec R.

n=20x=seq(-n,n) y=x^2

plot(x,y,pch='+') #les deux séries sont liées

(5)

cor(x,y) #corrélation nulle

## [1] 0

Exercice 1 Retrouver par le calcul quecx,y= 0 sur l’exemple ci-dessus.

La méthode des moindres carrés consiste à ajuster au nuage de points (xi, yi) la droite “qui passe le plus près des points”. Plus précisément, notons

F(b0, b1) =

n

X

i=1

(yib0b1xi)2

On estime alors (β0, β1) par la valeur des paramètres (ˆb0,ˆb1) qui réalise le minimum de la fonctionF. Plus précisément la droite des moindres carrés (ˆb0,ˆb1) vérifie

Fb0,ˆb1) = inf{F(b0, b1)|(b0, b1)∈R2}

Proposition 1 L’équation de la droite des moindres carrés vérifie les relations ci-dessous ˆb1=cx,y

s2x =rx,ysy sx

ˆb0= ¯ybˆ1x¯ Preuve 1 A faire en exercice.

Remarque 2 Si on posezi= xis−¯x

x . On vérifie quez¯= 0etsz= 1: on dit que la variable(z1, ..., zn)est centrée-réduite.

L’équation de la droite des moindres carrés s’écrit simplement avec les variables centrée-réduites.

yy¯ sy

=rxx¯ sx

La droite des moindres carrés passe donc par le point de coordonnéex,y)¯ et le coefficient de corrélationrs’interprète comme la pente de la droite après réduction des deux variables.

Illustration avec R.

x=z$An y=z$Temp

b1=cor(x,y)*sd(y)/sd(x) b0=mean(y)-b1*mean(x) plot(z$An,z$Temp,type='l') abline(b0,b1,col='red')

(6)

Les codes ci-dessus permettent de tracer la droite des moindres carrés pour l’exemple des températures à Brest. Visuellement, on obtient bien une droite qui “passe au milieu des points”.

2.3 Espérance et variance de l’estimateur des moindres carrés

Définition 2 On appelleestimateurdes moindres carrés de β0 etβ1 les variables aléatoires Bˆ0 etBˆ1 obtenues en remplaçant les observations par les variables aléatoires dans les formules de la droite des moindres carrés, c’est à dire

Bˆ1= Pn

i=1(YiY¯)(xix)¯ Pn

i=1(xix)¯ 2 avec Y¯ =

Pn i=1Yi

n et

Bˆ0= ¯YBˆ1x¯

Remarque 3 En statistique (cf cours au S6), on différencie la notion d’estimation et d’estimateur. Un estimateur (lettres majuscules) est une variable aléatoire et une estimation (lettres minuscules) est la valeur prise par cette variable aléatoire pour une réalisation particulière de l’expérience aléatoire. L’étude de la loi des estimateurs permet d’analyser la qualité des estimations.

Rappel 2 Si(Z1, ..., Zn)est une suite de variables alétoires et1, ..., λn)∈Rn alors

E[

n

X

i=1

λiZi] =

n

X

i=1

λiE[Zi].

On notecov(Zi, Zj) =E[ZiZj]−E[Zi]E[Zj]. Remarquons que siZi etZj sont indépendantes, alors cov(Zi, Zj) = 0. Si(U1, ..., Un)est une suite de variables alétoires et1, ..., γn)∈Rn alors

cov(

n

X

i=1

γiUi,

n

X

i=1

λiZi) =

n

X

i,j=1

γiλjcov(Ui, Zj).

(7)

En particulier,

cov(

n

X

i=1

λiZi,

n

X

i=1

λiZi) =var(

n

X

i=1

λiZi) =

n

X

i,j=1

λiλjcov(Zi, Zj).

On en déduit que sicov(Zi, Zj) = 0pour tout(i, j)∈ {1, ..., n}2 avec i6=j, alors

var(

n

X

i=1

λiZi) =

n

X

i=1

λ2ivar(Zi).

Cette dernière égalité est donc vraie en particulier si les variables aléatoires (Z1, ..., Zn)sont indépendantes.

Proposition 2 Sous les hypothèses du modèle linéaire, on a

E[ ˆB0] =β0 etvar( ˆB0) =σ2h20 avec h20= Pn

i=1x2i nPn

i=1(xi−¯x)2.

E[ ˆB1] =β1 etvar( ˆB1) =σ2h21 avec h21= Pn 1 i=1(xi−¯x)2. Preuve 2 CommePn

i=1(xix) = 0¯ , on a Bˆ1=

Pn

i=1(YiY¯)(xix)¯ Pn

i=1(xix)¯ 2

= Pn

i=1Yi(xix)¯ Pn

i=1(xix)¯ 2

On déduit de cette expression le calcul deE[ ˆB1] puisE[ ˆB0], et aussi de var( ˆB1). Pour le calcul de var( ˆB0), on peut utiliser que

var( ˆB0) =var( ¯Y) + ¯x2var( ˆB1)−2¯xcov( ¯Y ,Bˆ1) avec var( ¯Y) =σ2/n etcov( ¯Y ,Bˆ1) = 0.

Remarque 4 Les estimateurs des moindres carrés vérifientE[ ˆBi] =βi. De tels estimateurs sont ditssans biais(pas d’erreur "systématique"). La variance des estimateurs permet de mesurer les fluctuations de l’estimateur autour du paramètre inconnu. En statistique, on cherche généralement à construire sans biais et dont la variance est la plus petite possible ("estimateur efficace").

Illustration avec R.

n=100 #nombre de simulations beta0=0 #valeur des paramètres beta1=1

sig=0.1

x=(1:n)/n #variable explicative N=1000 #nombre de simulations B0=NULL #initialisation B1=NULL

for (i in 1:N){

w=rnorm(n,mean=0,sd=sig) #simulation du résidu aléatoire y=beta0+beta1*x+w #simulation de la variable à expliquer

bc1=sum((y-mean(y))*(x-mean(x)))/sum((x-mean(x))^2) #estimation de la pente bc0=mean(y)-bc1*mean(x) #estimation de l'intercept

B0[i]=bc0 #on stocke les valeurs dans B0 B1[i]=bc1

}par(mfrow=c(1,2))

hist(B1) #histogramme des estimations de B1 (loi normale) abline(v=beta1,col='red') #vraie valeur de beta1

plot(B0,B1) #représentation graphique

abline(v=beta0,col='red') #vraie valeur de beta0 abline(h=beta1,col='red') #vraie valeur de beta1

(8)

Exercice 2 On peut remarquer sur le nuage de points précédent les estimateursBˆ0 etBˆ1 sont corrélés. Montrer que cov( ˆB0,Bˆ1) = −¯2

Pn

i=1(xix)¯ 2.

2.4 Loi de l’estimateur des moindres carrés pour le modèle linéaire gaussien

Les résultats du paragraphe précédent donnent uniquement l’espérance et la variance des estimateurs, mais pas la loi de probabilité des estimateurs. Afin de pouvoir calculer explicitement la loi des estimateurs, on fait généralement l’hypothèse que les résidus suivent une loi normale. On fera cette hypothèse dans la suite du cours.

Rappel 3 Z ∼ N(µ, σ2)si et seulement si sa densité est donnée par f(z) = 1

σ

exp−(x−µ)22

• SiZ ∼ N(µ, σ2)alorsU = Z−µσ ∼ N(0,1).

• SiZ ∼ N(µ, σ2)alorsE[Z] =µetvar(Z) =σ2.

• Si on noteqα le quantile d’ordreαde la loi N(0,1)alors P(qα/2Uq1−α/2) = 1−α. Par symétrie de la loi N(0,1), on aqα/2=−q1−α/2. En particulier, on a q0.975≈1.96et donc

P(µ−1.96σ≤Zµ+ 1.96σ)≈0.95.

• Si (Z1, ..., Zn) est une suite de variables gaussiennes indépendantes, alors Pn

i=1Zi est une variable aléatoire gaussienne.

Illustration avec R.

xx=seq(-4,4,by=.01) par(mfrow=c(1,2))

plot(xx,dnorm(xx,mean=0,sd=1),type='l') #tracé de la densité de la loi N(0,1) U=rnorm(10^6,mean=0,sd=1) #simulation d'une loi normale

(9)

hist(U,freq=FALSE) #freq=FALSE normalise l'histogramme pour que ce soit une densité (aire des rectangles égale à 1) lines(xx,dnorm(xx,mean=0,sd=1),type='l',col='red') #densité proche de l'histogramme

q=qnorm(0.975,mean=0,sd=1) #quantile à 97.5% de la loi N(0,1) q #proche de 1.96

## [1] 1.959964

sum(U<q)/length(U) #environ 97.5% des simulations en dessous de q

## [1] 0.975045

sum(U>-q & U<q)/length(U) #environ 95% des simulations entre - q et q

## [1] 0.950078

Proposition 3 Sous les hypothèses du modèle linéaire gaussien, on a, pouri∈ {0,1}, Bˆi∼ N(βi, σ2h2i)

Preuve 3 Les estimateursBˆ0 etBˆ1 s’écrivent comme des combinaisons linéaires de (W1, ...Wn)qui est une suite de variables aléatoires gaussiennes indépendantes. Bˆ0 et Bˆ1 sont donc des variables aléatoires gaussiennes. Le calcul de l’espérance et de la variance de ces estimateurs a été fait dans le paragraphe précédent.

On peut utiliser la proposition précédente pour construire des intervalles de confiance pour les paramètres inconnusβi aveci∈ {0,1}. D’après la proposition précédente, Bˆσhi−βi

i suit une loiN(0,1). On en déduit queP[−u1−α/2Bˆσhi−βi

i

u1−α/2] = 1−αet donc

P[ ˆBiu1−α/2σhiβiBˆi+u1−α/2σhi] = 1−α.

[ ˆBiu1−α/2σhi,Bˆi+u1−α/2σhi] est appelé intervalle de confiance (IC) au niveau 1−αpourβ1.

Définition 3 On appelle intervalle de confiance au niveau de confiance1−αpour le paramètre inconnuθ, un intervalle aléatoire [a(Y1, ..., Yn), b(Y1, ..., Yn)]qui contient la vraie valeur du paramètreθ avec une probabilité1−α, c’est à dire

(10)

vérifiant

P[θ∈[a(Y1, ..., Yn), b(Y1, ..., Yn)] = 1−α

Illustration avec R.

n=100 #nombre de simulations beta0=0 #valeur des paramètres beta1=1

sig=0.1

x=(1:n)/n #variable explicative N=1000 #nombre de simulations h1=sqrt(1/(sum((x-mean(x))^2))) cpt=0 #initialisation du compteur for (i in 1:N){

w=rnorm(n,mean=0,sd=sig) #simulation du résidu aléatoire y=beta0+beta1*x+w #simulation de la variable à expliquer

bc1=sum((y-mean(y))*(x-mean(x)))/sum((x-mean(x))^2) #estimation de la pente

if (beta1>bc1-1.96*h1*sig & beta1<bc1+1.96*h1*sig ){ # si beta1 est dans l'IC à 95%

cpt=cpt+1 #on rajoute 1 au compteur } }

cpt/N #on retrouve que pour environ 95% des simulations beta1 est dans l'IC

## [1] 0.949

En pratiqueσ2 est inconnu et on ne peut pas faire l’application numérique des expressions données ci-dessus car elle font intervenirσ. On cherche alors à estimerσ2.

2.5 Estimation de σ

2

Définition 4 Soient (U1, U2, ..., Up) pvariables aléatoires i.i.d. de loi N(0,1). On appelle loi du χ2 à p degrès de liberté la loi deX=U12+U22+...+Up2. On noteraXχ2p etχp,α le quantile d’ordre αde la loiχ2p.

Proposition 4 SiXχ2p alorsE[X] =p. Preuve 4 A faire en exercice.

Illustration avec R.

p=100 #degré de liberté xx=seq(0,2*p,length.out=500)

plot(xx,dchisq(xx,df=p),type='l') #tracé de la densité de la loi du chi2

(11)

U=rchisq(10^6,df=p) #simulation de la loi du chi2 mean(U) #valeur proche de p

## [1] 100.0092

q=qchisq(0.975,df=p) #quantile à 97.5% de la loi du chi2 q

## [1] 129.5612

sum(U<q)/length(U) #environ 97.5% des simulations en dessous de q

## [1] 0.975006

sum(U> qchisq(0.025,df=p) & U<qchisq(0.975,df=p))/length(U) #environ 95% des simulations entre les quantiles à 2.5 et 97.5%

## [1] 0.95006

Par définition, on a σ2 = var(Wi) = E[Wi2]. On estimateur “naturel” de σ2 est donc la moyenne empirique de (W1, ..., Wn, c’est à dire

PWi2

n =

P(Yi−β0−β1xi)2

n . Comme (W1, ..., Wn) ∼i.i.d. N(0, σ2), on en déduit que (Wσ1, ...,Wσn)∼i.i.d.N(0,1) et donc que

PWi2

σ2χ2n et queE[

PWi2 n ] =σ2.

On a donc construit un estimateur sans biais deσ, mais cet estimateur ne peut pas être utilisé en pratique car sa définition fait apparaître les paramètres inconnusβ0etβ1. Il semble alors naturel de remplacer ces quantités par leurs estimateurs. On pose alors ˆWi= (YiBˆ0Bˆ1xi) ( ˆWi est appelérésidu empirique).

Proposition 5

PWˆi2

σ2χ2n−2 et S2=

PWˆ2 i

n−2 est un estimateur sans biais deσ2. De plusS2 est une v.a. indépendante deBˆ0 etBˆ1. Preuve 5 Admis (conséquence du théorème de Cochran)

(12)

Illustration avec R.

n=100 #nombre de simulations beta0=0 #valeur des paramètres beta1=1

sig=0.1

x=(1:n)/n #variable explicative N=1000 #nombre de simulations S2=NULL

b1=NULL

for (i in 1:N){

w=rnorm(n,mean=0,sd=sig) #simulation du résidu aléatoire y=beta0+beta1*x+w #simulation de la variable à expliquer

bc1=sum((y-mean(y))*(x-mean(x)))/sum((x-mean(x))^2) #estimation de la pente bc0=mean(y)-bc1*mean(x) #estimation de l'intercept

Wchap=y-bc0-bc1*x #calcul des résidus empiriques

S2[i]=sum(Wchap^2)/(n-2) #on stocke la valeur de l'estimation de sig2 b1[i]=bc1 #on stocke la valeur de l'estimation de beta1

}

mean(S2) #proche de sig2 car estimateur sans biais

## [1] 0.009908611 par(mfrow=c(1,2))

hist((n-2)*S2/sig^2,freq=FALSE,breaks=30) #histogramme normalisé, proche d'une densité du chi2 xx=seq(0,200,length.out=500)

lines(xx,dchisq(xx,df=n-2),col='red') #(n-2)*S/sig2 suit une loi du chi2 à n-2 ddl plot(S2,b1) #les valeurs de S2 et B1 semblent indépendantes

(13)

On peut utiliser ce résultat pour faire des intervalles de confiance pourσ2. On a

Pn−2,α/2≤(n−2)S2

σ2χn−2,1−α/2] = 1−α (1)

puis que [(n−2)χ S2

n−2,1−α/2; (n−2)χ S2

n−2,α/2] est un IC au niveau 1−αpourσ2.

Exercice 3 Vérifier à l’aide de simulations que les formules précédentes permettent bien de construire un intervalle de confiance à 95

2.6 Loi de Student et intervalles de confiance pour β

i

lorsque σ est inconnu

Définition 5 SoitU ∼ N(0,1) etXχ2p avecU etX indépendantes. On appelle loi de Student à pdegrés de liberté la loi de

T =√ n U

X.

On noteraTTp ettp,α le quantile d’ordre αdeT de telle manière queP(T < tp,α) =α. On a vu que Bˆσhi−βi

i ∼ N(0,1). La proposition suivente montre qu’on obtient une loi de Student lorsqu’on remplaceσ par son estimateurS dans cette expression.

Proposition 6 Sous les hypothèses du modèle linéaire gaussien, on a Bˆiβi

Shi

∼ Tn−2

pouri∈ {0,1}.

Preuve 6 On a BˆShi−βii =√ n−2

Biˆβi σhi

p(n−2)S2

σ2

. On utilise ensuite la proposition précédente et la définition de la loi de Student.

On peut utiliser la proposition précédente pour construire des intervalles de confiance pour les paramètres inconnusβiavec i∈ {0,1}. D’après la proposition précédente, BˆShi−βi

i ∼ Tn−2. On en déduit queP[−t1−α/2BˆShi−βi

it1−α/2] = 1−α et donc

[ ˆBitn−2,1−α/2Shi,Bˆi+tn−2,1−α/2Shi] est un intervalle de confiance (IC) au niveau 1−αpour βi.

Cette formule est utilisée par la fonction R confint pour calculer des intervalles de confiance.

Illustration avec R.

reg=lm(Temp~An,data=z) #ajustement du modèle linéaire confint(reg) #intervalle de confiance

## 2.5 % 97.5 %

## (Intercept) -56.05937348 -28.0257931

## An 0.01978189 0.0338686

Une fourchette d’estimation à 95% pourβ1est donc [0.02; 0.034], ce qui correspond à une augmentation de la température comprise entre 2oC et 3.4oC par siècle.

Exercice 4 Vérifier, sur l’exemple des températures à Brest, qu’on retrouve les mêmes intervalles de confiance en utilisant la fonction confint de R et les formules du cours.

Utilisons R pour retrouver les résultats numériques donnés par la fonction confint.

y=z$Temp x=z$An n=length(x)

#estimation

bc1=sum((y-mean(y))*(x-mean(x)))/sum((x-mean(x))^2) #estimation de la pente

(14)

bc0=mean(y)-bc1*mean(x) #estimation de l'intercept

s=sqrt(sum((y-bc0-bc1*x)^2)/(n-2)) #estimation de sigma

#IC pour beta 1

h1=sqrt(1/sum((x-mean(x))^2))

bc1-s*h1*qt(0.975,n-2) #borne inf de l'IC pour beta1

## [1] 0.01978189

bc1+s*h1*qt(0.975,n-2) #borne sup de l'IC pour beta1

## [1] 0.0338686

#on retrouve bien les mêmes résultats que avec confint

#faire le calcul pour beta0 en exercice

2.7 Tests d’hypothèses

La proposition précédente peut également être utilisée pour faire destests d’hypothèsesur la valeur des paramètres.

Par exemple, on peut tester l’hypothèse

H0:βi= 0 contreH1:βi6= 0.

En pratique, cela veut dire qu’on doit choisir entre les hypothèsesH0 etH1 à partir des données disponibles. On a deux manières de se tromper:

• refuserH0 alors queH0 est vraie;

• accepterH0 alors queH0 est fausse.

Dans la théorie des tests, on appelle

risque de première espècela probabilité de refuserH0 alors queH0 est vraie;

risque de deuxième espècela probabilité d’accepterH0alors queH0 est fausse.

Vous pouvez consulter la page Wikipedia https://fr.wikipedia.org/wiki/Test_statistique

pour plus de détails sur les tests d’hypothèses en statistique.

Pour réaliser le test, on utilise lastatistique de test

Tc= Bˆi Shi

c’est à dire l’estimateur ˆBi de βi normalisé par son écart-type. On fixe ensuite le risque de première espèceα. En pratique, on prend généralementα= 5%, ce qui correspond à un niveau de risque considéré comme “acceptable” pour les applications. Pour notre test particulier, siH0est vraie alorsTc∼ Tn−2 et donc

PH0[tn−2,α/2< Tc< tn−2,1−α/2] =PH0[|Tc|< tn−2,1−α/2] = 1−α

avec la notationPH0 qui signifie qu’on calcule la probabilité en supposant queH0est vraie. La règle de décisionest alors la suivante

• on accepteH0 si|Tc|< tn−2,1−α/2;

• on refuseH0 sinon.

Avec cette règle de décision, le risque de première espèce est bien égal à α. En pratique, la plupart des logiciels statistiques (dont R) donne le résultat des tests sous la forme d’une p-value. La p-value (ou “degré de signification” ou

“valeur p”) du test est

pv=P(|T|>|tc|)

avecT ∼ Tn−p−1ettc la valeur observée pour la statistique de test pour l’expérience particulière. On vérifie facilement que la règle de décision s’écrit de la manière suivante en utilisant la p-value

(15)

• on accepteH0 sipv> α;

• on refuseH0 sinon.

Vous pouvez consulter la page Wikipedia https://fr.wikipedia.org/wiki/Valeur_p pour plus de détails sur la notion de p-value.

Illustration avec R.

summary(reg) #donne les p-values des tests beta_i=0

#### Call:

## lm(formula = Temp ~ An, data = z)

#### Residuals:

## Min 1Q Median 3Q Max

## -1.14617 -0.29514 -0.00363 0.27605 1.19716

#### Coefficients:

## Estimate Std. Error t value Pr(>|t|)

## (Intercept) -42.042583 6.999766 -6.006 1.40e-07 ***

## An 0.026825 0.003517 7.627 2.87e-10 ***

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#### Residual standard error: 0.4601 on 57 degrees of freedom

## Multiple R-squared: 0.5051, Adjusted R-squared: 0.4964

## F-statistic: 58.16 on 1 and 57 DF, p-value: 2.873e-10 Il faut savoir interpréter les sorties de la fonction summary ci-dessus.

• La ligne ’Intercept’ teste la nullité de l’intercept, c’est à dire donne le résultat du test H0:β0= 0 contreH1:β06= 0.

l’estimation (’Estimate’) deβ0 est ˆb0=−42.04;

l’estimation de l’écart-type de ˆB0(’Std. Error’) estsh0= 6.99;

la valeur de la statistique de test (’t value’) esttc =shˆb0

0 =−6.01;

la p-value du test est 1.410−7.

On refuse doncH0 si on prend un risque de première espèceα >1.410−7. Généralement, on prendα= 5%, ce qui conduit à rejeter (largement car la p-value est très faible)H0. Le test de nullité de l’intercept a généralement peu d’intérêt pratique (ici cela revient à tester si on peut supposer que la température est nulle en l’an 0...).

• La ligne ’An’ teste la nullité de la pente, c’est à dire donne le résultat du test H0:β1= 0 contreH1:β16= 0.

Ce test est plus intéressant d’un point de vue applicatif puisque l’hypothèseH0signifie que la température moyenne n’évolue pas avec l’année (c’est à dire absence de réchauffement climatique). La p-value du test (également très faible) est égale à 2.87e−10<5% et on refuse doncH0 pour un risque de première espèceα= 5%. Le changement de température à Brest est donc "statistiquement significatif".

• La ligne ’Residual standard error’ donne la valeurs= 0.4601 de l’estimation deσ(cf paragraphe 2.5) et rappelle le degré de liberté (’degrees of freedom’) de la loi du χ2 associée (ici n= 59 donc n−2 = 57). On peut par exemple utiliser ces valeurs pour calculer un intervalle de confiance pourσ2en utilisant la formule (1).

• La compréhension des deux dernières lignes du summary ne rentre pas dans le cadre de ce cours.

Références

Documents relatifs

Dans la suite du cours, seules les variables aléatoires sont notées avec des lettres majuscules.. Les observations et la variable explicative (supposée déterministe) seront notées

Généralement : contrôle continu + contrôle final Ouverture vers le Master : rapport + soutenance Crédits ECTS proportionnels aux volumes horaires.. Emploi du temps de la

Les observations et la variable explicative (supposée déterministe) seront notées avec des lettres minuscules. Les paramètres inconnus sont notés avec des lettres grecques ..

Par exemple, sur les séries temporelles du paragraphe précédent, on peut voir que le nombre de passagers dans les avions a tendance à augmenter d’année en année.. Le cours du CAC 40

La première composante principale prendra donc une valeur positive pour une ville donnée si les températures sont au dessus de la moyenne nationale toute l’année (climat plus chaud

On peut utiliser fviz_pca_biplot pour obtenir une représentation graphique plus complète (variables, individus et classes sur le même graphique). Vous devez être capable

Dans les applications pratiques, il est classique d’appliquer une transformation simple sur les variables (ex y := log(y), y = y 2 ) pour rendre la relation entre les variables

(e) Ajuster un modèle de régression linéaire multiple avec interaction permettant d’expliquer la variable logclaimcst0 en fonction des variables gender et agecat, considérée comme