• Aucun résultat trouvé

A.Godichon-Baggioni Mod`elelin´eaire Mise`aniveau

N/A
N/A
Protected

Academic year: 2022

Partager "A.Godichon-Baggioni Mod`elelin´eaire Mise`aniveau"

Copied!
32
0
0

Texte intégral

(1)

Mod`ele lin´eaire

A. Godichon-Baggioni

(2)

I. Mod`ele lin´eaire

(3)

MODELE DE R` EGRESSION´

L’objectif est d’expliquer une variableYen fonction de variables explicativesX. Plus pr´ecis´ement, un mod`ele de regression est un mod`ele o `u on consid`ere :

I des variables al´eatoires `a expliquerY1, . . . ,Yn

I des vecteursX1, . . . ,XnRp(variables explicatives) I une fonction de r´egressiong:Rp−→R

I des variables al´eatoires ind´ependantes et centr´ees 1, . . . , n

Le mod`ele de r´egression est d´efini comme Yi=g(Xi) +i.

(4)

EXEMPLE 1 : Yi = ax2i +bxi+c+i

−2 −1 0 1 2

0246

X

Y

(5)

EXEMPLE 2 : Yi = axi+ b+i

−2 −1 0 1 2

−6−4−2024

X

Y

(6)

MODELE LIN` EAIRE´

D´efinition

Lorsque la fonction de r´egr´ession est lin´eaire, i.e de la forme g(X) =XTβ

avecβRp, le mod`ele de r´egression associ´e est dit lin´eaire.

(7)

FORME MATRICIELLE

On consid`ere le mod`ele lin´eaire

Yi=g(Xi) +i=XTiβ+i. On noteY= (Y1, . . . ,Yn)T,= (1, . . . , n)Tet

X= (X1, . . . ,Xn)T=

X1,1 . . . X1,p

... . .. ... Xn,1 . . . Xn,p

.

La forme matricielle du mod`ele lin´eaire s’´ecrit alors Y=+.

(8)

EXEMPLE 1 : MODELE LIN` EAIRE SIMPLE´

On ax1, . . . ,xnRet pour touti yi=a+bxi+i. Le mod`ele s’´ecrit sous la forme

Y=Xβ+.

avec

X=

1 x1

... ... 1 xn

, et β = a

b

.

La fonctionx7−→a+bxest dite droite de r´egression.

(9)

EXEMPLE 2 : REGRESSION POLYNOMIALE´

On ax1, . . . ,xnRet pour touti

yi=a0+a1xi+. . .+apxpi +i. Le mod`ele s’´ecrit sous la forme

Y=+. avec

X=

1 x1 . . . xp1 ... ... ... 1 xn . . . xpn

, et β =

a0

... ap

.

(10)

Comment estimer β ?

(11)

II. M´ethode des moindres carr´es

(12)

ESTIMATEUR DES MOINDRES CARRES´

La m´ethode des moindres carr´es consiste `a chercherβˆRpqui minimise la quantit´e suivante :

kYXβ0k2 =

n

X

i=1

YiXTiβ02 .

βˆest appel´e estimateur des moindres carr´es.

I Existence d’une solution ? I Unicit´e ?

(13)

EXISTENCE ET UNICITE´

Th´eor`eme

SiXest de rang p, alors l’estimateur des moindres carr´es est unique et est d´efini par

βˆ= XTX−1 XTY

(14)

PROPOSITION

Proposition

La matriceXTXest semi-d´efinie positive. De plus, elle est positive si et seulement siXest de rang p.

Remarque : La matriceXne peut ˆetre de rangpque sinp.

(15)

MOINDRES CARRES ET PROJECTION´

On doteDRple sous espace vectoriel engendr´e par les colonnes deX. Le probl`eme de minimization peut s’´ecrire comme

min

β0∈RpkYXβ0k2 = min

h∈DkYhk2

et chercher le minimum revient donc `a cherche la projection orthogonale deYsurD.

Remarque : dim(D) =rang(X).

(16)

MOINDRES CARRES ET PROJECTION´

Th´eor`eme

Si rang(X) =p, i.e siXTXest inversible, alors la matrice PD=X XTX−1

XT

est la matrice de projection orthogonale sur D et rang(H) =p.

(17)

PROPRIET´ ES DE L´ ’ESTIMATEUR DES MOINDRES CARRES´

Proposition

Soit= (1, . . . , n)avecE[] =0Rnet Var[] =σ2In,σ2>0. On suppose de plus que rang(X) =p. Alors

E hβˆi

=β et Varh βˆi

=σ2 XTX−1 .

(18)

D ´EFINITIONS

D´efinition

1. On appelle

ˆ

=YXβˆ le vecteur des r´esidus.

2. On appelle

SCR=k2= YXβˆ

2

la somme des carr´es des r´esidus.

(19)

ESTIMATION DE σ2

Th´eor`eme

Soit= (1, . . . , n)avecE[] =0Rnet Var[] =σ2In,σ2>0. On suppose de plus que rang(X) =p. Alors

ˆ σ2=

YXβˆ

2

np = 1

np

n

X

i=1

YiXiTβˆ2

est un estimateur sans biais deσ2.

(20)

III. Mod`ele lin´eaire gaussien

(21)

MODELE LIN` EAIRE GAUSSIEN´

D´efinition

Le mod`ele de r´egression lin´eaire

Y=Xβ+

est dit mod`ele lin´eaire gaussien siest un vecteur gaussien de loi N 0, σ2In

avecσ2>0.

Proposition

Dans le cadre du mod`ele lin´eaire gaussien, l’estimateur des moindres carr´es co¨ıncide avec l’estimateur du maximum de vraisemblance.

(22)

PROPRIET´ ES DES ESTIMATEURS´

Th´eor`eme

Soit∼ N 0, σ2In

,σ2 >0. On suppose de plus que rang(X) =p.

Alors

1. βˆ∼ N

β, σ2 XTX−1 . 2. βˆetσˆ2sont ind´ependantes.

3. (n−p)σ2 σˆ2χ2n−p.

(23)

INTERVALLE DE CONFIANCE

Th´eor`eme

Soit x0Rp. Un intervalle de confiance de niveau1αpour xT0β est donn´e par

h

xT0βˆσˆ

v0tn−p,1−α/2;xT0βˆ+ ˆσ

v0tn−p,1−α/2

i

avec v0=xT0 XTX−1

x0et tn−p,1−α/2est le quantile d’ordre 1α/2de la loi de Student `a np degr´es de libert´e.

(24)

INTERVALLES DE PREDICTION´

Th´eor`eme

Soit x0Rp. Un intervalle de pr´ediction de niveau1αde y0est donn´e par

h

xT0βˆσˆp

1+v0tn−p,1−α/2;xT0βˆ+ ˆσp

1+v0tn−p,1−α/2

i

avec v0=xT0 XTX−1

x0et tn−p,1−α/2est le quantile d’ordre 1α/2de la loi de Student `a np degr´es de libert´e.

Remarque : L’intervalle de pr´ediction est plus grand que l’intervalle de confiance car il doit ´egalement prendre en compte la variance de0.

(25)

TEST DE SIGNIFICATIVITE D´ ’UN PARAMETRE`

Soitk∈ {1, ...,p}, on souhaite tester

H0: ”βk=0 contre H1: ”βk6=0”.

Proposition

Dans le cadre du mod`ele lin´eaire gaussien, un test de significativit´e du k-`eme coefficient de niveauαest donn´e par la zone de rejet

ZRα,k=n 0/ h

βˆk±σˆ

vktn−p,1−α/2

io ,

o `uvk=

XTX−1

k,kest lek-`eme coefficient diagonal de XTX−1

ettn−p,1−α/2est le quantile d’ordre 1α/2 de la loi de Student `anpdegr´es de libert´e.

(26)

TEST DE SIGNIFICATIVITE DE PLUSIEURS´

COEFFICIENTS´

On souhaite tester la significativit´e de plusieurs coefficients βi1, . . . , βik. Pour simplifier les notations, on souhaite tester

H0: ”βp0+1, . . . , βp=0” contre H1: ”∃i∈ {p0+1, . . . ,p}, βi6=0”.

(27)

TEST DE SIGNIFICATIVITE DE PLUSIEURS´

COEFFICIENTS´

On note I X0=

X1, . . . ,Xp0

Rn×(p0) I X1=

Xp0+1, . . . ,Xp

Rn×(p−p0) I X= [X0,X1]Rn×p.

Le test de significativit´e revient `a faire la comparaison de mod`eles suivante :

H0: ”Y=X0β0+ contre H1:Y=Xβ+”.

(28)

TEST DE SIGNIFICATIVITE DE PLUSIEURS´

COEFFICIENTS´

Th´eor`eme

On consid`ere la statistique de test

F=

YˆYˆ0

2

(pp0) ˆσ2 =: ˆσ02 ˆ σ2,

avecYˆ0 =X0βˆ0, etβˆ0est l’estimateur des moindres carr´es dans le mod`ele H0. Alors, sous H0,

F∼ F(pp0,np).

Corollaire

Tester la significativit´e des coefficients au risqueαrevient `a consid´erer la zone de rejet

ZRα=

F>f1−α,p−p0,n−p

o `u f1−α,p−p0,n−pest le quantile d’ordre1αde la loi de Fisher de param`etres pp0et np.

(29)

IV. Mod`eles emboit´es

(30)

MODELES EMBOIT` ES´

Le test de Fisher pr´ec´edent est un cas particulier du test entre mod`eles emboit´es. On consid`ere :

I Y∼ N µ, σ2In

avecσ2>0.

I M0⊂ M1 Rndeux sous espaces vectoriels deRn On souhaite tester

H0:E[Y] =µ∈ M0 contre H1:E[Y] =µ∈ M1.

(31)

CONSTRUCTION DE LA STATISTIQUE DE TEST

On consid`erePM0,PM1les projections orthogonales surM0et M1. On consid`ere la statistique

F= dim M1

kPM0YPM1Yk2 (dim(M1)dim(M0))

PM

1 Y

2

Proposition

Sous H0,

F ∼F dim(M1)dim(M0),dim M1

(32)

TEST DES MODELES EMBOIT` ES´

Corollaire

Faire le test des mod`eles emboit´es revient donc `a consid´erer la zone de rejet

ZRα=n

F>f1−α,dim(M1)−dim(M0),dim(M1) o

Références

Documents relatifs

En r ´ealit ´e le m ´ecanisme est plus complexe, c’est une r ´eaction d’autocatalyse dans laquelle interviennent plusieurs r ´eactions avec des vitesses de diff ´erents ordres

Th´ eor` eme de Milner pour PCF [Milner 1977] : Il y a un unique domaine continu extentionnel et pleinement ad´ equat pour PCF. Cette caract´ erisation est d´ eg´ en´ er´

2 Cette condition est plus restrictive que celle que l’on peut d´ efinir plus g´ en´ eralement en statistique pour ´ etudier des mod` eles d’analyse de la variance. On peut

(2003) apply the same model to unemployment rate estimation for the Canadian Labour Force Survey using shorter time series data and do not consider seasonal adjustments.. In this

l’algorithme somme-produit permet de faire l’inf´ erence sur les arbres l’algorithme max-somme pour le d´ ecodage. l’algorithme EM pour faire de l’estimation dans les mod` eles

l’algorithme EM pour l’estimation dans les mod` eles de mixture l’estimation des Chaˆınes de Markov Cach´ ees. nous avons vu la n´ ecessit´ e de faire des calculs de

Le seul souci pour la direction est de minimiser le coˆ ut total de transport des moteurs entre les deux lieux de fabrication et les trois ateliers d’assemblage. Le tableau

` A cet effet, on utilise le lemme des sous-sous-suites suivant (qui se d´emontre ais´ement en raisonnant par l’absurde), et qui parfois de bien pr´ecieux services :.. Lemme