• Aucun résultat trouvé

Statistiques math´ematiques : cours 8

N/A
N/A
Protected

Academic year: 2022

Partager "Statistiques math´ematiques : cours 8"

Copied!
69
0
0

Texte intégral

(1)

Statistiques math´ ematiques : cours 8

Guillaume Lecu´e

12 septembre 2018

(2)

Aujourd’hui :

Mise en oeuvre des m´ethodes statistiques des cours pr´ec´edants dans le mod`ele de r´egression

Pr´esentation des mod`eles de r´egression

M´ethodes d’estimation en r´egression

Tests et s´election de variables

(3)

Donn´ ees :

publicit´es et ventes d’un mˆeme produit sur 200 march´es fichierAdvertising.csv

id-market TV Radio Newspaper Sales

1 230.1 37.8 69.2 22.1

2 44.5 39.3 45.1 10.4

3 17.2 45.9 69.3 9.3

4 151.5 41.3 58.5 18.5

5 180.8 10.8 58.4 12.9

· · · ·

200 232.1 8.6 8.7 13.4

Questions :

1. Quelle est l’influence des campagnes ”TV” sur les ”Sales” ? 2. Etant donn´e un budget publicit´e, o`u faut-il investir ? et combien de

”Sales” peut-on esp´erer en retirer ?

(4)

Pr´ esentation des mod` eles de r´ egression

(5)

Expliquer une variable Y par une autre X

Principe : on part de l’observation dencouples

(X1,Y1), . . . ,(Xn,Yn) o`uYi∈Ret Xi∈Rk

Exemple : sur lei-i`eme march´e,

I Yi = ”Sales”

I Xi = (”TV”,”Radio”,”Newspaper”)∈R3

Id´ee : OnpensequeXi peutexpliquerla ”majeure partie de la variabilit´e desYi” ; c`ad queYi est ”presque” fonction deXi (`a quelque chose pr`es).

(6)

Mod´ elisation de ”l’influence”

I SiXi contienttoute la variabilit´ede Yi, alorsYi est fonction deXi : il exister :Rk →Rtelle que

Yi =r Xi

mais peu r´ealiste (ou alors probl`eme d’interpolation num´erique).

I Alternative : on mod`elise ces donn´ees avec le mod`ele Yi=r Xi

i

o`uξi est un terme al´eatoire qui explique le reste de la variabilit´e de Yi etr(·) une fonction qu’on va estimer. On suppose que Eξi= 0 (pour l’identifiabilit´e).

(7)

pr´ ediction et influence des features

Dans le mod`ele

Yi =r(Xi) +ξi

pourXi∈Rk, les coordonn´ees desXi sont appel´ees lesfeatures

Exemple : ”TV”, ”Radio” et ”Newspaper” sont les features du probl`eme.

I Si ˆr(·) est un estimateur der(·) alors la variabilit´e de ˆr(·) en la j-i`eme coordonn´ee (1≤j ≤k) mesure l’influence de la featurej sur la variable `a expliquerY

I Six ∈Rk alors ˆy = ˆr(x)pr´editla valeur de la variable expliqu´ee associ´ee `a x.

(8)

Motivation : meilleure approximation L

2

I Meilleure approximationL2: si E Y2

<+∞, la meilleure approximation de Y par une variable al´eatoireX-mesurable est donn´ee parl’esp´erance conditionnelleE

Y|X : E

Y −r(X)2

= min

h E

Y −h(X)2 o`u

r(x) =E

Y|X=x

, x∈Rk

I On appelle r(·)fonction de r´egression deY sachant X.

(9)

R´ egression

I On d´efinit :

ξ=Y −E Y|X

=⇒ E ξ

= 0

I On a alors naturellement la repr´esentation d´esir´ee Y =r(X) +ξ, E

ξ

= 0 en posant

r(x) =E

Y|X=x

, x∈Rk

I On observe alorsncouples

(X1,Y1), . . . ,(Xn,Yn) o`u

Yi =r(Xi) +ξi, E ξi

= 0

avec commeparam`etre la fonction de r´egressionr(·)+ unjeu d’hypoth`esessur la loi desξi.

(10)

Mod` ele de r´ egression ` a design al´ eatoire

D´ efinition

Mod`ele de r´egression param´etrique`a design al´eatoire= observation d’un n-´echantillon de couples

(X1,Y1), . . . ,(Xn,Yn) avec(Xi,Yi)∈Rk×Ri.i.d. ∼(X,Y), et

Y =r(θ,X) +ξ, E ξ|X

= 0, θ∈Θ⊂Rd.

I x7→r(θ,x)fonction de r´egressionde Y sachantX(inconnue, carθ est inconnu : param`etre du mod`ele)

I Xi :variables explicatives, co-variables, input

I (X1, . . . ,Xn):design

I Yi :variables expliqu´ees, output

(11)

R´ egression ` a design d´ eterministe

I Principe :sur un exemple. On observe

Yi=r(θ,i/n) +ξi, i= 1, . . . ,n

o`ur(θ,·) : [0,1]→Rest une fonction connue au param`etre θ∈Θ⊂Rd pr`es, et les ξi sont i.i.d.,E

ξi

= 0.

I But : reconstruirer(θ,·) c’est-`a-direestimerθ.

I Plus g´en´eralement, on observe (Yi)ni=1 o`u

Yi=r(θ,xi) +ξi, i= 1, . . . ,n etx1, . . . ,xn sont des points deRk d´eterministes.

(12)

Mod` ele de r´ egression ` a design d´ eterministe

D´ efinition

Mod`ele de r´egression`a design d´eterministe= donn´ee de l’observation (x1,Y1), . . . ,(xn,Yn)ou plus simplement Y1, . . . ,Yn

avec Yi∈R,xi ∈Rk, et

Yi=r(θ,xi) +ξi, E ξi

= 0, θ∈Θ⊂Rd.

I xi d´eterministes, donn´es (ou choisis) : plan d’exp´erience, points du

”design”.

I Hypoth`eses sur lesξi : par exemple : i.i.d., gaussien, etc.

I Attention ! Les Yi ne sontpas identiquement distribu´ees.

(13)

R´ egression lin´ eaire

On parle demod`ele de r´egression lin´eairequand la fonction de r´egression r(θ,·) est suppos´ee lin´eaire : pour toutx ∈Rd

r(θ,x) = θ,x On a alors pour les mod`eles :

I Yi = θ,Xi

i : mod`ele lin´eaire `a design al´eatoire,

I Yi = θ,xi

i : mod`ele lin´eaire `a design d´eterministe, et pour un bruit gaussien :gi

i.i.d.

∼ N(0,1),

I Yi = θ,Xi

+σgi : mod`ele lin´eaire gaussien `a design al´eatoire (on suppose de plus que les gi sont ind´ependants desXi),

I Yi = θ,xi

+σgi : mod`ele lin´eaire gaussien `a design d´eterministe,

(14)

M´ ethodes d’estimation en r´ egression ` a design

d´ eterministe et bruit gaussien

(15)

EMV

en r´egression gaussienne `a design d´eterministe

Mod`ele de r´egression gaussienne `a design d´eterministe : Yi =r(θ,xi) +σgi, θ∈Θ⊂Rd o`ugi ∼ N(0,1), i.i.d..

Probl`eme : estimerθ?

Id´ee : Expliciter la loi de l’observationZ = (Y1, . . . ,Yn) et appliquer le principe du maximum de vraisemblance.

La loi deYi :PYi =fxi(θ,·).λo`u∀y ∈R fxi(θ,y) = 1

2πσ2exp

− 1

2 y−r(θ,xi)2 Loi de (Y1, . . . ,Yn) :P(Y1,...,Yn)=f(θ,·).λn o`u

f(θ,(y1, . . . ,yn)) =

n

Y

i=1

√ 1

2πσ2exp

− 1

2 yi−r(θ,xi)2

(16)

EMV

pour r´egression gaussienne `a design d´eterministe

On travail alors dans le mod`ele{Pnθ=P(Y1,...,Yn):θ∈Rd}, domin´e par µ=λn, ayant pour densit´es

dPnθ

dµ (y1, . . . ,yn) =

n

Y

i=1

1

2πσ2exp −12(yi−r(θ,xi))2

=(2πσ12)n/2exp

12

n

X

i=1

yi−r(θ,xi)2

:=f(θ,(yi)ni=1)

La fonction de vraisemblance vaut enθ∈Rd, Ln(θ,Y1, . . . ,Yn)∝exp

− 1 2σ2

n

X

i=1

Yi−r(θ,xi)2

(17)

Estimateur des moindres carr´ es

Maximiser la vraisemblanceen r´egression gaussienne m

Minimiser la somme des carr´es : trouver lesθ∈Rd minimisant θ∈Rd −→

n

X

i=1

Yi−r(θ,xi)2

D´ efinition

Estimateur des moindres carr´es(EMC) : tout estimateurθbnmc tel que θbnmc∈arg minθ∈RkPn

i=1 Yi−r(θ,xi)2

En r´egression Gaussienne :EMV = EMC

(18)

Droite de r´ egression (k = 1)

Mod`ele le plus simple : on suppose que la fonction de r´egression est une fonction affine de la forme

r(θ,x) =a+bx

alors le mod`ele de r´egression `a design d´eterministe s’´ecrit ici : Yi =a +b xii, i= 1, . . . ,n

o`u lesx1, . . . ,xn sont desr´eelsdonn´es et ξ1, . . . , ξn sont i.i.d. centr´ees et de variances finies.

I on param´etrise parθ= (a,b)T ∈Θ =R2; a est appel´el’intercept.

I L’estimateur des moindres carr´es : θbnmc=

ˆa bˆ

= arg min

(a,b)>R2 n

X

i=1

Yi−a−bxi

2

(19)

Estimateur des moindres carr´ es (1/2)

On peut r´e´ecrire lafonction objectifsous forme matricielle : F(a,b) =

n

X

i=1

Yi−a−bxi2

= Y−X

a b

2

2

o`u

X=

 1 x1

... ... 1 xn

 etY=

 Y1

... Yn

 et comme

∇F(a,b) =−2X>(Y−X(a,b)>) et∇2F(a,b) = 2X>X0 l’ (ou les) EMC est (sont) solution(s) de

X>Xθbnmc=X>Y

(20)

Estimateur des moindres carr´ es (2/2)

I Unique solution quand X>Xest inversible :

θbnmc= ˆa

ˆb

= X>X)−1X>Y

I R´esidu : siθbn est un estimateur deθ alors ˆyi=r(bθn,xi) est la valeur pr´edite par l’estimateur au pointxi et

Yi−ˆyi:r´esiduau pointi

I RSS : (Residual Sum of Squares) RSS :=

n

X

i=1

Yi−yˆi2

(21)

R´ egression lin´ eaire simple sur les donn´ ees Advertising.csv

http://localhost:8888/notebooks/linear_regression.ipynb

(22)

R´ egression lin´ eaire multiple (=Mod` ele lin´ eaire)

La fonction de r´egression estr(θ,xi) = θ,xi

. On observe (x1,Y1), . . . ,(xn,Yn)

sous le mod`ele

Yi = θ,xi

i, i= 1, . . . ,n o`uθ∈Θ =Rk, xi ∈Rk.

I Probl`eme : estimerθ

I l’analyse des estimateurs pour undesign al´eatoireest un plus d´elicate

(23)

Ecriture matricielle des donn´ ees

Matriciellement, on r´e´ecrit ces donn´ees comme Y=Xθ+ξ o`u

Y=

 Y1

... Yn

∈Rn,X=

 x>1

... x>n

∈Rn×k etξ=

 ξ1

... ξn

∈Rn

On parle de r´egression lin´eaire avec interceptquand

X=

 1 x>1

... ... 1 x>n

∈Rn×(k+1)

(24)

EMC en r´ egression lin´ eaire multiple

I Estimateur desmoindres carr´es en r´egression lin´eaire multiple : tout estimateur bθnmc minimisant

θ∈Rk 7→F(θ) := min

θ∈Rk n

X

i=1

Yi− θ,xi2

I En notation matricielle : kY−Xθbnmck2= min

θ∈Rk

kY−Xθk2= min

v∈VkY−vk2 o`uV = Im(X) ={v∈Rn:v =Xθ, θ∈Rk}. DoncXθbnmc est la projection orthogonale de YsurV.

(25)

G´ eom´ etrie de l’EMC

I L’EMC v´erifie

Xθbnmc=PVY o`uPV est le projecteur orthogonal surV.

I MaisX>PV =X>PV>= (PVX)>=X>. On en d´eduitles ´equations normales des moindres carr´es:

X>Xθbnmc=X>Y (1)

I Remarques.

I L’EMC est unZ-estimateur (bonnes propri´et´es quand (1) a une unique solution c`adX>X0).

I Pas d’unicit´edeθbnmcsi la matriceX>Xn’est pas inversible.

I (1) est ´equivalente `a∇F(bθnmc) = 0

(26)

G´ eom´ etrie de l’EMC

Proposition

SiX>X(matrice k×k) est inversible, alorsθbnmcest uniqueet

θbnmc= X>X−1

X>Y

I Contient le cas pr´ec´edent de la droite de r´egression simple.

I R´esultat g´eometrique,non stochastique.

I on a toujoursX>X0 ; de plus :

X>Xinversible ⇔X>X0 ⇔ rang(X) =k ⇔ dim(V) =k En particulier,X>X0 =⇒ n≥k (statistiques en petites dimensions)

(27)

R´ egression lin´ eaire multiple sur les donn´ ees Advertising.csv

http://localhost:8888/notebooks/linear_regression.ipynb

(28)

R´egression lin´eaire gaussienne

= Mod` ele lin´ eaire gaussien

On suppose que le vecteur bruit est tel que ξ∼ N(0, σ2Idn) dans le mod`ele (sous forme matricielle)

Y=Xθ+ξ

On a alors plusieurs propri´et´es remarquables :

I l’EMC bθnmc = EMV (dans le mod`ele `a variance connue)

I On sait expliciter la loi (non-asymptotique !) deθbnmc

(29)

Cadre gaussien : loi des estimateurs

I Hyp. 1 :ξ∼ N(0, σ2Idn)

I Hyp. 2 :X>X0

Proposition (2)

(i) θbnmc∼ N θ, σ2 X>X−1 (ii) kY−Xθbnmck22∼σ2χ2(n−k) (iii) θbnmc etY−Xθbnmcsont ind´ependants

Preuve :Thm. de Cochran: Siξ∼ N(0,Idn) etPj matricesn×nde projection t.q.PjPi = 0 pouri6=j, alors :

1. Pjξ∼ N 0,Pj

sontind´ependants, 2. kPjξk22∼χ2(Rang(Pj))

(30)

Preuve de la proposition 2 (

directe, sans Cochran

)

(i) θbnmc=θ+ X>X−1

X>ξest une transformation affine d’un vecteur Gaussien doncθbnmc est aussi un vecteur Gaussien ; sa moyenne et matrice de covariance sont :

1. E[bθnmc] =θ 2. Cov(bθnmc) =E

X>X−1

X>ξ X>X−1

X>ξ>

2 X>X−1

(ii) pour PV =X X>X−1

X> : matrice de projection surV =Im(X) et ξ0−1ξ∼ N(0,Idn)

Y−Xbθnmc=X θ−θbnmc

=−X X>X−1

X>ξ+ξ=σ(Idn−PV0

(iii) le vecteur (bθnmc,Y−Xθbnmc) est gaussien (transformation lin´eaire de ξ). On calcule sa matrice de covariance.

(31)

Mod` ele lin´ eaire Gaussien – variance inconnue

Dans le mod`ele lin´eaire Gaussien

Y=Xθ+σN(0,In) o`uθetσsont inconnus on a :

EMV=

θbnmc ˆ σ2n

o`u ˆσn2= kY−Xθbnmck22 n car la log-vraisemblance

`n(θ, σ2) =−n

2 log(2πσ2)− 1

2kY−Xθk22 est maximale en ce point

(32)

Propri´ et´ es de l’EMV :

cadre gaussien variance inconnue (1/2)

EMV=

θbnmc ˆ σ2n

o`u

θbnmc= X>X−1

X>Yet ˆσn2= kY−Xθbnmck22 n D’apr`es Proposition 2 :

I σb2n estind´ependantdeθbnmc

I θbnmc∼ N θ, σ2 X>X−1

I nσb2n2∼χ2(n−k)

(33)

Propri´ et´ es de l’EMV :

cadre gaussien variance inconnue (2/2)

Lois des coordonn´ees deθbnmc:

(bθnmc)j−θj ∼ N 0, σ2bj) o`ubj est lej`eme ´el´ement diagonal de X>X−1

et (bθnmc)j−θj

np bj

∼tn−k pour eσn= kY−Xθbnmck22 n−k

D´ efinition

Laloi de Student `a n−k degr´es de libert´eest la loi de tn−k = g

pη/(n−k)

o`u g ∼ N 0,1), η∼χ2(n−k)et g ind´ependant deη.

(34)

Tests et s´ election de variables dans le mod` ele

lin´ eaire Gaussien

(35)

Features selection =

election de variables

Probl`eme : On cherche `a expliquer une variableY ∈Ren fonction d’une autre variableX ∈Rk. Certaines coordonn´ees deX n’ont peut-ˆetre aucun int´erˆet pour ce probl`eme (elles n’expliquent en rien la variablit´e deY).

Exemple : peut-ˆetre que la variable ”Newspaper” n’explique en rien

”Sales” ( ?)

Probl`eme : on ne veut garder que les variables pertinantes, c’est le probl`eme defeatures selection

(36)

Features selection via backward elimination

1. On retire laj-i`eme feature (= on retire laj-i`eme colonne de X→X−j) et on construitθbnmc(−j) `a partir deYetX−j

2. on choisij1 pour lequel

RSS(bθnmc(−j1)) = min

1≤j≤kRSS(bθnmc(−j)) :=RSSk−1 3. on r´eit`ere jusqu’`a lastabilisation de RSS:

RSSm≈RSSm−1

4. `a la fin, seules les colonnes restantes deXsont des features

pertinantes : ceux sont celles qui expliquent le plus la variabilit´e deY Autres id´ees : Forward proc´edures, crit`eres AIC et BIC, LASSO, tests, etc.

(37)

Feature selection via test (1/2)

Cadre :Mod`ele lin´eaire gaussien(`a design d´eterministe) Y=Xθ+ξ, ξ∼ N(0, σ2Idn), o`uθ= (θ1, . . . , θk)T ∈Rk,X∈Rn×k etX>X0.

Probl`eme de test :a∈R,j ∈ {1, . . . ,k}donn´e H0j =a contreH1j 6=a On a vu que, sousPθ,

θbnmc

j−θj σen

q

(X>X)−1jj

= Student(nd −k) o`ueσn= kY−Xθbnmck22 n−k

(38)

Feature selection via test (2/2)

On peut alors construire untest de niveauαpar : ϕα=

(

H0 quandtn≤qStudent1−α/2(n−k)

H1 sinon

pour lat-statistique(de la featurej) tn:=

θbnmc

j−a eσn

q

(X>X)−1jj

En particulier, poura= 0, on test si le coefficient associ`e `a laj-i`eme feature est nul. Si on rejete le test (petite p-value), alors cette feature sera s´electionn´ee (avec un niveau de confiance de 1−αou

α=p−value). On r´ep`ete la proc´edure de test pour lesk features :pour chaque feature, on calcul sa t-statistique et la p-value associ´ee

(39)

S´ election de groupes de variables

Cadre : mod`ele lin´eaire Gaussien (`a design d´eterministe) et param`etre θ∈Rk

Probl`eme de test : 1≤k0<k fix´e.On souhaite savoir si au moins une desk−k0derni`eres features a une influence.

On choisit alors les hypoth`eses :

H0`= 0, ∀`=k0, . . . ,k contre

H1: il existe`∈ {k0, . . . ,k} t.q.θ`6= 0

(choix des hypoth`eses tel que le rejet r´epond `a la question : ”rejet” =

”oui il y a au moins une feature influente”)

(40)

Formulation plus g´ en´ erale du probl` eme : F-tests

SoitG∈Rm×k etb∈Rmdonn´e. On consid`ere le probl`eme de test : H0:Gθ=b

contre

H1:Gθ6=b Ici : on prend

G=

0 . . . 0 1 . . . 0 ... . .. ... ... . .. ... 0 . . . 0 0 . . . 1

∈Rk0×k etb=0∈Rk0

(41)

F-tests (1/2)

SousH0 (c`ad pourθ t.q.Gθ=b) on a (cf. Proposition 2) Gθbnmc∼ N b, σ2G(X>X)−1G>

et donc en posantU=σ2G(X>X)−1G> (et siU est inversible), on a (Gθbnmc−b)>U−1(Gθbnmc−b)∼χ2(m)

Siσ2 est inconnue, on poseeσn2= kY−Xθb

mc n k22

n−k etUb = ˜σn2G(X>X)−1G>, alors, la loi de

(Gθbnmc−b)>Ub−1(Gbθnmc−b) m

ned´epend pas deθ ni deσ2 sousH0et suit la loi de Fisher-Snedecor `a (m,n−k) degr´es de libert´e.

(42)

F-tests (2/2)

D´ efinition

Si X∼χ2(m), Y ∼χ2(n−k)et X est ind´ependante de Y alors X/m

Y/(n−k) ∼Fisher −Snedecor(m,n−k) :=F(m,n−k) On a alors untest de niveau αpour le probl`eme de test

H0:Gθ=b contreH1:Gθ6=b donn´e par

ϕα=

H0 siTn≤qF1−α(m,n−k)

H1 sinon

o`u

Tn= (Gθbnmc−b)TUb−1(Gθbnmc−b)

m etUb =σe2nG(X>X)−1G>

(43)

Information de Fisher dans le mod` ele lin´ eaire

Gaussien

(44)

Information de Fisher et r´ egression (1/3)

Cadre :En exp´erience engendr´ee par (x1,Y1), . . . ,(xn,Yn) avec Yi =r(θ,xi) +ξi,

o`u lesξi sont i.i.d. admettant une densit´eg par rapport `a la mesure de Lebesgueetx1, . . . ,xn sont d´eterministes.

Observation :Zn= (Y1, . . . ,Yn) de densit´e (par rapport `a Lebesgue sur Rn)

fn(θ,Zn) =

n

Y

i=1

g Yi−r(θ,xi) Information de Fisher:

I(θ|En) =−Eθ[∇2θlogfn(θ,Zn)]

(45)

Information de Fisher et r´ egression (2/3)

Quand le bruit est Gaussien : g(t) = 1

2πσ2exp−t22

et donc, pour le probl`eme d’estimation deθ`aσ connue, on a I(θ|En) =σ−2X>X

On aI(θ|En)0 si et seulement siX>X0. Dans ce cas, l’EMV qui est ici l’EMCθbnmc, est Gaussien de matrice de covarianceI(θ|En)−1:

θbnmc∼ N θ,I(θ|En)−1

Ce r´esultat estnon-asymptotique. D’une autre cˆot´e, c’est le

comportement qu’on obtientasymptotiquementpour les EMV dans les mod`eles d’´echantillonnage r´eguliers.

(46)

Information de Fisher et r´ egression (3/3)

Dans le mod`ele lin´eaire Gaussien avec variance inconnue (et design d´eterministe), on peut calculer l’information de Fisher pour le probl`eme d’estimation du param`etre (θ, σ2). On a

2(θ,σ2)`n

θ σ2

=

X>X σ2

X(YXθ) σ4

h

X(YXθ) σ4

i>

n

4kYσX6θk22

alors

I((θ, σ2)|En) = X>X

σ2 0 0 n4

Rem. : la covariance de l’EMV est ici : cov

θbnmv

ˆ σ2n

=

σ2(X>X)−1 0 0 n4n−kn

6=I((θ, σ2)|En)−1

(47)

Pr´ evision dans le mod` ele lin´ eaire Gaussien

(48)

Pr´ evision

Mod`ele lin´eaire Gaussien

Yi=r(θ,xi) +ξi, i= 1, . . . ,n o`ur(θ,xi) =

θ,xi

etξi i.i.d.

∼ N(0, σ2).

Exemple :xi vecteur de 3 variables explicatives (TV, RADIO, Newspaper) pour le march´ei.

I Probl`eme de pr´evision: On investit dans un nouveau march´e avec x0∈R3. On souhaite estimer les ”SALES” attendus, c`ad pr´edire la valeur de la fonction de r´egression enx0 :r(θ,x0) =

θ,x0

I Soitθbn un estimateur deθ.Pr´evision par substitution : by=r(bθn,x0)

I Question statistique : quelle est la qualit´e de la pr´evision ? Intervalle de confiance pourr(θ,x0) bas´e surby?

(49)

Pr´ evision : mod` ele lin´ eaire gaussienne

I On prend bθn=bθnmc alors la pr´ediction est by =

x0,θbnmc

I Hyp. 1 :ξ∼ N(0, σ2Idn)

I Hyp. 2 :X>X0

Proposition

(i) yb∼ N x0, θ

, σ2xT0 X>X−1

x0 (ii) yb−

x0, θ

etY−Xθbnmc sont ind´ependants Rem. :

x0, θ

=r(θ,x0) est la quantit´e qu’on cherche `a pr´edire

(50)

Pr´ evision : mod` ele lin´ eaire gaussienne

I D’apr`es Proposition 2,

η:= by−

x0, θ q

σ2xT0 X>X−1

x0

∼ N(0,1)

I On remplaceσ2inconnu pareσn2=kY−Xθbnmck2/(n−k).

I t-statistique :

t := by− x0, θ q

n2xT0 X>X−1

x0

∼ g qχ(n−k)

n−k

∼Student(n−k),

(51)

Pr´ evision : intervalle de confiance

Pourqt1−n−kα

2, le quantile d’ordre 1−α/2 d’une Student(n-k) et la t-statistique

t:= by− x0, θ q

2nx>0 X>X−1

x0 on a

P

h|t| ≤q1−tn−kα 2

i

= 1−α

On obtient ainsi unintervalle de confiance de niveau 1−α (non-asymptotique) pourr(θ,x0) =

x0, θ : r(θ,x0)∈h

ˆ

y±q1−tn−kα 2

q

σb2nxT0 X>X−1

x0

i

avec probabilit´e 1−α.

(52)

Pr´ evision : bande de confiance

On peut encadrer la droite de r´egression pardeux arcs d’hyperboles donnant ainsi une r´egion de confiance pour la droite de r´egression. Sous les hypoth`eses :

I Hyp. 1 :ξ∼ N(0, σ2Idn)

I Hyp. 2 :X>X0 La Proposition 2 assure que

θbnmc∼ N θ, σ2 X>X−1 De plusbσn2P σ2, on en d´eduit que

X>X1/2

(bθnmc−θ)

2 2

σb2n

−→d χ2(k).

(53)

Pr´ evision : bande de confiance

On obtient ainsi une zone de confiance asymptotique de niveau 1−α pourθdonn´ee parθbnmc+cEα o`u

Ecα:=

x∈Rk :

X>X1/2 x

2≤bσn

q qχ1−α2(k)

etq1−αχ2(k) est le quantile d’ordre 1−αd’uneχ2(k).

nmc+cEαest une ellipsoide centr´ee enbθnmc d’axes et rayons donn´es par la d´ecomposition spectrale de X>X

.

A chaque point ˆθ∈θbnmc+cEα, on peut associer la droite de r´egression x→θ,ˆ x

. Ainsi en tra¸cant l’ensemble de toutes ses droites, on obtient une bande de confiance autour de la droite de r´egression.

(54)

Pr´ evision : bande de confiance

(55)

R´ egression lin´ eaire non-gaussienne

(56)

R´ egression lin´ eaire non-gaussienne

Mod`ele de r´egression lin´eaire Yi=

θ,xi

i, i= 1, . . . ,n.

I Hyp. 1’ :ξi i.i.d., E[ξi] = 0,E[ξ2i] =σ2>0

I Hyp. 2’ :X>X>0,limnmax1≤i≤nxTi X>X−1

xi= 0

Proposition (Normalit´ e asymptotique de l’EMC)

Quand n→ ∞,

σ−1 X>X1/2

(bθnmc−θ)−→ Nd 0,Idk).

A comparer avec le cadre gaussien : pour toutn, σ−1 X>X1/2

(bθnmc−θ)∼ N 0,Idk)

(57)

Th´ eor` eme de Gauss-Markov

Cadre : mod`ele lin´eaire (notation matricielle) Y=Xθ+ξ o`uEξ= 0, Eξξ>2InetX>X0.

Th´ eor` eme (Gauss-Markov)

L’estimateur des moindres carr´esθbnmc est optimal (au sens du risque quadratique) parmi tous les estimateurs lin´eaires sans biais : siθbn est un estimateur de la formeθbn=AYtel que A∈Rn×k etEθbn =θ alors

E

θbnmc−θ

2 2≤E

θbn−θ

2 2

(58)

R´ egression non-lin´ eaire

(59)

R´ egression non-lin´ eaire

I On observe

(x1,Y1), . . . ,(xn,Yn), o`u

Yi=r(θ,xi) +ξi, i= 1, . . . ,n avec

xi ∈Rk, et θ∈Θ⊂Rd.

I Siξii.i.d.N(0, σ2),

Ln(θ,Y1, . . . ,Yn)∝exp

− 1 2σ2

n

X

i=1

Yi−r(θ,xi)2 et l’estimateur du maximum de vraisemblanceest obtenu en minimisant la fonction

θ7→

n

X

i=1

Yi−r(θ,xi)2 .

(60)

Moindre carr´ es non-lin´ eaires

D´ efinition

I M-estimateur associ´e `a lafonction de contraste ψ: Θ×Rk×R→R: tout estimateurθbn satisfaisant

n

X

i=1

ψ(bθn,xi,Yi) = max

a∈Θ n

X

i=1

ψ(a,xi,Yi).

I Estimateur desmoindres carr´es non-lin´eaires: associ´e au contraste ψ(a,x,y) =− y−r(a,x)2

.

I Extensiondes r´esultats dans le mod`ele d’´echantillonnage domin´e au cas cas de v.a. ind´ependantesnon-´equidistribu´ees.

(61)

Mod` ele ` a r´ eponse binaire

I On observe

(x1,Y1), . . . ,(xn,Yn), Yi ∈ {0,1}, xi ∈Rk.

I Mod´elisationvia la fonction de r´egression x7→px(θ) =Eθ

Y|X=x

=Pθ

Y = 1|X=x

I Repr´esentation

Yi =pxi(θ) + Yi−pxi(θ)

=r(θ,xi) +ξi

avec r(θ,xi) =pxi(θ) etξi=Yi−pxi(θ).

I Eθ

ξi

= 0 mais structure desξi compliqu´ee(d´ependance en θ).

(62)

Mod` ele ` a r´ eponse binaire

I Yi v.a. de Bernoulli de param`etrepxi(θ).

Vraisemblance

Ln(θ,Y1, . . . ,Yn) =

n

Y

i=1

pxi(θ)Yi(1−pxi θ)1−Yi

→m´ethodes de r´esolution num´erique.

I R´egression logistique(tr`es utile dans les applications) px(θ) =ψ(

x, θ ), ψ(t) = et

1 +et, t ∈R fonction logistique

(63)

R´ egression logistique et mod` eles latents

Repr´esentation ´equivalente de la r´egression logistique: on observe Yi =I Yi?>0

, i= 1, . . . ,n

(lesxi sont donn´es), etYi? est unevariable latenteou cach´ee, Yi?=

θ,xi

+Ui, i= 1, . . . ,n avecUi i.i.d.∼ F, o`u

F(t) = 1

1 +e−t, t∈R. car, pour la fonction logistiqueψ,

Pθ

Yi?>0] =ψ(

xi, θ

) =P[Yi= 1]

(64)

Mod` ele ` a r´ eponse discr` ete multiples : mod` ele de Poisson

I On observe

(x1,Y1), . . . ,(xn,Yn), Yi ∈N, xi ∈Rk.

I Mod´elisationvia la densit´e deY|X =x : k ∈N7→px(θ,k) =Pθ

Y =k|X=x

I Mod`ele de PoissonY|X =x∼ Poisson(exp(

θ,x

)) : pour tout k ∈N,

Pθ[Y =k|X =x] = λk

k! exp(−λ) o`uλ= exp(

θ,x ).

I Eθ[Y|X =x] = exp(

θ,x

),var(Y|X =x) = exp(

θ,x ).

(65)

Test empirique pour le mod` ele lin´ eaire

(66)

Le Rainbow test

Id´ee :Mˆeme si la vrai relation entreY et les covariables n’est pas lin´eaire, localement on peut imaginer qu’elle l’est (approximation d’ordre de 1 de Taylor). Si on construit une estimateur par moindre carr´e `a partir d’un sous-ensemble de donn´ees autour de ¯Xnalors cette r´egression devrait ˆetre assez bonne.

Par exemple :Y =X2+N(0,1)

(67)

Le Rainbow test

On noteθel’estimateur construit `a partir demdonn´ees d’indices I ⊂ {1, . . . ,n}autour de ¯Xn et par ˜yi =

Xi,eθ

la valeur pr´edite en Xi. On a donc unR2 (coefficient de d´etermination) donn´e par

I2= 1− P

i∈I(yi−˜yi)2 P

i∈I(yi−¯yI)2

Id´ee :L’id´ee centrale duRainbow test est que si le mod`ele est vraiment lin´eaire alors l’ajout de donn´ees au sous-´echantillon (yi,Xi)i∈I ne devrait pas trop modifier leR2. Par contre, si le mod`ele n’est pas lin´eaire alors l’ajout de donn´ee loin de ¯Xn devrait d´egrader leR2. La comparaison entre leR2local autour de ¯Xn: ˜RI2; et leR2 de tout l’´echantillon est `a la base duRainbow test.

Statistic de test du Rainbow test: T = (R2−R˜I2)

I2

(m−k) (n−m).

Sous hypoth`ese de lin´earit´e (mod`ele lin´eaire gaussien), on a T ∼F(n−m,m−k)

(68)

Le Rainbow test

Le choix du sous-´echantillon pour leRainbow test se fait g´en´eralement en prenant lesm>k donn´ees les plus proche de ¯Xn pour ladistance de Mahalanobis:

d(x,y) = q

(x−y)> X>X

(x−y) =kX(x−y)k2.

On choisit donc pour sous-ensemble de donn´ees (yi,Xi)i∈I l’ensemble de mdonn´ees telles qued(Xi,X¯n) est la plus petite.

(69)

Autre tests

I Ramsey’s RESET test : “Regression Specification Error Test”

I Harvey and Collier test : for a convex or concave alternative

I Test de Breusch-Pagan sur l’homosc´edasticit´e du terme d’erreur.

I test de Durbin-Watson : tester l’autocorr´elation des r´esidus dans un mod`ele de r´egression lin´eaire.

I F-test (ou test de Fisher) et ANOVA : test d’´egalit´e de variance et de fit du mod`ele.

Références

Documents relatifs

Y∼0+X1 r´ egression lin´ eaire simple sans intercept (identique au pr´ ec´ edent) Y∼X1-1 r´ egression lin´ eaire simple sans intercept (identique au pr´ ec´ edent)

Notons β le vecteur des param` etres de r´ egression ` a estimer dans le cadre d’un mod` ele d’analyse de la variance ` a un facteur et β b son

Op´ erations sur les matrices. Produit par un r´ eel. Produit de deux matrices. Interprˆ etation matricielle des syst` emes lin´ eaires. D´ efinition et exemples. Matrices

Obligatoires : copies s´epar´ees pour chaque partie ; num´erotation des copies de 1/n `a n/n ; votre nom sur chaque copie ; num´erotation des questions ; r´esolution dans l’ordre

Il s’agit d’un devoir suppl´ ementaire qui ne sera pas

Pour des raisons techniques, si, un jour donn´ e, on utilise le hangar H, le lendemain on r´ eutilisera ce mˆ eme hangar avec une probabilit´ e de 0, 5 et si, un jour donn´ e,

Pour les sommes de type II, on doit faire la diff´erence entre la somme des carr´es relative aux erreurs dans le mod`ele avec les seuls effets de F 2 et la mˆeme somme dans le

F., A Robbins-Monro procedure for estimation in semiparametric regression models, Annals of