Statistiques math´ ematiques : cours 8
Guillaume Lecu´e
12 septembre 2018
Aujourd’hui :
Mise en oeuvre des m´ethodes statistiques des cours pr´ec´edants dans le mod`ele de r´egressionPr´esentation des mod`eles de r´egression
M´ethodes d’estimation en r´egression
Tests et s´election de variables
Donn´ ees :
publicit´es et ventes d’un mˆeme produit sur 200 march´es fichierAdvertising.csvid-market TV Radio Newspaper Sales
1 230.1 37.8 69.2 22.1
2 44.5 39.3 45.1 10.4
3 17.2 45.9 69.3 9.3
4 151.5 41.3 58.5 18.5
5 180.8 10.8 58.4 12.9
· · · ·
200 232.1 8.6 8.7 13.4
Questions :
1. Quelle est l’influence des campagnes ”TV” sur les ”Sales” ? 2. Etant donn´e un budget publicit´e, o`u faut-il investir ? et combien de
”Sales” peut-on esp´erer en retirer ?
Pr´ esentation des mod` eles de r´ egression
Expliquer une variable Y par une autre X
Principe : on part de l’observation dencouples
(X1,Y1), . . . ,(Xn,Yn) o`uYi∈Ret Xi∈Rk
Exemple : sur lei-i`eme march´e,
I Yi = ”Sales”
I Xi = (”TV”,”Radio”,”Newspaper”)∈R3
Id´ee : OnpensequeXi peutexpliquerla ”majeure partie de la variabilit´e desYi” ; c`ad queYi est ”presque” fonction deXi (`a quelque chose pr`es).
Mod´ elisation de ”l’influence”
I SiXi contienttoute la variabilit´ede Yi, alorsYi est fonction deXi : il exister :Rk →Rtelle que
Yi =r Xi
mais peu r´ealiste (ou alors probl`eme d’interpolation num´erique).
I Alternative : on mod`elise ces donn´ees avec le mod`ele Yi=r Xi
+ξi
o`uξi est un terme al´eatoire qui explique le reste de la variabilit´e de Yi etr(·) une fonction qu’on va estimer. On suppose que Eξi= 0 (pour l’identifiabilit´e).
pr´ ediction et influence des features
Dans le mod`ele
Yi =r(Xi) +ξi
pourXi∈Rk, les coordonn´ees desXi sont appel´ees lesfeatures
Exemple : ”TV”, ”Radio” et ”Newspaper” sont les features du probl`eme.
I Si ˆr(·) est un estimateur der(·) alors la variabilit´e de ˆr(·) en la j-i`eme coordonn´ee (1≤j ≤k) mesure l’influence de la featurej sur la variable `a expliquerY
I Six ∈Rk alors ˆy = ˆr(x)pr´editla valeur de la variable expliqu´ee associ´ee `a x.
Motivation : meilleure approximation L
2I Meilleure approximationL2: si E Y2
<+∞, la meilleure approximation de Y par une variable al´eatoireX-mesurable est donn´ee parl’esp´erance conditionnelleE
Y|X : E
Y −r(X)2
= min
h E
Y −h(X)2 o`u
r(x) =E
Y|X=x
, x∈Rk
I On appelle r(·)fonction de r´egression deY sachant X.
R´ egression
I On d´efinit :
ξ=Y −E Y|X
=⇒ E ξ
= 0
I On a alors naturellement la repr´esentation d´esir´ee Y =r(X) +ξ, E
ξ
= 0 en posant
r(x) =E
Y|X=x
, x∈Rk
I On observe alorsncouples
(X1,Y1), . . . ,(Xn,Yn) o`u
Yi =r(Xi) +ξi, E ξi
= 0
avec commeparam`etre la fonction de r´egressionr(·)+ unjeu d’hypoth`esessur la loi desξi.
Mod` ele de r´ egression ` a design al´ eatoire
D´ efinition
Mod`ele de r´egression param´etrique`a design al´eatoire= observation d’un n-´echantillon de couples
(X1,Y1), . . . ,(Xn,Yn) avec(Xi,Yi)∈Rk×Ri.i.d. ∼(X,Y), et
Y =r(θ,X) +ξ, E ξ|X
= 0, θ∈Θ⊂Rd.
I x7→r(θ,x)fonction de r´egressionde Y sachantX(inconnue, carθ est inconnu : param`etre du mod`ele)
I Xi :variables explicatives, co-variables, input
I (X1, . . . ,Xn):design
I Yi :variables expliqu´ees, output
R´ egression ` a design d´ eterministe
I Principe :sur un exemple. On observe
Yi=r(θ,i/n) +ξi, i= 1, . . . ,n
o`ur(θ,·) : [0,1]→Rest une fonction connue au param`etre θ∈Θ⊂Rd pr`es, et les ξi sont i.i.d.,E
ξi
= 0.
I But : reconstruirer(θ,·) c’est-`a-direestimerθ.
I Plus g´en´eralement, on observe (Yi)ni=1 o`u
Yi=r(θ,xi) +ξi, i= 1, . . . ,n etx1, . . . ,xn sont des points deRk d´eterministes.
Mod` ele de r´ egression ` a design d´ eterministe
D´ efinition
Mod`ele de r´egression`a design d´eterministe= donn´ee de l’observation (x1,Y1), . . . ,(xn,Yn)ou plus simplement Y1, . . . ,Yn
avec Yi∈R,xi ∈Rk, et
Yi=r(θ,xi) +ξi, E ξi
= 0, θ∈Θ⊂Rd.
I xi d´eterministes, donn´es (ou choisis) : plan d’exp´erience, points du
”design”.
I Hypoth`eses sur lesξi : par exemple : i.i.d., gaussien, etc.
I Attention ! Les Yi ne sontpas identiquement distribu´ees.
R´ egression lin´ eaire
On parle demod`ele de r´egression lin´eairequand la fonction de r´egression r(θ,·) est suppos´ee lin´eaire : pour toutx ∈Rd
r(θ,x) = θ,x On a alors pour les mod`eles :
I Yi = θ,Xi
+ζi : mod`ele lin´eaire `a design al´eatoire,
I Yi = θ,xi
+ζi : mod`ele lin´eaire `a design d´eterministe, et pour un bruit gaussien :gi
i.i.d.
∼ N(0,1),
I Yi = θ,Xi
+σgi : mod`ele lin´eaire gaussien `a design al´eatoire (on suppose de plus que les gi sont ind´ependants desXi),
I Yi = θ,xi
+σgi : mod`ele lin´eaire gaussien `a design d´eterministe,
M´ ethodes d’estimation en r´ egression ` a design
d´ eterministe et bruit gaussien
EMV
en r´egression gaussienne `a design d´eterministeMod`ele de r´egression gaussienne `a design d´eterministe : Yi =r(θ,xi) +σgi, θ∈Θ⊂Rd o`ugi ∼ N(0,1), i.i.d..
Probl`eme : estimerθ?
Id´ee : Expliciter la loi de l’observationZ = (Y1, . . . ,Yn) et appliquer le principe du maximum de vraisemblance.
La loi deYi :PYi =fxi(θ,·).λo`u∀y ∈R fxi(θ,y) = 1
√
2πσ2exp
− 1
2σ2 y−r(θ,xi)2 Loi de (Y1, . . . ,Yn) :P(Y1,...,Yn)=f(θ,·).λn o`u
f(θ,(y1, . . . ,yn)) =
n
Y
i=1
√ 1
2πσ2exp
− 1
2σ2 yi−r(θ,xi)2
EMV
pour r´egression gaussienne `a design d´eterministeOn travail alors dans le mod`ele{Pnθ=P(Y1,...,Yn):θ∈Rd}, domin´e par µ=λn, ayant pour densit´es
dPnθ
dµ (y1, . . . ,yn) =
n
Y
i=1
√1
2πσ2exp −2σ12(yi−r(θ,xi))2
=(2πσ12)n/2exp
−2σ12
n
X
i=1
yi−r(θ,xi)2
:=f(θ,(yi)ni=1)
La fonction de vraisemblance vaut enθ∈Rd, Ln(θ,Y1, . . . ,Yn)∝exp
− 1 2σ2
n
X
i=1
Yi−r(θ,xi)2
Estimateur des moindres carr´ es
Maximiser la vraisemblanceen r´egression gaussienne m
Minimiser la somme des carr´es : trouver lesθ∈Rd minimisant θ∈Rd −→
n
X
i=1
Yi−r(θ,xi)2
D´ efinition
Estimateur des moindres carr´es(EMC) : tout estimateurθbnmc tel que θbnmc∈arg minθ∈RkPn
i=1 Yi−r(θ,xi)2
En r´egression Gaussienne :EMV = EMC
Droite de r´ egression (k = 1)
Mod`ele le plus simple : on suppose que la fonction de r´egression est une fonction affine de la forme
r(θ,x) =a+bx
alors le mod`ele de r´egression `a design d´eterministe s’´ecrit ici : Yi =a +b xi+ξi, i= 1, . . . ,n
o`u lesx1, . . . ,xn sont desr´eelsdonn´es et ξ1, . . . , ξn sont i.i.d. centr´ees et de variances finies.
I on param´etrise parθ= (a,b)T ∈Θ =R2; a est appel´el’intercept.
I L’estimateur des moindres carr´es : θbnmc=
ˆa bˆ
= arg min
(a,b)>∈R2 n
X
i=1
Yi−a−bxi
2
Estimateur des moindres carr´ es (1/2)
On peut r´e´ecrire lafonction objectifsous forme matricielle : F(a,b) =
n
X
i=1
Yi−a−bxi2
= Y−X
a b
2
2
o`u
X=
1 x1
... ... 1 xn
etY=
Y1
... Yn
et comme
∇F(a,b) =−2X>(Y−X(a,b)>) et∇2F(a,b) = 2X>X0 l’ (ou les) EMC est (sont) solution(s) de
X>Xθbnmc=X>Y
Estimateur des moindres carr´ es (2/2)
I Unique solution quand X>Xest inversible :
θbnmc= ˆa
ˆb
= X>X)−1X>Y
I R´esidu : siθbn est un estimateur deθ alors ˆyi=r(bθn,xi) est la valeur pr´edite par l’estimateur au pointxi et
Yi−ˆyi:r´esiduau pointi
I RSS : (Residual Sum of Squares) RSS :=
n
X
i=1
Yi−yˆi2
R´ egression lin´ eaire simple sur les donn´ ees Advertising.csv
http://localhost:8888/notebooks/linear_regression.ipynb
R´ egression lin´ eaire multiple (=Mod` ele lin´ eaire)
La fonction de r´egression estr(θ,xi) = θ,xi
. On observe (x1,Y1), . . . ,(xn,Yn)
sous le mod`ele
Yi = θ,xi
+ξi, i= 1, . . . ,n o`uθ∈Θ =Rk, xi ∈Rk.
I Probl`eme : estimerθ
I l’analyse des estimateurs pour undesign al´eatoireest un plus d´elicate
Ecriture matricielle des donn´ ees
Matriciellement, on r´e´ecrit ces donn´ees comme Y=Xθ+ξ o`u
Y=
Y1
... Yn
∈Rn,X=
x>1
... x>n
∈Rn×k etξ=
ξ1
... ξn
∈Rn
On parle de r´egression lin´eaire avec interceptquand
X=
1 x>1
... ... 1 x>n
∈Rn×(k+1)
EMC en r´ egression lin´ eaire multiple
I Estimateur desmoindres carr´es en r´egression lin´eaire multiple : tout estimateur bθnmc minimisant
θ∈Rk 7→F(θ) := min
θ∈Rk n
X
i=1
Yi− θ,xi2
I En notation matricielle : kY−Xθbnmck2= min
θ∈Rk
kY−Xθk2= min
v∈VkY−vk2 o`uV = Im(X) ={v∈Rn:v =Xθ, θ∈Rk}. DoncXθbnmc est la projection orthogonale de YsurV.
G´ eom´ etrie de l’EMC
I L’EMC v´erifie
Xθbnmc=PVY o`uPV est le projecteur orthogonal surV.
I MaisX>PV =X>PV>= (PVX)>=X>. On en d´eduitles ´equations normales des moindres carr´es:
X>Xθbnmc=X>Y (1)
I Remarques.
I L’EMC est unZ-estimateur (bonnes propri´et´es quand (1) a une unique solution c`adX>X0).
I Pas d’unicit´edeθbnmcsi la matriceX>Xn’est pas inversible.
I (1) est ´equivalente `a∇F(bθnmc) = 0
G´ eom´ etrie de l’EMC
Proposition
SiX>X(matrice k×k) est inversible, alorsθbnmcest uniqueet
θbnmc= X>X−1
X>Y
I Contient le cas pr´ec´edent de la droite de r´egression simple.
I R´esultat g´eometrique,non stochastique.
I on a toujoursX>X0 ; de plus :
X>Xinversible ⇔X>X0 ⇔ rang(X) =k ⇔ dim(V) =k En particulier,X>X0 =⇒ n≥k (statistiques en petites dimensions)
R´ egression lin´ eaire multiple sur les donn´ ees Advertising.csv
http://localhost:8888/notebooks/linear_regression.ipynb
R´egression lin´eaire gaussienne
= Mod` ele lin´ eaire gaussien
On suppose que le vecteur bruit est tel que ξ∼ N(0, σ2Idn) dans le mod`ele (sous forme matricielle)
Y=Xθ+ξ
On a alors plusieurs propri´et´es remarquables :
I l’EMC bθnmc = EMV (dans le mod`ele `a variance connue)
I On sait expliciter la loi (non-asymptotique !) deθbnmc
Cadre gaussien : loi des estimateurs
I Hyp. 1 :ξ∼ N(0, σ2Idn)
I Hyp. 2 :X>X0
Proposition (2)
(i) θbnmc∼ N θ, σ2 X>X−1 (ii) kY−Xθbnmck22∼σ2χ2(n−k) (iii) θbnmc etY−Xθbnmcsont ind´ependants
Preuve :Thm. de Cochran: Siξ∼ N(0,Idn) etPj matricesn×nde projection t.q.PjPi = 0 pouri6=j, alors :
1. Pjξ∼ N 0,Pj
sontind´ependants, 2. kPjξk22∼χ2(Rang(Pj))
Preuve de la proposition 2 (
directe, sans Cochran)
(i) θbnmc=θ+ X>X−1
X>ξest une transformation affine d’un vecteur Gaussien doncθbnmc est aussi un vecteur Gaussien ; sa moyenne et matrice de covariance sont :
1. E[bθnmc] =θ 2. Cov(bθnmc) =E
X>X−1
X>ξ X>X−1
X>ξ>
=σ2 X>X−1
(ii) pour PV =X X>X−1
X> : matrice de projection surV =Im(X) et ξ0 =σ−1ξ∼ N(0,Idn)
Y−Xbθnmc=X θ−θbnmc +ξ
=−X X>X−1
X>ξ+ξ=σ(Idn−PV)ξ0
(iii) le vecteur (bθnmc,Y−Xθbnmc) est gaussien (transformation lin´eaire de ξ). On calcule sa matrice de covariance.
Mod` ele lin´ eaire Gaussien – variance inconnue
Dans le mod`ele lin´eaire Gaussien
Y=Xθ+σN(0,In) o`uθetσsont inconnus on a :
EMV=
θbnmc ˆ σ2n
o`u ˆσn2= kY−Xθbnmck22 n car la log-vraisemblance
`n(θ, σ2) =−n
2 log(2πσ2)− 1
2σ2kY−Xθk22 est maximale en ce point
Propri´ et´ es de l’EMV :
cadre gaussien variance inconnue (1/2)EMV=
θbnmc ˆ σ2n
o`u
θbnmc= X>X−1
X>Yet ˆσn2= kY−Xθbnmck22 n D’apr`es Proposition 2 :
I σb2n estind´ependantdeθbnmc
I θbnmc∼ N θ, σ2 X>X−1
I nσb2n/σ2∼χ2(n−k)
Propri´ et´ es de l’EMV :
cadre gaussien variance inconnue (2/2)Lois des coordonn´ees deθbnmc:
(bθnmc)j−θj ∼ N 0, σ2bj) o`ubj est lej`eme ´el´ement diagonal de X>X−1
et (bθnmc)j−θj
eσnp bj
∼tn−k pour eσn= kY−Xθbnmck22 n−k
D´ efinition
Laloi de Student `a n−k degr´es de libert´eest la loi de tn−k = g
pη/(n−k)
o`u g ∼ N 0,1), η∼χ2(n−k)et g ind´ependant deη.
Tests et s´ election de variables dans le mod` ele
lin´ eaire Gaussien
Features selection =
S´election de variablesProbl`eme : On cherche `a expliquer une variableY ∈Ren fonction d’une autre variableX ∈Rk. Certaines coordonn´ees deX n’ont peut-ˆetre aucun int´erˆet pour ce probl`eme (elles n’expliquent en rien la variablit´e deY).
Exemple : peut-ˆetre que la variable ”Newspaper” n’explique en rien
”Sales” ( ?)
Probl`eme : on ne veut garder que les variables pertinantes, c’est le probl`eme defeatures selection
Features selection via backward elimination
1. On retire laj-i`eme feature (= on retire laj-i`eme colonne de X→X−j) et on construitθbnmc(−j) `a partir deYetX−j
2. on choisij1 pour lequel
RSS(bθnmc(−j1)) = min
1≤j≤kRSS(bθnmc(−j)) :=RSSk−1 3. on r´eit`ere jusqu’`a lastabilisation de RSS:
RSSm≈RSSm−1
4. `a la fin, seules les colonnes restantes deXsont des features
pertinantes : ceux sont celles qui expliquent le plus la variabilit´e deY Autres id´ees : Forward proc´edures, crit`eres AIC et BIC, LASSO, tests, etc.
Feature selection via test (1/2)
Cadre :Mod`ele lin´eaire gaussien(`a design d´eterministe) Y=Xθ+ξ, ξ∼ N(0, σ2Idn), o`uθ= (θ1, . . . , θk)T ∈Rk,X∈Rn×k etX>X0.
Probl`eme de test :a∈R,j ∈ {1, . . . ,k}donn´e H0:θj =a contreH1:θj 6=a On a vu que, sousPθ,
θbnmc
j−θj σen
q
(X>X)−1jj
= Student(nd −k) o`ueσn= kY−Xθbnmck22 n−k
Feature selection via test (2/2)
On peut alors construire untest de niveauαpar : ϕα=
(
H0 quandtn≤qStudent1−α/2(n−k)
H1 sinon
pour lat-statistique(de la featurej) tn:=
θbnmc
j−a eσn
q
(X>X)−1jj
En particulier, poura= 0, on test si le coefficient associ`e `a laj-i`eme feature est nul. Si on rejete le test (petite p-value), alors cette feature sera s´electionn´ee (avec un niveau de confiance de 1−αou
α=p−value). On r´ep`ete la proc´edure de test pour lesk features :pour chaque feature, on calcul sa t-statistique et la p-value associ´ee
S´ election de groupes de variables
Cadre : mod`ele lin´eaire Gaussien (`a design d´eterministe) et param`etre θ∈Rk
Probl`eme de test : 1≤k0<k fix´e.On souhaite savoir si au moins une desk−k0derni`eres features a une influence.
On choisit alors les hypoth`eses :
H0:θ`= 0, ∀`=k0, . . . ,k contre
H1: il existe`∈ {k0, . . . ,k} t.q.θ`6= 0
(choix des hypoth`eses tel que le rejet r´epond `a la question : ”rejet” =
”oui il y a au moins une feature influente”)
Formulation plus g´ en´ erale du probl` eme : F-tests
SoitG∈Rm×k etb∈Rmdonn´e. On consid`ere le probl`eme de test : H0:Gθ=b
contre
H1:Gθ6=b Ici : on prend
G=
0 . . . 0 1 . . . 0 ... . .. ... ... . .. ... 0 . . . 0 0 . . . 1
∈Rk0×k etb=0∈Rk0
F-tests (1/2)
SousH0 (c`ad pourθ t.q.Gθ=b) on a (cf. Proposition 2) Gθbnmc∼ N b, σ2G(X>X)−1G>
et donc en posantU=σ2G(X>X)−1G> (et siU est inversible), on a (Gθbnmc−b)>U−1(Gθbnmc−b)∼χ2(m)
Siσ2 est inconnue, on poseeσn2= kY−Xθb
mc n k22
n−k etUb = ˜σn2G(X>X)−1G>, alors, la loi de
(Gθbnmc−b)>Ub−1(Gbθnmc−b) m
ned´epend pas deθ ni deσ2 sousH0et suit la loi de Fisher-Snedecor `a (m,n−k) degr´es de libert´e.
F-tests (2/2)
D´ efinition
Si X∼χ2(m), Y ∼χ2(n−k)et X est ind´ependante de Y alors X/m
Y/(n−k) ∼Fisher −Snedecor(m,n−k) :=F(m,n−k) On a alors untest de niveau αpour le probl`eme de test
H0:Gθ=b contreH1:Gθ6=b donn´e par
ϕα=
H0 siTn≤qF1−α(m,n−k)
H1 sinon
o`u
Tn= (Gθbnmc−b)TUb−1(Gθbnmc−b)
m etUb =σe2nG(X>X)−1G>
Information de Fisher dans le mod` ele lin´ eaire
Gaussien
Information de Fisher et r´ egression (1/3)
Cadre :En exp´erience engendr´ee par (x1,Y1), . . . ,(xn,Yn) avec Yi =r(θ,xi) +ξi,
o`u lesξi sont i.i.d. admettant une densit´eg par rapport `a la mesure de Lebesgueetx1, . . . ,xn sont d´eterministes.
Observation :Zn= (Y1, . . . ,Yn) de densit´e (par rapport `a Lebesgue sur Rn)
fn(θ,Zn) =
n
Y
i=1
g Yi−r(θ,xi) Information de Fisher:
I(θ|En) =−Eθ[∇2θlogfn(θ,Zn)]
Information de Fisher et r´ egression (2/3)
Quand le bruit est Gaussien : g(t) = 1
√
2πσ2exp−t2 2σ2
et donc, pour le probl`eme d’estimation deθ`aσ connue, on a I(θ|En) =σ−2X>X
On aI(θ|En)0 si et seulement siX>X0. Dans ce cas, l’EMV qui est ici l’EMCθbnmc, est Gaussien de matrice de covarianceI(θ|En)−1:
θbnmc∼ N θ,I(θ|En)−1
Ce r´esultat estnon-asymptotique. D’une autre cˆot´e, c’est le
comportement qu’on obtientasymptotiquementpour les EMV dans les mod`eles d’´echantillonnage r´eguliers.
Information de Fisher et r´ egression (3/3)
Dans le mod`ele lin´eaire Gaussien avec variance inconnue (et design d´eterministe), on peut calculer l’information de Fisher pour le probl`eme d’estimation du param`etre (θ, σ2). On a
∇2(θ,σ2)`n
θ σ2
=
−X>X σ2
−X(Y−Xθ) σ4
h−
X(Y−Xθ) σ4
i>
n
2σ4 −kY−σX6θk22
alors
I((θ, σ2)|En) = X>X
σ2 0 0 2σn4
Rem. : la covariance de l’EMV est ici : cov
θbnmv
ˆ σ2n
=
σ2(X>X)−1 0 0 2σn4n−kn
6=I((θ, σ2)|En)−1
Pr´ evision dans le mod` ele lin´ eaire Gaussien
Pr´ evision
Mod`ele lin´eaire Gaussien
Yi=r(θ,xi) +ξi, i= 1, . . . ,n o`ur(θ,xi) =
θ,xi
etξi i.i.d.
∼ N(0, σ2).
Exemple :xi vecteur de 3 variables explicatives (TV, RADIO, Newspaper) pour le march´ei.
I Probl`eme de pr´evision: On investit dans un nouveau march´e avec x0∈R3. On souhaite estimer les ”SALES” attendus, c`ad pr´edire la valeur de la fonction de r´egression enx0 :r(θ,x0) =
θ,x0
I Soitθbn un estimateur deθ.Pr´evision par substitution : by=r(bθn,x0)
I Question statistique : quelle est la qualit´e de la pr´evision ? Intervalle de confiance pourr(θ,x0) bas´e surby?
Pr´ evision : mod` ele lin´ eaire gaussienne
I On prend bθn=bθnmc alors la pr´ediction est by =
x0,θbnmc
I Hyp. 1 :ξ∼ N(0, σ2Idn)
I Hyp. 2 :X>X0
Proposition
(i) yb∼ N x0, θ
, σ2xT0 X>X−1
x0 (ii) yb−
x0, θ
etY−Xθbnmc sont ind´ependants Rem. :
x0, θ
=r(θ,x0) est la quantit´e qu’on cherche `a pr´edire
Pr´ evision : mod` ele lin´ eaire gaussienne
I D’apr`es Proposition 2,
η:= by−
x0, θ q
σ2xT0 X>X−1
x0
∼ N(0,1)
I On remplaceσ2inconnu pareσn2=kY−Xθbnmck2/(n−k).
I t-statistique :
t := by− x0, θ q
bσn2xT0 X>X−1
x0
∼ g qχ(n−k)
n−k
∼Student(n−k),
Pr´ evision : intervalle de confiance
Pourqt1−n−kα
2, le quantile d’ordre 1−α/2 d’une Student(n-k) et la t-statistique
t:= by− x0, θ q
bσ2nx>0 X>X−1
x0 on a
P
h|t| ≤q1−tn−kα 2
i
= 1−α
On obtient ainsi unintervalle de confiance de niveau 1−α (non-asymptotique) pourr(θ,x0) =
x0, θ : r(θ,x0)∈h
ˆ
y±q1−tn−kα 2
q
σb2nxT0 X>X−1
x0
i
avec probabilit´e 1−α.
Pr´ evision : bande de confiance
On peut encadrer la droite de r´egression pardeux arcs d’hyperboles donnant ainsi une r´egion de confiance pour la droite de r´egression. Sous les hypoth`eses :
I Hyp. 1 :ξ∼ N(0, σ2Idn)
I Hyp. 2 :X>X0 La Proposition 2 assure que
θbnmc∼ N θ, σ2 X>X−1 De plusbσn2→P σ2, on en d´eduit que
X>X1/2
(bθnmc−θ)
2 2
σb2n
−→d χ2(k).
Pr´ evision : bande de confiance
On obtient ainsi une zone de confiance asymptotique de niveau 1−α pourθdonn´ee parθbnmc+cEα o`u
Ecα:=
x∈Rk :
X>X1/2 x
2≤bσn
q qχ1−α2(k)
etq1−αχ2(k) est le quantile d’ordre 1−αd’uneχ2(k).
bθnmc+cEαest une ellipsoide centr´ee enbθnmc d’axes et rayons donn´es par la d´ecomposition spectrale de X>X
.
A chaque point ˆθ∈θbnmc+cEα, on peut associer la droite de r´egression x→θ,ˆ x
. Ainsi en tra¸cant l’ensemble de toutes ses droites, on obtient une bande de confiance autour de la droite de r´egression.
Pr´ evision : bande de confiance
R´ egression lin´ eaire non-gaussienne
R´ egression lin´ eaire non-gaussienne
Mod`ele de r´egression lin´eaire Yi=
θ,xi
+ξi, i= 1, . . . ,n.
I Hyp. 1’ :ξi i.i.d., E[ξi] = 0,E[ξ2i] =σ2>0
I Hyp. 2’ :X>X>0,limnmax1≤i≤nxTi X>X−1
xi= 0
Proposition (Normalit´ e asymptotique de l’EMC)
Quand n→ ∞,
σ−1 X>X1/2
(bθnmc−θ)−→ Nd 0,Idk).
A comparer avec le cadre gaussien : pour toutn, σ−1 X>X1/2
(bθnmc−θ)∼ N 0,Idk)
Th´ eor` eme de Gauss-Markov
Cadre : mod`ele lin´eaire (notation matricielle) Y=Xθ+ξ o`uEξ= 0, Eξξ> =σ2InetX>X0.
Th´ eor` eme (Gauss-Markov)
L’estimateur des moindres carr´esθbnmc est optimal (au sens du risque quadratique) parmi tous les estimateurs lin´eaires sans biais : siθbn est un estimateur de la formeθbn=AYtel que A∈Rn×k etEθbn =θ alors
E
θbnmc−θ
2 2≤E
θbn−θ
2 2
R´ egression non-lin´ eaire
R´ egression non-lin´ eaire
I On observe
(x1,Y1), . . . ,(xn,Yn), o`u
Yi=r(θ,xi) +ξi, i= 1, . . . ,n avec
xi ∈Rk, et θ∈Θ⊂Rd.
I Siξi∼i.i.d.N(0, σ2),
Ln(θ,Y1, . . . ,Yn)∝exp
− 1 2σ2
n
X
i=1
Yi−r(θ,xi)2 et l’estimateur du maximum de vraisemblanceest obtenu en minimisant la fonction
θ7→
n
X
i=1
Yi−r(θ,xi)2 .
Moindre carr´ es non-lin´ eaires
D´ efinition
I M-estimateur associ´e `a lafonction de contraste ψ: Θ×Rk×R→R: tout estimateurθbn satisfaisant
n
X
i=1
ψ(bθn,xi,Yi) = max
a∈Θ n
X
i=1
ψ(a,xi,Yi).
I Estimateur desmoindres carr´es non-lin´eaires: associ´e au contraste ψ(a,x,y) =− y−r(a,x)2
.
I Extensiondes r´esultats dans le mod`ele d’´echantillonnage domin´e au cas cas de v.a. ind´ependantesnon-´equidistribu´ees.
Mod` ele ` a r´ eponse binaire
I On observe
(x1,Y1), . . . ,(xn,Yn), Yi ∈ {0,1}, xi ∈Rk.
I Mod´elisationvia la fonction de r´egression x7→px(θ) =Eθ
Y|X=x
=Pθ
Y = 1|X=x
I Repr´esentation
Yi =pxi(θ) + Yi−pxi(θ)
=r(θ,xi) +ξi
avec r(θ,xi) =pxi(θ) etξi=Yi−pxi(θ).
I Eθ
ξi
= 0 mais structure desξi compliqu´ee(d´ependance en θ).
Mod` ele ` a r´ eponse binaire
I Yi v.a. de Bernoulli de param`etrepxi(θ).
Vraisemblance
Ln(θ,Y1, . . . ,Yn) =
n
Y
i=1
pxi(θ)Yi(1−pxi θ)1−Yi
→m´ethodes de r´esolution num´erique.
I R´egression logistique(tr`es utile dans les applications) px(θ) =ψ(
x, θ ), ψ(t) = et
1 +et, t ∈R fonction logistique
R´ egression logistique et mod` eles latents
Repr´esentation ´equivalente de la r´egression logistique: on observe Yi =I Yi?>0
, i= 1, . . . ,n
(lesxi sont donn´es), etYi? est unevariable latenteou cach´ee, Yi?=
θ,xi
+Ui, i= 1, . . . ,n avecUi i.i.d.∼ F, o`u
F(t) = 1
1 +e−t, t∈R. car, pour la fonction logistiqueψ,
Pθ
Yi?>0] =ψ(
xi, θ
) =P[Yi= 1]
Mod` ele ` a r´ eponse discr` ete multiples : mod` ele de Poisson
I On observe
(x1,Y1), . . . ,(xn,Yn), Yi ∈N, xi ∈Rk.
I Mod´elisationvia la densit´e deY|X =x : k ∈N7→px(θ,k) =Pθ
Y =k|X=x
I Mod`ele de PoissonY|X =x∼ Poisson(exp(
θ,x
)) : pour tout k ∈N,
Pθ[Y =k|X =x] = λk
k! exp(−λ) o`uλ= exp(
θ,x ).
I Eθ[Y|X =x] = exp(
θ,x
),var(Y|X =x) = exp(
θ,x ).
Test empirique pour le mod` ele lin´ eaire
Le Rainbow test
Id´ee :Mˆeme si la vrai relation entreY et les covariables n’est pas lin´eaire, localement on peut imaginer qu’elle l’est (approximation d’ordre de 1 de Taylor). Si on construit une estimateur par moindre carr´e `a partir d’un sous-ensemble de donn´ees autour de ¯Xnalors cette r´egression devrait ˆetre assez bonne.
Par exemple :Y =X2+N(0,1)
Le Rainbow test
On noteθel’estimateur construit `a partir demdonn´ees d’indices I ⊂ {1, . . . ,n}autour de ¯Xn et par ˜yi =
Xi,eθ
la valeur pr´edite en Xi. On a donc unR2 (coefficient de d´etermination) donn´e par
R˜I2= 1− P
i∈I(yi−˜yi)2 P
i∈I(yi−¯yI)2
Id´ee :L’id´ee centrale duRainbow test est que si le mod`ele est vraiment lin´eaire alors l’ajout de donn´ees au sous-´echantillon (yi,Xi)i∈I ne devrait pas trop modifier leR2. Par contre, si le mod`ele n’est pas lin´eaire alors l’ajout de donn´ee loin de ¯Xn devrait d´egrader leR2. La comparaison entre leR2local autour de ¯Xn: ˜RI2; et leR2 de tout l’´echantillon est `a la base duRainbow test.
Statistic de test du Rainbow test: T = (R2−R˜I2)
R˜I2
(m−k) (n−m).
Sous hypoth`ese de lin´earit´e (mod`ele lin´eaire gaussien), on a T ∼F(n−m,m−k)
Le Rainbow test
Le choix du sous-´echantillon pour leRainbow test se fait g´en´eralement en prenant lesm>k donn´ees les plus proche de ¯Xn pour ladistance de Mahalanobis:
d(x,y) = q
(x−y)> X>X
(x−y) =kX(x−y)k2.
On choisit donc pour sous-ensemble de donn´ees (yi,Xi)i∈I l’ensemble de mdonn´ees telles qued(Xi,X¯n) est la plus petite.
Autre tests
I Ramsey’s RESET test : “Regression Specification Error Test”
I Harvey and Collier test : for a convex or concave alternative
I Test de Breusch-Pagan sur l’homosc´edasticit´e du terme d’erreur.
I test de Durbin-Watson : tester l’autocorr´elation des r´esidus dans un mod`ele de r´egression lin´eaire.
I F-test (ou test de Fisher) et ANOVA : test d’´egalit´e de variance et de fit du mod`ele.