Statistiques math´ematiques : cours 8

(1)

Statistiques math´ ematiques : cours 8

Guillaume Lecu´e

12 septembre 2018

(2)

Aujourd’hui :

Mise en oeuvre des méthodes statistiques des cours précédants dans le modèle de régression

Présentation des modèles de régression

M´ethodes d’estimation en r´egression

Tests et s´election de variables

(3)

Donn´ ees :

^publicités et ventes d’un même produit sur 200 marchés fichierAdvertising.csv

id-market TV Radio Newspaper Sales

1 230.1 37.8 69.2 22.1

2 44.5 39.3 45.1 10.4

3 17.2 45.9 69.3 9.3

4 151.5 41.3 58.5 18.5

5 180.8 10.8 58.4 12.9

· · · ·

200 232.1 8.6 8.7 13.4

Questions :

1. Quelle est l’influence des campagnes ”TV” sur les ”Sales” ? 2. Etant donné un budget publicité, où faut-il investir ? et combien de

”Sales” peut-on esp´erer en retirer ?

(4)

Pr´ esentation des mod` eles de r´ egression

(5)

Expliquer une variable Y par une autre X

Principe : on part de l’observation dencouples

(X₁,Y₁), . . . ,(X_n,Y_n) o`uY_i∈Ret X_i∈R^k

Exemple : sur lei-i`eme march´e,

I Yi = ”Sales”

I X_i = (”TV”,”Radio”,”Newspaper”)∈R³

Idée : OnpensequeXi peutexpliquerla ”majeure partie de la variabilité desYi” ; càd queYi est ”presque” fonction deXi (à quelque chose près).

(6)

Mod´ elisation de ”l’influence”

I SiX_i contienttoute la variabilit´ede Y_i, alorsY_i est fonction deX_i : il exister :R^k →Rtelle que

Y_i =r X_i

mais peu réaliste (ou alors problème d’interpolation numérique).

I Alternative : on modèlise ces données avec le modèle Y_i=r X_i

+ξ_i

oùξ_i est un terme aléatoire qui explique le reste de la variabilité de Y_i etr(·) une fonction qu’on va estimer. On suppose que Eξ_i= 0 (pour l’identifiabilité).

(7)

pr´ ediction et influence des features

Dans le mod`ele

Yi =r(Xi) +ξi

pourXi∈R^k, les coordonn´ees desXi sont appel´ees lesfeatures

Exemple : ”TV”, ”Radio” et ”Newspaper” sont les features du probl`eme.

I Si ˆr(·) est un estimateur der(·) alors la variabilité de ˆr(·) en la j-ième coordonnée (1≤j ≤k) mesure l’influence de la featurej sur la variable à expliquerY

I Six ∈R^k alors ˆy = ˆr(x)préditla valeur de la variable expliquée associée à x.

(8)

Motivation : meilleure approximation L

²

I Meilleure approximationL²: si E Y²

<+∞, la meilleure approximation de Y par une variable aléatoireX-mesurable est donnée parl’espérance conditionnelleE

Y|X : E

Y −r(X)2

= min

h E

Y −h(X)2 o`u

r(x) =E

Y|X=x

, x∈R^k

I On appelle r(·)fonction de r´egression deY sachant X.

(9)

R´ egression

I On d´efinit :

ξ=Y −E Y|X

=⇒ E ξ

= 0

I On a alors naturellement la représentation désirée Y =r(X) +ξ, E

ξ

= 0 en posant

r(x) =E

Y|X=x

, x∈R^k

I On observe alorsncouples

(X₁,Y₁), . . . ,(X_n,Y_n) o`u

Y_i =r(X_i) +ξ_i, E ξ_i

= 0

avec commeparamètre la fonction de régressionr(·)+ unjeu d’hypothèsessur la loi desξi.

(10)

Mod` ele de r´ egression ` a design al´ eatoire

D´ efinition

Modèle de régression paramétriqueà design aléatoire= observation d’un n-échantillon de couples

(X1,Y1), . . . ,(Xn,Yn) avec(X_i,Y_i)∈R^k×Ri.i.d. ∼(X,Y), et

Y =r(θ,X) +ξ, E ξ|X

= 0, θ∈Θ⊂R^d.

I x7→r(θ,x)fonction de régressionde Y sachantX(inconnue, carθ est inconnu : paramètre du modèle)

I Xi :variables explicatives, co-variables, input

I (X₁, . . . ,X_n):design

I Yi :variables expliqu´ees, output

(11)

R´ egression ` a design d´ eterministe

I Principe :sur un exemple. On observe

Yi=r(θ,i/n) +ξi, i= 1, . . . ,n

oùr(θ,·) : [0,1]→Rest une fonction connue au paramètre θ∈Θ⊂R^d près, et les ξi sont i.i.d.,E

ξi

= 0.

I But : reconstruirer(θ,·) c’est-`a-direestimerθ.

I Plus généralement, on observe (Yi)ⁿ_i=1 où

Yi=r(θ,xi) +ξi, i= 1, . . . ,n etx₁, . . . ,x_n sont des points deR^k d´eterministes.

(12)

Mod` ele de r´ egression ` a design d´ eterministe

D´ efinition

Modèle de régressionà design déterministe= donnée de l’observation (x1,Y1), . . . ,(xn,Yn)ou plus simplement Y1, . . . ,Yn

avec Yi∈R,xi ∈R^k, et

Y_i=r(θ,x_i) +ξ_i, E ξ_i

= 0, θ∈Θ⊂R^d.

I xi déterministes, donnés (ou choisis) : plan d’expérience, points du

”design”.

I Hypoth`eses sur lesξi : par exemple : i.i.d., gaussien, etc.

I Attention ! Les Y_i ne sontpas identiquement distribu´ees.

(13)

R´ egression lin´ eaire

On parle demodèle de régression linéairequand la fonction de régression r(θ,·) est supposée linéaire : pour toutx ∈R^d

r(θ,x) = θ,x On a alors pour les mod`eles :

I Y_i = θ,X_i

+ζ_i : modèle linéaire à design aléatoire,

I Y_i = θ,x_i

+ζ_i : modèle linéaire à design déterministe, et pour un bruit gaussien :gi

i.i.d.

∼ N(0,1),

I Y_i = θ,X_i

+σg_i : modèle linéaire gaussien à design aléatoire (on suppose de plus que les g_i sont indépendants desX_i),

I Yi = θ,xi

+σgi : modèle linéaire gaussien à design déterministe,

(14)

M´ ethodes d’estimation en r´ egression ` a design

d´ eterministe et bruit gaussien

(15)

EMV

^{en r´}egression gaussienne `a design d´eterministe

Modèle de régression gaussienne à design déterministe : Y_i =r(θ,x_i) +σg_i, θ∈Θ⊂R^d oùgi ∼ N(0,1), i.i.d..

Probl`eme : estimerθ?

Id´ee : Expliciter la loi de l’observationZ = (Y1, . . . ,Yn) et appliquer le principe du maximum de vraisemblance.

La loi deY_i :PYi =f_x_i(θ,·).λo`u∀y ∈R fx_i(θ,y) = 1

√

2πσ²exp

− 1

2σ² y−r(θ,xi)² Loi de (Y₁, . . . ,Y_n) :P(Y₁,...,Y_n)=f(θ,·).λⁿ o`u

f(θ,(y₁, . . . ,y_n)) =

n

Y

i=1

√ 1

2πσ²exp

− 1

2σ² y_i−r(θ,x_i)2

(16)

EMV

^{pour r´}egression gaussienne `a design d´eterministe

On travail alors dans le modèle{Pⁿθ=P(Y1,...,Yn):θ∈R^d}, dominé par µ=λⁿ, ayant pour densités

dPⁿθ

dµ (y1, . . . ,yn) =

n

Y

i=1

√1

2πσ²exp −_2σ¹2(yi−r(θ,xi))²

=_(2πσ¹₂₎_n/2exp

−_2σ¹2

n

X

i=1

yi−r(θ,xi)²

:=f(θ,(yi)ⁿ_i=1)

La fonction de vraisemblance vaut enθ∈R^d, Ln(θ,Y1, . . . ,Yn)∝exp

− 1 2σ²

n

X

i=1

Yi−r(θ,xi)²

(17)

Estimateur des moindres carr´ es

Maximiser la vraisemblanceen r´egression gaussienne m

Minimiser la somme des carr´es : trouver lesθ∈R^d minimisant θ∈R^d −→

n

X

i=1

Y_i−r(θ,x_i)2

D´ efinition

Estimateur des moindres carr´es(EMC) : tout estimateurθb_n^mc tel que θb_n^mc∈arg min_θ∈RkPn

i=1 Yi−r(θ,xi)2

En r´egression Gaussienne :EMV = EMC

(18)

Droite de r´ egression (k = 1)

Mod`ele le plus simple : on suppose que la fonction de r´egression est une fonction affine de la forme

r(θ,x) =a+bx

alors le modèle de régression à design déterministe s’écrit ici : Yi =a +b xi+ξi, i= 1, . . . ,n

où lesx1, . . . ,xn sont desréelsdonnés et ξ1, . . . , ξn sont i.i.d. centrées et de variances finies.

I on param´etrise parθ= (a,b)^T ∈Θ =R²; a est appel´el’intercept.

I L’estimateur des moindres carr´es : θb_n^mc=

ˆa bˆ

= arg min

(a,b)^>∈R² n

X

i=1

Yi−a−bxi

2

(19)

Estimateur des moindres carr´ es (1/2)

On peut r´e´ecrire lafonction objectifsous forme matricielle : F(a,b) =

n

X

i=1

Yi−a−bxi²

= Y−X

a b

2

o`u

X=





 1 x₁

... ... 1 xn





 etY=





 Y₁

... Yn





 et comme

∇F(a,b) =−2X^>(Y−X(a,b)^>) et∇²F(a,b) = 2X^>X0 l’ (ou les) EMC est (sont) solution(s) de

X^>Xθb_n^mc=X^>Y

(20)

Estimateur des moindres carr´ es (2/2)

I Unique solution quand X^>Xest inversible :

θb_n^mc= ˆa

ˆb

= X^>X)⁻¹X^>Y

I R´esidu : siθbn est un estimateur deθ alors ˆyi=r(bθn,xi) est la valeur pr´edite par l’estimateur au pointxi et

Yi−ˆyi:r´esiduau pointi

I RSS : (Residual Sum of Squares) RSS :=

n

X

i=1

Y_i−yˆ_i2

(21)

R´ egression lin´ eaire simple sur les donn´ ees Advertising.csv

http://localhost:8888/notebooks/linear_regression.ipynb

(22)

R´ egression lin´ eaire multiple (=Mod` ele lin´ eaire)

La fonction de r´egression estr(θ,x_i) = θ,x_i

. On observe (x₁,Y₁), . . . ,(x_n,Y_n)

sous le mod`ele

Yi = θ,xi

+ξi, i= 1, . . . ,n o`uθ∈Θ =R^k, xi ∈R^k.

I Probl`eme : estimerθ

I l’analyse des estimateurs pour undesign al´eatoireest un plus d´elicate

(23)

Ecriture matricielle des donn´ ees

Matriciellement, on réécrit ces données comme Y=Xθ+ξ où

Y=





 Y1

... Y_n





∈Rⁿ,X=





 x^>₁

... x^>_n





∈R^n×k etξ=





 ξ1

... ξ_n





∈Rⁿ

On parle de r´egression lin´eaire avec interceptquand

X=





 1 x^>₁

... ... 1 x^>_n





∈R^n×(k+1)

(24)

EMC en r´ egression lin´ eaire multiple

I Estimateur desmoindres carrés en régression linéaire multiple : tout estimateur bθ_n^mc minimisant

θ∈R^k 7→F(θ) := min

θ∈R^k n

X

i=1

Yi− θ,xi²

I En notation matricielle : kY−Xθb_n^mck²= min

θ∈R^k

kY−Xθk²= min

v∈VkY−vk² o`uV = Im(X) ={v∈Rⁿ:v =Xθ, θ∈R^k}. DoncXθb_n^mc est la projection orthogonale de YsurV.

(25)

G´ eom´ etrie de l’EMC

I L’EMC v´erifie

Xθb_n^mc=PVY o`uP_V est le projecteur orthogonal surV.

I MaisX^>PV =X^>P_V^>= (PVX)^>=X^>. On en déduitles équations normales des moindres carrés:

X^>Xθb_n^mc=X^>Y (1)

I Remarques.

I L’EMC est unZ-estimateur (bonnes propriétés quand (1) a une unique solution càdX^>X0).

I Pas d’unicit´edeθb_n^mcsi la matriceX^>Xn’est pas inversible.

I (1) est ´equivalente `a∇F(bθn^mc) = 0

(26)

G´ eom´ etrie de l’EMC

Proposition

SiX^>X(matrice k×k) est inversible, alorsθb_n^mcest uniqueet

θb_n^mc= X^>X−1

X^>Y

I Contient le cas précédent de la droite de régression simple.

I R´esultat g´eometrique,non stochastique.

I on a toujoursX^>X0 ; de plus :

X^>Xinversible ⇔X^>X0 ⇔ rang(X) =k ⇔ dim(V) =k En particulier,X^>X0 =⇒ n≥k (statistiques en petites dimensions)

(27)

R´ egression lin´ eaire multiple sur les donn´ ees Advertising.csv

http://localhost:8888/notebooks/linear_regression.ipynb

(28)

R´egression lin´eaire gaussienne

= Mod` ele lin´ eaire gaussien

On suppose que le vecteur bruit est tel que ξ∼ N(0, σ²Id_n) dans le mod`ele (sous forme matricielle)

Y=Xθ+ξ

On a alors plusieurs propri´et´es remarquables :

I l’EMC bθ_n^mc = EMV (dans le mod`ele `a variance connue)

I On sait expliciter la loi (non-asymptotique !) deθb_n^mc

(29)

Cadre gaussien : loi des estimateurs

I Hyp. 1 :ξ∼ N(0, σ²Id_n)

I Hyp. 2 :X^>X0

Proposition (2)

(i) θb_n^mc∼ N θ, σ² X^>X−1 (ii) kY−Xθb_n^mck²₂∼σ²χ²(n−k) (iii) θb_n^mc etY−Xθb_n^mcsont ind´ependants

Preuve :Thm. de Cochran: Siξ∼ N(0,Idn) etPj matricesn×nde projection t.q.PjPi = 0 pouri6=j, alors :

1. P_jξ∼ N 0,P_j

sontind´ependants, 2. kPjξk²₂∼χ²(Rang(Pj))

(30)

Preuve de la proposition 2 (

directe, sans Cochran

)

(i) θb_n^mc=θ+ X^>X−1

X^>ξest une transformation affine d’un vecteur Gaussien doncθb_n^mc est aussi un vecteur Gaussien ; sa moyenne et matrice de covariance sont :

1. E[bθ_n^mc] =θ 2. Cov(bθ_n^mc) =E

X^>X−1

X^>ξ X^>X−1

X^>ξ>

=σ² X^>X−1

(ii) pour P_V =X X^>X−1

X^> : matrice de projection surV =Im(X) et ξ⁰ =σ⁻¹ξ∼ N(0,Id_n)

Y−Xbθ_n^mc=X θ−θb_n^mc +ξ

=−X X^>X−1

X^>ξ+ξ=σ(Id_n−P_V)ξ⁰

(iii) le vecteur (bθ_n^mc,Y−Xθb_n^mc) est gaussien (transformation lin´eaire de ξ). On calcule sa matrice de covariance.

(31)

Mod` ele lin´ eaire Gaussien – variance inconnue

Dans le mod`ele lin´eaire Gaussien

Y=Xθ+σN(0,In) o`uθetσsont inconnus on a :

EMV=

θb_n^mc ˆ σ²_n

o`u ˆσ_n²= kY−Xθb_n^mck²₂ n car la log-vraisemblance

`_n(θ, σ²) =−n

2 log(2πσ²)− 1

2σ²kY−Xθk²₂ est maximale en ce point

(32)

Propri´ et´ es de l’EMV :

cadre gaussien variance inconnue (1/2)

EMV=

θb_n^mc ˆ σ²_n

o`u

θb_n^mc= X^>X−1

X^>Yet ˆσ_n²= kY−Xθb_n^mck²₂ n D’apr`es Proposition 2 :

I σb²_n estind´ependantdeθb_n^mc

I θb_n^mc∼ N θ, σ² X^>X−1

I nσb²_n/σ²∼χ²(n−k)

(33)

Propri´ et´ es de l’EMV :

cadre gaussien variance inconnue (2/2)

Lois des coordonn´ees deθb_n^mc:

(bθ_n^mc)j−θj ∼ N 0, σ²bj) oùbj est lejème élément diagonal de X^>X−1

et (bθ_n^mc)j−θj

eσnp bj

∼t_n−k pour eσ_n= kY−Xθb_n^mck²₂ n−k

D´ efinition

Laloi de Student à n−k degrés de libertéest la loi de t_n−k = g

pη/(n−k)

o`u g ∼ N 0,1), η∼χ²(n−k)et g ind´ependant deη.

(34)

Tests et s´ election de variables dans le mod` ele

lin´ eaire Gaussien

(35)

Features selection =

^S´election de variables

Problème : On cherche à expliquer une variableY ∈Ren fonction d’une autre variableX ∈R^k. Certaines coordonnées deX n’ont peut-être aucun intérêt pour ce problème (elles n’expliquent en rien la variablité deY).

Exemple : peut-ˆetre que la variable ”Newspaper” n’explique en rien

”Sales” ( ?)

Probl`eme : on ne veut garder que les variables pertinantes, c’est le probl`eme defeatures selection

(36)

Features selection via backward elimination

1. On retire laj-ième feature (= on retire laj-ième colonne de X→X−j) et on construitθb_n^mc(−j) à partir deYetX−j

2. on choisij₁ pour lequel

RSS(bθ_n^mc(−j₁)) = min

1≤j≤kRSS(bθ_n^mc(−j)) :=RSS_k−1 3. on réitère jusqu’à lastabilisation de RSS:

RSSm≈RSS_m−1

4. `a la fin, seules les colonnes restantes deXsont des features

pertinantes : ceux sont celles qui expliquent le plus la variabilité deY Autres idées : Forward procédures, critères AIC et BIC, LASSO, tests, etc.

(37)

Feature selection via test (1/2)

Cadre :Modèle linéaire gaussien(à design déterministe) Y=Xθ+ξ, ξ∼ N(0, σ²Idn), oùθ= (θ1, . . . , θk)^T ∈R^k,X∈R^n×k etX^>X0.

Probl`eme de test :a∈R,j ∈ {1, . . . ,k}donn´e H₀:θ_j =a contreH₁:θ_j 6=a On a vu que, sousPθ,

θb_n^mc

j−θ_j σen

q

(X^>X)⁻¹_jj

= Student(nd −k) o`ueσ_n= kY−Xθb_n^mck²₂ n−k

(38)

Feature selection via test (2/2)

On peut alors construire untest de niveauαpar : ϕ_α=

(

H0 quandtn≤q^Student_1−α/2^(n−k)

H1 sinon

pour lat-statistique(de la featurej) t_n:=

θb_n^mc

j−a eσn

q

(X^>X)⁻¹_jj

En particulier, poura= 0, on test si le coefficient associè à laj-ième feature est nul. Si on rejete le test (petite p-value), alors cette feature sera sélectionnée (avec un niveau de confiance de 1−αou

α=p−value). On répète la procédure de test pour lesk features :pour chaque feature, on calcul sa t-statistique et la p-value associée

(39)

S´ election de groupes de variables

Cadre : modèle linéaire Gaussien (à design déterministe) et paramètre θ∈R^k

Problème de test : 1≤k0<k fixé.On souhaite savoir si au moins une desk−k₀dernières features a une influence.

On choisit alors les hypoth`eses :

H₀:θ_`= 0, ∀`=k₀, . . . ,k contre

H₁: il existe`∈ {k₀, . . . ,k} t.q.θ_`6= 0

(choix des hypothèses tel que le rejet répond à la question : ”rejet” =

”oui il y a au moins une feature influente”)

(40)

Formulation plus g´ en´ erale du probl` eme : F-tests

SoitG∈R^m×k etb∈R^mdonné. On considère le problème de test : H₀:Gθ=b

contre

H₁:Gθ6=b Ici : on prend

G=







0 . . . 0 1 . . . 0 ... . .. ... ... . .. ... 0 . . . 0 0 . . . 1





∈R^k⁰^×k etb=0∈R^k⁰

(41)

F-tests (1/2)

SousH0 (c`ad pourθ t.q.Gθ=b) on a (cf. Proposition 2) Gθb_n^mc∼ N b, σ²G(X^>X)⁻¹G^>

et donc en posantU=σ²G(X^>X)⁻¹G^> (et siU est inversible), on a (Gθb_n^mc−b)^>U⁻¹(Gθb_n^mc−b)∼χ²(m)

Siσ² est inconnue, on poseeσ_n²= ^kY−X^θ^b

mc n k²₂

n−k etUb = ˜σ_n²G(X^>X)⁻¹G^>, alors, la loi de

(Gθb_n^mc−b)^>Ub⁻¹(Gbθ_n^mc−b) m

nedépend pas deθ ni deσ² sousH0et suit la loi de Fisher-Snedecor à (m,n−k) degrés de liberté.

(42)

F-tests (2/2)

D´ efinition

Si X∼χ²(m), Y ∼χ²(n−k)et X est ind´ependante de Y alors X/m

Y/(n−k) ∼Fisher −Snedecor(m,n−k) :=F(m,n−k) On a alors untest de niveau αpour le probl`eme de test

H₀:Gθ=b contreH₁:Gθ6=b donn´e par

ϕα=

H₀ siT_n≤q^F_1−α^(m,n−k⁾

H₁ sinon

o`u

Tn= (Gθb_n^mc−b)^TUb⁻¹(Gθb_n^mc−b)

m etUb =σe²_nG(X^>X)⁻¹G^>

(43)

Information de Fisher dans le mod` ele lin´ eaire

Gaussien

(44)

Information de Fisher et r´ egression (1/3)

Cadre :Eⁿ exp´erience engendr´ee par (x1,Y1), . . . ,(xn,Yn) avec Yi =r(θ,xi) +ξi,

où lesξi sont i.i.d. admettant une densitég par rapport à la mesure de Lebesgueetx1, . . . ,xn sont déterministes.

Observation :Zⁿ= (Y1, . . . ,Yn) de densit´e (par rapport `a Lebesgue sur Rⁿ)

fn(θ,Zⁿ) =

n

Y

i=1

g Yi−r(θ,xi) Information de Fisher:

I(θ|Eⁿ) =−Eθ[∇²_θlogfn(θ,Zⁿ)]

(45)

Information de Fisher et r´ egression (2/3)

Quand le bruit est Gaussien : g(t) = 1

√

2πσ²exp−t² 2σ²

et donc, pour le probl`eme d’estimation deθ`aσ connue, on a I(θ|Eⁿ) =σ⁻²X^>X

On aI(θ|Eⁿ)0 si et seulement siX^>X0. Dans ce cas, l’EMV qui est ici l’EMCθb_n^mc, est Gaussien de matrice de covarianceI(θ|Eⁿ)⁻¹:

θb_n^mc∼ N θ,I(θ|Eⁿ)⁻¹

Ce résultat estnon-asymptotique. D’une autre côté, c’est le

comportement qu’on obtientasymptotiquementpour les EMV dans les modèles d’échantillonnage réguliers.

(46)

Information de Fisher et r´ egression (3/3)

Dans le modèle linéaire Gaussien avec variance inconnue (et design déterministe), on peut calculer l’information de Fisher pour le problème d’estimation du paramètre (θ, σ²). On a

∇²_(θ,σ2)`n

θ σ²

=





−X^>X σ²

−X(Y−Xθ) σ⁴

h₋

X(Y−Xθ) σ⁴

i>

n

2σ⁴ −^k^Y⁻_σ^X6^θk²²





alors

I((θ, σ²)|Eⁿ) = _X^>_X

σ² 0 0 _2σⁿ4

Rem. : la covariance de l’EMV est ici : cov

θb_n^mv

ˆ σ²_n

=

σ²(X^>X)⁻¹ 0 0 ^2σ_n⁴_n−kⁿ

6=I((θ, σ²)|Eⁿ)⁻¹

(47)

Pr´ evision dans le mod` ele lin´ eaire Gaussien

(48)

Pr´ evision

Mod`ele lin´eaire Gaussien

Yi=r(θ,xi) +ξi, i= 1, . . . ,n o`ur(θ,xi) =

θ,xi

etξi i.i.d.

∼ N(0, σ²).

Exemple :xi vecteur de 3 variables explicatives (TV, RADIO, Newspaper) pour le march´ei.

I Problème de prévision: On investit dans un nouveau marché avec x0∈R³. On souhaite estimer les ”SALES” attendus, càd prédire la valeur de la fonction de régression enx0 :r(θ,x0) =

θ,x0

I Soitθbn un estimateur deθ.Pr´evision par substitution : by=r(bθ_n,x₀)

I Question statistique : quelle est la qualité de la prévision ? Intervalle de confiance pourr(θ,x₀) basé surby?

(49)

Pr´ evision : mod` ele lin´ eaire gaussienne

I On prend bθ_n=bθ_n^mc alors la pr´ediction est by =

x₀,θb_n^mc

I Hyp. 1 :ξ∼ N(0, σ²Idn)

I Hyp. 2 :X^>X0

Proposition

(i) yb∼ N x₀, θ

, σ²x^T₀ X^>X−1

x₀ (ii) yb−

x₀, θ

etY−Xθb_n^mc sont ind´ependants Rem. :

x0, θ

=r(θ,x0) est la quantité qu’on cherche à prédire

(50)

Pr´ evision : mod` ele lin´ eaire gaussienne

I D’apr`es Proposition 2,

η:= by−

x0, θ q

σ²x^T₀ X^>X−1

x0

∼ N(0,1)

I On remplaceσ²inconnu pareσ_n²=kY−Xθb_n^mck²/(n−k).

I t-statistique :

t := by− x0, θ q

bσ_n²x^T₀ X^>X−1

x0

∼ g qχ(n−k)

n−k

∼Student(n−k),

(51)

Pr´ evision : intervalle de confiance

Pourq^t₁₋^n−kα

2, le quantile d’ordre 1−α/2 d’une Student(n-k) et la t-statistique

t:= by− x0, θ q

bσ²_nx^>₀ X^>X−1

x₀ on a

P

h|t| ≤q₁₋^t^n−kα 2

i

= 1−α

On obtient ainsi unintervalle de confiance de niveau 1−α (non-asymptotique) pourr(θ,x₀) =

x₀, θ : r(θ,x0)∈h

ˆ

y±q₁₋^t^n−kα 2

q

σb²_nx^T₀ X^>X−1

x0

i

avec probabilit´e 1−α.

(52)

Pr´ evision : bande de confiance

On peut encadrer la droite de régression pardeux arcs d’hyperboles donnant ainsi une région de confiance pour la droite de régression. Sous les hypothèses :

I Hyp. 1 :ξ∼ N(0, σ²Id_n)

I Hyp. 2 :X^>X0 La Proposition 2 assure que

θb_n^mc∼ N θ, σ² X^>X−1 De plusbσ_n²→^P σ², on en d´eduit que

X^>X^1/2

(bθ_n^mc−θ)

2 2

σb²_n

−→d χ²(k).

(53)

Pr´ evision : bande de confiance

On obtient ainsi une zone de confiance asymptotique de niveau 1−α pourθdonn´ee parθb_n^mc+cEα o`u

Ec_α:=

x∈R^k :

X^>X^1/2 x

₂≤bσ_n

q q^χ_1−α²^(k)

etq_1−α^χ²^(k⁾ est le quantile d’ordre 1−αd’uneχ²(k).

bθ_n^mc+cEαest une ellipsoide centrée enbθ_n^mc d’axes et rayons donnés par la décomposition spectrale de X^>X

.

A chaque point ˆθ∈θb_n^mc+cEα, on peut associer la droite de r´egression x→θ,ˆ x

. Ainsi en tra¸cant l’ensemble de toutes ses droites, on obtient une bande de confiance autour de la droite de r´egression.

(54)

Pr´ evision : bande de confiance

(55)

R´ egression lin´ eaire non-gaussienne

(56)

R´ egression lin´ eaire non-gaussienne

Modèle de régression linéaire Yi=

θ,xi

+ξi, i= 1, . . . ,n.

I Hyp. 1’ :ξ_i i.i.d., E[ξ_i] = 0,E[ξ²_i] =σ²>0

I Hyp. 2’ :X^>X>0,lim_nmax_1≤i≤nx^T_i X^>X−1

x_i= 0

Proposition (Normalit´ e asymptotique de l’EMC)

Quand n→ ∞,

σ⁻¹ X^>X^1/2

(bθ_n^mc−θ)−→ N^d 0,Id_k).

A comparer avec le cadre gaussien : pour toutn, σ⁻¹ X^>X^1/2

(bθ_n^mc−θ)∼ N 0,Idk)

(57)

Th´ eor` eme de Gauss-Markov

Cadre : modèle linéaire (notation matricielle) Y=Xθ+ξ oùEξ= 0, Eξξ^> =σ²InetX^>X0.

Th´ eor` eme (Gauss-Markov)

L’estimateur des moindres carr´esθb_n^mc est optimal (au sens du risque quadratique) parmi tous les estimateurs lin´eaires sans biais : siθbn est un estimateur de la formeθbn=AYtel que A∈R^n×k etEθbn =θ alors

E

θb_n^mc−θ

2 2≤E

θb_n−θ

2 2

(58)

R´ egression non-lin´ eaire

(59)

R´ egression non-lin´ eaire

I On observe

(x₁,Y₁), . . . ,(x_n,Y_n), o`u

Y_i=r(θ,x_i) +ξ_i, i= 1, . . . ,n avec

xi ∈R^k, et θ∈Θ⊂R^d.

I Siξi∼i.i.d.N(0, σ²),

Ln(θ,Y1, . . . ,Yn)∝exp

− 1 2σ²

n

X

i=1

Yi−r(θ,xi)² et l’estimateur du maximum de vraisemblanceest obtenu en minimisant la fonction

θ7→

n

X

i=1

Y_i−r(θ,x_i)² .

(60)

Moindre carr´ es non-lin´ eaires

D´ efinition

I M-estimateur associ´e `a lafonction de contraste ψ: Θ×R^k×R→R: tout estimateurθb_n satisfaisant

n

X

i=1

ψ(bθ_n,x_i,Y_i) = max

a∈Θ n

X

i=1

ψ(a,x_i,Y_i).

I Estimateur desmoindres carrés non-linéaires: associé au contraste ψ(a,x,y) =− y−r(a,x)2

.

I Extensiondes résultats dans le modèle d’échantillonnage dominé au cas cas de v.a. indépendantesnon-équidistribuées.

(61)

Mod` ele ` a r´ eponse binaire

I On observe

(x1,Y1), . . . ,(xn,Yn), Yi ∈ {0,1}, xi ∈R^k.

I Mod´elisationvia la fonction de r´egression x7→px(θ) =Eθ

Y|X=x

=Pθ

Y = 1|X=x

I Repr´esentation

Yi =pxi(θ) + Yi−pxi(θ)

=r(θ,xi) +ξi

avec r(θ,xi) =px_i(θ) etξi=Yi−px_i(θ).

I Eθ

ξ_i

= 0 mais structure desξ_i compliqu´ee(d´ependance en θ).

(62)

Mod` ele ` a r´ eponse binaire

I Y_i v.a. de Bernoulli de param`etrep_x_i(θ).

Vraisemblance

Ln(θ,Y1, . . . ,Yn) =

n

Y

i=1

pxi(θ)^Yⁱ(1−pxi θ)1−Yi

→méthodes de résolution numérique.

I R´egression logistique(tr`es utile dans les applications) px(θ) =ψ(

x, θ ), ψ(t) = e^t

1 +e^t, t ∈R fonction logistique

(63)

R´ egression logistique et mod` eles latents

Représentation équivalente de la régression logistique: on observe Yi =I Y_i^?>0

, i= 1, . . . ,n

(lesxi sont donn´es), etY_i^? est unevariable latenteou cach´ee, Y_i^?=

θ,x_i

+U_i, i= 1, . . . ,n avecU_i ^i.i.d.∼ F, o`u

F(t) = 1

1 +e^−t, t∈R. car, pour la fonction logistiqueψ,

Pθ

Y_i^?>0] =ψ(

x_i, θ

) =P[Y_i= 1]

(64)

Mod` ele ` a r´ eponse discr` ete multiples : mod` ele de Poisson

I On observe

(x1,Y1), . . . ,(xn,Yn), Yi ∈N, xi ∈R^k.

I Mod´elisationvia la densit´e deY|X =x : k ∈N7→px(θ,k) =Pθ

Y =k|X=x

I Mod`ele de PoissonY|X =x∼ Poisson(exp(

θ,x

)) : pour tout k ∈N,

Pθ[Y =k|X =x] = λ^k

k! exp(−λ) o`uλ= exp(

θ,x ).

I Eθ[Y|X =x] = exp(

θ,x

),var(Y|X =x) = exp(

θ,x ).

(65)

Test empirique pour le mod` ele lin´ eaire

(66)

Le Rainbow test

Idée :Même si la vrai relation entreY et les covariables n’est pas linéaire, localement on peut imaginer qu’elle l’est (approximation d’ordre de 1 de Taylor). Si on construit une estimateur par moindre carré à partir d’un sous-ensemble de données autour de ¯Xnalors cette régression devrait être assez bonne.

Par exemple :Y =X²+N(0,1)

(67)

Le Rainbow test

On noteθel’estimateur construit `a partir demdonn´ees d’indices I ⊂ {1, . . . ,n}autour de ¯X_n et par ˜y_i =

X_i,eθ

la valeur prédite en X_i. On a donc unR² (coefficient de détermination) donné par

R˜_I²= 1− P

i∈I(y_i−˜y_i)² P

i∈I(yi−¯yI)²

Idée :L’idée centrale duRainbow test est que si le modèle est vraiment linéaire alors l’ajout de données au sous-échantillon (y_i,X_i)_i∈I ne devrait pas trop modifier leR². Par contre, si le modèle n’est pas linéaire alors l’ajout de donnée loin de ¯Xn devrait dégrader leR². La comparaison entre leR²local autour de ¯Xn: ˜R_I²; et leR² de tout l’échantillon est à la base duRainbow test.

Statistic de test du Rainbow test: T = (R²−R˜_I²)

R˜_I²

(m−k) (n−m).

Sous hypothèse de linéarité (modèle linéaire gaussien), on a T ∼F(n−m,m−k)

(68)

Le Rainbow test

Le choix du sous-échantillon pour leRainbow test se fait généralement en prenant lesm>k données les plus proche de ¯Xn pour ladistance de Mahalanobis:

d(x,y) = q

(x−y)^> X^>X

(x−y) =kX(x−y)k₂.

On choisit donc pour sous-ensemble de donn´ees (y_i,X_i)_i∈I l’ensemble de mdonn´ees telles qued(X_i,X¯_n) est la plus petite.

(69)

Autre tests

I Ramsey’s RESET test : “Regression Specification Error Test”

I Harvey and Collier test : for a convex or concave alternative

I Test de Breusch-Pagan sur l’homosc´edasticit´e du terme d’erreur.

I test de Durbin-Watson : tester l’autocorrélation des résidus dans un modèle de régression linéaire.

I F-test (ou test de Fisher) et ANOVA : test d’égalité de variance et de fit du modèle.