Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18

(1)

Statistiques non-paramétriques :

Ch. 3. Économétrie non-paramétrique 2017-18

M2 CEE

Pr. Philippe Polomé, Université Lumière Lyon 2

(2)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Sommaire

Estimation de fonction de densité et probabilité Régression

Modèles semiparamétriques LOESS

(3)

Densités & histogrammes lissés

I

On commence par une analyse non-conditionnelle

I Une régression est une analyse conditionnelle

I Ici on veut la courbe des “y”

I Possiblementy est multidimensionnel

I

On va regarder une façon de présenter un histogramme

I de façon graphique

I en lissant les bords avec un “kernel smoother”

I Smooth : lisser

I Kernel : noyau

I “Densité par lissage noyau”

I ou “densité noyau”

(4)

Histogramme

I

Un histogramme

I est une estimation non-param. de la densitéf (x)d’une vax

I que l’on forme en divisant lesupportdex en intervalles également espacés

I et en calculant la fraction de l’échantillon dans chaque intervalle

I

Dans R

I Données DataFrame cps

I Dans packageAER

I Si vous utilisez le projet “Cours R” du cours de programmation

I vous avez le fichier cps qui est chargé (sur les salaires)

I Fonctionhist( )

I est un basique de R

I pas besoin de charger un package

I hist(cps$wage)

(5)

Histogramme dans R : personnalisations

hist(cps$wage, main="Histogramme du salaire dans cps",

xlab="salaire", border="blue", col="green", xlim=c(0,50), las=1, breaks=10)

I

breaks est le nombre d’intervalles

I Peut changer beaucoup l’aspect

I On y revient + loin

I

Mettre les noms d’axes & de couleurs entre “ ”

I

las sert a changer la présentation des labels sur Y (0,1,2,3)

I

On peut présenter des freq. rel. avec “ freq = F”

I Plutôt que des fréq. abs.

I

On peut ajouter une densité lisse par dessus avec

I lines(density(cps$wage))

I Cette densité lisse est prédéfinie

I On va explorer des méthodes pour la tracer

(6)

Histogramme dans R ! np2017.r

(7)

Eﬀet de la bandwidth dans un histogramme ! np2017.r

hist(cps$wage, breaks=10)

I

breaks est le nombre d’intervalles

I Donc de leur largeur, appelébandwidth

I

Exercice

I Ajuster le nombre d’intervalles

I Changer la couleur (rcolor.pdf sur google)

(8)

Estimateur Histogramme

I

Plus formellement, dans un histogramme,

I on veut estimer la densitéf(x₀)d’une v.a. scalaire continuex

I évaluée enx0

I

Si on a un échantillon

{xi,i =

1

, ...,N},

I l’estimateur histogrammedef (x₀)est fˆ_hist(x₀) = 1

N XN

i=1

1(x₀ h<x_i<x₀+h) 2h

I 2hest la longueur de l’intervalle

I base du rectangle

I 1(A)est une fonction indicatrice=1 siAarrive et 0 sinon

I Donc : on compte le nbr d’obs.autourdex0dans un rayonh

I C’est un estimateurlocalcar il n’utilise que de l’info locale

(9)

Densité noyau

I

Cette procédure amène à une

estimation de la densité

qui est en escalier

I Même si la véritable densité est lisse

I

On réécrit l’estimateur Histogramme comme

fˆ_hist(x₀) =

1

Nh XN i=1

1 2

1

✓|xi x₀| h <

1

◆

I

L’estimateur

densité noyau

DN généralise cette définition

I en remplaçant la fonction1(.)par une alternativeK(.) fˆNOYAU(x0) = 1

Nh XN

i=1

K

✓x_i x₀ h

◆

I K(·)est dite “fonction noyau” (kernel)

I un “kernel” est simplement une fonction de pondération

I hest appelé largeur de bande

I Paramètre de lissage oubandwidth

(10)

Densité noyau

I

Un estimateur noyau d’une densité

I est donc une version lisse de sonhistogramme

I évaluéeen chaque pointde l’échantillon

I au lieu de quelques points comme dans l’histogramme I

Il s’agit d’un

estimateur

de la fonction de densité

I souvent appelé Rosenblatt–Parzen

I Rosenblatt (1956), Parzen (1962)

(11)

Densité noyau

I

La fonction noyau

K

est positive, intégrable et à valeurs réelles

I Souvent sym autour de 0, on notez = ^{x x}_h⁰

I L’uniforme ¹₂1(|z|<1)correspond à l’histogramme

I Quadratique ³₄ 1 z² 1(|z|<1)

I Gaussienne(0,1):(2⇡) ^1/2exp z²/2

I Gaussienne µ, ² :(2⇡) ^1/2exp✓ ⇣z µ⌘2

/2

◆

I Le choix (arbitraire) du noyau est réputé comme peu influent sur l’estimateur

I h, le paramètre de lissage, est plus diﬃcile à choisir

I Le + petit le + lisse

I Mais trop petit, il provoque l’apparition de détails artificiels sur le graphe

I car trop peu de données entrent dans l’intervalle

I Trop grand, la majorité du relief est eﬀacée

(12)

Kernel smoother : Exemple density

I

density(x, bw = "nrd0", kernel, n = 512)

I x : vecteur des données

I bw : le choix de la bandwidth

I Pls “rules of thumb” :SJbased on derivatives,nrd0(défaut, mais pour raisons de compatibilité),ucv(unbiased

cross-validation),bcv(biased cross-validation)

I On verra + loin la cross-validation

I kernel =

I "gaussian", "epanechnikov", "rectangular", "triangular",

"biweight", "cosine", "optcosine"

I n : nbr des points equidistants auxquels estimer le kernel

“gridsize”

I On pourrait estimer en chaque point de l’éch.

I

On va utiliser plot pour comparer les options de density

(13)

Kernel smoother : Autre exemple bkde

I

Charger/installer le package KernSmooth

I Comme dans le cours de programmation

I library("KernSmooth")

I

wage_bkde <- bkde(cps$wage, kernel = "normal", bandwidth=1)

I bkde : Binned Kernel Density Estimate

I Utiliser la variable “wage” dans le DataFrame cps

I Kernel (noyau) : normal (arbitraire)

I Autres : box, epanech, biweight, triweight

I Bandwidth : 1 (arbitraire)

I défaut : un calcul à partir de la variance de x I

lines(wage_bkde)

I On voit que bkde est comme density

I plot pour comparer les options de bkde & de density

(14)

plot(bkde(cps$wage, kernel = "normal", bandwidth=1))

I

Dans les 2 cas, density & bkde

I On voit que le bandwidth impacte beaucoup

I Par contre, le kernel lui-même n’impacte pas beaucoup

I La gridsize ne change que la question du dessin et n’impacte pas la forme de la courbe

I

Quelques options de présentation de plot

I plot(wage_bkde, col=rev(rainbow(400, s = 1, v = 1, start = 0, end = max(1,400 - 1)/400, alpha = 1)), xlab = "wage", ylab="density")

I La couleur reflète la valeur de wage pas celle de density I

Diapo suivante : généraliser à deux dimensions

I Cfr cours Prog dans R

(15)

Kernel smoother : Exemple 2D ! np2017.R

I

Densité des observations en bivarié

I bivariatebinned kernel density estimatorbkde2D( )

I

cps_bkde <- bkde2D(cbind(cps$experience, log(cps$wage)), bandwidth=c(3.5, 0.5), gridsize=c(200, 200))

I Il faut choisir la bandwidth et la taille de la grille sur chacune des 2 dimensions

I expérience & log(wage)

I gridsize en 2D

I

image(cps_bkde$x1, cps_bkde$x2, cps_bkde$fhat, col=rev(gray.colors(10, gamma=1)), xlab = "experience", ylab="log(wage)")

I “heatmap” / courbes de niveau

I

Exercice

I Récupérer les données CPS1988 du package AER

I Essayer de trouver la meilleure représentation en 1D et 2D

I En changeant la bandwidth et/ou le kernel

(16)

Interpréter les densités

I

Sur le fond, la densité noyau (univariée) est une ligne

I que l’on dessine

I qui s’ajuste d’une certaine manière au nuage de points

I concrètement : elle représente la fréquence locale en chaque point

I

On est proche d’une logique de régression

I Il faut conditionner

I Il y a d’autres façons de dessiner

I Splines, “nearest neighbor”, “neural network”...

I Dans ce cours, on reste sur le noyau.

(17)

Choisir la bandwidth

Sommaire

Estimation de fonction de densité et probabilité

Choisir la bandwidth Estimation d’une densité conditionnelle

Régression

Kernel Local Constant KLC Kernel Local Polynomial KLL

Exemples

Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé

Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS

(18)

Propriétés de l’estimateur noyau univarié

I

En 1D, 2D ou plus,

I La fonction kernel doit se comporter comme une densité

I de moyenne nulle

I et de variance finie Z

K(z)dz=1 Z

zK(z)dz=0 Z

z²K(z)dz=2<1

I Le support est généralement 1,+1

(19)

Erreur carrée moyenne (mean square error) MSE

I

Les fonctions noyau sont svt choisies sur un critère de MSE

I

Le bias de l’estimateur

fˆNOYAU(x)

est

fˆ(x) f (x)

(on laisse tomber “NOYAU” quand il n’y a pas confusion)

I

La MSE est

msefˆ(x) =E biais² =varfˆ(x) +biais²

on peut montrer que

biaisfˆ(x)t h²

2

@f (x)

@x² ₂ varfˆ(x)t f (x)

nh Z

K²(z)dz

(20)

Erreur carrée moyenne (mean square error) MSE

I

On voit que

I La variancediminueavec la bandwidthh

I Le biaisaugmenteavec le carré de la bandwidthh

I Le biais augmente avec la dérivée 2ºde f()

I il est donc au + fort autour du/des pics de la distribution I

Ces formules ont lieu en un point

I

On peut intégrer le mse sur

z

pour obtenir une mse globale

imsefˆ(x) =

Z

msefˆ(x)dx

I

On cherche le kernel

K

et la bandwidth

h

qui minimisent

imse

(21)

Erreur carrée moyenne (mean square error) MSE

I

Le Kernel optimal est

Ke(z) = ( ₃

4p

5

1

¹₅z² p

5

z p

5

0

sinon

qu’on appelle kernel d’Epanechnikov du nom de son inventeur

I

Il se fait que pas mal de kernels ont des propriétés semblables

I donc le kernel est souvent choisi pour des raisons informatiques

I le kernel gaussien est le + souvent choisi

(22)

Choix de bandwidth

I

Au contraire du Kernel,

I l’optimisation précédente n’amène pas à une bandwidth utilisable en pratique

I Mais la bandwidth détermine l’ajustement bien plus que le kernel

I

Il est important d’en choisir une appropriée au problème traité

I Il y a 4 grandes approches 1. Heuristique (rule of thumb) 2. Plug-in – je ne poursuis pas 3. Validation croisée

3.1 par Moindres Carrés

3.2 par Maximum de Vraisemblance 4. Bootstrap

(23)

Heuristique “référence”

I

Le principe est d’utiliser le kernel choisi pour calculer la bandwidth optimale

I

Comme souvent ce kernel est le kernel gaussien

I Ça donne une bandwidth de 1.06 n ^1/5

I nest la taille d’éch.

I est l’écart-type de la normale utilisée dans le kernel

I en pratique, on prendˆl’écart-type de l’échantillon

(24)

Autres méthodes

I

Validation croisée par Moindres Carrés

I Il est possible d’estimer le imse à partir de l’éch.

I Cet imse dépend du bandwidth

I On peut alors choisir le bandwidth qui minimise l’imse

I Cette approche est la meilleure de celles présentées

I mais est sensible à de petites variations des données (arrondis...)

I

Validation croisée par Maximum de Vraisemblance

I Même idée que la précédente, autre façon d’estimer le imse

I Tend à sur-lisser (gommer les variations)

I

Par bootstrap

I Toujours l’idée d’estimer le imse

I Trop exigeante sur le plan calculatoire

(25)

Conclusion

I

On pourrait poursuivre avec

I Comment estimer une densité discrète

I Comment estimer une multivariée

I Illustration graphique prochaine dia I

On va plutôt passer à l’analyse conditionnelle

I Prélude à la régression

I

Sur l’estimation d’une densité inconditionnelle

I La comparaison n’est pas tellement “paramétrique” vs. np

I car paramétrique est souvent mal spécifié, donc inconsistant

I alors que np ne peut pas être mal spécifié

I mais par contre est assez ineﬃcient

(26)

Estimations de densités multivariées par np dans R

I #### dynamic bivariate density plot avec donnees simulees

I Exécuter le programme

I Sélectionner tout le progr

I jusque#### FIN dynamic bivariate density plot simulation normales

I et “run”

I Mettez en grand la fenêtre de sortie (zoom ou agrandir manuellement)

I ‘sliders’ and ‘pickers’ qui permettent de changer

I kernel function & order (une propriété math du kernel qu’on ne voit pas)

I scale factors (la bandwidth est calculée automatiquement, scale factor prend une part de cette bandwidth, donc équivalent à la bandwidth)

I azimuthal viewing direction (point de vue)

I number of training (essentiellement = gridsize)

I number of evaluation observations (taille de l’éch.) I #### dynamic bivariate density plot avec donnees réelles

Geyser

I Idem sur données réelles

(27)

Estimation d’une densité conditionnelle

Sommaire

Régression

Exemples

(28)

Estimation d’une densité conditionnelle

I

La densité conditionnelle est sous-jacente à l’analyse de régression

I Mais est rarement modélisée directement

I En np, il est plus clair de passer par cette étape

I

Soit

f (.)

la densité jointe de

(X,Y)

I pour rappelPr{X x,Y y}=RxRy

f (.)dydx =f(x,y)

I µ(.)la densité marginale de X

I µ(.) =R f(.)dY

I “integrateY out”

I

Pour la suite,

I Y est la variable dépendante

I est expliquée

I X est un régresseur

I est explicative

(29)

Densité conditionnelle

I

La densité conditionnelle est

Pr{Y y|X x}=g(y|x) =f (x,y)/µ(x)

I

L’estimateur noyau de cette densité est

ˆ

g(y|x) = ˆf (x,y)/µˆ(x)

I µˆ(x)est l’estimateur noyau univarié vu à la section précédente

I fˆ(x,y)est une extension bivariée de cet estimateur

I Il faudrait discuter le choix de bandwidth

I La commande correspondante de np estnpcdensbw

I Conditionnal DENSity avec BandWidth par cv.ls (cross-validation par Least squares)

I En général, on n’utilise pas directement cette commande, qui est appelée par d’autre procédures

(30)

R #### Least-squares cross-validated conditional density estimation

I

On génère (via une normale bivariée)

I n <- 500

I rho <- 0.25pour sigma ci-dessous

I mu <- c(0,0)moyenne des variables a generer

I Sigma <- matrix(c(1,rho,rho,1),2,2)matrice de var-cov des variables a generer

I donc ici : générer un normale bivariée dont le mu contient 2 moyennes nulles (dist. marg.) et sigma indique une matrice avec des variance a 1 et des cov a rho=.25

I rem. les deux chiﬀres qui suivent dans sigma indiquent "2L 2C"

I data <- mvrnorm(n=n, mu, Sigma)genere des valeurs d’une normale multivariee

I mydat <- data.frame(x=data[,2],y=data[,1])

I y et x dont la corrélation est contrôlée par rho I

Ensuite npcdensbw va estimer

gˆ(y|x) = ˆf (x,y)/ˆµ(x)

I Prend un peu de temps, selon la machine

I

Output graphique essentiellement

I (x, y, densité)

I on doit voir un graphique qui tourne

(31)

Exercice

I

Pour voir comment la relation entre x et y change, changer les paramètres de la normale bivariée

I corrélation rho élevée, ou

I moyennes mu non-nulles

I variances fort diﬀérentes (à l’intérieur de sigma)

(32)

Régresseurs non-pertinents

I

Pour estimer une fonction

g(y|x) =f (x,y)/µ(x)

I conditionnelle à pls régresseursx vecteur

I il faut intégrer autant de fois que de régresseurs

I pour obtenir la distribution multidim. des régresseurs I

On peut montrer que la convergence de

fˆ(.)

à

f (.)

I se détériore rapidement lorsque le nombre de variables continue augmente

I “malédiction de la dimensionalité”

I

Il est donc particulièrement important en np

I d’éviter les régresseurs non-pertinents

I Idéalement, ils sont “smoothed out” :

I Pour unx non pertinent, le graphe dey reste le même pour tous les niveaux dex

(33)

Régresseurs non-pertinents

I

Hall et al. (2004) montre que

I Une version de la validation croisée par MC

I assigne automatiquement un fort paramètre de lissage aux régresseurs non-pertinents

I leur dist. marginale tend à l’uniforme

I cela supprime leur contribution à la variance de l’estimateur

I et donc montre qu’ils sont indép. de la variable expliquée

I Les variables pertinentes par contre sont lissées de façon usuelle

I Pas vers l’uniforme

I

Donc choisir la validation croisée par MC

I permet de trier les régresseurs pertinents et non.

(34)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Sommaire

Estimation de fonction de densité et probabilité Régression

Modèles semiparamétriques LOESS

(35)

Kernel Local Constant KLC

Sommaire

Régression

Exemples

(36)

Cas bivarié

I

Cet estimateur de régression est connu aussi sous le nom

“Nadaraya–Watson”

I de ceux qui l’ont proposé

I

On ne prend qu’un régresseur pour commencer

I par simplicité de notation

(37)

Moyenne conditionnelle g ˆ (x )

I

Par définition, la moyenne conditionnelle de

Y

continue est

g(x) =

Z

yg(y|x)dy = Z

yf (y,x)

f (x) dy = m(x) f (x)

où

g(y|x)

est la densité conditionnelle de la section précédente et

m(x) =R

yf (y,x)dy

une moyenne “partielle”

I

L’estimateur Kernel Local Constant KLC

I est celui défini à la section précédente

ˆ g(x) =

Z

yfˆ(y,x) fˆ(x) dy=

Pn i=1y_iK

✓x_i x h

◆

Pn

i=1K

✓x_i x h

◆

I c’est un estimateur consistant de la moyenne conditionnelle

(38)

Biais et variance

I

L’estimateur Kernel Local Constant KLC

I souﬀre de “biais sur les bords”

I p.e. on peut calculer dans le cas bivarié que

biais th² 1

2g⁰⁰(x) +g⁰(x)f⁰(x) f (x)

!

₂

I Quand on approche du “bord” des données

I f(x)!0 donc le biais augmente

I Ce problème n’est pas partagé par l’estimateur “polynome local” de la section suivante car le 2ºterme à l’intérieur de la parenthèse disparait dans le cas linéaire

(39)

Bandwidths : optimale et basée sur données

I

La bandwidth optimale de l’estimateur KLC

I dépend de quantités inconnues, comme précédemment

I Elle ne peut être calculée dans le cas de régression

I On va donc utiliser une bandwidth basée sur les données

I

Deux calculs de bandwidth basés sur les données

I Sont populaires

I Validation croisée moindres carrés (cfr section précédente)

I Minimiser le critère d’information d’Akaike (Hurvich)

I On a montré qu’ils sont asymptotiquement équivalents

(40)

Régresseurs pertinents et non-pertinents

I

Il a été montré (cfr sect. densité cond.) que

I la validation croisée par MC

I mène à un lissage optimal des 2 types de régresseurs

I Les non-pertinents n’ont plus d’eﬀet sur la variance de l’estimateur

I

La malédiction de la dimensionalité

I implique que les non-pertinents doivent être retirés de la régression

I afin de réduire le bruit autour des pertinents

(41)

Eﬀets marginaux avec KLC “ ˆ (x )”

I

On appelle “eﬀet marginal” ou “réponse”

I L’eﬀet dex surg(x) =R

yg(y|x)dy

I donc sur la moyenne conditionnelle dey

I Par analogie avec le modèle de régression linéairey =x +✏

I on appelle cette réponse (x) I (x) =@g(x)

@x = f (x)m⁰(x) m(x)f⁰(x) f²(x)

I puisqueg(x) = m(x) f(x)

I donc (x) = m⁰(x)

f (x) g(x)f⁰(x) f (x)

I

On remplace par les estimations de ces valeurs

(42)

Eﬀets marginaux avec KLC “ ˆ (x )”

ˆ (x) = mˆ⁰(x)

fˆ(x) gˆ(x)fˆ⁰(x) fˆ(x)

avec

ˆ

m(x) = 1 nh

Pn i=1y_iK

✓x_i x h

◆

fˆ(x) = 1 nh

Pn

i=1K

✓x_i x h

◆ ˆ

m⁰(x) = 1 nh²

Pn i=1y_iK⁰

✓x_i x h

◆

fˆ⁰(x) = 1 nh²

Pn i=1K⁰

✓x_i x h

◆

I

L’eﬀet marginal n’est jamais constant

$

régression linéaire

I On verra mieux dans les exemples

I

En multivarié (plusieurs régresseurs)

I C’est plus compliqué, mais le fond est le même

(43)

Conclusion sur Kernel Local Constant

I

On a donc un estimateur de

régression

np

I à Validation croisée moindres carrés

I qui fait que

I les régresseurs non-pertinents disparaissent d’eux mêmes

I on peut calculer les eﬀets marginaux ˆ (x) I

On va voir un autre estimateur

(44)

Kernel Local Polynomial KLL

Sommaire

Régression

Exemples

(45)

Analogie

I

Le KLC peut être réécrit comme minimisation de

ˆ

g(x)⌘min

a

Xn i=1

(yi a)K

✓xi x h

◆

I

On généralise en mettant un polynome à la place de

a

I Le plus populaire est le linéaire ˆ

g(x)⌘min

a,b

Xn i=1

(y_i a b(x_i x))²K

✓xi x h

◆

qui s’interprête en disant qu’autour d’un pointx₀, la régression est approx. linéaire

g(x₀)ta+b(x₀ x)

I C’est l’estimateur Kernel Local Polynomial (ou Linéaire)

I KLP ou KLL

(46)

Propriétés

I

Le terme

a

est alors la moyenne conditionnelle

g(x)

I Comme l’intercept dans une régression linéaire

I

Le terme

b

est la pente,

I donc l’eﬀet d’un changement marginal dex surg(x)

I c’est-à-dire le ˆ (x)de l’estimateur KLC

I

Cet estimateur KLP souﬀre moins du “biais de bord” que KLC

I mais est sujet à des problème de singularité (= n’est pas défini)

I lorsqu’il y a localement peu de données I

On peut calculer des biais et variances approximés

I comme avec KLC

I

Les régresseurs non-pertinents

I ne disparaissent pas d’eux-mêmes

I ne sont pas “smoothed-out” comme avec KLC

I provoquent une variabilité excessive

(47)

Exemples

Sommaire

Régression

Exemples

(48)

Exemples

Ex 1. Régression sur données simulées #### Regr. sim.

I

Génération des données

I n <- 50Ech de taille 50

I x <- sort(runif(n))runif : suﬃxe r pour donnees sim, unif pour uniforme

I x.seq <- seq(0,1,length=1000)séquence de 1000 chiﬀres de 0 à 1, servira à faire des graphes

I y <- sin(2*pi*x) + rnorm(n,sd=0.25)valeurs simulées de y

(49)

Exemples

Ex 1. Régression sur données simulées #### Regr. sim.

I

Régressions np

I Calcul des bandwidths

I bw.lc <- npregbw(y~x,regtype="lc")y~x, kernel local constant

I bw.ll <- npregbw(y~x,regtype="ll")idem, kernel local linéaire

I Commandenpreg

I model.lc <- npreg(bws=bw.lc,gradient=TRUE)il faut donner la bandwidth

I les points de données sont appeles "training points"

I gradient = trueindique que les gradients (donc les pentes, les betas) sont stockes dans un objet "npregression"

I summary(model.lc)la sortie, assez fruste, pas de coef estimé par définition

(50)

Exemples

Ex 1. Regression sur données simulées

I

Premières sorties graphiques

I plot(x,y,cex=0.2)les données

I lines(x.seq,sin(2*pi*x.seq),col="black",lty=1)les y sans erreur (bruit)

I lines(x,sin(2*pi*x),col="red",lty=1)idem mais sur les n=50 points de l’ech.

I lines(x,fitted(model.lc),col="red",lty=2)y ajustes avec lc, fitted(model.ll)

I gˆ(x)= estimation de l’espérance cond. de y|x

I “biais de bord”

I lines(x,fitted(model.ll),col="blue",lty=3)y ajustes avec ll - assez proche

I pls comparaisons avec moindres carrés

I

Exercice. Répétez le programme en changeant

I la taille d’éch. à 100

I la façon de générery

I p.e. comme la somme ou le ratio de 2 normales pour avoir une dist. bimodale

(51)

Exemples

Ex 1. Regression sur données simulées

I

Deuxième sortie graphique

I gradient ˆ (x) =@gˆ(x)

@x en fonction de x : non-linéaire

I

plot(x,2*pi*cos(2*pi*x),ylab="dy/dx",col="black",type="l",lty=1) (x)"réel" dy/dx

I lines(x,gradients(model.lc)[,1],col="red",lty=2) ˆ (x)estimé par lc

I lines(x,gradients(model.ll)[,1],col="blue",lty=3) ˆ (x)estimé par ll

(52)

Exemples

Ex 1. Regression sur données simulées

I

Troisième sortie graphique : Eﬀet de la bandwidth

I bw.lc$bw[1] <- 1e05Change la bandwidth : bcp trop grande

I bw.ll$bw[1] <- 1e05

I model.lc <- npreg(bws=bw.lc,gradient=TRUE)Recalculer les régressions à p. de ces bandwidths

I model.ll <- npreg(bws=bw.ll,gradient=TRUE)

I Graphique

I plot(x,y,cex=0.2)Les données

I lines(x.seq,sin(2*pi*x.seq),col="black",lty=1)les y sans erreurs

I lines(x,fitted(model.lc),col="red",lty=2)valeurs ajustées : droite plate

I lines(x,fitted(model.ll),col="blue",lty=3)valeurs ajustées : droite pente nég.

I On voit pourquoi on appelle aussi les régressions np

“scatterplot smoothing”

I Elles aident à voir les relations entre variables

(53)

Exemples

Ex. Comparaison de méthodes de choix de Bandwidth

I #### Regr. bandwidth

I

5 bandwidths

I 1 plug-in du package KernSmooth

I Avec la commande locpoly de régression np de ce package

I Pour les 4 autres, commandenpregbwdu package np

I servant à optimiser la bandwidth

I 2 arbitraires à partir du package np sans optimiser, avec Local Linear

I On prend un chiﬀre en lien avec la mesure du régresseur

I On divise : “undersmoothed bandwidth” trop fine! ajustement trop collé aux données

I On multiplie “oversmoothed badnwidth” trop large!faible ajustement

I 2 optimales selon package np, avec cross-validation : Moindres carrés et AIC

I Ce sont les 2 cross-validations fournies par le package I

Plot en 4 tableaux

I Regroupe les 2 cv

(54)

Exemples

Ex. Comparaison de méthodes de choix de Bandwidth

I

Exercice

I Séparer le plot des 2 cv en 2 et supprimer le plug-in

I Changer les 2 bw arbitraires under et over pour les rapprocher

I Comparer avec lc au lieu de ll

(55)

Exemples

Et le t ?

I

Comment voit-on la significativité de l’eﬀet marginal ?

I

Les graphes mettent des intervales de confiance

I On va voir ça dans le prochain exemple

I

La section suivante “Test d’hypothèse consistant”

I présente des tests formels (non graphiques)

(56)

Exemples

Ex. Multivariate Mixed-Data Application

I #### 3.2.3.c Ex. regr. mixte (cont. & cat) Part 1

I Graphique en 3D et en perspective

I npudensbw(~lwage+ordered(numdep),data=wage1)calcule la bandwidth pour une bivariee (les 2 var sont a D du ~)

I Pq ordered ? pcq + loin on utilise pour le graphique, il faut que les natures des variables restent les mêmes

(57)

Exemples

Ex. Multivariate Mixed-Data Application

I #### 3.2.3.c Ex. regr. mixte (cont. & cat) Part 2

I On calcule un bandwidth pour la régression de lwage sur female, married, educ, exper, tenure

I Pas besoin de exper^2 c’est la régression qui regarde la relation

I La bandwidth diﬀère par régresseur

I Graphique de la moyenne conditionnelle de y à chaque niveau du régresseur

I On voit les eﬀets “classiques” : salaire plus bas pour les femmes, rendement décroissant de l’exp. (plus prononcé que d’habitude à cause de tenure sans doute)

I Constater graphiquement que la significativité n’est pas constante puisque l’intervalle de confiance évolue selonx

I Graphique du gradient

I Évolution du “coeﬃcient” ˆ (x)en fonction du x

I Avec sont intervalle de confiance graphique

(58)

Exemples

Exercice

I

Répliquer en changeant la CV ou le kernel (LC au lieu de LL)

I

Répliquer avec les données bwages du package Ecdat

(59)

Tests d’hypothèses

Sommaire

Régression

Exemples

(60)

Intro

I

On ne revient pas sur les tests np de la 1º partie du cours

I il s’agit de tests en contexte de régression

I

Soit tester une spécification paramétrique

I Permet de justifier une approche np

I

Soit tester la significativité des régresseurs d’une régression np

I l’équivalent des t-stats

I Un régresseur parmi pls

I On n’a pas d’équivalent au testF

(61)

Un test de significativité pour des régressions np

I

Il y a pls approches

I On prend ici celle de Racine qui accepte des régresseurs continus & cat.

I

On va regarder d’abord cat.

I puis continu

(62)

Un test de significativité : régresseurs catégoriques

I

Soit

I z le régr. cat qui peut être non-pertinent

I X tous les autres régresseurs

I L’hyp. nulle est

H₀:E(Y|X,z) =E(Y|X) presque partout

L’alternative est que l’égalité est en fait6=(2-tailed)

I

Pour simplifier on écrit

I g(x) =E(Y|x)etm(x,z) =E(Y|X,z)

I disons que z prendc valeurs dont la 1ºest zéro

I sic=2, z est une dichotomique, le cas le + fréquent

I H₀peut alors s’écrirem(x,z =l) =m(x,z =0)8l

(63)

Un test de significativité : régresseurs catégoriques

I

La stat de test est un estimateur de

I =

c 1

X

l=1

En

[m(x,z =l) m(x,z =

0)]

²o

I

Pour la calculer

I On prend les valeurs estimées par KLC ou KLL dem

I On somme sur toutes lesl6=0

I et sur toutes les obs.

I On voit bien queI 0

I et quez est non signif. siI est proche de zéro I

Il n’y a pas de distribution connue

I Il faut faire du bootstrap

I Mis en oeuvre dansnpsigtest( )

I On verra dans l’exemple

(64)

Un test de significativité : régresseurs continus

I H₀

est la même,

I mais “presque partout”

I car on a en quelque sorte1catégories

I Équivalent à @E(y|x,z)

@z = (z) =0 presque partout

I

La stat de test est un estimateur de

I =En

[ (z)]²o

I On calcule son estimation KLC ou KLLI_n=¹_nPn

i=1ˆ (z_i)²

I Comme dans le cas catégorique, la dist. deI_n est inconnue

I On utilise bootstrap

(65)

Ex. Regression mixte (cont & cat.)

I

On poursuit l’exemple précédent – part 3

I #### 3.2.3.c Ex. regr. mixte (cont. & cat)

I # Part 3 Tests de significativite

I On avait estimé

I bw.all <- npregbw(formula=lwage~factor(female)+

factor(married)+ educ+ exper+ tenure, regtype="ll", bwmethod="cv.aic", data=wage1)

I En pratique, le test est simple

I on passe l’objet bandwidth de la régression associée

I Par contre le temps de calcul est plus long I

Le package

I distingue le cat et le cont

I fait le test adéquat

I

Pas de test sur plusieurs coef conjointement

(66)

Tester une spécification paramétrique

I

On veut tester si un modèle

param. est correct H₀ : E(Y|x) =m(x, ₀)

pour presque tous les

x

pour un certain

0

vecteur

(p⇥

1) de paramètres

et

m(x, )

une fonction connue (possiblement non-linéaire)

I

En définissant

µi =yi m(xi, ₀)

alors on peut écrire

Ho : E(µi|xi) =

0 pour presque toutes les valeurs possibles de

x

(67)

Tester une spécification paramétrique

I

Un test consistant de spécification du modèle paramétrique peut être construit

I sur la base des résidus du modèle paramétrique ˆ

µi =yi m(xi,ˆ)

I en estimantE(µi|xi)de manière non-paramétrique

I au moyen d’une technique de bootstrap

I

La stat calculée se nomme

Jn

I Mis en oeuvre dansnpcmstest( )

I Il faut d’abord estimer soit unlmsoit unglm

I ley doit être continu, donc pas probit, logit, Poisson

I en précisant les arguments x=TRUE, y=TRUE qui font que x et y vont être stockés dans l’objet résultat

I Ensuite il faut stocker lesxdans un dataframe

I npcmstestprend comme arg l’objet résultat du modèle param., lex et ley

I On peut employersummarysurnpcmstest

I Si on R H0, le modèle param est mal spécifié

(68)

Ex. Tester une spécification paramétrique

I

On poursuit l’exemple précédent – part 4

I #### 3.2.3.c Ex. regr. mixte (cont. & cat)

I # Part 4. Test de specification param.

I On prend un modèle linéaire classique du modèle np qu’on a estimé auparavant

lwage= ₀+ ₁Femme+ ₂Marie´+ ₃Educ+ ₄Exp+ ₅Tenure Rem. Tenure = durée dans l’emploi actuel

I Ici, on obtient une p-valeur <5% largement

I R le modèle linéaire I

Exercice

I Refaites le test en ajoutant l’exp. quadratique

(69)

Qualité de l’ajustement

Sommaire

Régression

Exemples

(70)

Qualité de l’ajustement (Goodness-of-Fit)

I

Essentiellement, une mesure de

R²

en np

R² = [Pn

i=1(yi y) (ˆ¯ yi y¯)]² P_n

i=1(yi y)¯ ²P_n

i=1(ˆyi y¯)² ˆ

yi

est la valeur ajustée de

yi

I doncˆg(xi)

I

0

R² 

1

I 1 est un ajustement parfait

I 0 aucun pouvoir prédictif au-delà de la moyenne inconditionnelle

I Cette mesure est un des produits de la commandenpreg

I accessible parR2etsummary I

Dans le cas d’un modèle linéaire

I estimé par MCO avec un intercept

I Cette définition duR² produit le même chiﬀre que la définition classique

I basée sur les résidus

(71)

Régression np – résumé de l’approche kernel

I

D’abord il faut calculer une bw

I bw.all<- npregbw

I on peut préciser ici LL ou LC & la cross-validation I

Ensuite la régression

I model.np <- npreg(bws=bw.all)

I summary(model.np) présente la qualité de l’ajustement

“R-squared”

I À ce stade on peut “plot”

I avec les marges d’erreur I

Puis les tests

I Significativité des régresseurs

I Spécification paramétrique

I Si celle-ci n’est pas rejetée, mieux vaut l’utiliser, car + eﬃciente

(72)

Modèles à données de panel

Sommaire

Régression

Exemples

(73)

Rappel

I

Un panel est une coupe transversale répétée dans le temps

t

I en principe sur les mêmesi

I sauf attrition, qu’on suppose non-endogène

I Pour simplifier tous lesi sont observésT fois

I Je ne suis pas sûr que tous les modèles aient été développés des panels non-cylindrés

I

Lorsque

T

est grand

I chaque série dei peut être analysée séparemment en séries temp.

I qu’on ne voit pas pour np

I

Donc, on se place en panels courts :

n! 1

mais

T

cst

I

Les données de panel sont notées

hyit,xiti

(74)

Panels non-paramétriques

I

Dans le modèle panel linéaire

yit=↵_i +x_it⁰ +✏_it

on pouvait accepter que

I ↵i soit la partie constante dans le temps, pari, du terme d’erreur

I qu’elle soit corrélée avecxit (les “eﬀets fixes”)

I car on pouvait s’en débarrasser par les estimateurs within ou diﬀérence 1º

I Cette hyp. d’additivité de l’hétérogénéité inobservée

I Fait disparaitre les régresseurs constants dans le temps I

En np, on n’a pas d’hyp. d’additivité

I Une série d’estimateurs a été proposée

(75)

Panel dans np

I

Le package np propose l’estimateur suivant

I

Soit le modèle np

yit =g(xit) +uit

g(.)

est une fonction lisse inconnue

x

contient

q

régresseurs

E(uit|x_i1, . . . ,xiT) =

0 exogénéité stricte

I

On introduit l’hétérogénéité inobservée constante dans le temps

I par une variable discrète non-ordonnée

i=i,i =1, ...,n

ce qui introduit de faitncatégories qui ressemblent au↵_i du model panel

I xit!(zit, i)

I Ces cat nous rapprochent du contexte de la régression np

I avec un mélange de régresseurs cat. et continus

(76)

Panel dans np

I

Si le “régresseur” catégorique n’est pas significatif

I g(z_it, _i) =g(z_it): Les données sont de fait mélangées

I npsigtest( )permet ce test

I

Par contre, s’il est significatif

I Les pentes pari sont diﬀérentesg(z_it, i) =g_i(z_it)

I Donc les données de diﬀérents i ne sont pas mélangeables

I

L’analyse Panel n’est donc pas complètement implémentée dans np

I Car l’endogénéité ne parait pas traitée / éliminée comme avec eﬀets fixes

I mais np apporte un complément d’analyse

(77)

Ex. Panel dans np

I #### Ex. regr. panel

I

Panel annuel sur les coûts de 6 cies aériennes US

I 15 ans 1970 à 1984 (cylindré)

I airlinei traité comme factor non-ordonné

I yeart factor ordonné

I log of cost lcost, log output (passagers⇥miles), log prix fuel lpf, “load factor” lf capacité utilisée moyenne de la flotte

I

BW : petite pour “airline”

I suggère de ne pas mélanger les données

I Donc de faire pls séries temp

I npsigtestsemble produire des résultats aberrants (significativité extrême)

I Mais il faudrait un test qui tienne compte de la structure d’hétéroc. & de correl.

I

Dans le plot diapo suivante

I On voit un eﬀet marqué par airline (t↵i)

I et des pentes plutôt linéaires

I au total, plutôt favorable au modèle param. linéaire classique ?

(78)

Panel dans np – exemple

(79)

Exercice

I

Répliquer en utilisant les données Grunfeld du package plm

I En changeant CV ou kernel (LC / LL)

(80)

Résumé

Sommaire

Régression

Exemples