• Aucun résultat trouvé

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18

N/A
N/A
Protected

Academic year: 2022

Partager "Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18"

Copied!
123
0
0

Texte intégral

(1)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18

Statistiques non-paramétriques :

Ch. 3. Économétrie non-paramétrique 2017-18

M2 CEE

Pr. Philippe Polomé, Université Lumière Lyon 2

(2)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Sommaire

Estimation de fonction de densité et probabilité Régression

Modèles semiparamétriques LOESS

(3)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Densités & histogrammes lissés

I

On commence par une analyse non-conditionnelle

I Une régression est une analyse conditionnelle

I Ici on veut la courbe des “y”

I Possiblementy est multidimensionnel

I

On va regarder une façon de présenter un histogramme

I de façon graphique

I en lissant les bords avec un “kernel smoother”

I Smooth : lisser

I Kernel : noyau

I “Densité par lissage noyau”

I ou “densité noyau”

(4)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Histogramme

I

Un histogramme

I est une estimation non-param. de la densitéf (x)d’une vax

I que l’on forme en divisant lesupportdex en intervalles également espacés

I et en calculant la fraction de l’échantillon dans chaque intervalle

I

Dans R

I Données DataFrame cps

I Dans packageAER

I Si vous utilisez le projet “Cours R” du cours de programmation

I vous avez le fichier cps qui est chargé (sur les salaires)

I Fonctionhist( )

I est un basique de R

I pas besoin de charger un package

I hist(cps$wage)

(5)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Histogramme dans R : personnalisations

hist(cps$wage, main="Histogramme du salaire dans cps",

xlab="salaire", border="blue", col="green", xlim=c(0,50), las=1, breaks=10)

I

breaks est le nombre d’intervalles

I Peut changer beaucoup l’aspect

I On y revient + loin

I

Mettre les noms d’axes & de couleurs entre “ ”

I

las sert a changer la présentation des labels sur Y (0,1,2,3)

I

On peut présenter des freq. rel. avec “ freq = F”

I Plutôt que des fréq. abs.

I

On peut ajouter une densité lisse par dessus avec

I lines(density(cps$wage))

I Cette densité lisse est prédéfinie

I On va explorer des méthodes pour la tracer

(6)

Histogramme dans R ! np2017.r

(7)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Effet de la bandwidth dans un histogramme ! np2017.r

hist(cps$wage, breaks=10)

I

breaks est le nombre d’intervalles

I Donc de leur largeur, appelébandwidth

I

Exercice

I Ajuster le nombre d’intervalles

I Changer la couleur (rcolor.pdf sur google)

(8)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Estimateur Histogramme

I

Plus formellement, dans un histogramme,

I on veut estimer la densitéf(x0)d’une v.a. scalaire continuex

I évaluée enx0

I

Si on a un échantillon

{xi,i =

1

, ...,N},

I l’estimateur histogrammedef (x0)est fˆhist(x0) = 1

N XN

i=1

1(x0 h<xi<x0+h) 2h

I 2hest la longueur de l’intervalle

I base du rectangle

I 1(A)est une fonction indicatrice=1 siAarrive et 0 sinon

I Donc : on compte le nbr d’obs.autourdex0dans un rayonh

I C’est un estimateurlocalcar il n’utilise que de l’info locale

(9)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Densité noyau

I

Cette procédure amène à une

estimation de la densité

qui est en escalier

I Même si la véritable densité est lisse

I

On réécrit l’estimateur Histogramme comme

hist(x0) =

1

Nh XN i=1

1 2

1

✓|xi x0| h <

1

I

L’estimateur

densité noyau

DN généralise cette définition

I en remplaçant la fonction1(.)par une alternativeK(.) fˆNOYAU(x0) = 1

Nh XN

i=1

K

✓xi x0 h

I K(·)est dite “fonction noyau” (kernel)

I un “kernel” est simplement une fonction de pondération

I hest appelé largeur de bande

I Paramètre de lissage oubandwidth

(10)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Densité noyau

I

Un estimateur noyau d’une densité

I est donc une version lisse de sonhistogramme

I évaluéeen chaque pointde l’échantillon

I au lieu de quelques points comme dans l’histogramme I

Il s’agit d’un

estimateur

de la fonction de densité

I souvent appelé Rosenblatt–Parzen

I Rosenblatt (1956), Parzen (1962)

(11)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Densité noyau

I

La fonction noyau

K

est positive, intégrable et à valeurs réelles

I Souvent sym autour de 0, on notez = x xh0

I L’uniforme 121(|z|<1)correspond à l’histogramme

I Quadratique 34 1 z2 1(|z|<1)

I Gaussienne(0,1):(2⇡) 1/2exp z2/2

I Gaussienne µ, 2 :(2⇡) 1/2exp✓ ⇣z µ⌘2

/2

I Le choix (arbitraire) du noyau est réputé comme peu influent sur l’estimateur

I h, le paramètre de lissage, est plus difficile à choisir

I Le + petit le + lisse

I Mais trop petit, il provoque l’apparition de détails artificiels sur le graphe

I car trop peu de données entrent dans l’intervalle

I Trop grand, la majorité du relief est effacée

(12)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Kernel smoother : Exemple density

I

density(x, bw = "nrd0", kernel, n = 512)

I x : vecteur des données

I bw : le choix de la bandwidth

I Pls “rules of thumb” :SJbased on derivatives,nrd0(défaut, mais pour raisons de compatibilité),ucv(unbiased

cross-validation),bcv(biased cross-validation)

I On verra + loin la cross-validation

I kernel =

I "gaussian", "epanechnikov", "rectangular", "triangular",

"biweight", "cosine", "optcosine"

I n : nbr des points equidistants auxquels estimer le kernel

“gridsize”

I On pourrait estimer en chaque point de l’éch.

I

On va utiliser plot pour comparer les options de density

(13)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Kernel smoother : Autre exemple bkde

I

Charger/installer le package KernSmooth

I Comme dans le cours de programmation

I library("KernSmooth")

I

wage_bkde <- bkde(cps$wage, kernel = "normal", bandwidth=1)

I bkde : Binned Kernel Density Estimate

I Utiliser la variable “wage” dans le DataFrame cps

I Kernel (noyau) : normal (arbitraire)

I Autres : box, epanech, biweight, triweight

I Bandwidth : 1 (arbitraire)

I défaut : un calcul à partir de la variance de x I

lines(wage_bkde)

I On voit que bkde est comme density

I plot pour comparer les options de bkde & de density

(14)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

plot(bkde(cps$wage, kernel = "normal", bandwidth=1))

I

Dans les 2 cas, density & bkde

I On voit que le bandwidth impacte beaucoup

I Par contre, le kernel lui-même n’impacte pas beaucoup

I La gridsize ne change que la question du dessin et n’impacte pas la forme de la courbe

I

Quelques options de présentation de plot

I plot(wage_bkde, col=rev(rainbow(400, s = 1, v = 1, start = 0, end = max(1,400 - 1)/400, alpha = 1)), xlab = "wage", ylab="density")

I La couleur reflète la valeur de wage pas celle de density I

Diapo suivante : généraliser à deux dimensions

I Cfr cours Prog dans R

(15)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Kernel smoother : Exemple 2D ! np2017.R

I

Densité des observations en bivarié

I bivariatebinned kernel density estimatorbkde2D( )

I

cps_bkde <- bkde2D(cbind(cps$experience, log(cps$wage)), bandwidth=c(3.5, 0.5), gridsize=c(200, 200))

I Il faut choisir la bandwidth et la taille de la grille sur chacune des 2 dimensions

I expérience & log(wage)

I gridsize en 2D

I

image(cps_bkde$x1, cps_bkde$x2, cps_bkde$fhat, col=rev(gray.colors(10, gamma=1)), xlab = "experience", ylab="log(wage)")

I “heatmap” / courbes de niveau

I

Exercice

I Récupérer les données CPS1988 du package AER

I Essayer de trouver la meilleure représentation en 1D et 2D

I En changeant la bandwidth et/ou le kernel

(16)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Interpréter les densités

I

Sur le fond, la densité noyau (univariée) est une ligne

I que l’on dessine

I qui s’ajuste d’une certaine manière au nuage de points

I concrètement : elle représente la fréquence locale en chaque point

I

On est proche d’une logique de régression

I Il faut conditionner

I Il y a d’autres façons de dessiner

I Splines, “nearest neighbor”, “neural network”...

I Dans ce cours, on reste sur le noyau.

(17)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Choisir la bandwidth

Sommaire

Estimation de fonction de densité et probabilité

Choisir la bandwidth Estimation d’une densité conditionnelle

Régression

Kernel Local Constant KLC Kernel Local Polynomial KLL

Exemples

Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé

Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS

(18)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Choisir la bandwidth

Propriétés de l’estimateur noyau univarié

I

En 1D, 2D ou plus,

I La fonction kernel doit se comporter comme une densité

I de moyenne nulle

I et de variance finie Z

K(z)dz=1 Z

zK(z)dz=0 Z

z2K(z)dz=2<1

I Le support est généralement 1,+1

(19)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Choisir la bandwidth

Erreur carrée moyenne (mean square error) MSE

I

Les fonctions noyau sont svt choisies sur un critère de MSE

I

Le bias de l’estimateur

NOYAU(x)

est

fˆ(x) f (x)

(on laisse tomber “NOYAU” quand il n’y a pas confusion)

I

La MSE est

msefˆ(x) =E biais2 =varfˆ(x) +biais2

on peut montrer que

biaisfˆ(x)t h2

2

@f (x)

@x22 varfˆ(x)t f (x)

nh Z

K2(z)dz

(20)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Choisir la bandwidth

Erreur carrée moyenne (mean square error) MSE

I

On voit que

I La variancediminueavec la bandwidthh

I Le biaisaugmenteavec le carré de la bandwidthh

I Le biais augmente avec la dérivée 2ºde f()

I il est donc au + fort autour du/des pics de la distribution I

Ces formules ont lieu en un point

I

On peut intégrer le mse sur

z

pour obtenir une mse globale

imsefˆ(x) =

Z

msefˆ(x)dx

I

On cherche le kernel

K

et la bandwidth

h

qui minimisent

imse

(21)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Choisir la bandwidth

Erreur carrée moyenne (mean square error) MSE

I

Le Kernel optimal est

Ke(z) = ( 3

4p

5

1

15z2 p

5

z p

5

0

sinon

qu’on appelle kernel d’Epanechnikov du nom de son inventeur

I

Il se fait que pas mal de kernels ont des propriétés semblables

I donc le kernel est souvent choisi pour des raisons informatiques

I le kernel gaussien est le + souvent choisi

(22)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Choisir la bandwidth

Choix de bandwidth

I

Au contraire du Kernel,

I l’optimisation précédente n’amène pas à une bandwidth utilisable en pratique

I Mais la bandwidth détermine l’ajustement bien plus que le kernel

I

Il est important d’en choisir une appropriée au problème traité

I Il y a 4 grandes approches 1. Heuristique (rule of thumb) 2. Plug-in – je ne poursuis pas 3. Validation croisée

3.1 par Moindres Carrés

3.2 par Maximum de Vraisemblance 4. Bootstrap

(23)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Choisir la bandwidth

Heuristique “référence”

I

Le principe est d’utiliser le kernel choisi pour calculer la bandwidth optimale

I

Comme souvent ce kernel est le kernel gaussien

I Ça donne une bandwidth de 1.06 n 1/5

I nest la taille d’éch.

I est l’écart-type de la normale utilisée dans le kernel

I en pratique, on prendˆl’écart-type de l’échantillon

(24)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Choisir la bandwidth

Autres méthodes

I

Validation croisée par Moindres Carrés

I Il est possible d’estimer le imse à partir de l’éch.

I Cet imse dépend du bandwidth

I On peut alors choisir le bandwidth qui minimise l’imse

I Cette approche est la meilleure de celles présentées

I mais est sensible à de petites variations des données (arrondis...)

I

Validation croisée par Maximum de Vraisemblance

I Même idée que la précédente, autre façon d’estimer le imse

I Tend à sur-lisser (gommer les variations)

I

Par bootstrap

I Toujours l’idée d’estimer le imse

I Trop exigeante sur le plan calculatoire

(25)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Choisir la bandwidth

Conclusion

I

On pourrait poursuivre avec

I Comment estimer une densité discrète

I Comment estimer une multivariée

I Illustration graphique prochaine dia I

On va plutôt passer à l’analyse conditionnelle

I Prélude à la régression

I

Sur l’estimation d’une densité inconditionnelle

I La comparaison n’est pas tellement “paramétrique” vs. np

I car paramétrique est souvent mal spécifié, donc inconsistant

I alors que np ne peut pas être mal spécifié

I mais par contre est assez inefficient

(26)

Estimations de densités multivariées par np dans R

I #### dynamic bivariate density plot avec donnees simulees

I Exécuter le programme

I Sélectionner tout le progr

I jusque#### FIN dynamic bivariate density plot simulation normales

I et “run”

I Mettez en grand la fenêtre de sortie (zoom ou agrandir manuellement)

I ‘sliders’ and ‘pickers’ qui permettent de changer

I kernel function & order (une propriété math du kernel qu’on ne voit pas)

I scale factors (la bandwidth est calculée automatiquement, scale factor prend une part de cette bandwidth, donc équivalent à la bandwidth)

I azimuthal viewing direction (point de vue)

I number of training (essentiellement = gridsize)

I number of evaluation observations (taille de l’éch.) I #### dynamic bivariate density plot avec donnees réelles

Geyser

I Idem sur données réelles

(27)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Estimation d’une densité conditionnelle

Sommaire

Estimation de fonction de densité et probabilité

Choisir la bandwidth Estimation d’une densité conditionnelle

Régression

Kernel Local Constant KLC Kernel Local Polynomial KLL

Exemples

Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé

Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS

(28)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Estimation d’une densité conditionnelle

Estimation d’une densité conditionnelle

I

La densité conditionnelle est sous-jacente à l’analyse de régression

I Mais est rarement modélisée directement

I En np, il est plus clair de passer par cette étape

I

Soit

f (.)

la densité jointe de

(X,Y)

I pour rappelPr{X x,Y y}=RxRy

f (.)dydx =f(x,y)

I µ(.)la densité marginale de X

I µ(.) =R f(.)dY

I “integrateY out”

I

Pour la suite,

I Y est la variable dépendante

I est expliquée

I X est un régresseur

I est explicative

(29)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Estimation d’une densité conditionnelle

Densité conditionnelle

I

La densité conditionnelle est

Pr{Y y|X x}=g(y|x) =f (x,y)/µ(x)

I

L’estimateur noyau de cette densité est

ˆ

g(y|x) = ˆf (x,y)/µˆ(x)

I µˆ(x)est l’estimateur noyau univarié vu à la section précédente

I fˆ(x,y)est une extension bivariée de cet estimateur

I Il faudrait discuter le choix de bandwidth

I La commande correspondante de np estnpcdensbw

I Conditionnal DENSity avec BandWidth par cv.ls (cross-validation par Least squares)

I En général, on n’utilise pas directement cette commande, qui est appelée par d’autre procédures

(30)

R #### Least-squares cross-validated conditional density estimation

I

On génère (via une normale bivariée)

I n <- 500

I rho <- 0.25pour sigma ci-dessous

I mu <- c(0,0)moyenne des variables a generer

I Sigma <- matrix(c(1,rho,rho,1),2,2)matrice de var-cov des variables a generer

I donc ici : générer un normale bivariée dont le mu contient 2 moyennes nulles (dist. marg.) et sigma indique une matrice avec des variance a 1 et des cov a rho=.25

I rem. les deux chiffres qui suivent dans sigma indiquent "2L 2C"

I data <- mvrnorm(n=n, mu, Sigma)genere des valeurs d’une normale multivariee

I mydat <- data.frame(x=data[,2],y=data[,1])

I y et x dont la corrélation est contrôlée par rho I

Ensuite npcdensbw va estimer

gˆ(y|x) = ˆf (x,y)/ˆµ(x)

I Prend un peu de temps, selon la machine

I

Output graphique essentiellement

I (x, y, densité)

I on doit voir un graphique qui tourne

(31)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Estimation d’une densité conditionnelle

Exercice

I

Pour voir comment la relation entre x et y change, changer les paramètres de la normale bivariée

I corrélation rho élevée, ou

I moyennes mu non-nulles

I variances fort différentes (à l’intérieur de sigma)

(32)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Estimation d’une densité conditionnelle

Régresseurs non-pertinents

I

Pour estimer une fonction

g(y|x) =f (x,y)/µ(x)

I conditionnelle à pls régresseursx vecteur

I il faut intégrer autant de fois que de régresseurs

I pour obtenir la distribution multidim. des régresseurs I

On peut montrer que la convergence de

fˆ(.)

à

f (.)

I se détériore rapidement lorsque le nombre de variables continue augmente

I “malédiction de la dimensionalité”

I

Il est donc particulièrement important en np

I d’éviter les régresseurs non-pertinents

I Idéalement, ils sont “smoothed out” :

I Pour unx non pertinent, le graphe dey reste le même pour tous les niveaux dex

(33)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité

Estimation d’une densité conditionnelle

Régresseurs non-pertinents

I

Hall et al. (2004) montre que

I Une version de la validation croisée par MC

I assigne automatiquement un fort paramètre de lissage aux régresseurs non-pertinents

I leur dist. marginale tend à l’uniforme

I cela supprime leur contribution à la variance de l’estimateur

I et donc montre qu’ils sont indép. de la variable expliquée

I Les variables pertinentes par contre sont lissées de façon usuelle

I Pas vers l’uniforme

I

Donc choisir la validation croisée par MC

I permet de trier les régresseurs pertinents et non.

(34)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Sommaire

Estimation de fonction de densité et probabilité Régression

Modèles semiparamétriques LOESS

(35)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Kernel Local Constant KLC

Sommaire

Estimation de fonction de densité et probabilité

Choisir la bandwidth Estimation d’une densité conditionnelle

Régression

Kernel Local Constant KLC Kernel Local Polynomial KLL

Exemples

Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé

Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS

(36)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Kernel Local Constant KLC

Cas bivarié

I

Cet estimateur de régression est connu aussi sous le nom

“Nadaraya–Watson”

I de ceux qui l’ont proposé

I

On ne prend qu’un régresseur pour commencer

I par simplicité de notation

(37)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Kernel Local Constant KLC

Moyenne conditionnelle g ˆ (x )

I

Par définition, la moyenne conditionnelle de

Y

continue est

g(x) =

Z

yg(y|x)dy = Z

yf (y,x)

f (x) dy = m(x) f (x)

g(y|x)

est la densité conditionnelle de la section précédente et

m(x) =R

yf (y,x)dy

une moyenne “partielle”

I

L’estimateur Kernel Local Constant KLC

I est celui défini à la section précédente

ˆ g(x) =

Z

yfˆ(y,x) fˆ(x) dy=

Pn i=1yiK

✓xi x h

Pn

i=1K

✓xi x h

I c’est un estimateur consistant de la moyenne conditionnelle

(38)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Kernel Local Constant KLC

Biais et variance

I

L’estimateur Kernel Local Constant KLC

I souffre de “biais sur les bords”

I p.e. on peut calculer dans le cas bivarié que

biais th2 1

2g00(x) +g0(x)f0(x) f (x)

!

2

I Quand on approche du “bord” des données

I f(x)!0 donc le biais augmente

I Ce problème n’est pas partagé par l’estimateur “polynome local” de la section suivante car le 2ºterme à l’intérieur de la parenthèse disparait dans le cas linéaire

(39)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Kernel Local Constant KLC

Bandwidths : optimale et basée sur données

I

La bandwidth optimale de l’estimateur KLC

I dépend de quantités inconnues, comme précédemment

I Elle ne peut être calculée dans le cas de régression

I On va donc utiliser une bandwidth basée sur les données

I

Deux calculs de bandwidth basés sur les données

I Sont populaires

I Validation croisée moindres carrés (cfr section précédente)

I Minimiser le critère d’information d’Akaike (Hurvich)

I On a montré qu’ils sont asymptotiquement équivalents

(40)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Kernel Local Constant KLC

Régresseurs pertinents et non-pertinents

I

Il a été montré (cfr sect. densité cond.) que

I la validation croisée par MC

I mène à un lissage optimal des 2 types de régresseurs

I Les non-pertinents n’ont plus d’effet sur la variance de l’estimateur

I

La malédiction de la dimensionalité

I implique que les non-pertinents doivent être retirés de la régression

I afin de réduire le bruit autour des pertinents

(41)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Kernel Local Constant KLC

Effets marginaux avec KLC “ ˆ (x )”

I

On appelle “effet marginal” ou “réponse”

I L’effet dex surg(x) =R

yg(y|x)dy

I donc sur la moyenne conditionnelle dey

I Par analogie avec le modèle de régression linéairey =x +✏

I on appelle cette réponse (x) I (x) =@g(x)

@x = f (x)m0(x) m(x)f0(x) f2(x)

I puisqueg(x) = m(x) f(x)

I donc (x) = m0(x)

f (x) g(x)f0(x) f (x)

I

On remplace par les estimations de ces valeurs

(42)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Kernel Local Constant KLC

Effets marginaux avec KLC “ ˆ (x )”

ˆ (x) = mˆ0(x)

fˆ(x) gˆ(x)fˆ0(x) fˆ(x)

avec

ˆ

m(x) = 1 nh

Pn i=1yiK

✓xi x h

fˆ(x) = 1 nh

Pn

i=1K

✓xi x h

◆ ˆ

m0(x) = 1 nh2

Pn i=1yiK0

✓xi x h

0(x) = 1 nh2

Pn i=1K0

✓xi x h

I

L’effet marginal n’est jamais constant

$

régression linéaire

I On verra mieux dans les exemples

I

En multivarié (plusieurs régresseurs)

I C’est plus compliqué, mais le fond est le même

(43)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Kernel Local Constant KLC

Conclusion sur Kernel Local Constant

I

On a donc un estimateur de

régression

np

I à Validation croisée moindres carrés

I qui fait que

I les régresseurs non-pertinents disparaissent d’eux mêmes

I on peut calculer les effets marginaux ˆ (x) I

On va voir un autre estimateur

(44)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Kernel Local Polynomial KLL

Sommaire

Estimation de fonction de densité et probabilité

Choisir la bandwidth Estimation d’une densité conditionnelle

Régression

Kernel Local Constant KLC Kernel Local Polynomial KLL

Exemples

Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé

Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS

(45)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Kernel Local Polynomial KLL

Analogie

I

Le KLC peut être réécrit comme minimisation de

ˆ

g(x)⌘min

a

Xn i=1

(yi a)K

✓xi x h

I

On généralise en mettant un polynome à la place de

a

I Le plus populaire est le linéaire ˆ

g(x)⌘min

a,b

Xn i=1

(yi a b(xi x))2K

✓xi x h

qui s’interprête en disant qu’autour d’un pointx0, la régression est approx. linéaire

g(x0)ta+b(x0 x)

I C’est l’estimateur Kernel Local Polynomial (ou Linéaire)

I KLP ou KLL

(46)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Kernel Local Polynomial KLL

Propriétés

I

Le terme

a

est alors la moyenne conditionnelle

g(x)

I Comme l’intercept dans une régression linéaire

I

Le terme

b

est la pente,

I donc l’effet d’un changement marginal dex surg(x)

I c’est-à-dire le ˆ (x)de l’estimateur KLC

I

Cet estimateur KLP souffre moins du “biais de bord” que KLC

I mais est sujet à des problème de singularité (= n’est pas défini)

I lorsqu’il y a localement peu de données I

On peut calculer des biais et variances approximés

I comme avec KLC

I

Les régresseurs non-pertinents

I ne disparaissent pas d’eux-mêmes

I ne sont pas “smoothed-out” comme avec KLC

I provoquent une variabilité excessive

(47)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Exemples

Sommaire

Estimation de fonction de densité et probabilité

Choisir la bandwidth Estimation d’une densité conditionnelle

Régression

Kernel Local Constant KLC Kernel Local Polynomial KLL

Exemples

Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé

Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS

(48)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Exemples

Ex 1. Régression sur données simulées #### Regr. sim.

I

Génération des données

I n <- 50Ech de taille 50

I x <- sort(runif(n))runif : suffixe r pour donnees sim, unif pour uniforme

I x.seq <- seq(0,1,length=1000)séquence de 1000 chiffres de 0 à 1, servira à faire des graphes

I y <- sin(2*pi*x) + rnorm(n,sd=0.25)valeurs simulées de y

(49)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Exemples

Ex 1. Régression sur données simulées #### Regr. sim.

I

Régressions np

I Calcul des bandwidths

I bw.lc <- npregbw(y~x,regtype="lc")y~x, kernel local constant

I bw.ll <- npregbw(y~x,regtype="ll")idem, kernel local linéaire

I Commandenpreg

I model.lc <- npreg(bws=bw.lc,gradient=TRUE)il faut donner la bandwidth

I les points de données sont appeles "training points"

I gradient = trueindique que les gradients (donc les pentes, les betas) sont stockes dans un objet "npregression"

I summary(model.lc)la sortie, assez fruste, pas de coef estimé par définition

(50)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Exemples

Ex 1. Regression sur données simulées

I

Premières sorties graphiques

I plot(x,y,cex=0.2)les données

I lines(x.seq,sin(2*pi*x.seq),col="black",lty=1)les y sans erreur (bruit)

I lines(x,sin(2*pi*x),col="red",lty=1)idem mais sur les n=50 points de l’ech.

I lines(x,fitted(model.lc),col="red",lty=2)y ajustes avec lc, fitted(model.ll)

I gˆ(x)= estimation de l’espérance cond. de y|x

I “biais de bord”

I lines(x,fitted(model.ll),col="blue",lty=3)y ajustes avec ll - assez proche

I pls comparaisons avec moindres carrés

I

Exercice. Répétez le programme en changeant

I la taille d’éch. à 100

I la façon de générery

I p.e. comme la somme ou le ratio de 2 normales pour avoir une dist. bimodale

(51)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Exemples

Ex 1. Regression sur données simulées

I

Deuxième sortie graphique

I gradient ˆ (x) =@gˆ(x)

@x en fonction de x : non-linéaire

I

plot(x,2*pi*cos(2*pi*x),ylab="dy/dx",col="black",type="l",lty=1) (x)"réel" dy/dx

I lines(x,gradients(model.lc)[,1],col="red",lty=2) ˆ (x)estimé par lc

I lines(x,gradients(model.ll)[,1],col="blue",lty=3) ˆ (x)estimé par ll

(52)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Exemples

Ex 1. Regression sur données simulées

I

Troisième sortie graphique : Effet de la bandwidth

I bw.lc$bw[1] <- 1e05Change la bandwidth : bcp trop grande

I bw.ll$bw[1] <- 1e05

I model.lc <- npreg(bws=bw.lc,gradient=TRUE)Recalculer les régressions à p. de ces bandwidths

I model.ll <- npreg(bws=bw.ll,gradient=TRUE)

I Graphique

I plot(x,y,cex=0.2)Les données

I lines(x.seq,sin(2*pi*x.seq),col="black",lty=1)les y sans erreurs

I lines(x,fitted(model.lc),col="red",lty=2)valeurs ajustées : droite plate

I lines(x,fitted(model.ll),col="blue",lty=3)valeurs ajustées : droite pente nég.

I On voit pourquoi on appelle aussi les régressions np

“scatterplot smoothing”

I Elles aident à voir les relations entre variables

(53)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Exemples

Ex. Comparaison de méthodes de choix de Bandwidth

I #### Regr. bandwidth

I

5 bandwidths

I 1 plug-in du package KernSmooth

I Avec la commande locpoly de régression np de ce package

I Pour les 4 autres, commandenpregbwdu package np

I servant à optimiser la bandwidth

I 2 arbitraires à partir du package np sans optimiser, avec Local Linear

I On prend un chiffre en lien avec la mesure du régresseur

I On divise : “undersmoothed bandwidth” trop fine! ajustement trop collé aux données

I On multiplie “oversmoothed badnwidth” trop large!faible ajustement

I 2 optimales selon package np, avec cross-validation : Moindres carrés et AIC

I Ce sont les 2 cross-validations fournies par le package I

Plot en 4 tableaux

I Regroupe les 2 cv

(54)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Exemples

Ex. Comparaison de méthodes de choix de Bandwidth

I

Exercice

I Séparer le plot des 2 cv en 2 et supprimer le plug-in

I Changer les 2 bw arbitraires under et over pour les rapprocher

I Comparer avec lc au lieu de ll

(55)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Exemples

Et le t ?

I

Comment voit-on la significativité de l’effet marginal ?

I

Les graphes mettent des intervales de confiance

I On va voir ça dans le prochain exemple

I

La section suivante “Test d’hypothèse consistant”

I présente des tests formels (non graphiques)

(56)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Exemples

Ex. Multivariate Mixed-Data Application

I #### 3.2.3.c Ex. regr. mixte (cont. & cat) Part 1

I Graphique en 3D et en perspective

I npudensbw(~lwage+ordered(numdep),data=wage1)calcule la bandwidth pour une bivariee (les 2 var sont a D du ~)

I Pq ordered ? pcq + loin on utilise pour le graphique, il faut que les natures des variables restent les mêmes

(57)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Exemples

Ex. Multivariate Mixed-Data Application

I #### 3.2.3.c Ex. regr. mixte (cont. & cat) Part 2

I On calcule un bandwidth pour la régression de lwage sur female, married, educ, exper, tenure

I Pas besoin de exper^2 c’est la régression qui regarde la relation

I La bandwidth diffère par régresseur

I Graphique de la moyenne conditionnelle de y à chaque niveau du régresseur

I On voit les effets “classiques” : salaire plus bas pour les femmes, rendement décroissant de l’exp. (plus prononcé que d’habitude à cause de tenure sans doute)

I Constater graphiquement que la significativité n’est pas constante puisque l’intervalle de confiance évolue selonx

I Graphique du gradient

I Évolution du “coefficient” ˆ (x)en fonction du x

I Avec sont intervalle de confiance graphique

(58)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Exemples

Exercice

I

Répliquer en changeant la CV ou le kernel (LC au lieu de LL)

I

Répliquer avec les données bwages du package Ecdat

(59)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Tests d’hypothèses

Sommaire

Estimation de fonction de densité et probabilité

Choisir la bandwidth Estimation d’une densité conditionnelle

Régression

Kernel Local Constant KLC Kernel Local Polynomial KLL

Exemples

Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé

Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS

(60)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Tests d’hypothèses

Intro

I

On ne revient pas sur les tests np de la 1º partie du cours

I il s’agit de tests en contexte de régression

I

Soit tester une spécification paramétrique

I Permet de justifier une approche np

I

Soit tester la significativité des régresseurs d’une régression np

I l’équivalent des t-stats

I Un régresseur parmi pls

I On n’a pas d’équivalent au testF

(61)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Tests d’hypothèses

Un test de significativité pour des régressions np

I

Il y a pls approches

I On prend ici celle de Racine qui accepte des régresseurs continus & cat.

I

On va regarder d’abord cat.

I puis continu

(62)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Tests d’hypothèses

Un test de significativité : régresseurs catégoriques

I

Soit

I z le régr. cat qui peut être non-pertinent

I X tous les autres régresseurs

I L’hyp. nulle est

H0:E(Y|X,z) =E(Y|X) presque partout

L’alternative est que l’égalité est en fait6=(2-tailed)

I

Pour simplifier on écrit

I g(x) =E(Y|x)etm(x,z) =E(Y|X,z)

I disons que z prendc valeurs dont la 1ºest zéro

I sic=2, z est une dichotomique, le cas le + fréquent

I H0peut alors s’écrirem(x,z =l) =m(x,z =0)8l

(63)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Tests d’hypothèses

Un test de significativité : régresseurs catégoriques

I

La stat de test est un estimateur de

I =

c 1

X

l=1

En

[m(x,z =l) m(x,z =

0)]

2o

I

Pour la calculer

I On prend les valeurs estimées par KLC ou KLL dem

I On somme sur toutes lesl6=0

I et sur toutes les obs.

I On voit bien queI 0

I et quez est non signif. siI est proche de zéro I

Il n’y a pas de distribution connue

I Il faut faire du bootstrap

I Mis en oeuvre dansnpsigtest( )

I On verra dans l’exemple

(64)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Tests d’hypothèses

Un test de significativité : régresseurs continus

I H0

est la même,

I mais “presque partout”

I car on a en quelque sorte1catégories

I Équivalent à @E(y|x,z)

@z = (z) =0 presque partout

I

La stat de test est un estimateur de

I =En

[ (z)]2o

I On calcule son estimation KLC ou KLLIn=1nPn

i=1ˆ (zi)2

I Comme dans le cas catégorique, la dist. deIn est inconnue

I On utilise bootstrap

(65)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Tests d’hypothèses

Ex. Regression mixte (cont & cat.)

I

On poursuit l’exemple précédent – part 3

I #### 3.2.3.c Ex. regr. mixte (cont. & cat)

I # Part 3 Tests de significativite

I On avait estimé

I bw.all <- npregbw(formula=lwage~factor(female)+

factor(married)+ educ+ exper+ tenure, regtype="ll", bwmethod="cv.aic", data=wage1)

I En pratique, le test est simple

I on passe l’objet bandwidth de la régression associée

I Par contre le temps de calcul est plus long I

Le package

I distingue le cat et le cont

I fait le test adéquat

I

Pas de test sur plusieurs coef conjointement

(66)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Tests d’hypothèses

Tester une spécification paramétrique

I

On veut tester si un modèle

param. est correct H0 : E(Y|x) =m(x, 0)

pour presque tous les

x

pour un certain

0

vecteur

(p⇥

1) de paramètres

et

m(x, )

une fonction connue (possiblement non-linéaire)

I

En définissant

µi =yi m(xi, 0)

alors on peut écrire

Ho : E(µi|xi) =

0

pour presque toutes les valeurs possibles de

x

(67)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Tests d’hypothèses

Tester une spécification paramétrique

I

Un test consistant de spécification du modèle paramétrique peut être construit

I sur la base des résidus du modèle paramétrique ˆ

µi =yi m(xi,ˆ)

I en estimantE(µi|xi)de manière non-paramétrique

I au moyen d’une technique de bootstrap

I

La stat calculée se nomme

Jn

I Mis en oeuvre dansnpcmstest( )

I Il faut d’abord estimer soit unlmsoit unglm

I ley doit être continu, donc pas probit, logit, Poisson

I en précisant les arguments x=TRUE, y=TRUE qui font que x et y vont être stockés dans l’objet résultat

I Ensuite il faut stocker lesxdans un dataframe

I npcmstestprend comme arg l’objet résultat du modèle param., lex et ley

I On peut employersummarysurnpcmstest

I Si on R H0, le modèle param est mal spécifié

(68)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Tests d’hypothèses

Ex. Tester une spécification paramétrique

I

On poursuit l’exemple précédent – part 4

I #### 3.2.3.c Ex. regr. mixte (cont. & cat)

I # Part 4. Test de specification param.

I On prend un modèle linéaire classique du modèle np qu’on a estimé auparavant

lwage= 0+ 1Femme+ 2Marie´+ 3Educ+ 4Exp+ 5Tenure Rem. Tenure = durée dans l’emploi actuel

I Ici, on obtient une p-valeur <5% largement

I R le modèle linéaire I

Exercice

I Refaites le test en ajoutant l’exp. quadratique

(69)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Qualité de l’ajustement

Sommaire

Estimation de fonction de densité et probabilité

Choisir la bandwidth Estimation d’une densité conditionnelle

Régression

Kernel Local Constant KLC Kernel Local Polynomial KLL

Exemples

Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé

Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS

(70)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Qualité de l’ajustement

Qualité de l’ajustement (Goodness-of-Fit)

I

Essentiellement, une mesure de

R2

en np

R2 = [Pn

i=1(yi y) (ˆ¯ yi y¯)]2 Pn

i=1(yi y)¯ 2Pn

i=1(ˆyi y¯)2 ˆ

yi

est la valeur ajustée de

yi

I doncˆg(xi)

I

0

R2

1

I 1 est un ajustement parfait

I 0 aucun pouvoir prédictif au-delà de la moyenne inconditionnelle

I Cette mesure est un des produits de la commandenpreg

I accessible parR2etsummary I

Dans le cas d’un modèle linéaire

I estimé par MCO avec un intercept

I Cette définition duR2 produit le même chiffre que la définition classique

I basée sur les résidus

(71)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Qualité de l’ajustement

Régression np – résumé de l’approche kernel

I

D’abord il faut calculer une bw

I bw.all<- npregbw

I on peut préciser ici LL ou LC & la cross-validation I

Ensuite la régression

I model.np <- npreg(bws=bw.all)

I summary(model.np) présente la qualité de l’ajustement

“R-squared”

I À ce stade on peut “plot”

I avec les marges d’erreur I

Puis les tests

I Significativité des régresseurs

I Spécification paramétrique

I Si celle-ci n’est pas rejetée, mieux vaut l’utiliser, car + efficiente

(72)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Modèles à données de panel

Sommaire

Estimation de fonction de densité et probabilité

Choisir la bandwidth Estimation d’une densité conditionnelle

Régression

Kernel Local Constant KLC Kernel Local Polynomial KLL

Exemples

Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé

Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS

(73)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Modèles à données de panel

Rappel

I

Un panel est une coupe transversale répétée dans le temps

t

I en principe sur les mêmesi

I sauf attrition, qu’on suppose non-endogène

I Pour simplifier tous lesi sont observésT fois

I Je ne suis pas sûr que tous les modèles aient été développés des panels non-cylindrés

I

Lorsque

T

est grand

I chaque série dei peut être analysée séparemment en séries temp.

I qu’on ne voit pas pour np

I

Donc, on se place en panels courts :

n! 1

mais

T

cst

I

Les données de panel sont notées

hyit,xiti

(74)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Modèles à données de panel

Panels non-paramétriques

I

Dans le modèle panel linéaire

yit=↵i +xit0 +✏it

on pouvait accepter que

Ii soit la partie constante dans le temps, pari, du terme d’erreur

I qu’elle soit corrélée avecxit (les “effets fixes”)

I car on pouvait s’en débarrasser par les estimateurs within ou différence 1º

I Cette hyp. d’additivité de l’hétérogénéité inobservée

I Fait disparaitre les régresseurs constants dans le temps I

En np, on n’a pas d’hyp. d’additivité

I Une série d’estimateurs a été proposée

(75)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Modèles à données de panel

Panel dans np

I

Le package np propose l’estimateur suivant

I

Soit le modèle np

yit =g(xit) +uit

g(.)

est une fonction lisse inconnue

x

contient

q

régresseurs

E(uit|xi1, . . . ,xiT) =

0 exogénéité stricte

I

On introduit l’hétérogénéité inobservée constante dans le temps

I par une variable discrète non-ordonnée

i=i,i =1, ...,n

ce qui introduit de faitncatégories qui ressemblent au↵i du model panel

I xit!(zit, i)

I Ces cat nous rapprochent du contexte de la régression np

I avec un mélange de régresseurs cat. et continus

(76)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Modèles à données de panel

Panel dans np

I

Si le “régresseur” catégorique n’est pas significatif

I g(zit, i) =g(zit): Les données sont de fait mélangées

I npsigtest( )permet ce test

I

Par contre, s’il est significatif

I Les pentes pari sont différentesg(zit, i) =gi(zit)

I Donc les données de différents i ne sont pas mélangeables

I

L’analyse Panel n’est donc pas complètement implémentée dans np

I Car l’endogénéité ne parait pas traitée / éliminée comme avec effets fixes

I mais np apporte un complément d’analyse

(77)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Modèles à données de panel

Ex. Panel dans np

I #### Ex. regr. panel

I

Panel annuel sur les coûts de 6 cies aériennes US

I 15 ans 1970 à 1984 (cylindré)

I airlinei traité comme factor non-ordonné

I yeart factor ordonné

I log of cost lcost, log output (passagers⇥miles), log prix fuel lpf, “load factor” lf capacité utilisée moyenne de la flotte

I

BW : petite pour “airline”

I suggère de ne pas mélanger les données

I Donc de faire pls séries temp

I npsigtestsemble produire des résultats aberrants (significativité extrême)

I Mais il faudrait un test qui tienne compte de la structure d’hétéroc. & de correl.

I

Dans le plot diapo suivante

I On voit un effet marqué par airline (t↵i)

I et des pentes plutôt linéaires

I au total, plutôt favorable au modèle param. linéaire classique ?

(78)

Panel dans np – exemple

(79)

Exercice

I

Répliquer en utilisant les données Grunfeld du package plm

I En changeant CV ou kernel (LC / LL)

(80)

Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression

Résumé

Sommaire

Estimation de fonction de densité et probabilité

Choisir la bandwidth Estimation d’une densité conditionnelle

Régression

Kernel Local Constant KLC Kernel Local Polynomial KLL

Exemples

Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé

Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS

Références

Documents relatifs

علا نوكتف يسنرفلا عرشملل ةبسنلاب امأ نيتنس ةبوق ، اهردق ةيلام ةمارغو سبح 01111 اذإ ،وروأ رفاوت دنعو ،ةطيسب ةميرجلا تناك ةقلاعك ،هسفن يناجلا يف

En s’int´eressant `a l’estimation d’une fonction de r´egression H¨old´erienne de r´egularit´e β ∈]1; 2[ avec le risque li´e `a la fonction de perte absolue, Galtchouk

I Mais la médiane et les quantiles (percentiles, déciles...) bien I Les tests applicables au nominal sont applicables à l’ordinal...

I firme unique (help : unique renvoie un vecteur ou data frame comme son arg x mais en enlevant les lignes doublons, dans ce cas définies sur firm). I sample_firm

Test d’hypothèses Qualité de l’ajustement Modèles à données de panel Modèles

Les données de panel Modèles à données de panel Estimateurs pour données de panel Inférence avec données de panel Effets Fixes vs. Effets Aléatoires Autres tests.. Données de

The task of predicting if a sequence of words in a document is an anchor text linking to another document can be seen as a link prediction task in a network of documents.. To

Nous proposons dans ce travail deux estimateurs non-param´ etriques de la densit´ e f β des effets al´ eatoires β j lorsque la densit´ e du bruit est connue et que sa fonction