Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18
Statistiques non-paramétriques :
Ch. 3. Économétrie non-paramétrique 2017-18
M2 CEE
Pr. Philippe Polomé, Université Lumière Lyon 2
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Sommaire
Estimation de fonction de densité et probabilité Régression
Modèles semiparamétriques LOESS
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Densités & histogrammes lissés
I
On commence par une analyse non-conditionnelle
I Une régression est une analyse conditionnelle
I Ici on veut la courbe des “y”
I Possiblementy est multidimensionnel
I
On va regarder une façon de présenter un histogramme
I de façon graphique
I en lissant les bords avec un “kernel smoother”
I Smooth : lisser
I Kernel : noyau
I “Densité par lissage noyau”
I ou “densité noyau”
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Histogramme
I
Un histogramme
I est une estimation non-param. de la densitéf (x)d’une vax
I que l’on forme en divisant lesupportdex en intervalles également espacés
I et en calculant la fraction de l’échantillon dans chaque intervalle
I
Dans R
I Données DataFrame cps
I Dans packageAER
I Si vous utilisez le projet “Cours R” du cours de programmation
I vous avez le fichier cps qui est chargé (sur les salaires)
I Fonctionhist( )
I est un basique de R
I pas besoin de charger un package
I hist(cps$wage)
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Histogramme dans R : personnalisations
hist(cps$wage, main="Histogramme du salaire dans cps",
xlab="salaire", border="blue", col="green", xlim=c(0,50), las=1, breaks=10)
I
breaks est le nombre d’intervalles
I Peut changer beaucoup l’aspect
I On y revient + loin
I
Mettre les noms d’axes & de couleurs entre “ ”
I
las sert a changer la présentation des labels sur Y (0,1,2,3)
I
On peut présenter des freq. rel. avec “ freq = F”
I Plutôt que des fréq. abs.
I
On peut ajouter une densité lisse par dessus avec
I lines(density(cps$wage))
I Cette densité lisse est prédéfinie
I On va explorer des méthodes pour la tracer
Histogramme dans R ! np2017.r
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Effet de la bandwidth dans un histogramme ! np2017.r
hist(cps$wage, breaks=10)
I
breaks est le nombre d’intervalles
I Donc de leur largeur, appelébandwidth
I
Exercice
I Ajuster le nombre d’intervalles
I Changer la couleur (rcolor.pdf sur google)
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Estimateur Histogramme
I
Plus formellement, dans un histogramme,
I on veut estimer la densitéf(x0)d’une v.a. scalaire continuex
I évaluée enx0
I
Si on a un échantillon
{xi,i =1
, ...,N},I l’estimateur histogrammedef (x0)est fˆhist(x0) = 1
N XN
i=1
1(x0 h<xi<x0+h) 2h
I 2hest la longueur de l’intervalle
I base du rectangle
I 1(A)est une fonction indicatrice=1 siAarrive et 0 sinon
I Donc : on compte le nbr d’obs.autourdex0dans un rayonh
I C’est un estimateurlocalcar il n’utilise que de l’info locale
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Densité noyau
I
Cette procédure amène à une
estimation de la densitéqui est en escalier
I Même si la véritable densité est lisse
I
On réécrit l’estimateur Histogramme comme
fˆhist(x0) =1
Nh XN i=1
1 2
1✓|xi x0| h <
1
◆
I
L’estimateur
densité noyauDN généralise cette définition
I en remplaçant la fonction1(.)par une alternativeK(.) fˆNOYAU(x0) = 1
Nh XN
i=1
K
✓xi x0 h
◆
I K(·)est dite “fonction noyau” (kernel)
I un “kernel” est simplement une fonction de pondération
I hest appelé largeur de bande
I Paramètre de lissage oubandwidth
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Densité noyau
I
Un estimateur noyau d’une densité
I est donc une version lisse de sonhistogramme
I évaluéeen chaque pointde l’échantillon
I au lieu de quelques points comme dans l’histogramme I
Il s’agit d’un
estimateurde la fonction de densité
I souvent appelé Rosenblatt–Parzen
I Rosenblatt (1956), Parzen (1962)
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Densité noyau
I
La fonction noyau
Kest positive, intégrable et à valeurs réelles
I Souvent sym autour de 0, on notez = x xh0
I L’uniforme 121(|z|<1)correspond à l’histogramme
I Quadratique 34 1 z2 1(|z|<1)
I Gaussienne(0,1):(2⇡) 1/2exp z2/2
I Gaussienne µ, 2 :(2⇡) 1/2exp✓ ⇣z µ⌘2
/2
◆
I Le choix (arbitraire) du noyau est réputé comme peu influent sur l’estimateur
I h, le paramètre de lissage, est plus difficile à choisir
I Le + petit le + lisse
I Mais trop petit, il provoque l’apparition de détails artificiels sur le graphe
I car trop peu de données entrent dans l’intervalle
I Trop grand, la majorité du relief est effacée
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Kernel smoother : Exemple density
I
density(x, bw = "nrd0", kernel, n = 512)
I x : vecteur des données
I bw : le choix de la bandwidth
I Pls “rules of thumb” :SJbased on derivatives,nrd0(défaut, mais pour raisons de compatibilité),ucv(unbiased
cross-validation),bcv(biased cross-validation)
I On verra + loin la cross-validation
I kernel =
I "gaussian", "epanechnikov", "rectangular", "triangular",
"biweight", "cosine", "optcosine"
I n : nbr des points equidistants auxquels estimer le kernel
“gridsize”
I On pourrait estimer en chaque point de l’éch.
I
On va utiliser plot pour comparer les options de density
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Kernel smoother : Autre exemple bkde
I
Charger/installer le package KernSmooth
I Comme dans le cours de programmation
I library("KernSmooth")
I
wage_bkde <- bkde(cps$wage, kernel = "normal", bandwidth=1)
I bkde : Binned Kernel Density Estimate
I Utiliser la variable “wage” dans le DataFrame cps
I Kernel (noyau) : normal (arbitraire)
I Autres : box, epanech, biweight, triweight
I Bandwidth : 1 (arbitraire)
I défaut : un calcul à partir de la variance de x I
lines(wage_bkde)
I On voit que bkde est comme density
I plot pour comparer les options de bkde & de density
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
plot(bkde(cps$wage, kernel = "normal", bandwidth=1))
I
Dans les 2 cas, density & bkde
I On voit que le bandwidth impacte beaucoup
I Par contre, le kernel lui-même n’impacte pas beaucoup
I La gridsize ne change que la question du dessin et n’impacte pas la forme de la courbe
I
Quelques options de présentation de plot
I plot(wage_bkde, col=rev(rainbow(400, s = 1, v = 1, start = 0, end = max(1,400 - 1)/400, alpha = 1)), xlab = "wage", ylab="density")
I La couleur reflète la valeur de wage pas celle de density I
Diapo suivante : généraliser à deux dimensions
I Cfr cours Prog dans R
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Kernel smoother : Exemple 2D ! np2017.R
I
Densité des observations en bivarié
I bivariatebinned kernel density estimatorbkde2D( )
I
cps_bkde <- bkde2D(cbind(cps$experience, log(cps$wage)), bandwidth=c(3.5, 0.5), gridsize=c(200, 200))
I Il faut choisir la bandwidth et la taille de la grille sur chacune des 2 dimensions
I expérience & log(wage)
I gridsize en 2D
I
image(cps_bkde$x1, cps_bkde$x2, cps_bkde$fhat, col=rev(gray.colors(10, gamma=1)), xlab = "experience", ylab="log(wage)")
I “heatmap” / courbes de niveau
I
Exercice
I Récupérer les données CPS1988 du package AER
I Essayer de trouver la meilleure représentation en 1D et 2D
I En changeant la bandwidth et/ou le kernel
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Interpréter les densités
I
Sur le fond, la densité noyau (univariée) est une ligne
I que l’on dessine
I qui s’ajuste d’une certaine manière au nuage de points
I concrètement : elle représente la fréquence locale en chaque point
I
On est proche d’une logique de régression
I Il faut conditionner
I Il y a d’autres façons de dessiner
I Splines, “nearest neighbor”, “neural network”...
I Dans ce cours, on reste sur le noyau.
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Choisir la bandwidth
Sommaire
Estimation de fonction de densité et probabilité
Choisir la bandwidth Estimation d’une densité conditionnelle
Régression
Kernel Local Constant KLC Kernel Local Polynomial KLL
Exemples
Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé
Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Choisir la bandwidth
Propriétés de l’estimateur noyau univarié
I
En 1D, 2D ou plus,
I La fonction kernel doit se comporter comme une densité
I de moyenne nulle
I et de variance finie Z
K(z)dz=1 Z
zK(z)dz=0 Z
z2K(z)dz=2<1
I Le support est généralement 1,+1
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Choisir la bandwidth
Erreur carrée moyenne (mean square error) MSE
I
Les fonctions noyau sont svt choisies sur un critère de MSE
I
Le bias de l’estimateur
fˆNOYAU(x)est
fˆ(x) f (x)(on laisse tomber “NOYAU” quand il n’y a pas confusion)
I
La MSE est
msefˆ(x) =E biais2 =varfˆ(x) +biais2
on peut montrer que
biaisfˆ(x)t h2
2
@f (x)
@x2 2 varfˆ(x)t f (x)
nh Z
K2(z)dz
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Choisir la bandwidth
Erreur carrée moyenne (mean square error) MSE
I
On voit que
I La variancediminueavec la bandwidthh
I Le biaisaugmenteavec le carré de la bandwidthh
I Le biais augmente avec la dérivée 2ºde f()
I il est donc au + fort autour du/des pics de la distribution I
Ces formules ont lieu en un point
I
On peut intégrer le mse sur
zpour obtenir une mse globale
imsefˆ(x) =Z
msefˆ(x)dx
I
On cherche le kernel
Ket la bandwidth
hqui minimisent
imseStatistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Choisir la bandwidth
Erreur carrée moyenne (mean square error) MSE
I
Le Kernel optimal est
Ke(z) = ( 3
4p
5
1
15z2 p5
z p5
0
sinonqu’on appelle kernel d’Epanechnikov du nom de son inventeur
I
Il se fait que pas mal de kernels ont des propriétés semblables
I donc le kernel est souvent choisi pour des raisons informatiques
I le kernel gaussien est le + souvent choisi
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Choisir la bandwidth
Choix de bandwidth
I
Au contraire du Kernel,
I l’optimisation précédente n’amène pas à une bandwidth utilisable en pratique
I Mais la bandwidth détermine l’ajustement bien plus que le kernel
I
Il est important d’en choisir une appropriée au problème traité
I Il y a 4 grandes approches 1. Heuristique (rule of thumb) 2. Plug-in – je ne poursuis pas 3. Validation croisée
3.1 par Moindres Carrés
3.2 par Maximum de Vraisemblance 4. Bootstrap
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Choisir la bandwidth
Heuristique “référence”
I
Le principe est d’utiliser le kernel choisi pour calculer la bandwidth optimale
I
Comme souvent ce kernel est le kernel gaussien
I Ça donne une bandwidth de 1.06 n 1/5
I nest la taille d’éch.
I est l’écart-type de la normale utilisée dans le kernel
I en pratique, on prendˆl’écart-type de l’échantillon
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Choisir la bandwidth
Autres méthodes
I
Validation croisée par Moindres Carrés
I Il est possible d’estimer le imse à partir de l’éch.
I Cet imse dépend du bandwidth
I On peut alors choisir le bandwidth qui minimise l’imse
I Cette approche est la meilleure de celles présentées
I mais est sensible à de petites variations des données (arrondis...)
I
Validation croisée par Maximum de Vraisemblance
I Même idée que la précédente, autre façon d’estimer le imse
I Tend à sur-lisser (gommer les variations)
I
Par bootstrap
I Toujours l’idée d’estimer le imse
I Trop exigeante sur le plan calculatoire
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Choisir la bandwidth
Conclusion
I
On pourrait poursuivre avec
I Comment estimer une densité discrète
I Comment estimer une multivariée
I Illustration graphique prochaine dia I
On va plutôt passer à l’analyse conditionnelle
I Prélude à la régression
I
Sur l’estimation d’une densité inconditionnelle
I La comparaison n’est pas tellement “paramétrique” vs. np
I car paramétrique est souvent mal spécifié, donc inconsistant
I alors que np ne peut pas être mal spécifié
I mais par contre est assez inefficient
Estimations de densités multivariées par np dans R
I #### dynamic bivariate density plot avec donnees simulees
I Exécuter le programme
I Sélectionner tout le progr
I jusque#### FIN dynamic bivariate density plot simulation normales
I et “run”
I Mettez en grand la fenêtre de sortie (zoom ou agrandir manuellement)
I ‘sliders’ and ‘pickers’ qui permettent de changer
I kernel function & order (une propriété math du kernel qu’on ne voit pas)
I scale factors (la bandwidth est calculée automatiquement, scale factor prend une part de cette bandwidth, donc équivalent à la bandwidth)
I azimuthal viewing direction (point de vue)
I number of training (essentiellement = gridsize)
I number of evaluation observations (taille de l’éch.) I #### dynamic bivariate density plot avec donnees réelles
Geyser
I Idem sur données réelles
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Estimation d’une densité conditionnelle
Sommaire
Estimation de fonction de densité et probabilité
Choisir la bandwidth Estimation d’une densité conditionnelle
Régression
Kernel Local Constant KLC Kernel Local Polynomial KLL
Exemples
Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé
Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Estimation d’une densité conditionnelle
Estimation d’une densité conditionnelle
I
La densité conditionnelle est sous-jacente à l’analyse de régression
I Mais est rarement modélisée directement
I En np, il est plus clair de passer par cette étape
I
Soit
f (.)la densité jointe de
(X,Y)I pour rappelPr{X x,Y y}=RxRy
f (.)dydx =f(x,y)
I µ(.)la densité marginale de X
I µ(.) =R f(.)dY
I “integrateY out”
I
Pour la suite,
I Y est la variable dépendante
I est expliquée
I X est un régresseur
I est explicative
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Estimation d’une densité conditionnelle
Densité conditionnelle
I
La densité conditionnelle est
Pr{Y y|X x}=g(y|x) =f (x,y)/µ(x)
I
L’estimateur noyau de cette densité est
ˆg(y|x) = ˆf (x,y)/µˆ(x)
I µˆ(x)est l’estimateur noyau univarié vu à la section précédente
I fˆ(x,y)est une extension bivariée de cet estimateur
I Il faudrait discuter le choix de bandwidth
I La commande correspondante de np estnpcdensbw
I Conditionnal DENSity avec BandWidth par cv.ls (cross-validation par Least squares)
I En général, on n’utilise pas directement cette commande, qui est appelée par d’autre procédures
R #### Least-squares cross-validated conditional density estimation
I
On génère (via une normale bivariée)
I n <- 500
I rho <- 0.25pour sigma ci-dessous
I mu <- c(0,0)moyenne des variables a generer
I Sigma <- matrix(c(1,rho,rho,1),2,2)matrice de var-cov des variables a generer
I donc ici : générer un normale bivariée dont le mu contient 2 moyennes nulles (dist. marg.) et sigma indique une matrice avec des variance a 1 et des cov a rho=.25
I rem. les deux chiffres qui suivent dans sigma indiquent "2L 2C"
I data <- mvrnorm(n=n, mu, Sigma)genere des valeurs d’une normale multivariee
I mydat <- data.frame(x=data[,2],y=data[,1])
I y et x dont la corrélation est contrôlée par rho I
Ensuite npcdensbw va estimer
gˆ(y|x) = ˆf (x,y)/ˆµ(x)I Prend un peu de temps, selon la machine
I
Output graphique essentiellement
I (x, y, densité)
I on doit voir un graphique qui tourne
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Estimation d’une densité conditionnelle
Exercice
I
Pour voir comment la relation entre x et y change, changer les paramètres de la normale bivariée
I corrélation rho élevée, ou
I moyennes mu non-nulles
I variances fort différentes (à l’intérieur de sigma)
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Estimation d’une densité conditionnelle
Régresseurs non-pertinents
I
Pour estimer une fonction
g(y|x) =f (x,y)/µ(x)I conditionnelle à pls régresseursx vecteur
I il faut intégrer autant de fois que de régresseurs
I pour obtenir la distribution multidim. des régresseurs I
On peut montrer que la convergence de
fˆ(.)à
f (.)I se détériore rapidement lorsque le nombre de variables continue augmente
I “malédiction de la dimensionalité”
I
Il est donc particulièrement important en np
I d’éviter les régresseurs non-pertinents
I Idéalement, ils sont “smoothed out” :
I Pour unx non pertinent, le graphe dey reste le même pour tous les niveaux dex
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Estimation de fonction de densité et probabilité
Estimation d’une densité conditionnelle
Régresseurs non-pertinents
I
Hall et al. (2004) montre que
I Une version de la validation croisée par MC
I assigne automatiquement un fort paramètre de lissage aux régresseurs non-pertinents
I leur dist. marginale tend à l’uniforme
I cela supprime leur contribution à la variance de l’estimateur
I et donc montre qu’ils sont indép. de la variable expliquée
I Les variables pertinentes par contre sont lissées de façon usuelle
I Pas vers l’uniforme
I
Donc choisir la validation croisée par MC
I permet de trier les régresseurs pertinents et non.
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Sommaire
Estimation de fonction de densité et probabilité Régression
Modèles semiparamétriques LOESS
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Kernel Local Constant KLC
Sommaire
Estimation de fonction de densité et probabilité
Choisir la bandwidth Estimation d’une densité conditionnelle
Régression
Kernel Local Constant KLC Kernel Local Polynomial KLL
Exemples
Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé
Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Kernel Local Constant KLC
Cas bivarié
I
Cet estimateur de régression est connu aussi sous le nom
“Nadaraya–Watson”
I de ceux qui l’ont proposé
I
On ne prend qu’un régresseur pour commencer
I par simplicité de notation
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Kernel Local Constant KLC
Moyenne conditionnelle g ˆ (x )
I
Par définition, la moyenne conditionnelle de
Ycontinue est
g(x) =Z
yg(y|x)dy = Z
yf (y,x)
f (x) dy = m(x) f (x)
où
g(y|x)est la densité conditionnelle de la section précédente et
m(x) =Ryf (y,x)dy
une moyenne “partielle”
I
L’estimateur Kernel Local Constant KLC
I est celui défini à la section précédente
ˆ g(x) =
Z
yfˆ(y,x) fˆ(x) dy=
Pn i=1yiK
✓xi x h
◆
Pn
i=1K
✓xi x h
◆
I c’est un estimateur consistant de la moyenne conditionnelle
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Kernel Local Constant KLC
Biais et variance
I
L’estimateur Kernel Local Constant KLC
I souffre de “biais sur les bords”
I p.e. on peut calculer dans le cas bivarié que
biais th2 1
2g00(x) +g0(x)f0(x) f (x)
!
2
I Quand on approche du “bord” des données
I f(x)!0 donc le biais augmente
I Ce problème n’est pas partagé par l’estimateur “polynome local” de la section suivante car le 2ºterme à l’intérieur de la parenthèse disparait dans le cas linéaire
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Kernel Local Constant KLC
Bandwidths : optimale et basée sur données
I
La bandwidth optimale de l’estimateur KLC
I dépend de quantités inconnues, comme précédemment
I Elle ne peut être calculée dans le cas de régression
I On va donc utiliser une bandwidth basée sur les données
I
Deux calculs de bandwidth basés sur les données
I Sont populaires
I Validation croisée moindres carrés (cfr section précédente)
I Minimiser le critère d’information d’Akaike (Hurvich)
I On a montré qu’ils sont asymptotiquement équivalents
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Kernel Local Constant KLC
Régresseurs pertinents et non-pertinents
I
Il a été montré (cfr sect. densité cond.) que
I la validation croisée par MC
I mène à un lissage optimal des 2 types de régresseurs
I Les non-pertinents n’ont plus d’effet sur la variance de l’estimateur
I
La malédiction de la dimensionalité
I implique que les non-pertinents doivent être retirés de la régression
I afin de réduire le bruit autour des pertinents
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Kernel Local Constant KLC
Effets marginaux avec KLC “ ˆ (x )”
I
On appelle “effet marginal” ou “réponse”
I L’effet dex surg(x) =R
yg(y|x)dy
I donc sur la moyenne conditionnelle dey
I Par analogie avec le modèle de régression linéairey =x +✏
I on appelle cette réponse (x) I (x) =@g(x)
@x = f (x)m0(x) m(x)f0(x) f2(x)
I puisqueg(x) = m(x) f(x)
I donc (x) = m0(x)
f (x) g(x)f0(x) f (x)
I
On remplace par les estimations de ces valeurs
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Kernel Local Constant KLC
Effets marginaux avec KLC “ ˆ (x )”
ˆ (x) = mˆ0(x)
fˆ(x) gˆ(x)fˆ0(x) fˆ(x)
avec
ˆm(x) = 1 nh
Pn i=1yiK
✓xi x h
◆
fˆ(x) = 1 nh
Pn
i=1K
✓xi x h
◆ ˆ
m0(x) = 1 nh2
Pn i=1yiK0
✓xi x h
◆
fˆ0(x) = 1 nh2
Pn i=1K0
✓xi x h
◆
I
L’effet marginal n’est jamais constant
$régression linéaire
I On verra mieux dans les exemples
I
En multivarié (plusieurs régresseurs)
I C’est plus compliqué, mais le fond est le même
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Kernel Local Constant KLC
Conclusion sur Kernel Local Constant
I
On a donc un estimateur de
régressionnp
I à Validation croisée moindres carrés
I qui fait que
I les régresseurs non-pertinents disparaissent d’eux mêmes
I on peut calculer les effets marginaux ˆ (x) I
On va voir un autre estimateur
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Kernel Local Polynomial KLL
Sommaire
Estimation de fonction de densité et probabilité
Choisir la bandwidth Estimation d’une densité conditionnelle
Régression
Kernel Local Constant KLC Kernel Local Polynomial KLL
Exemples
Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé
Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Kernel Local Polynomial KLL
Analogie
I
Le KLC peut être réécrit comme minimisation de
ˆg(x)⌘min
a
Xn i=1
(yi a)K
✓xi x h
◆
I
On généralise en mettant un polynome à la place de
aI Le plus populaire est le linéaire ˆ
g(x)⌘min
a,b
Xn i=1
(yi a b(xi x))2K
✓xi x h
◆
qui s’interprête en disant qu’autour d’un pointx0, la régression est approx. linéaire
g(x0)ta+b(x0 x)
I C’est l’estimateur Kernel Local Polynomial (ou Linéaire)
I KLP ou KLL
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Kernel Local Polynomial KLL
Propriétés
I
Le terme
aest alors la moyenne conditionnelle
g(x)I Comme l’intercept dans une régression linéaire
I
Le terme
best la pente,
I donc l’effet d’un changement marginal dex surg(x)
I c’est-à-dire le ˆ (x)de l’estimateur KLC
I
Cet estimateur KLP souffre moins du “biais de bord” que KLC
I mais est sujet à des problème de singularité (= n’est pas défini)
I lorsqu’il y a localement peu de données I
On peut calculer des biais et variances approximés
I comme avec KLC
I
Les régresseurs non-pertinents
I ne disparaissent pas d’eux-mêmes
I ne sont pas “smoothed-out” comme avec KLC
I provoquent une variabilité excessive
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Exemples
Sommaire
Estimation de fonction de densité et probabilité
Choisir la bandwidth Estimation d’une densité conditionnelle
Régression
Kernel Local Constant KLC Kernel Local Polynomial KLL
Exemples
Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé
Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Exemples
Ex 1. Régression sur données simulées #### Regr. sim.
I
Génération des données
I n <- 50Ech de taille 50
I x <- sort(runif(n))runif : suffixe r pour donnees sim, unif pour uniforme
I x.seq <- seq(0,1,length=1000)séquence de 1000 chiffres de 0 à 1, servira à faire des graphes
I y <- sin(2*pi*x) + rnorm(n,sd=0.25)valeurs simulées de y
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Exemples
Ex 1. Régression sur données simulées #### Regr. sim.
I
Régressions np
I Calcul des bandwidths
I bw.lc <- npregbw(y~x,regtype="lc")y~x, kernel local constant
I bw.ll <- npregbw(y~x,regtype="ll")idem, kernel local linéaire
I Commandenpreg
I model.lc <- npreg(bws=bw.lc,gradient=TRUE)il faut donner la bandwidth
I les points de données sont appeles "training points"
I gradient = trueindique que les gradients (donc les pentes, les betas) sont stockes dans un objet "npregression"
I summary(model.lc)la sortie, assez fruste, pas de coef estimé par définition
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Exemples
Ex 1. Regression sur données simulées
I
Premières sorties graphiques
I plot(x,y,cex=0.2)les données
I lines(x.seq,sin(2*pi*x.seq),col="black",lty=1)les y sans erreur (bruit)
I lines(x,sin(2*pi*x),col="red",lty=1)idem mais sur les n=50 points de l’ech.
I lines(x,fitted(model.lc),col="red",lty=2)y ajustes avec lc, fitted(model.ll)
I gˆ(x)= estimation de l’espérance cond. de y|x
I “biais de bord”
I lines(x,fitted(model.ll),col="blue",lty=3)y ajustes avec ll - assez proche
I pls comparaisons avec moindres carrés
I
Exercice. Répétez le programme en changeant
I la taille d’éch. à 100
I la façon de générery
I p.e. comme la somme ou le ratio de 2 normales pour avoir une dist. bimodale
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Exemples
Ex 1. Regression sur données simulées
I
Deuxième sortie graphique
I gradient ˆ (x) =@gˆ(x)
@x en fonction de x : non-linéaire
I
plot(x,2*pi*cos(2*pi*x),ylab="dy/dx",col="black",type="l",lty=1) (x)"réel" dy/dx
I lines(x,gradients(model.lc)[,1],col="red",lty=2) ˆ (x)estimé par lc
I lines(x,gradients(model.ll)[,1],col="blue",lty=3) ˆ (x)estimé par ll
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Exemples
Ex 1. Regression sur données simulées
I
Troisième sortie graphique : Effet de la bandwidth
I bw.lc$bw[1] <- 1e05Change la bandwidth : bcp trop grande
I bw.ll$bw[1] <- 1e05
I model.lc <- npreg(bws=bw.lc,gradient=TRUE)Recalculer les régressions à p. de ces bandwidths
I model.ll <- npreg(bws=bw.ll,gradient=TRUE)
I Graphique
I plot(x,y,cex=0.2)Les données
I lines(x.seq,sin(2*pi*x.seq),col="black",lty=1)les y sans erreurs
I lines(x,fitted(model.lc),col="red",lty=2)valeurs ajustées : droite plate
I lines(x,fitted(model.ll),col="blue",lty=3)valeurs ajustées : droite pente nég.
I On voit pourquoi on appelle aussi les régressions np
“scatterplot smoothing”
I Elles aident à voir les relations entre variables
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Exemples
Ex. Comparaison de méthodes de choix de Bandwidth
I #### Regr. bandwidth
I
5 bandwidths
I 1 plug-in du package KernSmooth
I Avec la commande locpoly de régression np de ce package
I Pour les 4 autres, commandenpregbwdu package np
I servant à optimiser la bandwidth
I 2 arbitraires à partir du package np sans optimiser, avec Local Linear
I On prend un chiffre en lien avec la mesure du régresseur
I On divise : “undersmoothed bandwidth” trop fine! ajustement trop collé aux données
I On multiplie “oversmoothed badnwidth” trop large!faible ajustement
I 2 optimales selon package np, avec cross-validation : Moindres carrés et AIC
I Ce sont les 2 cross-validations fournies par le package I
Plot en 4 tableaux
I Regroupe les 2 cv
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Exemples
Ex. Comparaison de méthodes de choix de Bandwidth
I
Exercice
I Séparer le plot des 2 cv en 2 et supprimer le plug-in
I Changer les 2 bw arbitraires under et over pour les rapprocher
I Comparer avec lc au lieu de ll
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Exemples
Et le t ?
I
Comment voit-on la significativité de l’effet marginal ?
I
Les graphes mettent des intervales de confiance
I On va voir ça dans le prochain exemple
I
La section suivante “Test d’hypothèse consistant”
I présente des tests formels (non graphiques)
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Exemples
Ex. Multivariate Mixed-Data Application
I #### 3.2.3.c Ex. regr. mixte (cont. & cat) Part 1
I Graphique en 3D et en perspective
I npudensbw(~lwage+ordered(numdep),data=wage1)calcule la bandwidth pour une bivariee (les 2 var sont a D du ~)
I Pq ordered ? pcq + loin on utilise pour le graphique, il faut que les natures des variables restent les mêmes
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Exemples
Ex. Multivariate Mixed-Data Application
I #### 3.2.3.c Ex. regr. mixte (cont. & cat) Part 2
I On calcule un bandwidth pour la régression de lwage sur female, married, educ, exper, tenure
I Pas besoin de exper^2 c’est la régression qui regarde la relation
I La bandwidth diffère par régresseur
I Graphique de la moyenne conditionnelle de y à chaque niveau du régresseur
I On voit les effets “classiques” : salaire plus bas pour les femmes, rendement décroissant de l’exp. (plus prononcé que d’habitude à cause de tenure sans doute)
I Constater graphiquement que la significativité n’est pas constante puisque l’intervalle de confiance évolue selonx
I Graphique du gradient
I Évolution du “coefficient” ˆ (x)en fonction du x
I Avec sont intervalle de confiance graphique
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Exemples
Exercice
I
Répliquer en changeant la CV ou le kernel (LC au lieu de LL)
I
Répliquer avec les données bwages du package Ecdat
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Tests d’hypothèses
Sommaire
Estimation de fonction de densité et probabilité
Choisir la bandwidth Estimation d’une densité conditionnelle
Régression
Kernel Local Constant KLC Kernel Local Polynomial KLL
Exemples
Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé
Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Tests d’hypothèses
Intro
I
On ne revient pas sur les tests np de la 1º partie du cours
I il s’agit de tests en contexte de régression
I
Soit tester une spécification paramétrique
I Permet de justifier une approche np
I
Soit tester la significativité des régresseurs d’une régression np
I l’équivalent des t-stats
I Un régresseur parmi pls
I On n’a pas d’équivalent au testF
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Tests d’hypothèses
Un test de significativité pour des régressions np
I
Il y a pls approches
I On prend ici celle de Racine qui accepte des régresseurs continus & cat.
I
On va regarder d’abord cat.
I puis continu
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Tests d’hypothèses
Un test de significativité : régresseurs catégoriques
I
Soit
I z le régr. cat qui peut être non-pertinent
I X tous les autres régresseurs
I L’hyp. nulle est
H0:E(Y|X,z) =E(Y|X) presque partout
L’alternative est que l’égalité est en fait6=(2-tailed)
I
Pour simplifier on écrit
I g(x) =E(Y|x)etm(x,z) =E(Y|X,z)
I disons que z prendc valeurs dont la 1ºest zéro
I sic=2, z est une dichotomique, le cas le + fréquent
I H0peut alors s’écrirem(x,z =l) =m(x,z =0)8l
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Tests d’hypothèses
Un test de significativité : régresseurs catégoriques
I
La stat de test est un estimateur de
I =
c 1
X
l=1
En
[m(x,z =l) m(x,z =
0)]
2oI
Pour la calculer
I On prend les valeurs estimées par KLC ou KLL dem
I On somme sur toutes lesl6=0
I et sur toutes les obs.
I On voit bien queI 0
I et quez est non signif. siI est proche de zéro I
Il n’y a pas de distribution connue
I Il faut faire du bootstrap
I Mis en oeuvre dansnpsigtest( )
I On verra dans l’exemple
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Tests d’hypothèses
Un test de significativité : régresseurs continus
I H0
est la même,
I mais “presque partout”
I car on a en quelque sorte1catégories
I Équivalent à @E(y|x,z)
@z = (z) =0 presque partout
I
La stat de test est un estimateur de
I =En[ (z)]2o
I On calcule son estimation KLC ou KLLIn=1nPn
i=1ˆ (zi)2
I Comme dans le cas catégorique, la dist. deIn est inconnue
I On utilise bootstrap
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Tests d’hypothèses
Ex. Regression mixte (cont & cat.)
I
On poursuit l’exemple précédent – part 3
I #### 3.2.3.c Ex. regr. mixte (cont. & cat)
I # Part 3 Tests de significativite
I On avait estimé
I bw.all <- npregbw(formula=lwage~factor(female)+
factor(married)+ educ+ exper+ tenure, regtype="ll", bwmethod="cv.aic", data=wage1)
I En pratique, le test est simple
I on passe l’objet bandwidth de la régression associée
I Par contre le temps de calcul est plus long I
Le package
I distingue le cat et le cont
I fait le test adéquat
I
Pas de test sur plusieurs coef conjointement
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Tests d’hypothèses
Tester une spécification paramétrique
I
On veut tester si un modèle
param. est correct H0 : E(Y|x) =m(x, 0)pour presque tous les
xpour un certain
0vecteur
(p⇥1) de paramètres
et
m(x, )une fonction connue (possiblement non-linéaire)
I
En définissant
µi =yi m(xi, 0)
alors on peut écrire
Ho : E(µi|xi) =
0
pour presque toutes les valeurs possibles de
xStatistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Tests d’hypothèses
Tester une spécification paramétrique
I
Un test consistant de spécification du modèle paramétrique peut être construit
I sur la base des résidus du modèle paramétrique ˆ
µi =yi m(xi,ˆ)
I en estimantE(µi|xi)de manière non-paramétrique
I au moyen d’une technique de bootstrap
I
La stat calculée se nomme
JnI Mis en oeuvre dansnpcmstest( )
I Il faut d’abord estimer soit unlmsoit unglm
I ley doit être continu, donc pas probit, logit, Poisson
I en précisant les arguments x=TRUE, y=TRUE qui font que x et y vont être stockés dans l’objet résultat
I Ensuite il faut stocker lesxdans un dataframe
I npcmstestprend comme arg l’objet résultat du modèle param., lex et ley
I On peut employersummarysurnpcmstest
I Si on R H0, le modèle param est mal spécifié
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Tests d’hypothèses
Ex. Tester une spécification paramétrique
I
On poursuit l’exemple précédent – part 4
I #### 3.2.3.c Ex. regr. mixte (cont. & cat)
I # Part 4. Test de specification param.
I On prend un modèle linéaire classique du modèle np qu’on a estimé auparavant
lwage= 0+ 1Femme+ 2Marie´+ 3Educ+ 4Exp+ 5Tenure Rem. Tenure = durée dans l’emploi actuel
I Ici, on obtient une p-valeur <5% largement
I R le modèle linéaire I
Exercice
I Refaites le test en ajoutant l’exp. quadratique
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Qualité de l’ajustement
Sommaire
Estimation de fonction de densité et probabilité
Choisir la bandwidth Estimation d’une densité conditionnelle
Régression
Kernel Local Constant KLC Kernel Local Polynomial KLL
Exemples
Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé
Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Qualité de l’ajustement
Qualité de l’ajustement (Goodness-of-Fit)
I
Essentiellement, une mesure de
R2en np
R2 = [Pni=1(yi y) (ˆ¯ yi y¯)]2 Pn
i=1(yi y)¯ 2Pn
i=1(ˆyi y¯)2 ˆ
yi
est la valeur ajustée de
yiI doncˆg(xi)
I
0
R2 1
I 1 est un ajustement parfait
I 0 aucun pouvoir prédictif au-delà de la moyenne inconditionnelle
I Cette mesure est un des produits de la commandenpreg
I accessible parR2etsummary I
Dans le cas d’un modèle linéaire
I estimé par MCO avec un intercept
I Cette définition duR2 produit le même chiffre que la définition classique
I basée sur les résidus
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Qualité de l’ajustement
Régression np – résumé de l’approche kernel
I
D’abord il faut calculer une bw
I bw.all<- npregbw
I on peut préciser ici LL ou LC & la cross-validation I
Ensuite la régression
I model.np <- npreg(bws=bw.all)
I summary(model.np) présente la qualité de l’ajustement
“R-squared”
I À ce stade on peut “plot”
I avec les marges d’erreur I
Puis les tests
I Significativité des régresseurs
I Spécification paramétrique
I Si celle-ci n’est pas rejetée, mieux vaut l’utiliser, car + efficiente
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Modèles à données de panel
Sommaire
Estimation de fonction de densité et probabilité
Choisir la bandwidth Estimation d’une densité conditionnelle
Régression
Kernel Local Constant KLC Kernel Local Polynomial KLL
Exemples
Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé
Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Modèles à données de panel
Rappel
I
Un panel est une coupe transversale répétée dans le temps
tI en principe sur les mêmesi
I sauf attrition, qu’on suppose non-endogène
I Pour simplifier tous lesi sont observésT fois
I Je ne suis pas sûr que tous les modèles aient été développés des panels non-cylindrés
I
Lorsque
Test grand
I chaque série dei peut être analysée séparemment en séries temp.
I qu’on ne voit pas pour np
I
Donc, on se place en panels courts :
n! 1mais
Tcst
I
Les données de panel sont notées
hyit,xitiStatistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Modèles à données de panel
Panels non-paramétriques
I
Dans le modèle panel linéaire
yit=↵i +xit0 +✏it
on pouvait accepter que
I ↵i soit la partie constante dans le temps, pari, du terme d’erreur
I qu’elle soit corrélée avecxit (les “effets fixes”)
I car on pouvait s’en débarrasser par les estimateurs within ou différence 1º
I Cette hyp. d’additivité de l’hétérogénéité inobservée
I Fait disparaitre les régresseurs constants dans le temps I
En np, on n’a pas d’hyp. d’additivité
I Une série d’estimateurs a été proposée
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Modèles à données de panel
Panel dans np
I
Le package np propose l’estimateur suivant
I
Soit le modèle np
yit =g(xit) +uit
g(.)
est une fonction lisse inconnue
xcontient
qrégresseurs
E(uit|xi1, . . . ,xiT) =
0 exogénéité stricte
I
On introduit l’hétérogénéité inobservée constante dans le temps
I par une variable discrète non-ordonnée
i=i,i =1, ...,n
ce qui introduit de faitncatégories qui ressemblent au↵i du model panel
I xit!(zit, i)
I Ces cat nous rapprochent du contexte de la régression np
I avec un mélange de régresseurs cat. et continus
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Modèles à données de panel
Panel dans np
I
Si le “régresseur” catégorique n’est pas significatif
I g(zit, i) =g(zit): Les données sont de fait mélangées
I npsigtest( )permet ce test
I
Par contre, s’il est significatif
I Les pentes pari sont différentesg(zit, i) =gi(zit)
I Donc les données de différents i ne sont pas mélangeables
I
L’analyse Panel n’est donc pas complètement implémentée dans np
I Car l’endogénéité ne parait pas traitée / éliminée comme avec effets fixes
I mais np apporte un complément d’analyse
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Modèles à données de panel
Ex. Panel dans np
I #### Ex. regr. panel
I
Panel annuel sur les coûts de 6 cies aériennes US
I 15 ans 1970 à 1984 (cylindré)
I airlinei traité comme factor non-ordonné
I yeart factor ordonné
I log of cost lcost, log output (passagers⇥miles), log prix fuel lpf, “load factor” lf capacité utilisée moyenne de la flotte
I
BW : petite pour “airline”
I suggère de ne pas mélanger les données
I Donc de faire pls séries temp
I npsigtestsemble produire des résultats aberrants (significativité extrême)
I Mais il faudrait un test qui tienne compte de la structure d’hétéroc. & de correl.
I
Dans le plot diapo suivante
I On voit un effet marqué par airline (t↵i)
I et des pentes plutôt linéaires
I au total, plutôt favorable au modèle param. linéaire classique ?
Panel dans np – exemple
Exercice
I
Répliquer en utilisant les données Grunfeld du package plm
I En changeant CV ou kernel (LC / LL)
Statistiques non-paramétriques : Ch. 3. Économétrie non-paramétrique 2017-18 Régression
Résumé
Sommaire
Estimation de fonction de densité et probabilité
Choisir la bandwidth Estimation d’une densité conditionnelle
Régression
Kernel Local Constant KLC Kernel Local Polynomial KLL
Exemples
Tests d’hypothèses Qualité de l’ajustement Modèles à données de panel Résumé
Modèles semiparamétriques Extensions du modèle linéaire Modèles à index unique LOESS