Statistiques non-paramétriques
M2 CEE
Pr. Philippe Polomé, Université Lumière Lyon 2
2016 – 2017
Table des matières
Motivation
Organisation
Definitions
I
En stat, le terme "non-paramétrique" a plusieurs significations :
1. Des
statsdites non-paramétriques
I Qui ne s’appuient pas sur un paramètre
I p.e. les stat d’ordre, qui s’appuient sur le rang des observations dans l’échantillon
2. Des techniques qui ne s’appuient pas sur une distribution en particulier
I Dites “libre de distribution” [distribution free]
I p.e. le test t-stat ne peut être obtenu que si✏⇠n(., .)
3. Des techniques qui ne supposent pas que le modèle est fixe dans tout l’échantillon
I Le nombre de paramètres du modèle grandit avec la taille de l’échantillon
Applications
I
2 grands domaines
I Régressions
I lorsque la forme fonctionnelle de la relation n’est pas établie
I Tests
I lorsque les données sont des classements I
Avantages
I Moins d’hypothèses, donc + robustes
I
Inconvénient
I Plus d’observations sont nécessaires pour atteindre la même puissance
I C’est la monnaie de la pièce d’avoir moins d’hypothèses
Table des matières
Motivation
Organisation
Plan par Ch
1. Tests non-paramétriques classiques et randomisation 2. Graphe & Régressions
2.1 Histogramme 2.2 Kernel smoother 2.3 Régression à kernel 2.4 Tests d’hypothèses
3. Bootstrap
Tests & Graphes
I
Il s’agit souvent de tests d’indépendance
I Entre un éch. & une distribution théorique
I Entre 2 ou + éch.
I
Ces tests sont anciens
I Correspondant à des usages assez cadrés
I dans un tableau
I Des implémentations modernes facilitent/généralisent les traitements
I Permutations / randomisations
I
Les graphes sont des représentations des données
I S’appuyant sur des approximations locales
I Sur le fond, traçant une courbe dans un nuage de points...
Régressions np
I
Il n’y a pas un traitement unifié de np
I Au contraire de MC p.e.
I
Privilégier une approche
I opérationnelle : on peut estimer plusieurs modèles
I moderne
I relativement unifiée
I
On suit un auteur principalement : J. Racine
I Méthodes présentées dans un livre opérationnel assez simple
I Nonparametric Econometrics : A Primer (2008)
I Dispo en ligne (google)
I Suivant un package R “np”
I npRmpi pour la parallélisation (pas utilisé dans ce cours)
I crs (Categorical data Regression Spline)
Bootstrap
I
Les techniques de tests en np utilisent le bootstrap
I
La randomisation peut être vue comme un bootstrap
On ne voit pas
I
LOESS - LOWESS
I “locally weighted scatterplot smoothing”
I une technique assez classique
I Suivant “K-nearest neighbors” : un algorithme intéressant I
Semi-paramétrique
I Type Klein-Spady ou Ichimura
I Modèles à coefficients aléatoires
I Modèles partiellement linéaires
Évaluation
I
Examen final écrit
I Ça n’est pas idéal
I Mais je n’ai pas assez de recul pour faire autre chose
Biblio principale
I
Sidney Siegel “Non-parametric Statistics for the Behavioural Sciences” – nombreuses éditions
I
Racine, Nonparametric Econometrics : A Primer (2008)
I R code to replicate examples in this primer
I http ://socserv.mcmaster.ca/racine/primer_code.zip I
Package np & associés
I Site http ://socserv.mcmaster.ca/racinej/Gallery/Home.html
I np package manual
I http ://cran.r-project.org/web/packages/np/vignettes/np.pdf
I crs package manual
I http ://cran.r-project.org/web/packages/crs/vignettes/crs.pdf I