Statistiques non-paramétriques M2 CEE Pr. Philippe Polomé, Université Lumière Lyon 2 2016 – 2017

(1)

Statistiques non-paramétriques

M2 CEE

Pr. Philippe Polomé, Université Lumière Lyon 2

2016 – 2017

(2)

Table des matières

Motivation

Organisation

(3)

Definitions

I

En stat, le terme "non-paramétrique" a plusieurs significations :

1. Des

stats

dites non-paramétriques

I Qui ne s’appuient pas sur un paramètre

I p.e. les stat d’ordre, qui s’appuient sur le rang des observations dans l’échantillon

2. Des techniques qui ne s’appuient pas sur une distribution en particulier

I Dites “libre de distribution” [distribution free]

I p.e. le test t-stat ne peut être obtenu que si✏⇠n(., .)

3. Des techniques qui ne supposent pas que le modèle est fixe dans tout l’échantillon

I Le nombre de paramètres du modèle grandit avec la taille de l’échantillon

(4)

Applications

I

2 grands domaines

I Régressions

I lorsque la forme fonctionnelle de la relation n’est pas établie

I Tests

I lorsque les données sont des classements I

Avantages

I Moins d’hypothèses, donc + robustes

I

Inconvénient

I Plus d’observations sont nécessaires pour atteindre la même puissance

I C’est la monnaie de la pièce d’avoir moins d’hypothèses

(5)

Table des matières

Motivation

Organisation

(6)

Plan par Ch

1. Tests non-paramétriques classiques et randomisation 2. Graphe & Régressions

2.1 Histogramme 2.2 Kernel smoother 2.3 Régression à kernel 2.4 Tests d’hypothèses

3. Bootstrap

(7)

Tests & Graphes

I

Il s’agit souvent de tests d’indépendance

I Entre un éch. & une distribution théorique

I Entre 2 ou + éch.

I

Ces tests sont anciens

I Correspondant à des usages assez cadrés

I dans un tableau

I Des implémentations modernes facilitent/généralisent les traitements

I Permutations / randomisations

I

Les graphes sont des représentations des données

I S’appuyant sur des approximations locales

I Sur le fond, traçant une courbe dans un nuage de points...

(8)

Régressions np

I

Il n’y a pas un traitement unifié de np

I Au contraire de MC p.e.

I

Privilégier une approche

I opérationnelle : on peut estimer plusieurs modèles

I moderne

I relativement unifiée

I

On suit un auteur principalement : J. Racine

I Méthodes présentées dans un livre opérationnel assez simple

I Nonparametric Econometrics : A Primer (2008)

I Dispo en ligne (google)

I Suivant un package R “np”

I npRmpi pour la parallélisation (pas utilisé dans ce cours)

I crs (Categorical data Regression Spline)

(9)

Bootstrap

I

Les techniques de tests en np utilisent le bootstrap

I

La randomisation peut être vue comme un bootstrap

(10)

On ne voit pas

I

LOESS - LOWESS

I “locally weighted scatterplot smoothing”

I une technique assez classique

I Suivant “K-nearest neighbors” : un algorithme intéressant I

Semi-paramétrique

I Type Klein-Spady ou Ichimura

I Modèles à coeﬃcients aléatoires

I Modèles partiellement linéaires

(11)

Évaluation

I

Examen final écrit

I Ça n’est pas idéal

I Mais je n’ai pas assez de recul pour faire autre chose

(12)

Biblio principale

I

Sidney Siegel “Non-parametric Statistics for the Behavioural Sciences” – nombreuses éditions

I

Racine, Nonparametric Econometrics : A Primer (2008)

I R code to replicate examples in this primer

I http ://socserv.mcmaster.ca/racine/primer_code.zip I

Package np & associés

I Site http ://socserv.mcmaster.ca/racinej/Gallery/Home.html

I np package manual

I http ://cran.r-project.org/web/packages/np/vignettes/np.pdf

I crs package manual

I http ://cran.r-project.org/web/packages/crs/vignettes/crs.pdf I

Statistiques non-paramétriques M2 CEE Pr. Philippe Polomé, Université Lumière Lyon 2 2016 – 2017