• Aucun résultat trouvé

Estimation adaptative par noyaux d´eform´es.

N/A
N/A
Protected

Academic year: 2022

Partager "Estimation adaptative par noyaux d´eform´es."

Copied!
19
0
0

Texte intégral

(1)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion R ´ef ´erences

E stimation adaptative par noyaux d´ eform´ es .

Ga ¨elle Chagny

Laboratoire Map5, UMR CNRS 8145, Universit ´e Paris Descartes

Colloque ”Jeunes Probabilistes et Statisticiens”, CIRM,

Lundi 16 avril 2012.

(2)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion R ´ef ´erences

Plan

Introduction Cadre g ´en ´eral Estimateurs `a noyaux Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal Cas F X inconnue Illustrations

R ´egression

Censure par intervalle Conclusion

R ´ef ´erences

(3)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion R ´ef ´erences

Cadre statistique

Estimation non param ´etrique

I Mod `ele : (X , Y ) couple de variables al ´eatoires r ´eelles, de support A × B ⊂ R 2 .

I

X variable de support A ⊂ R densit ´e : f X

fonction de r ´epartition : F X .

I Objectif : Reconstruire une fonction s, li ´ee aux variables (X , Y ) avec un estimateur `a noyau.

I Observations : (X i , Y i ) i ∈{ 1 ,..., n } (n ∈ N \{0}), i.i.d de m ˆeme loi

que (X, Y ).

(4)

Exemples ´etudi ´es

Exemples (X , Y ) s Hypoth `eses

Ex1 Y = s(X) + ε s ε ∈ L 2 ( P ), E [ε] = 0

R ´egression additive ε y X

Ex2 Y = σ(X )ε σ 2 ε ∈ L 4 ( P ), E [ε] = 0

R ´egression multiplicative E [ε 2 ] = 1, ε y X

Ex3 (X , Y = 1 Z ≤ X ) F Z Z, X ≥ 0

Censure par intervalle Z y X

Ex4 (X = Z ∧ C, Y = 1 Z C ) 1 f

Z

F

Z

Z, C ≥ 0

Censure droite F Z < 1, Z y C

(5)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion R ´ef ´erences

M ´ethode : Estimateurs `a noyaux

I Noyau : K : R → R , fonction int ´egrable, tq R

R K (x)dx = 1.

I Approximation de l’unit ´e :

I

H ⊂ R + (fen ˆetres), et

∀ h ∈ H, K h : x 7→ 1 h K

x h

I

Propri ´et ´e : si s est suffisamment r ´eguli `ere, K h ∗ s =

Z

R

K h (. − x ) s ( x ) dx −→

h → 0 s en un certain sens.

I Principe de l’estimation d’une fonction s avec des noyaux :

I

Trouver ψ telle que, pour tout h ∈ H , E [ψ(( X , Y ), K h )] = K h ∗ s.

I

Proposer un estimateur de type ”moment” pour s :

ˆ s h = 1 n

n

X

i=1

ψ(( X i , Y i ), K h )

I

Choisir une ”bonne” fen ˆetre ˆ h ∈ H sur la base des

observations

(6)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion R ´ef ´erences

M ´ethode : Estimateurs `a noyaux

Un exemple classique

I Ex1 : R ´egression additive, Y = s(X ) + ε

I Estimateur de Nadaraya-Watson (1964)

I

E [ YK h ( x − X )] = K h ∗ ( sf X )( x ) et E [ K h ( x − X )] = K h ∗ f X ( x ).

I

Id ´ee : s = sf X f X

K h ∗ ( sf X ) K h ∗ f X

.

I

Estimateur :

ˆ s NW ( x ) = 1 n

n

X

i=1

Y i K h ( x − X i )

1 n

n

X

i=1

K h ( x − X i )

... probl `eme : quotient.

I ... de m ˆeme dans les autres exemples ´etudi ´es : on ne peut

pas trouver ψ telle que E [ψ((X , Y ), K h )] = K h ∗ s.

(7)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion R ´ef ´erences

Estimateur pour une fen ˆetre fix ´ee

M ´ethode de d ´eformation

I Point cl ´e : Il existe une fonction φ X : A → φ X (A ) bijective, telle que

E [θ(Y )K h (u − φ X (X )] = K h ∗ (s ◦ φ X 1 )(u), avec θ( Y ) =

 

 

Y (Ex1,3,4) Y 2 (Ex2) I D ´eformation φ X :

I

φ X = F X , fonction de r ´epartition de X pour Ex1, Ex2 (r ´egression) et Ex3 (censure par intervalle)

bijective si f X > 0 sur A.

I

φ X = φ : x 7→ R x

0 ( 1 − F X ( t )) dt, dans l’Ex4 (censure `a droite) bijective si F X ( x ) < 1 pour tout x ∈ R + .

I M ´ethode :

1. Estimer g = s ◦ φ −1 X par un estimateur `a noyau ˆ g.

2. Poser

ˆ s =

 

 

g ˆ ◦ φ X si φ X est connue, g ˆ ◦ˆ φ X sinon.

I R ´ef ´erences : Yang (1981), Stute (1984,1986), Kerkyacharian et Picard

(2004)

(8)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion R ´ef ´erences

Estimateur pour une fen ˆetre fix ´ee

Soit h ∈ H fen ˆetre fix ´ee.

1. Estimateur pour g = s ◦ φ X 1 : φ X (A ) → R

∀u ∈ φ X (A ), ˆ g h (u) = 1 n

n

X

i = 1

θ(Y i )K h (u − φ X (X i )) . 2. Estimateur pour s : A → R

∀x ∈ A , ˆ s h (x) = ˆ g h ◦φ X (x) = 1 n

n

X

i = 1

θ(Y i )K hX (x) − φ X (X i )) .

−→ estimateur simple (moyenne empirique), sans quotient.

(9)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion R ´ef ´erences

Estimateur pour une fen ˆetre fix ´ee

Risque

I Risque quadratique int ´egr ´e pond ´er ´e par φ 0 X : E

h kˆ s h − sk 2 φ

0

X

i = Z

A

(ˆ s h (x) − s(x )) 2 φ 0 X (x )dx = E

h kˆ g h − gk 2 i .

I D ´ecomposition biais-variance E

h kˆ s h − sk 2 φ

0 X

i = E

h kˆ g h − K h ∗ gk 2 i

| {z } Variance

+ kK h ∗ g − gk 2

| {z } Biais

.

I Majoration du risque : si g est r ´eguli `ere d’indice α (espaces de H ¨older ou Nikol’skii), et si K est d’ordre suffisant,

E

h kˆ s h − sk 2 φ

0

X

i ≤ c(Y 1 )kK k 2 L

2

(R) 1

nh + ch 2 α .

avec c ( Y 1 ) = E [ Y 1 2 ], (Ex1), E [ Y 1 4 ], (Ex2), 1 (Ex3 et 4).

→ pour h bien choisi, vitesse de convergence du risque

n

2α+1

.

(10)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion R ´ef ´erences

S ´election automatique de la fen ˆetre

M ´ethode de Goldenshluger-Lepski (2011)

1. Approximation du terme de variance

∀h ∈ H, V(h) = δ(1 + kK k 2 L

1

(

R ) ) kK k 2

L

2

(R)

nh .

2. Approximation du terme de biais

∀h ∈ H, A (h, φ X ) = max

h

0

∈H

g ˆ h

0

− g ˆ h , h

0

2 − V (h 0 )

+

.

avec g ˆ h , h

0

= K h

0

∗ g ˆ h .

I R `egle de s ´election : ˆ h ∈ argmin h ∈H {A (h, φ X ) + V (h)}

I Estimateur :

I

pour g : g ˆ h ˆ

I

pour s :

ˆ s h ˆ = ˆ g ˆ h ◦ φ X

(11)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion R ´ef ´erences

R ´esultat principal

Borne non asymptotique pour le risque : r ´esultat adaptatif

Hypoth `eses

I s ∈ L (A ).

I Collection H pas trop ”grosse”

I

H = { k −1 , k = 1 , . . . , [ √ n ]} ,

I

H = { 2 −k , k = 1 , . . . , [ log 2 ( n )]} .

I hypoth `ese d’existence de moments pour le bruit ε dans les Ex1 et Ex2 (r ´egression)

• Th ´eor `eme

Il existe c i , i = 1, 2 et C des constantes, telles que

E

h kˆ s ˆ h − sk 2 φ

0 X

i ≤ min

h ∈H

(

c 1 kK k 2 L

2

(

R )

1

nh + c 2 kK h ∗ g − gk 2 )

+ C n •

→ pour g d’indice de r ´egularit ´e α, et K d’ordre suffisant, vitesse de

convergence du risque n

2α+1

.

(12)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion R ´ef ´erences

Cas g ´en ´eral F X inconnue

M ´ethode de plug-in

I Remplacer φ X par un estimateur, partout o `u elle intervient.

I Version empirique de φ X

I

Observations suppl ´ementaires : ( X − i ) i ∈{ 1,...,n } , ind ´ependantes des ( X i ) i et de m ˆeme loi.

I

Estimateur ˆ φ X de F X ou de φ :

F ˆ n = 1 n

n

X

i=1

1 ]−∞;X

−i

] , ˆ φ n ( x ) = Z x

0

( 1 − F ˆ

n ( t )) dt = 1 n

n

X

i=1

X −i ∧ x .

I Estimateur pour g et pour s :

ˆ g ˆ φ ˆ

h (u) = 1 n

n

X

i = 1

θ(Y i )K ˆ h

u − ˆ φ n (X i )

ˆ s ˆ h (x) = ˆ g ˆ ˆ φ

h ◦ φ ˆ n (u).

−→ M ˆemes r ´esultats th ´eoriques, avec un peu plus d’hypoth `eses

(contrainte sur H, et hypoth `ese s ∈ C 1 (A )).

(13)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations R ´egression Censure par intervalle

Conclusion R ´ef ´erences

Simulations

1. Objectifs

I

Illustrer la m ´ethode,

I

Comparer des estimateurs de type ’noyaux d ´eform ´es’ aux estimateurs de type ’moindres carr ´es’ (en base

trigonom ´etrique, ou fond ´ee sur des polyn ˆomes par morceaux)

−→ toolbox Matlab FY3P de Y. Rozenholc) 2. Fen ˆetres et noyaux

I

Fen ˆetres : H n = { k −1 , k = 1 , . . . , [ √ n ]} ,

I

Noyau : gaussien

−→ noyau d’ordre 1 = ⇒ Polyn ˆomes par morceaux de degr ´e au plus 1.

3. Exemples :

I

en r ´egression additive (Baraud (2002))

I

en censure par intervalle (Brunel et Comte (2009)).

(14)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion R ´ef ´erences

Simulations : Ex1 R ´egression additive

(X, Y) tels que Y = s(X) + ε, s(x) = x(x − 1)(x − 0.6).

Observations : X ∼ U [0;1] , ε ∼ N( 0 , 0 . 006 ) , n = 1000.

Comparaison des risques ( × 10

3

)

n=60 200 500 2000 M ´ethode

0.3747 0.1279 0.0604 0.0324 ND

0.5222 0.447 0.5846 0.6469 MCT

0.3772 0.1283 0.0802 0.0666 MCP1

0.3892 0.1293 0.0681 0.0446 MCP2

(15)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion R ´ef ´erences

Simulations : Ex1 R ´egression additive

(X, Y) tels que Y = s(X) + ε, s(x) = cos(4πx) + exp(−x 2 ).

Observations : X ∼ γ( 4 , 0 . 8 ) , ε ∼ N ( 0 , 0 . 194 ) , n = 1000.

Comparaison des risques ( × 10

3

)

n=60 200 500 2000 M ´ethode

67.535 15.735 5.22 2.311 ND

14.177 13.374 13.579 13.149 MCT

41.261 13.34 4.808 3.727 MCP1

23.213 5.549 2.059 0.86 MCP2

(16)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion R ´ef ´erences

Simulations : Ex1 R ´egression additive

(X, Y) tels que Y = s(X) + ε,

s(x) = − exp(−200(x − 0.1) 2 ) − exp(−200(x − 0.9) 2 ) + 1.

Observations : X ∼ 0 . 5 N( 0 . 05 , 0 . 01 ) + 0 . 5 N( 0 . 05 , 0 . 95 ) , ε ∼ N( 0 , 0 . 18 ) , n = 1000 .

Comparaison des risques ( × 10

3

)

n=60 200 500 2000 M ´ethode

120.367 36.804 9.737 3.22 ND

9.701 12.174 31.112 78.242 MCT

61.715 26.986 15.08 8.284 MCP1

52.668 11.009 5.817 1.215 MCP2

(17)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion R ´ef ´erences

Simulations : Ex4 Censure par intervalle, Cas I

(X, Y = 1 Z≤X ), estimation de F Z

Observations : X ∼ E( 0 . 1 ) , Z ∼ γ( 4 , 3 ) , n = 1000.

Comparaison des risques ( × 10

2

)

n=60 200 500 2000 M ´ethode

15.125 4.432 2.428 1.544 ND

25.383 21.553 2.536 1.733 MCT

28.452 14.315 8.815 7.158 MCP1

19.825 11.797 9.738 5.898 MCP2

(18)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion

R ´ef ´erences

Conclusion

−→ Noyaux d ´eform ´es, s ´election de la fen ˆetre par m ´ethode de Goldenshluger-Lepski :

I Avantages de la m ´ethode

I

r ´esolution de probl `emes vari ´es d’estimation non param ´etrique (r ´egression, estimation pour des donn ´ees censur ´ees),

I

extension `a l’estimation de fonctions de 2 variables : densit ´e conditionnelle d’un couple ( X , Y ) ,

I

estimateurs ayant une expression simple, sans quotient donc facilement impl ´ementables, avec une seule fen ˆetre `a s ´electionner,

I

estimateurs `a noyaux adaptatifs, satisfaisants des bornes de risque non asymptotique.

I Inconv ´enients

I

hypoth `ese de r ´egularit ´e portant sur la fonction auxiliaire g et non sur la fonction cible s pour la majoration du biais.

I

substitution de φ ˆ n `a φ X naturelle, mais n ´ecessitant des calculs

techniques.

(19)

Introduction

Cadre g ´en ´eral Estimateurs `a noyaux

Estimateur avec fen ˆetre fix ´ee

D ´eformation Estimateur Risque

Adaptativit ´e

S ´election de la fen ˆetre R ´esultat principal CasFXinconnue

Illustrations

R ´egression Censure par intervalle

Conclusion

R ´ef ´erences

R ´ef ´erences

I Baraud, Y. Model selection for regression on a random design.

ESAIM Probab. Statist. 6 (2002), 127–146.

I Brunel, E. ; Comte, F. Cumulative distribution function estimation under interval censoring case 1. Electron. J. Stat. 3 (2009), 1–24.

I Goldenshluger, A. ; Lepski, O. Bandwidth selection in kernel density estimation : oracle inequalities and adaptive minimax optimality. Ann. Statist., 39 (2011), no. 3, 1608-1632.

I Kerkyacharian, G. ; Picard, D. Regression in random design and warped wavelets. Bernoulli 10 (2004), no. 6, 1053–1105.

I Stute, W. Asymptotic normality of nearest neighbor regression function estimates. Ann. Statist., 12 (1984), no. 3, 917–926.

I Rozenholc, Y., Toolbox Matlab FY3P : Penalized Piecewise Polynomials for Regression (v002).

M erci !

Références

Documents relatifs

Dans le chapitre un nous concentrons sur les méthodes d’estimation, de la fonction de répartition ( fonction de répartition empirique, Estimation à noyau ), de la densité

Définissons le balayage pour les noyaux de convolution. On dit qu'un noyau de convolution K sur R&#34; vérifie le principe du balayage sur tout ouvert si, pour une mesure positive

Un auteur d’un texte de situation, puise ses vocables dans un lexique.. L de

Nous avons jusqu’à présent dégagé les noyaux répondant à une certaine optimalité pour un point intérieur comme pour un point de bord, ceci dans le. cas

c’est une hypothèse simplificatrice dans les démonstrations et que ce n’est pas une limitation très forte en pratique, on la conservera dans toute la suite de

Supposons que le réseau est composé d’un grand nombre de capteurs déployés dans une région χ, où χ ⊂ R 2 pour un espace de dimension 2, ou bien χ ⊂ R 3 comme dans le cas

Exercice 9 : Le nombre X de demandes hebdomadaires d’un certain produit suit une loi de Poisson de paramètre inconnu λ. On veut évaluer la probabilité p que X

D’une statistique est une distribution de probabilité des valeurs prises par cette statis- tique mesurées sur tous les échantillons possibles.. D’une moyenne empirique a pour