Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnueIllustrations
R ´egression Censure par intervalleConclusion R ´ef ´erences
E stimation adaptative par noyaux d´ eform´ es .
Ga ¨elle Chagny
Laboratoire Map5, UMR CNRS 8145, Universit ´e Paris Descartes
Colloque ”Jeunes Probabilistes et Statisticiens”, CIRM,
Lundi 16 avril 2012.
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnueIllustrations
R ´egression Censure par intervalleConclusion R ´ef ´erences
Plan
Introduction Cadre g ´en ´eral Estimateurs `a noyaux Estimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal Cas F X inconnue Illustrations
R ´egression
Censure par intervalle Conclusion
R ´ef ´erences
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnueIllustrations
R ´egression Censure par intervalleConclusion R ´ef ´erences
Cadre statistique
Estimation non param ´etrique
I Mod `ele : (X , Y ) couple de variables al ´eatoires r ´eelles, de support A × B ⊂ R 2 .
I
X variable de support A ⊂ R densit ´e : f X
fonction de r ´epartition : F X .
I Objectif : Reconstruire une fonction s, li ´ee aux variables (X , Y ) avec un estimateur `a noyau.
I Observations : (X i , Y i ) i ∈{ 1 ,..., n } (n ∈ N \{0}), i.i.d de m ˆeme loi
que (X, Y ).
Exemples ´etudi ´es
Exemples (X , Y ) s Hypoth `eses
Ex1 Y = s(X) + ε s ε ∈ L 2 ( P ), E [ε] = 0
R ´egression additive ε y X
Ex2 Y = σ(X )ε σ 2 ε ∈ L 4 ( P ), E [ε] = 0
R ´egression multiplicative E [ε 2 ] = 1, ε y X
Ex3 (X , Y = 1 Z ≤ X ) F Z Z, X ≥ 0
Censure par intervalle Z y X
Ex4 (X = Z ∧ C, Y = 1 Z ≤ C ) 1 − f
ZF
Z
Z, C ≥ 0
Censure droite F Z < 1, Z y C
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnueIllustrations
R ´egression Censure par intervalleConclusion R ´ef ´erences
M ´ethode : Estimateurs `a noyaux
I Noyau : K : R → R , fonction int ´egrable, tq R
R K (x)dx = 1.
I Approximation de l’unit ´e :
I
H ⊂ R ∗ + (fen ˆetres), et
∀ h ∈ H, K h : x 7→ 1 h K
x h
I
Propri ´et ´e : si s est suffisamment r ´eguli `ere, K h ∗ s =
Z
R
K h (. − x ) s ( x ) dx −→
h → 0 s en un certain sens.
I Principe de l’estimation d’une fonction s avec des noyaux :
I
Trouver ψ telle que, pour tout h ∈ H , E [ψ(( X , Y ), K h )] = K h ∗ s.
I
Proposer un estimateur de type ”moment” pour s :
ˆ s h = 1 n
n
X
i=1
ψ(( X i , Y i ), K h )
I
Choisir une ”bonne” fen ˆetre ˆ h ∈ H sur la base des
observations
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnueIllustrations
R ´egression Censure par intervalleConclusion R ´ef ´erences
M ´ethode : Estimateurs `a noyaux
Un exemple classique
I Ex1 : R ´egression additive, Y = s(X ) + ε
I Estimateur de Nadaraya-Watson (1964)
I
E [ YK h ( x − X )] = K h ∗ ( sf X )( x ) et E [ K h ( x − X )] = K h ∗ f X ( x ).
I
Id ´ee : s = sf X f X
≈ K h ∗ ( sf X ) K h ∗ f X
.
I
Estimateur :
ˆ s NW ( x ) = 1 n
n
X
i=1
Y i K h ( x − X i )
1 n
n
X
i=1
K h ( x − X i )
... probl `eme : quotient.
I ... de m ˆeme dans les autres exemples ´etudi ´es : on ne peut
pas trouver ψ telle que E [ψ((X , Y ), K h )] = K h ∗ s.
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnueIllustrations
R ´egression Censure par intervalleConclusion R ´ef ´erences
Estimateur pour une fen ˆetre fix ´ee
M ´ethode de d ´eformation
I Point cl ´e : Il existe une fonction φ X : A → φ X (A ) bijective, telle que
E [θ(Y )K h (u − φ X (X )] = K h ∗ (s ◦ φ − X 1 )(u), avec θ( Y ) =
Y (Ex1,3,4) Y 2 (Ex2) I D ´eformation φ X :
I
φ X = F X , fonction de r ´epartition de X pour Ex1, Ex2 (r ´egression) et Ex3 (censure par intervalle)
bijective si f X > 0 sur A.
I
φ X = φ : x 7→ R x
0 ( 1 − F X ( t )) dt, dans l’Ex4 (censure `a droite) bijective si F X ( x ) < 1 pour tout x ∈ R + .
I M ´ethode :
1. Estimer g = s ◦ φ −1 X par un estimateur `a noyau ˆ g.
2. Poser
ˆ s =
g ˆ ◦ φ X si φ X est connue, g ˆ ◦ˆ φ X sinon.
I R ´ef ´erences : Yang (1981), Stute (1984,1986), Kerkyacharian et Picard
(2004)
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnueIllustrations
R ´egression Censure par intervalleConclusion R ´ef ´erences
Estimateur pour une fen ˆetre fix ´ee
Soit h ∈ H fen ˆetre fix ´ee.
1. Estimateur pour g = s ◦ φ − X 1 : φ X (A ) → R
∀u ∈ φ X (A ), ˆ g h (u) = 1 n
n
X
i = 1
θ(Y i )K h (u − φ X (X i )) . 2. Estimateur pour s : A → R
∀x ∈ A , ˆ s h (x) = ˆ g h ◦φ X (x) = 1 n
n
X
i = 1
θ(Y i )K h (φ X (x) − φ X (X i )) .
−→ estimateur simple (moyenne empirique), sans quotient.
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnue
Illustrations
R ´egression Censure par intervalleConclusion R ´ef ´erences
Estimateur pour une fen ˆetre fix ´ee
Risque
I Risque quadratique int ´egr ´e pond ´er ´e par φ 0 X : E
h kˆ s h − sk 2 φ
0X
i = Z
A
(ˆ s h (x) − s(x )) 2 φ 0 X (x )dx = E
h kˆ g h − gk 2 i .
I D ´ecomposition biais-variance E
h kˆ s h − sk 2 φ
0 Xi = E
h kˆ g h − K h ∗ gk 2 i
| {z } Variance
+ kK h ∗ g − gk 2
| {z } Biais
.
I Majoration du risque : si g est r ´eguli `ere d’indice α (espaces de H ¨older ou Nikol’skii), et si K est d’ordre suffisant,
E
h kˆ s h − sk 2 φ
0X
i ≤ c(Y 1 )kK k 2 L
2(R) 1
nh + ch 2 α .
avec c ( Y 1 ) = E [ Y 1 2 ], (Ex1), E [ Y 1 4 ], (Ex2), 1 (Ex3 et 4).
→ pour h bien choisi, vitesse de convergence du risque
n −
2α+12α.
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnueIllustrations
R ´egression Censure par intervalleConclusion R ´ef ´erences
S ´election automatique de la fen ˆetre
M ´ethode de Goldenshluger-Lepski (2011)
1. Approximation du terme de variance
∀h ∈ H, V(h) = δ(1 + kK k 2 L
1(
R ) ) kK k 2
L
2(R)
nh .
2. Approximation du terme de biais
∀h ∈ H, A (h, φ X ) = max
h
0∈H
g ˆ h
0− g ˆ h , h
02 − V (h 0 )
+
.
avec g ˆ h , h
0= K h
0∗ g ˆ h .
I R `egle de s ´election : ˆ h ∈ argmin h ∈H {A (h, φ X ) + V (h)}
I Estimateur :
I
pour g : g ˆ h ˆ
I
pour s :
ˆ s h ˆ = ˆ g ˆ h ◦ φ X
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnueIllustrations
R ´egression Censure par intervalleConclusion R ´ef ´erences
R ´esultat principal
Borne non asymptotique pour le risque : r ´esultat adaptatif
Hypoth `eses
I s ∈ L ∞ (A ).
I Collection H pas trop ”grosse”
I
H = { k −1 , k = 1 , . . . , [ √ n ]} ,
I
H = { 2 −k , k = 1 , . . . , [ log 2 ( n )]} .
I hypoth `ese d’existence de moments pour le bruit ε dans les Ex1 et Ex2 (r ´egression)
• Th ´eor `eme
Il existe c i , i = 1, 2 et C des constantes, telles que
E
h kˆ s ˆ h − sk 2 φ
0 Xi ≤ min
h ∈H
(
c 1 kK k 2 L
2(
R )
1
nh + c 2 kK h ∗ g − gk 2 )
+ C n •
→ pour g d’indice de r ´egularit ´e α, et K d’ordre suffisant, vitesse de
convergence du risque n −
2α+12α.
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnueIllustrations
R ´egression Censure par intervalle
Conclusion R ´ef ´erences
Cas g ´en ´eral F X inconnue
M ´ethode de plug-in
I Remplacer φ X par un estimateur, partout o `u elle intervient.
I Version empirique de φ X
I
Observations suppl ´ementaires : ( X − i ) i ∈{ 1,...,n } , ind ´ependantes des ( X i ) i et de m ˆeme loi.
I
Estimateur ˆ φ X de F X ou de φ :
F ˆ n = 1 n
n
X
i=1
1 ]−∞;X
−i] , ˆ φ n ( x ) = Z x
0
( 1 − F ˆ
n ( t )) dt = 1 n
n
X
i=1
X −i ∧ x .
I Estimateur pour g et pour s :
ˆ g ˆ φ ˆ
h (u) = 1 n
n
X
i = 1
θ(Y i )K ˆ h
u − ˆ φ n (X i )
ˆ s ˆ h (x) = ˆ g ˆ ˆ φ
h ◦ φ ˆ n (u).
−→ M ˆemes r ´esultats th ´eoriques, avec un peu plus d’hypoth `eses
(contrainte sur H, et hypoth `ese s ∈ C 1 (A )).
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnueIllustrations R ´egression Censure par intervalle
Conclusion R ´ef ´erences
Simulations
1. Objectifs
I
Illustrer la m ´ethode,
I
Comparer des estimateurs de type ’noyaux d ´eform ´es’ aux estimateurs de type ’moindres carr ´es’ (en base
trigonom ´etrique, ou fond ´ee sur des polyn ˆomes par morceaux)
−→ toolbox Matlab FY3P de Y. Rozenholc) 2. Fen ˆetres et noyaux
I
Fen ˆetres : H n = { k −1 , k = 1 , . . . , [ √ n ]} ,
I
Noyau : gaussien
−→ noyau d’ordre 1 = ⇒ Polyn ˆomes par morceaux de degr ´e au plus 1.
3. Exemples :
I
en r ´egression additive (Baraud (2002))
I
en censure par intervalle (Brunel et Comte (2009)).
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnueIllustrations
R ´egression Censure par intervalleConclusion R ´ef ´erences
Simulations : Ex1 R ´egression additive
(X, Y) tels que Y = s(X) + ε, s(x) = x(x − 1)(x − 0.6).
Observations : X ∼ U [0;1] , ε ∼ N( 0 , 0 . 006 ) , n = 1000.
Comparaison des risques ( × 10
3)
n=60 200 500 2000 M ´ethode
0.3747 0.1279 0.0604 0.0324 ND
0.5222 0.447 0.5846 0.6469 MCT
0.3772 0.1283 0.0802 0.0666 MCP1
0.3892 0.1293 0.0681 0.0446 MCP2
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnueIllustrations
R ´egression Censure par intervalleConclusion R ´ef ´erences
Simulations : Ex1 R ´egression additive
(X, Y) tels que Y = s(X) + ε, s(x) = cos(4πx) + exp(−x 2 ).
Observations : X ∼ γ( 4 , 0 . 8 ) , ε ∼ N ( 0 , 0 . 194 ) , n = 1000.
Comparaison des risques ( × 10
3)
n=60 200 500 2000 M ´ethode
67.535 15.735 5.22 2.311 ND
14.177 13.374 13.579 13.149 MCT
41.261 13.34 4.808 3.727 MCP1
23.213 5.549 2.059 0.86 MCP2
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnueIllustrations
R ´egression Censure par intervalleConclusion R ´ef ´erences
Simulations : Ex1 R ´egression additive
(X, Y) tels que Y = s(X) + ε,
s(x) = − exp(−200(x − 0.1) 2 ) − exp(−200(x − 0.9) 2 ) + 1.
Observations : X ∼ 0 . 5 N( 0 . 05 , 0 . 01 ) + 0 . 5 N( 0 . 05 , 0 . 95 ) , ε ∼ N( 0 , 0 . 18 ) , n = 1000 .
Comparaison des risques ( × 10
3)
n=60 200 500 2000 M ´ethode
120.367 36.804 9.737 3.22 ND
9.701 12.174 31.112 78.242 MCT
61.715 26.986 15.08 8.284 MCP1
52.668 11.009 5.817 1.215 MCP2
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnueIllustrations
R ´egression Censure par intervalleConclusion R ´ef ´erences
Simulations : Ex4 Censure par intervalle, Cas I
(X, Y = 1 Z≤X ), estimation de F Z
Observations : X ∼ E( 0 . 1 ) , Z ∼ γ( 4 , 3 ) , n = 1000.
Comparaison des risques ( × 10
2)
n=60 200 500 2000 M ´ethode
15.125 4.432 2.428 1.544 ND
25.383 21.553 2.536 1.733 MCT
28.452 14.315 8.815 7.158 MCP1
19.825 11.797 9.738 5.898 MCP2
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque
Adaptativit ´e
S ´election de la fen ˆetre R ´esultat principal CasFXinconnueIllustrations
R ´egression Censure par intervalleConclusion
R ´ef ´erences
Conclusion
−→ Noyaux d ´eform ´es, s ´election de la fen ˆetre par m ´ethode de Goldenshluger-Lepski :
I Avantages de la m ´ethode
I
r ´esolution de probl `emes vari ´es d’estimation non param ´etrique (r ´egression, estimation pour des donn ´ees censur ´ees),
I
extension `a l’estimation de fonctions de 2 variables : densit ´e conditionnelle d’un couple ( X , Y ) ,
I
estimateurs ayant une expression simple, sans quotient donc facilement impl ´ementables, avec une seule fen ˆetre `a s ´electionner,
I
estimateurs `a noyaux adaptatifs, satisfaisants des bornes de risque non asymptotique.
I Inconv ´enients
I
hypoth `ese de r ´egularit ´e portant sur la fonction auxiliaire g et non sur la fonction cible s pour la majoration du biais.
I
substitution de φ ˆ n `a φ X naturelle, mais n ´ecessitant des calculs
techniques.
Introduction
Cadre g ´en ´eral Estimateurs `a noyauxEstimateur avec fen ˆetre fix ´ee
D ´eformation Estimateur Risque