Plan
Estimateur r´ ecursif de la fonction de lien dans un mod` ele semi-param´ etrique
Thi Mong Ngoc NGUYEN
1,2Bernard BERCU
1,2et J´ erˆ ome SARACCO
1,2,31IMB, UMR CNRS 5251, Universit´e Bordeaux 1
2Equipe CQFD, INRIA Bordeaux Sud-Ouest, France
3GREThA, UMR CNRS 5113, Universit´e Montesquieu Bordeaux 4
9`emes Colloque “Jeunes Probabilistes et Statisticiens” - Mai 2010
Plan
Plan
1 Introduction
Mod` ele de r´ egression M´ ethodes r´ ecursives
2 Estimation r´ecursive
Estimateur r´ ecursif du param` etre
θEstimateur r´ ecursif de la fonction f
3 Propri´et´es asymptotiques
R´ esultats asymptotiques R´ esultats de simulation
4 Conclusion et Perspectives
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
Mod`ele de r´egression M´ethodes r´ecursives
Mod` ele de r´ egression
Objectif : Mod´ eliser la liaison entre une variable ` a expliquer y et une variable explicative x.
Applications : Nombreux domaines tels que l’´ economie, la biostatistique, les sciences de l’environnement, . . .
Deux grandes classes de mod` eles de r´ egression sont
omnipr´ esentes : les mod` eles param´ etriques et les mod` eles non
param´ etriques.
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
Mod`ele de r´egression M´ethodes r´ecursives
Mod` ele param´ etrique : y = f
θ(x) +
εObjectif : Estimer le param` etre
θ.Technique d’estimation : M´ ethode du maximum de vraisemblance, m´ ethode des moindres carr´ es, . . .
Avantages sp´ ecifiques : Ils permettent une interpr´ etation claire de l’impact de la variable explicative sur la variable ` a expliquer.
D´ efauts sp´ ecifiques :
Le choix d’un bon mod`ele param´etrique au vu des donn´ees n’est pas toujours ´evident.
Le mod`ele param´etrique choisi peut ne pas ˆetre en ad´equation avec les donn´ees et peut donc parfois ˆetre tr`es “´eloign´e” de la r´ealit´e de donn´ees⇒les conclusions en d´ecoulant peuvent alors ˆetre erron´ees.
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
Mod`ele de r´egression M´ethodes r´ecursives
Mod` ele non param´ etrique : y = f (x) +
εObjectif : Estimer la fonction de lien f .
Technique d’estimation : M´ ethodes des estimateurs ` a noyau, des splines de lissage, des ondelettes, . . .
Avantages sp´ ecifiques : Ils offrent davantage de flexibilit´ e (aucune hypoth` ese param´ etrique n’est impos´ ee dans ce mod` ele, seules des hypoth` eses de r´ egularit´ e sur f sont impos´ ees).
D´ efauts sp´ ecifiques :
Il faut estimer la fonction de lien le plus souvent au moyen de proc´edure de calculs intensifs en particulier en ce qui concerne la recherche des param`etres de lissage, ce qui est lourd en temps de calcul.
L’interpr´etation de la fonction de lien n’est pas toujours
´ evidente.
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
Mod`ele de r´egression M´ethodes r´ecursives
Mod` ele semi-param´ etrique : y
∈R, x
∈Rp,
Y
n+1= f (θ
0X
n) +
εn+1(1) o` u : (i) le param` etre
θ∈Rp, inconnu ;
(ii) le bruit
ε⊥x, aucune hypoth` ese sur la distribution de
ε; (iii) la fonction de lien f inconnue.
Objectif : Estimer le param` etre
θet la fonction de lien f . Technique d’estimation :
M´ethodeSIR(Sliced Inverse Regression) permet d’estimer la partie param´etriqueθdu mod`ele (1) sans avoir `a estimer la fonctionf.
Ensuite, la fonction de lienf peut ˆetre estim´ee via une m´ethode non param´etrique.
Les m´ethodes r´ecursives d’estimation n’ont jamais ´et´e d´evelopp´ees dans le cadre de ce mod`ele semi-param´etrique.
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
Mod`ele de r´egression M´ethodes r´ecursives
Notre Objectif :
Proposer un estimateur r´ ecursif
de la directionθdans (1) en adaptant au cadre r´ecursif la m´ethode SIR ;
de la fonction lienf dans (1) en combinant l’estimateur de Nadaraya-Watson r´ecursif def `a l’estimateur r´ecursif de θ estim´e par la m´ethode SIR r´ecursive.
Proposer quelques propri´ et´ es asymptotiques associ´ ees ` a nos
estimateurs r´ ecusifs.
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
Mod`ele de r´egression M´ethodes r´ecursives
L’avantage des m´ ethodes r´ ecursives
Prendre en compte l’arriv´ ee temporelle des informations et affiner ainsi au fil du temps les algorithmes d’estimation mis en œuvre.
Il n’est pas n´ ecessaire de relancer tous les calculs d’estimation des param` etres du mod` ele ` a chaque fois que la base de donn´ ees est compl´ et´ ee par de nouvelles observations.
Id´ ee : utiliser les estimations calcul´ ees sur la base de donn´ ees initiale et les remettre ` a jour en tenant uniquement compte des nouvelles donn´ ees arrivant dans la base.
Le gain en terme de temps de calcul peut ˆ etre tr` es int´ eressant
et les applications d’une telle appproche sont nombreuses.
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
Estimateur r´ecursif du param`etreθ Estimateur r´ecursif de la fonctionf
M´ ethode SIR
SIR = Slice Inverse Regression (R´ egression inverse par tranches) Sliced
→discr´ etisation (ou “tranchage”) de y
va permettre de simplifier l’estimation des moments intervenant dans les propri´et´es g´eom´etriques, ne modifie pas la partie param´etrique du mod`ele (1).
Inverse
→utilisation de propri´ et´ es g´ eom´ etriques des moments
“inverse” de x sachant y :
E[x
|y] et
V[x
|y].
⇒
avantage : la dimension du probl` eme a ´ et´ e r´ eduite ;
⇒
coˆ ut ` a payer : rajouter une hypoth` ese :
(H)
La variable explicative x poss`ede une distribution de probabilit´e non d´eg´en´er´ee telle que,∀b∈Rp,E[b0x|θ0x]est lin´eaire en θ0x . (v´erifi´ee lorsquex suit une distribution elliptique).Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
Estimateur r´ecursif du param`etreθ Estimateur r´ecursif de la fonctionf
Estimateur r´ ecursif de la direction de θ
Remarque : Le param` etre
θn’est pas totalement identifiable, seule la direction de
θest d’identifiable
⇒
direction EDR (Effective Dimension Reduction).
Vecteur propre ˜
θassoci´ e ` a la valeur propre non nulle de Σ
−1Γ est colin´ eaire ` a
θ⇒ θ˜ est une direction EDR
(o` u : Σ =
V(x) et Γ =V(E[x|T(y)])).
Echantillon :´ {(xi,yi),i= 1, . . . ,n} de v.a iid (x,y) issues du (1).
Scinder cet ´echantillon en 2 parties : le sous-´echantillon {(xi,yi),i= 1, . . . ,n−1}etune nouvelle observation (xn,yn).
Discr´etisation dey en 2 tranches distinctess1 ets2,
supposons que (xn,yn)est telle queyn∈sh∗ avech∗= 1 ou 2.
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
Estimateur r´ecursif du param`etreθ Estimateur r´ecursif de la fonctionf
Estimateur r´ ecursif de la direction de θ
Estimateur r´ ecursif
θˆ
nde
θ˜ :
θ
ˆ
n=
nn−1θ
ˆ
n−1−n
(n
−1)(n +
ρn) Σ
−1n−1Ψ
nΨ
0nθˆ
n−1−
(−1)
h∗n (n
h∗,n−1+ 1)(n
−1)
Σ
−1n−1−1
n +
ρnΣ
−1n−1Ψ
nΨ
0nΣ
−1n−1Ψ
h∗,n.o` u : Ψ
n= x
n−¯ x
n−1;
Ψ
h∗,n= x
n−m
h∗,n−1;
ρn= Ψ
0nΣ
−1n−1Ψ
n.
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
Estimateur r´ecursif du param`etreθ Estimateur r´ecursif de la fonctionf
Estimateur de Nadaraya-Watson r´ ecursif Si
n
X
i=1
1 hi−1
K x
−X
i−1hi−1
6= 0,
f
ˆ
n(x) = 1
n
X
i=1
1 hi−1
K
x
−X
i−1hi−1
n
X
i=1
1 hi−1
K x
−X
i−1hi−1
Yi
Autre ´ ecriture :
ˆ
fn+1(x) = ˆ
fn(x) + 1
n
X
i=1
1 hi
K
x
−X
ihi
1
hn
K x
−X
n hn
(Y
n+1−ˆ
fn(x)).
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
Estimateur r´ecursif du param`etreθ Estimateur r´ecursif de la fonctionf
Posons Φ
n=
θ0Xn,θ
ˆ
n: estimateur r´ ecursif de
θ
⇒
Φ ˆ
n= ˆ
θ0nXn: pr´ edicteur de Φ
n.
En combinant l’estimateur de Nadaraya-Watson r´ecursif de f `a l’estimateur r´ecursif deθ, nous avons : ∀z ∈R
,
f
ˆ
n(z) = 1
n
X
i=1
1 hi−1
K z
−Φ ˆ
i−1hi−1
n
X
i=1
1 hi−1
K
z
−Φ ˆ
i−1hi−1
Yi.
Autre ´ ecriture :
ˆ
fn+1(z) =
fˆ
n(z ) + 1
n
X
i=1
1
hi
K z
−Φ ˆ
i hi1 hn
K
z
−Φ ˆ
n hn
(Y
n+1−ˆ
fn(z)).
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
R´esultats asymptotiques R´esultats de simulation
R´ esultats asymptotiques pour ˆ θ
nHypoth` eses :
(A1) Les observations (xi,yi),i= 1, ...,n, sont ´echantillonn´ees de mani`ere ind´ependante `a partir du mod`ele (1).
(A2) Le support dey est partionn´e en deux tranches fixess1ets2
telles queP(y∈sh)6= 0 pourh= 1,2.
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
R´esultats asymptotiques R´esultats de simulation
R´ esultats de convergence :
Th´eor`eme (Convergence presque sˆurement)
Sous les hypoth` eses (H), (A1) et (A2), nous avons
||θ
ˆ
n−θ˜
||=Or
log(log
n) n!
p.s.,
o`u le vecteurθ˜est colin´eaire `aθ
.
Th´eor`eme (Convergence en loi)Sous les hypoth` eses (H), (A1) et (A2), nous avons :
√n(ˆθn−θ)
˜
−→ NL(0, Σ
−1∆
3Σ
−1),
o` u
∆3peut ˆetre calcul´ee explicitement.
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
R´esultats asymptotiques R´esultats de simulation
R´ esultats asymptotiques pour ˆ f
nHypoth` eses :
(H.1)Fenˆetrehn=n−αest positive telle que :
n→∞lim hn= 0 et lim
n→∞nhn=∞.
(H.2)NoyauK estun noyau `a support compact, mesurable, positif et born´e satisfaisant :
Z
R
K(x)dx= 1, Z
R
|x|K(x)dx<+∞, Z
R
K2(x)dx =τ2
(H.3)Fonction de lienf est une fonction Lipschitzienne, born´ee et deux fois continˆument d´erivable surR.
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
R´esultats asymptotiques R´esultats de simulation
R´esultats de convergence : En utilisant le r´esultat de convergence presque sˆurement de ˆθn, nous avons : Th´eor`eme (Convergence presque sˆurement)
Sous les hypoth`eses(H.1)−(H.3), nous avons quand n→ ∞:
||fˆn(z)−f(z)||=O n2α
rlog(logn) n
!
p.s..
Th´eor`eme (Convergence en loi)
Sous les hypoth`eses(H.1)−(H.3), supposons queE(Y2)<∞,
∀α∈]1/3,1/2[eth(Φ)>0, ∀z ∈R, nous avons quand n→ ∞: pnhn
fˆn(z)−f(z) L
−→ N
0, σ2τ2 h(Φ)(1 +α)
. o`uσ2=E[ε2n|Fn−1]et h(Φ) est la densit´e de(Φn).
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
R´esultats asymptotiques R´esultats de simulation
R´ esultats de simulation pour ˆ θ
nObjectif : Etudier le comportement num´ ´ erique de
l’estimateur r´ ecursif ˆ
θn(la convergence de ˆ
θnvers la vraie direction
θdu mod` ele).
Mod` ele simul´ e : (M1) : y = (θ
0x)
3+
εavec x
∼ Np(0, I
p),
θ= (1,
−1,0, . . . , 0)
∈Rp,
ε∼ N(0, 1).
Motivations :
Montrer l’´evolution, en fonction la taille de l’´echantillon n, de la qualit´e de l’ estimateur r´ecursif, et l’effet de la dimensionp dex sur la qualit´e de l’estimation.
Illustrer la normalit´e asymptotique de l’estimateur r´ecursif.
La qualit´e de l’estimation sera mesur´ee par cos2(ˆθn, θ) = (<θˆn, θ >)2
||θˆn|| × ||θ||.
Plus cos2(ˆθn, θ) est proche de 1, meilleure est la qualit´e de l’estimation.
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
R´esultats asymptotiques R´esultats de simulation
0 200 400 600 800 1000
0.00.20.40.60.81.0
N
cosinus carrés
Modèle (M1) avec Sigma=Ip
●●
●
●
●
●
●●
p=5 p=10 p=12 p=40
0.00.20.40.60.81.0
cosinus carrés
Modèle (M1) avec Sigma=Ip pour N=500
●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●
●
●●
●●
● ●●●●
N=50 N=100 N=150 N=200 N=300 N=500 N=700 N=1000
0.00.20.40.60.81.0
cosinus carrés
Modèle (M1) avec Sigma=Ip
Evolution de la qualit´´ e de l’estimateur deθˆn, en fonction den et en fonction dep, sur un ´echantillon et sur 500 ´echantillons.
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
R´esultats asymptotiques R´esultats de simulation
−4 −2 0 2 4
0.00.10.20.30.4
densité
−4 −2 0 2 4
0.00.10.20.30.4
−4 −2 0 2 4
0.00.10.20.30.4
densité
−4 −2 0 2 4
0.00.10.20.30.4
Illustration de la normalit´e asymtotique pour 2 composantes deθˆn
(le graphe de la densit´e de la loiN(0,1), en pointill´e, est superpos´e `a l’histogramme).
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
R´esultats asymptotiques R´esultats de simulation
R´ esultats de simulation pour ˆ f
nObjectif : Etudier le comportement num´ ´ erique de l’estimateur r´ ecursif ˆ f
nen combinant l’estimateur de Nadaraya-Watson r´ ecursif de f ` a l’estimateur r´ ecursif ˆ
θn. Mod` ele simul´ e : (M2) : y = (θ
0x)exp(−θ
0x) +
εavec x
∼ N(m, σ
2),
θ∈[−10; 10])
∈Rp,
ε∼ N(0, 1).
Motivations :
Montrer l’´evolution, en fonction la taille de l’´echantillon n, de la qualit´e de l’ estimateur r´ecursif.
Illustrer la normalit´e asymptotique de l’estimateur r´ecursif.
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
R´esultats asymptotiques R´esultats de simulation
0 100 200 300 400 500 600 700 800 900 1000
0 0.5 1
LGN pour l’estimateur de theta
0 100 200 300 400 500 600 700 800 900 1000
−4
−2 0 2
LGN pour l’estimateur de f
Evolution,en fonction de´ n, de la qualit´e de l’estimateur deθˆn et defˆn.
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
R´esultats asymptotiques R´esultats de simulation
−4 −3 −2 −1 0 1 2 3 4
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45
TLC associé
Illustration de la normalit´e asymtotique deˆfn(z)
dans le mod`ele (M2) avec le choix de noyau Gaussien et de fenˆetren−0.45.
Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
Conclusion
Les estimateurs r´ecursifs propos´es semblent bien fonctionner num´eriquement pour des tailles d’´echantillons raisonnables et mˆeme lorsque la dimension de la covariablex est importante.
Nous obtenons bien la normalit´e asymptotique des estimateurs propos´es.
Perspective
Le choix de la fenˆ etre h
n= n
−αest crucial. Nous continuons
`
a travailler sur la partie th´ eorique afin d’´ elargir l’intervalle
α∈]1/3; 1/2[.Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives
MERCI DE VOTRE ATTENTION