• Aucun résultat trouvé

Estimateur r´ecursif de la fonction de lien dans un mod`ele semi-param´etrique

N/A
N/A
Protected

Academic year: 2022

Partager "Estimateur r´ecursif de la fonction de lien dans un mod`ele semi-param´etrique"

Copied!
25
0
0

Texte intégral

(1)

Plan

Estimateur r´ ecursif de la fonction de lien dans un mod` ele semi-param´ etrique

Thi Mong Ngoc NGUYEN

1,2

Bernard BERCU

1,2

et J´ erˆ ome SARACCO

1,2,3

1IMB, UMR CNRS 5251, Universit´e Bordeaux 1

2Equipe CQFD, INRIA Bordeaux Sud-Ouest, France

3GREThA, UMR CNRS 5113, Universit´e Montesquieu Bordeaux 4

9`emes Colloque “Jeunes Probabilistes et Statisticiens” - Mai 2010

(2)

Plan

Plan

1 Introduction

Mod` ele de r´ egression M´ ethodes r´ ecursives

2 Estimation r´ecursive

Estimateur r´ ecursif du param` etre

θ

Estimateur r´ ecursif de la fonction f

3 Propri´et´es asymptotiques

R´ esultats asymptotiques R´ esultats de simulation

4 Conclusion et Perspectives

(3)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

Mod`ele de r´egression ethodes r´ecursives

Mod` ele de r´ egression

Objectif : Mod´ eliser la liaison entre une variable ` a expliquer y et une variable explicative x.

Applications : Nombreux domaines tels que l’´ economie, la biostatistique, les sciences de l’environnement, . . .

Deux grandes classes de mod` eles de r´ egression sont

omnipr´ esentes : les mod` eles param´ etriques et les mod` eles non

param´ etriques.

(4)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

Mod`ele de r´egression ethodes r´ecursives

Mod` ele param´ etrique : y = f

θ

(x) +

ε

Objectif : Estimer le param` etre

θ.

Technique d’estimation : M´ ethode du maximum de vraisemblance, m´ ethode des moindres carr´ es, . . .

Avantages sp´ ecifiques : Ils permettent une interpr´ etation claire de l’impact de la variable explicative sur la variable ` a expliquer.

D´ efauts sp´ ecifiques :

Le choix d’un bon mod`ele param´etrique au vu des donn´ees n’est pas toujours ´evident.

Le mod`ele param´etrique choisi peut ne pas ˆetre en ad´equation avec les donn´ees et peut donc parfois ˆetre tr`es “´eloign´e” de la r´ealit´e de donn´ees⇒les conclusions en d´ecoulant peuvent alors ˆetre erron´ees.

(5)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

Mod`ele de r´egression ethodes r´ecursives

Mod` ele non param´ etrique : y = f (x) +

ε

Objectif : Estimer la fonction de lien f .

Technique d’estimation : M´ ethodes des estimateurs ` a noyau, des splines de lissage, des ondelettes, . . .

Avantages sp´ ecifiques : Ils offrent davantage de flexibilit´ e (aucune hypoth` ese param´ etrique n’est impos´ ee dans ce mod` ele, seules des hypoth` eses de r´ egularit´ e sur f sont impos´ ees).

D´ efauts sp´ ecifiques :

Il faut estimer la fonction de lien le plus souvent au moyen de proc´edure de calculs intensifs en particulier en ce qui concerne la recherche des param`etres de lissage, ce qui est lourd en temps de calcul.

L’interpr´etation de la fonction de lien n’est pas toujours

´ evidente.

(6)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

Mod`ele de r´egression ethodes r´ecursives

Mod` ele semi-param´ etrique : y

∈R

, x

∈Rp

,

Y

n+1

= f (θ

0

X

n

) +

εn+1

(1) o` u : (i) le param` etre

θ∈Rp

, inconnu ;

(ii) le bruit

ε⊥

x, aucune hypoth` ese sur la distribution de

ε

; (iii) la fonction de lien f inconnue.

Objectif : Estimer le param` etre

θ

et la fonction de lien f . Technique d’estimation :

M´ethodeSIR(Sliced Inverse Regression) permet d’estimer la partie param´etriqueθdu mod`ele (1) sans avoir `a estimer la fonctionf.

Ensuite, la fonction de lienf peut ˆetre estim´ee via une m´ethode non param´etrique.

Les m´ethodes r´ecursives d’estimation n’ont jamais ´et´e d´evelopp´ees dans le cadre de ce mod`ele semi-param´etrique.

(7)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

Mod`ele de r´egression ethodes r´ecursives

Notre Objectif :

Proposer un estimateur r´ ecursif

de la directionθdans (1) en adaptant au cadre r´ecursif la m´ethode SIR ;

de la fonction lienf dans (1) en combinant l’estimateur de Nadaraya-Watson r´ecursif def `a l’estimateur r´ecursif de θ estim´e par la m´ethode SIR r´ecursive.

Proposer quelques propri´ et´ es asymptotiques associ´ ees ` a nos

estimateurs r´ ecusifs.

(8)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

Mod`ele de r´egression ethodes r´ecursives

L’avantage des m´ ethodes r´ ecursives

Prendre en compte l’arriv´ ee temporelle des informations et affiner ainsi au fil du temps les algorithmes d’estimation mis en œuvre.

Il n’est pas n´ ecessaire de relancer tous les calculs d’estimation des param` etres du mod` ele ` a chaque fois que la base de donn´ ees est compl´ et´ ee par de nouvelles observations.

Id´ ee : utiliser les estimations calcul´ ees sur la base de donn´ ees initiale et les remettre ` a jour en tenant uniquement compte des nouvelles donn´ ees arrivant dans la base.

Le gain en terme de temps de calcul peut ˆ etre tr` es int´ eressant

et les applications d’une telle appproche sont nombreuses.

(9)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

Estimateur r´ecursif du param`etreθ Estimateur r´ecursif de la fonctionf

M´ ethode SIR

SIR = Slice Inverse Regression (R´ egression inverse par tranches) Sliced

discr´ etisation (ou “tranchage”) de y

va permettre de simplifier l’estimation des moments intervenant dans les propri´et´es g´eom´etriques, ne modifie pas la partie param´etrique du mod`ele (1).

Inverse

utilisation de propri´ et´ es g´ eom´ etriques des moments

“inverse” de x sachant y :

E

[x

|

y] et

V

[x

|

y].

avantage : la dimension du probl` eme a ´ et´ e r´ eduite ;

coˆ ut ` a payer : rajouter une hypoth` ese :

(H)

La variable explicative x poss`ede une distribution de probabilit´e non d´eg´en´er´ee telle que,∀b∈Rp,E[b0x|θ0x]est lin´eaire en θ0x . (v´erifi´ee lorsquex suit une distribution elliptique).

(10)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

Estimateur r´ecursif du param`etreθ Estimateur r´ecursif de la fonctionf

Estimateur r´ ecursif de la direction de θ

Remarque : Le param` etre

θ

n’est pas totalement identifiable, seule la direction de

θ

est d’identifiable

direction EDR (Effective Dimension Reduction).

Vecteur propre ˜

θ

associ´ e ` a la valeur propre non nulle de Σ

−1

Γ est colin´ eaire ` a

θ⇒ θ

˜ est une direction EDR

(o` u : Σ =

V(x) et Γ =V(E[x|T(y

)])).

Echantillon :´ {(xi,yi),i= 1, . . . ,n} de v.a iid (x,y) issues du (1).

Scinder cet ´echantillon en 2 parties : le sous-´echantillon {(xi,yi),i= 1, . . . ,n−1}etune nouvelle observation (xn,yn).

Discr´etisation dey en 2 tranches distinctess1 ets2,

supposons que (xn,yn)est telle queyn∈sh avech= 1 ou 2.

(11)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

Estimateur r´ecursif du param`etreθ Estimateur r´ecursif de la fonctionf

Estimateur r´ ecursif de la direction de θ

Estimateur r´ ecursif

θ

ˆ

n

de

θ

˜ :

θ

ˆ

n

=

n

n−1θ

ˆ

n−1

n

(n

1)(n +

ρn

) Σ

−1n−1

Ψ

n

Ψ

0nθ

ˆ

n−1

(−1)

h

n (n

h,n−1

+ 1)(n

1)

Σ

−1n−1

1

n +

ρn

Σ

−1n−1

Ψ

n

Ψ

0n

Σ

−1n−1

Ψ

h,n.

o` u : Ψ

n

= x

n

¯ x

n−1

;

Ψ

h,n

= x

n

m

h,n−1

;

ρn

= Ψ

0n

Σ

−1n−1

Ψ

n

.

(12)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

Estimateur r´ecursif du param`etreθ Estimateur r´ecursif de la fonctionf

Estimateur de Nadaraya-Watson r´ ecursif Si

n

X

i=1

1 hi−1

K x

X

i−1

hi−1

6= 0,

f

ˆ

n

(x) = 1

n

X

i=1

1 hi−1

K

x

X

i−1

hi−1

n

X

i=1

1 hi−1

K x

X

i−1

hi−1

Yi

Autre ´ ecriture :

ˆ

fn+1

(x) = ˆ

fn

(x) + 1

n

X

i=1

1 hi

K

x

X

i

hi

1

hn

K x

X

n hn

(Y

n+1

ˆ

fn

(x)).

(13)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

Estimateur r´ecursif du param`etreθ Estimateur r´ecursif de la fonctionf

Posons Φ

n

=

θ0Xn,

θ

ˆ

n

: estimateur r´ ecursif de

θ

Φ ˆ

n

= ˆ

θ0nXn

: pr´ edicteur de Φ

n

.

En combinant l’estimateur de Nadaraya-Watson r´ecursif de f `a l’estimateur r´ecursif deθ, nous avons : ∀z ∈R

,

f

ˆ

n

(z) = 1

n

X

i=1

1 hi−1

K z

Φ ˆ

i−1

hi−1

n

X

i=1

1 hi−1

K

z

Φ ˆ

i−1

hi−1

Yi.

Autre ´ ecriture :

ˆ

fn+1

(z) =

f

ˆ

n

(z ) + 1

n

X

i=1

1

hi

K z

Φ ˆ

i hi

1 hn

K

z

Φ ˆ

n hn

(Y

n+1

ˆ

fn

(z)).

(14)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

esultats asymptotiques esultats de simulation

R´ esultats asymptotiques pour ˆ θ

n

Hypoth` eses :

(A1) Les observations (xi,yi),i= 1, ...,n, sont ´echantillonn´ees de mani`ere ind´ependante `a partir du mod`ele (1).

(A2) Le support dey est partionn´e en deux tranches fixess1ets2

telles queP(y∈sh)6= 0 pourh= 1,2.

(15)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

esultats asymptotiques esultats de simulation

R´ esultats de convergence :

Th´eor`eme (Convergence presque sˆurement)

Sous les hypoth` eses (H), (A1) et (A2), nous avons

||θ

ˆ

n−θ

˜

||=O

r

log(log

n) n

!

p.s.,

o`u le vecteurθ˜est colin´eaire `aθ

.

Th´eor`eme (Convergence en loi)

Sous les hypoth` eses (H), (A1) et (A2), nous avons :

√n(ˆθn−θ)

˜

−→ NL

(0, Σ

−1

3

Σ

−1

),

o` u

3peut ˆetre calcul´ee explicitement

.

(16)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

esultats asymptotiques esultats de simulation

R´ esultats asymptotiques pour ˆ f

n

Hypoth` eses :

(H.1)Fenˆetrehn=n−αest positive telle que :

n→∞lim hn= 0 et lim

n→∞nhn=∞.

(H.2)NoyauK estun noyau `a support compact, mesurable, positif et born´e satisfaisant :

Z

R

K(x)dx= 1, Z

R

|x|K(x)dx<+∞, Z

R

K2(x)dx =τ2

(H.3)Fonction de lienf est une fonction Lipschitzienne, born´ee et deux fois continˆument d´erivable surR.

(17)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

esultats asymptotiques esultats de simulation

R´esultats de convergence : En utilisant le r´esultat de convergence presque sˆurement de ˆθn, nous avons : Th´eor`eme (Convergence presque sˆurement)

Sous les hypoth`eses(H.1)−(H.3), nous avons quand n→ ∞:

||fˆn(z)−f(z)||=O n

rlog(logn) n

!

p.s..

Th´eor`eme (Convergence en loi)

Sous les hypoth`eses(H.1)−(H.3), supposons queE(Y2)<∞,

∀α∈]1/3,1/2[eth(Φ)>0, ∀z ∈R, nous avons quand n→ ∞: pnhn

n(z)−f(z) L

−→ N

0, σ2τ2 h(Φ)(1 +α)

. o`uσ2=E[ε2n|Fn−1]et h(Φ) est la densit´e de(Φn).

(18)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

esultats asymptotiques esultats de simulation

R´ esultats de simulation pour ˆ θ

n

Objectif : Etudier le comportement num´ ´ erique de

l’estimateur r´ ecursif ˆ

θn

(la convergence de ˆ

θn

vers la vraie direction

θ

du mod` ele).

Mod` ele simul´ e : (M1) : y = (θ

0

x)

3

+

ε

avec x

∼ Np

(0, I

p

),

θ

= (1,

−1,

0, . . . , 0)

∈Rp

,

ε∼ N

(0, 1).

Motivations :

Montrer l’´evolution, en fonction la taille de l’´echantillon n, de la qualit´e de l’ estimateur r´ecursif, et l’effet de la dimensionp dex sur la qualit´e de l’estimation.

Illustrer la normalit´e asymptotique de l’estimateur r´ecursif.

La qualit´e de l’estimation sera mesur´ee par cos2(ˆθn, θ) = (<θˆn, θ >)2

||θˆn|| × ||θ||.

Plus cos2θn, θ) est proche de 1, meilleure est la qualit´e de l’estimation.

(19)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

esultats asymptotiques esultats de simulation

0 200 400 600 800 1000

0.00.20.40.60.81.0

N

cosinus carrés

Modèle (M1) avec Sigma=Ip

p=5 p=10 p=12 p=40

0.00.20.40.60.81.0

cosinus carrés

Modèle (M1) avec Sigma=Ip pour N=500

N=50 N=100 N=150 N=200 N=300 N=500 N=700 N=1000

0.00.20.40.60.81.0

cosinus carrés

Modèle (M1) avec Sigma=Ip

Evolution de la qualit´´ e de l’estimateur deθˆn, en fonction den et en fonction dep, sur un ´echantillon et sur 500 ´echantillons.

(20)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

esultats asymptotiques esultats de simulation

−4 −2 0 2 4

0.00.10.20.30.4

densité

−4 −2 0 2 4

0.00.10.20.30.4

−4 −2 0 2 4

0.00.10.20.30.4

densité

−4 −2 0 2 4

0.00.10.20.30.4

Illustration de la normalit´e asymtotique pour 2 composantes deθˆn

(le graphe de la densit´e de la loiN(0,1), en pointill´e, est superpos´e `a l’histogramme).

(21)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

esultats asymptotiques esultats de simulation

R´ esultats de simulation pour ˆ f

n

Objectif : Etudier le comportement num´ ´ erique de l’estimateur r´ ecursif ˆ f

n

en combinant l’estimateur de Nadaraya-Watson r´ ecursif de f ` a l’estimateur r´ ecursif ˆ

θn

. Mod` ele simul´ e : (M2) : y = (θ

0

x)exp(−θ

0

x) +

ε

avec x

∼ N

(m, σ

2

),

θ∈

[−10; 10])

∈Rp

,

ε∼ N

(0, 1).

Motivations :

Montrer l’´evolution, en fonction la taille de l’´echantillon n, de la qualit´e de l’ estimateur r´ecursif.

Illustrer la normalit´e asymptotique de l’estimateur r´ecursif.

(22)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

esultats asymptotiques esultats de simulation

0 100 200 300 400 500 600 700 800 900 1000

0 0.5 1

LGN pour l’estimateur de theta

0 100 200 300 400 500 600 700 800 900 1000

−4

−2 0 2

LGN pour l’estimateur de f

Evolution,en fonction de´ n, de la qualit´e de l’estimateur deθˆn et defˆn.

(23)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

esultats asymptotiques esultats de simulation

−4 −3 −2 −1 0 1 2 3 4

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45

TLC associé

Illustration de la normalit´e asymtotique deˆfn(z)

dans le mod`ele (M2) avec le choix de noyau Gaussien et de fenˆetren−0.45.

(24)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

Conclusion

Les estimateurs r´ecursifs propos´es semblent bien fonctionner num´eriquement pour des tailles d’´echantillons raisonnables et mˆeme lorsque la dimension de la covariablex est importante.

Nous obtenons bien la normalit´e asymptotique des estimateurs propos´es.

Perspective

Le choix de la fenˆ etre h

n

= n

−α

est crucial. Nous continuons

`

a travailler sur la partie th´ eorique afin d’´ elargir l’intervalle

α∈]1/3; 1/2[.

(25)

Introduction Estimation r´ecursive Propri´et´es asymptotiques Conclusion et Perspectives

MERCI DE VOTRE ATTENTION

!

Références

Documents relatifs

Estimation des param` etres et de l’´ etat cach´ e des mod` eles d’espace d’´ etats: application au mod`

F., A Robbins-Monro procedure for estimation in semiparametric regression models, Annals of

Sous des conditions de m´ elange assez g´ en´ erales, on ´ etablit la convergence presque compl` ete (avec vitesse) d’un estimateur ` a noyau pour la fonction de hasard d’une

boxcox (MASS) transformation de Box-Cox dans le cas d’un LNM bcPower (car) transformation de Box-Cox, Yeo-Johnson ou puissance lm (stats) ajuste un mod` ele de r´ egression lin´

En occultant ensuite cette information, ajuster un ou plusieurs mod` eles (soit de type AR/MA/ARMA/ARIMA/SARIMA, soit de type r´ egression avec tendance et/ou saisonnalit´ e

Soit F un sous espace vectoriel ferm´ e d’un espace de Hilbert muni d’un produit scalaire h., .i et d’une

On suppose que l’on observe seulement le nombre de particules dans le r´ecipient A au cours du temps, et que l’on d´esire estimer le nombre total de particules. Et construire

A chaque alignement, est associ´ e un score (simple ici) suivant: pour chaque position on associe 0 si les 2 bases sont identiques, +1 si les deux bases sont diff´ erentes et +3 s’il