• Aucun résultat trouvé

Estimation de la fonction de variance par agrégation de type sélection modèle

N/A
N/A
Protected

Academic year: 2021

Partager "Estimation de la fonction de variance par agrégation de type sélection modèle"

Copied!
7
0
0

Texte intégral

(1)

HAL Id: hal-03235514

https://hal.archives-ouvertes.fr/hal-03235514

Submitted on 25 May 2021

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Estimation de la fonction de variance par agrégation de type sélection modèle

Ahmed Zaoui

To cite this version:

Ahmed Zaoui. Estimation de la fonction de variance par agrégation de type sélection modèle. JDS 2021 52èmes Journées de Statistique de la Société Française de Statistique (SFdS), Jun 2021, Nice, France. �hal-03235514�

(2)

Estimation de la fonction de variance par agr´ egation de type s´ election mod` ele

Ahmed ZAOUI

Laboratoire LAMA, Universit´e Gustave Eiffel, Ahmed.Zaoui@univ-eiffel.fr

R´esum´e. Dans ce travail, nous nous int´eressons `a l’estimation de la fonction de va- riance en r´egression par agr´egation de type s´election mod`ele (MS). Le but de la proc´edure MSest de s´electionner le meilleur estimateur parmi un ensemble de pr´edicteurs. Le pr´edicteur s´electionn´e est alors appel´e MS-estimateur. La construction de MS-estimateur repose sur une proc´edure en deux ´etapes. Dans une premi`ere ´etape, `a partir d’un premier ´echantillon, nous construisons des estimateurs de la fonction de variance par la m´ethode bas´ee sur les erreurs r´esiduelles. Dans une deuxi`eme ´etape, nous les agr´egeons `a l’aide d’un deuxi`eme

´echantillon. Nous ´etablissons la consistance de MS-estimateur vis-`a-vis du risque L2 et illustrons ses performances num´eriques sur simulations.

Mots-cl´es. Agr´egation, R´egression, M´ethode bas´ee sur les erreurs r´esiduelles.

Abstract. In this work, we focus on the variance function estimation in regression by model selection aggregation MS. The aim of the MS procedure is to select the best estimator from a set of predictors. The selected predictor is then calledMS-estimator. The construction of MS-estimator relies on a two-step procedure. In the first step, from a first sample, we construct estimators of the variance function by the residual-based method. In the second step, we aggregate them using a second sample. We establish the consistency of MS-estimator with respect to the L2 risk and illustrate its numerical performances on simulations.

Keywords. Aggregation, Regression, Residual-based method.

1 Introduction

Nous introduisons tout d’abord le mod`ele de r´egression. Dans ce cadre, une donn´ee observ´ee est de la forme (X, Y) o`u X ∈ Rd est la variables explicative et Y ∈ R est la variable `a pr´edire associ´ee `a l’entr´eeX telle que

Y =f(X) +ζ,

o`u ζ est la variable de bruit satisfaisant E[ζ|X] = 0 et E[ζ2] < ∞. Dans la suite, nous notonsf(x) =E[Y|X =x] la fonction de r´egression et σ2(x) = E[(Y −f(X))2|X =x]

la fonction de variance conditionnelle pour tout x∈Rd.

(3)

L’estimation de la fonction de variance conditionnelle joue un rˆole important en r´egression, notamment pour mesurer la volatilit´e ou le risque en finance (Anderson et al (1997)), ou encore pour la construction d’un intervalle de confiance pour la fonction de r´egression (Hart (1997)). Plus r´ecemment, dans le cadre de la r´egression avec option rejet, (Denis et al (2020)) ont montr´e que le pr´edicteur optimal repose sur une seuillage de la fonction de variance. Dans ce travail, nous proposons une m´ethode d’agr´egation pour estimer la fonction de variance.

Dans la litt´erature, de nombreuses m´ethodes sont propos´ees pour estimer la fonction de variance conditionnelle. Les deux m´ethodes les plus populaires sont la m´ethode directe et la m´ethode bas´ee sur les erreurs r´esiduelles. La m´ethode directe (H¨ardle et al(1997)) repose sur une d´ecomposition de la fonction de variance conditionnelleσ2 qui est r´e´ecrite comme la diff´erence des deux premiers moments conditionnels,σ2(X) =E[Y2|X =x]−(E[Y|X = x])2. Elle consiste `a estimer s´epar´ement les deux termes du cˆot´e droit. La m´ethode bas´ee sur les erreurs r´esiduelles consiste en deux ´etapes. Dans une premi`ere ´etape, nous construisons un estimateur ˆf de la fonction de r´egression f. Dans une deuxi`eme

´etape, un estimateur deσ2est obtenu en r´esolvant le probl`eme de r´egression o`u la variable d’entr´ee estXet la variable `a pr´edire est (Y−f(X))ˆ 2. Pour plus de d´etails, nous renvoyons

`

a Ruppert et al (1997), Fan et al (1998), Kulik et al (2011) et Denis et al (2020). Dans ce travail, nous nous concentrons sur la m´ethode bas´ee sur les erreus r´esiduelles pour estimer la fonction de variance, car cette proc´edure fournit de bonnes garanties th´eoriques et num´eriques.

L’agr´egation est une approche populaire en apprentissage statistique pour estimer f dans le mod`ele de r´egression. Pour plus de d´etails, nous renvoyons `a Nemirovski (2000), Tsybakov (2003), Yang (2004) et Tsybakov (2014). Une m´ethode tr`es utilis´ee en pratique est l’agr´egation par s´election de mod`ele (MS). ´Etant donn´e un dictionnaire d’estimateurs de la fonction de r´egression, MS consiste, sur la base d’un ´echantillon d’apprentissage, `a s´electionner au sein du dictionnaire le meilleur pr´edicteur. Dans ce travail, nous appliquons le principe de la m´ethode MS pour estimer la fonction de variance. `A notre connaissance, ce travail est le premier `a ´etendre la notion d’agr´egation `a l’estimation de σ2.

Notations.Soit p≥2 un entier, [p] :={1,· · · , p}. Soit N un entier, pour toute fonction f :Rd→R, nous d´efinissons la norme empirique kfk2N = N1 PN

i=1|f(Xi)|2.

2 Agr´ egation de type s´ election mod` ele

Cette section est d´edi´ee `a l’estimation de la fonction de variance par MSet `a l’´etude de la consistance de la proc´edure propos´ee. Nous rappelons que nous nous concentrons sur la m´ethode bas´ee sur les erreus r´esiduelles pour estimer la fonction de variance.

(4)

2.1 M´ ethode

Dans cette section, nous d´ecrivons l’algorithme d’estimation de la fonction de variance σ2 en utilisant une m´ethode agr´egation de type s´election mod`ele. L’estimateur r´esultant est appel´e MS-estimateur. Nous introduisons d’abord deux ´echantillons d’apprentissage ind´ependants : Dn = {(Xi, Yi), i = 1,· · · , n} et DN = {(Xi, Yi), i = n + 1,· · · , n+N} qui consistent enn etN copies ind´ependantes et identiquement distribu´ees de (X, Y). La m´ethode que nous proposons est en deux ´etapes. Dans la premi`ere ´etape, nous consid´erons M1 estimateurs de la fonction de r´egression ˆf1,· · · ,fˆM1 bas´ee sur Dn. Ensuite, nous uti- lisons le deuxi`eme ´echantillon DN pour estimer f par MS : nous s´electionnons l’indice optimal ˆs

ˆ

s∈argmin

s∈[M1]

RN( ˆfs), avec RN( ˆfs) = 1 N

N

X

i=1

|Yi−fˆs(Xi)|2 ,

et le MS-estimateur de la fonction de r´egression, not´e ˆfMS, est donn´e comme suit fˆMS := ˆfˆs.

Dans une deuxi`eme ´etape, ´etant donn´e l’estimateur ˆfMS ( ˆfˆs) construit sur DN, nous construisonsM2estimateurs de la fonction de varianceσ2, construits `a partir deDn, parla m´ethode bas´ee sur les erreurs r´esiduelles. Ces estimateurs sont not´es ˆσ2ˆs,1,· · · ,σˆ2ˆs,M2. Enfin, sur la base de DN, nous s´electionnons l’indice optimal, not´e ˆm, comme suit

ˆ

m ∈argmin

m∈[M2]

N(ˆσs,m2ˆ ) o`u ˆRN(ˆσˆs,m2 ) = 1 N

N

X

i=1

|Zˆi−σˆs,m2ˆ (Xi)|2

avec ˆZi =

Yi−fˆMS(Xi) 2

. Par cons´equent, le MS-estimateur de la fonction de variance, not´e ˆσ2MS, est d´efini comme suit

ˆ

σ2MS:= ˆσ2ˆs,mˆ.

2.2 R´ esultat principal

Cette section est consacr´ee `a l’´etude du risqueL2de ˆσMS2 . SoitR( ˆfs) =E

h|Y −fˆs(X)|2i le risque quadratique pour ˆfs pour touts∈[M1]. Nous d´efinissons s comme suit

s ∈argmin

s∈[M1]

R( ˆfs) Nous introduisons ´egalement les hypoth`eses suivantes : Hypoth`ese 1. Les fonctions f et σ2 sont born´ees.

(5)

Hypoth`ese 2. Pour tout s∈[M1] et tout m ∈[M2] , fˆs et σˆs,m2 sont born´es.

Hypoth`ese 3 (Hypoth`ese de s´eparabilit´e). Il existe δ0 >0 telle que δ(Dn) = min

s6=s{|R( ˆfs)− R( ˆfs)|}> δ0 . Hypoth`ese 4. Y est born´e ou Y satisfait le mod`ele gaussien

Y =f(X) +σ(X)ξ, o`u ξ ∼ N(0,1) est ind´ependante de X.

Ces hypoth`eses jouent un rˆole crucial sur l’´etude de la consistance de ˆσMS2 . Nous pouvons

`

a pr´esent ´etablir notre r´esultat principal :

Th´eor`eme 1. Soit fˆMS et σˆMS2 les MS-pr´edicteurs de f et σ2 respectivement. Sous les Hypoth`eses 1, 2, 3 et 4, il existe deux constantes absolues C1 >0 et C2 >0 telle que

E

|ˆσMS2 (X)−σ2(X)|2

≤E

m∈[Mmin2]EX

|ˆσ2s,m(X)−σ2(X)|2

+C1

s∈[Mmin1]E

hkfˆs−fk2Ni1/p

+ C2φMSN(M1) , (1)

o`u p= 2 si Y est born´e ou p= 4 sinon

φMSN(M1) =





log(M1) N

1/4

si Y est born´e;

log(M1) N

1/8

sinon.

Th´eor`eme 1 donne une borne sup´erieure pour le risque L2 de ˆσMS2 . Le premier terme dans le cˆot´e droit de l’´equation (1) repr´esente le biais de MS-estimateur ˆσ2MS qui d´epend de s, tandis que le deuxi`eme est du `a l’erreur d’estimation de la fonction de r´egression f. Le troisi`eme terme est un terme de variance qui est d’ordre ; (log(M1)/N)1/4 dans le cas o`u Y est born´e et (log(M1)/N)1/8 dans le cas o`u Y n’est pas born´e. Cette vitesse lente est du au fait que l’estimation de la fonction de variance repose sur f que l’on doit

´egalement estimer.

3 Simulations

Dans cette section, nous ´etudions les performances num´eriques de MS-estimateur ˆσ2MS. La construction de ˆσMS2 est d´etaill´ee en section 2.1. Nous introduisons deux ensembles F = {fˆs}6s=1 et Σ =

ˆ σs,m2ˆ 6

m=1 (dont la construction repose sur ˆfMS) qui contiennent six estimateurs construits `a partir des algorithmes des forˆet al´eatoire (rf), des k-plus

(6)

proches voisins (K-PPV), du Lasso, et des machines `a vecteurs de support (svm) bas´es sur les noyaux de type base radiale, polynomiale et sigmo¨ıde. Pour les algorithmes svm et rf, nous utilisons respectivement les packages R, e1071 et randomForest avec des param`etres par d´efaut. PourK-PPV et Lasso, nous utilisons le packageFNNetglmnet respectivement. La s´election de l’entier k et du coefficient de p´enalit´e λ est effectu´ee par validation crois´ee. Enfin, les performances de l’estimateur ˆσ2MS sont ´evalu´ees comme suit.

On r´ep`ete ind´ependamment 100 fois les ´etapes suivantes :

(i) On simule trois ensembles de donn´ees Dn, DN et DT avec n, N ∈ {100,1000}, et T = 1000.

(ii) `A partir de Dn, nous construisons les estimateurs constituant F, puis `a partir de DN, nous calculons ˆfMS. Ensuite `a partir deDnet ˆfMS, nous calculons les estimateurs constituant Σ et puis nous calculons ˆσMS2 sur DN.

(iii) `A partir de Dn ∪ DN : dans un premier temps, nous calculons les estimateurs constituant F; dans un deuxi`eme temps, pour chaque estimateur ˆfs de F nous calculons les estimateurs {ˆσs,m2 }1≤m≤6 pour les six proc´edures.

(iv) Enfin, sur DT, nous calculons l’erreur empirique L2 (Err) de l’agr´c egat ˆσ2MS et de tous les estimateurs de la fonction de variance σ2 obtenus `a l’´etape (iii). Nous choisissons le meilleur estimateur parmi eux que l’on l’appelle ˆσ2Best.

A partir de ces estimations, nous calculons la moyenne et l’´` ecart-type deErr. Pour notrec

´etude num´erique, nous consid´erons le mod`ele suivant Y =f(X) +σ(X)ξ,

o`uξ ∼ N(0,1) ind´ependant `a X. Nous consid´erons deux mod`eles

• Mod`ele 1 : soit X une distribution uniforme sur [0,1]3 telle que 1. f(X) = cos(2X1) +X2

2. σ2(X) = 14(0.1 + exp(−7(X1−0.2)2) + exp(−10(X2−0.8)2+ exp(−20(X3−0.9)2)

• Mod`ele 2 : soit X= (X1,· · · , X10) une distribution uniforme sur [0,1]10 telle que 1. f(X) = 0.01 +X1+X2+X3 +X10

2. σ2(X) =

0.9 + (X1(1−X2))12 sin

2.1π X3+0.05

+ 0.1 exp (−550(X7−0.8)2) 2

. Le mod`ele 1 est un mod`ele multivari´e dans lequel la fonction de variance prend des valeurs relativement mod´er´ees (0.030≤σ2(X)<0.765). Par contre pour le mod`ele 2 qui est aussi un mod`ele multivari´e, la fonction de variance peut prendre de grandes valeurs (σ2(X)∈]0,4.432], avec 41.5% des valeurs sont sup´erieures `a 1). Le mod`ele 2 est donc un mod`ele o`u l’estimation de la fonction de variance est difficile.

Le r´esultats sont donn´es dans le tableau 1. Nous faisons deux observations. Premi`erement, lorsquenetN sont assez grands, leMS-estimateur ˆσMS2 a des performances similaires `a celles

(7)

Table 1 – Moyenne et ´ecart-type de l’erreur empirique L2 des deux estimateurs.

n=N= 100 n= 100,N= 1000 n= 1000,N= 100 n=N= 1000

MS Best MS Best MS Best MS Best

Model Errd Errd Errd Errd Errd Errd Errd dErr

Model 1 0.03 (0.023) 0.01 (0.004) 0.02 (0.013) 0.01 (0.001) 0.02 (0.022) 0.01 (0.001) 0.006 (0.002) 0.004 (0.000) Model 2 0.61 (0.167) 0.45 (0.031) 0.53 (0.112) 0.41 (0.029) 0.46 (0.120) 0.40 (0.028) 0.43 (0.034) 0.37 (0.033)

du meilleur estimateur ˆσBest2 qui est construit `a partir Dn∪ DN. Deuxi`emement, nous re- marquons dans le tableau 1, que pour le Mod`ele 1, l’erreur empirique Err de ˆc σMS2 converge plus rapidement vers ˆσ2Best que pour le Mod`ele 2. En effet, nous avons d’une part avec le Mod`ele 1, pour n = N = 100, Err(ˆc σ2MS) = 0.03 et pour n =N = 1000, Err(ˆc σMS2 ) = 0.006.

D’autre part, nous avons avec le Mod`ele 2 pour n = N = 100, Err(ˆc σMS2 ) = 0.61 et pour n = N = 1000, Err(ˆc σMS2 ) = 0.43. Finalement, nous concluons que plus la fonction de variance prend de grandes valeurs, plus son estimation devient difficile.

Bibliographie

Anderson, T.G. et Lund, J. (1997). Estimating continuous-time stochastic volatility mo- dels of the short- term interest rate, Journal of Econometrics, 77(2) :343–377.

Denis, C., Hebiri, M. et Zaoui, A. (2020). Regression with reject option and application to knn. NeurIPS 2020.

Fan, J., et Yao, Q. (1998). Efficient estimation of conditional variance functions in sto- chastic regression. Biometrika, 85(3) :645–660.

Hart, J. (1997). Nonparametric Smoothing and Lack-of-Fit Tests.Springer Series in Sta- tistics.

H¨ardle, W., et Tsybakov, A.B. (1997). Local polynomial estimators of the volatility func- tion in nonparametric autoregression. Journal of Econometrics, 81(1) :223–242.

Kulik, R., et Wichelhaus, C. (2011). Nonparametric conditional variance and error density estimation in regression models with dependent errors and predictors.Electron. J. Statist., 5 :856–898.

Nemirovski, A. (2000). Topics in Non-parametric Statistics. Saint-Flour Summer School in Probability XXVIII, 1998. Lecture Notes in Mathematics 1738. Springer, NY.

Ruppert, D., Wand, M.P., Holst, U. et H¨oSJER, O.(1997). Local polynomial variance function estimation.Technometrics, 39(3) :262–273.

Tsybakov, A.B. (2003). Optimal rates of aggregation. Learning Theory and Kernel Ma- chines, 303–313.

Tsybakov, A.B. (2014). Aggregation and minimax optimality in high-dimensional estima- tion. Proceedings of International Congress of Mathematicians, 3 :225–246.

Yang, Y. (2004). Aggregating regression procedures to improve performance. Bernoulli, 10 :25–47.

Références

Documents relatifs

F., A Robbins-Monro procedure for estimation in semiparametric regression models, Annals of

(Si vous ne disposez pas d'un jeu de cartes à la maison, vous pouvez le fabriquer avec votre enfant. Puis il écrira en se faisant aider les chiffres au feutre sur les cartes.

Y∼0+X1 r´ egression lin´ eaire simple sans intercept (identique au pr´ ec´ edent) Y∼X1-1 r´ egression lin´ eaire simple sans intercept (identique au pr´ ec´ edent)

La fonction residuals fournit diff´ erents types de r´ esidus ` a partir d’un mod` ele ajust´ e avec la fonction glm du package stats, charg´ e par d´ efaut. On peut effectuer

La fonction residuals fournit diff´ erents types de r´ esidus ` a partir d’un mod` ele ajust´ e avec la fonction glm du package stats. On peut effectuer la normal- isation en r´

D´ eterminer les meilleures zones d’´ echantillonnage pour estimer les diff´ erents

D´ eterminer les meilleures zones d’´ echantillonnage pour estimer les diff´ erents

• Celle pr´ esent´ ee dans les exemples du cours partent du mod` ele satur´ e et cherche ` a le simplifier en tentant de retirer certains termes du mod` ele en respectant la