Estimation non-paramétrique robuste pour données fonctionnelles

(1)

HAL Id: inria-00386611

https://hal.inria.fr/inria-00386611

Submitted on 22 May 2009

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Estimation non-paramétrique robuste pour données fonctionnelles

Christophe Crambes, Laurent Delsol, Ali Laksaci

To cite this version:

Christophe Crambes, Laurent Delsol, Ali Laksaci. Estimation non-paramétrique robuste pour données fonctionnelles. 41èmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux, France, France.

�inria-00386611�

(2)

Estimation nonparam´ etrique robuste pour donn´ ees fonctionnelles

Christophe Crambes

¹

, Laurent Delsol

²

& Ali Laksaci

³

1

Universit´ e Montpellier 2, place Eug` ene Bataillon, 34095 Montpellier cedex.

2

Universit´ e Catholique de Louvain, 20 voie du Roman Pays, 1348 Louvain-la-Neuve.

3

Universit´ e Djillali Liab` es, BP 89, 22000 Sidi Bel Abb` es, Algeria.

R´ esum´ e. L’estimation robuste pr´ esente une approche alternative aux m´ ethodes de r´ egression classiques, par exemple lorsque les observations sont affect´ ees par la pr´ esence de donn´ ees aberrantes. R´ ecemment, ces estimateurs robustes ont ´ et´ e consid´ er´ es pour des mod` eles avec donn´ ees fonctionnelles. Dans cet expos´ e, nous consid´ erons un mod` ele de r´ egression robuste avec une variable d’int´ erˆ et r´ eelle et une variable explicative fonctionnelle. Nous d´ efinissons un estimateur non-param´ etrique de la fonction de r´ egression, et nous nous int´ eressons ` a ses propri´ et´ es asymptotiques, relativement ` a des erreurs L

^q

. Notre proc´ edure d’estimation est ensuite ´ evalu´ ee sur un jeu de donn´ ees r´ eelles.

Abstract. It is well known that robust estimation provides an alternative approach to classical methods affected for instance by the presence of outliers. Recently, these robust estimators have been considered for models with functional data. In this talk, we focus on asymptotic properties of a conditional nonparametric estimation of a real valued variable with a functional covariate. We present results dealing with convergence in probability, asymptotic normality and L

^q

errors. Our estimation procedure is also evaluated on a real dataset.

Mots cl´ es. Donn´ ees fonctionnelles, statistique robuste, estimation non-param´ etrique, erreurs L

^q

.

1. Introduction

Un probl` eme courant en statistiques est d’essayer d’expliquer comment une variable d’int´ erˆ et Y est reli´ ee ` a une variable explicative X. Cet expos´ e se rapporte ` a ce cadre, dans lequel on suppose de plus que la variable ` a expliquer Y est ` a valeurs r´ eelles et la variable explicative X est ` a valeurs dans un espace de fonctions F muni d’une semi-m´ etrique d. Ce type de variables, connu sous le nom de variables fonctionnelles dans la litt´ erature, permet de consid´ erer des variables al´ eatoires en tant que fonctions (du temps par exemple), ce qui semble ˆ etre le plus adapt´ e dans le cas o` u les observations sont par nature fonctionnelles:

on renvoie notamment ` a Ramsay et Silverman (2002, 2005) pour une vue d’ensemble sur

les donn´ ees fonctionnelles. Dans ce contexte, le mod` ele le plus g´ en´ eral est le mod` ele de

r´ egression lorsque la variable explicative est une courbe, qui s’´ ecrit

(3)

Y = r(X) + ,

o` u r est un op´ erateur de F dans R et est une variable al´ eatoire d’erreur. Ce mod` ele a d´ ej` a ´ et´ e ´ etudi´ e d’un point de vue non-param´ etrique (c’est-` a-dire lorsque l’on fait unique- ment des hypoth` eses de r´ egularit´ e sur r). La monographie de Ferraty et Vieu (2006) recense les principaux r´ esultats obtenus pour l’estimateur non-param´ etrique ` a noyau de r. Cependant, cette estimation de r vu comme la moyenne conditionnelle de Y sachant X peut ˆ etre inadapt´ ee dans certaines situations. Par exemple, la pr´ esence de donn´ ees aberrantes peut amener ` a des r´ esultats non pertinents. La r´ egression robuste a ´ et´ e intro- duite pour r´ esoudre ce genre de probl` emes. Depuis les premiers r´ esultats obtenus dans les ann´ ees soixante, notamment par Huber (1964), de nombreux auteurs ont d´ evelopp´ e le domaine: Robinson (1984), Collomb et H¨ ardle (1986), Boente et Fraiman (1990), et La¨ıb

! et Ould-Sa¨ıd (2000), . . . Concernant les donn´ ees en dimension infinie, la litt´ erature est beaucoup plus restreinte: Cadre (2001), ainsi que Cardot et al. (2005) sont les principales r´ ef´ erences. R´ ecemment, Azzedine et al. (2008) ont ´ etudi´ e la convergence presque compl` ete d’estimateurs robustes ` a noyau. Dans le mˆ eme cadre, Attouch et al. (2007) ont ´ etudi´ e la normalit´ e asymptotique de ces estimateurs.

Dans ce travail, on se propose de poursuivre l’´ etude de ces estimateurs ` a noyau. Apr` es avoir rappel´ e le r´ esultat de convergence en probabilit´ e ainsi que la normalit´ e asymptotique de Attouch et al. (2007), on donne les expressions asymptotiques de la vitesse de convergence vis-` a-vis des normes L

^q

, ´ etendant ainsi les r´ esultats de Delsol (2007) obtenus dans un cadre non robuste. En guise d’illustration, on applique nos r´ esultats en pr´ evision de s´ eries temporelles sur un jeu de donn´ ees r´ eelles de consommation d’´ energie.

2. Mod` ele

Consid´ erons un couple (X, Y ) de variables al´ eatoires ` a valeurs dans F × R . Pour x ∈ F, on consid` ere une fonction mesurable ψ

x

. Le param` etre fonctionnel ´ etudi´ e dans ce travail, not´ e θ

_x

, est la solution (suppos´ ee unique) de l’´ equation en t d´ efinie par

Ψ(x, t) := E [ψ

x

(Y, t) |X = x] = 0. (1) En g´ en´ eral, la fonction ψ

_x

est fix´ ee par le statisticien en fonction de la situation ` a laquelle il est confront´ e. Des exemples classiques de ψ

x

conduisent ` a l’estimation de la moyenne conditionnelle (si ψ

_x

(Y, t) = Y − t) ou de quantiles conditionnels (si ψ

_x

(Y, t) = 11

{Y≥t}

− 11

{Y <t}

): voir Ferraty et Vieu (2006) et Attouch et al. (2007). ´ Etant donn´ e un

´ echantillon (X

i

, Y

i

)

_i=1,...,n

de mˆ eme loi que (X, Y ), un estimateur ` a noyau de Ψ(x, t) est donn´ e par

Ψ(x, t) = b P

n

i=1

K (h

⁻¹

d(x, X

i

)) ψ

x

(Y

i

, t) P

n

i=1

K (h

⁻¹

d(x, X

_i

)) , (2)

(4)

o` u K est un noyau et h = h

_n

est la largeur de fenˆ etre. Alors, un estimateur ` a noyau naturel de θ

_x

est θ b

_n

= θ b

_n

(x) donn´ e par

Ψ(x, b θ b

_n

) = 0. (3)

On remarque que, sous la condition P

n

i=1

K (h

⁻¹

d(x, X

_i

)) 6= 0, la d´ efinition de l’estimateur par (3) est ´ equivalente ` a

ρ b

_n

(x, θ b

_n

) :=

n

X

i=1

K h

⁻¹

d(x, X

_i

) ψ

_x

Y

_i

, θ b

_n

= 0. (4)

3. R´ esultats asymptotiques

3.1. Convergence en probabilit´ e et normalit´ e asymptotique

On donne ici certains r´ esultats obtenus par Attouch et al. (2007) pour des donn´ ees (X

_i

, Y

_i

)

_i=1,...,n

ind´ ependantes et identiquement distribu´ ees. On pose F (h) = P (d(X, x) ≤ h), connu sous le nom de probabilit´ es de petites boules dans la litt´ erature. Sous des conditions techniques (non cit´ ees ici) mais relativement classiques dans ce contexte non-param´ etrique fonctionnel, ces auteurs montrent

θ b

n

− θ

x P

−−−−→

n→+∞

0. et

nF (h

_n

) V

_n

(x)

1/2

θ b

_n

− θ

_x

− B

_n

(x)

_L

−−−−→

n→+∞

N (0, 1) , avec des expressions explicites pour V

n

(x) et B

n

(x).

3.2. Un r´ esultat d’uniforme int´ egrabilit´ e

On donne dans ce paragraphe un r´ esultat utile dans la suite pour obtenir la convergence des moments de θ b

_n

. Soit t ∈ R fix´ e. On donne le r´ esultat pour des donn´ ees (X

_i

, Y

_i

)

_i=1,...,n

ind´ ependantes et identiquement distribu´ ees. On peut ´ egalement montrer, sous des hypoth` eses plus fortes, le mˆ eme type de r´ esultat pour des donn´ ees arithm´ etiquement α- m´ elangeantes. On consid` ere les hypoth` eses suivantes.

(H.1) Il existe p > 2 et C > 0, tels que, pour X dans un voisinage ouvert de x, on a presque sˆ urement

E [|ψ

_x

(Y, t)|

^p

|X] ≤ C.

(H.2) On suppose que lim

n→+∞

nF (h

_n

) = +∞.

(5)

(H.3) K est ` a support [0, 1], est born´ e, et K(1) > 0.

Sous les hypoth` eses (H.1) − (H.3), pour 0 ≤ q < p, la quantit´ e

p nF (h

_n

) (Ψ

_n

(x, t) − E [Ψ

_n

(x, t)])

q

, est uniform´ ement int´ egrable, o` u Ψ

_n

(x, t) = 1

nF (h

_n

) ρ b

_n

(x, t).

3.3. Convergence des moments

On donne le r´ esultat pour des donn´ ees (X

_i

, Y

_i

)

_i=1,...,n

ind´ ependantes et identiquement distribu´ ees. On peut ´ egalement montrer, sous des hypoth` eses plus fortes, le mˆ eme type de r´ esultat pour des donn´ ees arithm´ etiquement α-m´ elangeantes. On suppose que ψ

x

est de classe C

¹

vis-` a-vis de son second argument sur un voisinage de θ

_x

. On note ζ

_n

la variable al´ eatoire (entre θ

_x

and ˆ θ

_n

) telle que ˆ θ

_n

− θ

_x

= −

∂Ψn^Ψⁿ^(x,θ^x⁾

∂t (x,ζn)

et on d´ efinit B

_n

:= −

^E[Ψⁿ^(x,θ^x^)]

E

[

^∂Ψ∂tⁿ(x,ζn)

] . On suppose que

Z

_n

:=

s

nF (h

_n

) V

_n

(x)

b θ

_n

− θ

_x

− B

_n

(x)

_L

−−−−→

n→+∞

W, (5)

o` u W est une variable al´ eatoire gaussienne centr´ ee r´ eduite, et avec des expressions explicites de B

_n

(x) et V

_n

(x). On suppose que les hypoth` eses (H.1) − (H.3) sont v´ erifi´ ees (avec t = θ

_x

), ainsi que certaines conditions techniques donn´ ees ci-dessous.

(H.4) t 7→ sup

y

∂ψ

_x

∂t (y, t) − ∂ψ

_x

∂t (y, θ

_x

)

est continue dans un voisinage de θ

_x

. (H.5) Il existe une constante N telle que, presque sˆ urement dans un voisinage de x

E

"

∂ψ

_x

∂t (Y

_i

, ζ

_n

) − ∂ψ

_x

∂t (Y

_i

, θ

_x

)

2

| X

_i

#

≤ N.

(H.6) Il existe des constantes γ et δ telles que E

∂ψ

x

∂t (Y, θ

_x

) | X

11

{d(X,x)≤δ}

≥ γ11

{d(X,x)≤δ}

. (H.7) B

_n

(x) v´ erifie p

nF (h

_n

)B

_n

= O (1).

(H.8) Il existe p

⁰

> 2 et une constante 0 < C

⁰

< +∞ telle que, pour X dans un voisinage ouvert de x, on a presque sˆ urement

E

"

∂ψ

x

∂t (Y, ζ

_n

)

p⁰

|X

#

≤ C

⁰

.

(6)

(H.9) Il existe r et une constante 0 < M

₀

< +∞ tels que E h

b θ

_n

− θ

_x

r

i

≤ M

₀

.

Alors, pour q < q

⁰

(avec une expression explicite de q

⁰

, qui n’est pas donn´ ee ici), on a

E h

θ b

_n

− θ

_x

q

i

= E

"

B

_n

(x) + s

V

_n

(x) nF (h

_n

) W

q

#

+ o 1

p nF (h

n

)

^q

! .

Des expressions asymptotiques plus explicites des erreurs L

^q

peuvent ˆ etre d´ eduites ` a partir des expressions de B

_n

(x) et V

_n

(x) donn´ ees par Attouch et al. (2007) en utilisant la mˆ eme approche que Delsol (2007). Ces expressions peuvent ˆ etre utilis´ ees par exemple pour choisir la fenˆ etre optimale h. Ce sont les premiers r´ esultats de convergence dans L

^q

pour des estimateurs robustes dans un mod` ele de r´ egression non-param´ etrique fonctionnel.

4. Application

Dans cet exemple, on s’int´ eresse ` a l’application de notre mod` ele comme outil de pr´ evision. On utilise les donn´ ees de consommation d’´ energie

¹

´ etudi´ ees dans la mona- graphie de Ferraty et Vieu (2006). L’objectif est de pr´ evoir la consommation une ann´ ee connaissant la courbe l’ann´ ee pr´ ec´ edente. Pour ´ eviter l’h´ et´ erosc´ edasticit´ e de ces donn´ ees, Ferraty et Vieu (2006) ont transform´ e ces donn´ ees ` a l’aide de diff´ erences logarithmiques.

On souhaite utiliser ici les donn´ ees initiales, notre estimateur robuste ne devant pas ˆ etre affect´ e par l’h´ et´ erosc´ edasticit´ e. On consid` ere la fonction objectif ψ

_x

(·) = ψ

. S(x)

o` u ψ(·) est la fonction de Huber d´ efinie par

ψ(u) =

u si u ∈ [−1.34, 1.34], 1.34sgn(u) sinon,

et la quantit´ e S(x) est la m´ ediane de |Y − med

_x

|, avec med

_x

la m´ ediane conditionnelle de Y sachant X = x. Le param` etre de lissage est choisi en utilisant la validation crois´ ee de type L

¹

. Le noyau utilis´ e est le noyau quadratique. Un autre param` etre ` a fixer et dont l’importance est cruciale est la semi-m´ etrique d. On utilise une famille de semi-m´ etriques induites par l’analyse en composantes principales fonctionnelle avec plusieurs dimensions:

voir Besse et al. (1997) pour plus de d´ etails. Les r´ esultats que nous avons obtenus dans cet exemple sont relativement satisfaisants en termes de pr´ ediction.

Bibliographie

[1] Attouch, M., Laksaci, A. and Ould-Sa¨ıd, E. (2007). Asymptotic distribution of robust estimator for functional nonparametric models. Pr´ epublication, LMPA No 314.

[2] Azzeddine, N., Laksaci, A. and Ould-Sa¨ıd, E. (2008) On the robust nonparametric regression estimation for functional regressor. Statistic and Probabability Letters, 78, 3216-3221.

1

donn´ ees disponibles ` a l’adresse www.economagic.com

(7)

[3] Besse, P., Cardot, H. and Ferraty, F. (1997). Simultaneous nonparametric re- gressions of unbalanced longitudinal data. Computational Statistics and Data Analysis, 24,255-270.

[4] Boente, G. and Fraiman, R. (1990). Asymptotic distribution of robust estimators for nonparametric models from mixing processes. Annals of Statistics, 18, 891-906.

[5] Cadre, B. (2001). Convergent estimators for the L

1

-median of a Banach valued random variable. Statistics, 35, 509-521.

[6] Cardot, H., Crambes, C. and Sarda, P. (2005). Quantiles regression when the covariates are functions. Journal of Nonparametric Statistics, 17, 841-856.

[7] Collomb, G. and H¨ ardle, W. (1986). Strong uniform convergence rates in robust nonparametric time series analysis and prediction: kernel regression estimation from de- pendent observations. Stochastic Processes and Applications, 23, 77-89.

[8] Delsol, L. (2007). R´ egression non-param´ etrique fonctionnelle: expressions asymptotiques des moments. Annales de l’ISUP, LI, 43-67.

[9] Ferraty, F. and Vieu, P. (2006). Nonparametric functional data analysis: theory and practice. Springer-Verlag, New York.

[10] Huber, P.J. (1964). Robust estimation of a location parameter. Annals of the Mathematical Statistics, 35, 73-101.

[11] La¨ıb, N. and Ould-S¨ıad, E. (2000). A robust nonparametric estimation of the autoregression function under an ergodic hypothesis. Canadian Journal of Statistics, 28, 817-828.

[12] Robinson, R. (1984). Robust Nonparametric Autoregression. Lecture Notes in Statistics, Springer-Verlag, New York, 26, 247-255.

[13] Ramsay, J.O. and Silverman, B.W. (2002). Applied functional data analysis.

Springer-Verlag, New York.

[14] Ramsay, J.O. and Silverman, B.W. (2005). Functional data analysis (Sec. Ed.).

Springer-Verlag, New York.