HAL Id: inria-00386611
https://hal.inria.fr/inria-00386611
Submitted on 22 May 2009
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Estimation non-paramétrique robuste pour données fonctionnelles
Christophe Crambes, Laurent Delsol, Ali Laksaci
To cite this version:
Christophe Crambes, Laurent Delsol, Ali Laksaci. Estimation non-paramétrique robuste pour données fonctionnelles. 41èmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux, France, France.
�inria-00386611�
Estimation nonparam´ etrique robuste pour donn´ ees fonctionnelles
Christophe Crambes
1, Laurent Delsol
2& Ali Laksaci
31
Universit´ e Montpellier 2, place Eug` ene Bataillon, 34095 Montpellier cedex.
2
Universit´ e Catholique de Louvain, 20 voie du Roman Pays, 1348 Louvain-la-Neuve.
3
Universit´ e Djillali Liab` es, BP 89, 22000 Sidi Bel Abb` es, Algeria.
R´ esum´ e. L’estimation robuste pr´ esente une approche alternative aux m´ ethodes de r´ egression classiques, par exemple lorsque les observations sont affect´ ees par la pr´ esence de donn´ ees aberrantes. R´ ecemment, ces estimateurs robustes ont ´ et´ e consid´ er´ es pour des mod` eles avec donn´ ees fonctionnelles. Dans cet expos´ e, nous consid´ erons un mod` ele de r´ egression robuste avec une variable d’int´ erˆ et r´ eelle et une variable explicative fonction- nelle. Nous d´ efinissons un estimateur non-param´ etrique de la fonction de r´ egression, et nous nous int´ eressons ` a ses propri´ et´ es asymptotiques, relativement ` a des erreurs L
q. Notre proc´ edure d’estimation est ensuite ´ evalu´ ee sur un jeu de donn´ ees r´ eelles.
Abstract. It is well known that robust estimation provides an alternative approach to classical methods affected for instance by the presence of outliers. Recently, these robust estimators have been considered for models with functional data. In this talk, we focus on asymptotic properties of a conditional nonparametric estimation of a real valued variable with a functional covariate. We present results dealing with convergence in probability, asymptotic normality and L
qerrors. Our estimation procedure is also evaluated on a real dataset.
Mots cl´ es. Donn´ ees fonctionnelles, statistique robuste, estimation non-param´ etrique, erreurs L
q.
1. Introduction
Un probl` eme courant en statistiques est d’essayer d’expliquer comment une variable d’int´ erˆ et Y est reli´ ee ` a une variable explicative X. Cet expos´ e se rapporte ` a ce cadre, dans lequel on suppose de plus que la variable ` a expliquer Y est ` a valeurs r´ eelles et la variable explicative X est ` a valeurs dans un espace de fonctions F muni d’une semi-m´ etrique d. Ce type de variables, connu sous le nom de variables fonctionnelles dans la litt´ erature, permet de consid´ erer des variables al´ eatoires en tant que fonctions (du temps par exemple), ce qui semble ˆ etre le plus adapt´ e dans le cas o` u les observations sont par nature fonctionnelles:
on renvoie notamment ` a Ramsay et Silverman (2002, 2005) pour une vue d’ensemble sur
les donn´ ees fonctionnelles. Dans ce contexte, le mod` ele le plus g´ en´ eral est le mod` ele de
r´ egression lorsque la variable explicative est une courbe, qui s’´ ecrit
Y = r(X) + ,
o` u r est un op´ erateur de F dans R et est une variable al´ eatoire d’erreur. Ce mod` ele a d´ ej` a ´ et´ e ´ etudi´ e d’un point de vue non-param´ etrique (c’est-` a-dire lorsque l’on fait unique- ment des hypoth` eses de r´ egularit´ e sur r). La monographie de Ferraty et Vieu (2006) recense les principaux r´ esultats obtenus pour l’estimateur non-param´ etrique ` a noyau de r. Cependant, cette estimation de r vu comme la moyenne conditionnelle de Y sachant X peut ˆ etre inadapt´ ee dans certaines situations. Par exemple, la pr´ esence de donn´ ees aberrantes peut amener ` a des r´ esultats non pertinents. La r´ egression robuste a ´ et´ e intro- duite pour r´ esoudre ce genre de probl` emes. Depuis les premiers r´ esultats obtenus dans les ann´ ees soixante, notamment par Huber (1964), de nombreux auteurs ont d´ evelopp´ e le domaine: Robinson (1984), Collomb et H¨ ardle (1986), Boente et Fraiman (1990), et La¨ıb
! et Ould-Sa¨ıd (2000), . . . Concernant les donn´ ees en dimension infinie, la litt´ erature est beaucoup plus restreinte: Cadre (2001), ainsi que Cardot et al. (2005) sont les principales r´ ef´ erences. R´ ecemment, Azzedine et al. (2008) ont ´ etudi´ e la convergence presque compl` ete d’estimateurs robustes ` a noyau. Dans le mˆ eme cadre, Attouch et al. (2007) ont ´ etudi´ e la normalit´ e asymptotique de ces estimateurs.
Dans ce travail, on se propose de poursuivre l’´ etude de ces estimateurs ` a noyau. Apr` es avoir rappel´ e le r´ esultat de convergence en probabilit´ e ainsi que la normalit´ e asympto- tique de Attouch et al. (2007), on donne les expressions asymptotiques de la vitesse de convergence vis-` a-vis des normes L
q, ´ etendant ainsi les r´ esultats de Delsol (2007) obtenus dans un cadre non robuste. En guise d’illustration, on applique nos r´ esultats en pr´ evision de s´ eries temporelles sur un jeu de donn´ ees r´ eelles de consommation d’´ energie.
2. Mod` ele
Consid´ erons un couple (X, Y ) de variables al´ eatoires ` a valeurs dans F × R . Pour x ∈ F, on consid` ere une fonction mesurable ψ
x. Le param` etre fonctionnel ´ etudi´ e dans ce travail, not´ e θ
x, est la solution (suppos´ ee unique) de l’´ equation en t d´ efinie par
Ψ(x, t) := E [ψ
x(Y, t) |X = x] = 0. (1) En g´ en´ eral, la fonction ψ
xest fix´ ee par le statisticien en fonction de la situation ` a laquelle il est confront´ e. Des exemples classiques de ψ
xconduisent ` a l’estimation de la moyenne conditionnelle (si ψ
x(Y, t) = Y − t) ou de quantiles conditionnels (si ψ
x(Y, t) = 11
{Y≥t}− 11
{Y <t}): voir Ferraty et Vieu (2006) et Attouch et al. (2007). ´ Etant donn´ e un
´ echantillon (X
i, Y
i)
i=1,...,nde mˆ eme loi que (X, Y ), un estimateur ` a noyau de Ψ(x, t) est donn´ e par
Ψ(x, t) = b P
ni=1
K (h
−1d(x, X
i)) ψ
x(Y
i, t) P
ni=1
K (h
−1d(x, X
i)) , (2)
o` u K est un noyau et h = h
nest la largeur de fenˆ etre. Alors, un estimateur ` a noyau naturel de θ
xest θ b
n= θ b
n(x) donn´ e par
Ψ(x, b θ b
n) = 0. (3)
On remarque que, sous la condition P
ni=1
K (h
−1d(x, X
i)) 6= 0, la d´ efinition de l’estimateur par (3) est ´ equivalente ` a
ρ b
n(x, θ b
n) :=
n
X
i=1
K h
−1d(x, X
i) ψ
xY
i, θ b
n= 0. (4)
3. R´ esultats asymptotiques
3.1. Convergence en probabilit´ e et normalit´ e asymptotique
On donne ici certains r´ esultats obtenus par Attouch et al. (2007) pour des donn´ ees (X
i, Y
i)
i=1,...,nind´ ependantes et identiquement distribu´ ees. On pose F (h) = P (d(X, x) ≤ h), connu sous le nom de probabilit´ es de petites boules dans la litt´ erature. Sous des conditions techniques (non cit´ ees ici) mais relativement classiques dans ce contexte non-param´ etrique fonctionnel, ces auteurs montrent
θ b
n− θ
x P−−−−→
n→+∞
0.
et
nF (h
n) V
n(x)
1/2θ b
n− θ
x− B
n(x)
L−−−−→
n→+∞
N (0, 1) , avec des expressions explicites pour V
n(x) et B
n(x).
3.2. Un r´ esultat d’uniforme int´ egrabilit´ e
On donne dans ce paragraphe un r´ esultat utile dans la suite pour obtenir la convergence des moments de θ b
n. Soit t ∈ R fix´ e. On donne le r´ esultat pour des donn´ ees (X
i, Y
i)
i=1,...,nind´ ependantes et identiquement distribu´ ees. On peut ´ egalement montrer, sous des hy- poth` eses plus fortes, le mˆ eme type de r´ esultat pour des donn´ ees arithm´ etiquement α- m´ elangeantes. On consid` ere les hypoth` eses suivantes.
(H.1) Il existe p > 2 et C > 0, tels que, pour X dans un voisinage ouvert de x, on a presque sˆ urement
E [|ψ
x(Y, t)|
p|X] ≤ C.
(H.2) On suppose que lim
n→+∞
nF (h
n) = +∞.
(H.3) K est ` a support [0, 1], est born´ e, et K(1) > 0.
Sous les hypoth` eses (H.1) − (H.3), pour 0 ≤ q < p, la quantit´ e
p nF (h
n) (Ψ
n(x, t) − E [Ψ
n(x, t)])
q
, est uniform´ ement int´ egrable, o` u Ψ
n(x, t) = 1
nF (h
n) ρ b
n(x, t).
3.3. Convergence des moments
On donne le r´ esultat pour des donn´ ees (X
i, Y
i)
i=1,...,nind´ ependantes et identiquement distribu´ ees. On peut ´ egalement montrer, sous des hypoth` eses plus fortes, le mˆ eme type de r´ esultat pour des donn´ ees arithm´ etiquement α-m´ elangeantes. On suppose que ψ
xest de classe C
1vis-` a-vis de son second argument sur un voisinage de θ
x. On note ζ
nla variable al´ eatoire (entre θ
xand ˆ θ
n) telle que ˆ θ
n− θ
x= −
∂ΨnΨn(x,θx)∂t (x,ζn)
et on d´ efinit B
n:= −
E[Ψn(x,θx)]E
[
∂Ψ∂tn(x,ζn)] . On suppose que
Z
n:=
s
nF (h
n) V
n(x)
b θ
n− θ
x− B
n(x)
L−−−−→
n→+∞
W, (5)
o` u W est une variable al´ eatoire gaussienne centr´ ee r´ eduite, et avec des expressions ex- plicites de B
n(x) et V
n(x). On suppose que les hypoth` eses (H.1) − (H.3) sont v´ erifi´ ees (avec t = θ
x), ainsi que certaines conditions techniques donn´ ees ci-dessous.
(H.4) t 7→ sup
y
∂ψ
x∂t (y, t) − ∂ψ
x∂t (y, θ
x)
est continue dans un voisinage de θ
x. (H.5) Il existe une constante N telle que, presque sˆ urement dans un voisinage de x
E
"
∂ψ
x∂t (Y
i, ζ
n) − ∂ψ
x∂t (Y
i, θ
x)
2| X
i#
≤ N.
(H.6) Il existe des constantes γ et δ telles que E
∂ψ
x∂t (Y, θ
x) | X
11
{d(X,x)≤δ}≥ γ11
{d(X,x)≤δ}. (H.7) B
n(x) v´ erifie p
nF (h
n)B
n= O (1).
(H.8) Il existe p
0> 2 et une constante 0 < C
0< +∞ telle que, pour X dans un voisinage ouvert de x, on a presque sˆ urement
E
"
∂ψ
x∂t (Y, ζ
n)
p0
|X
#
≤ C
0.
(H.9) Il existe r et une constante 0 < M
0< +∞ tels que E h
b θ
n− θ
xr
i
≤ M
0.
Alors, pour q < q
0(avec une expression explicite de q
0, qui n’est pas donn´ ee ici), on a
E h
θ b
n− θ
xq
i
= E
"
B
n(x) + s
V
n(x) nF (h
n) W
q
#
+ o 1
p nF (h
n)
q! .
Des expressions asymptotiques plus explicites des erreurs L
qpeuvent ˆ etre d´ eduites ` a partir des expressions de B
n(x) et V
n(x) donn´ ees par Attouch et al. (2007) en utilisant la mˆ eme approche que Delsol (2007). Ces expressions peuvent ˆ etre utilis´ ees par exemple pour choisir la fenˆ etre optimale h. Ce sont les premiers r´ esultats de convergence dans L
qpour des estimateurs robustes dans un mod` ele de r´ egression non-param´ etrique fonctionnel.
4. Application
Dans cet exemple, on s’int´ eresse ` a l’application de notre mod` ele comme outil de pr´ evision. On utilise les donn´ ees de consommation d’´ energie
1´ etudi´ ees dans la mona- graphie de Ferraty et Vieu (2006). L’objectif est de pr´ evoir la consommation une ann´ ee connaissant la courbe l’ann´ ee pr´ ec´ edente. Pour ´ eviter l’h´ et´ erosc´ edasticit´ e de ces donn´ ees, Ferraty et Vieu (2006) ont transform´ e ces donn´ ees ` a l’aide de diff´ erences logarithmiques.
On souhaite utiliser ici les donn´ ees initiales, notre estimateur robuste ne devant pas ˆ etre affect´ e par l’h´ et´ erosc´ edasticit´ e. On consid` ere la fonction objectif ψ
x(·) = ψ
. S(x)
o` u ψ(·) est la fonction de Huber d´ efinie par
ψ(u) =
u si u ∈ [−1.34, 1.34], 1.34sgn(u) sinon,
et la quantit´ e S(x) est la m´ ediane de |Y − med
x|, avec med
xla m´ ediane conditionnelle de Y sachant X = x. Le param` etre de lissage est choisi en utilisant la validation crois´ ee de type L
1. Le noyau utilis´ e est le noyau quadratique. Un autre param` etre ` a fixer et dont l’importance est cruciale est la semi-m´ etrique d. On utilise une famille de semi-m´ etriques induites par l’analyse en composantes principales fonctionnelle avec plusieurs dimensions:
voir Besse et al. (1997) pour plus de d´ etails. Les r´ esultats que nous avons obtenus dans cet exemple sont relativement satisfaisants en termes de pr´ ediction.
Bibliographie
[1] Attouch, M., Laksaci, A. and Ould-Sa¨ıd, E. (2007). Asymptotic distribution of robust estimator for functional nonparametric models. Pr´ epublication, LMPA No 314.
[2] Azzeddine, N., Laksaci, A. and Ould-Sa¨ıd, E. (2008) On the robust nonparametric regression estimation for functional regressor. Statistic and Probabability Letters, 78, 3216-3221.
1