• Aucun résultat trouvé

L’INDICE MULTI-FONCTIONNEL:

N/A
N/A
Protected

Academic year: 2022

Partager "L’INDICE MULTI-FONCTIONNEL:"

Copied!
13
0
0

Texte intégral

(1)

CHOIX OPTIMAL DE

L’INDICE MULTI-FONCTIONNEL:

METHODE DE VALIDATION CROISEE

MOHAND BOURAINE, AHMED AIT SAIDI, FR ´ED ´ERIC FERRATY et PHILIPE VIEU

This paper deals with the regression model of a real random variable on p vari- ables which take values in an infinite dimensional space. Specifically, we focus on the multi-functional index model, a natural extension of the functional single index model. We consider the case where the multi-functional parameter and the regression function are unknown. The estimation of the parameter is based on cross-validation criterion when the link function is obtained using a kernel esti- mator. The asymptotic optimality of the estimation in terms of squared error is established.

AMS 2010 Subject Classification: 62G05, 62G08, 62G20.

Mots-cl´es: variable fonctionnelle, mod`ele de r´egression, estimateur `a noyau, in- dice multi-fonctionnel, validation crois´ee.

1. INTRODUCTION

Ce travail se situe autour de la dynamique qui existe actuellement dans la communaut´e statistique internationale autour de la mod´elisation et du traite- ment des donn´ees et variables fonctionnelles. Plusieurs travaux r´ecents ont

´

et´e publi´es dans le domaine. Ces derniers comportent `a la fois les r´esultats th´eoriques relatifs aux m´ethodes d’analyse des variables fonctionnelles, ainsi que de nombreuses applications dans des domaines vari´es (voir les monogra- phies de Ferraty et Vieu [10] et Ramsay et Silverman [19, 20], les num´eros sp´eciaux de revues ´edit´es par Gonz`alez-Manteiga et Vieu [12], Valderrama [23], Ferraty [5] ainsi que l’ouvrage collectif de Ferraty et Romain [9]).

Nous nous int´eressons `a l’´etude de mod`ele de r´egression d’une variable al´eatoire r´eelle Y, consid´er´ee comme une r´eponse scalaire, sur une variable multiple X = (X1, . . . ,Xp) `a valeurs dans un espace de dimension infinie H=H1 × · · · × Hp, Hjj = 1, . . . , p, ´etant un espace s´eparable de Hilbert muni du produit scalaire ·,· j. On note x,y = (x1, y11, . . . ,xp, ypp), pour tout (x,y) ∈ H2, avec x = (x1, . . . , xp) et y = (y1, . . . , yp). Nous

REV. ROUMAINE MATH. PURES APPL.,55(2010),5, 355–367

(2)

supposons que nous disposons d’un ´echantillon {(Yi,Xi), i= 0,1, . . . , n} de couples ind´ependants et ayant chacun mme loi que (Y,X). On s’int´eresse au mod`ele `a indice multi-fonctionnel qui est d´efini par

(1) Yi =r(X1i, θ11, . . . ,Xpi, θpp) +i, ∀i= 1, . . . , n,

o`u r est une fonction de r´egression r´eelle, l’indice multi-fonctionnel θ0 = (θ1, . . . , θp) Θn ⊂ H et pour i = 1, . . . , n, i est une variable r´eelle telle queE(i|X) = 0. Les param`etres fonctionnelsθj et la fonction rsont incon- nus. Il s’agit d’une extension naturelle des mod`eles `a indice fonctionnel simple (voir Ait Saidi et al. [2] et Ferraty et al. [8]). Dans un contexte de pr´evision, on peut se reporter `a la note de Ait Saidi et al. [1] o`u les auteurs ont fourni les premiers r´esultats th´eoriques dans le cas d’un mod`ele `a indice fonctionnel sim- ple pour les s´eries temporelles. Le mod`ele `a indice multi-fonctionnel pr´esente de nombreux int´erˆets, tant du point de vue des perspectives math´ematiques qu’il ouvre et qui sont li´ees `a l’´etude statistique de mod`eles concernant des vari- ables dans des espaces abstraits, que du point de vue des larges potentialit´es d’applications qu’il peut offrir (m´et´eorologie, m´edecine, chimie quantitative, . . . ). L’´etude statistique de ces mod`eles, dans le cadre de variables al´eatoires explicatives vectorielles (H=Rp), a ´et´e abondante ces derni`eres ann´ees et les r´esultats les plus r´ecents ont ´et´e donn´es par Hsing et Caroll [16], Schott [22], Ferr´e [11], Aragon et Saracco [3], Saracco [21]. On parle alors de mod`ele `a in- dice multiple, pour lequel une m´ethode d’estimation populaire est la m´ethode de r´egression inverse par tranches introduite par Li [17]. Ce type de mod`eles est une g´en´eralisation du mod`ele `a indice simple (Single Index Model) dont l’´etude a ´et´e amorc´ee par H¨ardle et al. [13], Bonneu et al. [4] et H¨ardle et al.

[15]. Dans ce travail, nous proposons une proc´edure d’estimation pour l’indice multi-fonctionnel bas´ee sur la m´ethode de validation crois´ee.

Un estimateur `a noyau de la fonction de r´egression sera pr´esent´e dans le Paragraphe 2. On d´ecrit, dans le Paragraphe 3, le crit`ere de s´election (m´ethode de validation crois´ee) despdirections fonctionnelles inconnues de notre mod`ele de r´egression. On montre dans le Paragraphe 4 l’optimalit´e asymptotique, en terme d’erreur quadratique, de cette m´ethode d’estimation. On donne dans le Paragraphe 5 les d´emonstrations des lemmes techniques.

2. ESTIMATEUR

Pour tout indice multi-fonctionnel θ = (θ1, . . . , θp) Θn ⊂ H, rθ(·) = r(θ,·) l’op´erateur d´efini surHet `a valeurs dansR etrθ(x) =E(Y | θ,X=

(3)

θ,x). Soit rθ l’estimateur derθ

(2) ∀x∈ H, rθ(x) = n i=1YiK

Xi−x,θ h

n i=1K

Xi−x,θ h

, o`u X, θ=p

j=1Xj, θj2j est une semi-norme d´efinie sur H o`u h =hn est une suite de nombres positifs v´erifiant

(3)

⎧⎨

n→∞limh= 0, (logn)2 =O(nhp) et

C2 n−τ2 < hp < C1 n−τ1, avec 0< τ1 < τ2 <1, et o`u

(4) K est un noyau de type I ou de typeII.

Rappelons qu’une fonction (voir Ferraty et Vieu [10]) d´efinie de R dans R+ tel que

K = 1 est appel´ee noyau de typeI s’il existe deux constantes r´eelles 0< C3< C4 <+ tel que

(5) C31[0,1]≤K≤C41[0,1].

Elle est appel´ee noyau de type II si sont support est [0,1] et sa d´eriv´e K existe sur [0,1] et satisfait

(6) C4≤K ≤C3

pour toutes constantes r´eelles −∞< C4 < C3 <0. Comme il est difficile de supposer que X, θ admette une densit´e ´eventuellement strictement positive au point d’estimation, l’id´ee consiste alors `a obtenir des r´esultats asympto- tiques en fonction de la quantit´e

ϕθ(x, h) =P(X1X2, θ< h|X1 =x).

Asymptotiquement,hconverge vers 0 quandntend vers l’infini. La probabilit´e d’observer la variable al´eatoire fonctionnelle multiple autour dex (le vecteur fonctionnel auquel nous ´evaluons l’op´erateur de r´egression r) s’interpr`ete en termes de mesure de concentration de probabilit´e de petites boules de la varia- ble al´eatoire fonctionnelle multiple Xdans la direction θ. On suppose que

(7)

⎧⎪

⎪⎨

⎪⎪

C est un sous-ensemble de Htel queXC p.s.

∀θ∈Θn, ϕθ(X1, h) =CX1 hp+o(hp) p.s., avec 0< inf

θ∈ΘnCX1 < sup

θ∈Θn

CX1 <∞.

Cette hypoth`ese montre que le comportement de la mesure de concentration est contrˆol´e par la fenˆetreh.

(4)

3. CRITERE DE SELECTION DES PARAMETRES FONCTIONNELS

Le but de ce travail est d’introduire un crit`ere empirique, bas´e sur le principe de validation crois´ee, permettant de s´electionner un indice multi- fonctionnel qui soit asymptotiquement optimal pour les distances:

Erreur Quadratique Moyenne (Averaged Squared Error):

ASE(θ) =n1n

j=1

(rθ0(Xj)−rθ(Xj))2;

Erreur Quadratique Int´egr´ee (Integrated Squared Error):

ISE(θ) =E

(rθ0(X0)−rθ(X0))2|(X1, Y1), . . . ,(Xn, Yn)

;

Erreur Moyenne Quadratique Int´egr´ee (Mean Integrated Squared Er- ror):

MISE(θ) =E(ISE(θ)).

Ces distances ´etant incalculables en pratique, on utilise les id´ees de vali- dation crois´ee pour construire le crit`ere empirique:

Crit`ere de Validation Crois´ee (Cross-Validation):

CV(θ) =n1n

j=1

Yj −rθ−j(Xj)2,

o`u, pourj= 1, . . . , n,rθ−j est l’estimation derθfond´ee sur l’´echantillon auquel on a retir´e (Xj, Yj). Autrement dit,

r−jθ (x) = n

i=1, i =jYiK

Xi−x,θ h

n i=1, i =jK

Xi−x,θ h

.

Comme les trois premi`eres quantit´es d´ependent de rθ0 qui est inconnu, dans la pratique, on utilise le crit`ereCV(·) pour s´electionner θet on pose

θCV = arg min

θ∈ΘnCV(θ),

o`u Θn est une partie de Hde taille raisonnable au sens de l’hypoth`ese:

(8) cardΘn=O([nα]) avecα >0, o`u [·] d´esigne la partie enti`ere.

(5)

4. OPTIMALITE ASYMPTOTIQUE EN TERM D’ERREURS QUADRATIQUES

Les r´esultats n´ecessitent diverses conditions additionnelles. L’op´erateur rθ est Lipshitz d’ordreβ: ∃C5<∞,∃β >0,

(9) ∀θ∈Θn, (x,y)∈ H2, |rθ(x)−rθ(y)| ≤C5x−y, θβ. Les moments conditionnels d’ordre ksont born´es:

(10) ∀k∈N, E(Yk|X)≤Ck,X<∞p.s.

Enfin, le moment d’ordre 2 doit ˆetre minor´e:

(11) ∃C6>0, E

Y2 |X=x

=σ(x)≥C6, avec σ(·) continu.

Th´eor`eme 4.1. Sous les hypoth`eses(3)(11), nous avons MISECV)

MISE) 1 p.s., o`u θ = arg min

θ∈Θn

MISE(θ).

Th´eor`eme 4.2. Sous les hypoth`eses du Th´eor`eme4.1, on a ASECV)

θ∈ΘminnASE(θ) 1 p.s. et ISECV)

θ∈ΘminnISE(θ) 1 p.s.

Les Th´eor`emes 4.1 et 4.2 nous montrent que la notion d’optimalit´e n’est pas un concept absolu mais est li´ee au choix d’une fonction de risque (MISE, ASE, ISE) et que la proc´edure de validation crois´ee utilis´ee pour choisir l’estimateur de l’indice multi-fonctionnel qui minimise CV(θ) est asympto- tiquement optimale par rapport aux distances ASE, ISE et MISE. Afin de mener `a bien les d´emonstrations, nous introduisons les quantit´es

rθ,D(x) = 1 n

n i=1

Kθ(x,Xi) et rθ,N(x) = 1 n

n i=1

YiKθ(x,Xi) avec

Kθ(x,Xi) = Δi

1(x) et Δi=K

Xix, θ h

de mani`ere `a ce que

rθ(x) = rθ,N(x)

rθ,D(x).

Dans toutes les d´emonstrations qui suivent,Cd´esigne une constante g´en´erique.

La d´emonstration des Th´eor`emes 4.1 et 4.2 va d´ecouler des quatre lemmes suivants.

(6)

Lemma 4.1. Si les hypoth`eses du Th´eor`eme 4.1 sont satisfaites alors MISE) C

nhp.

Lemma 4.2. Si les hypoth`eses du Th´eor`eme 4.1 sont satisfaites alors nhp sup

θ∈Θn

|ASE(θ)−MISE(θ)| →0p.s.

Lemma 4.3. Si les hypoth`eses du Th´eor`eme 4.1 sont satisfaites alors nhp sup

θ∈Θn

ASE(θ)−ASE(θ)0 p.s., o`u ASE(θ) = n1 n

j=1

rθ0(Xj)−r−jθ (Xj)2

.

Lemma 4.4. Si les hypoth`eses du Th´eor`eme 4.1 sont satisfaites alors nhp sup

θ∈Θn

|CT(θ)| →0p.s., o`u CT(θ) =n1 n

j=1

Yj−rθ0(Xj))(rθ−j(Xj)−rθ0(Xj) .

Afin de d´emontrer les Lemmes 4.1, 4.2, 4.3 et 4.4, nous commen¸cons par donner quelques r´esultats g´en´eraux que nous allons utiliser `a chaque fois qu’il sera n´ecessaire.

Lemma4.5. Sous les hypoth`eses(3)(11), pour toutθ Θn nous avons (i) sup

x∈C|rθ,D(x)1|=Op.co.

logn nhp

, (ii) var(rθ(x)) =Cn1h−p+o

n1h−p . Corollary 4.1. ∀θ∈Θn, sup

x∈Cr−jθ,D(x)1=Op.co.

logn nhp

.

Clairement, ce corollaire se d´eduit du Lemme 4.5. On pose maintenant Zi = (Xi, Yi), i= 0, . . . , net le lemme suivant donne quelques r´esultats relatifs aux variables

(i, j)∈ {1, . . . , n}2, g(Zi, Zj) = (Yj−rθ0(Xi)) Δj(Xi) E1(Xi)) ,

qui permettront d’utiliser les th´eor`emes g´en´eraux ´etablis par Marron et H¨ardle [18] sur les ´equivalences de mesures d’erreurs quadratiques.

Lemma4.6. Si les hypoth`eses du Th´eor`eme4.1sont satisfaites alors on a (i) ∀k= 1,2, . . . , ∀m= 2, . . . ,2k,

E

m

i,j=1

g(Zi, Zj)αij

≤Ch(−k+m2)p,

(7)

o`uαij ∈ {0, . . . , k}, m

i,j=1αij =k, et, pour chaquei= 1, . . . , m, ∃j=itel que αji = 0 ou αij = 0,

(ii) E

[E (g(Z1, Z2) g(Z1, Z3)|Z2, Z3)]2≤Ch−p, (iii) |E(g(Z1, Z2) g(Z1, Z3))| ≤C,

(iv) E

g(Z1, Z2) 2

≥Ch−p, (v) E

[E( g(Z1, Z2)|Z1)]2k

≤C, (vi) E

g(Z1, Z1) 2k

≥Ch2kp, avec 0< C <∞.

D´emonstration du Th´eor`eme4.1. Nous avons, d’apr`es le Lemme 4.1, (12)

MISECV)−MISE) MISE)

≤Cnhp|MISECV)−MISE)|. Par ailleurs,

|MISECV)−MISE)| ≤2 sup

θ∈Θn

|ASE(θ)−MISE(θ)|+ (13)

+ASE(θ CV)−ASE(θ ∗∗)+ 2 sup

θ∈Θn

ASE(θ)−ASE(θ) + +|ASE∗∗)−ASE(θ)|,

o`u θ∗∗ = arg min

θ∈ΘnASE(θ). Le comportement asymptotique de la premi`ere quantit´e de la partie droite de (13) provient du Lemme 4.2. Concernant le comportement asymptotique de la deuxi`eme quantit´e de la partie droite de (13), remarquons que

CV(θ) =ASE(θ)2CT(θ) +n1 n j=1

(Yj−rθ0(Xj))2, et donc

4 sup

θ∈Θn

CT(θ) ASE(θ CV)−ASE(θ ∗∗),

cette in´egalit´e r´esulte de l’´equivalence entre ASE et ASE donn´ee dans le Lemme 4.3 et des deux in´egalit´es

ASECV)≥ASE∗∗) et CVCV)≤CV∗∗).

Maintenant, le Lemme 4.4 implique que

(14) nhpASECV)−ASE(θ ∗∗)0 p.s.

Le troisi`eme terme de la partie droite de (13) se traite avec le Lemme 4.3.

Finalement, pour le dernier terme, on proc`ede de la fa¸con suivante. On a 2 sup

θ∈Θn

|MISE(θ)−ASE(θ)| ≥ |ASE(θ∗∗)−ASE(θ)|.

(8)

La derni`ere in´egalit´e utilise le fait que

MISE∗∗)≥MISE(θ) et ASE(θ∗∗)≤ASE(θ).

Maintenant, l’utilisation du Lemme 4.2 implique que (15) nhp|ASE(θ∗∗)−ASE(θ)| →0 p.s.

Finalement, les in´egalit´es (12)–(15) nous permettent de compl´eter la d´emon- stration du Th´eor`eme 4.1.

D´emonstration du Th´eor`eme 4.2. Les Lemmes 4.1 et 4.2 donnent l’´equi- valence entre la distance MISE et la distance ASE. Ainsi, le r´esultat est trivial pour la distance quadratiqueASE. De plus, la d´emonstration du Lem- me 4.2 permet de trouver le r´esultat suivant:

nhp sup

θ∈Θn

|ISE(θ)−MISE(θ)| →0 p.s.

Encore une fois, ce r´esultat combin´e avec le Lemme 4.1 nous donne l’´equivalence entre la distanceMISE et la distanceISE et nous permet alors d’obtenir l’optimalit´e asymptotique au sens de la distanceISE.

5. PREUVE DES LEMMES TECHNIQUES

Nous donnons dans cette partie les principales ´etapes des d´emonstrations des Lemmes 4.1, 4.2, 4.3, 4.4, 4.5 et 4.6.

D´emonstration du Lemme 4.1. On peut d´ecomposer la distance MISE en deux termes positifs. On a

MISE(θ) =EE

(rθ0(X0)−rθ(X0))2|(X1, Y1), . . . ,(Xn, Yn)

=

=E

(rθ0(X0)−E(rθ(X0)|(X1, Y1), . . . ,(Xn, Yn)))2 + +Evar (rθ(X0)|(X1, Y1), . . . ,(Xn, Yn)).

La propri´et´e (ii) du Lemme 4.5 permet de conclure.

D´emonstration du Lemme4.2. Il suffit d’adapter pas `a pas la d´emonstra- tion de Marron et H¨ardle [18] lorsque θ joue le rˆole du param`etre inconnu et d’utiliser les mˆemes d´ecompositions. Plus pr´ecis´ement, notre estimateur peut ˆ

etre vu comme un estimateur de typeδ-suite et en utilisant la propri´et´e (i) du Lemme 4.5 on peut d´ecomposer la distance MISE en deux termes

MISE(θ) =EE

(rθ,D(X0) (rθ0(X0)−rθ(X0)))2|Z1, . . . , Zn + +EE

(1−rθ,D(X0))2(rθ0(X0)−rθ(X0))2 |Z1, . . . , Zn

=

=EE

(rθ,D(X0) (rθ0(X0)−rθ(X0)))2|Z1, . . . , Zn

MISE(θ)

+o(MISE(θ)).

(9)

En d´eveloppant les calculs, on arrive `a MISE(θ) =EE

rθ(Z0)2 |Z1, . . . , Zn , o`u

rθ(Z0) =n1n

i=1

Yi−rθ0(X0) Δi(X0) E1(X0))

=n1n

i=1

g(Z0, Zi) avec g(Z0, Zi) =

Yi−rθ0(X0)EΔi(X0)

1(X0))

. Ainsi, au lieu d’utiliser la distance MISE(θ) pour l’estimateur rθ(x) = rrθ,N(x)

θ,D(x), il suffit de consid´erer la distance MISE(θ) pour laδ-suiterθ(Z0). Le Lemme 4.6 permet d’utiliser le deuxi`eme corollaire de Marron et H¨ardle [18] pour conclure que

n→∞lim sup

θ∈Θn

ASE(θ)−MISE(θ) MISE(θ)

0 p.s.

Le Lemme 4.2 provient de la combinaison de l’´equivalence entre les distances MISE(θ) et MISE(θ) et du Lemme 4.1.

D´emonstration du Lemme 4.3. Comme pr´ec´edemment, on peut d´ecom- poser la distanceASE en deux termes

ASE(θ) =n1 n j=1

(rθ,D(Xj)rθ0(Xj)−rθ,N(Xj))2

ASE(θ)

+

+n1n

j=1

(1−rθ,D(Xj)) (1 +rθ,D(Xj)) (rθ0(Xj)−rθ(Xj))2. La propri´et´e (i) du Lemme 4.5 implique que

n1n

j=1

(1−rθ,D(Xj)) (1 +rθ,D(Xj)) (rθ0(Xj)−rθ(Xj))2=op.co.(ASE(θ)).

Maintenant, il suffit d’utiliser les mˆemes arguments que ceux d´ej`a utilis´es dans le Lemme 4.3 de H¨ardle et Marron [14] (avec les correspondancesf 1, f≡rθ,D, m≡rθ0 etm ≡rθ) pour obtenir l’´equivalence entre ASE etASE.

Or les distances ASE et ASE sont ´equivalentes donc la distance ASE est

´

equivalente `a ASE. Ainsi, le Lemme 4.3 est d´emontr´e.

D´emonstration du Lemme 4.4. De la d´ecomposition rθ0(x)−rθ−j(x) =rθ,D−j (x)

rθ0(x)−rθ−j(x) +

1−rθ,D−j(x)

rθ0(x)−rθ−j(x)

(10)

et de la convergence uniforme presque compl`ete der−jθ,D(x) vers 1 (voir Corol- laire 4.1) et en se basant sur les id´ees de H¨ardle et Marron [14], le Lemme 4.4 sera d´emontr´e si et seulement si on peut montrer que

(16) nhp sup

θ∈Θn

1 n

n j=1

j

rθ0(Xj)r−jθ,D(Xj)−r−jθ,N(Xj) 0 p.s.

Or le terme de la partie gauche de (16) peut s’´ecrire n1

i =j

Uij +n1

i =j

Vij, o`u

Uij = nhp

n−1

Δi(Xj)ij E1(Xj)) et

Vij = nhp

n−1

Δi(Xj) (rθ0(Xi)−rθ0(Xj))j E1(Xj)) .

Donc, (16) et le Lemme 4.4 seront d´emontr´es d`es que seront ´etablis les r´esultats suivants:

(17) sup

θ∈Θn

n1

i =j

Uij

0 p.s.

et

(18) sup

θ∈Θn

n1

i =j

Vij

0 p.s.

Afin d’´etablir (17), remarquons que, pour un εpositif donn´e et ∀k= 1,2, . . . , on a

P

⎣sup

θ∈Θn

n1

i =j

Uij > ε

≤ε2kcard (Θn) sup

θ∈Θn

E

n1

i =j

Uij 2k

. Donc, la d´emonstration de (17) sera compl`ete si et seulement si, pour un k suffisamment grand

(19)

n n=1

cardΘn sup

θ∈Θn

E

n1

i =j

Uij 2k

<∞.

En utilisant la formule (20), on trouve E

n1

i =j

Uij 2k

≤Cn2k

2k

m=2

nmhmp2 ,

(11)

o`u m est un entier v´erifiantm >2ket l’´equation (3) nous permet d’obtenir E

n1

i =j

Uij 2k

≤Chkp,

d’o`u le r´esultat (19). Ce qui ach`eve la d´emonstration de (17).

Maintenant, des arguments similaires peuvent ˆetre utilis´es pour d´emon- trer (18). Ainsi le Lemme 4.4 est d´emontr´e.

D´emonstration du Lemme 4.5. (i) Ce r´esultat provient du Lemme 8 de Ferraty et al. [6]. Il suffit de prendre, en suivant les notations utilis´ees par ces auteurs: φ(h) =Chp,f(x) =rθ,D(x),ψSF(lognn) =O(logn).

(ii) Il suffit d’utiliser les r´esultats du Lemme 2 et la formule (3) du Th´eor`eme 1 de Ferraty et al. [7], en posant, en suivant les notations utilis´ees par ces auteurs: F(h) =hp etC = M2

M12σ2ε. Le r´esultat est imm´ediat si le noyau K est de type I. Si K est de type II, il suffit de poser τ0(s) = sp +o(sp) puisque ϕθ(x, h) =Chp+o(hp). Il faut remarquer que les auteurs utilisent dans leur preuve la conditionK(1)>0, mais pour ce qui nous concerne cette condition n’est pas n´ecessaire puisque ϕθ(x, h) =Chp+o(hp).

D´emonstration du Lemme 4.6. Montrons tout d’abord que nous avons, sous les hypoth`eses (4) et (7),∀γ >0 et ∀i=j

(20) C1,Xihp ≤E

γj(Xi)|Xi

≤C2,Xihp p.s.

En effet, en prenant soin d’utiliser des probabilit´es conditionnelles `a Xi, si K est un noyau de type I alors de la formule (4.5) du Lemme 4.3 de Ferraty et Vieu [10] et (7), il existe deux constantes r´eelles finies C3 etC4 tel que

C3hp≤EK

XjXi, θ

h |Xi

≤C4hp p.s.

ceci entrane la formule (20). Si K est un noyau de type II alors la formule (4.6) du Lemme 4.4 de Ferraty et Vieu [10] est v´erifi´ee du fait que

!

0 ϕθ(Xi, u)du=CXi

!

0 updu+o(εp+1) p.s.

=Mp ϕθ(Xi, ) +o(p+1) p.s.

De la formule (4.7) du Lemme 4.4 de Ferraty et Vieu [10] et (7), il existe deux constantes r´eelles non n´egatives finies C3 etC4 telles que pourh assez petit

C4hp≤EK

XjXi, θ

h |Xi

≤C3hp p.s.

ceci entrane la formule (20). La suite de la d´emonstration est analogue `a celle du Lemme 6 de Ait Saidi et al. [2].

(12)

6. CONCLUSION

Nous avons pr´esent´e dans cet article des r´esultats th´eoriques relatifs au choix optimal de l’indice multi-fonctionnel θ pour un mod`ele de r´egression d’une variable r´eelle sur une variable multiple `a valeur dans un espace de dimension infinie, le param`etre multi-fonctionnel et la fonction de r´egression

´

etant inconnus. Rappelons que pour un indice multi-fonctionnel fix´e, en com- binant (7) avec le Th´eor`eme 6.11 de Ferraty et Vieu [10], on ar(x)−r(x) = O(hβ)+Op.co.

logn nhp

. Ce type de m´ethodologie est clairement bien adapt´ee au probl`eme de r´egression non param´etrique en dimension infinie puisqu’elle permet d’atteindre des vitesses de convergence obtenue dans un cadre p- dimensionnel. Bien ´evidemment des aspects plus pratiques li´es `a cette m´etho- dologie seront ´etudi´es ult´erieurement.

REFERENCES

[1] A. Ait Saidi, F. Ferraty and R. Kassa, Single functional index model for time series.

Rev. Roumaine Math. Pures Appl.50(2005), 321–330.

[2] A. Ait Saidi, F. Ferraty, R. Kassa et P. Vieu,Choix optimal du param`etre fonctionnel dans le mod`ele `a indice fonctionnel simple. C.R. Math. Acad. Sci. Paris 346 (2008), 217–220.

[3] Y. Aragon and J. Saracco,Sliced Inverse Regression(SIR): an appraisal of small sample alternative to slicing. Computat. Statist.12(1997), 109–130.

[4] M. Bonneu, M. Delecroix and E. Malin,Semiparametric versus nonparametric in single index regression model: a computational approach. Computat. Statist. 8(1993), 207–

222.

[5] F. Ferraty, Special issue: Statistical methoods and problems in infinite-dimensional spaces.J. Multivariate Anal.101(2010), 305–490.

[6] F. Ferraty, A. Laksaci, A. Tadj and P. Vieu,Rate of uniform consistency for nonpara- metric estimates with functional variables. J. Statist. Planning Inference 140 (2010), 335–352.

[7] F. Ferraty, A. Mas and P. Vieu,Nonparametric regression on functional data: inference and pratical aspects. Austral. N. Zealand J. Statist.49(2007),3, 267–287.

[8] F. Ferraty, A. Peuch et P. Vieu,Mod`ele `a indice fonctionnel simple. C.R. Math. Acad.

Sci. Paris336(2003), 1025–1028.

[9] F. Ferraty and Y. Romain,Handbook of Functional Data Analysis and Related Topics.

Oxford, Oxford University Press, 2010.

[10] F. Ferraty and P. Vieu,Nonparametric Functional Data Analysis. Springer, New York, 2006.

[11] L. Ferr´e,Determination of the dimension choice in SIR and related methods. J. Amer.

Statist. Assoc.2(1998), 109–122.

[12] W. Gonz`alez Manteiga and P. Vieu, Introduction to the special issue on statistics for functional data. Comput. Statist. Data Anal.51(2007), 4788–4792.

(13)

[13] W. H¨ardle, P. Hall and H. Ichimura,Optimal smoothing in single index models. Ann.

Statist.21(1993), 157–178.

[14] W. H¨ardle and J.S. Marron, Optimal bandwidth selection in nonparametric regression function estimation. Ann. Statist.13(1985), 1465–1481.

[15] W. H¨ardle, V. Spokoiny and S. Sperlich,Semiparametric single index versus fixed link function modelling. Ann. Statist.25(1997), 212–243.

[16] T. Hsing and R. Caroll,An asymptotic theory for sliced inverse regression. Ann. Statist.

20(1992), 1040–1061.

[17] K.C. Li,Sliced inverse regression for dimension reduction (with discussion). J. Amer.

Statist. Assoc.86(1994), 141–148.

[18] J.S. Marron and W. H¨ardle,Random approximations to some measures of accuracy in nonparametric curve estimation. J. Multivariate Anal.20(1986), 91–113.

[19] J. Ramsay and B. Silverman, Applied Functional Data Analysis, Methods and Case Studies. Springer, New York, 2002.

[20] J. Ramsay and B. Silverman, Functional Data Analysis, 2nd Edition. Springer, New York, 2005.

[21] J. Saracco, Sliced inverse regression under linear constraints. Commun. in Statistics- Theory and Methods28(1999b), 2367–2393.

[22] D. Scott,Determining the dimension in sliced inverse regression. J. Amer. Statist. Assoc.

89(1994), 316–342.

[23] M. Valderrama,Introduction to the special issue modelling functional data in practice.

Comput. Statist.22(2007), 331–334.

Re¸cu 26 mai 2010 Fr´ed´eric Ferraty, Philippe Vieu Universit´e P. Sabatier Institut de Math´ematiques Laboratoire de Statistique et Probabilit´es

31062 Toulouse, France Mohand Bouraine, Ahmed Ait Saidi

Universit´e A. Mira Facult´e des Sciences Exactes epartement de Math´ematiques Laboratoire de Math´ematiques Appliqu´ees

06000 B´ejai`a, Alg´erie [email protected]

Références

Documents relatifs

Regarder les hypoth` eses statistiques du mod` ele et analyser leurs cons´ equences (absence de biais, convergence, efficience).. Distinguer entre les cas d’erreurs h´ et´

I La multicollin´ earit´ e imparfaite n’est typiquement pas un signe d’une erreur logique dans le choix des variables explicatives du mod` ele, mais est due aux donn´ ees utilis´

On peut l’utiliser pour tester l’hypoth`ese nulle de l’absence de relation entre la variable explicative (les variables explicatives `a part la constante dans le mod`ele de

I Nous allons utiliser ces propri´ et´ es ` a maintes reprises pour trouver d’autres propri´ et´ es de l’estimateur MCO5. I Plusieurs de ces propri´ et´ es d´ ependent du fait

La fonction residuals fournit diff´ erents types de r´ esidus ` a partir d’un mod` ele ajust´ e avec la fonction glm du package stats. On peut effectuer la normal- isation en r´

D´ eterminer les meilleures zones d’´ echantillonnage pour estimer les diff´ erents

D´ eterminer les meilleures zones d’´ echantillonnage pour estimer les diff´ erents

[r]