L’INDICE MULTI-FONCTIONNEL:

(1)

CHOIX OPTIMAL DE

L’INDICE MULTI-FONCTIONNEL:

METHODE DE VALIDATION CROISEE

MOHAND BOURAINE, AHMED AIT SAIDI, FR ´ED ´ERIC FERRATY et PHILIPE VIEU

This paper deals with the regression model of a real random variable on p variables which take values in an inﬁnite dimensional space. Speciﬁcally, we focus on the multi-functional index model, a natural extension of the functional single index model. We consider the case where the multi-functional parameter and the regression function are unknown. The estimation of the parameter is based on cross-validation criterion when the link function is obtained using a kernel esti- mator. The asymptotic optimality of the estimation in terms of squared error is established.

AMS 2010 Subject Classiﬁcation: 62G05, 62G08, 62G20.

Mots-clés: variable fonctionnelle, modèle de régression, estimateur à noyau, indice multi-fonctionnel, validation croisée.

1. INTRODUCTION

Ce travail se situe autour de la dynamique qui existe actuellement dans la communauté statistique internationale autour de la modélisation et du traite- ment des données et variables fonctionnelles. Plusieurs travaux récents ont

´

eté publiés dans le domaine. Ces derniers comportent à la fois les résultats théoriques relatifs aux méthodes d’analyse des variables fonctionnelles, ainsi que de nombreuses applications dans des domaines variés (voir les monogra- phies de Ferraty et Vieu [10] et Ramsay et Silverman [19, 20], les numéros spéciaux de revues édités par Gonzàlez-Manteiga et Vieu [12], Valderrama [23], Ferraty [5] ainsi que l’ouvrage collectif de Ferraty et Romain [9]).

Nous nous intéressons à l’étude de modèle de régression d’une variable aléatoire réelle Y, considérée comme une réponse scalaire, sur une variable multiple X = (X1, . . . ,Xp) à valeurs dans un espace de dimension infinie H=H1 × · · · × H_p, H_jj = 1, . . . , p, étant un espace séparable de Hilbert muni du produit scalaire ·,· j. On note x,y = (x1, y11, . . . ,x_p, y_pp), pour tout (x,y) ∈ H², avec x = (x₁, . . . , x_p) et y = (y₁, . . . , y_p). Nous

REV. ROUMAINE MATH. PURES APPL.,55(2010),5, 355–367

(2)

supposons que nous disposons d’un échantillon {(Y_i,X_i), i= 0,1, . . . , n} de couples indépendants et ayant chacun mme loi que (Y,X). On s’intéresse au modèle à indice multi-fonctionnel qui est défini par

(1) Y_i =r(X1i, θ₁1, . . . ,X_pi, θ_p_p) +_i, ∀i= 1, . . . , n,

où r est une fonction de régression réelle, l’indice multi-fonctionnel θ0 = (θ₁, . . . , θ_p) ∈ Θ_n ⊂ H et pour i = 1, . . . , n, _i est une variable réelle telle queE(_i|X) = 0. Les paramètres fonctionnelsθ_j et la fonction rsont inconnus. Il s’agit d’une extension naturelle des modèles à indice fonctionnel simple (voir Ait Saidi et al. [2] et Ferraty et al. [8]). Dans un contexte de prévision, on peut se reporter à la note de Ait Saidi et al. [1] où les auteurs ont fourni les premiers résultats théoriques dans le cas d’un modèle à indice fonctionnel simple pour les séries temporelles. Le modèle à indice multi-fonctionnel présente de nombreux intérêts, tant du point de vue des perspectives mathématiques qu’il ouvre et qui sont liées à l’étude statistique de modèles concernant des variables dans des espaces abstraits, que du point de vue des larges potentialités d’applications qu’il peut offrir (météorologie, médecine, chimie quantitative, . . . ). L’étude statistique de ces modèles, dans le cadre de variables aléatoires explicatives vectorielles (H=R^p), a été abondante ces dernières années et les résultats les plus récents ont été donnés par Hsing et Caroll [16], Schott [22], Ferré [11], Aragon et Saracco [3], Saracco [21]. On parle alors de modèle à indice multiple, pour lequel une méthode d’estimation populaire est la méthode de régression inverse par tranches introduite par Li [17]. Ce type de modèles est une généralisation du modèle à indice simple (Single Index Model) dont l’étude a été amorcée par Härdle et al. [13], Bonneu et al. [4] et Härdle et al.

[15]. Dans ce travail, nous proposons une procédure d’estimation pour l’indice multi-fonctionnel basée sur la méthode de validation croisée.

Un estimateur à noyau de la fonction de régression sera présenté dans le Paragraphe 2. On décrit, dans le Paragraphe 3, le critère de sélection (méthode de validation croisée) despdirections fonctionnelles inconnues de notre modèle de régression. On montre dans le Paragraphe 4 l’optimalité asymptotique, en terme d’erreur quadratique, de cette méthode d’estimation. On donne dans le Paragraphe 5 les démonstrations des lemmes techniques.

2. ESTIMATEUR

Pour tout indice multi-fonctionnel θ = (θ1, . . . , θ_p) ∈ Θn ⊂ H, r_θ(·) = r(θ,·) l’opérateur défini surHet à valeurs dansR etr_θ(x) =E(Y | θ,X=

(3)

θ,x). Soit r_θ l’estimateur der_θ

(2) ∀x∈ H, r_θ(x) = n i=1Y_iK

Xi−x,θ h

n i=1K

Xi−x,θ h

, o`u X, θ=_p

j=1X_j, θ_j²_j est une semi-norme définie sur H où h =h_n est une suite de nombres positifs vérifiant

(3)

⎧⎨

⎩

n→∞limh= 0, (logn)² =O(nh^p) et

C₂ n^−τ² < h^p < C₁ n^−τ¹, avec 0< τ₁ < τ₂ <1, et o`u

(4) K est un noyau de type I ou de typeII.

Rappelons qu’une fonction (voir Ferraty et Vieu [10]) d´eﬁnie de R dans R⁺ tel que

K = 1 est appel´ee noyau de typeI s’il existe deux constantes r´eelles 0< C3< C4 <+∞ tel que

(5) C₃1[0,1]≤K≤C₄1[0,1].

Elle est appelée noyau de type II si sont support est [0,1] et sa dérivé K existe sur [0,1] et satisfait

(6) C4≤K ≤C3

pour toutes constantes réelles −∞< C₄ < C₃ <0. Comme il est difficile de supposer que X, θ admette une densité éventuellement strictement positive au point d’estimation, l’idée consiste alors à obtenir des résultats asympto- tiques en fonction de la quantité

ϕ_θ(x, h) =P(X1−X2, θ< h|X1 =x).

Asymptotiquement,hconverge vers 0 quandntend vers l’infini. La probabilité d’observer la variable aléatoire fonctionnelle multiple autour dex (le vecteur fonctionnel auquel nous évaluons l’opérateur de régression r) s’interpr`ete en termes de mesure de concentration de probabilité de petites boules de la variable aléatoire fonctionnelle multiple Xdans la direction θ. On suppose que

(7)

⎧⎪

⎪⎨

⎪⎪

⎩

C est un sous-ensemble de Htel queX∈C p.s.

∀θ∈Θn, ϕ_θ(X1, h) =C_X₁_,θ h^p+o(h^p) p.s., avec 0< inf

θ∈ΘnC_X₁_,θ < sup

θ∈Θn

C_X₁_,θ <∞.

Cette hypothèse montre que le comportement de la mesure de concentration est contrôlé par la fenêtreh.

(4)

3. CRITERE DE SELECTION DES PARAMETRES FONCTIONNELS

Le but de ce travail est d’introduire un critère empirique, basé sur le principe de validation croisée, permettant de sélectionner un indice multi- fonctionnel qui soit asymptotiquement optimal pour les distances:

• Erreur Quadratique Moyenne (Averaged Squared Error):

ASE(θ) =n⁻¹ⁿ

j=1

(r_θ₀(X_j)−r_θ(X_j))²;

• Erreur Quadratique Int´egr´ee (Integrated Squared Error):

ISE(θ) =E

(r_θ₀(X0)−r_θ(X0))²|(X1, Y₁), . . . ,(X_n, Y_n)

;

• Erreur Moyenne Quadratique Int´egr´ee (Mean Integrated Squared Er- ror):

MISE(θ) =E(ISE(θ)).

Ces distances étant incalculables en pratique, on utilise les idées de validation croisée pour construire le critère empirique:

• Crit`ere de Validation Crois´ee (Cross-Validation):

CV(θ) =n⁻¹ⁿ

j=1

Y_j −r_θ^−j(X_j)2,

où, pourj= 1, . . . , n,r_θ^−j est l’estimation der_θfondée sur l’échantillon auquel on a retiré (X_j, Y_j). Autrement dit,

r^−j_θ (x) = n

i=1, i =jY_iK

Xi−x,θ h

n i=1, i =jK

Xi−x,θ h

.

Comme les trois premières quantités dépendent de r_θ₀ qui est inconnu, dans la pratique, on utilise le critèreCV(·) pour sélectionner θet on pose

θ_CV = arg min

θ∈ΘnCV(θ),

o`u Θ_n est une partie de Hde taille raisonnable au sens de l’hypoth`ese:

(8) cardΘ_n=O([n^α]) avecα >0, où [·] désigne la partie entière.

(5)

4. OPTIMALITE ASYMPTOTIQUE EN TERM D’ERREURS QUADRATIQUES

Les résultats nécessitent diverses conditions additionnelles. L’opérateur r_θ est Lipshitz d’ordreβ: ∃C5<∞,∃β >0,

(9) ∀θ∈Θ_n, ∀(x,y)∈ H², |r_θ(x)−r_θ(y)| ≤C₅x−y, θ^β. Les moments conditionnels d’ordre ksont born´es:

(10) ∀k∈N^∗, E(Y^k|X)≤C_k,X<∞p.s.

Enfin, le moment d’ordre 2 doit être minoré:

(11) ∃C₆>0, E

Y² |X=x

=σ(x)≥C₆, avec σ(·) continu.

Théorème 4.1. Sous les hypothèses(3)–(11), nous avons MISE(θ_CV)

MISE(θ^∗) →1 p.s., o`u θ^∗ = arg min

θ∈Θn

MISE(θ).

Théorème 4.2. Sous les hypothèses du Théorème4.1, on a ASE(θ_CV)

θ∈ΘminnASE(θ) →1 p.s. et ISE(θ_CV)

θ∈ΘminnISE(θ) →1 p.s.

Les Théorèmes 4.1 et 4.2 nous montrent que la notion d’optimalité n’est pas un concept absolu mais est liée au choix d’une fonction de risque (MISE, ASE, ISE) et que la procédure de validation croisée utilisée pour choisir l’estimateur de l’indice multi-fonctionnel qui minimise CV(θ) est asymptotiquement optimale par rapport aux distances ASE, ISE et MISE. Afin de mener à bien les démonstrations, nous introduisons les quantités

r_θ,_D(x) = 1 n

n i=1

K_θ(x,X_i) et r_θ,_N(x) = 1 n

n i=1

Y_iK_θ(x,X_i) avec

K_θ(x,X_i) = Δ_i

EΔ1(x) et Δ_i=K

X_i−x, θ h

de mani`ere `a ce que

r_θ(x) = r_θ,_N(x)

r_θ,_D(x).

Dans toutes les démonstrations qui suivent,Cdésigne une constante générique.

La démonstration des Théorèmes 4.1 et 4.2 va découler des quatre lemmes suivants.

(6)

Lemma 4.1. Si les hypothèses du Théorème 4.1 sont satisfaites alors MISE(θ^∗)≥ C

nh^p.

Lemma 4.2. Si les hypothèses du Théorème 4.1 sont satisfaites alors nh^p sup

θ∈Θn

|ASE(θ)−MISE(θ)| →0p.s.

θ∈Θn

ASE(θ)−ASE(θ)→0 p.s., o`u ASE(θ) = n⁻¹ ⁿ

j=1

r_θ₀(Xj)−r^−j_θ (Xj)2

.

θ∈Θn

|CT(θ)| →0p.s., o`u CT(θ) =n⁻¹ ⁿ

j=1

Y_j−r_θ₀(Xj))(r_θ^−j(Xj)−r_θ₀(Xj) .

Afin de démontrer les Lemmes 4.1, 4.2, 4.3 et 4.4, nous commen¸cons par donner quelques résultats généraux que nous allons utiliser à chaque fois qu’il sera nécessaire.

Lemma4.5. Sous les hypoth`eses(3)–(11), pour toutθ ∈ Θ_n nous avons (i) sup

x∈C|r_θ,D(x)−1|=O_p.co.

logn nh^p

, (ii) var(r_θ(x)) =Cn⁻¹h^−p+o

n⁻¹h^−p . Corollary 4.1. ∀θ∈Θ_n, sup

x∈Cr^−j_θ,D(x)−1=O_p.co.

logn nh^p

.

Clairement, ce corollaire se d´eduit du Lemme 4.5. On pose maintenant Z_i = (X_i, Y_i), i= 0, . . . , net le lemme suivant donne quelques r´esultats relatifs aux variables

∀(i, j)∈ {1, . . . , n}², g(Z_i, Z_j) = (Y_j−r_θ₀(X_i)) Δ_j(X_i) E(Δ₁(Xi)) ,

qui permettront d’utiliser les théorèmes généraux établis par Marron et Härdle [18] sur les équivalences de mesures d’erreurs quadratiques.

Lemma4.6. Si les hypothèses du Théorème4.1sont satisfaites alors on a (i) ∀k= 1,2, . . . , ∀m= 2, . . . ,2k,

E

⎛

⎝^m

i,j=1

g(Z_i, Z_j)^α^ij

⎞

⎠

≤Ch⁽^−k⁺^m²⁾^p,

(7)

o`uα_ij ∈ {0, . . . , k}, ^m

i,j=1α_ij =k, et, pour chaquei= 1, . . . , m, ∃j=itel que α_ji = 0 ou α_ij = 0,

(ii) E

[E (g(Z₁, Z₂) g(Z₁, Z₃)|Z₂, Z₃)]²≤Ch^−p, (iii) |E(g(Z₁, Z₂) g(Z₁, Z₃))| ≤C,

(iv) E

g(Z₁, Z₂) ²

≥Ch^−p, (v) E

[E( g(Z1, Z2)|Z1)]²^k

≤C, (vi) E

g(Z₁, Z₁) ²^k

≥Ch⁻²^kp, avec 0< C <∞.

Démonstration du Théorème4.1. Nous avons, d’après le Lemme 4.1, (12)

MISE(θ_CV)−MISE(θ^∗) MISE(θ^∗)

≤Cnh^p|MISE(θ_CV)−MISE(θ^∗)|. Par ailleurs,

|MISE(θ_CV)−MISE(θ^∗)| ≤2 sup

θ∈Θn

|ASE(θ)−MISE(θ)|+ (13)

+ASE(θ _CV)−ASE(θ ^∗∗)+ 2 sup

θ∈Θn

ASE(θ)−ASE(θ) + +|ASE(θ^∗∗)−ASE(θ^∗)|,

o`u θ^∗∗ = arg min

θ∈ΘnASE(θ). Le comportement asymptotique de la première quantité de la partie droite de (13) provient du Lemme 4.2. Concernant le comportement asymptotique de la deuxième quantité de la partie droite de (13), remarquons que

CV(θ) =ASE(θ)−2CT(θ) +n⁻¹ n j=1

(Y_j−r_θ₀(Xj))², et donc

4 sup

θ∈Θn

CT(θ) ≥ ASE(θ _CV)−ASE(θ ^∗∗),

cette inégalité résulte de l’équivalence entre ASE et ASE donnée dans le Lemme 4.3 et des deux inégalités

ASE(θ_CV)≥ASE(θ^∗∗) et CV(θ_CV)≤CV(θ^∗∗).

Maintenant, le Lemme 4.4 implique que

(14) nh^pASE(θ_CV)−ASE(θ ^∗∗)→0 p.s.

Le troisi`eme terme de la partie droite de (13) se traite avec le Lemme 4.3.

Finalement, pour le dernier terme, on proc`ede de la fa¸con suivante. On a 2 sup

θ∈Θn

|MISE(θ)−ASE(θ)| ≥ |ASE(θ^∗∗)−ASE(θ^∗)|.

(8)

La dernière inégalité utilise le fait que

MISE(θ^∗∗)≥MISE(θ^∗) et ASE(θ^∗∗)≤ASE(θ^∗).

Maintenant, l’utilisation du Lemme 4.2 implique que (15) nh^p|ASE(θ^∗∗)−ASE(θ^∗)| →0 p.s.

Finalement, les inégalités (12)–(15) nous permettent de compléter la démon- stration du Théorème 4.1.

Démonstration du Théorème 4.2. Les Lemmes 4.1 et 4.2 donnent l’équi- valence entre la distance MISE et la distance ASE. Ainsi, le résultat est trivial pour la distance quadratiqueASE. De plus, la démonstration du Lem- me 4.2 permet de trouver le résultat suivant:

nh^p sup

θ∈Θn

|ISE(θ)−MISE(θ)| →0 p.s.

Encore une fois, ce résultat combiné avec le Lemme 4.1 nous donne l’équivalence entre la distanceMISE et la distanceISE et nous permet alors d’obtenir l’optimalité asymptotique au sens de la distanceISE.

5. PREUVE DES LEMMES TECHNIQUES

Nous donnons dans cette partie les principales ´etapes des d´emonstrations des Lemmes 4.1, 4.2, 4.3, 4.4, 4.5 et 4.6.

D´emonstration du Lemme 4.1. On peut d´ecomposer la distance MISE en deux termes positifs. On a

MISE(θ) =EE

(r_θ₀(X0)−r_θ(X0))²|(X1, Y₁), . . . ,(X_n, Y_n)

=

=E

(r_θ₀(X0)−E(r_θ(X0)|(X1, Y1), . . . ,(Xn, Y_n)))² + +Evar (r_θ(X0)|(X1, Y1), . . . ,(Xn, Y_n)).

La propri´et´e (ii) du Lemme 4.5 permet de conclure.

Démonstration du Lemme4.2. Il suffit d’adapter pas à pas la démonstra- tion de Marron et Härdle [18] lorsque θ joue le rôle du paramètre inconnu et d’utiliser les mêmes décompositions. Plus précisément, notre estimateur peut ˆ

etre vu comme un estimateur de typeδ-suite et en utilisant la propriété (i) du Lemme 4.5 on peut décomposer la distance MISE en deux termes

MISE(θ) =EE

(r_θ,D(X0) (r_θ₀(X0)−r_θ(X0)))²|Z₁, . . . , Z_n + +EE

(1−r_θ,D(X0))²(r_θ₀(X0)−r_θ(X0))² |Z1, . . . , Z_n

=

=EE

(r_θ,D(X0) (r_θ₀(X0)−r_θ(X0)))²|Z₁, . . . , Z_n

MISE^∗(θ)

+o(MISE(θ)).

(9)

En d´eveloppant les calculs, on arrive `a MISE^∗(θ) =EE

r^∗_θ(Z₀)² |Z₁, . . . , Z_n , o`u

r^∗_θ(Z₀) =n⁻¹ⁿ

i=1

Y_i−r_θ₀(X0) Δ_i(X0) E(Δ₁(X0))

=n⁻¹ⁿ

i=1

g(Z₀, Z_i) avec g(Z₀, Z_i) =

Y_i−r_θ₀(X0)_E_(Δ^Δⁱ⁽^X⁰⁾

1(X0))

. Ainsi, au lieu d’utiliser la distance MISE(θ) pour l’estimateur r_θ(x) = ^r_r^θ,N⁽^x⁾

θ,D(x), il suffit de considérer la distance MISE^∗(θ) pour laδ-suiter_θ^∗(Z0). Le Lemme 4.6 permet d’utiliser le deuxième corollaire de Marron et Härdle [18] pour conclure que

n→∞lim sup

θ∈Θn

ASE(θ)−MISE^∗(θ) MISE^∗(θ)

→0 p.s.

Le Lemme 4.2 provient de la combinaison de l’´equivalence entre les distances MISE(θ) et MISE^∗(θ) et du Lemme 4.1.

Démonstration du Lemme 4.3. Comme précédemment, on peut décom- poser la distanceASE en deux termes

ASE(θ) =n⁻¹ n j=1

(r_θ,D(Xj)r_θ₀(Xj)−r_θ,N(Xj))²

ASE(θ)

+

+n⁻¹ⁿ

j=1

(1−r_θ,D(X_j)) (1 +r_θ,D(X_j)) (r_θ₀(X_j)−r_θ(X_j))². La propri´et´e (i) du Lemme 4.5 implique que

n⁻¹ⁿ

j=1

(1−r_θ,D(X_j)) (1 +r_θ,D(X_j)) (r_θ₀(X_j)−r_θ(X_j))²=o_p.co.(ASE(θ)).

Maintenant, il suffit d’utiliser les mêmes arguments que ceux déjà utilisés dans le Lemme 4.3 de Härdle et Marron [14] (avec les correspondancesf ≡1, f≡r_θ,D, m≡r_θ₀ etm ≡r_θ) pour obtenir l’équivalence entre ASE etASE.

Or les distances ASE et ASE sont ´equivalentes donc la distance ASE est

´

equivalente à ASE. Ainsi, le Lemme 4.3 est démontré.

D´emonstration du Lemme 4.4. De la d´ecomposition r_θ₀(x)−r_θ^−j(x) =r_θ,D^−j (x)

r_θ₀(x)−r_θ^−j(x) +

1−r_θ,D^−j(x)

r_θ₀(x)−r_θ^−j(x)

(10)

et de la convergence uniforme presque complète der^−j_θ,D(x) vers 1 (voir Corol- laire 4.1) et en se basant sur les idées de Härdle et Marron [14], le Lemme 4.4 sera démontré si et seulement si on peut montrer que

(16) nh^p sup

θ∈Θn

1 n

n j=1

_j

r_θ₀(X_j)r^−j_θ,D(X_j)−r^−j_θ,N(X_j) →0 p.s.

Or le terme de la partie gauche de (16) peut s’´ecrire n⁻¹

i =j

U_ij +n⁻¹

i =j

V_ij, o`u

U_ij = nh^p

n−1

Δ_i(X_j)_i_j E(Δ₁(X_j)) et

V_ij = nh^p

n−1

Δ_i(X_j) (r_θ₀(X_i)−r_θ₀(X_j))_j E(Δ₁(Xj)) .

Donc, (16) et le Lemme 4.4 seront démontrés dès que seront établis les résultats suivants:

(17) sup

θ∈Θn

n⁻¹

i =j

U_ij

→0 p.s.

et

(18) sup

θ∈Θn

n⁻¹

i =j

V_ij

→0 p.s.

Afin d’établir (17), remarquons que, pour un εpositif donné et ∀k= 1,2, . . . , on a

P

⎡

⎣sup

θ∈Θn

n⁻¹

i =j

U_ij > ε

⎤

⎦≤ε⁻²^kcard (Θ_n) sup

θ∈Θn

E

⎛

⎝

n⁻¹

i =j

U_ij 2k⎞

⎠. Donc, la démonstration de (17) sera complète si et seulement si, pour un k suffisamment grand

(19)

n n=1

cardΘn sup

θ∈Θn

E

⎛

⎝

n⁻¹

i =j

U_ij ₂_k⎞

⎠<∞.

En utilisant la formule (20), on trouve E

⎛

⎝

n⁻¹

i =j

U_ij 2k⎞

⎠≤Cn⁻²^k

2k

m=2

n^mh^mp² ,

(11)

où m est un entier vérifiantm >2ket l’équation (3) nous permet d’obtenir E

⎛

⎝

n⁻¹

i =j

U_ij 2k⎞

⎠≤Ch^kp,

d’où le résultat (19). Ce qui achève la démonstration de (17).

Maintenant, des arguments similaires peuvent être utilisés pour démon- trer (18). Ainsi le Lemme 4.4 est démontré.

Démonstration du Lemme 4.5. (i) Ce résultat provient du Lemme 8 de Ferraty et al. [6]. Il suffit de prendre, en suivant les notations utilisées par ces auteurs: φ(h) =Ch^p,f(x) =r_θ,D(x),ψ_S_F(^log_nⁿ) =O(logn).

(ii) Il suffit d’utiliser les résultats du Lemme 2 et la formule (3) du Théorème 1 de Ferraty et al. [7], en posant, en suivant les notations utilisées par ces auteurs: F(h) =h^p etC = ^M²

M₁²σ²_ε. Le résultat est immédiat si le noyau K est de type I. Si K est de type II, il suffit de poser τ₀(s) = s^p +o(s^p) puisque ϕ_θ(x, h) =Ch^p+o(h^p). Il faut remarquer que les auteurs utilisent dans leur preuve la conditionK(1)>0, mais pour ce qui nous concerne cette condition n’est pas nécessaire puisque ϕ_θ(x, h) =Ch^p+o(h^p).

D´emonstration du Lemme 4.6. Montrons tout d’abord que nous avons, sous les hypoth`eses (4) et (7),∀γ >0 et ∀i=j

(20) C₁_,X_ih^p ≤E

^γ_j(X_i)|X_i

≤C₂_,X_ih^p p.s.

En effet, en prenant soin d’utiliser des probabilités conditionnelles à X_i, si K est un noyau de type I alors de la formule (4.5) du Lemme 4.3 de Ferraty et Vieu [10] et (7), il existe deux constantes réelles finies C₃ etC₄ tel que

C₃h^p≤EK

X_j−X_i, θ

h |X_i

≤C₄h^p p.s.

ceci entrane la formule (20). Si K est un noyau de type II alors la formule (4.6) du Lemme 4.4 de Ferraty et Vieu [10] est vérifiée du fait que

!

0 ϕ_θ(Xi, u)du=C_X_i_,θ

!

0 u^pdu+o(ε^p⁺¹) p.s.

=M_p ϕ_θ(X_i, ) +o(^p⁺¹) p.s.

De la formule (4.7) du Lemme 4.4 de Ferraty et Vieu [10] et (7), il existe deux constantes réelles non négatives finies C₃ etC₄ telles que pourh assez petit

C₄h^p≤EK

X_j−X_i, θ

h |X_i

≤C₃h^p p.s.

ceci entrane la formule (20). La suite de la d´emonstration est analogue `a celle du Lemme 6 de Ait Saidi et al. [2].

(12)

6. CONCLUSION

Nous avons présenté dans cet article des résultats théoriques relatifs au choix optimal de l’indice multi-fonctionnel θ pour un modèle de régression d’une variable réelle sur une variable multiple à valeur dans un espace de dimension infinie, le paramètre multi-fonctionnel et la fonction de régression

´

etant inconnus. Rappelons que pour un indice multi-fonctionnel fixé, en com- binant (7) avec le Théorème 6.11 de Ferraty et Vieu [10], on ar(x)−r(x) = O(h^β)+O_p.co.

logn nh^p

. Ce type de méthodologie est clairement bien adaptée au problème de régression non paramétrique en dimension infinie puisqu’elle permet d’atteindre des vitesses de convergence obtenue dans un cadre p- dimensionnel. Bien évidemment des aspects plus pratiques liés à cette métho- dologie seront étudiés ultérieurement.

REFERENCES

[1] A. Ait Saidi, F. Ferraty and R. Kassa, Single functional index model for time series.

Rev. Roumaine Math. Pures Appl.50(2005), 321–330.

[2] A. Ait Saidi, F. Ferraty, R. Kassa et P. Vieu,Choix optimal du paramètre fonctionnel dans le modèle à indice fonctionnel simple. C.R. Math. Acad. Sci. Paris 346 (2008), 217–220.

[3] Y. Aragon and J. Saracco,Sliced Inverse Regression(SIR): an appraisal of small sample alternative to slicing. Computat. Statist.12(1997), 109–130.

[4] M. Bonneu, M. Delecroix and E. Malin,Semiparametric versus nonparametric in single index regression model: a computational approach. Computat. Statist. 8(1993), 207–

222.

[5] F. Ferraty, Special issue: Statistical methoods and problems in inﬁnite-dimensional spaces.J. Multivariate Anal.101(2010), 305–490.

[6] F. Ferraty, A. Laksaci, A. Tadj and P. Vieu,Rate of uniform consistency for nonpara- metric estimates with functional variables. J. Statist. Planning Inference 140 (2010), 335–352.

[7] F. Ferraty, A. Mas and P. Vieu,Nonparametric regression on functional data: inference and pratical aspects. Austral. N. Zealand J. Statist.49(2007),3, 267–287.

[8] F. Ferraty, A. Peuch et P. Vieu,Mod`ele `a indice fonctionnel simple. C.R. Math. Acad.

Sci. Paris336(2003), 1025–1028.

[9] F. Ferraty and Y. Romain,Handbook of Functional Data Analysis and Related Topics.

Oxford, Oxford University Press, 2010.

[10] F. Ferraty and P. Vieu,Nonparametric Functional Data Analysis. Springer, New York, 2006.

[11] L. Ferr´e,Determination of the dimension choice in SIR and related methods. J. Amer.

Statist. Assoc.2(1998), 109–122.

[12] W. Gonz`alez Manteiga and P. Vieu, Introduction to the special issue on statistics for functional data. Comput. Statist. Data Anal.51(2007), 4788–4792.

(13)

[13] W. H¨ardle, P. Hall and H. Ichimura,Optimal smoothing in single index models. Ann.

Statist.21(1993), 157–178.

[14] W. H¨ardle and J.S. Marron, Optimal bandwidth selection in nonparametric regression function estimation. Ann. Statist.13(1985), 1465–1481.

[15] W. H¨ardle, V. Spokoiny and S. Sperlich,Semiparametric single index versus ﬁxed link function modelling. Ann. Statist.25(1997), 212–243.

[16] T. Hsing and R. Caroll,An asymptotic theory for sliced inverse regression. Ann. Statist.

20(1992), 1040–1061.

[17] K.C. Li,Sliced inverse regression for dimension reduction (with discussion). J. Amer.

Statist. Assoc.86(1994), 141–148.

[18] J.S. Marron and W. H¨ardle,Random approximations to some measures of accuracy in nonparametric curve estimation. J. Multivariate Anal.20(1986), 91–113.

[19] J. Ramsay and B. Silverman, Applied Functional Data Analysis, Methods and Case Studies. Springer, New York, 2002.

[20] J. Ramsay and B. Silverman, Functional Data Analysis, 2nd Edition. Springer, New York, 2005.

[21] J. Saracco, Sliced inverse regression under linear constraints. Commun. in Statistics- Theory and Methods28(1999b), 2367–2393.

[22] D. Scott,Determining the dimension in sliced inverse regression. J. Amer. Statist. Assoc.

89(1994), 316–342.

[23] M. Valderrama,Introduction to the special issue modelling functional data in practice.

Comput. Statist.22(2007), 331–334.

Re¸cu 26 mai 2010 Frédéric Ferraty, Philippe Vieu Université P. Sabatier Institut de Mathématiques Laboratoire de Statistique et Probabilit´es

31062 Toulouse, France Mohand Bouraine, Ahmed Ait Saidi

Université A. Mira Faculté des Sciences Exactes D´epartement de Mathématiques Laboratoire de Mathématiques Appliquées

06000 Béjaià, Algérie [email protected]