Normalite asymptotique d'estimateurs de maximum de vraisemblance pour modeles non-parametriques de regression multidimensionelle

(1)

Article

Reference

Normalite asymptotique d'estimateurs de maximum de vraisemblance pour modeles non-parametriques de regression multidimensionelle

RODRIGUEZ-POO, Juan, SPERLICH, Stefan Andréas, VIEU, Philippe

RODRIGUEZ-POO, Juan, SPERLICH, Stefan Andréas, VIEU, Philippe. Normalite asymptotique d'estimateurs de maximum de vraisemblance pour modeles non-parametriques de regression multidimensionelle.

Comptes Rendus de l'Académie des Sciences : Mathématiques

, 2001, vol. 333, p. 61-64

Available at:

http://archive-ouverte.unige.ch/unige:80761

Disclaimer: layout of this document may differ from the published version.

(2)

Statistique/ Statistics

Normalit´ e asymptotique d’estimateurs de maximum de vraisem- blance pour mod` eles non-param´ etriques de r´ egression multi- dimensionnelle

Titre courant: Vraisemblance directionnelle pour r´egression multidimensionnelle

Auteurs: Juan RODRIGUEZ-POO*, Stefan SPERLICH** et Philippe VIEU***

* Universidad de Cantabria, Departamento de Economia

* Universidad Carlos III de Madrid, Departamento de Estadistica y Econometria

**Laboratoire de Statistique et Probabilit´es, Universit´e Paul Sabatier

Adresse pour correspondance: 3ème auteur, 118 route de Narbonne, 31062 Toulouse Cedex, France, Téléphone: 05 61 55 60 22; fax: 05 61 55 60 89; mail: [email protected].

Résumé. Ce travail se situe dans le cadre de l’estimation d’une fonction de régression multidimensionnelle. Nous proposons une nouvelle famille d’estimateurs basée sur un maximum de vraisemblance pondérée. Nous établissons la normalité asymptotique de nos estimateurs sous une hypothèse générale qui permet d’englober de nombreux modèles non-paramétriques, et en particulier le modèle additif.

Abstract. In the setting of multivariate regression estimation, we construct a new class of nonparametric estimates by using local likelihood techniques. We give asymptotic nor- mality results under a general separability assumption that allows to include many classical nonparametric models, and specially the additive model.

1 Introduction

On veut estimer la fonction de régression d’une variable réelle Y sur une variable d- dimensionnelleX =X¹, . . . , X^d dont nous supposerons par commodité qu’elle prend ses valeurs dans [0,1]^d. Les modèles statistiques étudiés ici se caractérisent par une hypothèse de type “séparabilité” qui consiste à supposer que la densité conditionnelleg de Y sur X existe et s’écrit sous la forme:

g(y, x) =g(y, η₁, . . . η_p), p≤d, (1) où lesη_j sont des fonctions dex= (x₁, . . . , x_d) telles queη_j(x) =η_j(t_j) oùt_j est le vecteur tj = (xaj−1+1, . . . xaj), les aj étant une famille strictement croissante d’entiers telle que

(3)

a0 = 0 et ap =d. On note dj la dimension du vecreur tj. Nous verrons dans le dernier paragraphe de cette note comment cette hypothèse englobe de nombreux modèles non- paramétriques de régression. Nous nous pla¸cons dans un cadre non-paramétrique en ce sens que chaque fonction inconnueηj est supposée être deux fois continûment différentiable sur [0,1]^d^j, de même que la densitép_j de chaque variableT_j. Pour simplifier notre exposé, nous nous limitons au cadre de l’estimation en un point fixé t₀ = (t¹₀, . . . t^p₀) tel que p(t₀) >0, oùp est la densité deX.

2 Construction des estimateurs

On dispose d’un échantillon {(Y_i, Xi) = (Yi, T_i¹, . . . T_i^p)}_i=1,...n de variables indépendantes ayant chacune même loi que (Y, X), à partir duquel on souhaite donc estimer lesη_j⁰, j= 1, . . . p. L’idée que nous développons est basée sur l’optimisation d’un critère de vraisemblance locale:

W(η₁, . . . η_p) =

n

X

i=1

K₁(t¹₀−T_i¹

b₁ ). . . K_d(t^p₀−T_i^p

b_p )logg(Y_i, η₁, . . . η_p), (2) où les Kj sont des noyaux symétriques à support compact et où les bj sont des réels positifs vérifiant nb^d_j^j → ∞ et nb^d_j^j⁺⁴ → 0. Si les H_j sont des compacts, on peut définir des estimateurs des paramètresηj de la manière suivante:

(ˆη₁(t¹₀), . . .ηˆ_p(t^p₀)) =max_H₁_,...H_pW(η₁, . . . η_p). (3) Or ces estimateurs, comme nous le discuterons brièvement au paragraphe 5, sont sensibles au problème de la dimension. C’est la raison pour laquelle nous préférons travailler avec des vraisemblances locales “directionnelles” définies pour η₁, . . . ηj−1, η_j+1, . . . η_p fixés par

Wj(ηj) =

n

X

i=1

Kj(t^j₀−T_i^j

b_j )logg(Yi, η1, . . . ηp). (4) L’optimisation des W_j nécessite une estimation préliminaire de chaque paramètre, ce qui amène comme estimateur de chaque paramètre η_j

ˆˆ

η_j(t0) =maxHjWj(ˆη1(T¹), . . .ηˆj−1(T^j−1), ηj,ηˆj+1(T^j+1), . . .ηˆp(T^p)). (5) Le Théorème 1 ci-dessous établit la normalité asymptotique et la convergence en proba- bilité (avec vitesses) des estimateurs ˆηˆ_j.

3 R´ esultats asymptotiques

On pose pour simplifierη_j⁰ =ηj(t^j₀), et notre hypothèse nonparamétrique consiste à supposer que toutes les fonctions η_j sont deux fois continûment différentiables. Comme la plupart des résultats en ce domaine, nos résultats sont étroitement liés au comportement

(4)

de l’information de Fisher. Nos hypothèses à ce sujet sont relativement proches de celles proposées par Staniswallis (1989) dans un contexte voisin. Bien que pouvant apparaˆıtre relativement techniques, il s’agit d’hypothèses classiques essentiellements nécessitées pour des problèmes d’indentifiabilité de modèles et d’unicité d’estimateurs (voir Rodriguez-Poo, Sperlich et Vieu (2000) pour une discussion détaillée des conditions). Tout d’abord on suppose que la matrice d’information de Fisher est définie positive, et que l’on a pour tout j,

E((∂logg

∂η_j (Y, η1(X), . . . ηp(X)))|T^j =x^j) = 0. (6) On suppose que toutes les dérivées partielles d’ordre 2 delogg(.) existent et sont continues, et qu’il existe des fonctions H_i^j vérifiant

E|H_i^j(y)|² <∞, telles que l’on ait

|∂ⁱlogg(y, η₁, . . . η_p))/∂η_j| ≤ |H_i^j(y)|,∀j= 1, . . . p, i= 1 ou 2. (7) On pose

U_j(η_j) = v u u t

RK_j²

pj(t^j₀)Ij(ηj) et II_j(η_j) =E((∂logg

∂η_j (Y, η₁(X), . . . η_p(X)))²|T^j =t^j₀).

Théorème 1. Sous les hypothèses décrites aux paragraphes 1 et 2, pour tout j on a:

q

nb^d_j^j(ˆηˆ_j−η_j)

U_j(η_j) →_LN(0,1), (8)

et

(ˆηˆ_j−η_j) =O_p( v u u t

logn nb^d_j^j

). (9)

4 Sch´ ema des preuves

Tout d’abord on vérifie que l’optimisation deWj est équivalente à celle de:

W_j^∗(η_j) = Pn

i=1Kj(^t

j 0−T_i^j

bj )logl(Yi, η1, . . . ηp) Pn

i=1K_j(^t

j 0−T_i^j

bj )

. (10)

On effectue ensuite pour tout i un d´eveloppement limit´e de la fonction ^∂logg_∂η

j autour du pointηj(T_i^j) pour aboutir `a une expression de la forme:

(5)

∂W_j^∗

∂ηj

(ηj) =A(ηj) +B(ηj)(ηj−η⁰_j). (11) On s’int´eresse alors `a la v.a.r. Z =

q

nb^d_j^j(ˆηj −η_j⁰) = q

nb^d_j^j_B(ˆ^A(ˆ^η_η^j⁾

j). En utilisant des techniques usuelles sur les noyaux, on montre ´etablit les deux d´eveloppements asymptotiques suivants:

EA(ˆηj) =o(bj) et V ar(A(ˆηj)) = (

R K_j²Ij(η1, . . . ηj−1, ηj+1, . . . ηp) pj(t^j₀) )² 1

nb^d_j^j +o( 1

nb^d_j^j), (12) B(ˆηj) =−I_j(η1, . . . ηj−1, ηj+1, . . . ηp) +op(1). (13) En combinant (12) et (13) et en utilisant le Théorème de Lindeberg-Feller, on obtient un résultat analogue à (8) où Uj(ˆηˆ_j) est remplacée par Uj(η⁰_j). On obtient alors (8), via le Théorème de Slutsky, et à partir du résultat suivant issu de la régularité deU_j:

Uj(ˆηˆ_j)

U_j(η_j⁰) →1,en probabilité. (14) La preuve de (9) se fait de manière similaire mais en utilisant des inégalités exponentielles de type Bernstein plutôt que des théotèmes de limite centrale.

5 Quelques cas particuliers

L’exemple le plus simple est celui du modèle de régression classique Y =R(X) +, qui correspond au cas où p= 1 et dp =d. Pour ce modèle il y a égalité entre les deux notions de vraisemblance introduites en (2) et (4), et par conséquent entre les deux estimateurs (3) et (5). Les vitesses de convergence obtenues dans nos résultats sont optimales pour un problème de dimension d. Ils présentent les lacunes classiques dans les cas où d est relativement grand (Cf egStone, 1986).

Le modèle additif s’écrit Y = µ+^P_jR_j(X_j) + (nous renvoyons à Stone, 1986, pour une définition précise ainsi que pour les conditions d’identifiabilité), et entre dans notre cadre avec d =p et dj = 1 pour tout j. Les vitesses de convergence obtenues dans nos théorèmes sont indépendantes de la dimension. Ainsi nos estimateurs sont compétitifs avec des méthodes classiques, que ce soit les Splines (Stone, 1996), les techniques de type Backfitting ou d’intégration marginale (Sperlich, Linton et Hardlë, 1999). Un intérêt essentiel de notre approche est de se généraliser directement au modèle GAM qui s’écrit Y =G(µ+^P_jRj(Xj)) +, oùG est une fonction de lien connue.

Pour terminer, mentionnons que l’hypothèse (1) autorise n’importe quelle combinaison entre les fonctions η_j et qu’à ce titre de nombreux autres modèles de régression sont concernés par notre étude (voir Rodriguez-Poo, Sperlich et Vieu, 2000).

(6)

Remerciements Les participants au groupe de travail “STAPH” (Statistique Fonction- nelle) du LSP de Toulouse sont vivement remerci´es pour leurs commentaires pertinents et permanents.

R´ef´erences bibliographiques

Rodriguez-Poo, Sperlich et Vieu, 2000. Semiparametric estimation of weak and strong separable models. Publication Interne, Univ. Carlos III, Madrid.

Sperlich S., Linton O. et H¨ardle, W., 1999. Integration and backfitting methods in additive models: finite sample properties and comparison. Test,8, 419-458.

Staniswallis, J.G., 1989. The kernel estimate of a regression function in likelihood based models. J. of Amer. Statist. Assoc. 84, 276-283.

Stone, C, 1986. The dimensionality reduction principle for generalized additive models.

Ann. of Statist.,14, 590-606.

Stone, C, 1994. The use of polynomial splines and their tensor products in multivariate function estimation.Ann. of Statist.,22, 118-184.

Normalite asymptotique d&#039;estimateurs de maximum de vraisemblance pour modeles non-parametriques de regression multidimensionelle

Article

Reference