Article
Reference
Normalite asymptotique d'estimateurs de maximum de vraisemblance pour modeles non-parametriques de regression multidimensionelle
RODRIGUEZ-POO, Juan, SPERLICH, Stefan Andréas, VIEU, Philippe
RODRIGUEZ-POO, Juan, SPERLICH, Stefan Andréas, VIEU, Philippe. Normalite asymptotique d'estimateurs de maximum de vraisemblance pour modeles non-parametriques de regression multidimensionelle.
Comptes Rendus de l'Académie des Sciences : Mathématiques, 2001, vol. 333, p. 61-64
Available at:
http://archive-ouverte.unige.ch/unige:80761
Disclaimer: layout of this document may differ from the published version.
Statistique/ Statistics
Normalit´ e asymptotique d’estimateurs de maximum de vraisem- blance pour mod` eles non-param´ etriques de r´ egression multi- dimensionnelle
Titre courant: Vraisemblance directionnelle pour r´egression multidimensionnelle
Auteurs: Juan RODRIGUEZ-POO*, Stefan SPERLICH** et Philippe VIEU***
* Universidad de Cantabria, Departamento de Economia
* Universidad Carlos III de Madrid, Departamento de Estadistica y Econometria
**Laboratoire de Statistique et Probabilit´es, Universit´e Paul Sabatier
Adresse pour correspondance: 3`eme auteur, 118 route de Narbonne, 31062 Toulouse Cedex, France, T´el´ephone: 05 61 55 60 22; fax: 05 61 55 60 89; mail: [email protected].
R´esum´e. Ce travail se situe dans le cadre de l’estimation d’une fonction de r´egression multidimensionnelle. Nous proposons une nouvelle famille d’estimateurs bas´ee sur un maximum de vraisemblance pond´er´ee. Nous ´etablissons la normalit´e asymptotique de nos estimateurs sous une hypoth`ese g´en´erale qui permet d’englober de nombreux mod`eles non-param´etriques, et en particulier le mod`ele additif.
Abstract. In the setting of multivariate regression estimation, we construct a new class of nonparametric estimates by using local likelihood techniques. We give asymptotic nor- mality results under a general separability assumption that allows to include many classical nonparametric models, and specially the additive model.
1 Introduction
On veut estimer la fonction de r´egression d’une variable r´eelle Y sur une variable d- dimensionnelleX =X1, . . . , Xd dont nous supposerons par commodit´e qu’elle prend ses valeurs dans [0,1]d. Les mod`eles statistiques ´etudi´es ici se caract´erisent par une hypoth`ese de type “s´eparabilit´e” qui consiste `a supposer que la densit´e conditionnelleg de Y sur X existe et s’´ecrit sous la forme:
g(y, x) =g(y, η1, . . . ηp), p≤d, (1) o`u lesηj sont des fonctions dex= (x1, . . . , xd) telles queηj(x) =ηj(tj) o`utj est le vecteur tj = (xaj−1+1, . . . xaj), les aj ´etant une famille strictement croissante d’entiers telle que
a0 = 0 et ap =d. On note dj la dimension du vecreur tj. Nous verrons dans le dernier paragraphe de cette note comment cette hypoth`ese englobe de nombreux mod`eles non- param´etriques de r´egression. Nous nous pla¸cons dans un cadre non-param´etrique en ce sens que chaque fonction inconnueηj est suppos´ee ˆetre deux fois continˆument diff´erentiable sur [0,1]dj, de mˆeme que la densit´epj de chaque variableTj. Pour simplifier notre expos´e, nous nous limitons au cadre de l’estimation en un point fix´e t0 = (t10, . . . tp0) tel que p(t0) >0, o`up est la densit´e deX.
2 Construction des estimateurs
On dispose d’un ´echantillon {(Yi, Xi) = (Yi, Ti1, . . . Tip)}i=1,...n de variables ind´ependantes ayant chacune mˆeme loi que (Y, X), `a partir duquel on souhaite donc estimer lesηj0, j= 1, . . . p. L’id´ee que nous d´eveloppons est bas´ee sur l’optimisation d’un crit`ere de vraisem- blance locale:
W(η1, . . . ηp) =
n
X
i=1
K1(t10−Ti1
b1 ). . . Kd(tp0−Tip
bp )logg(Yi, η1, . . . ηp), (2) o`u les Kj sont des noyaux sym´etriques `a support compact et o`u les bj sont des r´eels positifs v´erifiant nbdjj → ∞ et nbdjj+4 → 0. Si les Hj sont des compacts, on peut d´efinir des estimateurs des param`etresηj de la mani`ere suivante:
(ˆη1(t10), . . .ηˆp(tp0)) =maxH1,...HpW(η1, . . . ηp). (3) Or ces estimateurs, comme nous le discuterons bri`evement au paragraphe 5, sont sensibles au probl`eme de la dimension. C’est la raison pour laquelle nous pr´ef´erons travailler avec des vraisemblances locales “directionnelles” d´efinies pour η1, . . . ηj−1, ηj+1, . . . ηp fix´es par
Wj(ηj) =
n
X
i=1
Kj(tj0−Tij
bj )logg(Yi, η1, . . . ηp). (4) L’optimisation des Wj n´ecessite une estimation pr´eliminaire de chaque param`etre, ce qui am`ene comme estimateur de chaque param`etre ηj
ˆˆ
ηj(t0) =maxHjWj(ˆη1(T1), . . .ηˆj−1(Tj−1), ηj,ηˆj+1(Tj+1), . . .ηˆp(Tp)). (5) Le Th´eor`eme 1 ci-dessous ´etablit la normalit´e asymptotique et la convergence en proba- bilit´e (avec vitesses) des estimateurs ˆηˆj.
3 R´ esultats asymptotiques
On pose pour simplifierηj0 =ηj(tj0), et notre hypoth`ese nonparam´etrique consiste `a sup- poser que toutes les fonctions ηj sont deux fois continˆument diff´erentiables. Comme la plupart des r´esultats en ce domaine, nos r´esultats sont ´etroitement li´es au comportement
de l’information de Fisher. Nos hypoth`eses `a ce sujet sont relativement proches de celles propos´ees par Staniswallis (1989) dans un contexte voisin. Bien que pouvant apparaˆıtre relativement techniques, il s’agit d’hypoth`eses classiques essentiellements n´ecessit´ees pour des probl`emes d’indentifiabilit´e de mod`eles et d’unicit´e d’estimateurs (voir Rodriguez-Poo, Sperlich et Vieu (2000) pour une discussion d´etaill´ee des conditions). Tout d’abord on suppose que la matrice d’information de Fisher est d´efinie positive, et que l’on a pour tout j,
E((∂logg
∂ηj (Y, η1(X), . . . ηp(X)))|Tj =xj) = 0. (6) On suppose que toutes les d´eriv´ees partielles d’ordre 2 delogg(.) existent et sont continues, et qu’il existe des fonctions Hij v´erifiant
E|Hij(y)|2 <∞, telles que l’on ait
|∂ilogg(y, η1, . . . ηp))/∂ηj| ≤ |Hij(y)|,∀j= 1, . . . p, i= 1 ou 2. (7) On pose
Uj(ηj) = v u u t
RKj2
pj(tj0)Ij(ηj) et IIj(ηj) =E((∂logg
∂ηj (Y, η1(X), . . . ηp(X)))2|Tj =tj0).
Th´eor`eme 1. Sous les hypoth`eses d´ecrites aux paragraphes 1 et 2, pour tout j on a:
q
nbdjj(ˆηˆj−ηj)
Uj(ηj) →LN(0,1), (8)
et
(ˆηˆj−ηj) =Op( v u u t
logn nbdjj
). (9)
4 Sch´ ema des preuves
Tout d’abord on v´erifie que l’optimisation deWj est ´equivalente `a celle de:
Wj∗(ηj) = Pn
i=1Kj(t
j 0−Tij
bj )logl(Yi, η1, . . . ηp) Pn
i=1Kj(t
j 0−Tij
bj )
. (10)
On effectue ensuite pour tout i un d´eveloppement limit´e de la fonction ∂logg∂η
j autour du pointηj(Tij) pour aboutir `a une expression de la forme:
∂Wj∗
∂ηj
(ηj) =A(ηj) +B(ηj)(ηj−η0j). (11) On s’int´eresse alors `a la v.a.r. Z =
q
nbdjj(ˆηj −ηj0) = q
nbdjjB(ˆA(ˆηηj)
j). En utilisant des tech- niques usuelles sur les noyaux, on montre ´etablit les deux d´eveloppements asymptotiques suivants:
EA(ˆηj) =o(bj) et V ar(A(ˆηj)) = (
R Kj2Ij(η1, . . . ηj−1, ηj+1, . . . ηp) pj(tj0) )2 1
nbdjj +o( 1
nbdjj), (12) B(ˆηj) =−Ij(η1, . . . ηj−1, ηj+1, . . . ηp) +op(1). (13) En combinant (12) et (13) et en utilisant le Th´eor`eme de Lindeberg-Feller, on obtient un r´esultat analogue `a (8) o`u Uj(ˆηˆj) est remplac´ee par Uj(η0j). On obtient alors (8), via le Th´eor`eme de Slutsky, et `a partir du r´esultat suivant issu de la r´egularit´e deUj:
Uj(ˆηˆj)
Uj(ηj0) →1,en probabilit´e. (14) La preuve de (9) se fait de mani`ere similaire mais en utilisant des in´egalit´es exponentielles de type Bernstein plutˆot que des th´eot`emes de limite centrale.
5 Quelques cas particuliers
L’exemple le plus simple est celui du mod`ele de r´egression classique Y =R(X) +, qui correspond au cas o`u p= 1 et dp =d. Pour ce mod`ele il y a ´egalit´e entre les deux notions de vraisemblance introduites en (2) et (4), et par cons´equent entre les deux estimateurs (3) et (5). Les vitesses de convergence obtenues dans nos r´esultats sont optimales pour un probl`eme de dimension d. Ils pr´esentent les lacunes classiques dans les cas o`u d est relativement grand (Cf egStone, 1986).
Le mod`ele additif s’´ecrit Y = µ+PjRj(Xj) + (nous renvoyons `a Stone, 1986, pour une d´efinition pr´ecise ainsi que pour les conditions d’identifiabilit´e), et entre dans notre cadre avec d =p et dj = 1 pour tout j. Les vitesses de convergence obtenues dans nos th´eor`emes sont ind´ependantes de la dimension. Ainsi nos estimateurs sont comp´etitifs avec des m´ethodes classiques, que ce soit les Splines (Stone, 1996), les techniques de type Backfitting ou d’int´egration marginale (Sperlich, Linton et Hardl¨e, 1999). Un int´erˆet essentiel de notre approche est de se g´en´eraliser directement au mod`ele GAM qui s’´ecrit Y =G(µ+PjRj(Xj)) +, o`uG est une fonction de lien connue.
Pour terminer, mentionnons que l’hypoth`ese (1) autorise n’importe quelle combinaison entre les fonctions ηj et qu’`a ce titre de nombreux autres mod`eles de r´egression sont concern´es par notre ´etude (voir Rodriguez-Poo, Sperlich et Vieu, 2000).
Remerciements Les participants au groupe de travail “STAPH” (Statistique Fonction- nelle) du LSP de Toulouse sont vivement remerci´es pour leurs commentaires pertinents et permanents.
R´ef´erences bibliographiques
Rodriguez-Poo, Sperlich et Vieu, 2000. Semiparametric estimation of weak and strong separable models. Publication Interne, Univ. Carlos III, Madrid.
Sperlich S., Linton O. et H¨ardle, W., 1999. Integration and backfitting methods in additive models: finite sample properties and comparison. Test,8, 419-458.
Staniswallis, J.G., 1989. The kernel estimate of a regression function in likelihood based models. J. of Amer. Statist. Assoc. 84, 276-283.
Stone, C, 1986. The dimensionality reduction principle for generalized additive models.
Ann. of Statist.,14, 590-606.
Stone, C, 1994. The use of polynomial splines and their tensor products in multivariate function estimation.Ann. of Statist.,22, 118-184.