R EVUE DE STATISTIQUE APPLIQUÉE
M ICHEL L EJEUNE
Estimation non-paramétrique par noyaux : régression polynomiale mobile
Revue de statistique appliquée, tome 33, n
o3 (1985), p. 43-67
<http://www.numdam.org/item?id=RSA_1985__33_3_43_0>
© Société française de statistique, 1985, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
43
ESTIMATION NON-PARAMETRIQUE PAR NOYAUX :
REGRESSION POLYNOMIALE MOBILE
Michel LEJEUNE Université de LausanneRESUME-
Pour un estimateur
non-paramétrique
à noyau d’une courbe derégression l’optimalité
dunoyau est étudiée dans le cas
d’échantillonnage
fini avec abscisseséquiréparties.
On démontreque, dans la classe des noyaux éliminant le biais
jusqu’à
undegré
k d’approximation polyno-miale locale de la courbe, le noyau donnant la variance minimale se déduit du polynôme de Legendre de
degré
k, ou éventuellement dedegré
k + 1 si l’on impose la continuité aux extré- mités du support. Le cas des effets de bord est aussienvisagé :
les noyaux optimaux sontégale-
ment déterminés.
On démontre alors qu’il y a
équivalence
entre l’approche-par noyaux optimaux et unesolution par
régression
polynômiale mobile avec un choix depondérations adéquat.
Cette der- nière solution permet unegénéralisation
à des abscisses derépartition
quelconque avec ou sans effets de bord.Quelques
exemples de simulations sont donnés.ABSTRACT
Optimal kernels are studied for non parametric regression in the case of finite sampling
with equidistant x values. Within the class of kernels which yield unbiaisedness up to a local
polynomial approximation of order k for the regression curve, it is shown that the minimum variance kernel can be derived from Legendre polynomials of degree k or, possibly, of degree
k + 1 when imposing continuity on both ends of the support. Boundary effects are also consi- dered and corresponding kernels are exhibited.
It is then shown that the optimal kernel approach and a solution through polynomial regression with appropriate weights are equivalent. This later solution can be generalized to
any distribution of x values with or without boundary effects. Some simulations are given.
1. INTRODUCTION
Soit
{Y(x)}
une famille de variables aléatoires indexées par x E[a, b]
et telle que pour tout x E[a, b] :
existe et : *
Soit
{xi;
i =1, ... , n}
une suite depoints
dans R ordonnés etéquirépartis
à l’intérieur de
[a, b].
Par commodité nous poserons Yi= Y (xi).
Leproblème
envisagé
est l’estimation dezur (x)
en toutpoint
x de[a, b]
avec comme seulehypo-
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n°3 3
Mots clés :
Régression non-paramétrique,
Estimateurs à noyaux,lissage, Régression polynômiale..
Title : Non
parametric
kernel estimation :moving polynomial regression.
44
thèse que zur est une fonction indéfiniment dérivable et
analytique
sur cet intervalleen ce sens que son
développement
en série deTaylor
auvoisinage
de xquelconque
dans
[a, b]
converge vers zur(x).
Leproblème
estnon-paramétrique
par le fait quejHy n’appartient
pas, au contraire de l’estimationparamétrique classique,
à unefamille de fonctions décrites par un nombre fini de
paramètres
réels.Notons que le modèle
posé
n’est pas, stricto sensu, celui de larégression puisqu’ici
lesxi
sont fixés et non aléatoires. Ceproblème général
sera considérédans la section 6.
Considérons la classe des estimateurs
linéaires,
parrapport
auxyi :
où le
signe X s’entend,
ici ainsi que par la suite sauf mentioncontraire,
comme unesommation de 1 à n, et où
wi
est fonction de x et dexi.
Lorsque
lespondérations wi peuvent
s’écrire sous la forme :sinon où K est une fonction continue sur
[- 1,
+11
vérifiantnous dirons que nous avons un estimateur à noyau, K étant
précisément
le noyau.L’intervalle
[x2013ô, x+5]
estappelé
fenêtre en x et 2 5 estappelé largeur
defenêtre. Notons que 5 est un facteur d’échelle dont le choix est essentiel. Nous
n’envisagerons
toutefois pas ce choix ici et raisonnerons à valeur de 5 fixée pournous intéresser
spécifiquement
à la forme du noyau caractérisée par la fonction K.D’autre
part
nous excluons d’emblée les noyaux dont lesupport
n’est pas borné.L’idée
générale prévaut
en estimationnon-paramétrique
par noyaux que la forme du noyau est secondaire enregard
de la déterminationde
lalargeur
de fenêtre. Ceci est vrai si l’on serestreint,
comme on le faitgénéralement,
à la classedes noyaux
positifs
et si l’on ne sepréoccupe
que depropriétés asymptotiques.
Dans la
pratique
rien ne sert de viser unelargeur
de fenêtreasymptotiquement optimale
si le noyau n’évite pas tant soit peu les fortes distorsions dues au biais. Lesprécurseurs
de l’estimationnon-paramétrique qui
étudiaient lefiltrage
des sérieschronologiques
ne se sont pastrompés
sur lapriorité
à accorder entrelargeur
et forme du noyaupuisqu’ils
ont essentiellementproposé
des noyaux nonpositifs
de
largeur
fixe.Dans notre étude nous verrons en
quoi
les noyaux non nécessairementpositifs
améliorent sensiblement le biais dans le cas de la
régression non-paramétrique.
Nousmettrons en évidence une méthode de
lissage qui
conduit àl’optimalité
du noyaupour la situation
d’équirépartition
des abscisses et même pour la situationplus générale,
considérée à la section6,
d’unerépartition quelconque.
Deplus,
leseffets de bords intervenant aux extrémités du domaine des abscisses sont
parfai-
tement neutralisés.
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n"3 3
45 L’intérêt de cette étude réside dans le fait
qu’on
considère unéchantillonnage
fini alors que les travaux dans ce domaine ont
principalement porté jusqu’à présent
sur des considérations
asymptotiques reposant
enparticulier
sur unelargeur
de fenêtre tendant vers zéro. De tels résultats ont un intérêt limité car lalargeur
de fenêtre nécessaire à unlissage
correct resteimportante
même pour degrands
échantillons. On pourra consulter à ce
sujet
les résultats de simulations effectuées par DODGE et LEJEUNE(1982).
2. BIAIS ET VARIANCE
(CAS
D’ABCISSESEQUIREPARTIES)
L’approche
que nousadoptons s’inspire
des travaux de GASSER et MULLER(1979, 1982) qui
sefondent,
pour n 03B4 ~ 0 etnb
sur les résultatsasymptotiques
suivants :où les termes en ne et
na-1
résultent du fait que les auteursn’imposent
aux xi quel’équidistance asymptotique
avec :Ces formules sont écrites pour une
répartition
des abscisses sur[0, 1],
lavariance devant être
multipliée
par b-a si larépartition
s’étend sur[a, b].
Elles nevalent que
lorsque
x n’induit pas des "effets de bord" c’est-à-direlorsque xe[a+8,b-5].
Toutefois GASSER et MULLER donnent les formules dans lecas d’effets de bord
qui, essentiellement,
ne diffèrent desprécédentes
que par les ordresd’approximation.
Montrons que les formules 2.2 et 2.3
peuvent
être établies sans difficulté pour unéchantillonnage
fini avec uneapproximation
dont nousprécisons
la nature,ce
qui
nouspermettra
dès lorsd’envisager
la recherched’optimalité.
Nouscommençons par établir un lemme
ayant
trait àl’approximation intégrale
desommes discrètes.
Lemme
Soit f une fonction
réelle,
continue et indéfiniment dérivable sur[a, b]
telle que
f’ (a)
=f’ (b).
Pour une suite croissante depoints {X1,
x2 ’... , xn}
A là
telle que A =
xi+ 1 -- xi
soit constant et a =x 1 - 2013, b
= xn+ -,
on a :Revue de Statistiques Appliquées, 1985, vol. XXXIII, n"3 3
46
S’il existe un
point (ou
tout auplus
un nombre fini depoints)
de(a, b)
où f n’est pas continue mais finie alors
l’approximation
vaut avec0(1).
Démonstration
Nous prenons d’abord f dérivable
partout
sur[a, b].
Endéveloppant
f ensérie de
Taylor
auvoisinage
dexi puis
enintégrant
surxi - 0394 2, xi
+ - et ensommant sur
i,
on obtient aisément :Nous pouvons
appliquer
cette formule pourf"
et utiliser lapropriété f (a)
=f’ (b),
cequi
donne :soit en subtituant dans
(2.5) :
ce
qui
estéquivalent
à(2.4) puisque A = (b - a)/n.
Soit maintenant un
point
de discontinuité situé à l’intérieur dexK
± -(le
casd’une borne ne
posant
aucunproblème particulier).
Onpeut
écrire :A Ai
avec 1 EK ( MK - f(XK)
oùMK
est le maximum de f surxK - 0394 2, 1 XK +-
2 2
donc
~K = 0(1).
Notons que si f est continue mais non dérivable enxK l’approxi-
mation
est o (1).
Calculons maintenant biais et variance pour l’estimateur
(2.1) :
et
Supposons
quejn
soit suffisamment dérivable sur le domained’intérêt,
que les
wi
soient donnés par un noyau K indéfiniment dérivable sur[-1, + 1 ]
et tel que
K (± 1)
=K’ (± 1)
= 0.Supposons
encore que lepoint
x n’induisepas des effets de bord c’est-à-dire que
xi + 03B4
x xn -6,
où 03B4 est lalargeur
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n° 3
47 de fenêtre. Dorénavant un tel
point
seraappelé
un"point
intérieur" paropposi-
tion à un
point
du bordgauche
ou droit. Alors le lemmes’applique
immédiatement à la formule(2.6)
du biais(en
définissant a et bopportunément) :
et
puisque
K est normalisé sur[-1,
+1] :
Dans le cas où on utilise un noyau avec des discontinuités -
respectivement
non
dérivabilités -
aux bornes dusupport,
cette formule ne vautqu’avec
0(1 n)-
respectivement
o(1 n).
Supposons
maintenant que x soit unpoint
debord,
parexemple
àgauche,
et donc que x =
xi
+q6
avec 0 q 1. Dans ce. cas nous utiliserons par commo- dité pour la recherched’optimalité qui
suivra une troncature du noyau K telle queK (u)
= 0 pour u - q. Nous sommes alors ramenés au cas d’une discontinuitécomme
précédemment.
Pour la variance on a :
Dans le cas du noyau discontinu ou d’effets de bord
l’approximation
vautavec 0 2
Ces résultats amènent
quelques
remarques. Tout d’abord les formules(2.8)
et
(2.9)
sont les formules(2.2)
et(2.3)
dans le cas d’une discontinuité aux bornes dusupport,
si l’on omet les termes relatifs à la condition dequasi-équidistance
desabscisses,
à ceciprès
que 03B4 n’intervient pas dans les ordresd’approximation puisque
nous nous
plaçons
dansl’hypothèse
d’un ô fixeindépendant
de n. On noteraavec intérêt que, ô étant
fixé,
la nature des termesnégligés
tient àl’approximation
continue,
parintégrale,
d’une somme discrète de termes. Ces formuless’appliquent
sans autre
hypothèse
auxpoints
situés sur lesbords,
la seule modificationportant
sur l’introduction d’une discontinuité du noyau due à sa troncature.
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n° 3 3
48
3. OPTIMISATION DU NOYAU
Par
optimisation
nous entendons la réduction laplus
fortepossible
des deuxtypes
d’erreurs d’estimation que sont le biais et la variance. Traditionnellement on utilise comme critèred’optimisation
l’erreurquadratique
moyennequi
combineces deux
types.
Nouspréférons
considérerséparément
l’étude du biais et de la variance pour nous situer dans uneplus grande généralité
etrapprocherons
ensuitenos résultats de ceux rencontrés dans la littérature.
Pour arriver à
l’optimum
nous devons choisir deux entitésindépendamment
ou non : d’une
part
la forme du noyau, c’est-à-dire la fonction K desupport [- 1 , + 1]
et d’autrepart
lalargeur
de fenêtre 5. Partant de l’idée que le choix de 5 sera enpratique guidé
par des considérationsdescriptives
serapportant
aulissage
de lacourbe,
nous allons supposer que ô est fixé à une valeurqui peut
êtreoptimale
ou non et nous intéresser essentiellement à l’allure laplus bénéfique
dunoyau K
quel
que soit 5.En considérant les formules
d’approximation
du biais et de la variance(2.8)
et
(2.9),
on constate que la minimisation du biais estplus problématique puisqu’elle
va
dépendre
de l’allure de la vraie courbe derégression 03BCy
entre x - 6 et x + 5.Par contre le
problème
de la variance estplus simple car
ils’agit
de minimiseruniquement :
Aussi
adopterons-nous
la démarche suivante. Dans unpremier temps,
nous allons définir pour le noyau les contraintesqui permettent
de contrôler le biaisjusqu’à
un niveau voulu. Plusprécisément
nous écrirons les conditions pourlesquelles
le noyau annule le biais pour uneapproximation polynômiale
deTaylor
de03BCy
auvoisinage
de x dedegré
donné. A la suite dequoi
nous recher-cherons,
dans l’ensemble des noyauxremplissant
cesconditions,
celuiqui
minimise(3.10).
Celasignifie
que nousprivilégions
le biais parrapport
à la variance(et implicitement
lesaspects descriptifs
parrapport
auxaspects inférentiels)
maissans que cela soit réellement
préjudiciable
car la variancepeut
être aussi contrôlée par lalargeur
de fenêtrequi apparaît
à son dénominateur. Nousenvisagerons
d’abord le cas d’unpoint
x intérieur audomaine,
le cas d’unpoint
de bord faisantl’objet
de la section suivante.Définition
On dit
qu’un
noyau K est d’ordre r si ses moments sont nulsjusqu’à
l’ordrer - 1 et son moment
d’ordre
r est nonnul,
soit :Considérons
ledéveloppement
en série deTAYLOR ;
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n"3 3
49 En substituant dans
l’approximation (2.8)
du biais on obtient :Pour un noyau
Kr
d’ordre r les r - 1premiers
termes de cette somme sont nuls. SoitRr(5u)
la sommation àpartir
de K = r dans ledéveloppement
de 03BCY(x + 03B4u), le
biais vaut :
Quand
r ~ ~ le resteRr
converge vers zéro uniformément enou,
mais ce n’est que pour une suite de noyauxKr appropriée
que le biais tendra vers zéro.Néanmoins,
pour r
fixé,
le biais est éliminé pourl’approximation
localede 03BCY
par lepolynôme
de
Taylor
dedegré
r - 1. Par ailleurs la formule ci-dessus montre que la réduc- tion du biaisdépendra
de laprécision
de cetteapproximation
de03BCY
dans la fenêtre[x-6,x+ô].
D’un
point
de vuedescriptif
onimagine
l’intérêtqu’il
y aura à choisir unnoyau d’ordre élevé si l’on veut éviter de forts biais dans les zones de
Jly à
fortevariation de courbure. Notons par
exemple
que les noyaux nonnégatifs
que l’on utilisegénéralement
nepeuvent
avoir un deuxième momentqui
s’annuleet,
parconséquent,
vont donner undécalage systématique
dèsqu’il
y aura courbure.Montrons que dans la classe des noyaux d’ordre r
pair
il existe un et un seulnoyau de forme
polynômiale
dedegré
r - 2. Onpeut
se limiter à l’étude de rpair
car, en raison de la
symétrie
duproblème
autour dupoint
x, le noyau doit être une fonctionpaire
et les moments d’ordreimpair
sont nécessairement nuls. Pour unpolynôme
dedegré
r -2,
où r estpair,
les contraintesportant
sur les r - 1premiers
moments, ainsi que la contrainte de normalisation se traduisent par :où â
est le vecteur des coefficientspairs
dupolynôme.
La matrice ci-dessus étantrégulière,
lesystème
admet bien une solutionunique
pourX
A un facteur de pro-portionnalité près
cette solution est donnée par les cofacteurs de lapremière ligne.
On trouve pour les
premières
valeurs de r(voir également
lafigure 1)
les noyauxpolynômiaux optimaux 03A6r
suivants :Revue de Statistiques Appliquées, 1985, vol. XXXIII, n° 3
50
Figure 1. - Noyaux optimaux d’ordres r = 2,4 et 6.
Figure 2. - Noyaux continus aux bornes optimaux
d’ordres r = 2,4 et 6.
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n"3 3
51 Ces noyaux
qui
sont lespolynômes
dedegré
minimal pourchaque
valeur der
présentent
une discontinuité aux bornes dusupport
cequi
entraîne une discon- tinuité pour l’estimationlorsqu’on déplace
l’abscisse. Onpeut donc préférer
choisirun
polynôme
vérifiant une contrainte de continuitésupplémentaire
pour(3.11) :
ce
qui oblige
à considérer unpolynôme
dedegré
r au lieu de r - 2. On trouve alorspour les
premières
valeurs de r(voir également
lafigure 2)
les noyauxpolynômiaux
continus aux bornes et
optimaux
d’ordre r, notésVlr
et définis par :De même on
peut
introduire encore une contrainte de dérivabilité aux bornes du support :ceci au détriment de l’élévation au
degré
r + 2 pour lepolynôme
dedegré
minimal.Pour r = 2 on trouve ainsi le noyau
biquadratique :
Venons maintenant à la minimisation de la variance c’est-à-dire de
l’expres-
sion
(3.10)
et ne considérons pour le moment que les noyaux detype polynômial.
Pour K
polynôme
dedegré
m la minisation def K2 implique
les conditions :ou encore :
Ces conditions étant
identiques
à cellesexigées
pour l’annulation dubiais,
nous pouvons en déduire que les
polynômes
dedegré
r - 2 mis en évidenceprécé-
demment -voir
(3.12)-
sontégalement
de variance minimaleparmi
l’ensemble despolynômes
dedegré
r - 2. En fait onpeut
énoncer un résultatbeaucoup plus général.
Proposition
Parmi les noyaux K d’ordre r
(nécessairement pair)
le noyauproportionnel
à1
-Pr-1 (x),
oùPr- 1
est lepolynôme
deLegendre
dedegré r - 1,
est celuiqui
mini-x
mise f K 2
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n° 3
52
La démonstration est un cas
particulier
de résultatsplus
vastes donnés par MAMMITZSCH(1983). Rappelons
que lespolynômes
deLegendre peuvent
être définis parl’équation
de récurrence :et
qu’ils
vérifient :Posons donc :
alors
Qo, Q1, Q2) ’ ’ ’
forment une famille orthonormée de fonctionsqui
est densedans l’ensemble
L2 [- 1, + 1 ].
Pour toute fonction dans cet ensemble les conditions relatives aux r -1premiers
moments s’écrivent avec les notations usuelles du pro- duit intérieur dansL2 ;
ou de
façon équivalente :
où
qO
est le terme constant deQ .
Le noyau K s’écrit alors :d’où :
et la minimisation de cette
expression
est obtenuelorsque
lesaK
sont tous nuls.(Remarquons
queq0m
étant nul pour mimpair,
on retrouve le fait que r est néces-sairement
pair).
En utilisant lespropriétés
récursives despolynômes
deLegendre,
on montre
qu’il s’agit,
à un coefficient deproportionnalité près,
de-Pr-1 (x).
Notons que ce
polynôme
a r - 2 racines réelles dans[- 1,
+1].
A ce
point
il est intéressant d’étudier comment évolue la variance minimaleatteignable
pour différentes valeurs de r. Pour r =2, 4, 6,
on trouverespective-
ment une valeur minimale
de f K2 égale
à0.500, 1.125,
1.758. On voit donc que la variance sedégrade
assez nettementlorsque
l’ordres’élève
etqu’il
faudra limiternos ambitions dans la réduction du biais
à
une valeur de r pastrop
élevée. On démontre d’ailleurs que la variancediverge quand
r - oo.Si nous
imposons
maintenant que le noyau soit continu aux bornes du sup-port
à savoirK (± 1)
=0,
la minimisation devientplus
délicate et nous nedispo-
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n°3
53
sons que de résultats
partiels.
Dans son article devenuclassique
et relatif à l’estima- tion de densité où unproblème d’optimisation
similaire estposé,
EPANECHNIKOV(1969)
a montré que lenoyau-(1 - x ) minimise fK2 parmi
les noyaux dont le 4deuxième moment est
égal
à 1. En fait GASSER et MULLER(1979)
ontmontré,
pour r = 2 et r =4,
que les solutionsVlr
données en(3.13)
minimisentf K2 parmi
les noyaux continus aux bornes et
ayant
un nombre dechangements
designe
mini- mal(à
savoirégal
àr - 2)
sur(-1,1).
Avec GASSER et MULLER nousconjec-
turons que ceci se
généralise
à r > 4.Conjecture
Parmi les noyaux d’ordre r
(pair)
montrant un nombre dechangements
designe
minimal(égal
àr - 2)
sur(- 1, + 1)
et s’annulant en ±1,
le noyau propor-1
x
tionnel
à - Jo Pr (u) du,
oùPr
est lepolynôme
deLegendre
dedegré
r, est celuiqui minimise f K2.
Le calcul
de f K2
donne pour r =2, 4, 6 respectivement 0.600,1.250,1.893.
En
comparant
aux valeurs obtenues avec les noyauxquelconques
aux bornes dusupport,
on voit quel’augmentation
de la variance n’est passignificative
enregard
du
gain
que l’onpeut
attendre sur leplan
dulissage.
Onpeut
pousser lacomparai-
son
plus
loin enregardant
la valeur du r-ième momentmr qui constitue,
à une cons-tante
multiplicative près,
le termeprincipal
du biais pour 5petit :
dans son
développement
en série deTaylor.
On trouve pour valeurs demr :
r=2 r=4 r=6
"Noyau optimal
discontinu" 0.333 - 0.086 0.022"Noyau optimal
continu" 0.200 - 0.048 0.012 A ordreégal
onpeut
donc s’attendre à cequ’en plus
d’un meilleuraspect
descriptif
le noyauoptimal
continuprésente
une amélioration sensible du biais(approximativement
réduit demoitié).
Globalement le noyau continupeut
êtrejugé préférable
mais en notant bien que sondegré
est r au lieu de r - 2 pour le noyaudiscontinu,
cequi peut
influer sur la facilité des calculs. Le choix que nousproposerions
à cepoint
serait celui du noyau continu avec r = 4qui
reste accep- table sur leplan
de la variance et de lasimplicité,
et donne un biais nul pour uneapproximation
locale de la courbe derégression
par unpolynôme
du troisièmedegré,
cequi
est tout à fait suffisant enpratique.
Comment ces résultats se
rapprochent-ils
des résultatsclassiques
rencontrésdans la littérature ?
Que
ce soit pour l’estimation d’une fonction de densité oud’une fonction de
régression,
laprocédure
usuelle consiste àdévelopper asympto- tiquement
l’erreurquadratique
moyenne(e.q.m.)
en unpoint
x pour un estima- teur à noyau K delargeur
6. On détermine alors la valeur de 6globalement opti-
male
c’est-à-dire qui
minimisel’e.q.m. intégrée (e.q.m.i.)
lelong
del’intervalle
de variation de x. On substitue alors cette valeur dansl’e.q.m.i. qui
devient propor- tionnelle à :Revue de Statistiques Appliquées, 1985, vol. XXXIII, n° 3
54
pour un noyau d’ordre r et de r-ième moment
égal
à mr.L’avantage généralement invoqué
pour le choix de r > 2 est d’améliorer la vitesse de décroissance de l’erreuren fonction de n. Pour les
développements
détaillés nous renvoyons à TAPIA et THOMPSON(1980)
pour l’estimation de densité et GASSER et MULLER(1979)
pour la
régression :
le choix de Kqui s’impose
alors est celuiqui
minimise :Notre propre
approche présente l’avantage
de reposer sur des notionsd’opti-
malité définies
plus simplement
etd’expliciter
le choix àopérer
entre les diversnoyaux, tout en s’en tenant à un nombre minimal de conditions et à la seule appro- ximation d’une somme discrète par une
intégrale.
Avant de nous prononcer sur le choix d’un noyau nous devons étudier les
problèmes
dus aux effets de bordqui,
dans lapratique, peuvent
concerner la moitié du domaine desabscisses,
la valeur de 6 couvrant couramment lequart
de ce domaine.4. EFFETS DE BORD
Sur le fond le
problème
dans le cas d’unpoint
x sur le bordgauche
ou droitne diffère pas du
problème précédent
même s’il estplus
difficile d’obtenir des solu- tionsexplicites.
Eneffet,
comme nous l’avonsindiqué plus
haut les formules(2.8)
et
(2.9)
du biais et de la variances’appliquent
de la mêmefaçon
à cette nuanceprès
que le noyau est
tronqué
sur un côté. Dans cequi
suit nous traiterons le cas du bordgauche,
celui du bord droit seréglant symétriquement
enchangeant
x en - x.Soit x =
xl
+q6
oùxl
est le minimum des xi et 0 q1,
alors lesupport
de K est[- q,1].
Nous pouvons suivre la même démarchequ’à
la sectionprécédente
consistant tout d’abord à mettre en évidence le noyau
unique
d’ordre r de formepolynômiale
dedegré minimal,
à ceciprès
que nous n’avonsplus
lapropriété
desymétrie,
donc que rpeut
êtrepair
ouimpair,
et que vont intervenir dans l’écriture des moments des éléments :Un noyau d’ordre r devra être de
degré
au moinségal
à r -1 et leséquations (3.11)
deviennent :Revue de Statistiques Appliquées, 1985, vol. XXXIII, n° 3
55
Donnons,
à un coefficient deproportionnalité près,
les noyaux pour lespremiers
ordres :Figure 3. - Effets de bord : noyaux optimaux d’ordre 3 de supports [- q,1].
La
figure
3 donne pourquelques
valeurs de q l’allure du noyau d’ordre 3.Notons que pour q = 1 on retrouve les noyaux
optimaux
de la sectionprécédente.
Etant donné que nous n’avons
plus
lesupport [- 1, + 1]
la solution de variance minimale pour un ordre donné est difficile à obtenir. Nous nous contenteronsd’arguer
de la continuité existant entre le cas d’effets de bord et le cas sans effets de bord pour voir dans les solutions dutype (4.16)
une certaineoptimalité.
Nous pouvons
également
iciajouter
une contrainte de continuité maisqui
n’est utile que pour la valeur 1. Le noyaupolynômial
devra alors être au moins dedegré
r. Parexemple
pour r = 3 nous devons résoudre lesystème :
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n° 3
56
A un coefficient de
proportionalité près
la solution est donnée par les cofac-teurs de la
première ligne,
soit pourao
parexemple :
Et de même on obtient
Figure 4. - Effets de bord : noyaux optimaux d’ordre 2 de support [- q, 1] et continus à droite.
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n"3 3
57 Cette solution se
généralise
aisément à un ordreplus
élevé. Pour lespremiers
ordres on trouve :
Pour les ordres
pairs
on retrouve bien les noyauxsymétriques
de la sectionprécédente
enprenant
q = 1. Pour les ordresimpairs
on arrive aux noyauxoptimaux
que l’on aurait obtenus en ne fixant que K(1)
= 0.La
figure
4 donne pourquelques
valeurs de q l’allure du noyau d’ordre 2. Lecas q = 0
correspondant
à x situé à l’extrémitégauche
du domaine des abscissesest
particulièrement
intéressant. Le noyau est alors 6(1 - x) (1 - 2x),
sa varianceest
égale
à24/5
et son deuxième moment vaut -1/10.
A titre decomparaison
lenoyau d’EPANICHNIKOV
simplement tronqué
donne unevariance
4 fois inférieure maiss’accompagne
d’un biais très fortpuisque
sonpremier
moment vaut3/8.
5.
EQUIVALENCE
DE LA REGRESSION POLYNOMIALE PONDEREENous avons
jusqu’à présent dégagé
les noyauxrépondant
à une certaineoptimalité
pour unpoint
intérieur comme pour unpoint
debord,
ceci dans lecas d’une
répartition régulière
des abcisses. La méthode que nous allonsprésenter permet
de retomber sur ces noyaux par uneapproche plus simple
sur leplan
descalculs comme sur le
plan
intuitif. Deplus
elle seprête
à lagénéralisation
au casd’une
répartition quelconque
des abcisses.Cette méthode que nous
appellerons "régression polynômiale
mobile" ouRPM consiste,
pour l’estimation en x, àsimplement ajuster
unpolynôme
dedegré
m fixé sur les yi dont les abcisses
xi
tombent dans la fenêtre[x -
5 ,x +03B4]. L’ajus-
tement se fait au sens des moindres carrés
usuels,
avec éventuellement despondé-
rations vi. La valeur en x du
polynôme ajusté
donne l’estimateur par RPM dejHy(x). L’ajustement
est "mobile" par le fait que, la fenêtre sedéplaçant lorsque
x se
déplace,
il estréadapté
auxpoints qu’il
trouve dans la nouvelle fenêtre.Le
principe
de la méthode est bien connu pour le calcul de la tendance d’une sériechronologique,
contexte où elle estgénéralement
dénommée"lissage
parrégression polynômiale" (voir
parexemple
KENDALL etSTUART, 1966).
Ceprincipe
a étérepris
par CLEVELAND(1979) qui
y introduisit lapossibilité
depondérations
dans les moindres carrés en ne s’intéressant toutefois pas à l’allure deces
pondérations
et en mettant l’accent sur uneprocédure
itérative robuste.Les
développements qui
vont suivre conduisent à démontrer que la RPMproduit
enfait,
defaçon implicite,
les noyauxoptimaux
des sectionsprécédentes,
que x soit intérieur ou
qu’il
soit sur un bord(voir proposition 2).
Poursimplifier
les écritures nous supposerons que x =
0 ;
pour revenir au casgénéral
il suffit delire
xi -
x en lieu etplace
de xi.Reprenons
l’estimateur linéairegénéral (2.1)
dont le biais et la variance sont donnés en
(2.6)
et(2.7)
et étendons la définitionde la section 3 à cette forme
plus générale.
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n°3
58 Définition
On dit que l’estimateur linéaire
jHy(x) = (03A3wi yi)/(03A3wi),
où x estfixé,
a unbiais d’ordre m ssi on a :
Cette définition se
justifie
par le fait que le biais est alors éliminé pourl’approximation
deTaylor
audegré
m - 1 dejHy(x)
auvoisinage
de x comme on levérifie immédiatement en
partant
del’expression (2.6).
Proposition
1L’estimateur de
jn (x)
obtenu par RPM dedegré
m - 1 a un biais d’ordre mquelles
que soient lespondérations
utilisées dansl’ajustement.
Démonstration
Nous
prendrons
m =3,
lagénéralisation
étant immédiate. Soitvides poids
affectés aux
points
d’abcissesxi
et soit ao + al t + a2t2
lepolynôme
àajuster
autour de x = 0. En
posant
les coefficients ao,
a 1
et a2 sont donnés par leséquations
normales :L’estimation au
point
x est donnée paraa,
valeur dupolynôme
pour t = 0.Avec un coefficient de
proportionalité
c,indépendant
desyi,
on a :d’où nous pouvons déduire le
poids wi
affecté ày,
pour l’estimateur linéaireswi Yi/ 03A3wi
induit par la RPM dedegré
2 et depondérations vi :
Revue de Statistiques Appliquées, 1985, vol. XXXIII, n° 3
59 On voit immédiatement que les
wi
vérifientquels
que soient lesvi :
L’intérêt de cette
proposition
estqu’elle
reste valable sans aucunehypothèse
de
répartition
desxi
etqu’elle
laisse une liberté de choix despondérations vi
que l’on pourraexploiter
pour contrôler la variance. Nous nous contenterons de montrerqu’il
existe un choixpermettant
de retomber sur les noyauxoptimaux
d’ordre m
(ou
éventuellement m + 1 si m estimpair)
des secteursprécédentes.
Proposition
2Les assertions suivantes sont vraies à l’ordre
d’approximation
0(1/n).
Le noyau
optimal (au
sens des sections 3 et4)
d’ordre r est obtenu par RPMau
degré
r - 1 avecpondérations
uniformes. Le noyauoptimal
du bordgauche (respectivement droit)
continu à la borne droite(resp. gauche)
est obtenu avecpondérations
de la forme 1 - x(resp.
1 +x).
Pour unpoint
intérieur le noyauoptimal
d’ordre 2k continu aux bornes est obtenu par RPM audegré
2k - 2 avecpondérations
1 - x2 ou defaçon équivalente
par RPM audegré
2k - 1 avecpondé-
ration 1 - x
(ou
encore 1 +x).
Démonstration
Supposons
poursimplifier
que S = 1(pour
le casgénéral
on substituexil5
àxi)
etmontrons
que le choixvi
= 1 pour unpoint
dans la fenêtre etvi
= 0pour un
point
extérieur donne les noyauxoptimaux
sans contrainte de continuitéaux bornes. Nous raisonnerons dans le cas d’un
point
de bord avec la fenêtre[-
q,1],
le cas d’unpoint
intérieuréquivalant
à q = 1. Enremplaçant vi
par 1 ou 0 dans(5.19),
entransposant
ensuite le déterminant et engénéralisant
à dimension m, on voit que le noyauimplicite
de la RPM est alorsun polynôme
dedegré
mproportionnel
à :où
Comparons
cetteexpression
à(4.16)
oùPk
estl’intégrale
dexk
sur[-
q,1]
c’est-à-dire,
à une constanteprès, l’approximation
en0(1/n)
depk. Dans (4.16)
le vecteur
5’ contient
les coefficients du noyaupolynômial
dedegré
r - 1optimal
au sens défini
précédemment.
Le coefficient du terme dedegré
k est le cofacteurde l’élément de la
(k
+1)-ième
colonne sur lapremière ligne
et on constatequ’il s’agit
bien du même coefficient dans(5.21)
avec m = r - 1.Considérons à
présent vi proportionnel
à 1 -xi
dans la fenêtre et calculons le noyau ainsi obtenuimplicitement
par la RPMtoujours
pour unpoint
du bordRevue de Statistiques Appliquées, 1985, vol. XXXIII, n° 3