1.3 Mod`eles additifs
1.3.1 R´egression non param´etrique multidimensionnelle
La g´en´eralisation multidimensionnelle du probl`eme (1.1) est la suivante :
Y =f(X1, . . . , Xp) +ε, (1.30)
o`u (X, Y) = (X1, . . . , Xp, Y) vecteur al´eatoire, ε variable al´eatoire ind´ependante de
X telle que E(ε) = 0, Var(ε) =σ2.
L’ajustement de Y `a une surface p–dimensionnelle par lissage peut se faire en
g´en´eralisant les noyaux par [H¨ardle et Muller, 2000] :
KΛ(x,x0) = 1
det(Λ)K Λ−1(x−x0)
, (1.31)
o`u x = (x1, . . . , xp)t, x0 = (x0
1, . . . , x0
p)t, et Λ est une matrice sym´etrique, d´efinie
positive. De nombreuses possibilit´es existent pour d´efinir la fonctionK. Par exemple,
elle peut ˆetre d´efinie par le produit depnoyaux unidimensionnels,K :K(t) = K(t1)·
. . .·K(tp), ou par un seul noyau unidimensionnel : K(t) =K(ktk), o`u le choix de la
norme d´etermine la forme des voisinages. Une autre possibilit´e consiste `a g´en´eraliser
directement les fonctions noyaux unidimensionnelles (par exemple, le noyau gaussien
(1.4) p–dimensionnel).
La g´en´eralisation de l’estimateur de Nadaraya–Watson (1.5) est alors :
bfN W(x) = Pni=1yiKΛ(x,xi)
Pn
i=1KΛ(x,xi) , (1.32)
o`uxi = (xi1, . . . , xip)t.
La g´en´eralisation du probl`eme de minimisation (1.8), dans le cas particulier de la
r´egression locale lin´eaire, est :
n
X
i=1
yi−β0−(x−xi)tβ12
KΛ(x,xi), (1.33)
o`uβ1 est un vecteur de dimension p×1.
Pour les splines cubiques, une possibilit´e est de g´en´eraliser la p´enalisation de la
d´eriv´ee seconde (1.20) `a une p´enalisation “plate” [Gu, 2000] :
Z Z (∂2f
∂x2
1
2
+ 2
∂2f
∂x1∂x2
2
+
∂2f
∂x2
2
2)
dx1dx2, (1.34)
en dimension 2, ou
Z
. . .
Z (Xp
j=1
∂2f
∂x2
j
2
+ 2X
j>k
∂2f
∂xj∂xk
2) p
Y
j=1
dxj, (1.35)
en g´en´eral. Une autre possibilit´e est le produit tensoriel de splines, d´efinies sur des
espaces de Hilbert `a noyau auto–reproduisant, RKHS (Reproducing kernel Hilbert
Spaces)3.
1.3.1.1 Les probl`emes de la dimension ´elev´ee
Dans le cas multidimensionnel, la r´egression non param´etrique pr´esente plusieurs
probl`emes. Premi`erement, la repr´esentation graphique n’est pas possible pour plus
de deux variables explicatives, et l’interpr´etation devient difficile.
Deuxi`emement, l’approche des m´ethodes locales ´echoue en dimension ´elev´ee.
C’est le probl`eme dit du “fl´eau de la dimensionnalit´e” (curse of dimensionality)
[Bellman, 1961], qui se manifeste de fa¸cons diverses. Par exemple, supposons que
les observations des variables explicatives soient uniform´ement distribu´ees dans un
cube unitaire p–dimensionnel (p = 2, p = 10). Pour recouvrir un pourcentage des
donn´ees r = 10%, il faut un sous–cube de cˆot´e r1/p. La longueur du cˆot´e est 0.32,
pour p= 2, et 0.79, pour p= 10. Pour p´elev´e, ces voisinages ne sont plus “locaux”
(la longueur du cˆot´e est tr`es proche de l’unit´e, et donc le sous–cube est tr`es proche
du cube global). Par cons´equent, quand la dimension augmente, soit il faut prendre
des voisinages plus grands, ce qui implique des moyennages globaux et donc, des
grands biais, soit il faut r´eduire le pourcentage des donn´ees, r, ce qui implique des
moyennages sur peu d’observations et donc, des grandes variances de l’ajustement
[Hastie et al., 2001].
Troisi`emement, en dimension ´elev´ee, la plupart des ensembles de donn´ees se
trouvent sur des vari´et´es de dimension moins importantes. Si ces vari´et´es sont des
hyper–plans, on rencontre le probl`eme de colin´earit´e des variables explicatives. Si ces
vari´et´es sont r´eguli`eres, on rencontre le probl`eme plus g´en´eral de “concurvit´e”. (voir
section 1.3.4.4, page 42).
Finalement, si la surface `a estimer est m fois continˆument diff´erentiable sur un
domainep–dimensionnel born´e, alors le taux asymptotique optimal pour l’estimation
de la surface de r´egression est de l’ordre de n−2m/(2m+p). Pour obtenir un taux du
mˆeme ordre que dans le cas unidimensionnel, il faut supposer que la fonction est
m×pcontinˆument diff´erentiable : quand la dimension croˆıt, les surfaces pouvant ˆetre
estim´ees sont de plus en plus r´eguli`eres.
1.3.1.2 R´eduction de la dimension
Une solution aux probl`emes de la dimension ´elev´ee consiste `a supposer que la
fonction de r´egression poss`ede une structure d´etermin´ee. Ces techniques non
pa-3SoitHun espace de Hilbert de fonctions sur un domaineX. Si∀x∈ X, l’op´erateur d’´evaluation
ram´etriques restent des outils flexibles. Le prix `a payer est la possible sp´ecification
erron´ee du mod`ele.
Les techniques bas´ees sur des principes de “r´eduction de la dimension” sont
les mod`eles additifs, qui supposent que la fonction de r´egression est une somme
de fonctions monovari´ees en chacune des variables, les mod`eles de projections
r´ev´elatrices (projection pursuit), proches des r´eseaux de neurones de type perceptron
multicouche, et les arbres.
Projections r´ev´elatrices
L’algorithme des projections r´ev´elatrices (projection pursuit) construit
un mod`ele de r´egression additif de la forme [Friedman et Stuetzle, 1981,
Klinke et Grassmann, 2000] :
Y =PK
k=1fk(αTkX) +ε, (1.36)
o`uε est tel que E(ε) = 0, Var(ε) =σ2, et ind´ependant des variables d’entr´ee.
La matrice des donn´ees est projet´ee surK directionsαk. La surface de r´egression
est construite par l’estimation des r´egressions unidimensionnelles fk appliqu´ees aux
projections. Les directionsαket le nombre de termesKsont choisis par des m´ethodes
de s´election de mod`ele telles que la validation crois´ee g´en´eralis´ee.
L’avantage de cette technique est qu’elle permet le traitement facile des donn´ees
peu denses. Le mod`ele est ´egalement peu contraint. N´eanmoins, pour K > 1, ce
mod`ele pr´esente des difficult´es d’interpr´etation : il est difficile d’´evaluer les
contribu-tions de chaque variable. Pour K = 1, le mod`ele est connu sous le nom de mod`ele `a
indice simple (single–index model).
Les projections r´ev´elatrices sont souvent compar´ees aux perceptrons
multi-couches. Ces deux m´ethodes extraient des combinaisons lin´eaires des entr´ees, et
mod´elisent, ensuite, la variable de sortie comme une fonction non lin´eaire de
celles–ci. Cependant, les fonctions fk des projections r´ev´elatrices sont diff´erentes
et non param´etriques, alors que les r´eseaux de neurones utilisent une fonction
(d’activation) plus simple, normalement la fonction softmax (ou logistique). Dans le
cas des projections r´ev´elatrices, le nombre de “couches” est fix´e `a deux et le nombre
de fonctions K est ´egalement pr´ed´efini, ce qui n’est pas le cas pour les r´eseaux de
neurones.
Arbres
Les arbres divisent l’espace des variables explicatives en un ensemble d’hyper–
cubes. Un mod`ele simple (par exemple, une constante) est alors ajust´e sur chaque
hyper–cube :
f(x) =
K
X
k=1
αkI{x∈R
k}, (1.37)
o`uK le nombre de r´egions de la partition, Rk les r´egions disjointes, αk la constante
qui mod´elise la r´eponse dans la r´egion Rk. L’algorithme d´ecide simultan´ement la
partition et les valeurs des param`etresαk.
Les arbres ont l’avantage de la simplicit´e conceptuelle et la capacit´e
d’in-terpr´etation. Leurs limitations sont l’instabilit´e et l’absence de continuit´e de la surface
de r´egression.
1.3.2 Mod`eles additifs
Les mod`eles additifs supposent que la fonction de r´egression peut s’´ecrire
comme une somme de fonctions des variables explicatives [Stone, 1985,
Hastie et Tibshirani, 1986] :
Y =α0+
p
X
j=1
fj(Xj) +ε, (1.38)
o`u ε est ind´ependant de X = (X1, . . . , Xp), E(ε) = 0 et Var(ε) = σ2; α0 est
une constante, fj, j = 1, . . . , p sont des fonctions unidimensionnelles telles que
EX
j[fj] = 0 (pour qu’il y ait unicit´e). Cette condition d’identifiabilit´e implique que
EX[Y] =α0 [Hastie et Tibshirani, 1990].
G´en´eralisation du mod`ele lin´eaire
Les mod`eles additifs peuvent ˆetre introduits comme une g´en´eralisation du mod`ele
de r´egression lin´eaire multiple. Celui-ci est l’outil de base pour mod´eliser la relation
entre la variable r´eponse continue et les variables explicatives :
Y =α0+X1α1+. . .+Xpαp+ε, (1.39)
o`uε est ind´ependant de X, E(ε) = 0, Var(ε) =σ2.
La supposition de d´ependance lin´eaire de EX[Y] en chacune des variables
explicatives est une hypoth`ese forte. Quand cette hypoth`ese n’est pas v´erifi´ee, une
fa¸con d’´etendre le mod`ele lin´eaire est le mod`ele additif. La forme non–param´etrique
des fj accorde plus de flexibilit´e au mod`ele, alors que la structure additive pr´eserve
la possibilit´e de repr´esenter l’effet de chaque variable. Le mod`ele ajust´e peut ˆetre
repr´esent´e par p fonctions unidimensionnelles d´ecrivant les rˆoles des variables
expli-catives dans la mod´elisation de la r´eponse, ce qui facilite l’interpr´etation. Cependant,
la simplicit´e du mod`ele lin´eaire est perdue. Un nouveau probl`eme apparaˆıt : la
s´election des param`etres de lissage, repr´esentant la complexit´e de chaque composante
du mod`ele.
1.3.3 Propri´et´es du mod`ele
Dans le document
Modèles additifs parcimonieux
(Page 38-41)