• Aucun résultat trouvé

R´egression non param´etrique multidimensionnelle

Dans le document Modèles additifs parcimonieux (Page 38-41)

1.3 Mod`eles additifs

1.3.1 R´egression non param´etrique multidimensionnelle

La g´en´eralisation multidimensionnelle du probl`eme (1.1) est la suivante :

Y =f(X1, . . . , Xp) +ε, (1.30)

o`u (X, Y) = (X1, . . . , Xp, Y) vecteur al´eatoire, ε variable al´eatoire ind´ependante de

X telle que E(ε) = 0, Var(ε) =σ2.

L’ajustement de Y `a une surface p–dimensionnelle par lissage peut se faire en

g´en´eralisant les noyaux par [H¨ardle et Muller, 2000] :

KΛ(x,x0) = 1

det(Λ)K Λ1(x−x0)

, (1.31)

o`u x = (x1, . . . , xp)t, x0 = (x0

1, . . . , x0

p)t, et Λ est une matrice sym´etrique, d´efinie

positive. De nombreuses possibilit´es existent pour d´efinir la fonctionK. Par exemple,

elle peut ˆetre d´efinie par le produit depnoyaux unidimensionnels,K :K(t) = K(t1)·

. . .·K(tp), ou par un seul noyau unidimensionnel : K(t) =K(ktk), o`u le choix de la

norme d´etermine la forme des voisinages. Une autre possibilit´e consiste `a g´en´eraliser

directement les fonctions noyaux unidimensionnelles (par exemple, le noyau gaussien

(1.4) p–dimensionnel).

La g´en´eralisation de l’estimateur de Nadaraya–Watson (1.5) est alors :

bfN W(x) = Pni=1yiKΛ(x,xi)

Pn

i=1KΛ(x,xi) , (1.32)

o`uxi = (xi1, . . . , xip)t.

La g´en´eralisation du probl`eme de minimisation (1.8), dans le cas particulier de la

r´egression locale lin´eaire, est :

n

X

i=1

yi−β0−(x−xi)tβ12

KΛ(x,xi), (1.33)

o`uβ1 est un vecteur de dimension p×1.

Pour les splines cubiques, une possibilit´e est de g´en´eraliser la p´enalisation de la

d´eriv´ee seconde (1.20) `a une p´enalisation “plate” [Gu, 2000] :

Z Z (2f

∂x2

1

2

+ 2

∂2f

∂x1∂x2

2

+

∂2f

∂x2

2

2)

dx1dx2, (1.34)

en dimension 2, ou

Z

. . .

Z (Xp

j=1

∂2f

∂x2

j

2

+ 2X

j>k

∂2f

∂xj∂xk

2) p

Y

j=1

dxj, (1.35)

en g´en´eral. Une autre possibilit´e est le produit tensoriel de splines, d´efinies sur des

espaces de Hilbert `a noyau auto–reproduisant, RKHS (Reproducing kernel Hilbert

Spaces)3.

1.3.1.1 Les probl`emes de la dimension ´elev´ee

Dans le cas multidimensionnel, la r´egression non param´etrique pr´esente plusieurs

probl`emes. Premi`erement, la repr´esentation graphique n’est pas possible pour plus

de deux variables explicatives, et l’interpr´etation devient difficile.

Deuxi`emement, l’approche des m´ethodes locales ´echoue en dimension ´elev´ee.

C’est le probl`eme dit du “fl´eau de la dimensionnalit´e” (curse of dimensionality)

[Bellman, 1961], qui se manifeste de fa¸cons diverses. Par exemple, supposons que

les observations des variables explicatives soient uniform´ement distribu´ees dans un

cube unitaire p–dimensionnel (p = 2, p = 10). Pour recouvrir un pourcentage des

donn´ees r = 10%, il faut un sous–cube de cˆot´e r1/p. La longueur du cˆot´e est 0.32,

pour p= 2, et 0.79, pour p= 10. Pour p´elev´e, ces voisinages ne sont plus “locaux”

(la longueur du cˆot´e est tr`es proche de l’unit´e, et donc le sous–cube est tr`es proche

du cube global). Par cons´equent, quand la dimension augmente, soit il faut prendre

des voisinages plus grands, ce qui implique des moyennages globaux et donc, des

grands biais, soit il faut r´eduire le pourcentage des donn´ees, r, ce qui implique des

moyennages sur peu d’observations et donc, des grandes variances de l’ajustement

[Hastie et al., 2001].

Troisi`emement, en dimension ´elev´ee, la plupart des ensembles de donn´ees se

trouvent sur des vari´et´es de dimension moins importantes. Si ces vari´et´es sont des

hyper–plans, on rencontre le probl`eme de colin´earit´e des variables explicatives. Si ces

vari´et´es sont r´eguli`eres, on rencontre le probl`eme plus g´en´eral de “concurvit´e”. (voir

section 1.3.4.4, page 42).

Finalement, si la surface `a estimer est m fois continˆument diff´erentiable sur un

domainep–dimensionnel born´e, alors le taux asymptotique optimal pour l’estimation

de la surface de r´egression est de l’ordre de n−2m/(2m+p). Pour obtenir un taux du

mˆeme ordre que dans le cas unidimensionnel, il faut supposer que la fonction est

m×pcontinˆument diff´erentiable : quand la dimension croˆıt, les surfaces pouvant ˆetre

estim´ees sont de plus en plus r´eguli`eres.

1.3.1.2 R´eduction de la dimension

Une solution aux probl`emes de la dimension ´elev´ee consiste `a supposer que la

fonction de r´egression poss`ede une structure d´etermin´ee. Ces techniques non

pa-3SoitHun espace de Hilbert de fonctions sur un domaineX. Si∀x∈ X, l’op´erateur d’´evaluation

ram´etriques restent des outils flexibles. Le prix `a payer est la possible sp´ecification

erron´ee du mod`ele.

Les techniques bas´ees sur des principes de “r´eduction de la dimension” sont

les mod`eles additifs, qui supposent que la fonction de r´egression est une somme

de fonctions monovari´ees en chacune des variables, les mod`eles de projections

r´ev´elatrices (projection pursuit), proches des r´eseaux de neurones de type perceptron

multicouche, et les arbres.

Projections r´ev´elatrices

L’algorithme des projections r´ev´elatrices (projection pursuit) construit

un mod`ele de r´egression additif de la forme [Friedman et Stuetzle, 1981,

Klinke et Grassmann, 2000] :

Y =PK

k=1fk(αTkX) +ε, (1.36)

o`uε est tel que E(ε) = 0, Var(ε) =σ2, et ind´ependant des variables d’entr´ee.

La matrice des donn´ees est projet´ee surK directionsαk. La surface de r´egression

est construite par l’estimation des r´egressions unidimensionnelles fk appliqu´ees aux

projections. Les directionsαket le nombre de termesKsont choisis par des m´ethodes

de s´election de mod`ele telles que la validation crois´ee g´en´eralis´ee.

L’avantage de cette technique est qu’elle permet le traitement facile des donn´ees

peu denses. Le mod`ele est ´egalement peu contraint. N´eanmoins, pour K > 1, ce

mod`ele pr´esente des difficult´es d’interpr´etation : il est difficile d’´evaluer les

contribu-tions de chaque variable. Pour K = 1, le mod`ele est connu sous le nom de mod`ele `a

indice simple (single–index model).

Les projections r´ev´elatrices sont souvent compar´ees aux perceptrons

multi-couches. Ces deux m´ethodes extraient des combinaisons lin´eaires des entr´ees, et

mod´elisent, ensuite, la variable de sortie comme une fonction non lin´eaire de

celles–ci. Cependant, les fonctions fk des projections r´ev´elatrices sont diff´erentes

et non param´etriques, alors que les r´eseaux de neurones utilisent une fonction

(d’activation) plus simple, normalement la fonction softmax (ou logistique). Dans le

cas des projections r´ev´elatrices, le nombre de “couches” est fix´e `a deux et le nombre

de fonctions K est ´egalement pr´ed´efini, ce qui n’est pas le cas pour les r´eseaux de

neurones.

Arbres

Les arbres divisent l’espace des variables explicatives en un ensemble d’hyper–

cubes. Un mod`ele simple (par exemple, une constante) est alors ajust´e sur chaque

hyper–cube :

f(x) =

K

X

k=1

αkI{xR

k

}, (1.37)

o`uK le nombre de r´egions de la partition, Rk les r´egions disjointes, αk la constante

qui mod´elise la r´eponse dans la r´egion Rk. L’algorithme d´ecide simultan´ement la

partition et les valeurs des param`etresαk.

Les arbres ont l’avantage de la simplicit´e conceptuelle et la capacit´e

d’in-terpr´etation. Leurs limitations sont l’instabilit´e et l’absence de continuit´e de la surface

de r´egression.

1.3.2 Mod`eles additifs

Les mod`eles additifs supposent que la fonction de r´egression peut s’´ecrire

comme une somme de fonctions des variables explicatives [Stone, 1985,

Hastie et Tibshirani, 1986] :

Y =α0+

p

X

j=1

fj(Xj) +ε, (1.38)

o`u ε est ind´ependant de X = (X1, . . . , Xp), E(ε) = 0 et Var(ε) = σ2; α0 est

une constante, fj, j = 1, . . . , p sont des fonctions unidimensionnelles telles que

EX

j

[fj] = 0 (pour qu’il y ait unicit´e). Cette condition d’identifiabilit´e implique que

EX[Y] =α0 [Hastie et Tibshirani, 1990].

G´en´eralisation du mod`ele lin´eaire

Les mod`eles additifs peuvent ˆetre introduits comme une g´en´eralisation du mod`ele

de r´egression lin´eaire multiple. Celui-ci est l’outil de base pour mod´eliser la relation

entre la variable r´eponse continue et les variables explicatives :

Y =α0+X1α1+. . .+Xpαp+ε, (1.39)

o`uε est ind´ependant de X, E(ε) = 0, Var(ε) =σ2.

La supposition de d´ependance lin´eaire de EX[Y] en chacune des variables

explicatives est une hypoth`ese forte. Quand cette hypoth`ese n’est pas v´erifi´ee, une

fa¸con d’´etendre le mod`ele lin´eaire est le mod`ele additif. La forme non–param´etrique

des fj accorde plus de flexibilit´e au mod`ele, alors que la structure additive pr´eserve

la possibilit´e de repr´esenter l’effet de chaque variable. Le mod`ele ajust´e peut ˆetre

repr´esent´e par p fonctions unidimensionnelles d´ecrivant les rˆoles des variables

expli-catives dans la mod´elisation de la r´eponse, ce qui facilite l’interpr´etation. Cependant,

la simplicit´e du mod`ele lin´eaire est perdue. Un nouveau probl`eme apparaˆıt : la

s´election des param`etres de lissage, repr´esentant la complexit´e de chaque composante

du mod`ele.

1.3.3 Propri´et´es du mod`ele

Dans le document Modèles additifs parcimonieux (Page 38-41)