R´egression non param´etrique multidimensionnelle

1.3 Mod`eles additifs

1.3.1 R´egression non param´etrique multidimensionnelle

La généralisation multidimensionnelle du problème (1.1) est la suivante :

Y =f(X1, . . . , Xp) +ε, (1.30)

où (X, Y) = (X1, . . . , Xp, Y) vecteur aléatoire, ε variable aléatoire indépendante de

X telle que E(ε) = 0, Var(ε) =σ2.

L’ajustement de Y `a une surface p–dimensionnelle par lissage peut se faire en

généralisant les noyaux par [Härdle et Muller, 2000] :

KΛ(x,x⁰) = ¹

det(Λ)K Λ⁻¹(x−x⁰)

, (1.31)

o`u x = (x1, . . . , xp)t, x0 = (x0

1, . . . , x0

p)t, et Λ est une matrice sym´etrique, d´efinie

positive. De nombreuses possibilit´es existent pour d´efinir la fonctionK. Par exemple,

elle peut ˆetre d´efinie par le produit depnoyaux unidimensionnels,K :K(t) = K(t1)·

. . .·K(tp), ou par un seul noyau unidimensionnel : K(t) =K(ktk), o`u le choix de la

norme détermine la forme des voisinages. Une autre possibilité consiste à généraliser

directement les fonctions noyaux unidimensionnelles (par exemple, le noyau gaussien

(1.4) p–dimensionnel).

La g´en´eralisation de l’estimateur de Nadaraya–Watson (1.5) est alors :

b_f_{N W}₍_x_{) =} ^Pⁿi=1y_iKΛ(x,xi)

Pn

i=1KΛ(x,xi) ^, ^(1.32)

o`uxi = (xi1, . . . , xip)t.

La généralisation du problème de minimisation (1.8), dans le cas particulier de la

r´egression locale lin´eaire, est :

n

X

i=1

yi−β0−(x−xⁱ)^tβ₁2

KΛ(x,xⁱ), (1.33)

o`uβ₁ est un vecteur de dimension p×1.

Pour les splines cubiques, une possibilité est de généraliser la pénalisation de la

dérivée seconde (1.20) à une pénalisation “plate” [Gu, 2000] :

Z Z (_∂2f

∂x2

1

2 + 2

∂2f

∂x1∂x2

2 +

∂2f

∂x2

2 2)

dx1dx2, (1.34)

en dimension 2, ou

Z

. . .

Z (Xp

j=1

∂2f

∂x2

j

2 + 2X

j>k

∂2f

∂xj∂xk

2) _p

Y

j=1

dxj, (1.35)

en général. Une autre possibilité est le produit tensoriel de splines, définies sur des

espaces de Hilbert `a noyau auto–reproduisant, RKHS (Reproducing kernel Hilbert

Spaces)3.

1.3.1.1 Les problèmes de la dimension élevée

Dans le cas multidimensionnel, la régression non paramétrique présente plusieurs

problèmes. Premièrement, la représentation graphique n’est pas possible pour plus

de deux variables explicatives, et l’interpr´etation devient difficile.

Deuxièmement, l’approche des méthodes locales échoue en dimension élevée.

C’est le problème dit du “fléau de la dimensionnalité” (curse of dimensionality)

[Bellman, 1961], qui se manifeste de fa¸cons diverses. Par exemple, supposons que

les observations des variables explicatives soient uniform´ement distribu´ees dans un

cube unitaire p–dimensionnel (p = 2, p = 10). Pour recouvrir un pourcentage des

données r = 10%, il faut un sous–cube de côté r1/p. La longueur du côté est 0.32,

pour p= 2, et 0.79, pour p= 10. Pour p´elev´e, ces voisinages ne sont plus “locaux”

(la longueur du côté est très proche de l’unité, et donc le sous–cube est très proche

du cube global). Par cons´equent, quand la dimension augmente, soit il faut prendre

des voisinages plus grands, ce qui implique des moyennages globaux et donc, des

grands biais, soit il faut r´eduire le pourcentage des donn´ees, r, ce qui implique des

moyennages sur peu d’observations et donc, des grandes variances de l’ajustement

[Hastie et al., 2001].

Troisièmement, en dimension élevée, la plupart des ensembles de données se

trouvent sur des variétés de dimension moins importantes. Si ces variétés sont des

hyper–plans, on rencontre le problème de colinéarité des variables explicatives. Si ces

variétés sont régulières, on rencontre le problème plus général de “concurvité”. (voir

section 1.3.4.4, page 42).

Finalement, si la surface à estimer est m fois continûment différentiable sur un

domainep–dimensionnel born´e, alors le taux asymptotique optimal pour l’estimation

de la surface de r´egression est de l’ordre de n−2m/(2m+p). Pour obtenir un taux du

mˆeme ordre que dans le cas unidimensionnel, il faut supposer que la fonction est

m×pcontinûment différentiable : quand la dimension croˆıt, les surfaces pouvant être

estimées sont de plus en plus régulières.

1.3.1.2 R´eduction de la dimension

Une solution aux problèmes de la dimension élevée consiste à supposer que la

fonction de régression possède une structure déterminée. Ces techniques non

pa-3SoitHun espace de Hilbert de fonctions sur un domaineX. Si∀x∈ X, l’op´erateur d’´evaluation

ramétriques restent des outils flexibles. Le prix à payer est la possible spécification

erron´ee du mod`ele.

Les techniques bas´ees sur des principes de “r´eduction de la dimension” sont

les mod`eles additifs, qui supposent que la fonction de r´egression est une somme

de fonctions monovari´ees en chacune des variables, les mod`eles de projections

révélatrices (projection pursuit), proches des réseaux de neurones de type perceptron

multicouche, et les arbres.

Projections r´ev´elatrices

L’algorithme des projections r´ev´elatrices (projection pursuit) construit

un mod`ele de r´egression additif de la forme [Friedman et Stuetzle, 1981,

Klinke et Grassmann, 2000] :

Y =PK

k=1fk(α^T_kX) +ε, (1.36)

oùε est tel que E(ε) = 0, Var(ε) =σ2, et indépendant des variables d’entrée.

La matrice des données est projetée surK directionsα_k. La surface de régression

est construite par l’estimation des r´egressions unidimensionnelles fk appliqu´ees aux

projections. Les directionsα_ket le nombre de termesKsont choisis par des m´ethodes

de sélection de modèle telles que la validation croisée généralisée.

L’avantage de cette technique est qu’elle permet le traitement facile des donn´ees

peu denses. Le modèle est également peu contraint. Néanmoins, pour K > 1, ce

modèle présente des difficultés d’interprétation : il est difficile d’évaluer les

contribu-tions de chaque variable. Pour K = 1, le modèle est connu sous le nom de modèle à

indice simple (single–index model).

Les projections révélatrices sont souvent comparées aux perceptrons

multi-couches. Ces deux méthodes extraient des combinaisons linéaires des entrées, et

mod´elisent, ensuite, la variable de sortie comme une fonction non lin´eaire de

celles–ci. Cependant, les fonctions f_k des projections révélatrices sont différentes

et non param´etriques, alors que les r´eseaux de neurones utilisent une fonction

(d’activation) plus simple, normalement la fonction softmax (ou logistique). Dans le

cas des projections révélatrices, le nombre de “couches” est fixé à deux et le nombre

de fonctions K est également prédéfini, ce qui n’est pas le cas pour les réseaux de

neurones.

Arbres

Les arbres divisent l’espace des variables explicatives en un ensemble d’hyper–

cubes. Un mod`ele simple (par exemple, une constante) est alors ajust´e sur chaque

hyper–cube :

f(x) =

K

X

k=1

α_kI_{_x_∈_R

_}, (1.37)

oùK le nombre de régions de la partition, Rk les régions disjointes, αk la constante

qui modélise la réponse dans la région R_k. L’algorithme décide simultanément la

partition et les valeurs des param`etresαk.

Les arbres ont l’avantage de la simplicit´e conceptuelle et la capacit´e

d’in-terprétation. Leurs limitations sont l’instabilité et l’absence de continuité de la surface

de r´egression.

1.3.2 Mod`eles additifs

Les modèles additifs supposent que la fonction de régression peut s’écrire

comme une somme de fonctions des variables explicatives [Stone, 1985,

Hastie et Tibshirani, 1986] :

Y =α0+

p

X

j=1

fj(Xj) +ε, (1.38)

o`u ε est ind´ependant de X = (X₁, . . . , X_p), E(ε) = 0 et Var(ε) = σ2; α₀ est

une constante, fj, j = 1, . . . , p sont des fonctions unidimensionnelles telles que

E_X

[fj] = 0 (pour qu’il y ait unicit´e). Cette condition d’identifiabilit´e implique que

EX[Y] =α0 [Hastie et Tibshirani, 1990].

Généralisation du modèle linéaire

Les modèles additifs peuvent être introduits comme une généralisation du modèle

de régression linéaire multiple. Celui-ci est l’outil de base pour modéliser la relation

entre la variable r´eponse continue et les variables explicatives :

Y =α0+X1α1+. . .+Xpαp+ε, (1.39)

o`uε est ind´ependant de X, E(ε) = 0, Var(ε) =σ2.

La supposition de d´ependance lin´eaire de E_X[Y] en chacune des variables

explicatives est une hypothèse forte. Quand cette hypothèse n’est pas vérifiée, une

fa¸con d’étendre le modèle linéaire est le modèle additif. La forme non–paramétrique

des f_j accorde plus de flexibilité au modèle, alors que la structure additive préserve

la possibilité de représenter l’effet de chaque variable. Le modèle ajusté peut être

représenté par p fonctions unidimensionnelles décrivant les rôles des variables

expli-catives dans la modélisation de la réponse, ce qui facilite l’interprétation. Cependant,

la simplicité du modèle linéaire est perdue. Un nouveau problème apparaˆıt : la

sélection des paramètres de lissage, représentant la complexité de chaque composante

du mod`ele.

1.3.3 Propriétés du modèle

Dans le document Modèles additifs parcimonieux (Page 38-41)

R´egression non param´etrique multidimensionnelle

1.3 Mod`eles additifs

1.3.1 R´egression non param´etrique multidimensionnelle

La généralisation multidimensionnelle du problème (1.1) est la suivante :

Y =f(X1, . . . , Xp) +ε, (1.30)

où (X, Y) = (X1, . . . , Xp, Y) vecteur aléatoire, ε variable aléatoire indépendante de

X telle que E(ε) = 0, Var(ε) =σ2.

L’ajustement de Y `a une surface p–dimensionnelle par lissage peut se faire en

généralisant les noyaux par [Härdle et Muller, 2000] :

KΛ(x,x0) = 1

det(Λ)K Λ−1(x−x0)

, (1.31)

o`u x = (x1, . . . , xp)t, x0 = (x0

1, . . . , x0

p)t, et Λ est une matrice sym´etrique, d´efinie

positive. De nombreuses possibilit´es existent pour d´efinir la fonctionK. Par exemple,

elle peut ˆetre d´efinie par le produit depnoyaux unidimensionnels,K :K(t) = K(t1)·

. . .·K(tp), ou par un seul noyau unidimensionnel : K(t) =K(ktk), o`u le choix de la

norme détermine la forme des voisinages. Une autre possibilité consiste à généraliser

directement les fonctions noyaux unidimensionnelles (par exemple, le noyau gaussien

(1.4) p–dimensionnel).

La g´en´eralisation de l’estimateur de Nadaraya–Watson (1.5) est alors :

bfN W(x) = Pni=1yiKΛ(x,xi)

Pn

i=1KΛ(x,xi) , (1.32)

o`uxi = (xi1, . . . , xip)t.

La généralisation du problème de minimisation (1.8), dans le cas particulier de la

r´egression locale lin´eaire, est :

n

X

i=1

yi−β0−(x−xi)tβ12

KΛ(x,xi), (1.33)

o`uβ1 est un vecteur de dimension p×1.

Pour les splines cubiques, une possibilité est de généraliser la pénalisation de la

dérivée seconde (1.20) à une pénalisation “plate” [Gu, 2000] :

Z Z (∂2f

∂x2

1

2

+ 2

∂2f

∂x1∂x2

2

+

∂2f

∂x2

2

2)

dx1dx2, (1.34)

en dimension 2, ou

Z

. . .

Z (Xp

j=1

∂2f

∂x2

j

2

+ 2X

j>k

∂2f

∂xj∂xk

2) p

Y

j=1

dxj, (1.35)

en général. Une autre possibilité est le produit tensoriel de splines, définies sur des

espaces de Hilbert `a noyau auto–reproduisant, RKHS (Reproducing kernel Hilbert

Spaces)3.

1.3.1.1 Les problèmes de la dimension élevée

Dans le cas multidimensionnel, la régression non paramétrique présente plusieurs

problèmes. Premièrement, la représentation graphique n’est pas possible pour plus

de deux variables explicatives, et l’interpr´etation devient difficile.

Deuxièmement, l’approche des méthodes locales échoue en dimension élevée.

C’est le problème dit du “fléau de la dimensionnalité” (curse of dimensionality)

[Bellman, 1961], qui se manifeste de fa¸cons diverses. Par exemple, supposons que

les observations des variables explicatives soient uniform´ement distribu´ees dans un

cube unitaire p–dimensionnel (p = 2, p = 10). Pour recouvrir un pourcentage des

données r = 10%, il faut un sous–cube de côté r1/p. La longueur du côté est 0.32,

KΛ(x,x⁰) = ¹

det(Λ)K Λ⁻¹(x−x⁰)

b_f_{N W}₍_x_{) =} ^Pⁿi=1y_iKΛ(x,xi)

i=1KΛ(x,xi) ^, ^(1.32)

yi−β0−(x−xⁱ)^tβ₁2

KΛ(x,xⁱ), (1.33)

o`uβ₁ est un vecteur de dimension p×1.

Z Z (_∂2f

2) _p

k=1fk(α^T_kX) +ε, (1.36)

La matrice des données est projetée surK directionsα_k. La surface de régression

projections. Les directionsα_ket le nombre de termesKsont choisis par des m´ethodes

celles–ci. Cependant, les fonctions f_k des projections révélatrices sont différentes

α_kI_{_x_∈_R

_}, (1.37)

qui modélise la réponse dans la région R_k. L’algorithme décide simultanément la