• Aucun résultat trouvé

3.3 Généralisation de la notion de splines : la régression régularisée dans

3.3.3 Régularisation et RKHS

3.3.3.2 Modèle général des splines de lissage

Le modèle classique des splines de lissage est le suivant :

yi =f(ti) +εi , i= 1, . . . , n, (3.35)

oùt∈ X = [a, b],f ∈Wm[a, b]oùWm[a, b]est l’espace de Sobolev d’ordrem, et les

εi sont des erreurs aléatoires indépendantes de moyenne 0 et de variance constante

σ2. Nous avons montré à la section 3.2.2.2 que le problème classique des splines de

lissage correspondait à la minimisation du critère suivant :

min

f∈Wm[a,b]

n

X

i=1

(yi−f(ti))2

Z b

a

(f(m)(t))2dt. (3.36)

On s’intéresse ici au problème général des splines de lissage (appelé "general spline

smoothing problem" dans Wahba [173]) dont le modèle associé est

yi =Lif +εi , i= 1, . . . , n, (3.37)

où les εi sont définies comme dans le modèle classique (3.35) mais où X est un

ensemble quelconque, f ∈ HR un RKHS surX de noyau R(s, t), et les Li sont des

formes linéaires bornées surHR(par exemple,Lif =f0(ti) ouLif =R wi(u)f(u)du

où leswisont des fonctions connues). Le modèle classique (3.35) est un cas particulier

1. Une fonctionJ:H →R, oùHest un espace de Hilbert, est coercive si lim

de Hilbert à noyau reproduisant

de ce modèle où lesLi sont les fonctionnelles d’évaluation aux points d’observation

définies par Lif = f(ti). HR est supposé admettre une décomposition en somme

directe

HR=H0MH1,

où H0 est un espace de dimension finie p ≤ n. Le problème général des splines de

lissage revient alors à trouverf ∈ HRqui minimise

1

n

n

X

i=1

(yi− Lif)2+λkP1fk2H

R, (3.38)

où P1 est la projection orthogonale sur H1. Le paramètre de lissage λ contrôle le

compromis entre la qualité de l’ajustement mesuré par le 1erterme, et l’éloignement

par rapport à l’espaceH0mesuré parkP1fk2

HR. L’espaceH0 est généralement appelé

espace nul et est constitué de fonctions qui ne sont pas pénalisées puisquekP1fk2

HR =

0quandf ∈ H0. Ainsi, toute fonctionf ∈ HRpeut s’écrire sous la formef =f0+f1

où f0 ∈ H0 et f1 ∈ H1, la composante f0 représentant un modèle de régression

linéaire dansH0, et la composante f1 représentant les variations non expliquées par

f0. Notons également que d’après la propriété énoncée au théorème3.3, on montre que

H0 etH1sont également des RKHS de noyaux respectifsR0 etR1avecR=R0+R1.

Comme les Li sont des formes linéaires bornées, alors par le théorème de Riesz

il existe un représentantηi ∈ HR tel queLif =hηi, fiHR. D’après les propriétés du

noyau reproduisant, on a :

∀s∈ X, ηi(s) =hηi, Rsi=LiRs=Li(t)R(s, t),

où Li(t) signifie que Li est appliqué à ce qui suit et qui est considéré comme une

fonction de t. Par exemple, si Lif =f(ti), alors ηi(s) = R(s, ti), et siLif =f0(ti),

alorsηi(s) = ∂tR(s, t)|t=ti. Le critère (3.38) que l’on cherche à minimiser peut alors

s’écrire sous la forme :

1

n

n

X

i=1

(yi− hηi, fi)2+λkP1fk2

HR. (3.39)

La variante donnée ci-dessous du théorème du représentant (théorème 3.4) donne

une solution explicite au problème de minimisation dansHR du critère (3.39).

Théorème 3.5 (Kimeldorf et Wahba, 1971). Soit φ1, . . . , φp une base de l’espace

nulH0 et soit T une matrice n×p de plein rang définie par :

T ={Liφν}n

i=1

p

ν=1.

Alors le critère (3.39) a un unique minimum donné par

b

fλ(t) =

p

X

ν=1

dνφν(t) +

n

X

i=1

ciξi(t), (3.40)

ξi = P1ηi,

Σ = {hξi, ξji}ni,j=1,

M = Σ +nλI, (3.41)

d= (d1, . . . , dp)T = (TTM1T)1TTM1y,

c= (c1, . . . , cn)T = M1{I−T(TTM1T)1TTM1}y.

Démonstration. De la même manière que dans la preuve du théorème 3.4du

repré-sentant, on peut affirmer l’existence d’un unique élément ρ ∈ HR orthogonal aux

{φν, ν = 1, . . . , p} et aux {ξi, i= 1, . . . , n} tel que l’estimateur fbλ s’écrive sous la

forme

b

fλ(t) =

p

X

ν=1

dνφν(t) +

n

X

i=1

ciξi(t) +ρ.

En utilisant la décomposition de tout élément g ∈ HR de la forme g = P0g+P1g

par somme directe, et en utilisant le caractère auto-adjoint deP0, on obtient :

∀i= 1, . . . , n, hρ, ηii = hρ, P0ηii+hρ, P1ηii

= hP0ρ

|{z}

0

, ηii+hρ, ξii

| {z }

0

= 0.

Ainsi, le critère (3.39) à minimiser peut s’écrire sous la forme matricielle suivante :

1

nkyT dΣck

2+λ(cTΣc+kρk2).

Il est alors clair que ce critère est minimal quand ρ = 0, ce qui démontre la forme

(3.40) de l’estimateur.

L’unicité de la solution découle du fait que la fonctionnelle L(f) =Pn

i=1(yi− Lif)2

est strictement convexe surH0 si la matrice T est de plein rang, et donc également

strictement convexe surHR. On en déduit alors que si la matrice T est de plein rang,

L(f) +λkP1fk2

HR est strictement convexe sur HR, ce qui implique l’unicité de la

solution (voir Théorème 2.9 dans Gu [72]).

Il reste alors à estimer les coefficients c = (c1, . . . , cn)T et d = (d1, . . . , dp)T qui

minimisent le critère

1

nkyT dΣck

2+λcTΣc.

En dérivant par rapport àcpuis par rapport àd, on obtient les équations suivantes :

(Σ +nλI)Σc+ ΣT d = Σy, (3.42)

de Hilbert à noyau reproduisant

On montre alors facilement que les équations (3.42) et (3.43) sont équivalentes aux

équations suivantes :

M c+T d = y, (3.44)

TTc = 0. (3.45)

On en déduit alors que

d = (TTM1T)1TTM1y, (3.46)

c = M1{I−T(TTM1T)1TTM1}y. (3.47)

Ce théorème montre que l’estimateur par splines de lissage fbappartient à un

espace de dimension finie et s’exprime comme une combinaison linéaire de la base de

H0 et des représentants de H1. Notons que l’estimateur fbλ dépend du paramètre λ

même si cette dépendance n’est pas explicite. Généralement, les équations (3.46) et

(3.47) ne sont pas appropriées au calcul numérique et on utilise plutôt les équations

(3.44) et (3.45) pour le calcul des coefficients c et d. En effet, ces équations sont

équivalentes à

M T

TT 0

c

d

=

y

0

, (3.48)

qui est un système linéaire den+péquations de la formeAx=bavecAsymétrique

et de plein rang. Il est alors possible d’utiliser des algorithmes de calcul efficaces tels

que l’algorithme de Cholesky (Gu [72], Wahba [173]).

Il est également possible de calculer c etd en utilisant la décompositionQR de

T :

T = Q1 Q2

R

0

,

où Q1,Q2 et R sont respectivement des matrices n×p,n×(n−p) et p×p, Q=

(Q1 Q2) est une matrice orthogonale, et R est une matrice triangulaire supérieure,

avecTTQ2= 0p×(np). On peut alors montrer que les coefficientscetdvérifient les

équations suivantes :

c = Q2(QT2M Q2)1QT2y, (3.49)

Rd = QT1(y−M c). (3.50)

Nous renvoyons le lecteur à Wahba [173] et Wang [182] pour plus de détails sur

l’obtention de ces équations.

Remarque 3.5. On a ξi = P1ηi la projection de ηi sur H1. Comme R(s, t) =

R0(s, t) +R1(s, t)où R0 etR1 sont les noyaux respectifs deH0 etH1, et commeP1

est auto-adjoint, on a :

Cette équation montre que le représentant ξi peut être obtenu en appliquant

l’opé-rateur au noyau R1. De plus, on a :

hξi, ξji=Li(s)ξj(s) =Li(s)Lj(t)R1(s, t).

On en déduit donc que :

Σ ={Li(s)Lj(t)R1(s, t)}n

i,j=1.

Notons que dans le cas particulier où les Li sont les fonctionnelles d’évaluation aux

points d’observation définies par Lif = f(ti) (correspondant au modèle classique

(3.35)), on a :

ξi(t) =R1(t, ti) et Σ ={R1(ti, tj)}ni,j=1.

Ainsi, le vecteur des valeurs estimées peut s’écrire sous la forme :

(L1f , . . . ,b Lnfb)T =T d+ Σc. (3.51)

De plus, en utilisant les équations (3.44) et (3.49), on en déduit que

(L1f , . . . ,b Lnfb)T =T d+ Σc=y−nλc=A(λ)y, (3.52)

A(λ) =I −nλQ2(QT2M Q2)1QT2 (3.53)

est la matrice chapeau. Notons que l’expression (3.52) permet de faciliter le calcul

numérique des valeurs estimées(L1f , . . . ,b Lnfb) mais que cette expression ne permet

pas de calculer la valeur de l’estimateur en tout pointtcontrairement à l’expression

(3.40).

Finalement, la résolution du problème général des splines de lissage nécessite de

suivre les étapes suivantes :

i) choisir un RKHSHcomme espace du modèle pour f;

ii) choisir une décomposition de l’espace en deux sous-espaces H =H0LH1

H0 est un ensemble de fonctions non pénalisées ;

iii) choisir une pénalité kP1fk2.

Différents choix peuvent être effectués concernant l’espace du modèle, sa

décompo-sition et la pénalité, ce qui rend la méthode des splines de lissage très flexible. En

effet, ce modèle est à la base de nombreux types de splines : les splines polynomiales

ouDm splines (détaillées à la section suivante), les splines périodiques, les splines de

type plaque mince ("thin plate spline")... D’autres exemples de splines sont donnés

dans Wahba [173], Berlinet et Thomas-Agnan [15], Gu [72] et Wang [182]).

de Hilbert à noyau reproduisant