• Aucun résultat trouvé

3.3 Généralisation de la notion de splines : la régression régularisée dans

3.3.3 Régularisation et RKHS

3.3.3.2 Modèle général des splines de lissage

Le modèle classique des splines de lissage est le suivant :

yi = f (ti) + εi , i = 1, . . . , n, (3.35) où t ∈ X = [a, b], f ∈ Wm[a, b] où Wm[a, b] est l’espace de Sobolev d’ordre m, et les εi sont des erreurs aléatoires indépendantes de moyenne 0 et de variance constante σ2. Nous avons montré à la section 3.2.2.2 que le problème classique des splines de lissage correspondait à la minimisation du critère suivant :

min f ∈Wm[a,b] n X i=1 (yi− f (ti))2+ λ Z b a (f(m)(t))2dt. (3.36)

On s’intéresse ici au problème général des splines de lissage (appelé "general spline smoothing problem" dans Wahba [173]) dont le modèle associé est

yi = Lif + εi , i = 1, . . . , n, (3.37) où les εi sont définies comme dans le modèle classique (3.35) mais où X est un ensemble quelconque, f ∈ HR un RKHS sur X de noyau R(s, t), et les Li sont des formes linéaires bornées sur HR(par exemple, Lif = f0(ti) ou Lif =R wi(u)f (u)du où les wisont des fonctions connues). Le modèle classique (3.35) est un cas particulier

1. Une fonction J : H →R, où H est un espace de Hilbert, est coercive si lim

de Hilbert à noyau reproduisant

de ce modèle où les Li sont les fonctionnelles d’évaluation aux points d’observation définies par Lif = f (ti). HR est supposé admettre une décomposition en somme directe

HR= H0

M H1,

où H0 est un espace de dimension finie p ≤ n. Le problème général des splines de lissage revient alors à trouver f ∈ HRqui minimise

1 n n X i=1 (yi− Lif )2+ λkP1f k2HR, (3.38)

où P1 est la projection orthogonale sur H1. Le paramètre de lissage λ contrôle le compromis entre la qualité de l’ajustement mesuré par le 1erterme, et l’éloignement par rapport à l’espace H0mesuré par kP1f k2H

R. L’espace H0 est généralement appelé espace nul et est constitué de fonctions qui ne sont pas pénalisées puisque kP1f k2H

R = 0 quand f ∈ H0. Ainsi, toute fonction f ∈ HRpeut s’écrire sous la forme f = f0+ f1 où f0 ∈ H0 et f1 ∈ H1, la composante f0 représentant un modèle de régression linéaire dans H0, et la composante f1 représentant les variations non expliquées par f0. Notons également que d’après la propriété énoncée au théorème3.3, on montre que H0 et H1sont également des RKHS de noyaux respectifs R0 et R1avec R = R0+ R1. Comme les Li sont des formes linéaires bornées, alors par le théorème de Riesz il existe un représentant ηi ∈ HR tel que Lif = hηi, f iHR. D’après les propriétés du noyau reproduisant, on a :

∀s ∈ X , ηi(s) = hηi, Rsi = LiRs= Li(t)R(s, t),

où Li(t) signifie que Li est appliqué à ce qui suit et qui est considéré comme une fonction de t. Par exemple, si Lif = f (ti), alors ηi(s) = R(s, ti), et si Lif = f0(ti), alors ηi(s) = ∂tR(s, t)|t=ti. Le critère (3.38) que l’on cherche à minimiser peut alors s’écrire sous la forme :

1 n n X i=1 (yi− hηi, f i)2+ λkP1f k2H R. (3.39)

La variante donnée ci-dessous du théorème du représentant (théorème 3.4) donne une solution explicite au problème de minimisation dans HR du critère (3.39). Théorème 3.5 (Kimeldorf et Wahba, 1971). Soit φ1, . . . , φp une base de l’espace nul H0 et soit T une matrice n × p de plein rang définie par :

T = {Liφν}n i=1

p ν=1. Alors le critère (3.39) a un unique minimum donné par

b fλ(t) = p X ν=1 dνφν(t) + n X i=1 ciξi(t), (3.40)

où ξi = P1ηi, Σ = {hξi, ξji}ni,j=1, M = Σ + nλI, (3.41) d = (d1, . . . , dp)T = (TTM−1T )−1TTM−1y, c = (c1, . . . , cn)T = M−1{I − T (TTM−1T )−1TTM−1}y.

Démonstration. De la même manière que dans la preuve du théorème 3.4du repré-sentant, on peut affirmer l’existence d’un unique élément ρ ∈ HR orthogonal aux {φν, ν = 1, . . . , p} et aux {ξi, i = 1, . . . , n} tel que l’estimateur bfλ s’écrive sous la forme b fλ(t) = p X ν=1 dνφν(t) + n X i=1 ciξi(t) + ρ.

En utilisant la décomposition de tout élément g ∈ HR de la forme g = P0g + P1g par somme directe, et en utilisant le caractère auto-adjoint de P0, on obtient :

∀i = 1, . . . , n, hρ, ηii = hρ, P0ηii + hρ, P1ηii = h P0ρ |{z} 0 , ηii + hρ, ξii | {z } 0 = 0.

Ainsi, le critère (3.39) à minimiser peut s’écrire sous la forme matricielle suivante : 1

nky − T d − Σck

2+ λ(cTΣc + kρk2).

Il est alors clair que ce critère est minimal quand ρ = 0, ce qui démontre la forme (3.40) de l’estimateur.

L’unicité de la solution découle du fait que la fonctionnelle L(f ) =Pn

i=1(yi− Lif )2 est strictement convexe sur H0 si la matrice T est de plein rang, et donc également strictement convexe sur HR. On en déduit alors que si la matrice T est de plein rang, L(f ) + λkP1f k2H

R est strictement convexe sur HR, ce qui implique l’unicité de la solution (voir Théorème 2.9 dans Gu [72]).

Il reste alors à estimer les coefficients c = (c1, . . . , cn)T et d = (d1, . . . , dp)T qui minimisent le critère

1

nky − T d − Σck

2+ λcTΣc.

En dérivant par rapport à c puis par rapport à d, on obtient les équations suivantes :

(Σ + nλI)Σc + ΣT d = Σy, (3.42)

de Hilbert à noyau reproduisant

On montre alors facilement que les équations (3.42) et (3.43) sont équivalentes aux équations suivantes :

M c + T d = y, (3.44)

TTc = 0. (3.45)

On en déduit alors que

d = (TTM−1T )−1TTM−1y, (3.46)

c = M−1{I − T (TTM−1T )−1TTM−1}y. (3.47)

Ce théorème montre que l’estimateur par splines de lissage bf appartient à un espace de dimension finie et s’exprime comme une combinaison linéaire de la base de H0 et des représentants de H1. Notons que l’estimateur bfλ dépend du paramètre λ même si cette dépendance n’est pas explicite. Généralement, les équations (3.46) et (3.47) ne sont pas appropriées au calcul numérique et on utilise plutôt les équations (3.44) et (3.45) pour le calcul des coefficients c et d. En effet, ces équations sont équivalentes à  M T TT 0  c d  =y 0  , (3.48)

qui est un système linéaire de n + p équations de la forme Ax = b avec A symétrique et de plein rang. Il est alors possible d’utiliser des algorithmes de calcul efficaces tels que l’algorithme de Cholesky (Gu [72], Wahba [173]).

Il est également possible de calculer c et d en utilisant la décomposition QR de T : T = Q1 Q2 R 0  ,

où Q1, Q2 et R sont respectivement des matrices n × p, n × (n − p) et p × p, Q = (Q1 Q2) est une matrice orthogonale, et R est une matrice triangulaire supérieure, avec TTQ2= 0p×(n−p). On peut alors montrer que les coefficients c et d vérifient les équations suivantes :

c = Q2(QT2M Q2)−1QT2y, (3.49)

Rd = QT1(y − M c). (3.50)

Nous renvoyons le lecteur à Wahba [173] et Wang [182] pour plus de détails sur l’obtention de ces équations.

Remarque 3.5. On a ξi = P1ηi la projection de ηi sur H1. Comme R(s, t) = R0(s, t) + R1(s, t) où R0 et R1 sont les noyaux respectifs de H0 et H1, et comme P1 est auto-adjoint, on a :

Cette équation montre que le représentant ξi peut être obtenu en appliquant l’opé-rateur au noyau R1. De plus, on a :

i, ξji = Li(s)ξj(s) = Li(s)Lj(t)R1(s, t).

On en déduit donc que :

Σ = {Li(s)Lj(t)R1(s, t)}ni,j=1.

Notons que dans le cas particulier où les Li sont les fonctionnelles d’évaluation aux points d’observation définies par Lif = f (ti) (correspondant au modèle classique (3.35)), on a :

ξi(t) = R1(t, ti) et Σ = {R1(ti, tj)}ni,j=1. Ainsi, le vecteur des valeurs estimées peut s’écrire sous la forme :

(L1f , . . . , Lb nf )bT = T d + Σc. (3.51)

De plus, en utilisant les équations (3.44) et (3.49), on en déduit que

(L1f , . . . , Lb nf )bT = T d + Σc = y − nλc = A(λ)y, (3.52)

A(λ) = I − nλQ2(QT2M Q2)−1QT2 (3.53) est la matrice chapeau. Notons que l’expression (3.52) permet de faciliter le calcul numérique des valeurs estimées (L1f , . . . , Lb nf ) mais que cette expression ne permetb pas de calculer la valeur de l’estimateur en tout point t contrairement à l’expression (3.40).

Finalement, la résolution du problème général des splines de lissage nécessite de suivre les étapes suivantes :

i) choisir un RKHS H comme espace du modèle pour f ;

ii) choisir une décomposition de l’espace en deux sous-espaces H = H0L H1 où H0 est un ensemble de fonctions non pénalisées ;

iii) choisir une pénalité kP1f k2.

Différents choix peuvent être effectués concernant l’espace du modèle, sa décompo-sition et la pénalité, ce qui rend la méthode des splines de lissage très flexible. En effet, ce modèle est à la base de nombreux types de splines : les splines polynomiales ou Dm splines (détaillées à la section suivante), les splines périodiques, les splines de type plaque mince ("thin plate spline")... D’autres exemples de splines sont donnés dans Wahba [173], Berlinet et Thomas-Agnan [15], Gu [72] et Wang [182]).

de Hilbert à noyau reproduisant