• Aucun résultat trouvé

2.2 Krigeage ou interpolation ` a noyaux

2.2.2 Les noyaux

On a suppos´e que le processusY dans la mod´elisation (2.9) avait une variance ´egale `aσ2 en tout point x∈E. On suppose ici que le processusY est stationnaire au second ordre. Ceci implique que le processus Z centr´e est fortement stationnaire. En particulier, on suppose que la covariance s’´ecrit, ∀x,x ∈E,

Cov(Y(x), Y(x)) = Cov(Z(x), Z(x)) =σ2Kθ(x,x) =σ2Cθ(x−x), (2.29) o`u Cθ :E ⊂Rd→ R telle que Cθ(0) = 1. N´ecessairement,Cθ(x−x) = Cθ(x−x) car Kθ

est sym´etrique. La fonction Cθ est construite comme un produit de fonctions de corr´elation univari´ees. Le vecteur de param`etre θ est d´ecompos´e ainsi θ = (θ1, . . . , θd, ν). `A chaque dimension des variables d’entr´ee correspond un θj (j= 1, . . . , d) qui est un facteur d’´echelle.

Le param`etre ν est un param`etre qui sert en g´en´eral `a r´egler la r´egularit´e du processus. La fonction de corr´elation Cθ se d´ecompose,

Cθ(x−x) = Yd

j=1

c((θj, ν),|xj−xj|).

Le mod`ele est dit isotrope si θ1 = . . . = θd. Ce choix permet de r´eduire le nombre de pa-ram`etres `a estimer si peu d’observations sont disponibles. Sinon un mod`ele anisotrope est privil´egi´e.

Le choix d’un type de fonction de corr´elation entraˆıne un a priori sur la r´egularit´e de la fonction f. Les fonctions de r´egression g´en´eralement utilis´ees sont en g´en´eral des polynˆomes

donc infiniment diff´erentiables. La r´egularit´e du processus Y d´epend alors de la fonction de corr´elationCθdeZ. Des notions naturelles sont la continuit´e et la diff´erentiabilit´e en moyenne quadratique (Adler, 1981).

D´efinition 2.3. Soit Z un processus al´eatoire stationnaire sur E admettant des moments d’ordre deux.Z est dit continu en moyenne quadratique si

xlim→0E (Z(x)−Z(0))2

= 0.

Ecrire la continuit´e en 0 implique la continuit´e sur´ Eentier par stationnarit´e du processus.

On peut remarquer que

E (Z(x)−Z(0))2

= 2(Cθ(0)−Cθ(x−0)), d’o`u la proposition suivante.

Proposition 2.5. Le processus al´eatoire stationnaire Z est continu en moyenne quadratique si sa fonction de covarianceCθ est continue en 0.

La diff´erentiabilit´e en moyenne quadratique se d´efinit `a l’aide de la proposition suivante.

Proposition 2.6.SiZest un processus stationnaire tel que les d´eriv´ees∂2Kθ(x,x)/∂xk∂xl=

2Cθ(x−x)/∂xk∂xl existent et sont finies au point (0,0), alors la limite

iZ(x) = lim

h0

Z(x+h)−Z(x)

h ,

existe, et ∂iZ(x) est appel´ee la d´eriv´ee en moyenne quadratique de Z(x). Le processus Z a alors une d´eriv´ee partielle en moyenne quadratique. La fonction de covariance de ∂iZ est alors donn´ee par ∂2Kθ(x,x)/∂xk∂xl.

Les diff´erentielles d’ordre sup´erieure peuvent ensuite ˆetre obtenues de mani`ere it´erative.

On peut donner des propri´et´es sur la r´egularit´e des trajectoires d’un processus `a partir de la r´egularit´e de sa fonction de covariance dans le cadre des processus gaussiens. Adler (1981) montre un th´eor`eme qui lie la continuit´e des trajectoires d’un processus gaussien `a la vitesse de convergence de Cθ(x) pourx→0.

Th´eor`eme 2.3. Si Z est un processus stationnaire de fonction de corr´elation C qui v´erifie 1−Cθ(x)≤ a

|log(kxk2)|1+ǫ, ∀kxk2 < δ , (2.30) o`ua >0, ǫ >0 etδ <1, alors Z a des trajectoires presque surement continues.

La proposition 2.6 donne la fonction de covariance des d´eriv´ees partielles du processus en moyenne quadratique. Il suffit que la fonction de covariance∂2Kθ(x,x)/∂xk∂xlde la d´eriv´ee partielle∂iZ v´erifie la condition (2.30) du th´eor`eme pr´ec´edent.

Nous pr´esentons quelques exemples de fonctions de noyaux de covariance qui sont g´en´e-ralement utilis´ees et sont souvent incorpor´ees aux programmes. Nous donnons juste la fonction cunivari´ee. Nous notonsx= (x1, . . . , xd), x = (x1, . . . , xd)∈E.

Noyaux de type exponentiel

c((θj, ν, xj−xj) = exp(−θj|xj−xj|ν), (2.31) pour 0 < ν ≤ 2. Pour ν = 1, le noyau est dit exponentiel. Pour ν = 2, le noyau est dit gaussien. Sinon on parle de noyau exponentiel g´en´eralis´e. Il n’est diff´erentiable en moyenne quadratique que dans le cas gaussien. Il est mˆeme infiniment diff´erentiable, ce qui donne lieu

`

a un processus tr`es lisse. Pour toute valeur 0< ν ≤ 2, le processus est continu en moyenne quadratique et les trajectoires sont presque surement continues.

Noyaux cubiques

pour θ > 0. Les trajectoires des processus ayant ce noyau de covariance sont continues et diff´erentiables une fois. Ce type de noyau conduit aux interpolateurs par des fonctions splines cubiques. D’autres fonctions de corr´elation de ce type sont donn´ees par Mitchell et al.(1990).

Noyaux de Mat´ern

c((θj, ν, xj−xj) = (θj|xj−xj|)ν

Γ(ν)2ν−1 Jνj|xj −xj|) (2.32) o`u on doit avoir θj ∈(0,∞) et ν ∈ (−1,∞). Jν est une fonction de Bessel modifi´ee d’ordre ν. Le processus associ´e sera m fois diff´erentiable en moyenne quadratique si et seulement si ν > met la r´egularit´e presque sure des trajectoires est de l’ordre de (⌈ν⌉ −1) (⌈.⌉ d´esigne la partie enti`ere sup´erieure). Ainsi la r´egularit´e du processus est gouvern´ee par le param`etreν etθj contrˆole l’´echelle de corr´elation.

L’avantage de la mod´elisation par un processsus gaussien est de donner lieu `a une esti-mation des param`etres li´es au noyau par maximum de vraisemblance qui se r´ev`ele souvent efficace. Parmi les noyaux test´es, Santneret al. (2003) conseillent d’utiliser les noyaux expo-nentiels g´en´eralis´es ou de Mat´ern. Toutefois, ces derniers sont plus lourds `a calculer et ne sont pas toujours sous forme explicite.

2.2.3 Interpolation `a noyaux

Dans cette partie, le param`etreθne sera plus mentionn´e en indice. Nous commen¸cons par d´efinir l’espace fonctionnel dans lequel nous travaillons.

D´efinition 2.4. SoitH un espace de Hilbert fonctionnel sur l’ensemble E de produit scalaire (., .)H. Le noyau K :E×E →Rest appel´e noyau reproduisant si

1. pour tout x∈E, les fonctionsKx:x 7→K(x,x) appartiennent `a H,

2. pour tous x∈E et f ∈ H, la propri´et´e de reproduction est vraie :

(f, Kx)H=f(x). (2.33)

Si un noyau reproduisant K existe, H est appel´e un espace de Hilbert `a noyau reproduisant (RKHS, Reproducing Kernel Hilbert Space).

Le th´eor`eme d’Aronszajn (1950) donne les propri´et´es du noyau reproduisant et permet d’associer `a un noyauK d´efini positif un espace hilbertien.

Th´eor`eme 2.4 (Aronszajn).

– Si un noyau reproduisant existe, il est unique.

– Un noyau reproduisant existe si et seulement si, pour toutx∈E, les applications H →R

f 7→f(x), sont continues.

– Le noyau reproduisant est d´efini positif.

– R´eciproquement, si K est un noyau d´efini positif, il existe un espace not´e HK qui est un RKHS de noyau reproduisant K.

Cet espace correspond au compl´et´e de l’espace engendr´e par les fonctions partiellesx 7→

Kx(x) =K(x,x) pour x∈E, pour lequel on a d´efini le produit scalaire : (Kx, Kx) =K(x,x).

Schaback (2007) nomme cet espace l’espace natif (Native space). Il sera not´e HK dans la suite. L’application

Ψ : E → HK

x7→Kx, (2.34)

est appel´ee application de mod´elisation (“feature map”) puisqu’elle permet d’associer `a un

´el´ement de E un ´el´ement de HK qui est l’espace de mod´elisation (“feature space”). Ces d´enominations sont utilis´ees principalement en th´eorie de l’apprentissage. Avec ces notations pour x,x ∈ E, le produit scalaire des images respectives de x et x dans l’espace HK est donn´e parK(x,x) = (Ψ(x),Ψ(x))HK.

Les noyaux utilis´es sont souvent invariants par translation. Comme dans la partie pr´ec´e-dente,

∀x,x, K(x,x) =C(x−x). (2.35) Les fonctions radiales de base R(kx−xk) o`u R : R → R, v´erifient bien ´evidemment cette propri´et´e. La norme k.k sur E utilis´ee n’est pas forc´ement la norme euclidienne. On peut la modifier afin de tenir compte de l’anisotropie comme dans la tensorisation (2.2.2). Wend-land (2005); Schaback (2007) pr´esentent diff´erentes m´ethodes pour construire les noyaux. Les noyaux de Mercer peuvent ˆetre utilis´es.

D´efinition 2.5. Le noyau K :E ×E → R est un noyau de Mercer s’il est continu, d´efini sur un espace E compact et si

Z

E×E

K(x,x)f(x)f(x)dxdx ≥0, pour toute fonctionf :E→R continue.

Les noyaux de Mercer sont d´efinis positifs (Sch¨olkopf et Smola, 2001). Le th´eor`eme de Mercer (1909) est une premi`ere ´etape pour donner une expression explicite de l’espace et de l’application de mod´elisation associ´es au noyau de MercerK. Nous notonsL2(E) ={f :E → R:R

E|f(x)|2dx<∞}etl2 ={(aj)jN ∈RN :P

jN|aj|2 <∞}. Th´eor`eme 2.5 (Mercer). Soit l’op´erateur lin´eaire de L2(E) d´efini par

∀f ∈L2(E), (LKf)(.) = Z

E

K(x, .)f(x)dx.

Siλ1, λ2 . . .sont les valeurs propres deLK donn´ees dans l’ordre d´ecroissant etφ1, φ2, . . .sont les fonctions propres correspondantes. Alors pour presque tous x,x ∈E,

K(x,x) = X

Il est possible de donner une expression explicite de l’espace et de l’application de mod´elisation.

On a alors pourK un noyau de Mercer, avec les notations du th´eor`eme pr´ec´edent, HK = avec le produit scalaire, pourg=P

jajφj, h=P

L’application de mod´elisation Ψ :E → HK est d´efinie ainsi pourx∈E, Ψ(x)(.) = X

j∈N

λjφj(x)φj(.). On a alors bien la relation

∀x,x∈E, K(x,x) = (Ψ(x),Ψ(x))HK.

Le th´eor`eme de Mercer ne s’applique plus si le noyau est consid´er´e comme d´efini sur Rd entier. Une technique consiste `a utiliser les transform´ees de Fourier si le noyau est invariant par translation. Pour la fonctionCassoci´ee au noyauK par la relation (2.35), on noteFCsa transform´ee de Fourier si elle existe. Le th´eor`eme suivant permet alors d’expliciter le RKHS associ´e.

Th´eor`eme 2.6. Soit K un noyau d´efini positif sur Rd×Rd tel que la fonction C associ´ee appartienne `aL1(Rd)ainsi que sa transform´ee de FourierFC. Le sous-espaceHK deL2(Rd), compos´e des fonctions g continues et dans L1(Rd) qui v´erifient :

kgkHK = 1 et ´equip´e du produit scalaire :

(g, h)HK = 1

o`ua est le complexe conjugu´e de a, est un RKHS de noyau reproduisantK.

Par exemple, le noyau gaussien d´efini par

Kθ(x,x) =Cθ(x−x) = exp(−θkx−xk2), pour θ >0 est associ´e `a l’espace de fonctions

HKθ =

Les fonctions dans ce RKHS sont infiniment diff´erentiables avec toutes les d´eriv´ees dans L2(Rd). On a les inclusions suivantes pour 0< θ < τ,HKθ ⊂ HKτ (Vert et Vert, 2006).

Nous supposons dans cette partie que f ∈ HK et comme dans la partie 2.2.1 que f a

´et´e ´evalu´ee aux points du plan d’exp´erienceD={x1, . . . ,xn} ⊂E. Soit SD(f) la projection orthogonale de f sur le sous espace de HK,HK(D) = Vect{Kx1, . . . , Kxn}. La propri´et´e sui-vante indique que cette projection est l’interpolateur de plus petite norme dans le RKHSHK

et en donne une ´ecriture lagrangienne.

Proposition 2.7.

1. SD(f) est l’interpolateur de f aux points de D, de norme minimale. Ceci signifie que SD(f) est solution du probl`eme :

ming∈HKkgkHK

g(xi) =f(xi), i= 1, . . . , n . 2. L’interpolateur SD(f) peut s’´ecrire, pourx0 ∈E,

SD(f)(x0) = Xn

i=1

f(xi)ui(x0),

o`u les fonctions ui : E → R, pour i = 1, . . . , n, appartiennent `a HK(D). En gardant les mˆemes notations que celles introduites dans la proposition 2.2, et en posant U(x) = (u1(x), . . . , un(x)), ce vecteur v´erifie, pour tout x∈E :

Σx0D = ΣDDU(x).

Il est possible de contrˆoler l’erreur ponctuelle commise par l’interpolateur en toutx0 ∈E, en utilisant la propri´et´e de reproduction et en appliquant l’in´egalit´e de Cauchy Schwarz,

|SD(f)(x0)−f(x0)| = |(f, Kx0

Schaback (1995b) nomme PD fonction puissance et donne des majorants qui sont fonction d’un crit`ere d’espacement des points dans le plan d’exp´erience D dans le cas de noyaux K usuels. Ce r´esultat sera utilis´e pour justifier un choix de plan d’exp´erience dans la partie 4.

Nous pouvons constater que l’interpolation `a noyaux conduit au mˆeme m´ etamo-d`ele que la mod´elisation par un processus gaussien. En effet, l’interpolateur SD(f −H(x0)β) correspond `a la partie noyau de la moyenne a posteriori µx0|D (2.10) si l’on suppose que f −H(x0)β ∈ HK et que ΣDD inversible. De plus, la fonction PD (2.37) est ´egale `a la variance a posteriori σ2x

0|D (2.10). Des fonctions de r´egression comme en krigeage peuvent ˆetre introduites mais la pr´esentation est plus technique et est incluse dans l’interpolation avec des noyaux condition-nellement d´efinis positifs (voir la section 3). Dans ce cas, on a toujours la mˆeme expression pour le m´etamod`ele et la fonction puissance est ´egale `a la variance du BLUP (2.15).

Toutefois, Driscoll (1973) montre qu’un processus gaussien dont le noyau de covariance est strictement d´efini positif et continu a presque toutes ses r´ealisations qui n’appartiennent pas au RKHSHK. Bien que la m´ethode d’interpolation `a noyaux et la mod´elisation par un processus gaussien conduisent au mˆeme m´etamod`ele, les hypoth`eses pos´ees surf dans chacun des cas s’excluent. Dans une mod´elisation par un processus gaussien de noyau de covariance K, on suppose quef en est une r´ealisation doncf n’appartient presque surement pas `a l’es-paceHK. Cependant, Driscoll (1973) propose un th´eor`eme qui donne une condition n´ecessaire et suffisante sur un autre noyauS pour que les trajectoires d’un processus gaussien de noyau K appartiennent presque surement au RKHS HS.