Interpolation par splines - Cas `a plusieurs variables

Interpoler et extrapoler

5.4 Cas `a plusieurs variables

5.4.2 Interpolation par splines

La présentation des splines cubiques dans le cas à une variable fait craindre que les splines multivariables ne soient une affaire compliquée. Les splines cubiques peuvent en fait être considérées comme un cas particulier du krigeage [242, 46], et le traitement du krigeage dans le cas à plusieurs variables est plutôt simple, au moins dans son principe.

5.4.3 Krigeage

Le nom de krigeage est un hommage au travail séminal de D.G. Krige sur les champs aurifères du Witwatersrand en Afrique du Sud, vers 1950 [131]. Cette tech-nique fut développée et popularisée par G. Matheron, du Centre de géostatistique de l’ École des mines de Paris, l’un des fondateurs de la géostatistique où elle joue un rôle central [46, 41, 241]. Initialement appliquée à des problèmes à deux ou trois dimensions, où les facteurs d’entrée correspondaient à des variables d’espace (comme dans la prospection minière), elle s’étend directement à des problèmes avec un nombre de dimensions bien supérieur (comme c’est souvent le cas en statistique industrielle).

Nous montrons ici, sans justification mathématique pour le moment, comment la version la plus simple du krigeage peut être utilisée pour de l’interpolation à plusieurs dimensions. Les équations qui suivent seront établies dans l’exemple 9.2. Soit y(x) la valeur de la sortie scalaire à prédire sur la base de la valeur prise par le vecteur d’entrée x. Supposons qu’une série d’expériences (qui peuvent être des expériences sur ordinateur ou de vraies mesures physiques) ait fourni les valeurs de sortie

y_i= f (xⁱ), i= 1,··· ,N, (5.57) pour N valeurs numériques xⁱ du vecteur des entrées, et soit y le vecteur de ces valeurs de sortie. Notons que le sens de y ici diffère de celui dans (5.1). La prédiction par krigeagey(x) de la valeur prise par f (x) pour x_b 6∈ {xi, i = 1,··· ,N} est linéaire en y, et les poids de la combinaison linéaire dépendent de la valeur de x. On peut donc écrire

y(x) = cT(x)y. (5.58) Il semble naturel de supposer que plus x est proche de xiet plus f(x) ressemble à f(xi). Ceci conduit à définir une fonction de corrélation r(x, xi) entre f (x) et f (xi) telle que

r(xi, xi) = 1 (5.59) et que r(x, xi) décroisse vers zéro quand la distance entre x et xiaugmente. Cette fonction de corrélation dépend souvent d’un vecteur p de paramètres à régler à partir des données disponibles. Elle sera alors notée r(x, xi, p).

Une fonction de corrélation paramétrée couramment utilisée est r(x, xi, p) = dim x

∏

j=1 exp(−pj|xj− xi j|2). (5.60) Les paramètres de portée p_j> 0 spécifient la vitesse avec laquelle l’influence de la mesure y_idécroˆıt quand la distance à xⁱcroˆıt. Si p est trop grand alors l’influence des données décroˆıt très vite et_by(x) tend vers zéro dès que x n’est plus dans le voisinage

imm´ediat d’un xⁱ.

Supposons, pour simplifier, que la valeur de p ait été choisie auparavant, de sorte que p n’apparaˆıt plus dans les équations. (Des méthodes statistiques sont disponibles pour estimer p à partir des données, voir la remarque 9.5.)

La prédiction par krigeage est gaussienne, et donc entièrement caractérisée (pour toute valeur donnée du vecteur d’entrée x) par sa moyenne_by(x) et sa varianceσb²(x). La moyenne de la prédiction est

b y(x) = rT(x)R⁻¹y, (5.61) o`u R=      r(x1, x1) r(x1, x2) ··· r(x1, xN) r(x2, x1) r(x2, x2) ··· r(x2, xN) .. . .._. . ._. .._. r(xN, x1) r(xN, x2) ··· r(xN, xN)      (5.62) et r^T(x) = r(x, x1) r(x, x2) ··· r(x,xN) . (5.63) La variance de la pr´ediction est

σ²(x) = σ2

y1 − rT(x)R⁻¹r(x) , (5.64) o`u σ2

y est une constante de proportionnalité, qui peut elle aussi être estimée à partir des données, voir la remarque 9.5.

Remarque 5.6.L’équation (5.64) permet de fournir des intervalles de confiance pour la prédiction ; sous l’hypothèse que le processus qui génère les données est gaussien de moyenney(x) et de variance_b σ_b²(x), la probabilité que y(x) appartienne à l’inter-valle

I(x) = [_by(x)− 2bσ(x),y(x) + 2_b σ_b(x)] (5.65) est approximativement égale à 0.95. Le fait que le krigeage puisse accompagner ses prédictions d’un tel label de qualité se révèle très utile, en particulier dans le contexte de l’optimisation (voir la section 9.4.3). Dans la figure 5.4, il y a un seul facteur d’entrée x∈ [−1,1] par souci de lisibilité. Le graphe de la fonction f(·) à interpoler est tracé avec des tirets, et les points interpolés sont indiqués par des carrés. Le graphe de la prédiction_by(x) obtenue par

interpolation est en trait plein et la région de confiance à 95% pour cette prédiction est en gris. Il n’y a pas d’incertitude sur la prédiction aux points interpolés, et plus xs’éloigne d’un point où f(·) a été évaluée plus la prédiction devient incertaine.

Fig. 5.4 Interpolateur par krigeage (merci `a Emmanuel Vazquez, de Sup´elec)

Puisque ni R ni y ne d´ependent de x, on peut ´ecrire

y(x) = r^T(x)v, (5.66) o`u

v= R⁻¹y (5.67) peut être calculé une fois pour toute en résolvant le système d’équations linéaires

Rv= y. (5.68) Ceci simplifie grandement l’´evaluation de y(x) pour toute nouvelle valeur de x._b Notons que (5.61) garantit qu’il y a interpolation, puisque

r^T(xi)R⁻¹y= (ei)Ty= yi, (5.69) où eⁱest la i-ème colonne de I_N. Même si ceci est vrai pour n’importe quelle fonc-tion de corrélafonc-tion et n’importe quelle valeur de p, la structure de la foncfonc-tion de corrélation et la valeur donnée à p influent sur la qualité de la prédiction.

La simplicité de (5.61), valide quel que soit le nombre des facteurs d’entrée, ne doit pas cacher que la résolution de (5.68) pour calculer v peut être un problème

mal conditionné. Une façon d’améliorer le conditionnement est de forcer r(x, xi) à zéro quand la distance entre x et xⁱdépasse un seuil δ à choisir, ce qui revient à dire que seules les paires(y_i, xi) telles que||x − xi|| 6 δ contribuent àby(x). Ceci n’est faisable que s’il y a assez de xidans le voisinage de x, ce que la malédiction de la dimensionrend impossible quand dim x est trop grand (voir l’exemple 8.6).

Remarque 5.7.Une légère modification des équations du krigeage transforme l’in-terpolation des données en leur approximation. Il suffit de remplacer R par

R⁰= R + σ2

mI, (5.70) o`u σ_m²> 0. En th´eorie, σ2

mdevrait être égal à la variance de la prédiction en tout xⁱoù des mesures ont été effectuées, mais on peut le voir comme un paramètre de réglage supplémentaire. Cette transformation facilite aussi le calcul de v quand R est mal conditionnée, et c’est pourquoi un petit σ_m² peut être utilisé même quand le bruit sur les données est négligeable. Remarque 5.8.Le krigeage peut aussi être utilisé pour estimer des dérivées et des intégrales [41, 234], ce qui fournit une alternative aux approches présentées au

cha-pitre 6.

5.5 Exemples MATLAB

La fonction

f(x) = ¹

1+ 25x2 (5.71) fut utilisée par Runge pour étudier les oscillations non désirées qu’on peut observer quand on interpole des données recueillies en des points régulièrement espacés avec un polynôme de degré élevé. Des données sont générées en n+ 1 points de ce type par le script

for i=1:n+1,

x(i) = (2*(i-1)/n)-1; y(i) = 1/(1+25*x(i)ˆ2); end

Nous commençons par interpoler ces données grâce à polyfit, qui procède via la construction d’une matrice de Vandermonde, et à polyval, qui calcule la valeur prise par le polynôme interpolateur résultant sur une grille régulière fine spécifiée dans FineX, comme suit

N = 20*n

FineX = zeros(N,1); for j=1:N+1,

FineX(j) = (2*(j-1)/N)-1; end

polynomial = polyfit(x,y,n);

fPoly = polyval(polynomial,FineX);

La figure 5.5 présente les résultats obtenus avec neuf points d’interpolation, en uti-lisant donc un polynôme de degré huit. Le graphe de la fonction interpolée est en trait plein, les points d’interpolation sont indiqués par des cercles et le graphe du polynôme interpolateur est en trait mixte. Accroˆıtre le degré du polynôme tout en gardant des points d’interpolation x_i régulièrement espacés ne fait qu’aggraver la situation. −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 x y

Fig. 5.5 Interpolation polynomiale pour neuf valeurs régulièrement espacées de x ; le graphe de la fonction interpolée est en trait plein

Une meilleure option consiste à remplacer les x_irégulièrement espacés par des points de Tchebychev satisfaisant (5.13) et à générer les données par le script

for i=1:n+1,

x(i) = cos((i-1)*pi/n); y(i) = 1/(1+25*x(i)ˆ2); end

Les résultats avec neuf points d’interpolation montrent encore quelques oscillations, mais nous pouvons maintenant sans danger accroˆıtre l’ordre du polynôme pour améliorer la situation. Avec 21 points d’interpolation nous obtenons les résultats de la figure 5.6.

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 x y

Fig. 5.6 Interpolation polynomiale pour 21 valeurs de Tchebychev de x ; le graphe de la fonction interpol´ee est en trait plein

Une option alternative est l’utilisation de splines cubiques. Ceci peut être mené à bien en utilisant les fonctions spline (qui calcule le polynôme par morceaux) et ppval(qui évalue ce polynôme par morceaux en des points à spécifier). On peut ainsi écrire

PieceWisePol = spline(x,y);

fCubicSpline = ppval(PieceWisePol,FineX);

Les résultats obtenus avec neuf x_irégulièrement espacés sont présentés en figure 5.7.

5.6 En r´esum´e

— Préférer l’interpolation à l’extrapolation, chaque fois que possible.

— L’interpolation peut être une mauvaise réponse à un problème d’approxima-tion ; il ne sert à rien d’interpoler des données bruitées ou incertaines. — L’interpolation polynomiale sur la base de données recueillies à des valeurs

régulièrement espacées de la variable d’entrée doit être limitée à des po-lynômes de degré bas.

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 x y

Fig. 5.7 Interpolation par spline cubique pour neuf valeurs de x régulièrement espacées ; le graphe de la fonction interpolée est en trait plein

— Quand les données sont recueillies en des points de Tchebychev, l’interpola-tion avec des polynômes de degré très élevé devient viable.

— L’expression explicite d’un polynôme interpolateur peut être obtenue en résolvant un système d’équations linéaires.

— Le conditionnement du système linéaire à résoudre pour obtenir les coeffi-cients du polynôme interpolateur dépend de la base choisie pour le polynôme, et la base en puissances peut ne pas être la plus appropriée, car les matrices de Vandermonde sont mal conditionnées.

— L’interpolation de Lagrange est une des meilleures m´ethodes disponibles pour l’interpolation polynomiale, pourvu que sa variante barycentrique soit employ´ee.

— L’interpolation par spline cubique requiert la résolution d’un système linéaire tridiagonal, ce qui peut être mené à bien de façon très efficace, même quand le nombre des points à interpoler est très grand.

— L’interpolation par des fonctions rationnelles est plus flexible que l’interpo-lation par des polynômes, mais plus compliquée (même si les équations qui imposent l’interpolation peuvent être rendues linéaires).

— Le principe d’extrapolation de Richardson est utilisé quand l’extrapolation ne peut être évitée, par exemple pour de l’intégration ou de la différentiation.

— Le krigeage utilise des formules simples pour l’interpolation (ou l’approxi-mation) de fonctions de plusieurs variables, et propose une estimée de la qualité des prédictions qu’il fournit.

Dans le document Méthodes numériques et optimisation, un guide du consommateur (Page 103-112)