Estimation par méthodes déterministes

Chapitre 3. Estimation et interpolation spatiale des températures

3.2. Estimation par méthodes déterministes

Les méthodes déterministes peuvent se diviser en deux grandes entités : les

méthodes d’estimation globale et les méthodes d’estimation locale40.

3.2.1. Estimation globale contre estimation locale

L’estimation globale repose généralement sur l’évaluation de la valeur moyenne

de la variable régionalisée sur l’ensemble du champ. L’un des intérêts des méthodes

dites globales réside dans le fait que leur mise en œuvre ne requiert pas d’hypothèse sur

la variable régionalisée.

L’estimation locale, elle, a recours à des données situées hors du secteur à estimer,

permettant de localiser et différencier les secteurs où les valeurs sont fortes de ceux où

elles sont plus faibles. Plus précisément, l’estimation locale rend possible le calcul

d’une valeur ponctuelle en un site donné. On devine dès lors l’intérêt de ce type de

pratique en climatologie, les points de mesure ne correspondant que rarement à ceux

dont on désire connaître la valeur.

L’estimation globale a donc un caractère incomplet, puisqu’elle ne permet pas

réellement une cartographie de la variable étudiée, contrairement à l’estimation locale.

Le cas d’un espace en deux dimensions sera étudié, mais il est tout à fait possible, dans

la plupart des cas, d’appliquer les méthodes qui suivent dans un espace tridimensionnel.

Les notations conventionnelles seront utilisées par la suite. Elles sont les suivantes :

z : variable régionalisée (variable étudiée)

D : champ de la régionalisation (domaine dans lequel cette dernière est définie), en

pratique, D⊂ R, D⊂ R² ou D⊂ R³.

s∈D : vecteur de coordonnées indiquant la position d’un site dans le champ

z(s) : valeur prise par la variable régionalisée au site s∈D

z(v) : valeur moyenne de z sur le domaine v ⊆ D

n : nombre de sites de mesures de la variable

}

{z(s₁)...z(s_n) : valeurs prises aux sites d’observations {s₁...s_n}

)

(

ˆ s₀

z : estimation de z(s₀), avec s₀∈D

3.2.2. Quelques méthodes communes d’interpolation

Il convient de mentionner, dans un rappel non exhaustif, quelques unes des

méthodes les plus célèbres et leurs principales propriétés.

- Les polygones de Thiessen

La méthode d’affectation d’un polygone d’influence à chaque site d’observation

utilisant sa superficie comme pondérateur est rappelée car utilisée dans la création d’un

indicateur simplifié de qualité des interpolations (Chapitre 8).

Un polygone d’influence Pi est défini autour de chaque site d’observation si avec pour

condition que tout point du polygone doit être plus proche de si que de tout autre site

40 Cette subdivision a moins de sens dans le cas de l’interpolation par méthode stochastique.

(Figure 3-1). Dans un espace plan, le tracé des médiatrices des segments joignant si et

ses voisins suffit : il reste à conserver le plus petit polygone contenant si. La forte

densité des sites s’accompagne donc d’une petite surface des polygones, et inversement.

Le découpage selon des polygones de Thiessen⁴¹ est purement géométrique : la valeur

mesurée dans les sites n’a aucune influence sur ce dernier (Thiessen A.H., 1911).

La littérature rend compte de nombreuses autres méthodes de découpage de l’espace :

méthode des cellules (qui consiste en une division du champ en cellules rectangulaires

de taille identique contenant un nombre variable de sites, dont on prend l’inverse pour

pondérer le calcul de l’estimation globale) ou théorie des sondages (fondée sur des

moyennes et variances expérimentales et dans laquelle chaque observation est affectée

d’une probabilité d’occurrence) en font partie.

- L’interpolation par triangulation

Les méthodes dites par triangulation reposent sur une division du champ en triangles

disjoints dont les sommets sont les sites échantillonnés, suivie d’une interpolation à

l’intérieur de chacun des triangles ainsi définis.

La triangulation la plus célèbre est celle de Delaunay (Figure 3-1) : elle se réfère aux

polygones de Thiessen de la manière suivante : les sommets des triangles sont les sites si

tels que les polygones de Thiessen ont un côté commun. A l’intérieur de chaque

triangle, le choix d’interpolation se fait entre plusieurs méthodes : interpolation linéaire,

méthode de Mc Lain, méthode d’Akima…

Figure 3-1 : Polygones de Thiessen (à gauche) et triangulation de Delaunay (à droite). Les stations

de mesure sont les sommets des triangles tels que les polygones de Thiessen ont un côté

commun. (Lhotellier R., 2005)

- Les méthodes barycentriques

Les méthodes barycentriques prennent en compte un nombre plus vaste de données que

les précédentes, en leur affectant un poids en fonction de la distance. Plusieurs

pondérateurs sont proposés, leur somme doit logiquement être égale à 1.

41 On trouve également la dénomination polygones de Voronoï (dans le logiciel Mapinfo, par exemple),

ou encore cellules de Dirichlet, en référence respectivement à l’ukrainien Georgii Feodosevich Voronoï

(1868-1908) et au français Gustave Lejeune-Dirichlet (1805-1859).

Parmi elles, la méthode de l’inverse des distances est la plus employée⁴². Comme son

nom le suggère, elle attribue à chaque site un poids inversement proportionnel à la

distance entre celui-ci et le point à estimer. La génération d’une bulle autour de la

position observée (bull’s eye, elles sont très visibles sur la Carte 3-7) est l’un des

problèmes de cette méthode, difficulté parfois réduite par l’emploi de méthodes de

lissage. D’un principe voisin, la méthode de Shepard (1968) s’appuie sur l’inverse du

carré des distances entre ces points : la fonction de pondération est celle de l’inverse de

la distance élevée à un exposant k (Carte 3-8).

- Les surfaces de tendance⁴³, la régression polynomiale

Cette méthode repose sur le calcul d’une surface zˆ dont l’équation est celle d’un

polynôme en abscisse et ordonnée du site s. La surface est ensuite ajustée par la

méthode des moindres carrés. Le degré du polynôme fixe la complexité de

l’interpolation : des degrés de 2 à 5 sont fréquents. En pratique, le but du traitement

repose sur la résolution de l'équation d'une fonction zi = f(xi,yi) avec le meilleur

ajustement possible par rapport aux informations connues, puis sur l’extrapolation des

résultats à l'ensemble de l'espace étudié. Les valeurs x et y sont les coordonnées des

sites et z les valeurs en ces points de coordonnées (xi,yi). La fonction recherchée est de

la forme z = Ax + By + C, c'est-à-dire l'équation d'un plan. Une régression linéaire

multiple permet alors de trouver les valeurs des coefficients A, B et C. Cette méthode

s’attache à la tendance et non aux irrégularités ou fluctuations locales (Carte 3-2 et

Carte 3-3). Elle ne correspond pas à notre problématique et notre échelle d’étude.

- Les splines

Les splines sont des fonctions mathématiques dont il existe deux familles : les splines

d’interpolation, qui passent exactement par les points d’observation, et les splines de

lissage, qui passent à proximité de ceux-ci. Elles minimisent une intégrale d’espace sous

contrainte de passer par ou à proximité des points observés (Carte 3-10). Créer une

fonction spline peut être comparé à adapter une longue règle flexible pour qu’elle passe

par une série de points. L’interpolation est rendue flexible par un paramètre de tension

qui domine le comportement de la fonction et le paramètre de lissage.

Le splining convient donc à la réalisation de lignes de contour à partir de données

denses et régulièrement espacées. Il peut être utilisé pour l’interpolation (Loubier J.-C.,

2004) mais s’accommode mal de fortes variabilités des valeurs sur une distance

horizontale limitée.

Malgré la célébrité de certaines d’entre-elles, les techniques déterministes d’estimation

locale n’en demeurent pas moins limitées : procédures automatiques, elles ne prennent

pas en compte la structure spatiale du phénomène étudié, l’espace est considéré comme

isomorphe et en deux dimensions. L’esthétisme des cartes obtenues ne doit donc pas

faire oublier le caractère erratique de certaines variables régionalisées. L’intérêt

principal des méthodes stochastiques réside justement dans la mesure et l’optimisation

possible de la précision des estimations réalisées.

42 On peut rencontrer dans la littérature la notation IDWA, pour Inverse Distance Weighted Averaging.

43 On peut rencontrer dans la littérature la notation TSA, pour Trend Surface Analysis.

Dans le document Spatialisation des températures en zone de montagne alpine (Page 78-81)

Chapitre 3. Estimation et interpolation spatiale des températures

3.2. Estimation par méthodes déterministes

Les méthodes déterministes peuvent se diviser en deux grandes entités : les

méthodes d’estimation globale et les méthodes d’estimation locale40.

3.2.1. Estimation globale contre estimation locale

L’estimation globale repose généralement sur l’évaluation de la valeur moyenne

de la variable régionalisée sur l’ensemble du champ. L’un des intérêts des méthodes

dites globales réside dans le fait que leur mise en œuvre ne requiert pas d’hypothèse sur

la variable régionalisée.

L’estimation locale, elle, a recours à des données situées hors du secteur à estimer,

permettant de localiser et différencier les secteurs où les valeurs sont fortes de ceux où

elles sont plus faibles. Plus précisément, l’estimation locale rend possible le calcul

d’une valeur ponctuelle en un site donné. On devine dès lors l’intérêt de ce type de

pratique en climatologie, les points de mesure ne correspondant que rarement à ceux

dont on désire connaître la valeur.

L’estimation globale a donc un caractère incomplet, puisqu’elle ne permet pas

réellement une cartographie de la variable étudiée, contrairement à l’estimation locale.

Le cas d’un espace en deux dimensions sera étudié, mais il est tout à fait possible, dans

la plupart des cas, d’appliquer les méthodes qui suivent dans un espace tridimensionnel.

Les notations conventionnelles seront utilisées par la suite. Elles sont les suivantes :

z : variable régionalisée (variable étudiée)

D : champ de la régionalisation (domaine dans lequel cette dernière est définie), en

pratique, D⊂ R, D⊂ R² ou D⊂ R3.

s∈D : vecteur de coordonnées indiquant la position d’un site dans le champ

z(s) : valeur prise par la variable régionalisée au site s∈D

z(v) : valeur moyenne de z sur le domaine v ⊆ D

n : nombre de sites de mesures de la variable

}

{z(s1)...z(sn) : valeurs prises aux sites d’observations {s1...sn}

)

(

ˆ s0

z : estimation de z(s0), avec s0∈D

3.2.2. Quelques méthodes communes d’interpolation

Il convient de mentionner, dans un rappel non exhaustif, quelques unes des

méthodes les plus célèbres et leurs principales propriétés.

- Les polygones de Thiessen

La méthode d’affectation d’un polygone d’influence à chaque site d’observation

utilisant sa superficie comme pondérateur est rappelée car utilisée dans la création d’un

indicateur simplifié de qualité des interpolations (Chapitre 8).

Un polygone d’influence Pi est défini autour de chaque site d’observation si avec pour

condition que tout point du polygone doit être plus proche de si que de tout autre site

40 Cette subdivision a moins de sens dans le cas de l’interpolation par méthode stochastique.

(Figure 3-1). Dans un espace plan, le tracé des médiatrices des segments joignant si et

ses voisins suffit : il reste à conserver le plus petit polygone contenant si. La forte

densité des sites s’accompagne donc d’une petite surface des polygones, et inversement.

Le découpage selon des polygones de Thiessen41 est purement géométrique : la valeur

mesurée dans les sites n’a aucune influence sur ce dernier (Thiessen A.H., 1911).

La littérature rend compte de nombreuses autres méthodes de découpage de l’espace :

méthode des cellules (qui consiste en une division du champ en cellules rectangulaires

de taille identique contenant un nombre variable de sites, dont on prend l’inverse pour

pondérer le calcul de l’estimation globale) ou théorie des sondages (fondée sur des

moyennes et variances expérimentales et dans laquelle chaque observation est affectée

d’une probabilité d’occurrence) en font partie.

- L’interpolation par triangulation

Les méthodes dites par triangulation reposent sur une division du champ en triangles

disjoints dont les sommets sont les sites échantillonnés, suivie d’une interpolation à

l’intérieur de chacun des triangles ainsi définis.

La triangulation la plus célèbre est celle de Delaunay (Figure 3-1) : elle se réfère aux

polygones de Thiessen de la manière suivante : les sommets des triangles sont les sites si

tels que les polygones de Thiessen ont un côté commun. A l’intérieur de chaque

triangle, le choix d’interpolation se fait entre plusieurs méthodes : interpolation linéaire,

méthode de Mc Lain, méthode d’Akima…

Figure 3-1 : Polygones de Thiessen (à gauche) et triangulation de Delaunay (à droite). Les stations

de mesure sont les sommets des triangles tels que les polygones de Thiessen ont un côté

commun. (Lhotellier R., 2005)

- Les méthodes barycentriques

Les méthodes barycentriques prennent en compte un nombre plus vaste de données que

les précédentes, en leur affectant un poids en fonction de la distance. Plusieurs

pondérateurs sont proposés, leur somme doit logiquement être égale à 1.

41 On trouve également la dénomination polygones de Voronoï (dans le logiciel Mapinfo, par exemple),

ou encore cellules de Dirichlet, en référence respectivement à l’ukrainien Georgii Feodosevich Voronoï

(1868-1908) et au français Gustave Lejeune-Dirichlet (1805-1859).

Parmi elles, la méthode de l’inverse des distances est la plus employée42. Comme son

nom le suggère, elle attribue à chaque site un poids inversement proportionnel à la

distance entre celui-ci et le point à estimer. La génération d’une bulle autour de la

position observée (bull’s eye, elles sont très visibles sur la Carte 3-7) est l’un des

problèmes de cette méthode, difficulté parfois réduite par l’emploi de méthodes de

lissage. D’un principe voisin, la méthode de Shepard (1968) s’appuie sur l’inverse du

pratique, D⊂ R, D⊂ R² ou D⊂ R³.

{z(s₁)...z(s_n) : valeurs prises aux sites d’observations {s₁...s_n}

ˆ s₀

z : estimation de z(s₀), avec s₀∈D

Le découpage selon des polygones de Thiessen⁴¹ est purement géométrique : la valeur

Parmi elles, la méthode de l’inverse des distances est la plus employée⁴². Comme son

- Les surfaces de tendance⁴³, la régression polynomiale