Annexe A
Notions de géostatistique
Cette annexe présente de manière condensée les notions de géostatistique nécessaires à la bonne compréhension de certaines étapes de la méthode de simulation stochastique utilisée pour la cartographie et l'estimation du dégazage total du CO 2 . Les concepts qui vont être développés ici sont la géostatistique linéaire, le semivariogramme, le krigeage et la simulation stochastique gaussienne séquentielle.
Pour les personnes qui veulent approfondir ces notions, voici deux références très utiles : Applied Geostatistics (Isaaks and Strivastava, 1992) et Practical Geostatistics 1979 (Clark, 2001).
A.1. Géostatistique linéaire
Le but des méthodes géostatistiques est l'estimation de valeurs inconnues sur une grille régulière à partir de points mesurés en utilisant un modèle statistique.
Soit la variable d'étude z mesurée en différents points de coordonnées régionalisées (x i ) i=1,p =(x i ,y i ) i=1,p pour les p valeurs expérimentales.
A.1.1. Concept de fonction aléatoire A.1.1.1. Variable régionalisée
La variable régionalisée est une fonction z(x), supposée continue, représentant les valeurs mesurées aux points (x i ) i=1,p (Matheron, 1970).
A.1.1.2. Variable aléatoire
Soit le jeu de p valeurs expérimentales (z exp (x i )) i=1,p comme le résultat d'un mécanisme aléatoire: la valeur mesurée z exp (x i ) représente une des valeurs possibles de la variable aléatoire Z(x i ). Une variable aléatoire continue est une variable susceptible de prendre un nombre infini de valeurs possibles. Par exemple, le poids, la hauteur, les flux de CO 2 sont des variables aléatoires continues.
A.1.1.3. Fonction aléatoire
Une fonction aléatoire Z(x) est une fonction mathématique d'une ou de
plusieurs variables aléatoires. La variable régionalisée z(x) est supposée être une
réalisation particulière d'une fonction aléatoire Z(x) continue et obéissant à une loi
spatiale.
A.1.2. Loi spatiale
La loi spatiale F définit la fonction aléatoire Z(x) qui lui est associée en terme de probabilité. C'est la loi de probabilité conjointe des (Z(x 1 ), Z(x 2 ),…..,Z(x n )), quel que soit l'ordre n et quels que soient les points (x 1 ,x 2 ,…..,x n ).
F(s 1 ,s 2 ,…….,s n ) = P{(Z(x 1 ) ≤ s 1 ) et (Z(x 2 ) ≤ s 2 ) et ……..et (Z(x n ) ≤ s n )} (A.1) avec P{A}, la probabilité d'occurrence de l'événement A.
La loi spatiale complète inclut la loi monovariable (n=1) et la loi bivariable (n=2).
A.1.2.1. Loi spatiale monovariable
La loi spatiale monovariable permet de définir la fonction de répartition (ou de distribution cumulative) des probabilités de Z(x) en tout point. Cette fonction est la probabilité que Z(x) soit inférieur à une valeur numérique s donnée.
F Z(x) (s) = P{Z(x) ≤ s} (A.2)
Pour une fonction aléatoire continue, la densité de probabilité est définie selon:
ds s f dF Z(x) ( )
Z(x) = (A.3)
La fonction de distribution des probabilités se déduit de la fonction de densité par intégration:
(A.4)
∫ ∞
−
×
= s f s ds s
F Z(x) ( ) Z(x) ( )
La densité de probabilité intervient dans le calcul des moments.
• Moment d'ordre m:
(A.5)
ds s f s
M Z m ( x ) = +∞ ∫ m × Z (x) ( ).
∞
−
• Moment centré d'ordre m:
(A.6)
m Z Z
m
m s f s ds M
Mc Z(x ) = +∞ ∫ × (x) ( ) × − ( 1 ( x ) )
∞
−
Les moments d'ordre 1 et 2 permettent de définir l'espérance mathématique et la variance.
L'espérance mathématique de Z au point x, E[Z(x)], est définie comme le moment d'ordre 1 de la densité de probabilité f Z(x) (s).
(A.7)
[ ] +∞ ∫
∞
−
×
×
=
= M s f s ds
Z
E (x) Z 1 ( x ) Z(x) ( )
La variance de Z au point x, , est définie comme le moment centré d'ordre 2 de la densité de probabilité f
) x
2 ( σ z Z(x) (s).
[ ]
( 2
Z(x) 2 2
Z ( x ) = +∞ ∫ s × f ( s ) × ds − E Z (x)
∞
−
σ )
[ ]
( )
[ Z (x) E Z (x) 2 ]
E −
= (A.8)
A.1.2.2. Loi spatiale bivariable
La loi spatiale bivariable de Z(x), F Z(x1),Z(x2) (s 1 ,s 2 ), est définie comme la probabilité conjointe de deux points (x 1 ,x 2 ).
F Z(x1),Z(x2) (s 1 ,s 2 )) = P{(Z(x 1 ) ≤ s 1 ) et (Z(x 2 ) ≤ s 2 )} (A.9) La densité de probabilité conjointe f Z(x1),Z(x2) (s 1 ,s 2 ) est:
2 1
2 1 Z(x2) Z(x1), 2
1 Z(x2) Z(x1),
) , ) (
,
( s s
s s s dF
s
f = ∂ ∂ (A.10)
La covariance et le semivariogramme sont caractérisés par la loi spatiale bivariable.
Ils permettent d'estimer le degré de corrélation entre deux points (x 1 ,x 2 ) suivant les équations:
• Covariance (centrée):
[ ( x ) ] [ ( x ) ]
) x , x ( )
x , x
( 1 2 C 1 2 E Z 1 E Z 2
C Z = Z nc − × (A.11)
[ ( x ) ( x ) ]
centrée non
covariance la
est
où C Z nc C Z nc = E Z 1 × Z 2
• Semivariogramme:
[ ]
( 1 2 2 )
2
1 (x ) - (x )
2 ) 1 x , x
( E Z Z
Z =
γ (A.12)
A.2. Semivariogramme
A.2.1. Définition
Le semivariogramme est défini comme suit:
[ ]
( i i ) 2
) N(h
1
) (x h) N(h) (x
2 ) 1 h
( Z Z
i
Z = ∑ + −
=
γ (A.13)
où h est la distance entre deux points de mesures et N(h) est le nombre de couple de points distants de h.
L'unité de γ z (h) est l'unité de la valeur au carré (ex: ppm 2 ).
L'utilisation de cette équation implique deux hypothèses de bases:
• Hypothèse de stationnarité (Matheron, 1970): La fonction aléatoire Z(x) est stationnaire si sa loi spatiale est invariante par translation. Si (x 1 ,x 2 ,…,x n ) sont n points d'appui, les n variables aléatoires (Z(x 1 ), Z(x 2 ),….Z(x n )) ont la même loi spatiale que les variables aléatoires (Z(x 1 +h), Z(x 2 +h),…..Z(x n +h)).
L'espérance mathématique et la variance d'une fonction aléatoire stationnaire sont des constantes indépendantes du point d'appui:
F Z(x) (s) = F(s) (A.14)
E[Z(x)] =m Z (A.15)
où m z est la moyenne de la variable z(x)
[ ]
[ 2 ] Z 2
2
Z ( x ) ( (x) (x) ) σ
σ = E Z − E Z = (A.16)
où σ z 2 est la variance de la variable aléatoire z(x)
• Hypothèse intrinsèque: le variogramme γ est indépendante du point d'appui x 0 , par exemple, le passage de γ(x,h) à γ(h).
[ Z (x 0 h ) Z ( x 0 ) ] m ( h )
E + − = (A.17)
[ Z (x 0 + h ) − Z (x 0 ) ] = 2 γ ( h )
Var (A.18)
A.2.2. Représentation du semivariogramme
L'élaboration du semivariogramme consiste en un semivariogramme expérimental, construit à partir des données originales et qui caractérise la continuité spatiale de l'ensemble des données. Un modèle de semivariogramme est ensuite ajusté au semivariogramme expérimental. La continuité spatiale est réalisée quand les valeurs entre deux points proches l'une de l'autre sont similaires.
Les informations fournies par un semivariogramme sont les suivants:
▪ la portée (range) , notée a (en m; figure A-1a) représente l'espacement limite, suivant l'axe des abscisses, entre deux points au delà de laquelle les deux points ont des valeurs très différentes.
▪ le palier (sill), notée c ("unité de la valeur" 2 , figure A.1a) représente la limite à partir de laquelle la croissance du semivariogramme se stabilise.
▪ effet pépite (nugget effect), notée c 0 ("unité de la valeur" 2 ): bien que la valeur du
semivariogramme pour h = 0 est strictement 0, d'autres facteurs, telle qu'une erreur
d'échantillonnage et une variabilité importante entre les valeurs sur des espacements
très faibles. Le saut vertical à partir de la valeur 0 à l'origine jusqu'à la valeur du
semivariogramme à des séparations faibles est appelé effet pépite (figure A.1a).
h (m)
0 50 100 150 200 250
γ (h)
0.0 0.2 0.4 0.6 0.8 1.0
palier (c) portée (a)
effet pépite (C 0 )
h (m)
0 50 100 150 200 250
γ (h)
0.0 0.2 0.4 0.6 0.8 1.0 1.2
modèle de semivariogramme
(b) (a)
Figure A.1. Semivariogrammes (a) expérimental et (b) modèle.
Dans l'élaboration du semivariogramme expérimental, on essaie de trouver la meilleure direction de continuité spatiale de la structure (figure A-1b).
Il existe plusieurs modèles de semivariogramme (Deutsch and Journel, 1998):
▪ Modèle sphérique:
a h si , a h si ,
5 . 0 5 . ) 1
(
3
0 ≤
⎪ ⎩
⎪ ⎨
⎧
≥ ⎥ ⎥
⎦
⎤
⎢ ⎢
⎣
⎡ ⎟
⎠
⎜ ⎞
⎝
− ⎛
×
= + c
a h a
c h h c
γ (A.19)
▪ Modèle exponentiel :
⎟⎟ ⎠
⎜⎜ ⎞
⎝
⎛ ⎥
⎦
⎢ ⎤
⎣
⎡ ⎟
⎠
⎜ ⎞
⎝ ⎛−
−
× +
= a
c h c
h 3
exp 1 )
( 0
γ (A.20)
▪ Modèle Gaussien:
⎥ ⎦
⎢ ⎤
⎣
⎡ ⎟⎟
⎠
⎜⎜ ⎞
⎝
⎛ −
−
× +
= 0 ( 3 2 ) 2 exp
1 )
( a
c h c
γ h (A.21)
▪ Modèle de puissance:
(A.22)
h w
c c h ) = 0 + × γ (
où la puissance w se situe entre 0 et 2
▪ Modèle du "Hole effect":
⎥ ⎦
⎢ ⎤
⎣
⎡ ⎟
⎠
⎜ ⎞
⎝ ⎛ ×
−
× +
= π
γ a
c h c
h ) 1 cos
( 0 (A.23)
A partir du modèle, qui s'ajuste le mieux au semivariogramme expérimental,
les paramètres (le palier c, la portée a et l'effet pépite c 0 ) seront ensuite utilisés dans
les simulations stochastiques.
A.3. Le krigeage
Le principe du krigeage est d'estimer la valeur de la variable aléatoire z(x), en tout point x 0 d'une grille de calcul, par interpolation linéaire à partir des valeurs (z exp (x i )) i=1,p , également notées (z i ) i=1,p , connues aux points expérimentaux (x i ) i=1,p :
(A.24)
i p
i
i z
z = ∑ ×
=1 0
*
0 λ
où z 0 * est la valeur estimée
et λ i 0 est le coefficient de pondération
Il existe trois types de krigeage: le krigeage simple, le krigeage ordinaire et le krigeage universel. Le krigeage ordinaire est le plus utilisé mais seul le krigeage simple sera développé ici car il intervient dans l'algorithme de simulation stochastique gaussienne séquentielle (cf. chapitre A.1.5).
L'estimateur du krigeage simple linéaire de z * 0 z(x 0 ) au point x 0 est défini comme suit:
(A.25)
[ i ]
i i
z m
m
z = + −
= ∑
= i
p
1 0 0
*
*
0 ( x ) z
z λ
où m z et m i sont les moyennes de z(x) et de z i
Il s'agit de trouver, en tout point x 0 , la valeur des coefficients inconnus appelés coefficients de pondération du krigeage.
p , 1 0 ) ( λ i i =
Deux conditions portant sur l'erreur d'estimation , sont imposés à cet estimateur :
0
* 0 0 ) x
( = z − z
ε
*
z 0
• La condition de non biais car le krigeage essaie d'avoir la moyenne résiduelle ou erreur égale à 0
[ * 0 ] 0
0 − z =
z
E (A.26)
• La condition de minimum de la variance de l'erreur d'estimation
[ ] [ * 0 2 ]
0 0
*
0 z E ( z z )
z
Var − = − minimum (A.27)
La variance de l'erreur d'estimation au point x 0 est:
(A.28)
[ ] ( x , x ) ( x 0 x ) 0
1 0 0
0 2
0 0
*
0 − = = − ∑ × − ≥
= i
p i
i C
C z
z
Var σ λ
Le système linéaire de krigeage, pour un modèle de semivariogramme, s'écrit sous sa forme matricielle suivante:
C × λ i 0 = D
(A.29)
⎟ ⎟
⎟ ⎟
⎟ ⎟
⎠
⎞
⎜ ⎜
⎜ ⎜
⎜ ⎜
⎝
⎛
=
⎟ ⎟
⎟ ⎟
⎟ ⎟
⎠
⎞
⎜ ⎜
⎜ ⎜
⎜ ⎜
⎝
⎛
⎟ ⎟
⎟ ⎟
⎟ ⎟
⎠
⎞
⎜ ⎜
⎜ ⎜
⎜ ⎜
⎝
⎛
1 0
1 1
1 1
1 0
1 0
1 0
0 20 10
0 0 2 0 1 0
3 2 1
2 23
21
13 12
n n
n n n
n in
γ γ γ
µ λ λ λ
γ γ γ
γ γ
γ
γ γ
γ
M M K
K
M M M
M M
K K
où γ ij (matrice de gauche) est la valeur du semivariogramme calculée pour la distance entre les deux points expérimentaux x i et x j : γ ij = γ Z ( x i , x j ) ;
et γ i 0 (matrice de droite) est la valeur du semivariogramme calculée pour la distance entre le point estimé x 0 et le point expérimental x i : γ i 0 = γ Z ( x i , x 0 ) .
Pour résoudre ce système, il suffit d'inverser la matrice, pour tout point x 0 . Ce système dépend uniquement de la distance entre les points expérimentaux (z i ) i=1,p et du modèle du semivariogramme choisi.
= C
i
λ 0 -1 × D (A.32)
Le coefficient de pondération est déduit par le système matriciel (A.32) et l'estimateur est alors calculé en utilisant l'équation (A.25).
*
z 0
Le krigeage dépend beaucoup des paramètres du modèle de semivariogramme définis. Ces paramètres peuvent affecter les coefficients de pondération du krigeage (Isaaks et Srivastava,1992):
• Le palier: le palier affecte la variance du krigeage, elle augmente du même facteur qui est utilisé pour mettre le palier à l'échelle du semivariogramme.
• L'allure du semivariogramme: suivant le modèle choisi, on peut obtenir des coefficients de pondération négatifs, ce qui peut produire une estimation erronée.
• L'effet pépite: plus l'effet pépite est élevé et plus la variance du krigeage augmente. L'estimation se rapproche alors d'un simple calcul de la moyenne des données.
• La portée: les changements dans la portée change de façon notable l'estimation.
La variance du krigeage n'est pas une "réelle" mesure sur la précision de
l'estimation de la valeur estimée, car elle ne dépend pas des valeurs aux points d'appui
mais dépend de la configuration spatiale des données (cf. équation (A.31)). Bien que
la variance associée à une valeur estimée diminue vers 0 quand on se rapproche de la
position du point simulé, l'incertitude au niveau d'un point simulé à la frontière entre
un point mesuré avec une valeur élevée (forte concentration par exemple) et un point
mesuré avec une valeur basse, sera faible. En effet, l'incertitude est seulement le
résultat de calcul lié à la propriété d'agencement spatial des points et non à la valeur
de ces points (Rautman and Istok, 1996).
A.4. Simulations stochastiques
Les simulations stochastiques génèrent un ensemble de réalisations qui sont statistiquement équivalentes (même loi spatiale) et statistiquement indépendantes, toutes reproduisant les caractéristiques statistiques et spatiales générales des données originales.
Le processus de simulations stochastiques permet, non pas d'obtenir la meilleure estimation (comme dans le cas du krigeage) mais de fournir des exemples de ce que pourrait être la réalité (inconnue) à l'intérieur d'une gamme d'incertitude donnée par l'estimation.
A.4.1. Simulations stochastiques non- conditionnelles
Les valeurs d'une réalisation de simulation stochastique non conditionnelle peuvent différer de celles des données expérimentales (Figure A.2b).
A.4.2. Simulations stochastiques conditionnelles
Les simulations stochastiques conditionnelles génèrent des réalisations qui
vérifient les valeurs observées (Figure A.2c).
Figure A.2. Comparaison des valeurs réelles et des valeurs obtenues (a) par krigeage, (b) par
simulations stochastiques non-conditionnelles et (c) par simulation stochastiques conditionnelles
(d’après Rentier, 2002).
A.4.3. Méthode de simulation stochastique Gaussienne séquentielle A.4.3.1. Introduction
De nombreuses méthodes de simulation stochastique sont utilisées (Deutsch and Journel, 1998; Goovaerts, 1997) et parmi ces méthodes, on en distingue deux types: les méthodes gaussiennes et non gaussiennes. Les méthodes gaussiennes considèrent que les variables suivent une loi de distribution gaussienne ayant toutes la même moyenne (espérance), la même variance et le même variogramme. Les algorithmes qui sont les plus utilisés sont ceux de la méthode des bandes tournantes (Matheron, 1973; Mantoglou and Wilson, 1982), des méthodes spectrales (Gutjahr, 1989), de la méthode de décomposition LU de Cholesky (Clifton and Neuman, 1982) et de la méthode des simulations gaussiennes séquentielles (Deutsch and Journel, 1998). Les méthodes non gaussiennes considèrent que les variables ne suivent pas une loi de distribution gaussienne. Les algorithmes principales utilisés sont les méthodes de simulation des indicatrices (SIS) (Journel and Alabert, 1989,1990; Gomez- Hernandez and Srivastava, 1990), l'algorithme du recuit simulé (Deutsch and Journel, 1998), l'approche booléenne (Haldorsen and Chang, 1986) et la méthode des chaînes de Markov (Doveton, 1994).
Seule la méthode de simulation gaussienne séquentielle sera décrite ici car c'est celle utilisée dans notre procédure d'estimation (Deutsch et Journel, 1998).
Ces simulations stochastiques diffèrent du krigeage principalement par deux aspects (Deutsch and Journel, 1998; figure A.3):
1. Le krigeage fournit la meilleure estimation donc unique de la valeur estimée sans tenir compte des résultats des propriétés statistiques et spatiales de l'ensemble des valeurs estimées. La simulation stochastique fournit des représentations globales en reproduisant les caractéristiques statistiques et spatiales originales.
2. Le krigeage fournit seulement une incertitude sur la précision de la valeur estimée
(cf. paragraphe A.3) et non sur l'ensemble des résultats. Les simulations fournissent
des incertitudes sur la valeur estimée mais aussi des incertitudes globales sur
l'ensemble des valeurs simulées sur la surface d'étude. Ces mesures d'incertitude sont
données soit en faisant la différence entre n valeurs simulées à chaque point (précision
locale) ou soit entre n cellules simulées (précision globale).
(a) (b)
Figure A.3. Représentation schématique de la procédure d’estimation (a) par krigeage et (b) par simulation
stochastique (d’après Rautman and Istok, 1996).
A.4.3.2. Procédure de la méthode de simulation stochastique gaussienne séquentielle
Dans l'algorithme de simulation gaussienne séquentielle, une valeur simulée au point x 0 , est estimée en utilisant une fonction de distribution cumulative calculée à partir des valeurs observées (mesurées) et des valeurs précédemment simulées au voisinage de ce point. L'algorithme commence en un point sélectionné de façon aléatoire et continue de façon séquentielle, suivant une trajectoire, sur toute la grille représentant la zone qui doit être simulée. Si des réalisations multiples sont nécessaires, l'algorithme est répété n fois en considérant un ordre aléatoire différent pour chaque réalisation.
L'algorithme gaussienne séquentielle procède en 4 étapes:
(1) La procédure de simulation gaussienne séquentielle opère sur la base de données ayant une distribution Gaussienne multivariable. Les données de flux de CO 2
sont généralement biaisées positivement dues aux anomalies élevées. Ces données doivent alors être transformées pour obtenir une distribution normale (Figure A.4).
On utilise une transformation qui procède par substitution des valeurs mesurées en
quantiles correspondantes d'une distribution normale centrée (moyenne égale à 0)
réduite (écart type égale à 1).
Flux de CO2 en scores normaux (pas d'unité)
-3 -2 -1 0 1 2 3
Fréqu en ce (% )
0 2 4 6
0 500 1000 1500 2000 2500 3000 3500
Fréqu en ce (% )
0 2 4 6 8 10
F réq u ence cumu lée
0.0 0.2 0.4 0.6 0.8 1.0
Flux de CO2 (g.m-2.j-1)
F réqu ence cumu lée
0.0 0.2 0.4 0.6 0.8 1.0