• Aucun résultat trouvé

l’analyse géostatistique

DEPARTEMENT NO_ETUDE

III.4.3 Analyse géostatistique

Généralités

La géostatistique se définit comme l’étude des variables numériques réparties dans l’espace (Buc- cianti et al., 2000). Conçue pour répondre à des problèmes d’ingénierie minière et de géologie (Chauvet, 2008 ; Matheron, 1963), elle est au- jourd’hui largement utilisée dans les sciences envi- ronnementales comme le témoignent les nombreux ouvrages qui lui sont dédiés (Matheron 1963 ; Journel, 1986). Pour un historique de la discipline, le lecteur peut se référer aux ouvrages de (Cressie, 1993 ; Goovaerts, 1997 ; Webster et Oliver, 2007). Les fondements théoriques de la géostatistique mo- derne reposent sur la Théorie des Variables Régio- nalisées, formulée par le mathématicien français G. Matheron (Chauvet, 2008 ; Webster et Oliver, 2007). L’apport essentiel de cette théorie est de pro- poser des solutions aux problèmes d’estimations des gisements miniers en ayant recours à des modèles probabilistes et aux outils mathématiques qui leur sont associés (Journel, 1986).

La géostatistique s’applique à ce que Matheron ap- pelle un phénomène régionalisée, à savoir « […]un phénomène qui se déploie dans l’espace et y manifeste une certaine structure […]» (Matheron, 1978). C’est ce phénomène naturel – qu’on suppose défini dans un domaine borné S (espace géographique à 1,2 ou 3 dimensions, ou encore temps ou d’autres espaces plus complexes) – qui constitue la réalité physique que nous cherchons à étudier. Pour faire cela, « nous supposons que ce phénomène se laisse décrire de ma- nière satisfaisante par la donnée d’une (ou éventuel- lement plusieurs) fonction z définie sur S, que nous appellerons, d’un terme général, variable régionali- sée (V.R.) » (Matheron, 1978). La théorie des V.R a dans cette optique deux buts : 1) exprimer sous une forme mathématique appropriée les caractéristiques structurales de la variable régionalisée ; 2) estimer la V.R. en se basant sur un échantillonnage frag- mentaire (Matheron, 1970).

Le premier objectif est abordé par la construction d’un modèle mathématique qui est sensé être le plus proche possible de la réalité. Cette démarche se fait soit en travaillant sur la V.R. sans aucune hypothèse probabiliste : c’est la géostatistique tran- sitive ; soit en travaillant sur des hypothèses pro- babilistes : c’est la géostatistique intrinsèque. Ces deux méthodes obtiennent des résultats compa- rables, mais il est possible de montrer que finale- ment, même pour la géostatistique transitive il n’est pas réellement possible d’éviter d’interprétations probabilistes, qui elles sont propres à la géostatis- tique intrinsèque (Matheron, 1970). Au vu de ces

constatations, nous ne développerons ici que la géostatistique intrinsèque.

La géostatistique intrinsèque

En géostatistique intrinsèque, on se place dans un cadre probabiliste. La variable régionalisée est considérée comme réalisation d’une Fonction Aléa- toire (Matheron, 1965). Le modèle qu’on essaie de reconstituer est celui de la Fonction Aléatoire (F.A.) qui est définie à la fois dans un espace géographique et dans un espace probabilisé. Soit, la formule :

où Z est la Fonction Aléatoire, définie dans un point x (espace géographique) et comme réalisation d’un événement ω de l’espace probabilisé ; z est la variable régionalisée.

Le problème fondamental qui se pose pour la Fonc- tion Aléatoire est qu’on essaie de la reconstituer à partir d’une seule réalisation (le phénomène phy- sique étudié). Mais l’inférence statistique ne peut pas généralement se baser sur une seule réalisation de la F.A. (Matheron, 1970). Pour cette raison, on introduit une hypothèse supplémentaire sur la F.A., l’hypothèse stationnaire, qui permet de justi- fier l’inférence statistique à partir d’une seule réa- lisation (Matheron, 1970). La F.A. est stationnaire lorsque sa loi de probabilité est invariante par trans- lation. Cette hypothèse est très forte parce qu’elle demande que tous les moments de la loi de pro- babilité soient constants dans l’espace, ce qui est inapplicable pour une variable régionalisée. On se limite alors à une propriété de stationnarité d’ordre 2 (Matheron, 1970). La F.A. est stationnaire d’ordre 2 lorsque ses deux premiers moments sont invariants dans l’espace :

i. l’espérance mathématique est constante pour tout point de l’espace : m = E[Z(x)] et donc m(x0 + h) = m(x0) pour tout vecteur h (vecteur de l’espace géographique) ; ii. pour tout vecteur h, la covariance (K) existe

et ne dépend pas de la position du point dans l’espace : K(h) = E[ Z(x) Z(x+h)] et donc K(x0 ; h) = K(xi ; h) pour tout vecteur h et pour tout point xi (i > 0) de l’espace. L’hypothèse de stationnarité d’ordre 2 satisfait la théorie des V.R. mais elle suppose l’existence d’une variance a priori finie K(0) (Matheron, 1970). Ce- pendant, nombreux sont les phénomènes naturels qui présentent plutôt une variance infinie. Dans des telles cas, l’observation d’une variance finie est plu- tôt le résultat de l’échantillonnage. Pour pallier ce dernier obstacle, on suppose que ce sont les accrois-

III.4 : Méthode

sements entre les points qui ont une variance finie : c’est l’hypothèse intrinsèque (Matheron, 1970). La F.A. respecte l’hypothèse intrinsèque lorsque, pour tout vecteur h, les accroissements entre les points ont une espérance et une variance indépendante de la position des points :

(et donc par exemple

(h)

correspond à ce que l’on appelle le semi-

variogramme de Z, ou fonction intrinsèque. Le terme variogramme est habituellement employé au lieu du terme semi-variogramme. Cet usage a été adopté dans ce travail.

Si l’on se place dans le cas où les moyennes pour chacun des points de l’espace sont constantes, on obtient d’après (2) et (3) :

L’analyse variographique

L’analyse variographique (ou variographie) consti- tue la véritable phase opérationnelle des géostatis- tiques. C’est au cours de cette étape qu’on élabore un modèle mathématique à partir des données expérimentales dont nous disposons. La construc- tion du variogramme permet de répondre fina- lement au premier but de la théorie des V.R., à savoir exprimer sous une forme mathématique les caractéristiques structurales de la variable régiona- lisée. D’autre part, il contribue à évaluer d’un œil critique la validité des hypothèses de stationnarité (Chauvet, 2008).

On élabore d’abord ce que l’on appelle le vario- gramme expérimental, qui correspond à :

ou m(h) est le nombre de paires de points séparés par une distance h donnée.

On obtient ainsi une série de semi-variances γ1, γ2,

γ3...qui peuvent être représentées en fonction de h

(Fig. III.10).

Lorsqu’on travaille sur un espace bidimensionnel le variogramme expérimental peut être réalisé selon différentes directions, afin de tester une éventuelle anisotropie des valeurs. On choisit normalement 4 directions : 0, 45, 90, 135°. L’étendue du cône de recherche pour chaque direction est souvent fixée à 45°, ce qui permet d’inclure l’ensemble des données et d’éviter d’éventuels chevauchements (Webster et Oliver, 2007) (Fig. III.11).

E Z(x + h) Z(x)

[

]

=m(h) (2) E[Z(x0+h) Z(x0)] = E[Z(x1+h) Z(x1)]) 1 2Var[Z(x + h) Z(x)]= (h) (3) 1 2E[(Z(x + h) Z(x))2]= (h) (4) (h) = 1 2m(h)

{

z(xi) z(xi+h)

}

2 i=1 m(h) (5) 0.005 100 200 300 400 500 0 0 0.010 0.015 0.020 distance de voisinage/m (h) (h)

Fig. III.10 : Exemple de variogramme expérimental. Chaque point correspond à l’estimation de la semi-va- riance pour une distance de voisinage donnée. Modifié d’après Webster et Oliver (2007).

De cette manière on construit cinq variogrammes, dont quatre directionnels et un ne tenant pas compte de la direction (ou variogramme omnidi- rectionnel). La construction du variogramme expé- rimental est résumée sous forme d’exemple (Fig. III.12).

L’intérêt final de l’analyse variographique est de connaître la valeur de γ(h) pour toute distance. Ce n’est pas le cas du variogramme expérimental qui lui permet de connaître la valeur de seulement pour un série limitée de distances |h|. On cherche pour cette raison une fonction permettant de représenter en continu la valeur de γ(h) : c’est le variogramme théorique. La fonction doit être en mesure de repré- senter les caractéristiques suivantes (Fig. III.13a) :

i. un accroissement monotone de γ(h) au fur et à mesure que la distance h augmente ; ii. un seuil maximum constant ou asympto-

tique, nommé « palier ». La valeur de γ(h) au niveau du palier correspond théorique- ment à la variance du processus naturel étudié (Webster et Oliver, 2007). La dis- tance correspondant au palier est appelée portée. La portée est de fait la distance au delà de laquelle la valeur de γ(h) est inva- riante quelle que soit la distance entre les points ;

iii. une intercepte positive sur l’axe des ordon- nées. Théoriquement, la fonction devrait avoir γ(h) = 0 pour |h| = 0. Dans la réalité, l’intercepte a souvent une valeur positive, ce qui implique une discontinuité dans Z(x). Ce phénomène, appelé « effet de pépite », est normalement lié à des erreurs de mesure

ou à des variations spatiales inférieures au pas d’échantillonnage ;

iv. d’éventuelles fluctuations périodiques ; v. une anisotropie.

Les fonctions utilisées le plus souvent pour construire le variogramme théorique sont illustrées sur la Fig. III.13b. Dans cette figure, sont unique- ment présentées les fonctions avec un seuil maxi- mum de semi-variance (fonctions bornées) car ce sont les seules qui correspondent à des cas de sta- tionnarité d’ordre 2.

La méthode utilisée pour trouver le meilleur ajus- tement d’une fonction théorique avec les points du variogramme expérimental est celle qui minimise les écarts entre les points et la fonction (Webster et Oliver, 2007). Dans ce travail l’ensemble de l’ana- lyse variographique, y compris cette dernière étape, a été faite en utilisant le programme VarioWin (Webster et Oliver, 2007). largeur maximale de bande 2/ α tolérance de distance h h1 h2 h = h1 = h2 α = 45°

Fig. III.11 : Cône de recherche des points - cas d’une grille irrégulière - pour le calcul de la semi-variance à une distance h et dans une direction donnée. La tolé- rance de distance correspond à la distance de voisinage (Fig. III.10). Modifié d’après Pannatier (1996).

III.4 : Méthode 100 150 200 400 350 300 200 150 100 300 350 400 (1) Carte de distribution des échantillons 40 30 20 10 10 20 z(x) 30 40 z(x+h) Diagramme de dispersion H - dir 14°- distance de voisinage 4 (2) Nuage du Variogram - Dir 14 ° (|h|) 400 300 200 100 0 0 25 50 75 (4) |h| (|h|) (|h|) 80 60 40 20 25 50 75 0 0 (5) Variogram - dir. 14° (3) Isosurfaces du variogramme -50 -25 0 0 0 25 25 50 -50 -25 0 25 50 50 50 25 -25 -25 -50 -50 dir 14°

Fig. III.12 : Exemple des étapes de construction du variogramme expérimental dans le cas d’une grille irrégulière. 1) Cas d’une distribution irrégulière des échantilllons. 2) A chaque intervalle de distance h peut être associé une diagramme de dispersion. Cela montre à quel degré la différence des valeurs d’une variable donnée entre deux sites situés à une distance fixe est constante dans l’espace. 3) La carte des isosurfaces du variogramme permet d’observer la présence d’éventuelles anisotropies des valeurs de γ(h). 4) Valeurs de γ(h) associés à chaque couple de points pour une distance donnée. La dispersion des données donne une première visualisation du variogramme expérimental (5). Modifié d’après Pannatier

Portée Palier 0 0 Effet de pepite (h) 0 0 0.5 0.5 1.0 1.0 1.5 (h) Linéaire 0 0 0.5 0.5 1.0 1.0 1.5 (h) Sphérique 0 0 0.5 0.5 1.0 1.0 1.5 (h) Circulaire 0 0 0.5 0.5 1.0 1.0 1.5 (h) Pentasphérique A B

Fig. III.13 : A) Paramètres principaux du variogramme théorique ; B) Fonction principales utilisées pour la construc- tion du variogramme théorique. Modifié d’après Webster et Oliver (2007).

III.4 : Méthode

Le Krigeage Généralités

Le deuxième but d’une étude géostatistique, consiste à estimer la valeur de la variable régionalisée dans tous les points de l’espace (1,2 ou 3 dimensions). Ce problème d’estimation a été résolu par Panna- tier (1996) au moyen d’un procédé géostatistique appelé krigeage. A l’heure actuelle ce terme peut sembler très général car il existe plusieurs types de krigeage (simple, ordinaire, universel, log-normal, indicatif, disjonctif…). Cependant il faut souligner qu’il n’existe qu’une seule méthode de krigeage et que les adjectifs la qualifiant se réfèrent à son adaptation à des circonstances particulières (par exemple stationnarité ou non) (Chauvet, 2008). En termes généraux, le krigeage vise à estimer la

valeur de la variable Z en un point x0 non échan-

tillonné en faisant une moyenne pondérée des échantillons disponibles dans son voisinage (Chau- vet, 2008), ce qui s’écrit :

où :

-ˆZ(x0) est l’estimateur ;

-N correspond au nombre de points expéri- mentaux pris en compte dans l’estimation ;

i au poids affecté à chaque point connu ;

-z(xi) correspond aux valeurs connues.

Les poids doivent être choisis en tenant compte de deux conditions :

i. leur somme doit être non biaisée et pour cela on impose que

ii. la variance d’estimation prend la valeur minimale.

La variance d’estimation s’écrit :

où :

- γ (xixj) est l’estimation de la semi-variance de Z

entre les points xixj ;

- γ (xix0) est la semi-variance entre le i-ème point et le point à estimer x0.

L’explicitation de cette formule sous forme d’un système d’équations linéaires relativement aux poids et de sorte que la variance d’estimation sous la plus petite possible, permet en suite l’estimation des valeurs inconnues selon 6). Il est enfin possible de démontrer mathématiquement (cf. Matheron, 1970) que le krigeage est un interpolateur exact, au sens où si le point à estimer devait par hasard coïn- cider avec un point de valeur déjà connue, les deux valeurs seraient exactement les mêmes.

Dans ce travail, nous avons utilisé le krigeage ordi- naire pour l’interpolation de nos données car c’est celui le plus utilisé et le plus robuste (Webster et Oliver, 2007). Ce type de krigeage, qui se fait avec l’hypothèse d’une Fonction Aléatoire stationnaire d’ordre 2, ne suppose pas comme connue l’espé- rance m. Pour réaliser l’interpolation, nous avons utilisé le module d’analyses géostatistiques du logi- ciel ArcGis (version 9.3).

Le krigeage des épaisseurs et des analyses granulomé- triques : quelle différence ?

L’analyse variographique, énoncée dans les para- graphes précédents, s’applique dans sa conception originelle à des données variant dans l’espace des nombres réels. Elle peut donc être appliquée direc- tement pour la modélisation et l’estimation des variations d’épaisseur des dépôts lœssiques. En revanche les données granulométriques, étant des données compositionnelles (cf. III.4.1), ne peuvent pas être analysées directement car leur distribution ne se déploie pas dans l’espace des nombre réels. Les problèmes liés à cette contrainte ont été énoncés précédemment (cf. III.4.1) et les méthodes géosta- tistiques ne font pas exception (Pawlowsky-Glahn, 1984 in Pawlowsky et Burger, 1992).

La réalisation d’une analyse variographique directe sur les données compositionnelles comporte au niveau du krigeage des distorsions connues des pra- ticiens :

i. la somme des différentes composantes esti- mées séparément n’est pas toujours égale à 100 % en tout point de l’espace ;

ii. des valeurs négatives peuvent apparaître dans les estimations, puisque les variables sont considérés appartenir à l’espace des nombre réels (Isaaks, 1989; Pawlowsky- Glahn et Olea, 2004).

ˆZ(x

0

) =

i

z(x

i

)

i=1 N

(6)

i=1 i=1 N (7) var[ ˆZ(x0)]= E ˆZ(x

{

0) Z(x0)

}

2 = 2 i (xi, x0) i=1 N i j (xixj) j=1 N i=1 N (8)

Pawlowsky-Glahn et al. (1995) décrivent deux mé- thodes possibles et les comparent avec les résultats obtenus en traitant les données compositionnelles classiquement. Dans la méthode des bases, chaque composante d’une composition est rapportée à une grandeur régionale connue et fixe. Ainsi, pour une composition X avec d composantes, on obtient une composition régionalisée qui est égale à :

où :

P(x) (est la composition régionalisée ;

T(x) correspond à la somme de toutes les compo-

santes de la composition originelle (T1(x) + T2(x) +

... TD(x)) et est donc égale à 1 ou 100 % ;

T(x) est la base ou grandeur régionale connue (par exemple l’épaisseur d’une formation géologique). Cette nouvelle composition peut-être traitée avec les techniques standard de l’analyse statistique et les résultats du krigeage peuvent par la suite être rétro-transformées pour obtenir les valeurs origi- nelles.

La deuxième méthode proposée se base sur la trans- formation log-rapport additive qui a été abordée dans le chapitre III.4.1. Comme pour la méthode des bases, les analyses géostatistiques sont appli- quées aux données transformées et les variables ré- sultant du krigeage sont en suite retro-transformés pour obtenir les variables originelles.

Les avantages de ces deux méthodes sont détaillés par les auteurs. Nous retiendrons ici les deux prin- cipales :

i. la somme des valeurs rétro-transformées après krigeage est égale à 100 % ou 1 comme dans les valeurs originelles ;

ii. toute l’information est intégrée dans le processus d’estimation ce qui permet, du moins sur un plan théorique, d’obtenir des meilleures estimations.

D’autre part, ces deux méthodes ont aussi des désa- vantages, le principal étant que la structure spatiale et les erreurs d’estimation des variables originelles ne sont pas calculées ni représentées et ne peuvent pas être dérivées à partir des résultats obtenus. Les erreurs d’estimation des variables originelles peuvent toutefois être évalués par validation croisée (cf. III.4.1) en utilisant des indicateurs appropriés (Martín-Fernández et al., 2001).

Pour les deux méthodes présentées ici, Pawlowsky et al. (1995) conseillent d’utiliser le co-krigeage pour les données transformées et de se limiter au krigeage ordinaire seulement si les composantes d’une composition données ne sont pas corrélées spatialement. Il semblerait toutefois que même dans le cas de compositions ayant des composantes corrélées spatialement, les résultats obtenus par krigeage ordinaire et par co-krigeage ont des dif- férences négligeables au niveau de la précision des estimations (Martín-Fernández et al., 2001). Dans ce travail, nous avons réalisé le krigeage ordinaire sur les données granulométriques trans- formées selon la transformation log-rapport iso- métrique qui a été présentée en chapitre III.4.1. Le tableau III.5 montre la partition binaire séquen- tielle qui a été utilisée et le tableau III.6 montre la formule pour le calcul de chaque coordonnée.

SG SF LG LF

b1 -1 -1 -1 1

b2 -1 -1 1 0

b3 -1 1 0 0

Cette transformation, dans le cadre d’une analyse géostatistique, présente l’avantage par rapport à la méthode alr d’utiliser des coordonnées orthonor- mées, ce qui permet une meilleure approximation parce que les erreurs d’estimation (des variables transformées) ne dépendent pas du dénominateur choisi (Vera Pawlowsky-Glahn, com. pers.). La démarche que nous avons choisie n’est pas la meil- leure d’un point de vue mathématique, mais elle permet déjà d’éviter les biais de la somme et surtout elle respecte la nature compositionnelle des don- nées. Pour des méthodes plus avancées, le lecteur pourra se référer à Walvoort et de Gruijter (2001) et Tolosana-Delgado et al. (2011).

P(x) = T(x)

T(x)= TT(x)1(x)TT(x)2(x)...TT(x)d(x)TT(x)D(x)

Tab. III.5 : Partition Binaire Séquentielle des données granulométriques en vue de l’analyse géostatistique. Sg = Sables grossiers (2000-200 µm) ; Sf = Sables fins (200- 50 µm) ; Lg = Limons grossiers (50 – 20 µm) ; Lf = Limons fins (20-2 µm).

Tab. III.6 : Formule pour le calcul des balancières construites dans le Tab. III.4.

III.4 : Méthode

Validation croisée

L’évaluation du modèle qui a été ajusté aux don- nées expérimentales (variogramme théorique) peut se faire en suivant un procédé de validation croi- sée (Webster et Oliver, 2007). La valeur de Z est estimée par krigeage et cette opération est répétée en enlevant à chaque fois un des points de valeur connue. On arrive ainsi à calculer les statistiques suivantes : L’écart moyen : EM = 1N

{

z(xi) ˆZ(xi)

}

i=1 N L’écart quadratique moyen :

L’écart quadratique moyen réduit : EQMR = 1 N z(xi) ˆZ(xi)

{

}

2(x i) 2 i=1 N

Pour les trois équations, z(xi) est la valeur connue,

Z(xi) la valeur estimée par krigeage et N le nombre

de points de valeur connue. Pour le EQMR, σ2(x

i)

correspond à la variance de krigeage.

L’écart moyen doit être idéalement le plus proche de 0. D’après Webster et Oliver (2007), le EM est toutefois peu discriminant car le krigeage est peu sensible aux inexactitudes du variogramme. L’écart quadratique moyen semblerait être plus adéquat et doit être le plus petit possible. Par conséquent, l’écart quadratique moyen réduit devrait être proche de 1. Tous ces estimateurs peuvent s’appli- quer directement pour les épaisseurs ainsi que pour les données granulométriques puisque celles-ci ont été transformées par irl.

Il est aussi possible d’estimer la validité du modèle ajusté en utilisant un jeu de données indépendant qui n’ait pas été utilisé dans l’analyse variogra- phique.

Dans ce travail, nous avons suivi les deux approches décrites ci-dessus. Le jeu de données sélectionné pour l’analyse géostatistique a été partitionné avant de réaliser l’analyse variographique. Le partition- nement a été fait sur ArcGis en utilisant le module

proposé par Webster et Oliver (2007). Nous avons choisi d’enlever, pour chacun des jeux de données utilisées (granularité, épaisseurs), 10 % du nombre total de points. Les 90 % restant ont été utilisés pour l’analyse variographique et le calcul des statistiques EM, EQM et EQMR. On peut de cette manière réaliser un diagramme de dispersion et sa droite de corrélation associée avec les données réelles (jeu indépendant) et les données estimées par krigeage. En ce qui concerne les données granulométriques, nous avons préféré évaluer l’accord entre données estimées et réelles par le calcul de la somme des carrés des résidus standardisés (STRESS) comme proposé par Pawlowsky-Glahn et Olea (2004). Cet indicateur est utilisé pour les données classiques (Cox et Cox, 1994 in Pawlowsky-Glahn et al., 2004) et sa formule est :

ou δij est la distance euclidienne entre deux ob-

servations du jeu de données originel et δ*

ij est la distance euclidienne de ces mêmes observations dans le jeu de données estimées. L’indicateur a été adapté aux donnés compositionnelles par Pawlows- ky-Glahn et Olea (2004) et la formule est alors égale à :

ou da , qui est la distance d’Aitchison (Aitchison

1986) et correspond à la distance entre deux obser- vations dans le simplexe, est ici égale à :

ou gm(x) est la moyenne géométrique de la composi-

tion x. De par la formule du STRESS, plus l’indice est proche de zéro, plus la différence entre données estimées et données réelles est faible, et donc meil-