• Aucun résultat trouvé

Chapitre 1 : Généralités sur l’analyse spatiale

1.4. Techniques d’interpolation spatiale

1.4.3. Analyse variographique

L’analyse variographique permet de déterminer les poids des voisins lors de l’interpolation spatiale [63]. En tant qu’étape préalable à l’interpolation spatiale, l’analyse variographique (variographie ou analyse structurale) vise à étudier la structure de dépendance spatiale éventuelle à courte échelle des données en

quantifiant cette dépendance spatiale. Cette dépendance caractérise la manière dont les valeurs d’une variable d’intérêt se ressemblent. L’analyse variographique est l’étude du variogramme. Ce dernier, appelé aussi semi-variogramme, est la demi-variance de la différence entre les valeurs prises par une variable aléatoire

dans deux sites d’observationsset s h+ séparés d’une distance h [64] :

( )

1

(

)

( )

2 h Var Z s h Z s γ = (* + − )+ (1.26) avec s=s x y

(

,

)

D , 2

h∈ ! , x la longitude et y la latitude. Bien que, dans la

littérature statistique, le variogramme est anciennement désigné par 2

γ

( )

h , nous conserverons l’appellation de variogramme pour désigné le semi-variogramme. Le variogramme expérimental ou empirique, c’est-à-dire lié aux données, est une représentation graphique de l’autocorrélation spatiale entre les paires de points où les valeurs de la variable ont été observées.

De ce fait, il caractérise la dissemblance entre les valeurs prises par la variable aléatoire en deux endroits. Son rôle est de contrôler l’interpolation spatiale en évaluant ses paramètres (Figure 20) :

- l’effet pépite : valeur de la covariance à une distance nulle ; c’est une discontinuité à l’origine qui peut être due à l’erreur de mesure ;

- la portée : valeur de la distance à partir de laquelle la covariance (la variance) reste constante ; c’est la distance à partir de laquelle les observations ne sont plus dépendantes ; c’est la portée théorique. A la place de la portée théorique, l’on peut aussi s’intéresser à la portée pratique, c’est-à-dire la valeur de la distance pour laquelle la covariance atteint 95% de sa valeur ; les points au-delà de la portée ne sont pas pris en compte lors de l’interpolation ; - le palier : valeur de la covariance maximale où cette distance est atteinte.

Figure 20 : Paramètres du variogramme expérimental

Source : Gaetan C et al, 2008

L’analyse variographique permettra de sélectionner la distance (portée) à partir de laquelle il n’y a pas de dépendance dans les données ainsi que ses autres paramètres.

L’hypothèse de stationnarité d’ordre 2 suppose que la variance existe et est finie. Dans le cas où cette hypothèse n’est pas vérifiée (cas de variance infinie), elle est substituée par une hypothèse plus faible, l’hypothèse de stationnarité intrinsèque, du champ aléatoire.

Sous cette hypothèse, l’espérance mathématique et la variance du champ aléatoire sont invariantes par translation :

( )

(

)

( )

{

(

)

( )

}

( )

2 2 2 ; 1 1 ; , 2 2 te E Z s c s Var Z s h Z s E Z s h Z s h s s h µ γ , (* )+= = ∀ ∈ - . + − = + − = ∀ + ∈ ( ) ( ) - * + * + / ! ! (1.27)

C’est au cours de l’analyse variographique que se fait la vérification de la stationnarité définie plus haut et de l’anisotropie définie comme étant une variation

de la structure spatiale du phénomène d’intérêt selon la direction. En supposant que le variogramme ne varie pas selon les directions (isotropie), la nuée variographique qui désigne le nuage variographique se construit en mettant en abscisse toutes les

combinaisons possibles des distances entre les paires formées à partir des n points

et en ordonnée les valeurs du variogramme :

( )

( )

2 0 1 , , , 1,..., 2 i j i j N =.,"$ ss *(Z sZ s )+ #% i j= n et ij01 & ' / 2 (1.28)

Visuellement, un tel graphique permet de repérer les couples de valeurs aberrantes [11]. Cette aberrance peut avoir pour effet de rendre instable le variogramme expérimental en le faisant varier selon des directions, ce qui traduit la présence d’anisotropies, ou en le faisant dépendre de la position des points, ce qui traduit la non-stationnarité. La nuée variographique, construite à partir des mêmes données de prévalence du VIH au Burundi en 2010, ne montre aucun couple de grappes berrantes (Figure 21).

Figure 21 : Nuée variographique de la prévalence du VIH, Burundi 2010

Cette figure ne montre pas de lien linéaire entre les incréments des distances

ij i j

h = ss et la semi-variance qui leur correspond. Après analyse de la nuée

variographique, les variogrammes expérimentaux constant et directionnel (angulaire) respectivement sont construits. Cette construction peut se faire de deux manières qui diffèrent par la manière d’estimer l’espérance mathématique du variogramme. Il s’agit de la méthode classique, dite méthode de Mathéron ou méthode des moments, qui estime l’espérance par la moyenne empirique (par classe de distance ou lag) et la méthode robuste contre les valeurs aberrantes, dite méthode de Cressie, qui consiste à élever le carré de l’incrément Z s

(

+h

)

Z s

( )

à la puissance

0.25 afin de corriger l’asymétrie (absence de normalité) qui apparaît dans la distribution du carré de l’incrément.

Il n’y a pas de critère statistique permettant de se rendre compte des couples aberrants. Leur détection n’est que visuelle, ce qui paraît subjectif. À partir des mêmes données de prévalence du VIH au Burundi en 2010, un exemple de nuée variographique avec des couples aberrants peut s’obtenir en se limitant, à titre illustratif, aux couples de grappes dont la distance ne dépasse pas 2 km (Figure 22).

Figure 22 : Nuée variographique de la prévalence du VIH avec couples aberrants,

Burundi 2010

Contrairement à la nuée variographique représentée par la figure 16, cette nuée variographique met en ordonnées les carrés des différences entre les valeurs prises par la variable à chaque paire de points et montre que les couples de grappes

(42,249) de la province Ngozi, (71,193) de la province Ruyigi et (302,249) de la province Ngozi sont aberrants. En effet, les grappes n° 42 et 249 sont géographiquement proches (1,0 km) et ont des prévalences du VIH très éloignées (0 % et 22,7 % respectivement). Il en est de même pour les grappes n° 71 et 193 (1,3 km) de prévalences respectives de 26,8 % et 0 %. Les grappes n° 249 et 302 sont géographiquement éloignées (1,8 km) mais ont des prévalences nulles. De même, les grappes n° 302 et 193 sont très éloignées (99,4 km) et ont les mêmes prévalences. Il en est de même pour les grappes n° 249 et 193 distantes de 101,2 km et qui ont des prévalences nulles. Tout cela contredit la loi de Tobler selon laquelle les prévalences du VIH observées dans des sites proches devraient plus se ressembler que les prévalences observées dans des sites éloignés.

La relation (1.26) est valable pour une paire de points. En généralisant cette relation au cas de toutes les paires de points sipuis en posant ( )N h l’ensemble des paires

de points séparés d’une distance 2

h∈ ! , le variogramme classique sans dérive est

estimé par : "

( )

( )

( )

( ) 2 , ( ) 1 2 ( ) i j n i j s s N h h Z s Z s N h γ ∈ ( ) =

!

*+ (1.29)

N h( )est le cardinal de ( )N h .

La variable d’intérêt est supposée continue. Afin de s’assurer de cette continuité dans toutes les directions, il convient de calculer le variogramme directionnel. Le

variogramme selon la direction

θ

est estimé par :

"

( )

(

)

( ) ( )

( )

( )

2 , , 1 2 , i j n i j s s N h h Z s Z s N h θ γ θ ∈ ( ) =

!

*+ (1.30)

θ

est la valeur de l’angle selon lequel le variogramme est estimé. Ce

stationnaires de second ordre. Les angles les plus utilisés sont 0°, 45°, 60°, 90° et 135° avec la possibilité de les personnaliser.

Sous l’hypothèse de stationnarité, le variogramme exprimé par la relation (1.26) est

la moitié de l’espérance mathématique du carré de l’incrément Z s

(

+h

)

Z s

( )

. Sous

l’hypothèse de normalité, le carré de l’incrément Z s

(

+h

)

Z s

( )

suit une loi du Chi- deux à un degré de liberté. Du fait que cette loi est de distribution est asymétrique,

Cressie et Hawkins (1980) ont proposé de transformer l’incrément Z s

(

+h

)

Z s

( )

en

l’élevant au carré, puis en élevant le résultat obtenu à une puissance λ. C’est la

valeur

λ

=0, 25 qui conduisait à une variable transformée

( )

{

(

)

( )

2

}

0,25

Y s = (*Z s+hZ s )+ proche de la normalité. La variable transformée

s’écrivait alors Y s

( )

= Z s

(

+h

)

Z s

( )

12 . L’élévation membre à membre à la

quatrième puissance conduit à une expression dont le second membre est le carré de l’incrément Z s

(

+h

)

Z s

( )

.

Après quelques transformations, l’espérance mathématique de

( )

( )

4 2 Y s h

γ

était donnée par 0, 457 0, 494 0, 0452 n n

+ + où nest le nombre de paires de points, ce qui a conduit au

variogramme robuste [13,65] :

( )

( )

( )

( ) ( )

( )

( )

4 1 1 2 , 0, 988 1 0, 914 i j n i j s s N h h Z s Z s N h N h γ − ∈ , 0 , 0 - - - - =. + 1 . − 1 - - - - / 2 /

!

2 (1.31)

Le dénominateur de l’estimateur robuste de Cressie sert à corriger le biais sous la normalité. Son estimateur peut cependant être parasité par la présence d’une valeur aberrante singulière [63]. La robustesse du variogramme a été également étudiée grâce à l’utilisation des quantiles des différences absolues et à l’estimation de ses paramètres et son ajustement par des méthodes bootstrap [63,66].

Dans le cas où le champ aléatoire n’est pas stationnaire, c’est-à-dire que son espérance mathématique n’est pas constante sur tout le domaine d’étude, alors il y a tendance. Dans ce cas, il est décomposé en une somme d’une partie déterministe (son espérance) et d’une partie aléatoire. Les variations du variogramme à courte échelle sont alors modélisées par la partie aléatoire qui vaut la différence entre le champ aléatoire et son espérance mathématique. Les variations à grande échelle, quant à elles, peuvent être modélisées par une fonction des coordonnées géographiques (longitude/latitude) et/ou éventuellement d’autres variables quantitatives présentes dans la géodatabase. Lors de l’estimation d’un variogramme, il est donc possible de le considérer avec une tendance ou sans tendance (constante). Les variogrammes sans et avec tendance construits à partir des mêmes données que précédemment à l’aide de la méthode robuste présentent des distributions analogues (Figure 23). La distance moyenne est calculée pour chaque classe de distances h (pas ou distance de séparation) qui doit contenir au moins 30 points pour garantir un échantillon de grande taille et la semi-variance est calculée pour cette distance. Le variogramme est construit en mettant en abscisses cette distance et en ordonnées la semi-variance correspondante. À côté du variogramme omnidirectionnel ou du variogramme directionnel, il existe des variogrammes qui tiennent compte de la tendance. Cette tendance est soit définie par les coordonnées géographiques (variogramme avec tendance), soit par une autre variable présente dans les données. Dans tous les cas, comme le variogramme est un outil exploratoire, il permet de comparer les variogrammes sans et avec tendance, les variogrammes sans ou avec direction. Leur inconvénient est qu’il n’y a pas de test statistique connu permettant de choisir le meilleur variogramme. Si la semi-variance est faible pour des faibles distances h , alors cela renforce la présence de l’autocorrélation spatiale vue précédemment ou de dépendance spatiale à courte échelle dans les données. Il permet de détecter les anisotropies éventuelles dans les données en l’évaluant dans plusieurs directions [22].

Figure 23 : Variogramme expérimental de la prévalence du VIH, Burundi 2010

a) Sans tendance a) Avec tendance

Afin de juger de la significativité (à l’aide d’un graphique) du variogramme expérimental ou de s’assurer de l’existence d’une structure spatiale dans les données, des enveloppes de confiance à 100 % de ces variogrammes sont construits (Figure 24).

Figure 24 : Enveloppes du variogramme expérimental de la prévalence du VIH,

Burundi 2010

Ces enveloppes, situées de part et d’autre des distributions empiriques de la variable d’intérêt, permettent de tester (test de permutation de Monte-Carlo) l’hypothèse nulle d’absence d’une structure spatiale. Comme tous les points sont à l’intérieur des enveloppes, alors pouvons conclure à l’existence d’une structure spatiale dans les données. De plus, afin de s’assurer de l’absence des anisotropies, les variogrammes expérimentaux sont construits selon les directions (Figure 25). Cette figure montre que le variogramme est, à peu près, stationnaire. Cela veut dire que la continuité spatiale de la prévalence du VIH est, à peu près, la même dans toutes les directions, ce qui traduit l’absence des anisotropies.

Figure 25 : Variogrammes directionnels de la prévalence du VIH, Burundi 2010

a) Sans tendance b) Avec tendance

Une fois que la distance maximale retenue (portée) à partir de laquelle la variance se stabilise, le variogramme avec ou sans tendance, le variogramme omnidirectionel ou directionnel sont choisis, il convient d’ajuster le variogramme expérimental par un modèle de variogramme théorique soigneusement choisi. Il existe plusieurs modèles théoriques tels que le modèle linéaire, le modèle linéaire exponentiel, le modèle linéaire sphérique et le modèle linéaire de Matérn. L’ajustement se fait par la méthode des moindres carrés ordinaires (MCO), la méthode des moindres carrés généralisés (MCG), la méthode des moindres carrés pondérés (MCP) et la méthode du maximum de vraisemblance (MMV). Le modèle retenu est celui qui minimise la

somme des carrés des résidus ou celui ayant un petit effet de pépite. Il est également d’usage de subdiviser l’échantillon en un échantillon-test et un échantillon d’apprentissage afin d’estimer l’erreur quadratique moyenne comme erreur de prédiction par une méthode de validation croisée. Une méthode avec une erreur de prédiction plus petite est retenue. Cet ajustement permet d’estimer les paramètres du modèle (portée, pépite, palier) qui seront utilisés lors de l’interpolation spatiale. Le choix du modèle dépend de la manière dont les observations doivent être

pondérées. Considérons le variogramme

γ

(

h,

λ)

λ

est le paramètre qui maximise

la somme des carrés des erreurs et Σ la matrice de variances du variogramme

estimée à chaque distance h.

Cressie a proposé les valeurs du paramètre qui maximisent la somme des carrés des erreurs pour la MCO, la MCG et la MCP respectivement [67] :

" "

( ) ( )

{

}

2 1 arg min ; k MCO j j j h h

λ

γ

γ

λ

= =

!

− (1.32) " "

( )

1 "

( )

arg min t MCG λ (γ γ λ ) − (γ γ λ ) = *+ Σ *+ (1.33) "

{

"

( )

}

1

{

"

( ) ( )

}

2 1 arg min ; k MCP j j j j Var h h h

λ

γ

γ

γ

λ

− = ( ) =

!

* + (1.34)

La MCO attribue le même poids à toutes les classes de distances contrairement à la MCP qui met plus de poids aux observations spatialement proches et moins de poids aux observations éloignées. De ce fait, la MCO est moins préférée par rapport à la MCP. La MMV est plus préférée par rapport à la MCP. De façon générale, la minimisation par la MCP peut s’écrire :

"

( ){

"

( ) ( )

}

2 1 arg min ; k MCP j j j j W h h h

λ

γ

γ

λ

= =

!

− (1.35)