• Aucun résultat trouvé

Statistique spatiale

N/A
N/A
Protected

Academic year: 2022

Partager "Statistique spatiale"

Copied!
17
0
0

Texte intégral

(1)

Statistique spatiale

I- Introduction

II- Autocorrélation spatiale

III- Modélisation

(2)

I- Introduction

(3)

Généralités

•  Les méthodes de statistique spatiale servent à décrire, modéliser des données géo-référencées ou localisées (décrites par des

lieux) :

Ø  coordonnées du barycentre d’une zone administrative Ø  couple longitude/latitude

Ø  coordonnées UTM (Universal Transvers Mercator )

•  Domaines d’application de la statistique spatiale : géologie,

écologie, météorologie, épidémiologie, démographie.

(4)

Types de données

•  3 types de données géoréférencées : données géostatistiques, données laticielles, données ponctuelles.

•  On note la localisation d’un site de mesure et le phénomène étudié : température, densité de population, etc… X est une variable aléatoire indexée par S.

S

s ∈ { X ( s ), s S }

(5)

Types de données

•  Données Géostatistiques (données continues, interpolables) Ø  S est un sous ensemble continu de R2;

Ø  X(s) est à valeurs réelles, mesurée en des sites choisis (s1,…sn) de S données (xs1,…xsn

)

Ex : température, altitude Questions :

Ø  Autocorrélation spatiale

Ø  Prédiction de X sur tout S (krigeage, simulation) Ø  Modélisation de la loi du processus continu de

Outil logiciel : packages geoR, spatial de R

{X(s), sS}

(6)

Types de données

Exemple : Cumul de pluies dans 100 stations météo suisses le jour du passage du nuage de Tchernobyl (jeu sic.100 du package geoR de R)

> sic.100

$coords

V2 V3

13 29.52739 80.71854 14 33.77939 99.52954 22 46.80639 102.58454 23  48.71439 121.45354 ...

$data

13 14 22 23 ....

Les 100 stations sont choisies au hasard dans un réseau de 367 stations

•  Coords : Les coordonnées des lieux par rapport au centre de la suisse (distances en km). s1,…s100 valeurs de S continu

•  Data : niveaux de pluies (en mm) X(s) en chaque lieu

(7)

Types de données

•  Données laticielles (mesurées qu’en un nombre fini fixé de points) Ø  S est discret et fixé. Les sites représentent en général des unités

géographiques, repérées par un graphe de voisinage Ø  X est observée sur S.

données

Ex : hauteur des arbres d’une foret, pixels sur image, sex-ratios dans les districts de l’inde …

Questions :

Ø  Définition d’un voisinage (distance entre deux sites) Ø  Etude de l’autocorrélation spatiale

Ø  Modélisation de la loi du vecteur aléatoire discret

Outil logiciel : packages spdep, geoXP-R de R

⇒ { x ( s ), s S }

{X(s), sS}

(8)

Types de données

•  X(s)=nombre de cas de mort subite dans le comté s

•  S= ensemble des 100 comtés

Atelier Spatial RASMA Saint Louis du Sénégal

14

(9)

Types de données

•  Carte des sex-ratio en Inde

•  X(s)= sex-ratio dans le district s

•  S= districts de lInde

(10)

Types de données

•  Données ponctuelles : La localisation s est elle-même l’objet de l’étude.

Ø  S est un processus ponctuel (ensemble de points aléatoires) de R

2

Ø  Le nombre de réalisations ponctuelles et leur localisation X sont

aléatoire

Ex: Etude de la répartition spatiale d’une espèce d’arbres dans une forêt.

•  Question:

Ø  Homogénéité de la localisation des site est-elle plutôt régulière, présente-t-elle des agrégats?

Ø  Modélisation des processus S et X

Outil logiciel : package spatstat de R

(11)

Types de données

(12)

Spécificité des méthodes statistiques

•  Hétérogénéité : chaque localisation est spécifique

•  Dépendance

–  Les données analysées sont dépendantes (autocorrélation spatiale) –  les dépendances sont plus complexes qu’en séries temporelles

(13)

Spécificité des méthodes statistiques

•  Conséquences sur les méthodes

Ø  Les méthodes de statistique inférentielle (estimation, modélisation classique, ...) ne sont plus valables : ex les estimateurs standard de la variance, des moindres carrés dans un modèle RLM sont généralement biaisés.

Ø  Comment définir la qualité d’estimation : Définition de l’asymptotique?

Ø  outils statistiques spécifiques permettant de tenir compte de

l’autocorrélation spatiale dans les analyses statistiques classiques et d’éviter que celle-ci n’introduise des biais dans l’estimation des paramètres

(14)

Spécificité des méthodes statistiques

Intérêt de la prise en compte de la dimension spatiale des données dans un modèle de régression : exemple du sex-ratio en Inde

(Guilmoto, 2008, Populations).

inde=read.csv("table2b.csv", header=T, sep=";")

>

reg=lm(SR0601~LDENS01+TFR01+SURV01+URB01+LITR01_

2+WAGRIC+SRPART+BUDDH+CHRISTIAN+JAIN+MUSLIM +SIKH+DALIT+TRIBAL, data=inde)

Ø  summary(reg)

Ø  La part de variance expliquée est seulement de 51%. Les limites de cette modélisation ne relèvent pas de la nature des données. Il est peu probable qu’une variable insoupconnée explique la part de variance non expliquée.

Residuals:

Min 1Q Median 3Q Max -131.347 -17.068 6.777 22.493 99.640 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 1041.6942 68.0697 15.303 < 2e-16 ***

LDENS01 2.6331 2.0524 1.283 0.200037 TFR01 -14.9043 2.3684 -6.293 6.17e-10 ***

SURV01 -29.2158 65.5596 -0.446 0.656027 URB01 -17.1895 12.5220 -1.373 0.170364 LITR01_2 -0.8817 0.1860 -4.740 2.69e-06 ***

WAGRIC 12.8561 13.8242 0.930 0.352775 SRPART -2.9381 1.3333 -2.204 0.027944 * BUDDH 15.5567 23.9322 0.650 0.515929 CHRISTIAN 18.0589 12.0206 1.502 0.133559 JAIN -968.8219 272.3551 -3.557 0.000406 ***

MUSLIM 53.7249 11.5256 4.661 3.91e-06 ***

SIKH -225.6399 15.0909 -14.952 < 2e-16 ***

DALIT 7.2310 25.1730 0.287 0.774021 TRIBAL 54.8759 10.6791 5.139 3.80e-07 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 34.92 on 576 degrees of freedom Multiple R-squared: 0.5088, Adjusted R-squared: 0.4969 F-statistic: 42.62 on 14 and 576 DF, p-value: < 2.2e-16

(15)

Spécificité des méthodes statistiques

> plot(reg$fitted, reg$residuals)

Ø  acf(reg$residuals, main="Autocorrélation des résidus")

Il existe une corrélation des résidus du

modèle : les observations du sex-ratio ne sont pas indépendantes. Les hypothèses du modèle linéaire ne sont pas satisfaites Prise en compte de l’autocorrélation spatiale

des résidus.

(16)

Spécificité des méthodes statistiques

(17)

Spécificité des méthodes statistiques

•  Dans la suite du cours, on étudiera des données laticielles :

Ø  on observe un phénomène X (pluviométrie, sex-ratio,…) sur n sites fixés

Ø  L’observation x dont on dispose (sex-ratio réel, pluviométrie réelle) peut être vue comme une réalisation de X sur les n sites, ou de façon équivalente comme une réalisation du vecteur aléatoire X= (X1,…Xn).

Ø  On note Px sa loi.

•  On cherche, à partir de l’observation x, à avoir des précisions sur la loi PX de ce vecteur

Ø  Modélisation de la loi de X : Recherche d’une famille de loi pour PX, éventuellement dépendante de variables explicatives

Ø  Estimation des paramètres de cette loi

•  Outils utilisés

Ø  Tests d’autocorrélation spatiale : permettent, au vu de x de tester si les composantes de X sont ou non dépendantes.

Ø  Modèles d’autoregression spatiale : modèles explicatifs spécifiant aussi la forme de dépendance spatiale.

Références

Documents relatifs

L’étude de voisinages-boule de l’estimateur des moindres carrés (ou de l’estimateur iden- tiquement nul) permet de montrer que des estimateurs usuels concurrents

Un résultat classique assure que, la famille de fonctions {f.(8*) - f.(8)}g € e étant équicontinue en vertu de la remarque 1, la convergence dans 2.7) a lieu uniformément en 8..

Tests bilatéraux et unilatéraux de comparaison de deux proportions ou de deux moyennes dans le cadre de la loi normale.. • Utiliser les tests bilatéraux et unilatéraux relatifs

De fait, ce statisticien vous dira que le nombre de personnes favorables dans un échantillon de 100 personnes suit une loi Binomiale de paramètres 100 et p et que la valeur de p

Le but de cette analyse de variance est de tester si les taux d'adultération moyens donnés par les trois méthodes sont différents (auquel cas la variance factorielle est supérieure

— échantillon non exhaustif : pour construire un échantillon de taille n, on procède par n tirages au hasard avec remise (remise de l’individu dans la population après

siens sont asymptotiquement équivalents en ce qui concerne les paramètres statistiques classiques 0i avant rupture et 82 après ; par contre, les lois de 03BE1 et

commun du modele statistique linéaire (1) ces trois methodes que cons- tituent la regression lineaire, la methode des moindres carres et l’estima- tion bayesienne.. On