III-‐ Modèles de régression spa2ale
Posi2on du problème
Position du problème
On cherche à valider :
(M) Y = x + ✏
I Y = (Y1, . . . , Yn)0 vecteur de dim n des réalisations de la
variable dépendante en n points de l’espace.
I x matrice de dim n ⇤ (p + 1) des p prédicteurs 0
BB BB
@
1 x11 . . . x1j . . . x1p
. . . . . . . . . . . . . . . . . .
1 xi1 . . . xij . . . xip
. . . . . . . . . . . . . . . . . .
1 xn1 . . . xnj . . . xnp
1 CC CC A
I vecteur de dim p + 1 de paramètres inconnus
I ✏ vecteur gaussien centré de dim n de matrice de var-cov ⌃ (M) () Y ⇠ Nn(x , ⌃)
Posi2on du problème
• ;;
Position du problème
I Indépendance spatiale : Y est à composantes indépendantes
=) ⌃ = 2In
• Modèle RLM standard
• Estimation du vecteur de paramètres par MCO :
ˆ = (x0x) 1x0Y, ˆ2 = 1
n p 1
X(yi (x ˆ)i)2
I Dépendance spatiale : Y est à composantes dépendantes
=) ⌃ non diagonale.
Conséquences de la non prise en compte de cette dépendance :
• La RLM fournit des estimations biaisées et inconsistantes des paramètre.
• les tests de validation (Student et Fisher) ne sont plus valables.
=) Utilisation de modèles spécifiques
Posi2on du problème
Position du problème
Remarque : Lorsqu’il y a dépendance spatiale, la matrice de variance-covariance ⌃ = (⌃ij) reflète les dépendances spatiales :
I Si deux localisations i et j sont éloignées, ⌃ij ' 0
I Si i et j sont rapprochées et attraction, ⌃ij > 0
I Si i et j sont rapprochées et répulsion, ⌃ij < 0
Posi2on du problème
Exemple : Données colombus
• Importa2on d’un fichier shapefile (.shp) qui con2ent les contours géographiques et un
certain nombre d'informa2ons (taux de criminalité, taux de chômage, etc.) des districts de la ville de Columbus aux Etats-‐Unis.
library(spdep)
columbus= readShapePoly(system.file("etc/shapes/columbus.shp",package="spdep")[1]) dim(columbus)
[1] 49 20
head(columbus@data)
AREA PERIMETER COLUMBUS_ COLUMBUS_I POLYID NEIG HOVAL INC CRIME OPEN PLUMB DISCBD X Y NSA NSB EW CP THOUS NEIGNO
0 0.309441 2.440629 2 5 1 5 80.467 19.531 15.72598 2.850747 0.217155 5.03 38.80 44.07 1 1 1 0 1000 1005 1 0.259329 2.236939 3 1 2 1 44.567 21.232 18.80175 5.296720 0.320581 4.27 35.62 42.38 1 1 0 0 1000 1001 2 0.192468 2.187547 4 6 3 6 26.350 15.956 30.62678 4.534649 0.374404 3.89 39.82 41.18 1 1 1 0 1000 1006 3 0.083841 1.427635 5 2 4 2 33.200 4.477 32.38776 0.394427 1.186944 3.70 36.50 40.52 1 1 0 0 1000 1002 4 0.488888 2.997133 6 7 5 7 23.225 11.252 50.73151 0.405664 0.624596 2.83 40.01 38.00 1 1 1 0 1000 1007 5 0.283079 2.335634 7 8 6 8 28.750 16.029 26.06666 0.563075 0.254130 3.78 43.75 39.28 1 1 1 0 1000 1008
Posi2on du problème
AREA : aire de la localisa2on
PERIMETER : périmètre de la localisa2on POLYID : ID du polygone
NEIG : ID de voisinage (1-‐49)
HOVAL : valeur du logement (en $1000) INC : revenu du ménage (en $1000)
CRIME : cambriolage et vol de véhicule par centaine de logement dans le voisinage OPEN : open space in neighborhood
PLUMB : percentage housing units without plumbing DISCBD distance to CBD
X x coordinate (in arbitrary digi2zing units, not polygon coordinates) Y y coordinate (in arbitrary digi2zing units, not polygon coordinates) NSA north-‐south dummy (North=1)
NSB north-‐south dummy (North=1) EW east-‐west dummy (East=1)
CP core-‐periphery dummy (Core=1) THOUS constant=1,000
NEIGNO NEIG+1,000, alterna2ve neighborhood id value
On va chercher à expliquer la criminalité dans les quar2ers par la valeur immobilière et le revenu des ménages.
Posi2on du problème
plot(columbus)
2tle("Neighbourhoods in Columbus")
Rq : Dis2nc2on suivant une variable d’intérêt (ex: CP)
CP=as.numeric(as.factor(columbus@data$CP)) col.map=c("blue","red")
plot(columbus,col=col.map[CP])
legend("toples", legend = c("0","1"), cex = 0.8, + 2tle = "Centre-‐périphérie ",fill=col.map[1:2])
Neighbourhoods in Columbus
Centre-périphérie 0 1
Posi2on du problème
Fichier col.gal.nb: fichier de voisinages. Objet de classe “nb”. Fournit une liste de vecteurs, un vecteur pour chaque unité spa2ale, contenant les numéros de séquence des voisins (ici, on u2lise une con2guité de type queen).
summary(col.gal.nb) Neighbour list object:
Number of regions: 49
Number of nonzero links: 230
Percentage nonzero weights: 9.579342 Average number of links: 4.693878 Link number distribu2on:
2 3 4 5 6 7 8 9 10 7 7 13 4 9 6 1 1 1 7 least connected regions:
1005 1008 1045 1047 1049 1048 1015 with 2 links
1 most connected region:
1017 with 10 links
Fichier coord : coordonnées des quar2er
plot(columbus)
plot(col.gal.nb,coord,add=TRUE)
Chap 7 : R´egression spatiale pour variables surfaciques Catalogue
Etude de cas : Columbus
La structure de voisinage est une matrice de contiguit´e de type “queen”
not´ee W
plot(columbus)
plot(col.gal.nb,coord,add=TRUE)
●
●
●
●
●
●
● ●
● ●
●●
●
●
●
● ●
●
●
●
●
●
● ● ● ●
●
● ●
● ● ● ●
● ●
● ● ●
●
● ●
●
● ●
● ●
●
●
●
Christine Thomas-Agnan (TSE) Analyse statistique des donn´ees spatiales VI 29 octobre 2012 10 / 59
Posi2on du problème
moran.test(columbus$HOVAL, nb2listw(col.gal.nb))
Moran's I test under randomisa2on
data: columbus$HOVAL
weights: nb2listw(col.gal.nb)
Moran I sta2s2c standard deviate = 2.1001, p-‐value = 0.01786 alterna2ve hypothesis: greater
sample es2mates:
Moran I sta2s2c Expecta2on Variance
0.173645208 -‐0.020833333 0.008575953
Posi2on du problème
Exemple : Régression linéaire classique
rls=lm(CRIME ~ INC + HOVAL, data=columbus); summary(rls) Call:
lm(formula = CRIME ~ INC + HOVAL, data = columbus) Residuals:
Min 1Q Median 3Q Max -‐34.418 -‐6.388 -‐1.580 9.052 28.649 Coefficients:
Es2mate Std. Error t value Pr(>|t|)
(Intercept) 68.6190 4.7355 14.490 < 2e-‐16 ***
INC -‐1.5973 0.3341 -‐4.780 1.83e-‐05 ***
HOVAL -‐0.2739 0.1032 -‐2.654 0.0109 * -‐-‐-‐
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 11.43 on 46 degrees of freedom Mul2ple R-‐squared: 0.5524, Adjusted R-‐squared: 0.5329 F-‐sta2s2c: 28.39 on 2 and 46 DF, p-‐value: 9.341e-‐09
0 10 20 30 40 50
-40-20020
Fitted values
Residuals
Residuals vs Fitted
1004 1034
1002
-2 -1 0 1 2
-3-2-10123
Theoretical Quantiles
Standardized residuals
Normal Q-Q
1004
1034
1002
0 10 20 30 40 50
0.00.51.01.5
Fitted values
Standardizedresiduals
Scale-Location
1004 1034
1002
0.00 0.10 0.20 0.30
-4-3-2-10123
Leverage
Standardized residuals
Cook's distance
1 0.5 0.5 1
Residuals vs Leverage
1004
1010
1002
Posi2on du problème
I de Moran d’autocorréla0on spa0ale appliqué aux résidus d’une régression
col.listw=nb2listw(col.gal.nb)
col.moran=lm.morantest(rls,col.listw,alterna2ve="two.sided")
Global Moran's I for regression residuals data:
model: lm(formula = CRIME ~ INC + HOVAL, data = columbus) weights: col.listw
Moran I sta2s2c standard deviate = 2.681, p-‐value = 0.00734 alterna2ve hypothesis: two.sided
sample es2mates:
Observed Moran's I Expecta2on Variance 0.212374153 -‐0.033268284 0.008394853
Posi2on du problème
• La sta2s2que de test pour autocorréla2on spa2ale des résidus (obtenue par lm.morantest) prend en compte le fait que la variable considérée est un résidu calculé à par2r d’une régression donc une es2ma2on et non une observa2on (on est alors obligés d’ajuster ses moments dans un contexte « free
sampling »). Par contre, la sta2s2que usuelle de Moran (obtenue par
moran.test) considèrerait les résidus comme des observa2ons. Il est donc incorrect d’u2liser ce‚e dernière sur les résidus d’une régression.
• L’étude des résidus et le test précédent montrent que le modèle RLM n’est pas adapté au données.
• Rq : Test perme‚ant de tester l’hétéroscédas2cité des résidus d’une régression sous R :
library(lmtest) bptest(rls)
Les principaux modèles de régression spa2ale
• Les modèles spa2aux consistent à introduire une variable spa2alement décalée dans un modèle de RLM pour prendre en compte
l’autocorréla2on spa2ale.
• Les modèles les plus courants :
modèle régressif croisé modèle LAG
modèle SDM modèle SEM
• Les modèles plus complexes:
modèle SAR : combine LAG et SEM modèle SARMA
modèle CAR : condi2onnel autorégressif
Les principaux modèles de régression spa2ale
Les principaux modèles de régression spatiale
I Modèles SAR (Simultaneous Auto-Regression) : modèles adaptés à des cas d’autocorrélation spatiale globale.
Y = ⇢WY + x + ✏ ✏ = V✏ + u
• et ⇢ coefficients d’autoregression, inconnus
• W et V sont des matrices de voisinages connues
• x matrice de variables explicatives fixes
• vecteur de paramètres inconnus
• u ⇠ N(0, 2In)
Lorsque W = A1W1 + a2W2 + . . .akWk on a un SAR(k). Le SAR(1) est le modèle le plus utilisé.
Les principaux modèles de régression spa2ale
Les principaux modèles de régression spatiale
Le modèle SAR général est peu utilisé. On utilise plutôt des cas particuliers :
I ⇢ = = 0 ) RLM (indépendance spatiale)
I = 0 ) modèle de décalage spatial (LAG) : la dépendance spatiale est portée par la variable à expliquer.
I ⇢ = 0 ) modèle d’erreur spatiale (SEM) : la dépendance spatiale est portée par les aléas.
Les principaux modèles de régression spa2ale
• Les principaux modèles de régression spatiale
I Modèles CAR (Conditionnal Auto-Regression) : modèles adaptés à des cas d’autocorrélation spatiale locale.
Y = x + ⇢W(Y x ) + ✏
• ⇢ coefficient d’autoregression, inconnu
• W matrice de voisinage connue
• x matrice de variables explicatives
• vecteur de paramètres inconnus
• ✏ ⇠ N(0, 2In)
La dépendance spatiale est portée à la fois par les variables explicatives et la variable à expliquer.
Cas particulier : Modèle CAR stationnaire : x = ↵ vecteur constant
Le modèle CAR sta2onnaire
Le modèle CAR stationnaire
Modèle
Y ↵ = ⇢(WY ↵) + ✏
I ✏ = (✏1, . . . ,✏n)0 ⇠ Nn(0, 2In)
I W = (wij) est une matrice de voisinage standardisée (Pn
j=1 wij = 1)
I ⇢ coefficient d’autorégression inconnu, mesure l’intensité de l’interaction entre les valeurs des Y
Le modèle CAR sta2onnaire
Le modèle CAR stationnaire
Modèle
Y ↵ = ⇢(WY ↵) + ✏ () Yi µ = ⇢(zi µ) + ✏i, i = 1 . . . n avec ↵ = µ1, 1 = (1, . . . ,1)0 de dim n, zi est une moyenne
pondérée des Yj lorsque j est voisin de i : zi = (WY)i =
Xn j=1
wijYj .
Idée : Tous les Yi varient autour d’une valeur commune inconnue µ = E(Yi) Les oscillations autour de µ sont dues à :
I Des effets individuels ✏i indépendants entre les districts
I Des effets de mimétisme par rapport aux voisins j de i, quantifiés par un coefficient ⇢.
Le modèle CAR sta2onnaire
Le modèle CAR stationnaire
Loi de Y dans le modèle CAR
On a WY ↵ = W(Y ↵) donc
(Y ↵) ⇢W(Y ↵) = ✏ = (I ⇢W)(Y ↵).
Si (I ⇢W) est inversible,
Y = ↵ + (I ⇢W) 1✏ () Y ⇠ Nn(↵,⌃) avec ⌃ = 2(I ⇢W) 1(I ⇢W0) 1.
Rappel : ✏ centré ) V(✏) = ✏✏0;V(A✏) = A✏✏0A0 = AV(✏)A0
Modèle de décalage spa2al (LAG)
Modèle de décalage spatial (LAG)
Modèle
Y = ⇢WY + x + ✏
• W = (wij) est une matrice de voisinage standardisée en lignes : Pn
j=1 wij = 1
• ✏ ⇠ N(0, 2In).
• ⇢ coefficient d’autorégression, inconnu, mesure l’intensité de l’interaction entre les valeurs de Y .
• x matrice de variables explicatives
• vecteur de paramètres inconnus
Modèle de décalage spa2al (LAG)
Modèle de décalage spatial (LAG)
Modèle
Y = ⇢WY + x + ✏ () Yi = ⇢zi + (x )i + ✏i, i = 1. . . n
où ✏i i.i.d. N(0, 2) et zi est une moyenne pondérée des Yj lorsque j est voisin de i :
zi = (WY)i =
Xn j=1
wijYj.
Idée : Les variations des Yi sont dues à :
I Des spécificités explicables par d’autres caractéristiques x
I Des effets individuels ✏i indépendants entre les districts
I Des effets de mimétisme par rapport aux voisins j de i, quantifiés par un coefficient ⇢.
Modèle de décalage spa2al (LAG)
Modèle de décalage spatial
Loi de Y dans le modèle LAG
On a Y ⇢WY = (I ⇢W)Y = x + ✏ donc si (I ⇢W) est inversible,
Y = (I ⇢W) 1x + (I ⇢W) 1✏ () Y ⇠ Nn(↵,⌃) avec ↵ = (I ⇢W) 1x et ⌃ = 2(I ⇢W) 1(I ⇢W0) 1.
I Effet multiplicatif : La valeur de Y dans une région donnée n’est pas seulement expliquée par les valeurs des variables explicatives associées à cette région mais aussi par celles associées aux régions voisines.
I Effet de diffusion : Un choc aléatoire dans une région donnée affecte non seulement la valeur de Y dans cette région mais aussi les autres régions à travers la même transformation.
Rappel : ✏ centré ) V (✏) = ✏✏0;V(A✏) = A✏✏0A0 = AV(✏)A0
Modèle de décalage spa2al (LAG)
lag = lagsarlm(CRIME ~ INC + HOVAL,data=columbus, col.listw)
Call:lagsarlm(formula = CRIME ~ INC + HOVAL, data = columbus, listw = col.listw)!
!
Residuals:!
Min 1Q Median 3Q Max ! -37.4497093 -5.4565567 0.0016387 6.7159553 24.7107978 !
!
Type: lag !
Coefficients: (asymptotic standard errors) !
Estimate Std. Error z value Pr(>|z|)!
(Intercept) 46.851431 7.314754 6.4051 1.503e-10!
INC -1.073533 0.310872 -3.4533 0.0005538!
HOVAL -0.269997 0.090128 -2.9957 0.0027381!
!
Rho: 0.40389, LR test value: 8.4179, p-value: 0.0037154!
Asymptotic standard error: 0.12071!
z-value: 3.3459, p-value: 0.00082027!
Wald statistic: 11.195, p-value: 0.00082027!
!
Log likelihood: -183.1683 for lag model!
ML residual variance (sigma squared): 99.164, (sigma: 9.9581)!
Number of observations: 49 !
Number of parameters estimated: 5 ! AIC: 376.34, (AIC for lm: 382.75)!
LM test for residual autocorrelation!
test value: 0.19184, p-value: 0.66139
Modèle de décalage spa2al
• Le premier volet donne des sta2s2ques sur les résidus et les paramètres du modèle. L’es2ma2on des paramètres est faite par la méthode du maximum de vraisemblance. Les coefficients des deux variables explica2ves ont le même signe (nega2fs) et sont sta2s2quement significa2fs.
• Un deuxième volet concerne Le coefficient d’autocorréla2on spa2ale Rho, qui reflète la dépendance spa2ale des données, mesurant l’influence moyenne du voisinage sur les observa2ons. Il a un effet posi2f et est très significa2f. Rho est es2mé à 0.403 est très significa2f : p-‐value=0.0008 pour le t-‐test (basé sur la matrice variance asympto2que); p-‐ value= 0.0037 pour le test du rapport des vraisemblances (LR) . Les deux tests confirment donc que le terme lag a été inclu à juste 2tre dans le modèle.
• Un troisième volet de l’output concerne l’ajustement global du modèle. Il inclut la valeur de la log-‐vraisemblance et le AIC (Akaike Informa2on Criterion) ainsi que la valeur du AIC pour le modèle linéaire standard. Le modèle lag-‐spa2al cons2tue une améliora2on par rapport au modèle de RLM (plus pe2t AIC). Au plus la log-‐vraisemblance est grande, au plus le modèle est bon. Une différence supérieure à 2 pour les log-‐vraisemblances de deux modèles divisé par le nombre d’observa2ons donne l’échelle de l’améliora2on.
Ici, entre le modèle de RLM et le modèle lag, Δ=0.192
• Le dernier volet de l’output est un test du miul2plicateur de Lagrange pour l’autocorréla2on résiduelle. L’hypothèse nulle est qu’il ne reste plus d’autocorréla2on spa2ale non expliquée. Ici, on trouve une p-‐value de 0.66 ce qui veut dire que le fait d’avoir introduit la variable décalée capté toute l’autocorréla2on spa2ale des données.
Δ =2 log
(
Lik(M2) - logLik(M1))
n
Δ>0.001⇒Gain intéressant
Modèle d’erreurs spa2ales (SEM)
Modèle d’erreur spatiale (SEM)
Modèle
Y = x + ✏, ✏ = V✏ + u
• V = (vij) est une matrice de voisinage standardisée en lignes : Pn
j=1 vij = 1
• u ⇠ N(0, 2In).
• coefficient d’autorégression inconnu, mesure l’intensité de l’interaction entre les valeurs des ✏.
• x matrice des variables explicatives
• vecteur de paramètres inconnu
Modèle d’erreurs spa2ales (SEM)
Modèle d’erreur spatiale (SEM)
Modèle
Y = x +✏, ✏ = V✏+u () Yi = (x )i+✏i, ✏i = ei+ui i = 1. . .n
où ui i.i.d. N(0, 2) et ei est une moyenne pondérée des ✏j lorsque j est voisin de i :
ei = (V✏)i =
Xn j=1
vij✏j.
Idée : Les variations des Yi sont dues à :
I Des spécificités explicables par d’autres caractéristiques x
I Des effets de mimétisme entre voisins inclus dans la partie non expliquée du modèle, quantifiés par un coefficient .
Modèle d’erreurs spa2ales (SEM)
Modèle d’erreur spatiale
Loi de Y dans le modèle SEM
On a ✏ V✏ = (In V)✏ = u donc si (I V) est inversible,
✏ = (In V) 1u
et Y = x + (In V) 1u () Y ⇠ Nn(x ,⌃) avec
⌃ = 2(I V) 1(I V0) 1.
I Pas d’effet multiplicatif
I Effet de diffusion spatiale
Rappel : ✏ centré ) V(✏) = ✏✏0; V(A✏) = A✏✏0A0 = AV(✏)A0
Modèle d’erreurs spa2ales (SEM)
sem= errorsarlm(CRIME ~ INC + HOVAL,data=columbus, col.listw)
Call:errorsarlm(formula = CRIME ~ INC + HOVAL, data = columbus, listw = col.listw)!
!
Residuals:!
Min 1Q Median 3Q Max ! -34.45950 -6.21730 -0.69775 7.65256 24.23631 !
!
Type: error !
Coefficients: (asymptotic standard errors) !
Estimate Std. Error z value Pr(>|z|)!
(Intercept) 61.053618 5.314875 11.4873 < 2.2e-16!
INC -0.995473 0.337025 -2.9537 0.0031398!
HOVAL -0.307979 0.092584 -3.3265 0.0008794!
!
Lambda: 0.52089, LR test value: 6.4441, p-value: 0.011132!
Asymptotic standard error: 0.14129!
z-value: 3.6868, p-value: 0.00022713!
Wald statistic: 13.592, p-value: 0.00022713!
!
Log likelihood: -184.1552 for error model!
ML residual variance (sigma squared): 99.98, (sigma: 9.999)!
Number of observations: 49 !
Number of parameters estimated: 5 ! AIC: 378.31, (AIC for lm: 382.75)!
Modèle d’erreurs spa2ales (SEM)
• Une comparaison entre les deux modèles(SEM et LAG) peut être effectuée grâce à différents critères :
ü Le coefficient d’autoregression spa2ale (Lambda/Rho) est significa2f mais moins que dans le modèle LAG.
ü Le log-‐likelihood pour SEM vaut -‐184.16 et est moins élevé que pour le modèle LAG -‐183.17. On trouve Δ=0.04 ce qui témoigne d’une bonne améliora2on du modèle LAG sur le modèle SEM.
ü L’AIC vaut 378.31 pour SEM, 374.34 pour LAG (et 382.75 pour LM) ce qui montre que LAG est meilleur
• On verra que ces résultats sont consistents avec ceux obtenus aux tests du mul2plicateur de Lagrange.
Commentaires sur les modèles
• Contraintes sur les paramètres
ü Il y a dans ces modèles des contraintes sur le paramètre d’autoregression ρ (resp. λ) dues à la nécessité d’imposer I-‐ρW (resp. I-‐λV) inversible. Pour cela, soient wmin et wmax la plus pe2te et la plus grande valeur propre de W (resp.V). Si W est symétrique, on MQ la condi2on
est une condi2on suffisante de non singularité.
ü Si W est normalisée, on MQ
1
wmin <ρ < 1 wmax
wmax =1
Commentaires sur les modèles
eigenw(col.listw)
[1] 1.000000e+00 9.687970e-‐01 9.388159e-‐01 8.748731e-‐01 8.476441e-‐01 7.655969e-‐01 6.907270e-‐01 -‐6.519546e-‐01 -‐6.009133e-‐01 5.873411e-‐01 -‐5.637492e-‐01 5.508182e-‐01
[13] 5.361444e-‐01 -‐5.042972e-‐01 -‐5.000000e-‐01 -‐4.955955e-‐01 -‐4.823929e-‐01 -‐4.750630e-‐01 -‐4.452039e-‐01 4.418332e-‐01 -‐4.222511e-‐01 -‐4.122630e-‐01 -‐3.889661e-‐01 -‐3.826030e-‐01
[25] -‐3.655755e-‐01 -‐3.544676e-‐01 3.372218e-‐01 3.237003e-‐01 -‐3.179893e-‐01 -‐3.094258e-‐01 2.852730e-‐01 -‐2.721972e-‐01 -‐2.556928e-‐01 -‐2.500000e-‐01 -‐2.289888e-‐01 -‐2.066596e-‐01
[37] 1.975947e-‐01 -‐1.935817e-‐01 -‐1.820426e-‐01 1.704262e-‐01 -‐1.468052e-‐01 1.245939e-‐01 -‐1.089779e-‐01 -‐8.386006e-‐02 -‐5.486559e-‐02 -‐3.749353e-‐02 3.428778e-‐02 1.818743e-‐02
[49] -‐6.213240e-‐17
summary(eigenw(col.listw))
Min. 1st Qu. Median Mean 3rd Qu. Max.
-‐0.6520 -‐0.3826 -‐0.1468 0.0000 0.3237 1.0000 1/min(eigenw(col.listw))
[1] -‐1.533849
1/max(eigenw(col.listw)) [1] 1
Dans le modèle lag, la condi2on sur ρ est donc que −1.53< ρ <1
Commentaires sur les modèles
• Tests de significa2vité d’un paramètre
Chap 7 : R´egression spatiale pour variables surfaciques Mod`ele LAG
Les trois tests sur les coefficients
Il existe trois tests classiques pour tester H0 : ✓ = ✓0 contre l’alternative H0 : ✓ 6= ✓0, o`u ✓ peut-ˆetre soir l’un des param`etres soit le param`etre ⇢
test de Wald : TW
test du rapport de vraisemblance LR test du multiplicateur de Lagrange LM
Ces trois tests sont asymptotiquement ´equivalents mais `a distance finie on a TW LR LM. Le test de Wald requiert l’estimation des param`etres sous l’hypoth`ese alternative, le test du multiplicateur de Lagrange requiert l’estimation des param`etres sous l’hypoth`ese nulle et le test du rapport de vraisemblance requiert les deux estimations.
Christine Thomas-Agnan (TSE) Analyse statistique des donn´ees spatiales VI 29 octobre 2012 37 / 59
Commentaires sur les modèles
• Interpréta2on des coefficients d’une régression spa2ale
• Dans un modèle de RLM, le coefficient βj s’interprète classiquement comme l’accroissement moyen de Y lorsque la j° variable explica2ve
augmente d’une unité. Cela veut dire que l’augmenta2on d’une unité de Xj a le même effet sur Y pour tous les individus sur lesquel Xj a été
augmentée. Par contre, elle n’a pas d’ effet sur les individus pour lesquels Xj n’a pas été augmentée.
• Dans un modèle LAG un changement d’une unité sur Xj pour un individu va affecter la valeur de Y pour cet individus mais auss icelle de tous les autres individus voisins.
Es2ma2on des paramètres dans un modèle de régression spa2ale
Estimation des paramètres dans un modèle de régression spatiale
Les différentes méthodes
I MCO : ne marche pas ; estimateurs biaisés et non consistents.
I MV : fournit des estimateurs sans biais, convergents et asymptotiquement gaussiens (Heijmans et Magnus, 1986, Magnus, 1978) mais calculs très lourds dès que n grand.
Résolution par approximation numérique.
I Méthode mixte (MCO+MV)
I Méthode des variables instrumentales (Anselin, 1988) : ne marche pas pour les modèles d’erreur spatiale (ˆ non
consistent)
I MMG (Kelejian et Prucha, 1998, 1999) (modèle d’erreur spatiale)
Es2ma2on des paramètres dans un modèle de régression spa2ale
Estimation des paramètres dans un modèle de régression spatiale
Principe de résolution par MV
Théorème
Si Y ⇠ Nn(↵,⌃) avec ⌃ inversible alors Y admet une densité fY(y) = 1
(2⇡)n/2p
det ⌃ exp 1
2(y ↵)0⌃ 1(y ↵)
On applique ce théorème pour calculer la vraisemblance des différents modèles.
Es2ma2on des paramètres dans un modèle de régression spa2ale
Estimation des paramètres
Application au CAR stationnaire
On a ↵ = µ1. Posons A = (I ⇢W), on a ⌃ = 2(A0A) 1 ) det⌃ =
2n
(detA)2,
⌃ 1 = 1
2A0A.
(y ↵)0⌃ 1(y ↵) = 1
2kA(y ↵)k2 = 1
2ky ⇢Wy µ(1 ⇢)1k2
) fY(y) = 1
(2⇡ 2)n/2|det(I ⇢W)|exp 1
2 2kx ⇢Wy µ(1 ⇢)1k2
Es2ma2on des paramètres dans un modèle de régression spa2ale
Estimation des paramètres
Application au CAR stationnaire
EMV :
✓ˆ = (ˆµ, ˆ, ˆ2) = arg max
✓ L(✓) avec ✓ = (m, l, v2)
L(✓) = 1
(2⇡v2)n/2| det(I lW)|exp 1
2v2kY lWY m(1 l)1k2 .
I Résolution : On résout numériquement le système d’équations
L(✓)
✓k = 0,k = 1, 2, 3.
I Problèmes : Pas de solution explicite en général. Estimation très lourde dès que n est grand.
Es2ma2on des paramètres dans un modèle de régression spa2ale
Estimation des paramètres
Application au CAR stationnaire
Une variante : la méthode mixte
I Notre modèle peut se réécrire sous la forme d’une régression linéaire simple :
Yi µ = ⇢(zi µ) + ✏i () Yi = µ(1 ⇢) + ⇢zi + ✏i,i = 1..n En posant µ(1 ⇢) = ⌘, l’estimation de (⌘,⇢) par les MCO est donnée par :
ˆ
⌘ = ¯y ⇢¯ˆz
⇢ˆ =
P(yi y¯)(zi z¯) P(zi ¯z)2 Comme ¯z = ¯y on a
ˆ
µ = ¯y ˆ
⇢ =
P(yi y¯)(zi z¯) P(zi ¯z)2
Es2ma2on des paramètres dans un modèle de régression spa2ale
Estimation des paramètres
Exemple du CAR stationnaire
I Algorithme itératif de la méthode mixte :
1. Initialisation
• Soit m0 l’estimateur des MCO de µ. On
maximise L(m0, l, v2) par rapport à l et v2 ) on obtient l1 et v12.
• On maximise L(m, l1,v12) par rapport à m ) on obtient m1.
2. On réitère jusqu’à un critère d’arrêt.
Tests d’autocorréla2on spa2ale
Tests d’autocorrélation spatiale
Généralités
Les tests d’autocorrélation spatiale permettent de valider le choix d’interaction spatiale fait dans le modèle.
I Dans le cas d’un CAR stationnaire ou d’un modèle à variable décalée, on teste
H0 : ⇢ = 0 contre H1 : ⇢ 6= 0
I Dans le cas d’un modèle d’erreur spatiale, on teste H0 : = 0 contre H1 : 6= 0
Tests d’autocorréla2on spa2ale
Tests d’autocorrélation spatiale
Test de Moran
I Pour les modèles CAR et LAG, la statistique de Moran s’écrit : IM =
P(Yi Y¯)(zi ¯z)
P(zi z¯)2 , zi = X
wijYj
I Pour le modèle SEM, la statistique de Moran s’écrit : IM =
P(✏i ¯✏)(ei e¯)
P(ei ¯e)2 , ei = X vij✏j Mêmes règles de décision que dans le cours 2.
• Le test de Moran a une grande puissance contre un ensemble assez vaste d’alterna2ves, mais contrairement aux tests du mul2plicateur de Lagrange ci-‐après, il ne permet pas de choisir entre les modèles LAG et SEM.
Tests d’autocorréla2on spa2ale
Tests d’autocorrélation spatiale
Test du multiplicateur de Lagrange
I Dans le cas d’un modèle SEM, on utilise la statistique : LM1 = (ˆ✏0W✏)ˆ 2
T ˆ4
où ˆ✏ et ˆ sont les estimations de ✏ et sous H0 ( RLM standard) et T = tr((W0 + W)W). Sous H0,
LM1 !D 2(1)
I Dans le cas des modèles CAR et LAG, on utilise la statistique : LM2 = (ˆ✏0WY )2
Tˆ ˆ4
où ˆ✏ et ˆ sont les estimations de ✏ et sous H0 ( RLM
standard) et Tˆ = (Wx ˆ)(I x(x0x) 1x0)(Wx ˆ) + T ˆ2 /ˆ2. Sous H0,
LM2 !D 2(1)
Tests d’autocorréla2on spa2ale
• LM1 teste si il est nécessaire de prendre en compte dans le modèle l’autocorréla2on des erreurs.
• LM2 teste si il est nécessaire de prendre en compte dans le modèle l’autocorréla2on de la variable à expliquer.
Mais ces tests se basent sur l’hypothèse qu’il n’existe pas d’autre sorte d’autocorréla2on possible que celle testée.
Pour cela, Il est nécessaire de considérer des versions robustes de ces deux tests :
• RLM1 si il est nécessaire de prendre en compte dans le modèle l’autocorréla2on des erreurs, sachant qu’il existe éventuellement aussi une autocorréla2on de la variable à expliquer, non prise en compte dans le modèle .
• RLM2 si il est nécessaire de prendre en compte dans le modèle l’autocorréla2on de la variable à expliquer, sachant qu’il existe éventuellement aussi une autocorréla2on des erreurs, non prise en compte dans le modèle .