III-‐ Modèles de régression spa2ale

(1)

III-‐ Modèles de régression spa2ale

(2)

Posi2on du problème

Position du problème

On cherche à valider :

(M) Y = x + ✏

I Y = (Y₁, . . . , Y_n)⁰ vecteur de dim n des réalisations de la

variable dépendante en n points de l’espace.

I x matrice de dim n ⇤ (p + 1) des p prédicteurs 0

BB BB

@

1 x11 . . . x1j . . . x1p

. . . . . . . . . . . . . . . . . .

1 xi1 . . . xij . . . xip

. . . . . . . . . . . . . . . . . .

1 xn1 . . . xnj . . . xnp

1 CC CC A

I vecteur de dim p + 1 de paramètres inconnus

I ✏ vecteur gaussien centré de dim n de matrice de var-cov ⌃ (M) () Y ⇠ Nn(x , ⌃)

(3)

Posi2on du problème

•  ;;

Position du problème

I Indépendance spatiale : Y est à composantes indépendantes

=) ⌃ = ²I_n

• Modèle RLM standard

• Estimation du vecteur de paramètres par MCO :

ˆ = (x⁰x) ¹x⁰Y, ˆ² = 1

n p 1

X(y_i (x ˆ)_i)²

I Dépendance spatiale : Y est à composantes dépendantes

=) ⌃ non diagonale.

Conséquences de la non prise en compte de cette dépendance :

• La RLM fournit des estimations biaisées et inconsistantes des paramètre.

• les tests de validation (Student et Fisher) ne sont plus valables.

=) Utilisation de modèles spécifiques

(4)

Posi2on du problème

Position du problème

Remarque : Lorsqu’il y a dépendance spatiale, la matrice de variance-covariance ⌃ = (⌃_ij) reflète les dépendances spatiales :

I Si deux localisations i et j sont éloignées, ⌃_ij ' 0

I Si i et j sont rapprochées et attraction, ⌃_ij > 0

I Si i et j sont rapprochées et répulsion, ⌃_ij < 0

(5)

Posi2on du problème

Exemple : Données colombus

•  Importa2on d’un ﬁchier shapeﬁle (.shp) qui con2ent les contours géographiques et un

certain nombre d'informa2ons (taux de criminalité, taux de chômage, etc.) des districts de la ville de Columbus aux Etats-‐Unis.

library(spdep)

columbus= readShapePoly(system.ﬁle("etc/shapes/columbus.shp",package="spdep")[1]) dim(columbus)

[1] 49 20

head(columbus@data)

AREA PERIMETER COLUMBUS_ COLUMBUS_I POLYID NEIG HOVAL INC CRIME OPEN PLUMB DISCBD X Y NSA NSB EW CP THOUS NEIGNO

0 0.309441 2.440629 2 5 1 5 80.467 19.531 15.72598 2.850747 0.217155 5.03 38.80 44.07 1 1 1 0 1000 1005 1 0.259329 2.236939 3 1 2 1 44.567 21.232 18.80175 5.296720 0.320581 4.27 35.62 42.38 1 1 0 0 1000 1001 2 0.192468 2.187547 4 6 3 6 26.350 15.956 30.62678 4.534649 0.374404 3.89 39.82 41.18 1 1 1 0 1000 1006 3 0.083841 1.427635 5 2 4 2 33.200 4.477 32.38776 0.394427 1.186944 3.70 36.50 40.52 1 1 0 0 1000 1002 4 0.488888 2.997133 6 7 5 7 23.225 11.252 50.73151 0.405664 0.624596 2.83 40.01 38.00 1 1 1 0 1000 1007 5 0.283079 2.335634 7 8 6 8 28.750 16.029 26.06666 0.563075 0.254130 3.78 43.75 39.28 1 1 1 0 1000 1008

(6)

Posi2on du problème

AREA : aire de la localisa2on

PERIMETER : périmètre de la localisa2on POLYID : ID du polygone

NEIG : ID de voisinage (1-‐49)

HOVAL : valeur du logement (en $1000) INC : revenu du ménage (en $1000)

CRIME : cambriolage et vol de véhicule par centaine de logement dans le voisinage OPEN : open space in neighborhood

PLUMB : percentage housing units without plumbing DISCBD distance to CBD

X x coordinate (in arbitrary digi2zing units, not polygon coordinates) Y y coordinate (in arbitrary digi2zing units, not polygon coordinates) NSA north-‐south dummy (North=1)

NSB north-‐south dummy (North=1) EW east-‐west dummy (East=1)

CP core-‐periphery dummy (Core=1) THOUS constant=1,000

NEIGNO NEIG+1,000, alterna2ve neighborhood id value

On va chercher à expliquer la criminalité dans les quar2ers par la valeur immobilière et le revenu des ménages.

(7)

Posi2on du problème

plot(columbus)

2tle("Neighbourhoods in Columbus")

Rq : Dis2nc2on suivant une variable d’intérêt (ex: CP)

CP=as.numeric(as.factor(columbus@data$CP)) col.map=c("blue","red")

plot(columbus,col=col.map[CP])

legend("toples", legend = c("0","1"), cex = 0.8, + 2tle = "Centre-‐périphérie ",ﬁll=col.map[1:2])

Neighbourhoods in Columbus

Centre-périphérie 0 1

(8)

Posi2on du problème

Fichier col.gal.nb: ﬁchier de voisinages. Objet de classe “nb”. Fournit une liste de vecteurs, un vecteur pour chaque unité spa2ale, contenant les numéros de séquence des voisins (ici, on u2lise une con2guité de type queen).

summary(col.gal.nb) Neighbour list object:

Number of regions: 49

Number of nonzero links: 230

Percentage nonzero weights: 9.579342 Average number of links: 4.693878 Link number distribu2on:

2 3 4 5 6 7 8 9 10 7 7 13 4 9 6 1 1 1 7 least connected regions:

1005 1008 1045 1047 1049 1048 1015 with 2 links

1 most connected region:

1017 with 10 links

Fichier coord : coordonnées des quar2er

plot(columbus)

plot(col.gal.nb,coord,add=TRUE)

Chap 7 : R´egression spatiale pour variables surfaciques Catalogue

Etude de cas : Columbus

La structure de voisinage est une matrice de contiguit´e de type “queen”

not´ee W

plot(columbus)

plot(col.gal.nb,coord,add=TRUE)

●

● ●

●●

●

● ●

●

● ● ● ●

●

● ●

● ● ● ●

● ●

● ● ●

●

● ●

●

● ●

●

Christine Thomas-Agnan (TSE) Analyse statistique des donn´ees spatiales VI 29 octobre 2012 10 / 59

(9)

Posi2on du problème

moran.test(columbus$HOVAL, nb2listw(col.gal.nb))

Moran's I test under randomisa2on

data: columbus$HOVAL

weights: nb2listw(col.gal.nb)

Moran I sta2s2c standard deviate = 2.1001, p-‐value = 0.01786 alterna2ve hypothesis: greater

sample es2mates:

Moran I sta2s2c Expecta2on Variance

0.173645208 -‐0.020833333 0.008575953

(10)

Posi2on du problème

Exemple : Régression linéaire classique

rls=lm(CRIME ~ INC + HOVAL, data=columbus); summary(rls) Call:

lm(formula = CRIME ~ INC + HOVAL, data = columbus) Residuals:

Min 1Q Median 3Q Max -‐34.418 -‐6.388 -‐1.580 9.052 28.649 Coeﬃcients:

Es2mate Std. Error t value Pr(>|t|)

(Intercept) 68.6190 4.7355 14.490 < 2e-‐16 ***

INC -‐1.5973 0.3341 -‐4.780 1.83e-‐05 ***

HOVAL -‐0.2739 0.1032 -‐2.654 0.0109 * -‐-‐-‐

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 11.43 on 46 degrees of freedom Mul2ple R-‐squared: 0.5524, Adjusted R-‐squared: 0.5329 F-‐sta2s2c: 28.39 on 2 and 46 DF, p-‐value: 9.341e-‐09

(11)

0 10 20 30 40 50

-40-20020

Fitted values

Residuals

Residuals vs Fitted

1004 1034

1002

-2 -1 0 1 2

-3-2-10123

Theoretical Quantiles

Standardized residuals

Normal Q-Q

1004

1034

1002

0 10 20 30 40 50

0.00.51.01.5

Fitted values

Standardizedresiduals

Scale-Location

1004 1034

1002

0.00 0.10 0.20 0.30

-4-3-2-10123

Leverage

Standardized residuals

Cook's distance

1 0.5 0.5 1

Residuals vs Leverage

1004

1010

1002

(12)

Posi2on du problème

I de Moran d’autocorréla0on spa0ale appliqué aux résidus d’une régression

col.listw=nb2listw(col.gal.nb)

col.moran=lm.morantest(rls,col.listw,alterna2ve="two.sided")

Global Moran's I for regression residuals data:

model: lm(formula = CRIME ~ INC + HOVAL, data = columbus) weights: col.listw

Moran I sta2s2c standard deviate = 2.681, p-‐value = 0.00734 alterna2ve hypothesis: two.sided

sample es2mates:

Observed Moran's I Expecta2on Variance 0.212374153 -‐0.033268284 0.008394853

(13)

Posi2on du problème

•  La sta2s2que de test pour autocorréla2on spa2ale des résidus (obtenue par lm.morantest) prend en compte le fait que la variable considérée est un résidu calculé à par2r d’une régression donc une es2ma2on et non une observa2on (on est alors obligés d’ajuster ses moments dans un contexte « free

sampling »). Par contre, la sta2s2que usuelle de Moran (obtenue par

moran.test) considèrerait les résidus comme des observa2ons. Il est donc incorrect d’u2liser ce‚e dernière sur les résidus d’une régression.

•  L’étude des résidus et le test précédent montrent que le modèle RLM n’est pas adapté au données.

•  Rq : Test perme‚ant de tester l’hétéroscédas2cité des résidus d’une régression sous R :

library(lmtest) bptest(rls)

(14)

Les principaux modèles de régression spa2ale

•  Les modèles spa2aux consistent à introduire une variable spa2alement décalée dans un modèle de RLM pour prendre en compte

l’autocorréla2on spa2ale.

•  Les modèles les plus courants :

modèle régressif croisé modèle LAG

modèle SDM modèle SEM

•  Les modèles plus complexes:

modèle SAR : combine LAG et SEM modèle SARMA

modèle CAR : condi2onnel autorégressif

(15)

Les principaux modèles de régression spa2ale

Les principaux modèles de régression spatiale

I Modèles SAR (Simultaneous Auto-Regression) : modèles adaptés à des cas d’autocorrélation spatiale globale.

Y = ⇢WY + x + ✏ ✏ = V✏ + u

• et ⇢ coeﬃcients d’autoregression, inconnus

• W et V sont des matrices de voisinages connues

• x matrice de variables explicatives fixes

• vecteur de paramètres inconnus

• u ⇠ N(0, ²I_n)

Lorsque W = A₁W₁ + a₂W₂ + . . .a_kW_k on a un SAR(k). Le SAR(1) est le modèle le plus utilisé.

(16)

Les principaux modèles de régression spa2ale

Les principaux modèles de régression spatiale

Le modèle SAR général est peu utilisé. On utilise plutôt des cas particuliers :

I ⇢ = = 0 ) RLM (indépendance spatiale)

I = 0 ) modèle de décalage spatial (LAG) : la dépendance spatiale est portée par la variable à expliquer.

I ⇢ = 0 ) modèle d’erreur spatiale (SEM) : la dépendance spatiale est portée par les aléas.

(17)

Les principaux modèles de régression spa2ale

• Les principaux modèles de régression spatiale

I Modèles CAR (Conditionnal Auto-Regression) : modèles adaptés à des cas d’autocorrélation spatiale locale.

Y = x + ⇢W(Y x ) + ✏

• ⇢ coeﬃcient d’autoregression, inconnu

• W matrice de voisinage connue

• x matrice de variables explicatives

• ✏ ⇠ N(0, ²I_n)

La dépendance spatiale est portée à la fois par les variables explicatives et la variable à expliquer.

Cas particulier : Modèle CAR stationnaire : x = ↵ vecteur constant

(18)

Le modèle CAR sta2onnaire

Le modèle CAR stationnaire

Modèle

Y ↵ = ⇢(WY ↵) + ✏

I ✏ = (✏₁, . . . ,✏_n)⁰ ⇠ Nn(0, ²In)

I W = (w_ij) est une matrice de voisinage standardisée (P_n

j=1 w_ij = 1)

I ⇢ coeﬃcient d’autorégression inconnu, mesure l’intensité de l’interaction entre les valeurs des Y

(19)

Le modèle CAR sta2onnaire

Le modèle CAR stationnaire

Modèle

Y ↵ = ⇢(WY ↵) + ✏ () Y_i µ = ⇢(z_i µ) + ✏_i, i = 1 . . . n avec ↵ = µ1, 1 = (1, . . . ,1)⁰ de dim n, z_i est une moyenne

pondérée des Y_j lorsque j est voisin de i : z_i = (WY)_i =

Xn j=1

w_ijY_j .

Idée : Tous les Y_i varient autour d’une valeur commune inconnue µ = E(Y_i) Les oscillations autour de µ sont dues à :

I Des eﬀets individuels ✏_i indépendants entre les districts

I Des eﬀets de mimétisme par rapport aux voisins j de i, quantifiés par un coeﬃcient ⇢.

(20)

Le modèle CAR sta2onnaire

Le modèle CAR stationnaire

Loi de Y dans le modèle CAR

On a WY ↵ = W(Y ↵) donc

(Y ↵) ⇢W(Y ↵) = ✏ = (I ⇢W)(Y ↵).

Si (I ⇢W) est inversible,

Y = ↵ + (I ⇢W) ¹✏ () Y ⇠ Nn(↵,⌃) avec ⌃ = ²(I ⇢W) ¹(I ⇢W⁰) ¹.

Rappel : ✏ centré ) V(✏) = ✏✏⁰;V(A✏) = A✏✏⁰A⁰ = AV(✏)A⁰

(21)

Modèle de décalage spa2al (LAG)

Modèle de décalage spatial (LAG)

Modèle

Y = ⇢WY + x + ✏

• W = (w_ij) est une matrice de voisinage standardisée en lignes : P_n

j=1 w_ij = 1

• ✏ ⇠ N(0, ²I_n).

• ⇢ coeﬃcient d’autorégression, inconnu, mesure l’intensité de l’interaction entre les valeurs de Y .

• x matrice de variables explicatives

(22)

Modèle de décalage spa2al (LAG)

Modèle de décalage spatial (LAG)

Modèle

Y = ⇢WY + x + ✏ () Y_i = ⇢z_i + (x )_i + ✏_i, i = 1. . . n

où ✏_i i.i.d. N(0, ²) et zi est une moyenne pondérée des Yj lorsque j est voisin de i :

z_i = (WY)_i =

Xn j=1

w_ijY_j.

Idée : Les variations des Y_i sont dues à :

I Des spécificités explicables par d’autres caractéristiques x

I Des eﬀets individuels ✏_i indépendants entre les districts

I Des eﬀets de mimétisme par rapport aux voisins j de i, quantifiés par un coeﬃcient ⇢.

(23)

Modèle de décalage spa2al (LAG)

Modèle de décalage spatial

Loi de Y dans le modèle LAG

On a Y ⇢WY = (I ⇢W)Y = x + ✏ donc si (I ⇢W) est inversible,

Y = (I ⇢W) ¹x + (I ⇢W) ¹✏ () Y ⇠ Nn(↵,⌃) avec ↵ = (I ⇢W) ¹x et ⌃ = ²(I ⇢W) ¹(I ⇢W⁰) ¹.

I Eﬀet multiplicatif : La valeur de Y dans une région donnée n’est pas seulement expliquée par les valeurs des variables explicatives associées à cette région mais aussi par celles associées aux régions voisines.

I Effet de diffusion : Un choc aléatoire dans une région donnée affecte non seulement la valeur de Y dans cette région mais aussi les autres régions à travers la même transformation.

Rappel : ✏ centré ) V (✏) = ✏✏⁰;V(A✏) = A✏✏⁰A⁰ = AV(✏)A⁰

(24)

Modèle de décalage spa2al (LAG)

lag = lagsarlm(CRIME ~ INC + HOVAL,data=columbus, col.listw)

Call:lagsarlm(formula = CRIME ~ INC + HOVAL, data = columbus, listw = col.listw)!

!

Residuals:!

Min 1Q Median 3Q Max ! -37.4497093 -5.4565567 0.0016387 6.7159553 24.7107978 !

!

Type: lag !

Coefficients: (asymptotic standard errors) !

Estimate Std. Error z value Pr(>|z|)!

(Intercept) 46.851431 7.314754 6.4051 1.503e-10!

INC -1.073533 0.310872 -3.4533 0.0005538!

HOVAL -0.269997 0.090128 -2.9957 0.0027381!

!

Rho: 0.40389, LR test value: 8.4179, p-value: 0.0037154!

Asymptotic standard error: 0.12071!

z-value: 3.3459, p-value: 0.00082027!

Wald statistic: 11.195, p-value: 0.00082027!

!

Log likelihood: -183.1683 for lag model!

ML residual variance (sigma squared): 99.164, (sigma: 9.9581)!

Number of observations: 49 !

Number of parameters estimated: 5 ! AIC: 376.34, (AIC for lm: 382.75)!

LM test for residual autocorrelation!

test value: 0.19184, p-value: 0.66139

(25)

Modèle de décalage spa2al

•  Le premier volet donne des sta2s2ques sur les résidus et les paramètres du modèle. L’es2ma2on des paramètres est faite par la méthode du maximum de vraisemblance. Les coeﬃcients des deux variables explica2ves ont le même signe (nega2fs) et sont sta2s2quement signiﬁca2fs.

•  Un deuxième volet concerne Le coefficient d’autocorréla2on spa2ale Rho, qui reflète la dépendance spa2ale des données, mesurant l’influence moyenne du voisinage sur les observa2ons. Il a un effet posi2f et est très significa2f. Rho est es2mé à 0.403 est très significa2f : p-‐value=0.0008 pour le t-‐test (basé sur la matrice variance asympto2que); p-‐ value= 0.0037 pour le test du rapport des vraisemblances (LR) . Les deux tests confirment donc que le terme lag a été inclu à juste 2tre dans le modèle.

•  Un troisième volet de l’output concerne l’ajustement global du modèle. Il inclut la valeur de la log-‐vraisemblance et le AIC (Akaike Informa2on Criterion) ainsi que la valeur du AIC pour le modèle linéaire standard. Le modèle lag-‐spa2al cons2tue une améliora2on par rapport au modèle de RLM (plus pe2t AIC). Au plus la log-‐vraisemblance est grande, au plus le modèle est bon. Une diﬀérence supérieure à 2 pour les log-‐vraisemblances de deux modèles divisé par le nombre d’observa2ons donne l’échelle de l’améliora2on.

Ici, entre le modèle de RLM et le modèle lag, Δ=0.192

•  Le dernier volet de l’output est un test du miul2plicateur de Lagrange pour l’autocorréla2on résiduelle. L’hypothèse nulle est qu’il ne reste plus d’autocorréla2on spa2ale non expliquée. Ici, on trouve une p-‐value de 0.66 ce qui veut dire que le fait d’avoir introduit la variable décalée capté toute l’autocorréla2on spa2ale des données.

Δ =2 log

(

Lik(M2) - logLik(M1)

)

n

Δ>0.001⇒Gain intéressant

(26)

Modèle d’erreurs spa2ales (SEM)

Modèle d’erreur spatiale (SEM)

Modèle

Y = x + ✏, ✏ = V✏ + u

• V = (vij) est une matrice de voisinage standardisée en lignes : P_n

j=1 v_ij = 1

• u ⇠ N(0, ²I_n).

• coeﬃcient d’autorégression inconnu, mesure l’intensité de l’interaction entre les valeurs des ✏.

• x matrice des variables explicatives

• vecteur de paramètres inconnu

(27)

Modèle d’erreurs spa2ales (SEM)

Modèle d’erreur spatiale (SEM)

Modèle

Y = x +✏, ✏ = V✏+u () Y_i = (x )_i+✏_i, ✏_i = e_i+u_i i = 1. . .n

où u_i i.i.d. N(0, ²) et e_i est une moyenne pondérée des ✏_j lorsque j est voisin de i :

e_i = (V✏)_i =

Xn j=1

v_ij✏_j.

Idée : Les variations des Y_i sont dues à :

I Des spécificités explicables par d’autres caractéristiques x

I Des eﬀets de mimétisme entre voisins inclus dans la partie non expliquée du modèle, quantifiés par un coeﬃcient .

(28)

Modèle d’erreurs spa2ales (SEM)

Modèle d’erreur spatiale

Loi de Y dans le modèle SEM

On a ✏ V✏ = (I_n V)✏ = u donc si (I V) est inversible,

✏ = (I_n V) ¹u

et Y = x + (I_n V) ¹u () Y ⇠ Nn(x ,⌃) avec

⌃ = ²(I V) ¹(I V⁰) ¹.

I Pas d’eﬀet multiplicatif

I Eﬀet de diﬀusion spatiale

Rappel : ✏ centré ) V(✏) = ✏✏⁰; V(A✏) = A✏✏⁰A⁰ = AV(✏)A⁰

(29)

Modèle d’erreurs spa2ales (SEM)

sem= errorsarlm(CRIME ~ INC + HOVAL,data=columbus, col.listw)

Call:errorsarlm(formula = CRIME ~ INC + HOVAL, data = columbus, listw = col.listw)!

!

Residuals:!

Min 1Q Median 3Q Max ! -34.45950 -6.21730 -0.69775 7.65256 24.23631 !

!

Type: error !

Coefficients: (asymptotic standard errors) !

Estimate Std. Error z value Pr(>|z|)!

(Intercept) 61.053618 5.314875 11.4873 < 2.2e-16!

INC -0.995473 0.337025 -2.9537 0.0031398!

HOVAL -0.307979 0.092584 -3.3265 0.0008794!

!

Lambda: 0.52089, LR test value: 6.4441, p-value: 0.011132!

Asymptotic standard error: 0.14129!

z-value: 3.6868, p-value: 0.00022713!

Wald statistic: 13.592, p-value: 0.00022713!

!

Log likelihood: -184.1552 for error model!

ML residual variance (sigma squared): 99.98, (sigma: 9.999)!

Number of observations: 49 !

Number of parameters estimated: 5 ! AIC: 378.31, (AIC for lm: 382.75)!

(30)

Modèle d’erreurs spa2ales (SEM)

•  Une comparaison entre les deux modèles(SEM et LAG) peut être eﬀectuée grâce à diﬀérents critères :

ü  Le coeﬃcient d’autoregression spa2ale (Lambda/Rho) est signiﬁca2f mais moins que dans le modèle LAG.

ü  Le log-‐likelihood pour SEM vaut -‐184.16 et est moins élevé que pour le modèle LAG -‐183.17. On trouve Δ=0.04 ce qui témoigne d’une bonne améliora2on du modèle LAG sur le modèle SEM.

ü  L’AIC vaut 378.31 pour SEM, 374.34 pour LAG (et 382.75 pour LM) ce qui montre que LAG est meilleur

•  On verra que ces résultats sont consistents avec ceux obtenus aux tests du mul2plicateur de Lagrange.

(31)

Commentaires sur les modèles

•  Contraintes sur les paramètres

ü  Il y a dans ces modèles des contraintes sur le paramètre d’autoregression ρ (resp. λ) dues à la nécessité d’imposer I-‐ρW (resp. I-‐λV) inversible. Pour cela, soient w_min et w_max la plus pe2te et la plus grande valeur propre de W (resp.V). Si W est symétrique, on MQ la condi2on

est une condi2on suﬃsante de non singularité.

ü  Si W est normalisée, on MQ

1

w_min <ρ < 1 w_max

w_max =1

(32)

Commentaires sur les modèles

eigenw(col.listw)

[1] 1.000000e+00 9.687970e-‐01 9.388159e-‐01 8.748731e-‐01 8.476441e-‐01 7.655969e-‐01 6.907270e-‐01 -‐6.519546e-‐01 -‐6.009133e-‐01 5.873411e-‐01 -‐5.637492e-‐01 5.508182e-‐01

[13] 5.361444e-‐01 -‐5.042972e-‐01 -‐5.000000e-‐01 -‐4.955955e-‐01 -‐4.823929e-‐01 -‐4.750630e-‐01 -‐4.452039e-‐01 4.418332e-‐01 -‐4.222511e-‐01 -‐4.122630e-‐01 -‐3.889661e-‐01 -‐3.826030e-‐01

[25] -‐3.655755e-‐01 -‐3.544676e-‐01 3.372218e-‐01 3.237003e-‐01 -‐3.179893e-‐01 -‐3.094258e-‐01 2.852730e-‐01 -‐2.721972e-‐01 -‐2.556928e-‐01 -‐2.500000e-‐01 -‐2.289888e-‐01 -‐2.066596e-‐01

[37] 1.975947e-‐01 -‐1.935817e-‐01 -‐1.820426e-‐01 1.704262e-‐01 -‐1.468052e-‐01 1.245939e-‐01 -‐1.089779e-‐01 -‐8.386006e-‐02 -‐5.486559e-‐02 -‐3.749353e-‐02 3.428778e-‐02 1.818743e-‐02

[49] -‐6.213240e-‐17

summary(eigenw(col.listw))

Min. 1st Qu. Median Mean 3rd Qu. Max.

-‐0.6520 -‐0.3826 -‐0.1468 0.0000 0.3237 1.0000 1/min(eigenw(col.listw))

[1] -‐1.533849

1/max(eigenw(col.listw)) [1] 1

Dans le modèle lag, la condi2on sur ρ est donc que ⁻^1.53^< ^ρ ^<¹

(33)

Commentaires sur les modèles

•  Tests de signiﬁca2vité d’un paramètre

Chap 7 : R´egression spatiale pour variables surfaciques Mod`ele LAG

Les trois tests sur les coefficients

Il existe trois tests classiques pour tester H₀ : ✓ = ✓₀ contre l’alternative H₀ : ✓ 6= ✓₀, où ✓ peut-être soir l’un des paramètres soit le paramètre ⇢

test de Wald : TW

test du rapport de vraisemblance LR test du multiplicateur de Lagrange LM

Ces trois tests sont asymptotiquement équivalents mais à distance finie on a TW LR LM. Le test de Wald requiert l’estimation des paramètres sous l’hypothèse alternative, le test du multiplicateur de Lagrange requiert l’estimation des paramètres sous l’hypothèse nulle et le test du rapport de vraisemblance requiert les deux estimations.

Christine Thomas-Agnan (TSE) Analyse statistique des donn´ees spatiales VI 29 octobre 2012 37 / 59

(34)

Commentaires sur les modèles

•  Interpréta2on des coeﬃcients d’une régression spa2ale

•  Dans un modèle de RLM, le coeﬃcient β_j s’interprète classiquement comme l’accroissement moyen de Y lorsque la j° variable explica2ve

augmente d’une unité. Cela veut dire que l’augmenta2on d’une unité de Xj a le même eﬀet sur Y pour tous les individus sur lesquel Xj a été

augmentée. Par contre, elle n’a pas d’ eﬀet sur les individus pour lesquels Xj n’a pas été augmentée.

•  Dans un modèle LAG un changement d’une unité sur Xj pour un individu va aﬀecter la valeur de Y pour cet individus mais auss icelle de tous les autres individus voisins.

(35)

Es2ma2on des paramètres dans un modèle de régression spa2ale

Estimation des paramètres dans un modèle de régression spatiale

Les diﬀérentes méthodes

I MCO : ne marche pas ; estimateurs biaisés et non consistents.

I MV : fournit des estimateurs sans biais, convergents et asymptotiquement gaussiens (Heijmans et Magnus, 1986, Magnus, 1978) mais calculs très lourds dès que n grand.

Résolution par approximation numérique.

I Méthode mixte (MCO+MV)

I Méthode des variables instrumentales (Anselin, 1988) : ne marche pas pour les modèles d’erreur spatiale (ˆ non

consistent)

I MMG (Kelejian et Prucha, 1998, 1999) (modèle d’erreur spatiale)

(36)

Es2ma2on des paramètres dans un modèle de régression spa2ale

Estimation des paramètres dans un modèle de régression spatiale

Principe de résolution par MV

Théorème

Si Y ⇠ Nn(↵,⌃) avec ⌃ inversible alors Y admet une densité f_Y(y) = 1

(2⇡)ⁿ^/²p

det ⌃ exp 1

2(y ↵)⁰⌃ ¹(y ↵)

On applique ce théorème pour calculer la vraisemblance des diﬀérents modèles.

(37)

Es2ma2on des paramètres dans un modèle de régression spa2ale

Estimation des paramètres

Application au CAR stationnaire

On a ↵ = µ1. Posons A = (I ⇢W), on a ⌃ = ²(A⁰A) ¹ ) det⌃ =

2n

(detA)²,

⌃ ¹ = 1

2A⁰A.

(y ↵)⁰⌃ ¹(y ↵) = 1

2kA(y ↵)k² = 1

2ky ⇢Wy µ(1 ⇢)1k²

) f_Y(y) = 1

(2⇡ ²)ⁿ^/²|det(I ⇢W)|exp 1

2 ²kx ⇢Wy µ(1 ⇢)1k²

(38)

Es2ma2on des paramètres dans un modèle de régression spa2ale

Estimation des paramètres

EMV :

✓ˆ = (ˆµ, ˆ, ˆ²) = arg max

✓ L(✓) avec ✓ = (m, l, v²)

L(✓) = 1

(2⇡v²)ⁿ^/²| det(I lW)|exp 1

2v²kY lWY m(1 l)1k² .

I Résolution : On résout numériquement le système d’équations

L(✓)

✓_k = 0,k = 1, 2, 3.

I Problèmes : Pas de solution explicite en général. Estimation très lourde dès que n est grand.

(39)

Es2ma2on des paramètres dans un modèle de régression spa2ale

Estimation des paramètres

Une variante : la méthode mixte

I Notre modèle peut se réécrire sous la forme d’une régression linéaire simple :

Yi µ = ⇢(zi µ) + ✏_i () Yi = µ(1 ⇢) + ⇢zi + ✏_i,i = 1..n En posant µ(1 ⇢) = ⌘, l’estimation de (⌘,⇢) par les MCO est donnée par :

ˆ

⌘ = ¯y ⇢¯ˆz

⇢ˆ =

P(y_i y¯)(z_i z¯) P(zi ¯z)² Comme ¯z = ¯y on a

ˆ

µ = ¯y ˆ

⇢ =

P(yi y¯)(zi z¯) P(z_i ¯z)²

(40)

Es2ma2on des paramètres dans un modèle de régression spa2ale

Estimation des paramètres

Exemple du CAR stationnaire

I Algorithme itératif de la méthode mixte :

1. Initialisation

• Soit m₀ l’estimateur des MCO de µ. On

maximise L(m₀, l, v²) par rapport à l et v² ) on obtient l₁ et v₁².

• On maximise L(m, l₁,v₁²) par rapport à m ) on obtient m₁.

2. On réitère jusqu’à un critère d’arrêt.

(41)

Tests d’autocorréla2on spa2ale

Tests d’autocorrélation spatiale

Généralités

Les tests d’autocorrélation spatiale permettent de valider le choix d’interaction spatiale fait dans le modèle.

I Dans le cas d’un CAR stationnaire ou d’un modèle à variable décalée, on teste

H₀ : ⇢ = 0 contre H₁ : ⇢ 6= 0

I Dans le cas d’un modèle d’erreur spatiale, on teste H₀ : = 0 contre H₁ : 6= 0

(42)

Tests d’autocorréla2on spa2ale

Tests d’autocorrélation spatiale

Test de Moran

I Pour les modèles CAR et LAG, la statistique de Moran s’écrit : I_M =

P(Y_i Y¯)(z_i ¯z)

P(z_i z¯)² , z_i = X

w_ijY_j

I Pour le modèle SEM, la statistique de Moran s’écrit : I_M =

P(✏_i ¯✏)(e_i e¯)

P(e_i ¯e)² , e_i = X v_ij✏_j Mêmes règles de décision que dans le cours 2.

(43)

•  Le test de Moran a une grande puissance contre un ensemble assez vaste d’alterna2ves, mais contrairement aux tests du mul2plicateur de Lagrange ci-‐après, il ne permet pas de choisir entre les modèles LAG et SEM.

(44)

Tests d’autocorréla2on spa2ale

Tests d’autocorrélation spatiale

Test du multiplicateur de Lagrange

I Dans le cas d’un modèle SEM, on utilise la statistique : LM1 = (ˆ✏⁰W✏)ˆ ²

T ˆ⁴

où ˆ✏ et ˆ sont les estimations de ✏ et sous H0 ( RLM standard) et T = tr((W⁰ + W)W). Sous H₀,

LM1 !D 2(1)

I Dans le cas des modèles CAR et LAG, on utilise la statistique : LM2 = (ˆ✏⁰WY )²

Tˆ ˆ⁴

où ˆ✏ et ˆ sont les estimations de ✏ et sous H₀ ( RLM

standard) et Tˆ = (Wx ˆ)(I x(x⁰x) ¹x⁰)(Wx ˆ) + T ˆ² /ˆ². Sous H0,

LM2 !D 2(1)

(45)

Tests d’autocorréla2on spa2ale

•  LM1 teste si il est nécessaire de prendre en compte dans le modèle l’autocorréla2on des erreurs.

•  LM2 teste si il est nécessaire de prendre en compte dans le modèle l’autocorréla2on de la variable à expliquer.

Mais ces tests se basent sur l’hypothèse qu’il n’existe pas d’autre sorte d’autocorréla2on possible que celle testée.

Pour cela, Il est nécessaire de considérer des versions robustes de ces deux tests :

•  RLM1 si il est nécessaire de prendre en compte dans le modèle l’autocorréla2on des erreurs, sachant qu’il existe éventuellement aussi une autocorréla2on de la variable à expliquer, non prise en compte dans le modèle .

•  RLM2 si il est nécessaire de prendre en compte dans le modèle l’autocorréla2on de la variable à expliquer, sachant qu’il existe éventuellement aussi une autocorréla2on des erreurs, non prise en compte dans le modèle .

III-­‐ Modèles de régression spa2ale