3.2.3.1 Collection test de documents - INTERFACE ADAPTATIVE POUR L'AIDE A LA RECHERCHE D'INFORM

Turner et al. (2006), através de um importante estudo baseado em dados de aproximadamente 8 milhões de potenciais solicitantes de crédito em diversos estados norte- americanos, mostra benefícios potenciais que dados de Consumo de Energia Elétrica e perfil de pagamento da conta de luz podem trazer para modelos de concessão de crédito para a baixa renda, através da diminuição da assimetria de informação.

12_{Também conhecido como Polígonos (ou Tesselação) de Voronoi, ou ainda de Dirichlet, trata-se da}

decomposição do espaço geográfico de acordo com a distância aos pontos determinados. Dado um conjunto A de n pontos no espaço queremos determinar para cada ponto p de A qual é a região V(p) dos pontos do plano que estão mais próximos de p do que de qualquer outro ponto em A, conforme exemplo da figura abaixo.

Em suma, muitos estudos analisam o comportamento do Consumo de Energia Elétrica Residencial e sua relação com a Renda ou outros indicadores econômicos, em nível global (estudos comparativos entre países e regiões, utilizando-se ou não de dados em painel, ou para um mesmo país ao longo dos anos), em nível estadual ou municipal, e alguns poucos utilizando-se de dados representativos de estruturas administrativas intra-municipais, como distritos ou áreas censitárias. Pesquisas domiciliares são utilizadas para investigar estrutura de uso da energia nas residências, mas ainda é incipiente a utilização de técnicas ou modelos que utilizem a localização geográfica dos domicílios.

Este estudo se posiciona nesse contexto. Procura-se estender os modelos tradicionais com a incorporação da natureza geoespacial de suas observações, utilizando diversas técnicas de exploração espacial dos construtos avaliados – Renda e Consumo de Energia Elétrica. São elas: auto-correlação espacial e regressão espacial (em especial, Spatial Auto-Regression e Geographically Weighted Regression), em duas naturezas de associação: domiciliar e regional, que serão descritas no Capítulo 3.

3 ESTATÍSTICA ESPACIAL APLICADA

A abordagem tradicional para o tratamento de dados sociais, econômicos e ambientais utiliza técnicas estatísticas bem estabelecidas, como testes de hipótese, análise de variância e modelos lineares. Estas, embora relevantes e úteis, não permitem considerar o espaço geográfico. Uma das motivações deste estudo é que “onde” ocorre o fenômeno é muito importante, e em alguns casos essencial à compreensão do mesmo.

Este capítulo divide-se em quatro partes. A primeira apresentará uma visão histórica e conceitual da importância da aplicação de inteligência espacial em problemas de pesquisa e negócios, sob a perspectiva das ciências sociais aplicadas.

A segunda parte descreverá brevemente o que se convencionou denominar Exploratory Spatial Data Analysis (ESDA) - análise exploratória de dados espaciais, e suas variações, como uma derivação da análise exploratória de dados.

A terceira e a quarta partes tratarão da incorporação da natureza espacial das informações em técnicas estatísticas. A terceira parte apresentará a Estatística Espacial, suas particularidades e suas diferenciações históricas e conceituais da Geoestatística, e a quarta e última parte descreverá os fundamentos da inferência estatística (ou análise confirmatória de dados) espacial, em particular a Regressão Espacial, caracterizando especialmente os modelos Spatial Auto-Regressive model (SAR) e Geographically Weighted Regression (GWR), que serão utilizados neste trabalho.

3.1 INTELIGÊNCIA ESPACIAL EM PROBLEMAS DE PESQUISA E NEGÓCIOS

Compreender a distribuição espacial de dados oriundos de fenômenos ocorridos no espaço constitui hoje um grande desafio para a elucidação de questões centrais em diversas áreas do conhecimento, seja em saúde, meio-ambiente, geologia, agronomia, ciências sociais, entre tantas outras. Tais estudos vêm se tornando cada vez mais comuns, devido à disponibilidade de Sistemas de Informação Geográfica ou Geographic Information Systems (GIS) de baixo custo e com interfaces amigáveis. Estes sistemas permitem a visualização

espacial de variáveis como população de indivíduos, índices de qualidade de vida ou vendas de uma empresa numa região através de mapas. Para tanto, basta dispor-se de um banco de dados e de uma base geográfica (como um mapa de municípios), e o GIS é capaz de apresentar um mapa colorido (ou cloroplético) permitindo a visualização do padrão espacial do fenômeno.

Além da percepção visual da distribuição espacial do problema, é muito útil traduzir os padrões existentes em considerações objetivas e mensuráveis, que são endereçadas pela análise espacial de dados geográficos e a estatística espacial. A ênfase da análise espacial é mensurar propriedades e relacionamentos, levando-se em conta a localização espacial do fenômeno em estudo de forma explícita (CÂMARA et al., 2003).

Os GIS apareceram como tecnologia inovadora e de ponta, disseminaram-se, chegaram ao computador pessoal (PC) e foram tecnicamente incorporados aos sistemas de informação em geral (ARANHA; FIGOLI, 2001). No entanto, sua incorporação sob o ponto de vista cultural ainda está incompleta – os processos técnicos mais operacionais ou transacionais das corporações já são atendidos por bancos de dados e sistemas geográficos, mas processos mais estratégicos ainda carecem de adoção pelas empresas – falta percepção de potencial, já que não há impedimento tecnológico (PENNA; FRANCISCO, 2004). De qualquer forma, essa percepção está aumentando, com a crescente utilização de métodos analíticos e de informações cientificas na tomada de decisões estratégicas e táticas pelas organizações (GREGORI; LINK, 2005).

A mensagem básica inerente ao GIS é a palavra Integração. Integração de diferentes dados temáticos mediante o uso da localização espacial comum aos mesmos, integração de processos para tratamento destes dados e, conseqüentemente, de funções empresariais e de grupos ou pessoas envolvidas na captação, edição, armazenamento, manipulação, produção, apresentação e, principalmente, análise desses dados.

Um exemplo pioneiro da incorporação do espaço ao processo de análise, no contexto das ciências sociais e administração, foi realizado no século XIX pelo médico John Snow. Em 1854, ocorria em Londres uma das várias epidemias de cólera trazidas das Índias. Pouco se sabia sobre os mecanismos causais da doença. Duas vertentes científicas procuravam explicá-la: uma relacionando-a aos miasmas, concentrados nas regiões baixas e

pantanosas da cidade, e outra à ingestão de água insalubre. O mapa da Figura 3.1 localiza a residência dos óbitos ocasionados pela doença e as bombas de água que abasteciam a cidade, permitindo visualizar claramente uma destas, em Broad Street (em destaque na figura), como o epicentro da epidemia. Estudos posteriores confirmaram esta hipótese, corroborada por outras informações tais como a localização do ponto de captação de água desta bomba a jusante (rio abaixo) da cidade, em local onde a concentração de dejetos, inclusive de pacientes coléricos era máxima. Esta é uma situação típica em que a relação espacial entre os dados contribui significativamente para o avanço na compreensão do fenômeno, sendo um dos primeiros exemplos da análise espacial (BAILEY; GATTREL13, 1995 apud FRANCISCO; TRISTÃO, 2006).

Figura 3.1: Mapa de John Snow, da cidade de Londres, com óbitos por cólera (identificados por pontos) e poços de água (identificados por cruzes), com destaque para o poço contaminado

Fonte: adaptado de CÂMARA; CAMARGO, 2002; FRANCISCO; TRISTÃO, 2006.

Uma derivação, ou apropriação, do GIS para uso em processos de inteligência de mercado e de marketing em geral é o geomarketing, ou marketing geográfico, que estuda as relações existentes entre as estratégias e políticas de marketing e o território ou espaço onde a instituição, seus clientes, fornecedores e pontos de distribuição se localizam (DAVIES, 1976).

Na teoria, a origem do geomarketing ocorreu com a combinação bem sucedida da Economia com a Geografia. J. von Thünen (1826) desenvolveu a Teoria da Renda da Terra, tornando famosos os “anéis de Thünen”14 e inaugurou a incorporação da geografia na teoria econômica. Já Weber (1909), com a Teoria Geral da Localização e Lösch (1954) e Christaller (1933) com a Teoria do Lugar Central (TLC) inauguraram o conceito de “área de influência” em uma perspectiva prática e de apoio à administração15. Depois vieram os Modelos Gravitacionais de Reilly (1931) e Huff (1966). William Reilly demonstrou a utilidade dos modelos de Isaac Newton no marketing geográfico com sua Lei da Gravitação do Varejo – a interação potencial entre consumidores e vários pontos varejistas dentro de uma área urbana varia diretamente com o poder de atração (ou tamanho) de cada ponto, e inversamente com a distância que separa o consumidor do ponto de origem (REILLY, 1931).

A operação de análises em geomarketing geralmente é precedida de duas etapas importantes: (i) a disponibilização de elementos sistemáticos, dentre os quais se destaca a base de eixos de logradouros; e (ii) a base de dados de objetos de interesse que é, em geral, composta do cadastro dos clientes ou prospects que se deseja mapear. A essas bases são associadas novas informações, conforme as etapas descritas a seguir: (iii) informações sociodemográficas (normalmente em nível de setores censitários), (iv) identificação e qualificação dos players do mercado (rede dos competidores, por exemplo), e

14_{Johann Heinrich von Thünen concluiu que a renda econômica da produção agrícola depende da distância do} mercado, ou seja, as terras mais próximas do centro consumidor tem maior renda em relação àquelas mais distantes. Como os custos de transporte aumentavam com a distância, o afastamento do mercado determinava a seleção de culturas. Assim, os produtos se distribuíam de maneira regular em torno do mercado – em forma que ficou conhecida como os Anéis de von Thünen. Nesse contexto, os produtos perecíveis ou de difícil transporte se localizavam próximos ao centro consumidor, e nos demais anéis estavam o cultivo da madeira, cultivo de cereais e a pecuária (THÜNEN, 1826; COSTA; CABELEIRA, 2002). Os custos unitários de transportes e o preço do solo urbano são, até hoje, funções decrescentes da distância ao centro consumidor. 15_{Alfred Weber trabalhou na modelação da localização industrial (1909). O economista August Lösch, em textos}

que culminaram no Economics of Location (1954), e o geógrafo Walter Christaller (1933) tiveram seus trabalhos conhecidos, em conjunto, como a Teoria do Lugar Central (TLC), que descreve o número, tamanho, espaçamento e composição funcional de centros comerciais, num mundo microeconômico de livre

concorrência típico. Uma série de assumptions é feita com relação aos consumidores e fornecedores (pequenos, informados, racionais, igualmente distribuídos no espaço), e quanto à geografia (espaço homogêneo, custos uniformes e isotrópicos). O conceito e a operacionalização da “área de influência” e a formação de hierarquia de centros de comércio é deduzida dessa teoria (BROWN, 1992; ARANHA, 2001).

(v) conhecimento dos elementos que influenciam o negócio que está sendo estudado: rede de transporte (ruas, estradas, transporte público), barreiras naturais e culturais e zonas de influência (MACHADO; FRANCISCO; RIBEIRO, 2006).

O trabalho desta tese incentiva a adoção de indicadores não-convencionais no mercado para a caracterização econômica do território e potencializa a utilidade e a dinâmica do processo descrito acima – em especial, as etapas (ii) e (iii).

Hoje em dia, com o advento de ferramentas como Google Earth_{, Google Maps}

e Microsoft Virtual Earth_{, com a realização das etapas de análise geográfica em um}

ambiente cloud computing apoiado nos protocolos da Internet e com a popularização de dispositivos móveis de localização (GPS-based) e de interação (PDAs e telefones celulares) convencionou-se denominar de WebGIS a todo esse novo contexto, o que acarreta uma mudança de paradigma comercial profunda no geomarketing e uma disseminação sem igual do poder e da inteligência analítica que é propiciada com o uso geográfico da informações.

3.2 ANÁLISE EXPLORATÓRIA DE DADOS ESPACIAIS

Muitos dos aspectos que antecedem a estatística espacial estão relacionados à descrição e exploração de conjuntos de dados espaciais. O termo genérico para esses métodos é Análise Exploratória de Dados que, no contexto espacial, torna-se Análise Exploratória de Dados Espaciais, ou Exploratory Spatial Data Analysis (ESDA).

O processo de análise de dados espaciais inclui métodos de visualização, métodos exploratórios para investigar algum padrão nos dados e métodos que auxiliem a escolha de um modelo estatístico e a estimação dos parâmetros desse modelo (CARVALHO, 1997). Podemos dividir as ferramentas da Análise Espacial em: seleção, manipulação, análise exploratória e confirmação (modelagem), segundo Anselin (1988).

Por seleção, entendemos os processos de navegação num banco de dados geográfico realizando consultas e apresentando mapas cloropléticos simples. O processo de manipulação envolve todas as funções que criam dados espaciais, em especial com a utilização da álgebra de mapas em geoprocessamento (CÂMARA; CAMARGO, 2002).

As técnicas de análise exploratória permitem descrever e visualizar distribuições espaciais, descobrir padrões de associação espacial (aglomerados espaciais), sugerir a existência de instabilidades espaciais (não-estacionariedade) e identificar observações atípicas (outliers). As técnicas de análise exploratória aplicadas a dados espaciais são essenciais ao desenvolvimento das etapas de modelagem estatística espacial, em geral muito sensíveis ao tipo de distribuição, à presença de valores extremos e à ausência de estacionariedade (CARVALHO, 1997).

As técnicas de análise confirmatória envolvem o conjunto de modelos de estimação e procedimentos de validação, necessários para implementar análises multivariadas com componentes espaciais.

De uma forma geral, os problemas de análise espacial lidam com duas classes de dados: ambientais e socioeconômicos. Por dados ambientais (ou naturais) referimo-nos a todos os tipos de dados resultantes de levantamento de recursos naturais, como provenientes de estudos ligados a geologia, topografia, ecologia, climatologia, sismologia e mineração, entre outros. Chamamos de dados socioeconômicos todos aqueles decorrentes de levantamentos associados a recursos humanos, como saúde, demografia, economia, real estate, transportes, marketing – ciências sociais e administração em geral (CÂMARA; CAMARGO, 2002; TOMLINSON, 2003; SMITH; GOODCHILD; LONGLEY, 2007).

No caso de dados ambientais, a abordagem usual é a da geoestatística (descrita no tópico 3.3), cujas técnicas buscam construir uma superfície de representação do fenômeno, com base em uma caracterização de similaridade espacial entre as amostras coletadas. O conceito de estacionariedade (também a ser descrito em 3.3) sustenta com bastante freqüência o comportamento dos dados ambientais, resultantes de fenômenos naturais (MAGRI; LYNCH, 2008).

Para os dados socioeconômicos, a situação é mais complexa. Em grande medida, trata-se de dados associados a levantamentos populacionais, como censos e amostras, e que originalmente se referem a indivíduos ou domicílios localizados em pontos específicos do espaço. Por razões de confidencialidade e de tratamento estatístico, estes dados são agregados em unidades de análise, usualmente delimitadas por polígonos fechados (setores censitários, zonas de endereçamento postal, áreas de ponderação, distritos, municípios). A suposição

implícita neste caso é que as regiões apresentadas são intrinsecamente homogêneas e que as mudanças significativas só ocorrem nos limites (MARTIN, D.,1995), que, evidentemente, é uma falsa premissa, pois as unidades de levantamento são definidas por critérios operacionais ou político-administrativos e não há qualquer garantia de que a distribuição das variáveis socioeconômicas seja homogênea dentro destas unidades (CÂMARA; CAMARGO, 2002; DIAS et al., 2002).

Deste modo, podemos postular que a simples apresentação de dados socioeconômicos como mapas temáticos é insuficiente, de forma geral, para caracterizar o fenômeno em estudo. A escolha das unidades de coleta e análise é parte crucial do uso de dados socioeconômicos em GIS. Estas unidades devem apresentar resolução (definida a partir da menor área para a qual as informações estão disponíveis e são representativas) adequada ao fenômeno que se deseja estudar. Quanto menor a escala, maior a população e a área da unidade de estudo, menor a resolução, menor a variabilidade dos dados, e, portanto, menor a homogeneidade interna e a capacidade de distinguir diferenças (ANSELIN, 1998; CÂMARA; CARVALHO, 2004). Aumentar a escala e a resolução traz outros problemas: à medida que diminui a área e a população, diminui também a ocorrência do evento estudado, podendo gerar instabilidade dos indicadores nos grupos (CARVALHO, 1997; DIAS et al., 2002).

O problema da inter-relação entre a área de estudo e os resultados mensurados é chamado de problema da unidade de área modificável, ou Modifiable Area Unit Problem (MAUP). Os gráficos e os modelos lineares da Figura 3.2 ilustram a significativa diferença que podemos ter na relação entre variáveis de acordo com diferentes níveis de agregação ou escala que adotarmos.

Figura 3.2: Diferentes Modelos Lineares sobre um mesmo conjunto de dados para ilustrar o MAUP Fonte: adaptado de DIAS et al., 2002.

Devido aos efeitos de escala e de agregação de áreas, os coeficientes de correlação podem ser inteiramente diferentes no indivíduo e nas áreas (WRIGLEY et al., 1996). Este fenômeno, nas ciências sociais e na epidemiologia, é chamado de “falácia ecológica”16, que envolve a conclusão imprópria de relacionamentos a nível individual a partir de resultados agregados ao nível de unidade de área.

Mudando-se a escala e as dimensões da unidade de análise podemos chegar a conclusões bastante diferentes. Agregação em regiões maiores que as unidades poligonais disponibilizadas reduz a variabilidade e tende a aumentar a correlação entre as variáveis (OPENSHAW; TAYLOR, 1979; JELINSKI; WU, 1996). E essa problemática é intrínseca ao estudo de fenômenos a partir de dados socioeconômicos disponíveis na forma de polígonos, independente da forma como os limites tiverem sido definidos (MARTIN, D., 1995; JELINSKI; WU, 1996).

Os dados socioeconômicos podem ser abordados em duas perspectivas distintas: (i) como um conjunto de polígonos homogêneos, disjuntos e adjacentes, cobrindo toda a área em estudo, com atributos descritivos para cada região, e (ii) como um conjunto de amostras (onde cada amostra está associada a um ponto [centróide, sede ou arbitrário] da unidade de levantamento).

16_{Deve-se observar que a chamada “falácia ecológica”, a rigor, nem é uma “falácia” nem é “ecológica”. Trata-se} de uma propriedade inerente aos dados agregados por áreas. A agregação de indivíduos em áreas tende a aumentar a correlação entre as variáveis e reduzir flutuações estatísticas. (DIAS et al., 2002).

• Modelo linear para cada grupo de dados ( ):R2_{varia de -0,5 a -0,8} • Modelo linear considerando apenas

as médias de cada grupo: R2_{= +0,99} • Modelo linear para todos os

3.3 ESTATÍSTICA ESPACIAL E GEOESTATÍSTICA

A Estatística Aplicada é utilizada tanto em modelos de dependência espacial para análise de dados ambientais quanto para análise de dados socioeconômicos. Geralmente as análises espaciais ambientais são aplicadas a fenômenos que apresentam um comportamento relativamente estável ao longo do tempo, enquanto as análises espaciais de mercado são aplicadas a fenômenos sociais, geralmente muito instáveis (CÂMARA; CAMARGO, 2002; FOTHERINGHAM; BRUNSDON; CHARLTON, 2002). Esta é, fundamentalmente, a diferença entre a Geoestatística e a Estatística Espacial: o conceito de estacionariedade espacial.

O termo Estacionariedade é original da análise de processos aleatórios, particularmente vinculado a séries temporais. Um processo aleatório estacionário é identificado por apresentar propriedades estatísticas (média, variância, distribuição, correlações etc) que não variam no tempo. Da mesma forma, no contexto da análise espacial, um processo aleatório é estacionário no espaço (SMITH; GOODCHILD; LONGLEY, 2007).

Fotheringham, Brunsdon e Charlton (2002, p. 9-11) discutem possíveis causas de não-estacionariedade espacial no estudo de um fenômeno social. A não-estacionariedade pode ser fruto de relacionamentos entre construtos que são intrinsecamente diferentes em regiões do espaço, devido a variações culturais, atitudinais, econômicas ou de preferências, o que corrobora crenças do pós-modernismo (THRIFT, 1983) sobre a importância do contexto local no entendimento do comportamento humano. A não-estacionariedade observada na relação mensurada pode ser, ainda, advinda de uma pré-concepção de modelo (ou statement) global de comportamento, ou seja, um problema de especificação. De qualquer forma, a discussão sobre essas causas é um dos grandes debates em vigor na Análise Espacial atualmente.

Muitas técnicas, incluindo a GWR que utilizamos neste estudo, são adequadas para processos espaciais não-estacionários e buscam modelar explicitamente as diferenças locais (SMITH; GOODCHILD; LONGLEY, 2007).

A Geoestatística pode ser definida como um conjunto de “modelos e métodos para dados observados em um conjunto discreto de localizações, de forma que o valor observado zié ou uma medição direta de, ou está estatisticamente associado a, o valor de um

fenômeno espacial contínuo F( yx, ) na localização (x_i,y_i) dentro de uma determinada região geográfica”, segundo Prof. Diggle da University of Lancaster (SMITH; GOODCHILD; LONGLEY, 2007, tradução nossa). Essa definição enfatiza que a geoestatística estuda fenômenos espaciais contínuos e estacionários no espaço. Como dados ambientais são resultantes de fenômenos naturais (como os processos geológicos, por exemplo) a hipótese de estacionariedade é sustentada com freqüência (CÂMARA; CAMARGO, 2002), e é o pressuposto central da geoestatística.

Nesses termos, a abordagem geoestatística representa um conjunto de técnicas para se construir uma superfície com base numa caracterização da similaridade espacial entre as amostras. Diversos conceitos foram definidos para entender e modelar o comportamento (supostamente contínuo) das variáveis no espaço. Uma função comumente utilizada é a semivariância (experimental), a metade da soma dos quadrados dos desvios entre os pares de pontos em cada classe de distância (RIBEIRO Jr., DIGGLE; 2001), que tem a seguinte forma:

∆ + = ∆ − =

−

=

2 2 2

)

(

)

(

2

1 )

(

ˆ

h d h d j i ij ij

z

h

N

h

γ

, (3.1)

onde h é uma distância fixa (ou lag), d é a distância entre os pontos i e j e ∆ é uma largura _ij de banda com centro em h (ou seja, [h−∆ 2,h+∆ 2] ). O somatório considera todos os pares de valores observados cuja separação espacial esteja dentro da largura de banda escolhida. Existem N(h) pares nessa situação, portanto γˆ h( ) mede a (dis)similaridade espacial quadrada média entre os pares de dados dentro da banda h . O gráfico das semivariâncias γˆ h( )em função da distância h é chamado de semivariograma.

A Krigeagem (ou Kriging) é o principal modelo inferencial de regressão utilizado em geoestatística para interpolar dados. Parte do princípio de que pontos próximos no espaço tendem a ter valores mais parecidos do que pontos mais afastados. A técnica de krigeagem

Dans le document INTERFACE ADAPTATIVE POUR L'AIDE A LA RECHERCHE D'INFORMATION SUR LE WEB (Page 81-99)