• Aucun résultat trouvé

No âmbito dos objectivos definidos, foram realizados vários testes na área de estudo para avaliar duas questões: (1) A melhor abordagem de classificação, consistindo na avaliação dos dois classificadores (classificador da máxima verosimilhança e árvores de decisão); avaliação do melhor conjunto de dados (variáveis de input: datas, NDVI e

33

componentes principais); nomenclaturas de ocupação do solo (com 10 classes ou 6 classes); (2) A capacidade das imagens AWiFS para originar cartografia de ocupação do solo numa região com uma paisagem com as características da área de estudo, que se localiza, essencialmente, na região do Baixo Alentejo.

Para concretizar os objectivos acima descritos, foram realizados quatro testes de classificação (Tabela 8) onde foram testadas as diferentes variáveis.

Tabela 8 – Características dos testes de classificação.

Teste Classificador Classes de treino Classes de mapa Dados de input

1 CMV& AD 10 10 Abril e Julho

2 CMV& AD 10 10 Abril, Julho e NDVI de Abril e Julho

3 CMV& AD 10 10 CP Abril e Julho

4 CMV & AD 10 6 Abril e Julho

Os testes 1 a 3 avaliam a abordagem de classificação relativamente ao algoritmo de classificação e aos dados de inputs. Pretendeu-se verificar a mais-valia de acrescentar o índice de vegetação NDVI à informação espectral disponível, bem como o efeito da redução da redundância de dados na classificação recorrendo à Analise de Componentes Principais (ACP).

O teste 4 avalia o potencial melhoramento da exactidão temática da classificação ao usar uma nomenclatura menos detalhada. Desta forma, utilizou-se uma nomenclatura de cinco classes, resultantes do agrupamento baseado no nível superior da classificação da nomenclatura LANDEO (Tabela 9).

Tabela 9 – Nomenclatura de ocupação do solo com 10 e 5 classes.

Classe Nomenclatura com 10 classes Classe Nomenclatura com 5 classes

1 Corpos de água 1 Corpos de água

2 Área urbana contínua 2 Áreas urbanas

3 Área urbana descontínua 3 Floresta

4 Vegetação herbácea natural e sequeiros 4 Áreas agrícolas

5 Matos 5 Vegetação esparsa

6 Vegetação esparsa 7 Culturas permanentes perenifólias

(pomares, olivais)

8 Novas plantações/arborizações 9 Floresta fechada de folhosas

34

Assim, a nomenclatura de cinco classes resulta da aglomeração em SIG das classes mais detalhadas da nomenclatura de 10 classes. A classe 3-Floresta da nomenclatura de cinco classes resulta da aglomeração das classes 5,8,9 e 10 da nomenclatura de 10 classes; a classe 4 – Agricultura resulta da aglomeração das classes 4 e 7; a classe 2 – Urbano das classes 2 e 3.

As classificações foram realizadas recorrendo ao software IDRISI The Andes

Edition©. As classificações com árvores de decisão (CAD) foram parametrizadas

utilizando o algoritmo C4.5. O software utilizado disponibiliza uma opção de “auto-

pruning”. Esta opção elimina as folhas com uma contagem de pixels iguais ou inferiores

ao definido na proporção de classes (Clark Lab, 2008). A função de auto-pruning foi parametrizada a 6% e o algoritmo de partição é o de entropy (critério de redução de entropia). O auto-prunning de 6% poderá corresponder a 2 a 3 pixels, considerando um número total de 415 pixels para amostra de treino.

O processo de aglomeração das amostras de 10 para cinco classes foi feito através do software ArcGIS 9.3©

.

3.7A

VALIAÇÃO DA EXACTIDÃO TEMÁTICA

A avaliação da exactidão temática de um mapa é um processo que resulta do confronto entre o mapa produzido com dados de referência, que se assume que representem a realidade (Stehman e Czaplewski, 1998 in Stheman et al., 2000). O objectivo deste processo é a produção de uma matriz de erro ou matriz de confusão, a partir da qual se podem derivar índices de exactidão global e temáticos (Jensen, 1996 e Caetano et al., 2006).

Os dados de referência são geralmente obtidos através de interpretação visual de imagens com maior resolução que os dados utilizados na produção do mapa tais como: imagens aéreas, imagens de satélite e verificações no terreno (Biging et al., 1998; Congalton & Biging, 1992 in Caetano et al., 2006).

Para proceder à avaliação da exactidão temática devem considerar-se três processos: (1) amostragem dos dados de referência, (2) identificação de áreas

35

amostradas e (3) índices de avaliação da exactidão (Stehman e Czaplewski, 1998 in Stheman et al., 2000).

A definição da estratégia de amostragem é uma etapa fundamental no processo de avaliação da exactidão temática (Congalton, 1991 in Lu e Weng, 2007). Na definição do processo de amostragem devem considerar-se a unidade de amostragem, o esquema de amostragem e a dimensão da amostra (Congalton e Green, 1999 e Muller et al., 1998

in Lu e Weng, 2007).

A unidade de amostragem é a unidade de base da avaliação que é confrontada com a correspondente unidade pertencente ao mapa produzido. Geralmente, a unidade de amostragem é o pixel ou o polígono (Congalton, 1998 in Caetano et al., 2006).

O esquema de amostragem consiste no método de selecção das unidades da amostra de referência, o qual tem de garantir uma robustez estatística que só é atingida se o processo for probabilístico. A amostragem aleatória simples é considerada adequada para estimativas sobre a população, pois reduz o efeito de autocorrelação de

pixels vizinhos (Richards e Jia, 2006). Porém, a amostragem aleatória simples levanta

um problema, pois esta é ponderada pela área. Ou seja, esta poderá amostrar por defeito classes que sejam pouco representativas na área total do mapa, a não ser que o tamanho da amostra seja suficientemente grande para abranger todas as classes. Por essa razão, a amostragem aleatória estratificada, na qual é definido um número de amostras a seleccionar em cada estrato ou classe de uso do solo, para além de reduzir o efeito de autocorrelação espacial, garante que cada classe seja amostrada (Congalton, 1988 in Jensen, 1996; Stehman, 2001; Congalton e Green, 1999 e Richards e Jia, 2006).

O número de pixels a ser recolhido para utilizar no processo de avaliação da exactidão da classificação é muitas vezes difícil de determinar. Isto deve-se principalmente ao facto das técnicas “clássicas” para a determinação de número de amostras, que consiste na equação baseada na distribuição binomial, não terem sido concebidas para serem aplicadas na avaliação da exactidão temática de classificações. Este método é adequado para seleccionar o número total de pixels para a amostra, mas este não foi criado para seleccionar o tamanho de uma amostra para preencher uma matriz de confusão (Congalton, 1991 in Jensen, 1996). Devido ao elevado número de

pixels envolvidos nos dados de detecção remota, os métodos de amostragem

36

correcto e o que é realmente exequível. Congalton (1991) in Jensen (1996) sugerem uma regra empírica que consiste em recolher 50 amostras para cada classe de ocupação do solo da matriz de confusão a considerar. Se a área for particularmente grande (superior a 500.000 hectares), ou se considerarem um grande número de classes de ocupação do solo (mais de 12 classes), o número mínimo de amostras de teste aumenta para 75 ou 100 por classe. Este autor também recomenda que deve se aumentar o esforço de amostragem em classes que mostram maior variabilidade espectral, em detrimento de outras que não mostram essa característica.

Após a selecção das unidades de amostra de validação, segue-se um processo de identificação da ocupação do solo real nas unidades de amostra, geralmente com recurso à dados com melhor qualidade que as imagens de satélite utilizadas para produzir o mapa (e.g. interpretação visual de orto-imagens e confirmação no campo). Posteriormente, os pixels identificados são confrontados com os dados correspondentes do mapa resultante da classificação. Esta confrontação é feita através de uma matriz de erro também chamada matriz de confusão.

A matriz de confusão é a técnica mais utilizada para proceder à avaliação da exactidão temática (Foody, 2002 in Lu e Weng, 2007). A matriz consiste numa tabulação cruzada entre as classes de ocupação do solo do mapa e da informação de referência. Os valores listados na tabela representam o número de pixels de teste (classe

verdadeira) para cada classe, correcta e incorrectamente classificados. A partir da

matriz de confusão podem ser calculadas os índices de exactidão global, índice de exactidão do produtor, erros de omissão, índice de exactidão do utilizador e erros de comissão (Tabela 10), onde:

EG – Exactidão global EU – Exactidão do utilizador EP – Exactidão do produtor

37

nii - Número de observações da amostra de validação classificada na classe i do mapa e que

corresponde à classe i na informação de referência;

ni+ -Total de observações da amostra de validação classificadas no mapa com a classe i; n+i – Total de observações da amostra de validação pertencentes à classe i;

Informação de referência 1 2 … q Total 1 n11 n12 … n1q n1+ 2 n21 n22 … n2q n2+ … … … … … Mapa q nq1 nq2 … nqq nq+ Total n+1 n+2 … n+q n

Figura 9 - Matriz de confusão com q classes de ocupação do solo e índices de qualidade do mapa (Fonte: Carrão et al. 2007).

A exactidão global da amostra é a soma dos dados da diagonal da matriz de confusão, divididos pelo número total de pixels da amostra.

O índice de exactidão do produtor (IEP) da classe (i) traduz a probabilidade de um pixel verdadeiro da classe (i) estar realmente representado na cartografia por (i). Este resulta do quociente entre o número de elementos correctamente classificados em cada classe e o número de pixels de treino utilizado nessa classe (total na coluna). O complementar do IEP traduz os erros de omissão. O índice de exactidão do utilizador

38

(IEU) da classe (i) é a probabilidade de um pixel etiquetado como classe (i) ser realmente classe (i). A exactidão no utilizador é obtida dividindo o número de pixels correctamente classificados pelo número total de pixels que foram classificados nessa classe (total na linha). O seu complementar representa os erros de comissão.

Os erros de omissão da classe (i) correspondem aos pixels pertencentes à classe (i) não identificados como tal pelo classificador, enquanto os erros de comissão da classe (i) correspondem aos pixels de outra classe que foram identificados como sendo da classe (i). O primeiro observa-se na coluna da matriz de confusão, enquanto o segundo observa-se ao longo da linha da matriz (Richards e Jia, 2006).

É comum calcular a média das percentagens de classificações correctas e assumi-la como sendo a exactidão global. Porém, um índice mais correcto deveria ponderar a média segundo as áreas ocupadas por cada classe do mapa (Richards e Jia, 2006).

A avaliação da exactidão temática recorrendo à matriz de confusão só é ajustada para classificações ‘rígidas’, assumindo que as classes do mapa são exclusivas e que cada unidade da classificação pertence a uma só classe do mapa. Essa condição nem sempre é respeitada, principalmente se considerarmos imagens de menor resolução espacial (Lu e Weng, 2007).

O processo de validação consistiu na construção de um conjunto de uma amostra de referência para cada um dos testes realizados. A informação de referência utilizada foi um conjunto de ortoimagens de muito grande resolução espacial (40 cm), que cobrem a área de estudo, obtidas em 2006.

Para proceder à recolha das amostras, criou-se uma grelha de área total igual à área de estudo, composta por unidades com 60 por 60 m (3600 m2) de área, espacialmente coincidente com os pixels das imagens AWiFS. A selecção das amostras de teste foi realizada através de uma amostragem aleatória estratificada, com 30 amostras por classe. Seria indicado uma recolha de 100 amostras por classe visto que, segundo Stehman (2001), este número de observações por estrato ou classes garante que a estimativa da exactidão global do mapa e específica das classes tenha uma precisão absoluta nunca superior a 10%, para um nível de significância de 0,05. No entanto, a estratégia de validação adoptada implicou a realização de uma amostragem de validação

39

para cada classificação realizada, de forma a igualar os valores de precisão absoluta da estimativa dos índices de qualidade de todos os resultados.

Deste modo, adoptou-se o modelo ideal e teórico de validação, que não é geralmente utilizado pela maior parte dos autores, visto que este implica um alto conhecimento da área a classificar o que consequentemente aumenta a morosidade do processo. De facto na maior parte dos estudos, é utilizada a mesma amostra de referência para comparar os vários mapas.

Considerou-se que seria necessário realizar um compromisso entre a precisão da estimativa e a exequibilidade do processo, optando-se por recolher 30 observações por classe, o que garante uma precisão absoluta não superior a 18,26%. No total foram recolhidas 2100 amostras (Figura 10).

Figura 10 – Amostras de teste.

De forma a garantir a aleatoriedade da selecção das amostras de teste e evitar o enviusamento de resultados, na amostragem aleatória estratificada considerou-se a localização das amostras de treino. Esta operação foi realizada recorrendo a funções de

40

inquirição de dados em SIG, evitando que as amostras de teste coincidissem com a localização das amostras de treino. Com isso, pretendeu-se reduzir o efeito do conhecimento à priori do terreno, da localização de certas classes de uso do solo existente na área de estudo. Embora esse conhecimento seja muito importante de um ponto de vista de produção, este poderá influenciar os resultados. Por causa desta influência, a avaliação da exactidão da classificação dos pixels localizados nas áreas de treino é geralmente mais elevada que os restantes (Jensen, 1996).

As ortoimagens não cobriam a totalidade da área de estudo. Do mesmo modo, através de uma função de inquirição em SIG, identificaram-se e removeram-se as células que se localizavam fora da cobertura da grelha criada. Embora esta situação poderá por em causa o princípio de igualdade de probabilidade, superior a zero, de cada ponto do mapa de ser seleccionada para unidade amostral, esta é uma condicionante do trabalho que tem ser assumida. Porém verifica-se que as unidades amostrais aparentam estar bem espalhadas pela área de estudo.

Após a aplicação da selecção das amostras, as classes da informação de referência foram interpretadas visualmente. A cada observação foram atribuídos dois códigos, um principal e outro alternativo. Cada observação da amostra de teste foi considerada bem classificada se um dos dois códigos era igual à classe produzida pelo classificador. Caso nenhum dos códigos correspondesse à classe do mapa, o código principal foi adoptado (Figura 11).

Referência

ID Classe Classe 1 Classe 2 Classe final

1 11 11 12 11

2 11 12 11 11

Mapa

3 11 12 6 12 ID – Número sequencial de identificação do pixel

Classe 1 – classe mais provável no conjunto de amostras de referência Classe 2 – segunda classe mais provável

Classe Final – classe de referência que entrará no processo de comparação

41

Nesse exemplo, para o pixel número 1 foram identificadas duas classes prováveis (classes 11 e 12), o mapa confrontado apresenta uma classe igual ao da primeira classe mais provável, a classe final adoptada é então a classe 11. No pixel número 2, a segunda classe mais provável é que é concordante com a classe do mapa, sendo então esta adoptada para classe final (classe 11). Finalmente, no pixel número 3, nenhuma das classes mais prováveis é concordante a classe do mapa, neste caso como classe final é sempre adoptada a primeira classe mais provável (classe 12).

O recurso a dois códigos de identificação das classes deve-se à incerteza e subjectividade inerente ao processo de interpretação visual de imagem, que foi uma situação frequente neste estudo. Esta incerteza deve-se às situações onde a classe de ocupação não está claramente definida, pela existência de mais do que uma ocupação do solo na unidade de amostra, conforme se pode observar no exemplo ilustrado na Figura 12.

Figura 12 – Exemplo de um Pixel com uma ocupação mista.

Deste modo, pretendeu-se diminuir a incerteza e subjectividade do processo de interpretação visual. O processo de selecção e identificação das amostras de teste foi feito em ambiente SIG, com recurso ao software ArcGIS 9.3®

.

Depois de identificadas as amostras de validação para cada um dos mapas produzidos, foram construídas as respectivas matrizes de confusão, estimando-se os índices de exactidão global e específica de cada classe.

42

3.8C

ÁLCULO DA DISTÂNCIA ENTRE CLASSES DA AMOSTRA DE

TREINO

O propósito desta análise é de verificar se a separação espectral das classes tem a sua correspondência na semântica das classes de ocupação do solo, o que poderá fornecer explicações sobre possíveis confusões entre classes no processo de classificação. Foram elaborados três dendrogramas, resultantes de uma análise Cluster (com distância Euclideana) aplicada às amostras de treino com as oito bandas AWiFS (Abril e Julho), CP de Abril e Julho, bandas de Abril e Julho mais NDVI de Abril e Julho.

A análise cluster é caracterizada como sendo uma classificação hierárquica, aglomerativa e politéctica (van Tongeren, 1996; Kent e Coker, 1994; Gauch jr., 1982).

• Hierárquica: refere-se ao facto do resultado da análise poder ser apresentado sob forma de um dendrograma, mostrando diferentes níveis de semelhança;

• Aglomerativa: a classificação começa por cada unidade ou indivíduo (neste caso, cada unidade de amostra de treino), juntando-os em vários grupos. Posteriormente, esses grupos são reunidos em outros maiores até que todas as unidades estejam abrangidas num único grupo;

• Politéctica, porque utiliza vários dados para realizar a classificação e não apenas um parâmetro (Kent e Coker, 1994; Sneath e Sokal, 1973 in Gauch jr., 1982).

Esta análise permite determinar se as classes (clusters) estão efectivamente separadas no espaço mutidimensional das várias bandas espectrais de cada imagem. Um bom cluster deverá ter pouca sobreposição sobre outros clusters no espaço multivariado. O dendrograma caracteriza graficamente a separabilidade dos vários

clusters (ESRI, 2008), estes representam as 10 classes da nomenclatura de ocupação do

solo definida. Os dendrogramas foram produzidos com recurso ao software ArcGis

43

3.9A

NÁLISE DA INFLUÊNCIA DAS AMOSTRAS DE REFERÊNCIA NA

AVALIAÇÃO DA EXACTIDÃO

Considerando que para cada mapa produzido foi criada uma amostra de teste (Capítulo 3.7), é relevante analisar a influência das amostras de referência sobre os resultados, no que concerne à selecção do classificador e do conjunto de dados que produzem os melhores resultados na classificação. Através desta análise, poder-se-á verificar a existência de uma tendência nos resultados obtidos na globalidade do conjunto de amostras de teste. Assim, independentemente dos resultados obtidos nas classificações, pretende-se avaliar qual o classificador/conjunto de dados que obteve o melhor desempenho na classificação da área de estudo.

Para verificar a influência das amostras de teste sobre a avaliação da exactidão dos mapas gerados, consideraram-se os seis mapas realizados com a nomenclatura de 10 classes (Tabela 8). Para complementar a análise efectuaram-se quatro classificações adicionais: CMV e CAD com imagem de Abril e imagem de Julho, obtendo-se um conjunto de 10 mapas para análise.

Realizaram-se operações de geoprocessamento entre cada amostra de teste e os 10 mapas analisados. Foram consideradas para as 60 operações de validação de exactidão temática, os dois códigos de classe (principal e alternativo) passíveis de ser ponderadas na amostra de treino quando confrontadas com cada mapa.

As operações de geoprocessamento foram realizadas com recurso ao software

ArcGis 9.3®, a edição de base de dados em com recurso a Microsoft Access.

4R

ESULTADOS E DISCUSSÃO

Nos próximos capítulos são apresentados e discutidos os resultados da exactidão global de cada teste de classificação (4.1), a partir do qual são estruturados os capítulos seguintes: análise das matrizes de confusão dos testes (4.2), avaliação das amostras de treino (4.3) e a análise da influência das amostras de referência na classificação (4.4).

44

A partir dos vários mapas produzidos (Figura 13, 14, 15 e 16) construíram-se as respectivas matrizes de confusão (Anexo IV) e calcularam-se os valores da exactidão global para os vários testes de classificação, cujos resultados se apresentam na Tabela 10.

45

CMV/Abril+Julho

CAD/Abril+Julho

46

CMV/NDVI

CAD/NDVI

47

CMV/CP

CAD/CP

48

CMV/Abril+Julho, 5 classes.

CAD Abril+Julho, 5 classes

49 Tabela 10 - Resultados dos Testes de Classificação.

Exactidão global (%) Teste CMV CAD Classes de treino Classes do

mapa Variáveis de input

1 29 37 10 10 Abril e Julho

2 28 32 10 10 Abril, Julho e NDVI Abril e Julho

3 36 25 10 10 CP Abril e Julho

4 43 39 10 5 Abril e Julho

Os resultados obtidos mostram que os valores de exactidão global são muito baixos em todos os testes. Tais resultados direccionam a discussão dos mesmos para as causas que terão influenciado estes valores da exactidão global. Os testes 1 a 3, que teriam como propósito avaliar a influência dos dados de input na classificação, mostraram resultados pouco conclusivos, com valores de exactidão global muito baixos, a variar entre os 25% e 37%.

O teste 4 é aquele que apresenta os valores de exactidão global mais elevados. Como seria espectável, os resultados dos testes de classificação com ambos os classificadores, foram mais elevados com uma nomenclatura de solo menos detalhada. No entanto, obtiveram-se ainda valores de exactidão global muito baixos (Tabela 10). Estes resultados indiciam a existência de uma confusão entre classes de ocupação do solo pouco semelhantes na sua semântica.

Os valores da exactidão temática condicionam a comparação dos testes. Porém, uma análise das matrizes de erro poderá permitir observar as classes que originam maior confusão para o classificador/conjunto de dados em análise, quantificando essa confusão através dos valores dos índices de exactidão específica (EP e EU).

Uma observação mais detalhada da amostra de treino e das assinaturas dos