A Análise de Componentes Principais40 – ACP ou PCA (Principal Components Analysis) se caracteriza pela utilização de um conjunto de componentes compostos por variáveis utilizadas para explicar o modelo. A quantidade de componentes é determinada através de uma síntese ou agrupamento de um determinado conjunto de variáveis. Ou seja, busca-se uma semelhança estatística entre as variáveis, definidas pelo grau de correlação, mesmo que estas transpareçam, num primeiro momento, heterogêneas. Assim, a suposição inicial é que as variáveis precisam estar correlacionadas no início do processo, não necessitando fazer suposições iniciais no tocante à distribuição de probabilidades das variáveis originais. Segundo Kleinbaum et al (1998):
the principal components of the predictors are a set of new variables that are linear combinations of the original predictors. These components have two special properties: they are not correlated with each other; and each, in turn, has maximum variance, given that all are mutually uncorrelated (p.243).
Deste modo, agrupa-se um número de variáveis, transformando-as em fatores ou componentes, o que facilita a interpretação do modelo, sem perda de informações relevantes.
Vale ressaltar que a transformação de variáveis em componentes se dá a partir de uma transformação linear, em índices estatisticamente diferentes (QUEIROZ, 2003). Se X1 , X2 ,
..., Xn são as variáveis originais para n indivíduos procede-se uma combinação linear dos mesmos criando-se componentes Z1, Z2, ..., Zn não correlacionados, e a construção da variável (Z), denominada como componente principal, se dará da seguinte forma:
40
Descrita inicialmente por Pearson (1901), a ACP pode ser considerada como a metodologia de análise de dados multivariada mais antiga.
Z1 = a11X1 + a12X2 + ... + a1nXn
Z2 = a21X1 + a22X2 + ... + a1nXn
Zn = an1X1 + an2X2 + ... + anmXn
Os coeficientes aij são os pesos da combinação linear, atribuídos pelo método dos
componentes principais, com a suposição de que as variáveis Zi sejam ortogonais e, portanto,
não correlacionadas, e que as variáveis Zj sejam calculadas de modo que Z1, que corresponde
à primeira componente principal, explique a maior parcela da variação total das variáveis Xj, Z2 explique a segunda e assim sucessivamente (ANDRADE, 1989).
As variâncias explicadas por cada componente em relação à variância total são decrescentes. Assim, o primeiro componente apresenta uma maior variância em relação aos demais e vai diminuindo de componente a componente, de forma que:
Var (Z1) > Var (Z2) >...> Var (Zk)
sendo k o número de variáveis.
As quantidades de componentes que serão representadas pelo modelo serão menores ou iguais ao número de variáveis escolhidas, sendo que cada um destes componentes representa uma parte da variabilidade total do modelo, alguns representando uma grande parte das variâncias, outros uma pequena parte. Por isso, na maioria dos casos utiliza-se um número menor de componentes do que variáveis, uma vez que a variância representativa de alguns componentes é insignificante em termos estatísticos, tornando desnecessária a sua utilização sem acarretar prejuízo na análise. Os componentes formados pelo modelo multivariado da ACP são não correlacionados, mas carregam em si a maior parte da informação contida no modelo original.
Dessa forma, um bom modelo será aquele que apresentar um menor número de componentes explicando uma grande parte das variâncias dele. As variáveis Zi são obtidas a
partir dos autovalores da matriz de covariância ou de correlação das variáveis originais.
Dessa forma, cabe ao pesquisador ter sensibilidade para nomear os componentes que foram compostos pela agrupamento de variáveis, componentes esses que são representados de
acordo com as características que traduzem e dependendo do grau de variância que possuem, sendo relevantes ou não para a análise.
Nesta análise, ACP, pode-se determinar o valor que cada microrregião carrega em cada componente principal, sendo a forma mais usual a representação das microrregiões em um plano bidimensional, onde o componente 1 forma o eixo vertical e o componente 2 forma o eixo horizontal.
4.1.1 Análise de cluster
A análise de cluster ou cluster analysis consiste em reunir objetos em grupos a partir de variáveis selecionadas através de critérios de similaridade ou dissimilaridade de algorismos matemáticos. Existem várias análises de clusters, que calculam diferentes medidas de similaridade e formação de grupos. Especificamente neste trabalho escolheu-se o método hierárquico aglomerativo. Por isso, essa técnica é chamada de análise de agrupamento ou conglomerados. Ao utilizar n variáveis os subgrupos formados serão heterogêneas com relação às mesmas características.
A análise de cluster ou agrupamento corresponde a um tipo de aplicação de proximidades geométricas em análise multivariada. Segundo Pereira (1999), as distâncias entre os objetos estudados dentro do espaço multiplano constituído por eixos de todas as medidas realizadas (variáveis) são calculadas e, a seguir, os objetos são agrupados conforme a proximidade entre eles.
Dessa forma, a análise de cluster consiste em reunir objetos em grupos a partir de variáveis selecionadas através de critérios de similaridade ou dissimilaridade de algorismos matemáticos. Existem várias análises de clusters, que calculam diferentes medidas de similaridade e formação de grupos. Especificamente neste trabalho escolheu-se o método hierárquico aglomerativo.
A medida de distância utilizada na pesquisa será a distância euclidiana e as variáveis serão padronizadas no cálculo da distância através do software SPSS 18.0. Assim, o método de agrupamento será o Average Linkage Between Groups, o qual agrupa o indivíduo no grupo de valor médio na medida de similaridade dos indivíduos que o compõem mais próximo. Neste trabalho, a técnica de cluster foi repetida para os anos 1996, 2002 e 2008.