A Análise Fatorial por Componentes Principais (PCFA) estuda a estrutura ou padrões de correlações entre um grande número de variáveis dentro de um determinado grupo específico em uma matriz de dados aleatórios X. A partir disso, PCFA define os conjuntos de variáveis altamente correlacionadas entre si e os agrupa em conjuntos distintos, conhecidos como fatores (factors) ou constructos (constructs), que refletem o que as variáveis compartilham em comum. Dessa forma, PCFA pesquisa e define as dimensões ou construções fundamentais assumidas como subjacentes às variáveis originais, resumindo as informações contidas nessas variáveis em um conjunto menor de fatores, tudo com perda mínima de informações (HAIR et al., 2010). O modelo de análise fatorial pode ser escrito na forma de matriz, de acordo com a Eq. (42), ou na forma linear, conforme a Eq. (43):
𝐗 − 𝛍 = 𝐋𝐅 + 𝛆 (42) X1− µ1 = 𝐥𝟏𝟏F1+ 𝐥𝟏𝟐F2+ ⋯ + 𝐥𝟏𝐦Fm+ Ɛ1 X2 − µ2 = 𝐥𝟐𝟏F1+ 𝐥𝟐𝟐F2 + ⋯ + 𝐥𝟐𝐦Fm+ Ɛ2 ⋮ ⋮ ⋮ Xp− µp = 𝐥𝐩𝟏F1+ 𝐥𝐩𝟐F2+ ⋯ + 𝐥𝐩𝐦Fm+ Ɛp (43) Em que:
X = [X1, X2, ..., Xp] é um vetor aleatório observável de p dimensões, formado por p
séries aleatórias de componentes-variáveis (x1, x2,…,xp);
µ = [µ1, µ2, …, µp] é um vetor de médias dos componentes de X;
F (m × 1) é um vetor-coluna aleatório de fatores comuns (do inglês common factors) aleatórios, hipotéticos, latentes e não observáveis. F tem em seus termos m fatores comuns ou constructos (do inglês constructors) (F1, F2, ..., Fm), com o número de fatores
(m) sendo menor que o número de variáveis (p);
L (p × m) é uma matriz não aleatória de coeficientes de cargas fatoriais ou carregamentos (do inglês factor loading coefficients), também conhecida como matriz de carregamentos. Os termos (𝑙𝑖𝑗) são os coeficientes das cargas fatoriais, com (i = 1,
2, ..., p) e (j = 1, 2, ..., m), tal que 𝑙𝑖𝑗 é a carga ou carregamento (do inglês loading) da i- ésima variável no j-ésimo fator (JOLLIFFE, 2002; JOHNSON e WICHERN, 2007). As cargas fatoriais são as correlações entre cada variável e o fator. Cargas maiores do que 0.70 indicam uma estrutura bem definida e são o objetivo de qualquer análise fatorial (Hair et al., 2010).
Ɛ (p × 1) é um vetor-coluna aleatório de termos de erros (do inglês error terms) conhecidos como fatores específicos (do inglês specific factors). O vetor Ɛ tem como elementos p termos de erros aleatórios (Ɛ1, Ɛ2, …, Ɛp), conhecidos como fatores
específicos não observáveis (do inglês unobservable specific factors), porque cada Ɛ𝑖 é
específico para cada i-ésima função linear, o que não acontece com os fatores comuns
F1, F2, ..., Fm, desde que eles integram todas funções lineares de cada variável.
As premissas associadas ao modelo fatorial são: E(Ɛ) = 0 (p × 1); E(F) = 0 (m × 1); COV(F) = I (m × m); COV(Ɛ, F) = 0 (p × m); e COV(Ɛ) = Ψ (p × p), em que Ψ é uma matriz diagonal formada pelas variâncias específicas.
Em cada função linear na Eq. (43), parte da variância total (VAR (Xi) = 𝜎𝑖𝑖) explicada
pela i-ésima variável é conhecida como comunalidade (do inglês communality) (ℎ𝑖2). A i-ésima comunalidade estimada (ℎ̂𝑖2) é calculada pela soma dos quadrados das cargas fatoriais estimadas (𝑙̂𝑖𝑗2) na forma (ℎ̂𝑖2 = 𝑙̂𝑖12 + 𝑙̂2𝑖2+, ...,+ 𝑙̂𝑖𝑚2 = ∑𝑚𝑗=1𝑙̂𝑖𝑗2), com (i = 1, 2, ..., p) e (j = 1, 2, ..., m) (JOHNSON e WICHERN, 2007). Cada 𝑙̂𝑖𝑗2 é o montante da variância total estimada acumulada e contabilizada pelo fator (HAIR et al., 2010). Ademais, parte do total da variância explicada pelo fator específico (ei) é conhecida como uniqueness ou variância específica (do inglês specific variance) (𝛹). 𝛹̂𝑖 é a i-ésima variância específica estimada. Assim, (𝜎𝑖𝑖 = 𝑙̂𝑖12 + 𝑙̂𝑖22+, ...,+ 𝑙̂𝑖𝑗2 + 𝛹̂𝑖 = (∑𝑚𝑗=1𝑙̂𝑖𝑗2) + 𝛹̂𝑖 = ℎ̂𝑖2+ 𝛹̂𝑖) explica a variância total da i-ésima variável na i-
ésima função linear gerada no modelo de análise fatorial (JOHNSON e WICHERN, 2007; HÄRDLE e SIMAR, 2007).
O objetivo da análise fatorial é encontrar a matriz estimada de cargas ou carregamentos fatoriais (𝐋̂𝐬) e a matriz de variâncias específicas (𝚿̂𝐬) como deduções da matriz de covariância amostral S de X, que é um estimador da desconhecida matriz de covariância populacional (Σ), de modo que (S = 𝐋̂𝐬𝐋̂𝐓𝐬 + 𝚿̂𝐬). Cada termo diagonal de (𝚿̂𝐬) é calculado como (𝛹̂𝑖 = 𝑠𝑖𝑖−
∑𝑚𝑗=1𝑙̂𝑖𝑗2).
Considerando (𝑿 − 𝝁 = 𝑳𝑭 + 𝜺), então 𝚺 ou S podem ser aproximadas de acordo com a Eq. (44) ou Eq. (45).
COV (𝐗) = 𝚺 = E[(𝐗 − µ)(𝑿 − µ)𝑻] = E[(𝑳𝑭 + 𝜺)(𝑳𝑭 + 𝜺)𝑻]
COV(𝐗) = 𝚺 = E[(𝐋𝐅)(𝐋𝐅)𝑻] + E[𝛆𝐋𝐓𝐅𝐓] + E[𝑳𝐅𝛆𝐓] + E[𝛆𝛆𝐓]
COV (𝐗) = 𝚺 = 𝐋E(𝐅𝐅𝐓)𝐋𝐓+ E(𝛆𝐅𝐓)𝐋𝐓+ 𝐋E(𝑭𝛆𝐓) + E[𝛆𝛆𝐓]
(44)
Nas quais:
E(ƐƐT) = VAR (Ɛ) = Ψ (diagonal), que indica que os termos dos erros são não
correlacionados;
E(FƐT) e E(ƐFT) = 0 (matriz de zeros), o que significa que os fatores comuns não são
correlacionados com os fatores específicos, isto é, COV(ƐF) = 0 (matriz de zeros);
E(FFT) = VAR(F) = I (matriz identidade) (JOLLIFFE, 2002; HÄRDLE e SIMAR,
2007).
Então:
COV (𝐗) = 𝚺 = 𝐋𝐋𝐓+ 𝚿 (45)
Similarmente, as matrizes L and 𝚿 podem também ser estimadas da matriz de correlação da população R ou da matriz de correlação amostral ρ de X, de modo que, por aproximação, (𝛒 = 𝐋̂𝛒𝐋̂𝐓𝛒+ 𝜳̂𝛒 ). Já as variâncias específicas são calculadas como (𝛹̂𝑖 = 1 −
∑𝑚𝑗=1𝑙̂𝑖𝑗2). No caso, considerando (m’) o número de fatores a serem retidos e os autovalores (𝜆̂1𝜌 ≥ 𝜆̂2𝜌 ≥ ⋯ 𝜆̂𝑚𝜌,), a comunalidade estimada (ℎ̂𝑖2) será ∑𝑚𝑗=1′ 𝑙̂𝑖𝑗2 (JOHNSON e WICHERN, 2007).
A questão chave da PCFA é saber o número de fatores (m’) a ser retido, pois, conforme Haylton et al. (2004), especificar muito poucos fatores ou fatores em demasia são erros substanciais que afetam os resultados, embora especificar poucos fatores seja considerado um erro mais grave. Então, é necessário definir com precisão o número de fatores a serem retidos (m’). Jolliffe (2002) propôs o uso da regra de Kaiser (Kaiser, 1960) para proporcionar a redução de dimensionalidade, ou seja, para definir o número de fatores a serem retidos. A regra de Kaiser afirma que apenas os PCs com variância (autovalores ʎ*) maiores do que 1 devem ser retidos, causando a redução de PCs de (p) para (k), com k < p. Assim, será retido apenas um PC associado com cada grupo de variáveis não correlacionadas com outros grupos. Isto é justificável porque PCs com variância menor do que um contém menos informação do que as variáveis originais não valendo a pena retê-lo.
As cargas fatoriais originais em 𝐋̂ ou 𝐋̂𝝆 podem não ser facilmente interpretáveis. Então,
é comum rotacionar 𝐋̂ ou 𝐋̂𝝆 até que uma estrutura mais simples e significativa seja alcançada.
A rotação fatorial dos eixos das coordenadas corresponde a uma transformação ortogonal ou oblíqua da matriz de cargas fatoriais em busca de uma estrutura mais simples, de modo que o agrupamento de itens fique o mais próximo possível deles (JOHNSON e WICHERN, 2007; OSBORN, 2015). Considerando 𝐋̂𝛒 (p × m) a matriz estimada de cargas fatoriais (de
carregamentos) extraída de ρ, a matriz rotacionada de cargas fatoriais 𝐋̂𝐫𝐨𝐭𝛒 será ( 𝐋̂𝛒𝐓), com TT
= I, onde T é a matriz transformada ou rotacionada (JOHNSON e WICHERN, 2007). O método de rotação ortogonal Varimax, por exemplo, maximiza a soma das variâncias das cargas fatoriais da matriz de carregamentos fatoriais. Depois da obtenção de (𝐋̂𝐫𝐨𝐭𝛒 ), o padrão ideal de carregamento é aquele em que cada variável possui carga alta em um único fator e carga de pequena a moderada nos demais fatores (HAIR et al., 2010; JOHNSON e WICHERN, 2007).
Séries não correlacionadas de escores de fatores podem ser calculadas, formando um conjunto menor de séries para reproduzir o conjunto original de séries de variáveis originais. Isso acontecerá se houver cargas elevadas em um fator dificultando a seleção de uma única variável para representar o conjunto das variáveis com cargas elevadas nesse fator. Considerando Z a matriz de valores padronizados de X, e L a matriz de cargas fatoriais (matriz de carregamento), a matriz F dos escores dos fatores será calculada conforme a Eq. (46) (NAVES et al., 2017).
𝑭 = 𝒁 [(𝑳𝑻𝑳)−1] (46)