Nesta segunda etapa de processamento do corpus CAM, o mesmo processo de importação de dados da planilha em Excel resultante do TagCount para o SPSS 20 foi realizado, inclusive a inserção das mesmas variáveis independentes.
Com a planilha pronta, iniciou-se o procedimento estatístico. Conforme relatado no Capítulo Fundamentação Teórica, esse procedimento é feito por meio da análise fatorial. No programa, o item “Factor...” foi escolhido a partir do caminho “Analyze” > “Dimension Reduction” > “Factor...” (Figura 6):
Figura 6. SPSS 20 – Redução de Dimensão – Análise Fatorial
Ao clicar em “Factor...” uma janela aparece para que as variáveis a serem incluídas na análise possam ser escolhidas (Figura 7). Conforme mencionado
anteriormente, as variáveis são as etiquetas linguísticas processadas pelos programas Biber Tagger e TagCount.
Figura 7. SPSS 20 – Análise Fatorial – Inserção de variáveis
Como pode ser visto na Figura 7, há configurações adicionais para a realização da análise fatorial. Para a AMD, as configurações “Descriptives” (Descritivos), “Extraction” (Extração) e “Rotation” (Rotação) devem ser ajustadas. Na configuração “Descriptives”, deve-se escolher, entre as opções, os tipos de teste estatístico (“univariate descriptives” ou “initial solution”) e matriz de correlação (“Coefficients”, “Significance levels”, “Determinant”, “Inverse”, “Reproduced”, “Anti-image” ou “KMO
and Bartlett’s test of sphericity”) a serem aplicados. De acordo com a metodologia de
AMD, deve-se escolher “initial solution” (solução inicial) como estatística e “Anti-
image” (anti-imagem) e “KMO and Bartlett’s test of sphericity” (KMO e teste de
esfericidade de Bartlett) (Figura 8). De acordo com Kauffmann (2005), esses testes gerais preliminares têm como objetivo verificar a adequação dos dados e a medida de adequação de amostragem.
Figura 8. SPSS 20 – Análise Fatorial – Descritivos
Em “Extraction”, o pesquisador deve optar pelo método de extração de dados, o tipo de matriz de análise, como os dados serão mostrados, como a extração deve ser feita e o número máximo de iterações para convergência. As seguintes opções foram feitas (Figura 9):
Figura 9. SPSS 20 – Análise Fatorial – Extração
Por ser uma análise linguística de cunho exploratório, o método de extração “principal axis factoring” (fatoração de eixo principal), padrão para pesquisas em AMD,
foi o escolhido. Essa escolha é fundamental pois permite a extração da variação máxima compartilhada pelas variáveis em cada fator. Ao contrário da extração por análise de componentes principais, em que não há distinção entre variação compartilhada e única, a fatoração de eixo principal apresenta apenas variação compartilhada pelas variáveis, evitando que as estimativas da variação encontrada sejam inflacionadas (COSTELLO e OSBORNE, 2005). Assim, o primeiro fator extraído apresenta a quantidade máxima de co-ocorrência entre todas as variáveis, o segundo fator apresenta a quantidade máxima de co-ocorrência entre as palavras restantes, e assim por diante (BIBER, 1988). A escolha da matriz de correlação foi feita para obter as comunalidades, ou seja, a “proporção da variância de cada variável explicada pelos fatores comuns” (SOUZA, 2012, p.158).
A extração inicial foi feita sem rotação para que o número máximo de fatores pudesse ser extraído. Desse modo, optou-se por “unrotated factor solution”, extração baseada em autovalores e visualização dos resultados em formato de gráfico de sedimentação (“Scree plot”). A quantidade de máxima de iterações para convergência de 25 é default do programa e foi mantida.
Os resultados da extração inicial exploratória tiveram que ser analisados para que os próximos passos da AMD pudessem ser realizados. Os primeiros resultados observados foram o teste Kaiser-Meyer-Olkin (KMO) e o teste de esfericidade de Bartlett. De acordo com Souza, o teste KMO “traz a medida de adequação da amostragem e testa se as correlações parciais entre as variáveis são pequenas ou não” (2012, p.159). Apesar de o valor desejável para pesquisas em AMD ser igual ou superior a 0,7, pode-se prosseguir com a análise se o valor for superior a 0,5, considerado satisfatório (cf. LEE, 2000; KAUFFMANN, 2005; SOUZA, 2012). O teste de esfericidade de Bartlett confirma se há correlação entre as variáveis, sendo que o nível de significância (Sig.) deve ser inferior a 0,05, conforme supracitado. Esses dois testes auxiliam o pesquisador a verificar se os dados são adequados para a realização da análise fatorial. Assim como o KMO e o teste de esfericidade de Bartlett, o teste de qui-quadrado é usado para avaliar a adequação da amostra na medida em que verifica se há desvio significativo ou não entre a frequência de um evento observado na amostra e a frequência esperada para esse evento.
A tabela a seguir apresenta os resultados do teste KMO e do teste de esfericidade de Bartlett para os dados desta pesquisa (Tabela 9):
Medida de adequação de amostragem de Kaiser-Meyer-Olkin ,602 Teste de esfericidade de Bartlett
Qui-quadrado aprox. 26765,877
Df 6105
Sig. ,000
Tabela 9. SPSS 20 – Análise Fatorial – Teste KMO e Bartlett
A tabela de “communalities” (comunalidades) foi analisada na sequência (vide recorte da tabela gerada pelo SPSS na Tabela 10). Comunalidades “indicam até que ponto uma determinada característica participa da variação total compartilhada contabilizada pela análise fatorial”38 (BIBER, 2006, p.183). Desse modo, “uma variável
que não tem uma variância exclusiva (ou variância aleatória) terá uma comunalidade de 1, enquanto que uma variável que nada compartilha de sua variância com qualquer outra variável terá uma comunalidade de 0” (FIELD, 2009, p.643 apud SOUZA, 2012, p.159). Em pesquisas em AMD, não há restrições para comunalidades iniciais; no entanto, variáveis com comunalidades finais abaixo de 0,15 podem ser excluídas da análise (cf. BIBER, 2006; LEE, 2000; KAUFFMANN, 2005; SOUZA, 2012). Nenhuma variável foi descartada por esse critério nesta pesquisa.
Comunalidades Inicial wrlengh ,965 wcount ,771 prv_vb ,940 that_del ,958 pres ,993 pro2 1,000 pro_do ,971 pdem ,900
Tabela 10. SPSS 20 – Análise Fatorial – Comunalidades (recorte) (Método de extração: fatoração de eixo principal)
Conforme supracitado, cada fator extrai a quantidade máxima de variância entre as variáveis presentes, sendo que o primeiro fator sempre apresentará a quantidade máxima de variância entre todas as variáveis incluídas na fatoração, o
38“indicate the extent to which a given feature participates in the overall pool of shared variance accounted for
segundo fator entre as variáveis restantes do primeiro, o terceiro fator entre as variáveis restantes do segundo, e assim continuará até que 100% da variância seja explicada pelos fatores (cf. BIBER, 1988; KAUFFMANN, 2005). Os resultados dessa análise de variância são apresentados na tabela “Total Variance Explained” (“Variância Total Explicada”). A tabela traz informações que explicam a proporção de variância dos dados encontrada inicialmente em cada fator, por meio de “autovalores iniciais”. Autovalores “são índices diretos da quantidade de variação encontrada em cada fator”39 (BIBER, 1988, p.82). Na coluna “% acumulada” do recorte apresentado
na tabela abaixo (Tabela 11), nota-se que seis fatores respondem por quase 50% da variação presentes nos dados.
Fator Autovalores iniciais
Total % de variação % acumulada
1 21,441 19,317 19,317 2 10,824 9,751 29,068 3 7,260 6,541 35,609 4 6,007 5,412 41,020 5 5,022 4,524 45,545 6 4,717 4,249 49,794 7 3,384 3,049 52,843 8 3,278 2,953 55,796 9 2,636 2,375 58,171 10 2,493 2,246 60,417
Tabela 11. SPSS 20 – Análise Fatorial – Variância Total Explicada (recorte) (Método de extração: fatoração de eixo principal)
As informações da coluna “total” da tabela, cujo recorte está representado acima, também são mostradas por meio de um gráfico de sedimentação (“Scree plot”). Tanto a tabela quanto o scree plot são usados na determinação da quantidade de fatores a ser extraída. Em geral, há uma quebra ou curva natural característica no gráfico indicando o ponto a partir do qual fatores adicionais pouco contribuem para a análise dos dados. Portanto, o número ideal de fatores a serem extraídos encontra-se acima dessa quebra. Observe a quebra no scree plot resultante da extração inicial, a qual mostra claramente os seis primeiros fatores como os mais significativos nesta
pesquisa (Gráfico 1).
Gráfico 1. SPSS 20 – Análise Fatorial – Scree Plot
A partir dos dados apresentados acima, a segunda extração dos dados, ou seja, a análise fatorial com rotação, foi realizada. Baseado no scree plot, uma primeira extração rotacionada foi realizada com seis fatores. A interpretação dos fatores foi feita levando-se em consideração tanto as características linguísticas co-ocorrentes em cada fator quanto as diferenças e semelhanças existentes entre os registros relacionadas a cada grupo de características (BIBER, 1988 e 2006). A partir dessa análise, foi observado que as dimensões estavam muito semelhantes entre si, dificultando a interpretação da relação entre as características linguísticas e suas funções comunicativas em cada registro. Desse modo, novamente com base no scree
plot, optou-se por repetir a extração rotacionada com três fatores, a qual provou ser
adequada para a interpretação dos fatores como dimensões de variação. Portanto, decidiu-se por manter a extração rotacionada com três fatores, a qual é descrita na próxima subseção.