A análise de agrupamentos consiste em um conjunto de técnicas exploratórias úteis quando se pretende verificar a existência de comportamentos semelhantes entre as observações em relação a determinados variáveis com o objetivo de se criar grupos (clusters) em que se prevaleça a homogeneidade interna (HAIR et al., 2009).
Por esse motivo, Vicini e Souza (2005) alertam que em alguns estudos torna-se necessário conhecer algumas características de determinado grupo de um conjunto de observações, principalmente quando é resultante de uma ou mais variáveis. Por esse motivo, o principal objetivo da AA é alocar as observações em uma quantidade relativamente pequena de agrupamentos homogêneos internamente e heterogêneos entre si, segundo algum critério de homogeneidade. De modo a representar o comportamento conjunto das observações a partir de determinadas variáveis.
Diferente da análise fatorial por componentes principais, que reduz o número de variáveis, a análise de agrupamentos reduz o número de objetos, concentrando-os em um número muito menor de grupos. Entretanto, como ressalta Vicini e Souza (2005), frequentemente nessa técnica são feitas afirmativas empíricas, que nem sempre têm respaldo teórico. Muitas técnicas são propostas, mas não há, ainda, uma teoria generalizada e amplamente aceita. Devido a isso, deve-se utilizar vários métodos e comparar os resultados, para que a análise dos dados seja realizada pela técnica mais adequada.
A técnica de AA é considerada de interdependência (exploratória), já que suas aplicações não apresentam um caráter preditivo para outras observações. Ela não faz distinção entre variáveis dependentes e independentes, isto é, variáveis do tipo causa e efeito, como na regressão. A AA é um método simples, baseada nos cálculos de distância. No entanto, como ressaltam Fávero e Belfiore (2015), os procedimentos matemáticos não requerem conhecimento estatístico ou álgebra matricial para a sua aplicação, como é o caso quando se aplica análise de variância, de regressão, ou fatorial.
O procedimento para a elaboração da análise parte da definição dos objetivos da pesquisa, escolhe-se determinada medida de distância ou de semelhança que serve como base para que as observações sejam consideradas menos ou mais próximas. Seguindo uma definição adequada para o esquema de aglomeração, conforme os métodos hierárquicos e não hierárquicos (HAIR et al., 2009; FÁVERO; BELFIORE, 2015).
Os esquemas hierárquicos permitem a definição do ordenamento e da alocação das observações, oferecendo possibilidades para que se determine, avalie e decida-se sobre qual a quantidade conhecida de grupos. Já o esquema de aglomeração não hierárquico, parte de uma quantidade já conhecida de grupos, e com essa informação, pode-se alocar as observações nos grupos. Desse modo, o resultado da pesquisa apresenta uma análise da formação dos grupos e a representatividade de cada variável para a formação deles (HAIR et al., 2009; VICINI; SOUZA, 2005).
Quanto à escolha da medida de distância ou de semelhança e do esquema de aglomeração, devem ser levados em consideração aspectos como a quantidade previamente desejada de agrupamentos com base em algum critério de alocação de recursos como ressalta Bussab e outros (1990), critérios diferentes para determinar as medidas de distâncias e esquemas de aglomeração podem conduzir a formações diferentes de agrupamentos, e a homogeneidade depende dos objetivos da pesquisa.
Tendo em vista que a formação de grupos é sensível a retenção ou exclusão de outliers na base de dados, Fávero e Belfiore (2015) ressaltam que os métodos de análise de agrupamentos são considerados procedimentos estáticos, já que a inclusão de novas observações e variáveis altera a formação dos grupos sendo, assim, necessária nova análise.
A definição abordada na segunda etapa da tese é por análise de agrupamentos hierárquico, seguindo o critério de medida de distância euclidiana e método de encadeamento único ou vizinho mais próximo (nearest neighbor) no esquema de aglomeração hierárquico. Nas seções seguintes serão focadas sobre esse conjunto de métodos específicos.
4.4.2.1 Medidas de distância
As medidas de distância são utilizadas, frequentemente, quando as variáveis do banco de dados são essencialmente métricas20, já que, como aponta Hair e outros (2009) quanto maior a diferença entre os valores das variáveis de duas observações, menor a similaridade entre elas ou, em outras palavras maior a dissimilaridade entre as observações.
Antes de estabelecer a medida de distância, Vicini e Souza (2005) e Fávero e Belfiore (2015) alertam para verificar se as variáveis originais do banco de dados devem ser tratadas. Se as variáveis estiverem em unidades de medida diferente, um procedimento de padronização dos dados deve ser efetuado devido à solução por um determinado esquema de aglomerado será influenciada pelas unidades de medida.
Para que seja possível padronizar as variáveis, Hair e outros (2009) afirmam que é necessário ter-se uma matriz de dados com k variáveis (j = 1, 2, ...., k) e n observações (i = 1, 2, ...., n), onde, na matriz de dados, o valor do n-ésima observação e k-ésima variável será denotado por Xij, no qual o valor padronizado será representado por Zij. Onde as variáveis são padronizadas pelo procedimento Z scores representados pela seguinte função:
𝑍𝑖𝑗 = 𝑋𝑖𝑗−𝑋̅𝑗
𝑆𝑗 (22)
Onde 𝑋̅ representa a média e 𝑆 representa o desvio-padrão da variável 𝑋𝑗. Dessa forma,
independente da magnitude dos valores e natureza das unidades de medida das variáveis originais de um banco de dados, todas as respectivas variáveis padronizadas terão média igual a 0 (zero) e desvio-padrão igual a 1 (um) sem alterar a distribuição original da variável (FÁVERO; BELFIORE, 2015).
20 Variáveis binárias utilizam medidas de semelhança. Pois o que é de interesse é a frequência dos pares nas respostas convergentes de duas observações. Quanto maior a frequência de pares convergentes, maior a semelhança (similaridade) entre as observações (HAIR., 2009).
Com a intenção de calcular a distância entre n observações provenientes de um banco de dados com k variáveis métricas, com valores na mesma unidade de medida, a determinação da medida de distância somente é realizada após a extração dos fatores na análise por componentes principais na presente tese. Tendo em vista que, depois de sintetizar as K variáveis da segunda etapa em fatores, cada observação é plotada em um gráfico cuja dimensão é determinado pelo número de fatores extraído. Assim, permite mensurar cada observação pelo uso de sua projeção sobre um plano horizontal formado por dois eixos do gráfico, denominando uma distância entre pontos (FIGURA 4.3).
Figura 4.3 - Gráfico tridimensional hipotético com destaque para a projeção de distância com duas
observações e três variáveis
Fonte: Elaboração própria (2019)
Com base na expressão da distância de Pitágoras para triângulos retângulos, a distância entre as observações 1 e 2 na Figura 4.3 é definido por Fávero e Belfiore (2015) da seguinte forma:
𝑑12= √(𝑑′12)2+ (𝑋31− 𝑋32)2 (23)
Em que |𝑋31− 𝑋32| é a distância entre as projeções verticais (eixo X3) dos pontos 1 e 2 e 𝑑′12
é a distância desconhecida do ponto 2 ao ângulo reto. Para determinar a distância 𝑑′12 recorre- se à expressão de Pitágoras utilizando as projeções dos pontos 1 e 2 sobre os eixos X1 e X2.
𝑑′12 = √(𝑋11− 𝑋12)2+ (𝑋21− 𝑋22)2 (24)
Substituindo 2 em 1, obtém-se: 𝑑12= √(𝑋11− 𝑋12)2+ (𝑋
21− 𝑋22)2+ (𝑋31− 𝑋32)2 (25)
Ou seja, é a distância euclidiana (medida de dissimilaridade) entre os pontos 1 e 2. Cuja definição geral é:
𝑑𝑝𝑞 = √(𝑋1𝑝 − 𝑋1𝑞)2+ (𝑋2𝑝 − 𝑋2𝑞)2+ ⋯ + (𝑋𝑘𝑝− 𝑋𝑘𝑞)2 = √∑𝑘 (𝑋𝑗𝑝− 𝑋𝑗𝑞)2
𝑗=1 (26)
Seguindo o objetivo da pesquisa para segunda etapa metodológica por reunir observações semelhantes, opta-se pelo uso da distância euclidiana para tal avaliação da semelhança em termos de distância entre pares de observações. Observações com possuem a menor distância entre si são mais semelhantes, um do outro, do que os objetos com a maior distância
4.4.2.2 Esquemas de aglomeração
Definida a medida de distância aplicada a tese como sendo a distância euclidiana, determina- se o esquema de aglomeração sendo estas classificadas em dois tipos: hierárquico e não hierárquico.
Segundo Malhotra (2011), um esquema de aglomeração hierárquico procura estabelecer uma hierarquia (geralmente uma estrutura representada em formato de árvore) para apresentar os agrupamentos. Já em um esquema não-hierárquico, utilizam-se algoritmos para maximizar a homogeneidade dentro de cada agrupamento produzindo uma partição em um número fixo de grupos.
Os esquemas de aglomeração hierárquicos podem ser classificados em aglomerativos ou divisivos. Vicini e Souza (2005) definem o agrupamento hierárquico aglomerativos como a formação de grupos em que os objetos são reunidos em grupos. Primeiro em grupos menores, conforme maior similaridade entre si, até grupos maiores e, por fim, um único grupo. É um processo de método sequencial de aglomeração em que o critério básico de fusão de um objeto a um grupo é sempre o mesmo.
E o esquema de aglomeração divisivo é caracterizado por um procedimento em que todos os objetos iniciam-se de um único grupo gigante, e estes são subdivididos em dois subgrupos, de acordo com o máximo de semelhança entre os objetos dos mesmos subgrupos e a máxima dissimilaridade entre elementos de subgrupos distintos. Esses subgrupos são, em seguida, subdivididos em outros subgrupos dissimilares. O processo é repetido até que haja tantos subgrupos quantos objetos (MALHOTRA, 2011).
O que se observa é que em todos os métodos aglomerativos, o procedimento básico é semelhante. Calcula-se uma matriz de distâncias (ou semelhanças) entre as variáveis e representa-se com um dendograma que possibilita verificar as fusões sucessivas dos indivíduos, até formarem um único grupo que consolida o processo aglomerativo.
Dentre os esquemas de hierárquicos aglomerativos, constituem métodos de encadeamento embasados na matriz de distância das variáveis. Segundo Hair e outros (2009), tais métodos compreendem:
• O método do encadeamento único (single linkage ou nearest neighbor): baseado na distância mínima, ou, seja, regra do vizinho mais próximo. Os dois primeiros elementos agrupados são os que apresentam menor distância entre si. A seguir, identifica-se a menor distância agrupando-se o terceiro elemento com os dois primeiros, ou formando um novo grupo de dois objetos. E assim, sequencialmente, até que todos os elementos estejam em um único grupo. Ressalta-se que a cada estágio, a distância entre dois grupos é determinada como a distância entre seus dois elementos mais próximos. Dois grupos podem incorporar-se em cada estágio por meio do encadeamento mais curto entre eles. Recomendável para os casos em que as observações sejam relativamente distantes e deseja-se formar grupos com um mínimo de homogeneidade. • O método do encadeamento completo (complete linkage ou furthest linkage) é
semelhante ao encadeamento único, embora se baseie na distância máxima entre os elementos, ou seja, também denominado de método do vizinho mais afastado. Neste, a distância entre dois grupos é calculada entre seus dois pontos mais afastados. Recomendável para casos em que os elementos não estão tão distantes e deseja-se identificar heterogeneidades entre eles.
• O método do encadeamento médio (between groups ou average linkage) é semelhante aos métodos anteriores, embora a distância entre dois grupos se defina como a média da distância entre todos os pares de elementos, onde cada membro de um par é oriundo de cada um dos grupos. No método de encadeamento médio são utilizadas informações sobre todos os pares de distâncias, e não apenas da distância mínima ou máxima. Devido a este fato, é a fusão ajustada em relação aos métodos de encadeamento único e completo. Primeiro, por preservar a solução de ordenamento dos elementos em cada grupo se houver um afastamento considerável entre os elementos dos grupos (encadeamento único. Segundo, preserva a heterogeneidade entre os elementos dos grupos se caso as distâncias forem muito próximas (encadeamento completo).
E, para esquemas de aglomeração não-hierárquicos que procuram maximizar a homogeneidade intragrupo, o método mais popular de encadeamento é k-means ou k-médias, no qual não considera a hierarquia entre grupos. Sobre tais métodos, Malhotra (2011) determina a subdivisão como limiar sequencial, limiar paralelo e particionamento otimizador.
O método limiar sequencial consiste em escolher um centro de aglomeração, e todos os elementos a menos de um valor pré-determinado a contar do centro são agrupados juntamente. A partir daí, escolhe-se então um novo centro de aglomeração, ou repete-se o processo para os pontos não aglomerados.
Já o método limiar paralelo escolhe de uma só vez vários centros de aglomeração e os elementos dentro do limiar são agrupados com o centro mais próximo. Todos os elementos que estão a menos de um valor pré-determinado do centro são agrupados juntamente.
E por fim, Malhotra (2011) define que o método do particionamento otimizador difere dos anteriores, por permitir a redistribuição posterior de elementos no agrupamento de modo a otimizar um critério global, tal como a distância média dentro do grupo para um dado número de agrupamentos.
Para que fique de modo claro tais classificações do processo de aglomeração, a Figura 4.4 sintetiza.
Figura 4.4 - Classificação dos processos de aglomeração
Fonte: MALHOTRA (2011, p. 531)
Para atingir os objetivos da pesquisa, na segunda etapa do processo metodológico descrito, melhor adequa-se o esquema de aglomeração hierárquico aglomerativos pelo método de encadeamento único. Esclarecidos os procedimentos metodológicos realizados na presente investigação, todo o procedimento operacional de técnicas de análise multivariada foi realizado com o software IBM SPSS Statistics 22. Os resultados das análises são apresentados e discutidos no capítulo seguinte.