Utilizando os agrupamentos de rácios considerados, efectuou-se uma análise
classificatória tanto hierárquica como não hierárquica das empresas do conjunto de
Treino.
6.3.1 Classificação ascendente hierárquica
A classificação hierárquica é formada por uma sequência de partições encaixadas
desde a partição trivial em classes singulares até à partição com uma classe única. A
classificação ascendente hierárquica, parte em geral da matriz de proximidades entre
indivíduos relativamente a determinadas características e agrega sucessivamente as
classes em grupos homogéneos até à existência de apenas uma classe. Para
determinação da matriz de proximidades existem várias medidas de semelhança e
dissemelhança à disposição e, a partir do momento em que se torne necessário agrupar
uma classe já constituída e um indivíduo ou classe, torna-se também necessário a
definição de uma medida de dissemelhança entre classes. É neste contexto que importa
referir que optámos pela utilização da medida de dissemelhança da Distância Euclidiana
entre empresas e pelo método da Maior Distância (Complete Linkage ou Farthest-
Neighbor) para concretização da classificação ascendente hierárquica.
O motivo da escolha da Distância Euclidiana para construção da matriz de
dissemelhanças deve-se apenas à sua maior popularidade e simplicidade. No que
concerne ao motivo da utilização do método da Maior Distância – aquele em que a
distância entre duas classes é a maior distância entre indivíduos de uma classe e
indivíduos da outra classe – fizemo-lo para evitar efeitos de cadeia e para favorecer a
obtenção de classes compactas (Maroco, 2007, p. 428).
A classificação foi efectuada recorrendo às variáveis estandardizadas para
eliminarmos o efeito das diferentes dispersões das variáveis na distância Euclidiana.
Devido à dimensão do conjunto de indivíduos a classificar, que é a dimensão do
conjunto de Treino (5.307 indivíduos), verificou-se particularmente difícil determinar
através da visualização do dendograma (consultar Anexo 5), qual o corte que define a
partição apropriada para definição do número de classes em cada agrupamento de
variáveis.
Neste sentido recorremos à análise da distância (coefficients) entre classes e ao
cálculo da percentagem de inércia explicada dada pelo R
2(ver expressão 6.1). A
distância entre classes, foi obtida por observação directa da Tabela de Aglomeração
(Agglomeration Schedule) devolvida pelo SPSS. O R
2foi calculado de acordo com a
seguinte definição (Maroco, 2007, p. 439):
𝑅
𝑆𝑄
𝑆𝑄𝑇
∑
∑
( ̅
− ̅)
∑
∑
∑
(
− ̅)
(6.1)
onde é a Soma de Quadrados dos desvios entre Classes (Sum of Squares Between
Groups) e é a Soma dos Quadrados Totais (Total Sum of Squares). Esta medida,
calculável para cada partição do dendograma, indica-nos qual a percentagem da
variabilidade total explicada pela partição (cada solução de número de classes).
Efectuámos uma representação gráfica do cruzamento da informação da Distância
entre Classes (Distância) e do valor do R
2. Vejamos essas medidas para o primeiro
agrupamento de rácios (GI Ebitda Ebit Ebt RL) no gráfico 6.1.
Gráfico 6.1: Representação gráfica da Distância e do R
2para o agrupamento de rácios 01
Fonte: Elaboração própria
0,0 0,2 0,4 0,6 0,8 1,0 0 50 100 150 200 250 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Coefficients R-squared
Refira-se que no cálculo do R
2usámos as variáveis estandardizadas, uma vez que
usámos as variáveis estandardizadas também no algoritmo da classificação hierárquica.
O principal critério adoptado para escolha do corte a efectuar foi: alcançar um R
2de
pelo menos 80% (o que apenas não aconteceu no 9º agrupamento de rácios para um
número de classes até 50). Em seguida verificou-se qual a inclinação da recta da
Distância entre classes e pretendeu-se incluir o número de classes que provocasse uma
queda significativa nesta distância (o que não aconteceu relativamente ao agrupamento
de rácios 01, ver gráfico 6.1). Calculou-se ainda a variação percentual do R
2(Variação
do R
2) pelo incremento sucessivo do número de classes, com o objectivo de identificar
os casos em que a inclusão de mais uma classe incrementa significativamente o valor do
R
2(também não acontece para este primeiro agrupamento de rácios).
Tabela 6.7: Critérios auxiliares para definição do número de classes no agrupamento de
rácios 01
Stage Classe Coefficients R2
Inclinação da Recta dos Coeficientes % da inclinação da 2º classe Variação do R2 3678 1 218,0 0,00 - - - 3677 2 121,9 0,44 -96,2 - - 3676 3 82,2 0,51 -39,6 41,23% - 3675 4 63,4 0,62 -18,8 19,58% - 3674 5 53,9 0,63 -9,6 9,94% - 3673 6 44,2 0,67 -9,6 10,04% - 3672 7 40,8 0,71 -3,4 3,59% - 3671 8 34,7 0,71 -6,0 6,26% - 3670 9 34,6 0,72 -0,1 0,11% - 3669 10 32,1 0,74 -2,5 2,65% - 3668 11 30,1 0,76 -2,0 2,04% - 3667 12 26,9 0,76 -3,2 3,32% - 3666 13 26,9 0,77 -0,1 0,05% - 3665 14 25,9 0,77 -1,0 1,04% - 3664 15 25,6 0,77 -0,3 0,29% - 3663 16 23,4 0,78 -2,2 2,26% - 3662 17 22,9 0,78 -0,5 0,54% - 3661 18 20,5 0,79 -2,4 2,47% - 3660 19 20,1 0,79 -0,4 0,46% - 3659 20 19,5 0,81 -0,6 0,65% 2,8% 3658 21 18,8 0,82 -0,6 0,67% 0,5% 3657 22 17,5 0,82 -1,4 1,41% 1,0% 3656 23 16,8 0,82 -0,7 0,75% 0,1% 3655 24 16,0 0,83 -0,8 0,82% 0,2% 3654 25 15,9 0,83 0,0 0,03% 0,1%
Fonte: Elaboração própria
No Anexo 5 podem ser consultados os gráficos e tabelas semelhantes ao gráfico 6.1 e
tabela 6.7 e que auxiliaram a definição do número de classes para todos os
agrupamentos de rácios. A sublinhado identifica-se o número de classes adoptado e o
critério que levou a essa adopção. No que ao primeiro agrupamento de rácios diz
respeito, considerou-se um número de classes igual a 20, devido a ter sido atingido um
valor de R
2superior a 80% e ao facto da variação do R
2por inclusão de um maior
número de classes ser pequena assim como a redução da distância entre classes.
6.3.2 Classificação não hierárquica
Atendendo a que estarmos a trabalhar com um conjunto de indivíduos (conjunto de
Treino) de cardinal particularmente elevado e a termos já como referência o número de
classes determinado através da classificação hierárquica, decidimos efectuar uma
análise classificatória não hierárquica tomando como referência aquele número de
classes. Os métodos não-hierárquicos permitem uma atribuição final de cada indivíduo
a cada classe eventualmente diferente da que inicialmente poderá ter sido considerada, o
que não acontece nos métodos hierárquicos onde a atribuição é definitiva.
Para este efeito efectuou-se uma classificação não-hierárquica por recurso ao método
das k-médias, que consiste no seguinte: 1) partição dos elementos em k classes
definidas inicialmente pelo investigador; 2) cálculo do centróides para cada classe; 3)
atribuição de cada elemento à classe cujo centróide lhe é mais próximo; 4) voltar ao
ponto 2) até que não ocorra variação significativa na distância mínima de cada sujeito a
cada um dos centróides (Maroco, 2007, p. 446).
Após a classificação recorrendo ao método das k-médias, efectuou-se o cálculo do R
2da partição obtida. Esse valor pode ser consultado na tabela 6.8, onde se resume o
número de classes definido através do método hierárquico bem como o valor R
2que
essa partição originou, tanto através da classificação hierárquica como através da
classificação não-hierárquica (k-médias).
Tabela 6.8: Resumo do número de classes retidas por agrupamento de rácios e R
2das
classificações hierárquica e não hierárquica
Agrupamento de
Rácios Variáveis de classificação
Nº. de Classes R2 (Clas. Hierárquica) R2 (K-médias)
01 GI Ebitda Ebit Ebt RL 20 0,81 0,87
02 Ebitda Ebit Ebt RL 8 0,80 0,84
03 TA Eqty 10 0,82 0,88
04 RoA RoE 19 0,83 0,92
05 OCF Capex varFML varInvtmts 43 0,80 0,86
06 OCF Capex 19 0,81 0,90
07 FCFF 5 0,85 0,89
08 Divid 8 0,94 0,96
09 EBITDA TA RoE OCF Capex FCFF Divid 30 0,65 0,75
10 Ebitda TA OCF Capex 43 0,80 0,87
11 ln(RoA) ln(RoE) 8 0,82 0,87
12 ln(OCF) ln(Capex) ln(varFML) ln(varInvtmts) 39 0,80 0,83
13 ln(FCFF) 7 0,92 0,95
14 ln(Diviv) 9 0,91 0,95
15 ln(FCFF) ln(Divid) 16 0,81 0,89
16 ln(Payout) 6 0,83 0,90
17 tcVN(cagr) tcRL(cagr) ln(RoE) 24 0,80 0,89