A estatística de Procrustes R2
procrustesde…nida em (23) mede a diferença de duas con…gura-
ções de pontos, quanto menor o valor da estatística, as con…gurações serão mais similares. Neste trabalho foi usada essa estatística para comparar os resultados após a imputação pelos cinco métodos considerados, ALS(1), ALS(0), IMLD, r-AMMI2 e r-AMMI1. A compara- ção foi feita sobre as matrizes completadas (observados+imputados) e a matriz original de dados. Assim, por exemplo, a matriz de dados original chamada X(15 27) é submetida a
IMLD e as imputações obtidas são inseridas na matriz de dados incompleta, essa nova matriz completada é chamada de YIM LD. Então, a estatística R2procrustes foi calculada fazendo a ro-
tação da matriz YIM LD em relação à matriz X(15 27), o valor da estatística foi denotado por
IMLDprocrustes . Além disso, sobre a mesma retirada aleatória do 10% foram encontradas as
matrizes YALS(1), YALS(0), Yr AM M I2, Yr AM M I1 e calculadas as correspondentes estatísticas
de Procrustes relativas à matriz original X(15 27) , os valores dessas estatísticas foram de-
notados por ALS(1)procrustes, ALS(0)procrustes, r-AMMI2procrustes e r-AMMI1procrustes. Sobre
essas estatísticas são comparadas as imputações, e quanto menor seja o valor da R2
procrustes
melhor será o método de imputação. Todo o exposto anteriormente foi envolvido em um estudo de simulação considerando três porcentagens de perda aleatória (10%, 20%, 30%) e fazendo mil repetições para cada uma delas, os resultados se mostram a seguir.
De acordo com um dos objetivos deste trabalho, procura-se avaliar a recente proposta baseada em IMLD (BERGAMO, 2007) para imputar interações. É por essa razão que se apresenta inicialmente uma comparação dos resultados obtidos com os valores das estatísti- cas de Procrustes para IMLD. Na tabela 9 aparece uma contagem do número de vezes que o valor da estatística IMLDprocrustes foi maior ou menor do que as estatísticas ALS(1)procrustes,
ALS(0)procrustes, r-AMMI2procrustes e r-AMMI1procrustes em cada porcentagem de perda con-
siderada.
Tabela 9 - Número de vezes que a estatística de Procrustes para IMLD foi maior ou menor do que as estatísticas de Procrustes correspondentes aos outros métodos de im- putação; 1000 conjuntos de dados simulados para cada porcentagem de retirada
Porcentagem de retirada Comparação Procrustes 10% 20% 30% IMLDprocrustes < ALS(1)procrustes 107 162 214
IMLDprocrustes > ALS(1)procrustes 893 838 786
IMLDprocrustes < ALS(0)procrustes 18 7 1
IMLDprocrustes > ALS(0)procrustes 982 993 999
IMLDprocrustes < r-AMMI2procrustes 25 6 3
IMLDprocrustes > r-AMMI2procrustes 975 994 997
IMLDprocrustes < r-AMMI1procrustes 14 5 1
IMLDprocrustes > r-AMMI1procrustes 986 995 999
Segundo a tabela 9, nos 1000 conjuntos de dados com o 10% de observações ausentes simuladas o desempenho do IMLD não foi melhor do que os outros métodos, por exem- plo, em 982 ocasiões a estatística ALS(0)procrustes teve valores menores do que os valores
da IMLDprocrustes, o que signi…ca que as matrizes de dados com as imputações por ALS(0)
apresentam uma maior similaridade em relação à matriz original, do que podem apresentar as matrizes com imputações por IMLD. Mas, não somente com o ALS(0) acontece isso, com os métodos r-AMMI2 e r-AMMI1 mostrou-se um comportamento parecido, pois em 975 con- juntos de dados a estatística r-AMMI2procrustes foi menor do que a estatística IMLDprocrustes.
Além disso, aumentando a porcentagem de perda aleatória se obtêm as mesmas conclusões. Com 30% de perda aleatória, dos mil conjuntos de dados simulados com observações perdidas, em 999 deles a estatística r-AMMI1procrustes foi menor do que a IMLDprocrustes. Usando a ro-
tação de Procrustes pode concluir-se que as matrizes de dados completadas com imputações feitas por mínimos quadrados alternados ou baseadas em sub-modelos robustos apresentam uma maior similaridade com a matriz de dados original considerada para o estudo de simu- lação.
Já que foi encontrado que segundo a estatística de Procrustes o método IMLD não apresenta um bom desempenho comparado com as outras opções de imputação, apresenta-se na tabela 10 a comparação baseada no algoritmo ALS(1).
Tabela 10 - Número de vezes que a estatística de Procrustes para ALS(1) foi maior ou menor do que as estatísticas de Procrustes correspondentes aos métodos ALS(0) e r- AMMI; 1000 conjuntos de dados simulados para cada porcentagem de retirada
Porcentagem de retirada Comparação Procrustes 10% 20% 30% ALS(1)procrustes < ALS(0)procrustes 220 76 19
ALS(1)procrustes > ALS(0)procrustes 780 924 981
ALS(1)procrustes < r-AMMI2procrustes 253 103 36
ALS(1)procrustes > r-AMMI2procrustes 747 897 964
ALS(1)procrustes < r-AMMI1procrustes 113 28 8
ALS(1)procrustes > r-AMMI1procrustes 887 972 992
Considerando 10% de perda aleatória, o método que apresentou mais vezes uma estatís- tica de Procrustes inferior à ALS(1)procrustes, foi o método r-AMMI1 com 887 vezes, de um
total de 1000 conjuntos considerados com observações ausentes simuladas. Isto signi…ca que em 887 vezes as matrizes completadas com imputações através de r-AMMI1 mostraram uma maior similaridade com a matriz de dados do experimento original. Observando apenas o 10% de perda aleatória, os melhores métodos seriam em ordem, r-AMMI1, ALS(0) e r-AMMI2. Aumentando a porcentagem de perda os resultados são con…rmados, pois por exemplo, nos 1000 conjuntos com o 20% de perda aleatória, apenas em 76 conjuntos o ALS(1) apresentou
matrizes completadas mais similares do que as matrizes completadas utilizando o ALS(0). Com as análises feitas até esse momento, dos cinco métodos de imputação escolhidos inicialmente, três mostraram um desempemho bem diferente e é por isso que a ultima tabela desta seção faz uma comparação entre eles usando a estatística de Procrustes como critério.
Tabela 11 - Número de vezes que a estatística de Procrustes para ALS(0) foi maior ou menor do que as estatísticas de Procrustes correspondentes aos métodos r-AMMI; 1000 conjuntos de dados simulados para cada porcentagem de retirada
Porcentagem de retirada 10% 20% 30% ALS(0)procrustes <r-AMMI2procrustes 668 788 868
ALS(0)procrustes >r-AMMI2procrustes 332 212 132
ALS(0)procrustes <r-AMMI1procrustes 562 633 669
ALS(0)procrustes >r-AMMI1procrustes 438 367 331
r-AMMI2procrustes < r-AMMI1procrustes 302 193 104
r-AMMI2procrustes > r-AMMI1procrustes 698 807 896
Pela tabela 11 observa-se que com o método ALS(0) se produziram as matrizes com a melhor similaridade da matriz original de dados, pois em um maior número de ocasiões obteve-se uma estatística ALS(0)procrustes menor do que as estatísticas produzidas após a
imputação com r-AMMI1 e r-AMMI2. Dos mil conjuntos de dados gerados com 10% de informação perdida, em 668 deles, a ALS(0)procrustes foi menor do que a r-AMMI2procrustes
e em 562 foi menor do que a r-AMMI1procrustes. Aumentando o número de porcentagem de
perda aleatória a situação se mantém, isto é, nos 1000 conjuntos simulados com o 30% de perda, em 669 obteve-se melhor similaridade usando ALS(0) do que o obtido com r-AMMI1. Finalmente, conclui-se que comparando através da rotação de procrustes a matriz de dados original com matrizes de dados que contêm dados imputados em diferentes porcenta- gens de perda, o melhor método é o ALS(0) e nenhum dos outros métodos (IMLD, r-AMMI1, r-AMMI2 e ALS(1)) apresentam um resultado aproximado.
2.6.4 Comparação dos métodos de imputação através da correlação de Spear-