Discutimos o fato dos modelos de regressão sem restrições não garantirem que ˆyLi< ˆyU i. Em contra-partida, o uso de restrições no vetor de parâmetros
restringe o espaço de possíveis soluções que minimiza a soma de quadrados
dos erros, podendo ocasionar numa perda de performance de predição se
comparado com um método sem restrições. Dessa forma, foi sugerido utilizar (inicialmente) um modelo sem restrições, com o intuito de obter as estimativas dos parâmetros que minimizam a soma dos quadrados dos erros. No entanto, caso sejam identificadas observações onde os valores estimados para os limi- tes inferior e superior estejam incoerentes, sugeriu-se ajustar a abordagem correspondente com restrições no conjunto treinamento e re-estimar apenas aquelas observações que apresentaram problemas.
Em bases de dados onde as variáveis apresentavam uma relação não-linear entre a variável resposta Y e as variáveis independentes X1, . . . , Xp, comprova-
mos o melhor desempenho do método MNLCA quando comparado com os métodos de regressão linear MC, MCr, MCA4 e MCA4r. A medida que o nível da relação não-linear entre a variável resposta e as variáveis independentes tornou-se mais forte, verificamos um aumento significativo na diferença de performance entre a abordagem não-linear proposta nesta tese (MNLCA) e os modelos de regressão linear.
Adicionalmente, avaliamos a performance dos principais métodos em ba- ses de dados reais. No geral, os resultados obtidos coincidiram com os ob- servados nos experimentos Monte Carlo, tendo os métodos MCA2r, MCA4 e MCA4r apresentado uma melhor performance de previsão em relação aos de- mais. Para a base de dados cardiológica, verificamos que o método MC apre- sentou incoerência matemática nas estimativas dos limites dos intervalos no conjunto teste, com um percentual de 22%.
Por último, observamos a correta sinalização do coeficiente de determina-
ção para os métodos apresentados nas Seções 4.1, 4.2 e 4.3. Verificamos um
aumento no valor do R2 a medida que a variabilidade do erro decresce, ou
seja, quanto mais linear é a relação entre a variável dependente e as variáveis independentes maior é o valor do R2. Além disso, independente do método, o
valor do R2 cresce a medida que incluímos mais variáveis independentes ao
modelo.
6.2 Trabalhos Futuros
Acreditamos que métodos apresentados nesta tese abrem espaço para o de- senvolvimento de novas de técnicas ou procedimentos na área de modelos de regressão para dados simbólicos de natureza intervalar. Mencionamos, a se- guir, alguns tópicos para trabalhos futuros que consideramos uma extensão imediata das abordagens propostas neste trabalho, tendo para alguns deles alguns resultados preliminares:
104 CAPÍTULO 6 CONCLUSÕES, TRABALHOS FUTUROS E PUBLICAÇÕES
• Dedução de novos métodos que capturem a interação entre centro e am- plitude dos intervalos. Acreditamos que essas novas abordagem apre- sentarão um desempenho de predição superior aos métodos atuais em problemas de regressão para dados simbólicos de natureza intervalar em que as variáveis apresentem uma relação de dependência entre o centro e as amplitudes;
• A dedução de novos métodos com suporte probabilístico possibilitará a realização de inferência sobre os parâmetros dos modelos, testes de hi- póteses para seleção de variáveis, intervalos de confiança para os limites dos intervalos, etc.;
• Dedução de técnicas ou procedimentos para análise de residual, medidas de diagnóstico, pontos de alavanca e influência em modelos de regressão com variáveis simbólicas tipo-intervalo. Tais procedimentos contribuirão como uma importante ferramenta na verificação das suposições proba- bilísticas e na melhoria do ajuste em modelos de regressão para dados simbólicos de natureza intervalar.
6.3 Publicações
A seguir, listamos as revistas/congressos nacionais e internacionais onde encontra-se publicado a maior parte dos métodos propostos nesta tese:
1. Lima Neto, E. A. e De Carvalho, F. A. T. Centre and Range Method for Fit- ting a Linear Regression Model to Symbolic Interval Data. Computational Statistics and Data Analysis, v. 52, p. 1500-1515, 2008.
2. Lima Neto, E. A., De Carvalho, F. A. T. e Coelho Neto, J. F. Constrai- ned Linear Regression Models for Interval-valued Data with Dependence. Proceedings of the 2007 IEEE International Conference on Systems, Man and Cybernetics (SMC’07), v. 1. p. 456-461, 2007
3. Lima Neto, E. A., De Carvalho, F. A. T. e Coelho Neto, J. F. Inequality Constraints in Regression Models to Symbolic Interval Variables. Proce- edings of the 2007 International Joint Conferences on Neural Networks (IJCNN’07), IEEE Catalog Number - 07CH37922C, v. 1, 2007.
4. De Carvalho, F. A. T. e Lima Neto, E. A. Some linear regression models for symbolic interval data. Proceedings of the 56th Session of the Inter- national Statistical Institute (ISI’07), v. 1, 2007.
5. De Carvalho, F. A. T., Lima Neto, E. A e Bezerra, L. X. T. Linear Re- gression Methods to Predict Interval-Valued Data. Proceedings of the Brazilian Symposium on Artificial Neural Networks (SBRN’06), v. 1, p. 22, 2006.
6.3 PUBLICAÇÕES 105
6. Lima Neto, E.A. e De Carvalho, F.A.T. Previsão de dados de tipo intervalo via um modelo de regressão linear com restrições. Revista Tecnologia da
Informação, Brasília, v.5, n.1, pp. 33-44, 2005.
7. Lima Neto, E.A., De Carvalho, F.A.T. e Freire, E.S. Applying constrained linear regression models to predict interval-valued data. Lecture Notes on Artificial Intelligence - LNAI 3698. Proceedings of the 28th German Conference on Artificial Intelligence (KI’05), U. Fürbach Eds, Springer, pp. 92-106, 2005.
8. Lima Neto, E.A. e De Carvalho, F.A.T. Régression linéaire pour la pré- diction de variables de type intervalle. 12èmes Rencontres de la Société
Francophone de Classification, V. Makarenkov et al. Eds, Université de
Montréal, pp, 195-198, 2005.
9. De Carvalho, F.A.T., Lima Neto, E.A. e Tenório, C.P. A new method to fit a linear regression model for interval-valued data. Lectures Notes on Artificial Intelligence, LNAI 3238. Proceedings of the 27th German Con- ference on Artificial Intelligence (KI’04), S. Biundo et al. Eds, Springer, pp. 295-306, 2004.
10. Lima Neto, E.A., De Carvalho, F.A.T. e Tenório, C.P. Univariate and mul- tivariate linear regression methods to predict interval-valued features. Lectures Notes on Artificial Intelligence, LNAI 3339. Proceedings of the 17th Australian Joint Conference on Artificial Intelligence (AI’04), G.I. Webb and X. Yu Eds, Springer, pp. 526-537, 2004.
11. Lima Neto, E.A., De Carvalho, F.A.T. e Brito, P. Um modelo de regressão para dados intervalares. In: Anais do 17º Congresso Anual da Sociedade