• Aucun résultat trouvé

3 Calibration and model fit

3.4 Model fit

nascido, tal como a alimentação, o consumo de álcool ou tabaco. Também a idade da mãe influencia o parto prematuro, se esta tiver pouca idade ou uma idade mais avançada. Por estas e outras razões, um bom comportamento por parte da progenitora é uma mais-valia para a sobrevivência do recém-nascido. Com a aplicação do modelo de regressão logística à base de dados dos RN de muito baixo peso, pretende-se ajudar, facilitar e, de algum modo, tentar proporcionar uma redução da taxa de mortalidade destes, dando a conhecer os fatores que mais a influenciam.

O objetivo do estudo não visa a obtenção de um melhor modelo final, mas sim descobrir quais as eventuais variáveis que mais influenciam a morte dos RN de muito baixo peso, usando vários métodos, que procedem de maneira diferente, para reforçar tais conclusões. As variáveis em comum obtidas pela aplicação dos métodos Backward, Forward, Stepwise, Lasso e Elastic Net (Tabelas 3.12, 3.13, 3.14, 3.16 e 3.17, respetivamente) foram: “EcografiaTfIdadeUltimaSemana”, “SROxigenio”, “SRCpap”, “InternamentoPerimetroCefalico”, “SRIppv”, MalformacaoCongenitaMajor”, “ExameOftalmologico”, “DiagPda”, “CirurgiaMajorOutra”, “ImagiologiaCerebralDia28”, “InternamentoAlimentacaoEnterica”, “InternamentoDependenciaOxigenio” e “Hpiv”. Existem outras variáveis que aparecem com elevada frequência, não aparecendo apenas num dos modelos, mas que mostram ser importantes, como o “Crib”, o “Snappe2”, o “Transporte”, a “CirurgiaPda” e o “LpvGrau”. Estas são, então, consideradas aquelas que mais influenciam o óbito dos RN de muito baixo peso, umas presumivelmente mais importantes que outras, tendo presente que alguns testes de significância de coeficientes conduzem a rejeições convincentes da respetiva hipótese nula. É também importante salientar que estes resultados são extraídos desta amostra específica (dimensão, variáveis recolhidas, técnicas de imputação adotadas, etc.) e algumas interpretações dependem do nível de significância considerado pelo utilizador.

Analisando os valores dos métodos de adequação e ajustamento para os modelos obtidos, não se pode considerar a existência de um “melhor” modelo, pois todos os modelos apresentam valores bastante elevados de qualidade. Todos os modelos apresentam valores de especificidade, sensibilidade e percentagem da área sob a curva ROC acima de 90%, p-values associados aos testes de Hosmer e Lemeshow acima de 0.7 e tanto a média como o desvio padrão dos resíduos de Pearson estandardizados bastante próximos de zero. Qualquer modelo escolhido tem uma ótima capacidade preditiva, sendo difícil a eleição do “melhor” modelo.

A criação do package no software R torna-se uma ferramenta bastante útil, de fácil utilização e de grande rapidez de execução. Um profissional de saúde que possua uma base de dados (completamente tratada por um especialista em Data Science), se pretender saber quais as variáveis que mais influenciam, por exemplo, o cancro na mama, usando a variável que corresponde ao ter ou não ter cancro, basta utilizar uma função deste package, colocando o nome da base de dados e o número da variável resposta, e num curto espaço de tempo consegue obter essas informações, juntamente com testes de adequação e ajustamento dos modelos, podendo compará-los e escolher o melhor.

Concluindo, todo o trabalho desenvolvido no caso em estudo pretende, sobretudo, ajudar os profissionais de saúde a terem respostas mais rápidas, eficazes e fiáveis, quando deparados com um nascimento prematuro, observando as variáveis mais influentes e percebendo qual a dimensão do risco de morte ou sobrevivência do recém-nascido. Por outro lado, com o package, o objetivo é o mesmo, ajudar os profissionais de saúde, num espaço de tempo curto, a perceber quais os fatores que, presumivelmente, mais influenciam um dado fenómeno.

Referências

[1] XXS-Associação Portuguesa de Apoio ao Bebé Prematuro. [Consult. 8 Abril 2018]. Disponível na Internet: http://www.xxs-prematuros.com/.

[2] A. Kopelman, “Prematuridade”, The Brody School of Medicine at East Carolina University. [Consult. 8 Abril 2018]. Disponível na Internet: https://www.msdmanuals.com/pt/casa/problemas-de- sa%C3%BAde-infantil/problemas-em-rec%C3%A9m-nascidos/prematuridade.

[3] INE, “Estatísticas Demográficas 2005”, 2007.

[4] INE, “Estatísticas Demográficas 2016”, 2017.

[5] M. Turkman e G. Silva, “Modelos Lineares Generalizados”, Universidade de Lisboa e Universidade Técnica de Lisboa, 2000.

[6] J. Brownlee, “Overfitting and Underfitting With Machine Learning Algorithms”, Machine Learning

Algorithms, 2016. [Consult. 11 Abril 2018]. Disponível na Internet :

https://machinelearningmastery.com/overfitting-and-underfitting-with-machine-learning-algorithms/

[7] O. Chakon, “Pratical Machine Learning: Ridge Regression vs. Lasso”, Coding Startups, 2017. [Consult.

11 Abril 2018]. Disponível na Internet: https://codingstartups.com/practical-machine-learning-ridge- regression-vs-lasso/

[8] NCSS Statistical Software, “Stepwise Regression”, Chapter 311. [Consult. 20 Abril 2018].

Disponível na Internet: https://ncss-wpengine.netdna-ssl.com/wp- content/themes/ncss/pdf/Procedures/NCSS/Stepwise_Regression.pdf.

[9] C. Pereira, “O Aparecimento de Valores Omissos no Contexto da Regressão Logística”, IV Congresso Anual, Sociedade Portuguesa de Estatística, 1997.

[10] B. Goulão, “Seleção de variáveis na presença de valores omissos: uma aplicação na modelação do

Índice de Massa Corporal nos imigrantes africanos e brasileiros residentes em Lisboa e Setúbal”, Universidade de Lisboa, 2013.

[11] D. W. Hosmer e S. Lemeshow, “Applied Logistic Regression”, 2nd ed. John Wiley & Sons, New York,

[12] M. Gandolfi, “Imputação Múltipla via Algoritmo MICE e Método IMLD”, Tese de Mestrado,

Universidade Estadual de Maringá, 2016.

[13] J. Silva, “Modelos de Regressão Linear e Logística utilizando o software R”, Tese de Mestrado,

Universidade Aberta, 2016.

[14] G. Parry, J. Tucker e W. Tarnow-Mordi W, “CRIB II : na update of the Clinical Risk Index for Babies score”, Lancet, 2003. [Consult. 30 Janeiro 2018] Disponível na Internet:

https://www.ncbi.nlm.nih.gov/pubmed/12781540

[15] D. Richardson, J. Corcoran, G. Escobar e S. Lee, “SNAP-II and SNAPPE-II: Simplifie newborn illness severity and mortality risk scores”, The Journal of pediatrics, 2001. [Consult. 30 Janeiro 2018] Disponível na Internet: https://www.ncbi.nlm.nih.gov/pubmed/11148519

[16] D. Matos, “Porquê escolher R?”, Ciência e Dados, 2015. [Consult. 16 Abril 2018] Disponível na

Internet: http://www.cienciaedados.com/por-que-escolher-r/

[17] R. Bispo e M. Castel-Branco, “Introdução ao Software R”. [Consult. 1 Maio 2018]. Disponível na Internet: https://ciencias.ulisboa.pt/sites/default/files/Flyer-Linguagem-R-2017.pdf.

[18] M. Rocha e P. Ferreira, “Análise e Exploração de Dados com R”, FCA, 2014.

[19] Z. Ezz-Eldin, T. Hamid, M. Youssef e H. Nabil., “Clinical Risk Index for Babies (CRIB II) Scoring System in Prediction of Mortality in Premature Babies”, Journal of clinical and diagnostic research: JCDR, 2015. [Consult. 30 Janeiro 2018] Disponível na Internet:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4525567/

[20] S. Harsha e B. Archana, “SNAPPE-II (Score for Neonatal Acute Physiology with Perinatal Extension- II) in Predicting Mortality and Morbidity in NICU”, Journal of clinical and diagnostic research: JCDR,

2015. [Consult. 30 Janeiro 2018] Disponível na Internet:

https://www.ncbi.nlm.nih.gov/pubmed/26557585

[21] J. Marôco, “Análise Estatística com o SPSS Statistics”, Report Number, 2014.

[22] M. Azur, E. Stuart, C. Frangakis e P. Leaf, “Multiple Imputation by Chained Equations: What is it and how does it work?”, US National Library of Medicine National Institutes of Health, Internacional Journal of Methods in Psychiatric Research, 2011. [Consult. 16 Abril 2018] Disponível na Internet:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3074241/

[23] C. Cabral, “Aplicação do Modelo de Regressão Logística num Estudo de Mercado”, Projeto, Mestrado

em Matemática Aplicada à Economia e à Gestão, 2013.

[24] M. Kuhn, “Package ‘caret’”, Classification and Regression Training, 2018.

[25] Articles – Model Selection Essentials in R, “Penalized Regression Essentials: Ridge, Lasso & Elastic Net”, 2018. [Consult. 24 Abril 2018] Disponível na Internet: http://www.sthda.com/english/articles/37- model-selection-essentials-in-r/153-penalized-regression-essentials-ridge-lasso-elastic-net/

[26] O. Chakon, “Practical Machine Learning: Ridge Regression vs. Lasso”, Coding Startups, 2017.

[Consult. 5 Maio 2018] Disponível na Internet: https://hackernoon.com/practical-machine-learning- ridge-regression-vs-lasso-a00326371ece

[27] F. Clésio, “Qual a diferença entre Lasso e Ridge Regression?”, Data Mining, Machine Learning, Data

Analysis, 2015. [Consult. 5 Maio 2018] Disponível na Internet:

https://mineracaodedados.wordpress.com/2015/06/20/qual-a-diferenca-entre-lasso-e-ridge-regression/

[28] N. Saleh, “Prematuridade é a maior causa de morte infantil no mundo”, Crescer, 2014. [Consult. 20

Maio 2018] Disponível na Internet: https://revistacrescer.globo.com/Voce-precisa- saber/noticia/2014/11/prematuridade-e-maior-causa-de-morte-infantil-no-mundo.html

[29] A. Campos, “Portugal está entre os 20 países com menos mortes de recém-nascidos”, Jornal O Público,

2018. [Consult. 20 Maio 2018] Disponível na Internet:

https://www.publico.pt/2018/02/20/sociedade/noticia/portugal-esta-na-lista-dos-20-paises-com-menor- mortalidade-neonatal-1803716

[30] T. Baguley, “Serious State, A guide to Advanced Statistics for the Behavioral Source”, 2012.

[31] H. Zou e T. Hastie, “Regularization and variable selection via the elastic net”, Journal of the Royal

Statistical Society, Series B, Volume 67, 2005.

[32] R. Tibstirani, “Regression Shrinkage and Selection via the Lasso”, Journal of the Royal Statistical

Society, Series B, Volume 58, 1996.

[33] F. Clésio, “Métricas de avaliação de modelos de classificação/predição”, 2014. [Consult. 19 Abril

2018] Disponível na Internet: https://mineracaodedados.wordpress.com/2014/11/16/metricas-de- avaliacao-de-modelos-de-classificacaopredicao/

[34] J. Renuka, “Accuracy, Precision, Recall & F1 Score: Interpretation of Perfomance Measures”, 2016.

[Consult. 29 Abril 2018] Disponível na Internet: https://blog.exsilio.com/all/accuracy-precision-recall- f1-score-interpretation-of-performance-measures/

[35] T. Hastie, R. Tibshirani and J. Friedman, “The Elements of Statistical Learning: Data Mining, Inference,

and Prediction”, Springer, 2nd Edition, 2009.

Anexo A

Critérios de Inclusão e Instruções de Preenchimento 2010 Relativos à Base de Dados do

Documents relatifs