O presente conjunto de dados, disponível no Apêndice C, refere-se a informações acerca de um paciente obeso, do sexo masculino e com 48 anos de idade em um programa de reabilitação de peso. As informações fornecidas são o peso, em quilogramas, e o tempo, em dias, deste paciente ao longo do programa. No total existem 52 observações.
Na Tabela 11 apresentamos algumas estatísticas descritivas para a variável peso. Observa-se que o paciente participante do programa de reabilitação de peso teve uma variação entre 184,4 Kg (início do programa) e 112,6 Kg (término do programa) ao longo de 246 dias.
Tabela 11 – Estatísticas descritivas referente ao conjunto de dados programa de reabilitação de peso.
Mínimo 25% Mediana Média 75% Máximo Peso 112,6 127,5 135,8 142,2 154,7 184,4
Para este conjunto de dados, temos o modelo proposto por Venables e Ripley (2002) dado a seguir:
yi = α + β2(−xi/γ)+ i,
em que yi é a i-ésima observação referente ao peso do paciente, xi é o tempo do programa de reabilitação de peso e i ∼ N (0,φ) são erros mutuamente indepenentes.
O gráfico de dispersão do peso do paciente em função do tempo do programa de reabilitação com a curva ajustada sob o modelo normal é dada na Figura 9. Tem-se que
Capítulo 3. Aplicação 31
a medida que o tempo do programa aumenta, o peso do paciente diminui de forma não linear.
Figura 9 – Gráfico de dispersão do peso do paciente em função do tempo do programa de reabilitação com a curva ajustada sob modelo normal.
Na literatura não foram encontradas análises relacionadas ao ajuste sob modelos que seguem distribuições simétricas para este conjunto de dados e o que nos motivou a considerar modelos com erro seguindo tal distribuição foi que ao realizar a análise de resíduos para o modelo normal observamos três pontos discrepantes. Essa análise será discutida com detalhes mais adiante. Com isso, ajustamos os modelos utilizados nas aplicações 1 e 2, são eles: Normal, logístico-II e t-Student e acrescentamos o modelo exponencial potência. Para a determinação dos graus de liberdade da distribuição t-Student, ajustamos este modelo para graus de liberdade diferentes com o intuito de obter o menor valor para o AIC, porém quanto maior o valor dado para v, menor o valor de AIC. Para encontrar o valor do parâmetro de forma κ do modelo exponencial potência foi realizado o mesmo processo feito para o modelo t-Student, ou seja, foi encontrado o menor valor para AIC.
Na Tabela 12 são dados os valores para a verossimilhança e para o AIC sob os modelos ajustados. Observa-se que o modelo com menor AIC é o exponencial potência com parâmetro κ = 0,5 e, como dito anteriormente, para o modelo t-Student, a medida que se aumenta o valor dos graus de liberdade, menor o valor considerado para AIC. Para estes dados, iremos analisar o modelo t-Student com 4 graus de liberdade devido às análises gráficas que serão apresentadas mais adiante.
Capítulo 3. Aplicação 32
Tabela 12 – Valores para a verossimilhança e AIC para os modelos ajustados referente aos dados do programa de reabilitação de peso.
Normal Logístico-II Exponencial potência t-Student
κ = 0,5 ν = 3 ν = 4 ν = 6 ν = 8 ν = 10
L( ˆθ) −66,47 −66,41 −66,99 −67,38 −66,93 −66,58 −66,47 −66,42
AIC 126,94 126,81 125,99 128,76 127,85 127,16 126,93 126,84
Na Figura 10 temos os gráficos normal de probabilidade para os modelos normal (a), logístico-II (b), t-Student com 4 graus de liberdade (c) e exponencial potência (κ = 0,5) (d). Observamos que considerando os quatro modelos temos um bom ajuste para o conjunto de dados. Com relação ao modelo t-Student com os graus de liberdade citados na Tabela 12, fizemos o gráfico normal de probabilidade e, aparentemente, estes modelos também se ajustaram bem ao conjunto de dados.
Figura 10 – Gráfico normal de probabilidade com envelope, referente aos dados do pro- grama, para os modelos normal (a), logístico-II (b), t-Student (ν = 4) (c) e exponencial potência (κ = 0,5) (d).
Na Tabela 13 são apresentadas as estimativas de máxima verossimilhança para os modelos normal, logístico-II, t-Student com 4 graus de liberdade e exponencial potência (κ = 0,5). Temos que as estimativas são parecidas para os modelos ajustados e que as
Capítulo 3. Aplicação 33
Tabela 13 – Estimativas de máxima verossimilhança (com erro padrão aproximado) para o modelo normal, logístico-II, t-Student e exponencial potência nos dados do programa de reabilitação de peso.
Normal Logístico-II t-Student (ν = 4) Exponencial potência (κ = 0,5) Efeito Estimativa z-valor* Estimativa z-valor* Estimativa z-valor* Estimativa z-valor*
α 81,37 (2,20) 36,95 82,15 (2,09) 39,34 82,53 (2,01) 40,98 83,20 (1,91) 43,46
β 102,68 (2,02) 50,79 101,97 (1,91) 53,27 101,61 (1,84) 55,10 101,05 (1,75) 57,72
γ 141,91 (5,14) 27,61 140,21 (4,88) 28,75 139,41 (4,70) 29,64 137,82 (4,47) 30,83
φ 0,76 (0,15) 5,10 0,24 (0,06) 4,31 0,48 (0,13) 3,86 0,30 (0,07) 4,16
*p-valor muito pequeno.
Na Figura 11 são apresentados os gráficos de resíduos contra os valores ajustados para os modelos normal (a), logístico-II (b), t-Student (ν = 4) (c) e exponencial potência (κ = 0,5) (d). Para os modelos (a), (b) e (d), observamos que existem 3 observações discrepantes, são elas: 22, 39 e 44. Já para o modelo (c), temos apenas duas observações discrepantes: 39 e 44. Fizemos este gráfico para os valores de graus de liberdade citados na Tabela 12 para o modelo t-Student, porém apenas com 3 e 4 graus de liberdade obtivemos resultados semelhantes, ou seja, apenas duas observações discrepantes. Como o valor do AIC para ν = 4 é menor, então consideramos o modelo t-Student com 4 graus de liberdade.
Figura 11 – Gráficos de resíduos contra os valores ajustados, referente aos dados do programa de reabilitação, para os modelos normal (a), logístico-II (b), t- Student (v = 4) (c) e exponencial potência (κ = 0,5) (d).
Portanto, considerando o valor do AIC, temos o menor valor para o modelo exponencial potência (κ = 0,5), em que este modelo ajusta bem os dados no gráfico normal de probabilidade e apresenta 3 observações discrepantes, assim como nos modelo normal e logístico-II. O modelo t-Student com 4 graus de liberdade também ajusta bem os dados mas destaca apenas 2 observações discrepantes, apesar de ter um valor maior do
Capítulo 3. Aplicação 34
AIC. É interessante, em um trabalho futuro, realizar um estudo mais detalhado incluindo diagnóstico de influência e a verificação da existência de pontos de alavanca.
35
4 Conclusão
O objetivo principal deste trabalho foi realizar uma revisão acerca de modelos não-lineares simétricos visto que em muitos conjuntos de dados observamos a presença de observações discrepantes e os modelos de regressão com erros simétricos são uma alternativa ao modelo normal para o ajuste de dados contendo este tipo de observações.
Inicialmente foi realizado um estudo sobre distribuições simétricas em que apre- sentamos características de algumas distribuições pertencentes a esta classe, definimos o modelo não-linear simétrico e exibimos seus aspectos inferenciais, como estimação dos pa- râmetros e resultados assintóticos. Por fim, os conceitos apresentados neste trabalho foram aplicados a 3 conjuntos de dados reais, são eles: Coelhos europeus na Austrália, Produção de cebola e Programa de reabilitação de peso. Mostrou-se através destas aplicações que o ajuste através de modelos sob erros que seguem distribuições simétricas com caudas mais pesadas que as da normal ajustaram-se melhor aos conjuntos de dados.
36
Referências
ANDERSON, T. W.; FANG, K. T. Statistical inference in elliptically contoured and related distributions. [S.l.]: Allerton Pr, 1990.
ARELLANO-VALLE, R. Distribuições elípticas: propriedades, inferência e aplicações a modelos de regressão. Tese (Doutorado) — Tese de Doutorado, Programa de pós-graduaçao em Estatıstica, Universidade de Sao Paulo, 1994.
BATES, D. M.; WATTS, D. G. Nonlinear regression analysis and its applications. New York: John Wiley, p. 365, 1988.
BOLFARINE, H.; SANDOVAL, M. C. Introdução à inferência estatística. [S.l.]: SBM, 2001. v. 2.
CASTILLO, E.; HADI, A.; MINGUEZ, R. Diagnostics for non-linear regression. Journal of Statistical Computation and Simulation, Taylor & Francis, v. 79, n. 9, p. 1109–1128, 2009.
CHMIELEWSKI, M. A. Elliptically symmetric distributions: a review and bibliography. International Statistical Review/Revue Internationale de Statistique, JSTOR, p. 67–74, 1981.
CORDEIRO, G. M. Introdução à teoria assintótica. [S.l.]: IMPA, 1999.
CORDEIRO, G. M. Bartlett adjustments for overdispersed generalized linear models. Communications in Statistics—Theory and Methods, Taylor & Francis, v. 35, p. 973–952, 2004.
CORDEIRO, G. M. et al. Corrected maximum-likelihood estimation in a class of symmetric nonlinear regression models. Statistics & Probability Letters, Elsevier, v. 46, n. 4, p. 317–328, 2000.
COX, D. R.; REID, N. Parameter orthogonality and approximate conditional inference. Journal of the Royal Statistical Society. Series B (Methodological), JSTOR, p. 1–39, 1987.
CYSNEIROS, F. J. A.; PAULA, G. A.; GALEA, M. Modelos simétricos aplicados. Escola de Modelos de Regressão, 2005.
CYSNEIROS, F. J. A.; VANEGAS, L. H. Residuals and their statistical properties in symmetrical nonlinear models. Statistics & Probability Letters, Elsevier, v. 78, n. 18, p. 3269–3273, 2008.
FANG, K. T.; KOTZ, S.; NG, K. W. Symmetric multivariate and related distributions. London: Chapman & Hall, 1990.
FERRARI, S.; ARELLANO-VALLE, R. Bartlett corrected tests for regression models with Student-t independent errors. [S.l.], 1993.
Referências 37
FERRARI, S. L.; URIBE-OPAZO, M. A. Corrected likelihood ratio tests in class of symmetric linear regression models. Brazilian Journal of Probability and Statistics, JSTOR, p. 49–67, 2001.
LANGE, K. L.; LITTLE, R. J.; TAYLOR, J. M. Robust statistical modeling using the t distribution. Journal of the American Statistical Association, Taylor & Francis Group, v. 84, n. 408, p. 881–896, 1989.
RATKOWSKY, D. A. Nonlinear regression modeling. Dekker, New York., 1983. REIS, S. S. d. Diagnóstico em modelos de regressão linear e não-linear com erros simétricos. Dissertação (Mestrado) — Dissertação de mestrado, Programa de pós-graduaçao em Estatıstica, Universidade Estadual de Campinas, 2013.
TAYLOR, J. M. Properties of modelling the error distribution with an extra shape parameter. Computational Statistics & Data Analysis, Elsevier, v. 13, n. 1, p. 33–46, 1992.
TRELOAR, M. A. Effects of Puromycin on Galactosyltansferase of Golgi Membranes. Tese (Doutorado) — University of Toronto, 1974.
VENABLES, W. N.; RIPLEY, B. D. Tree-based methods. In: Modern Applied Statistics with S. [S.l.]: Springer, 2002. p. 251–269.
WEI, B.-C. Exponential family nonlinear models. Lecture Notes in Statistics 130, Springer-Verlag, 1998.
38
APÊNDICE A – Coelhos europeus na
Austrália
Idade Peso Idade Peso Idade Peso Idade Peso 15 21.66 85 105.00 225 177.68 513 203.30 15 22.75 91 101.70 227 173.73 535 209.70 15 22.30 91 102.90 232 159.98 554 233.90 18 31.25 97 110.00 232 161.29 591 234.70 28 44.79 98 104.30 237 187.07 648 244.30 29 40.55 125 134.90 246 176.13 660 231.00 37 50.25 142 130.68 258 183.40 705 242.40 37 46.88 142 140.58 276 186.26 723 230.77 44 52.03 147 155.30 285 189.66 756 242.57 50 63.47 147 152.20 300 186.09 768 232.12 50 61.13 150 144.50 301 186.70 860 246.70 60 81.00 159 142.15 305 186.80 61 73.09 165 139.81 312 195.10 64 79.09 183 153.22 317 216.41 65 79.51 192 145.72 338 203.23 65 65.31 195 161.10 347 188.38 72 71.90 218 174.18 354 189.70 75 86.10 218 173.03 357 195.31 75 94.60 219 173.54 375 202.63 82 92.50 224 178.86 394 224.82
39
APÊNDICE B – Produção de cebola
Densidade Produção Densidade Produção
22.3 148.57 49.78 99.85 25.86 125.30 50.43 111.65 29.09 150.69 51.72 98.09 29.74 147.42 61.42 87.85 31.68 117.10 65.29 75.45 31.68 116.64 67.23 87.01 32.00 129.66 71.44 90.10 32.32 131.54 73.05 81.08 32.32 151.50 86.63 65.33 34.91 121.80 96.00 58.49 35.23 125.67 98.91 65.67 38.47 117.78 103.44 67.19 39.44 101.50 105.05 54.01 41.05 113.22 111.19 60.92 41.70 136.43 113.78 53.48 44.28 117.54 119.92 61.62 45.90 87.20 120.89 26.32 46.55 107.41 126.71 61.21 48.16 129.68 138.99 41.67 48.49 104.63 146.75 45.26 48.81 114.15 160.97 46.45
40
APÊNDICE C – Programa de reabilitação
de peso
Dias Peso Dias Peso Dias Peso 0 184.35 95 146.10 170 125.40 4 182.51 102 145.60 176 124.90 7 180.45 106 142.50 179 124.90 7 179.91 109 142.30 198 118.20 11 177.91 115 139.40 214 118.20 18 175.81 122 137.90 218 115.30 24 173.11 133 133.70 221 115.70 30 170.06 137 133.70 225 116.00 32 169.31 140 133.30 233 115.50 43 165.10 143 131.20 238 112.60 46 163.11 147 133.00 241 114.00 60 158.30 148 132.20 246 112.60 64 155.80 149 130.80 70 154.31 150 131.30 71 153.86 153 129.00 71 154.20 156 127.90 73 152.20 161 126.90 74 152.80 164 127.70 84 150.30 165 129.50 88 147.80 165 128.40